es-ESen-US
Investigación  >  Bioinformática para todos




 

 

El mensaje escondido en los genes son las proteínas.

Las características de un organismo están determinadas por los genes, los cuales son secciones pequeñas del material genético (ADN) que contienen las instrucciones para fabricar las proteínas. Las proteínas son unidades estructurales y funcionales de la vida, encargadas de construir y mantener los componentes biológicos a diferentes niveles, desde las células y los tejidos hasta los sistemas y organismos. El mensajero entre el gen y la proteína obtenida es el ARN, que actúa como paso intermediario en la producción del segundo a partir del primero.

La totalidad del material genético de un organismo, incluyendo el conjunto de todos los genes, se llama genoma. Cuando los científicos estudian el ADN les interesa saber la estructura que poseen los genes, para poder demarcarlos dentro de la inmensidad del genoma y posteriormente identificar la o las proteínas que codifican, y predecir su función. El proceso que implica describir las características estructurales o funcionales del ADN y las proteínas se denomina anotación.

¿Qué hace una proteína lo que es?

Una proteína se puede describir de acuerdo a su secuencia y su estructura tridimensional. La secuencia proviene de las instrucciones contenidas en el gen, la cual determina a su vez como se organiza la proteína estructuralmente en el espacio.

Las funciones de las proteínas pueden ser predichas con respecto a su secuencia y estructura. A partir de proteínas con función conocida, que se encuentran catalogadas en bases de datos, se puede inferir la función de proteínas desconocidas. La importancia de conocer la función de las proteínas radica en que están directamente conectadas con los caracteres observables de los organismos, puesto que los cambios en las secuencias determinan las escalas de variación observables en estos caracteres.

 

 

 

Existen diversos programas para la anotación de genes y genomas, uno de ellos es MAKER, el cual permite utilizar diferentes herramientas en un solo flujo de análisis bioinformático (pipeline) y que comprende los siguientes pasos:

 

 

Enmascaramiento de elementos repetitivos

 

Dentro del genoma se encuentran muchas secuencias repetitivas, que van desde pocos nucleótidos repetidos muchas veces hasta estructuras complejas. Dada su naturaleza repetitiva y que algunos son elementos que se multiplican al saltar un lugar a otro en el genoma, estos elementos pueden interferir en la identificación de los demás genes, razón por la cual es necesario identificarlos y ocultarlos de los análisis bioinformáticos posteriores.

Predicción de genes basado en métodos ab initio y en evidencias

Los genes tienen una estructura más o menos conservada, con ciertas características al inicio y al final de estos, lo que permite crear modelos matemáticos identificar su presencia y ubicación en un genoma o secuencia dada. Este método de predicción de genes basado en modelos matemáticos se conoce como ab initio, y existen diferentes programas que lo realizan, de los cuales algunos se encuentran integrados en MAKER. Por otro lado, utilizando información de bases de datos de expresión y proteínas conocidas, es posible identificar las regiones con homología o similitud a la información presente en las bases de datos, y predecir los modelos de genes basados en evidencias.

 

Modelos de genes más consistentes según las evidencias

Los modelos de genes representan hipótesis sobre la estructura de las secuencias codificantes provenientes de un gen, los cuales están basados principalmente en evidencias como secuencias codificantes conocidas y disponibles en bases de datos.
Los modelos producidos por predicciones ab initio y basadas en evidencias pueden ser correctos, parcialmente correctos o totalmente erróneos, por lo cual idealmente se recomienda unir estas dos informaciones, asignando puntuaciones que permitan determinar que modelos son más confiables, precisos y representativos, dando mayor peso a la evidencia.

 

Visualización de la anotación

El resultado de las anotaciones de los genes puede ser visto directamente en el computador o puede ser cargado en páginas web que permiten navegar las características de los genes anotados, a través de herramientas diseñadas para la descripción, el análisis, visualización y la distribución de la anotación. Uno de los programas más utilizados actualmente para visualización y exploración de datos de genoma es JBrowse, derivado de GBrowse, uno de los primeros visualizadores.

 


 

En la actualidad contamos con una cantidad inimaginable de datos que provienen de la célula como sistema de información. Toda esta información se almacena, procesa, usa y mantiene en bases de datos que van incrementándose por la incorporación de secuencias proporcionadas por investigadores de todas partes del mundo. Estas bases de datos son accesibles desde cualquier lugar de la tierra a través de internet y contienen información no sólo de secuencias de ADN o secuencias proteicas, sino que tienen asociado toda una colección de publicaciones y textos científicos. Las secuencias de ADN se mantienen en tres grandes bases de datos que sirven a la comunidad científica: EMBL (European Molecular Biology Laboratory), GeneBank (the NIH genetic sequence database) y DDBJ (DNA Database of Japan).

En el año 2000 Francis Collins director del proyecto del genoma humano, dijo: “Entre los próximos cinco a siete años, deberemos ser capaces de identificar los factores genéticos de susceptibilidad para virtualmente todas las enfermedades comunes como cáncer, diabetes, enfermedades del corazón y las principales enfermedades mentales. A partir de eso tendremos la habilidad de hacer predicciones acerca de quien está en riesgo…” “por lo que posiblemente a 15 años toda la información generada en el proyecto genoma humano llevará a una nueva generación de terapias más exitosas y efectivamente dirigidas al problema básico, de las que tenemos ahora”. Sin embargo ese día ya ha llegado y aún no hemos logrado ninguna de esas proyecciones, ¿Qué pudo haber pasado? A pesar de lo que se pensaba, el verdadero obstáculo para desentrañar la información contenida en todo el genoma, en este caso “el humano”, no era secuenciarlo, sino descifrar el código que se esconde dentro la secuencia que lo compone (link a pregunta 1), por eso con los años venideros se ha visto que es muy importante entrenar científicos (bioinformáticos) que puedan y sepan analizar a profundidad todo tipo de datos genéticos y no solo generarlos.

En consecuencia, ha surgido una gran explosión de herramientas bioinformáticas asociados a diferentes análisis genéticos y estudios disponibles, con los cuales cada día que pasa logramos entender un poco más que podemos hacer en realidad con toda la información disponible.

Pero ¿cuánta es la información disponible?: Si nos basáramos en los datos de secuencias por genes obtenidos hasta ahora -196.120.831- se requerirían aproximadamente unos 20 exabytes de espacio de almacenamiento [1 exabyte equivale a 200.000 películas de Blueray], desde que en 1992 el GeneBank hizo accesible su base de datos de secuencias de ADN. Sin embargo, con las nuevas tecnologías de secuenciación masiva estos datos rápidamente se han convertido en el doble de las secuencias -359.796.497- generadas en tan solo 14 años.

También debemos tener en cuenta que a medida que pasa el tiempo, se han generado nuevas técnicas (genómica funcional y estructural, epigenómica, metagenómica), que nos han llevado a mundos no explorados por la ciencia hasta hace muy poco. Ahora podemos obtener cuáles y cuántas son todas las proteínas que forman un organismo, también encontrar todos los metabolitos que recorren nuestro cuerpo y reconstruir las rutas que coordinan el funcionamiento de los organismos, entre otras. Y es que sólo hasta este momento es que empezamos a entender el alcance que se tendrá en años futuros. Por ejemplo, ahora ya somos capaces de integrar la medicina y la genómica a nivel poblacional, pudiendo empezar a entender como las enfermedades hereditarias y la respuesta a drogas viene dictada en parte por nuestra composición genética; también empezamos a dilucidar la base de la vida, pudiendo crear organismos parcialmente sintéticos, incluso es posible que en los próximos años seamos capaces de crear el primer organismo vivo en un laboratorio. Pero también hemos entendido que la información genética puede ser utilizada para ayudar a mitigar el impacto que hemos generado en toda la naturaleza mundial, por ejemplo usando datos genómicos podemos formular planes de conservación con el fin de evaluar como una población ha sido afectada por procesos evolutivos y por lo tanto encontrar cuáles son sus patrones de variación.

Hasta este momento la información genética nos ha servido, no sólo en disciplinas o áreas de conocimiento como la genética, la medicina y la biología molecular, sino que también involucra a la virología y la microbiología, por el procesamiento que merecen tantas y tantas secuencias de virus y de bacterias. Además cómo no incluir la estadística y las ciencias de la computación cuando nos encontramos con terabytes o exabytes de información. Y, por supuesto, no hay que olvidar las disciplinas centradas en el uso eficiente de los sistemas informáticos cuando es necesario y evidente que la información contenida en terabytes/exabytes sólo podrá ser almacenada y analizada gracias a la informática.



Para ser la especie que somos hoy en día, hemos tenido que recorrer un camino de apariciones y desapariciones, pasando por una serie de cambios a nivel genético que han conferido diferenciación y variación en el ADN, involucrando distintas especies las cuales durante su vida y reproducción mutaron para dar como resultado nuevas especies con mayor capacidad de adaptarse al ambiente que los rodeaba. Por lo tanto la evolución biológica tiene lugar no sólo a través de las mutaciones si no debido también al flujo genético entre los individuos de una población con otra.

En la línea de evolución humana se encuentran involucrados al menos cinco especies, algunas de los cuales llegaron a cohabitar en la historia del planeta. Se tiene conocimiento que el antepasado más antiguo del hombre actual vivió hace 3.2 millones de años aproximadamente en Afar-Etiopía y es conocida como Lucy, aunque pertenece a la especie Australopithecus afarensis. A continuación, le siguieron las especies Homo habilis, Homo erectus, Homo neanderthalensis, Homo sapiens, hasta ser hoy Homo sapiens sapiens.

Sin embargo nos asaltan nuevas preguntas:



Para dar respuesta a dichas preguntas, existe en la actualidad una rama mixta entre las ciencias naturales y la computación que se llama Biología evolutiva computacional, que es la encargada de estudiar el origen ancestral de las especies, así como de su cambio a través del tiempo empleando bioinformática, para seguir la evolución de un alto número de organismos midiendo cambios en su ADN, en lugar de hacerlo exclusivamente mediante su parecidos físicos. También permite la comparación de genomas completos, con el fin de llevar a cabo estudio de eventos evolutivos más complejos, tales como la duplicación de genes, la transferencia horizontal de genes, o la predicción de factores significativos en la especiación. O por otra parte, ayuda en la construcción de modelos computacionales complejos de poblaciones para predecir el resultado del sistema a través del tiempo. 

Además es así como analizando secuencias y genomas entre diferentes especies que se puede encontrar cambios entre las mismas, proporcional al tiempo evolutivo en que han divergido, lo que conlleva al establecimiento de un reloj molecular que nos permite datar eventos de especiación o extinción de linajes, generando de esta manera un rastreador de la historia evolutiva de los organismos. Todas las similitudes y divergencias encontradas a menudo se analizan y visualizan a través de árboles filogenéticos que son una representación gráfica de los ancestros comunes de un grupo de interés, sus grupos hermanos y grupos naturales, sin embargo los árboles filogenéticos no se limitan a determinar las relaciones entre organismos, sino que usan esa información para hacer inferencias adicionales como la aparición de novedades evolutivas importantes, haciendo la interpretación de los resultados más interesante, precisa y robusta.



Lo primero que podemos concluir, es que existen factores adicionales a la secuencia de los genes que afecta la expresión de éstos (la cantidad de veces que un gen, ADN, se copia en ARN). Este interrogante ha sido investigado durante muchos años en todo el mundo y por distintos grupos de científicos, que con sus investigaciones nos han ayudado a entender que los genes no son todo, que efectivamente, igual o más importante es la expresión de éstos y es ella quien dicta en gran medida el desarrollo y el funcionamiento de los organismos.

Uno de esos grandes descubrimientos de la genética es que el ambiente afecta profundamente la expresión de los genes, sin necesidad de alterar la secuencia de éstos. Es por eso que dos gemelos con un genoma idéntico pueden presentar grandes diferencias físicas y fisiológicas. Al estudio de las modificaciones que afectan el genoma, sin necesidad de alterar su secuencia, se le denomina epigenética y entre los mecanismos biológicos que producen estos cambios están la metilación del ADN (adición de grupos metilo a los nucleótidos) y la modificación de las histonas (proteínas que organizan el ADN).

En general las modificaciones epigenéticas tienen como consecuencia apagar o encender los genes, en el caso particular de las metilaciones del ADN, se ha podido determinar que las regiones metiladas son secciones del genoma que se encuentran apagadas, por lo tanto esos genes no podrán expresarse.

Pero uno de los grandes obstáculos que se encontraron al estudiar las modificaciones epigenéticas del genoma, es que existen miles de ellas y si las estudiáramos una a una, se haría imposible comparar todas las modificaciones del genoma de una persona contra las de otra.

Pero en los últimos años el gran avance en las técnicas de secuenciación y de análisis de datos genómicos, han llevado a que podamos identificar modificaciones epigenéticas en masa. Por ejemplo si queremos ver como se distribuyen las metilaciones del ADN sobre todo el genoma, podemos implementar técnicas de secuenciación que solamente identifican fragmentos de ADN que hayan sufrido esa modificación epigenética y al final tendríamos como resultado un mapa de las metilaciones sobre el genoma.

Volviendo a los gemelos, una vez que se ha obtenido el mapa genómico se determina la modificación epigenética y la cantidad de expresión génica en los dos hermanos gemelos, se pueden correlacionar y determinar porque se encuentran diferencias de dicha expresión aunque el genoma sea el mismo. En general, lo que la mayoría de científicos han encontrado es que evidentemente el genoma es igual, pero el epigenoma no lo es.

En conclusión no solo somos lo que los genes nos hacen, también somos lo que el ambiente nos transforma.



La mayor parte de la diversidad biológica de la Tierra no la podemos ver; se encuentra oculta a nuestros ojos en un mundo microscópico ampliamente distribuido por todos los ambientes -terrestres, acuícolas y aéreos. Los microorganismos, como bacterias, hongos, protistas, microalgas, entre otros, componen este mundo oculto y son el grupo de seres vivos con mayor diversidad taxonómica y funcional del planeta, representando una amplia e inagotable fuente de recursos biológicos esenciales para el funcionamiento de los ecosistemas, la descomposición de la materia y el ciclaje de nutrientes y energía, los ciclos biogeoquímicos y otras funciones importantes.

Al igual que para los ecosistemas, la microbiota también tiene una gran influencia sobre los animales y plantas; por ejemplo, es necesaria para que ciertos organismos puedan establecerse en un ambiente dado, o contribuyen a la salud de otros seres vivos estableciendo relaciones simbióticas. Por otro lado, algunos microorganismos pueden ser perjudiciales en ciertos casos, ocasionando enfermedades o alteraciones fisiológicas en fauna y flora, así como alterando el equilibrio de los ecosistemas.

En cualquier contexto, los microorganismos representan un grupo de seres vivos de alta importancia para la vida en la Tierra, para los cuales el estudio de su diversidad en diversos ambientes, incluyendo suelos, aguas, organismos y ambientes extremos, ha representado un tema de amplio interés.



La influencia de la microbiota sobre los ecosistemas y los organismos está relacionada con la diversidad estructural y diversidad funcional de las comunidades de microorganismos. La primera representa la identidad taxonómica, riqueza y abundancia de la comunidad microbiana, los cuales varían espacio-temporalmente, y son importantes para caracterizar los ambientes.

A medida que los científicos han descubierto qué hay en las comunidades microbianas, les ha interesado conocer qué están haciendo; de esta manera, la diversidad funcional hace referencia a las capacidades funcionales de los microorganismos en cuanto a sus productos enzimáticos y metabólicos que están involucrados en los procesos biológicos y ecológicos de las comunidades microbiana. El conocimiento de la funcionalidad de la microbiota permite generar hipótesis sobre un ambiente en cuanto a su estabilidad, salud y resiliencia, a través de la distribución, potencial bioquímico y biológico, la complejidad de interacciones, niveles tróficos y gremios presentes en su microbiota.



Los microorganismos son un componente fundamental de la diversidad biológica, sin embargo cerca del 99% de ellos no se pueden aislar por métodos de cultivo microbiológico que permitan su estudio en el laboratorio (conocidos como microorganismos no cultivables), debido a la falta de nutrientes y condiciones adecuadas de cultivo, o a que algunos microorganismos requieren la presencia de otros para poder crecer. Si la gran mayoría de la diversidad microbiana es indetectable, entonces ¿cómo se ha logrado conocer?

La metagenómica es un método independiente del cultivo en laboratorio, que permite analizar la diversidad genética, la estructura poblacional y funciones de la microbiota total en una muestra ambiental a través del estudio de los genomas microbianos.

Los datos metagenómicos provienen de la secuenciación del ADN genómico total extraído de una muestra ambiental, el cual incluye ADN de los microorganismos presentes; estos datos luego son analizados por bioinformática, a través de dos análisis complementarios:

Análisis de diversidad taxonómica
Utilizando secuencias genéticas específicas –ribosomales 16S, 18S e ITS-, que permiten diferenciar los microorganismos por niveles taxonómicos, así como estimar su riqueza y abundancia.

Las secuencias ribosomales están presentes en el genoma de todos los seres vivos y su variación genética ha permitido clasificar e identificar los organismos por grupos taxonómicos, desde los tres grandes reinos de la vida hasta el nivel de especie. Las bacterias, archaeas y microorganismos procariotas se identifican con base en sus secuencias 16S, mientras que los hongos, microalgas y otros microorganismos eucariotas se identifican por sus secuencias 18S y/o ITS.

El flujo bionformático para el análisis taxonómico a partir de datos metagenómicos incluye:

  • Agrupar las secuencias ribosomales por similitud, permitiendo diferenciar los grupos de microorganismos presentes.
  • Comparar los grupos identificados contra las bases de datos para determinar su taxonomía hasta el mayor nivel posible.
  • Cuantificar abundancia y riqueza de los grupos taxonómicos representados.
  • Calcular índices de diversidad y otros estimativos de diversidad biológica de las comunidades microbianas analizadas, permitiendo hacer inferencias sobre la estructura poblacional.
Análisis de diversidad funcional
Mediante la identificación de genes involucrados en actividades enzimáticas, vías metabólicas y funciones biosintéticas que permitan inferir los procesos celulares y bioquímicos llevados a cabo por la comunidad microbiana.

El flujo bionformático para el análisis funcional a partir de datos metagenómicos incluye:

  • Comparar los datos de secuenciación contra bases de datos de secuencias genéticas con el fin de identificar genes por homología.
  • Traducir las secuencias genómicas de los genes identificados a proteínas, que luego serán anotadas funcionalmente contra bases de datos y herramientas de predicción funcional.

 




El genoma es el lugar donde se encuentran las instrucciones para construir cualquier organismo viviente. Dichas instrucciones están codificadas por una molécula, llamada ADN (Ácido desoxirribonucleico), cuyas características la hacen capaz de guardar enormes cantidades de información. El ADN se asemeja a una larga escalera doble en espiral, donde cada peldaño corresponde al apareamiento entre dos moléculas representada por las letras A, T, G y C. La asociación siempre se hace entre las letras A y T, y la G con la C. Cada organismo tiene un número determinado de moléculas de ADN por célula, empaquetados en estructuras compactas llamadas cromosomas. Dentro de cada cromosoma existen secuencias con una estructura bien determinada llamados genes, que codifican cada uno las instrucciones para la producción de un producto específico, conocidos como proteínas. Las proteínas a su vez son las unidades estructurales y funcionales de la vida, encargadas de construir y mantener los componentes biológicos a diferentes niveles, desde las células y los tejidos hasta los sistemas y organismos.

Son las variaciones en el orden de las letras y en la longitud de las moléculas de ADN, que hacen de cada organismo algo único e irrepetible. Si comparamos las diferencias entre el ADN de cualquiera de nosotros veremos que aproximadamente el 99.9% de los genes son iguales, y que aquello que nos hace diferentes está representado en apenas el 0.1% de ellos. Para llevar a cabo dichas comparaciones es necesario secuenciar el genoma. Hacerlo es equivalente a tomar una copia de “El Ingenioso Hidalgo de Don Quijote de la Mancha”, fotocopiar cada una de las páginas del libro diez veces, pasar cada hoja por una trituradora de papel, y tratar luego de re-ensamblar una de las copias del libro para que pueda ser leída. De ninguna manera es lo mismo secuenciar el genoma de una bacteria, que el de un humano, o el de un pino, puesto que el primero equivaldría a uno de los cuentos de los Hermanos Grimm, el de un humano al Quijote, mientras que el de un pino equivaldría a varios tomos de una enciclopedia.

Dada la complejidad de la tarea que representa secuenciar un genoma, lo primero que hay que tener en cuenta son los motivos por los cuales se requiere realizar dicha secuenciación, que pregunta (biológica o médica) se quiere responder con la secuencia, y si ella amerita la realización de un proyecto de esta envergadura. Una vez que se ha determinado la importancia de obtener la secuencia, varios datos importantes deben ser tenidos en cuenta para establecer las condiciones y los recursos con los que se va a llevar a cabo la secuenciación: Tamaño del genoma del organismo, la complejidad del mismo, el número de cromosomas que posee, el nivel de detalle al que se quiere llegar, si existen o no genomas relacionados ya secuenciados, y lo más importante, el presupuesto disponible para hacerlo.

En los últimos cinco años ha habido una revolución en la secuenciación de genomas, gracias al desarrollo y a la popularización de las nuevas plataformas de secuenciación, que permiten en la actualidad obtener millones de lecturas (secuencias cortas) de forma cada vez más rápida y económica. Es así, que el costo cercano a 2.700 millones de dólares y los casi trece años que tomó terminar la secuenciación del primer genoma humano, no son en nada comparables a los algo más de mil dólares y la semana de tiempo que toman actualmente re-secuenciar el genoma de cualquiera de nosotros.



Para secuenciar un genoma se necesitan varios pasos que van desde la extracción del ADN, hasta los análisis bioinformáticos necesarios para reconstruir el genoma secuenciado. Cada uno de los pasos puede presentar variaciones, dependiendo de la metodología y la tecnología utilizada para ello. Existen dos tipos de metodologías para la secuenciación de genomas: El primero organizado de forma jerárquica, llamado clon por clon, en donde el ADN es fragmentado en segmentos grandes (entre 100 y 200 mil letras cada uno) e introducido dentro de una bacteria que se encarga de replicarlo. Muchos clones son así obtenidos y conservados, cada uno de ellos siendo portador de un fragmento único del genoma en estudio. Luego cada fragmento es secuenciado y organizado de forma individual. Es como si cada hoja de un libro fuera copiada, destruida y reconstruida de forma individual, de forma en que solo queda tratar de organizar las hojas reconstruidas en el orden original. El segundo tipo de metodología, llamada secuenciación aleatoria del genoma (Whole genome shotgun sequencing) implica fragmentar la totalidad del genoma, y secuenciar cada uno de los fragmentos obtenidos. Siguiendo con la analogía, esto equivaldría a fotocopiar cada página del libro varias veces, destruirlas todas juntas, y tratar luego de re-ensamblar una de las copias del libro con ellas. Como es de esperarse, la primera permite una reconstrucción más fácil del genoma en estudio, sin embargo sus costos son mucho más elevados y los tiempos requeridos más importantes. Este tipo de metodología es la que ha sido utilizada en el primer genoma de referencia humano, y en los proyectos emblemáticos en animales y plantas. Con la llegada de las nuevas técnicas de secuenciación, hubo un vuelco hacia la secuenciación aleatoria de los genomas, dado sus costos y tiempos requeridos cada vez más reducidos. Es así que todos los proyectos de secuenciación genómica de los últimos cinco años han sido realizados en base a dichas tecnologías.



Para secuenciar un genoma el primer paso es recuperar el ADN del organismo. Para ello se necesita una muestra suficientemente grande de material (sangre, saliva, hojas, dependiendo del tipo de organismo), a partir de la cual se busca obtener las moléculas de ADN lo más intactas posibles, por medio de un proceso que busca liberar el ADN de cada una de las células presentes en la muestra y purificarlo. Una vez obtenido el ADN es procesado para permitir su secuenciación, siendo los pasos requeridos dependientes del tipo de tecnología utilizada.



Existen actualmente dos tipos de secuenciación. La primera depende de la obtención de copias a partir de las moléculas originales, que son posteriormente replicadas (copiadas) bajo la observación de una máquina que toma una fotografía tras la incorporación de cada letra. Siguiendo esta metodología se obtienen cientos de millones de pequeñas secuencias (de entre 100 y 500 letras). Como preparación a ésto, las moléculas de ADN purificadas son cortadas de forma aleatoria en fragmentos más pequeños y de tamaño homogéneo (llamadas librerías). Dicho procesamiento puede ser llevado a cabo varias veces, variando para cada una de ellas los tamaños de fragmentos obtenidos, lo que facilita la posterior reconstrucción de las secuencias.

El otro tipo de secuenciación, toma una sola molécula de ADN purificada (de un tamaño de algunos miles de letras) y empieza a copiarla directamente tomado una foto tras la incorporación de cada una de las letras. El proceso se repite para millones de ellas, lo que permite obtener millones de secuencias largas (de miles de letras) para cada muestra procesada.



Una vez todas las pequeñas secuencias (lecturas) han sido obtenidas, es necesario reconstruir el genoma, de la forma más fiel a la original. La metodología a utilizar depende de nuevo del tipo de máquinas que fueron usadas al momento de la secuenciación. Para los millones de secuencias cortas, se utilizan algoritmos (programas de computador) basados en los grafos de Bruijn (DBG - De Bruijn graph assembly), que son representaciones de los solapamientos entre fragmentos cortos de secuencias llamados k-meros; mientras que para las secuencias más largas, se usan los ensambladores basados en el consenso por solapamiento (OLC – Overlap/Layout/Consensus assembly), donde se utiliza la similitud entre secuencias para determinar el orden de las secuencias. En ambos casos las lecturas obtenidas son introducidas a los programas de ensamblaje, capaces de entregar de fragmentos únicos reconstruidos (llamados contigs). Lo que se busca posteriormente es reorganizar dichos contigs con la ayuda de informaciones adicionales que permitan organizarlos para construir lo que se llama scaffolds (super-contigs), y si es posible, llegar a imitar el orden existente dentro de los cromosomas, en las llamadas pseudo-moléculas.

Como es de esperar, la reconstrucción de un genoma es un proceso dispendioso, cuyos resultados dependerán de muchos factores como la calidad de la secuenciación, la metodología utilizada, la cobertura utilizada (cuantas veces está representada la totalidad del genoma dentro de las lecturas obtenidas) y la información adicional que se disponga. Dado el hecho que la mayor parte de los proyectos de secuenciación de genomas se basan en la secuenciación aleatoria (shotgun), es de esperarse que en su gran mayoría lo que se obtiene al final es un borrador aproximativo del genoma en estudio, cuyo nivel de refinamiento depende de los factores mencionados anteriormente. En la actualidad solo existen unos cuantos genomas totalmente secuenciados y finalizados, todos ellos, como los genomas de referencia humano, del ratón, de Arabidopsis (pequeña planta de la familia de las brasicáceas, que ha sido utilizada como modelo en plantas), y del arroz, fueron obtenidos en base a la metodología de clon por clon. La gran mayoría de los genomas secuenciados hasta el momento se pueden catalogar como borradores de alta calidad, y borradores mejorados de alta calidad, dependiendo del grado de refinación de los datos. Es de esperar, que con el avance en las tecnologías de secuenciación muchos más genomas lleguen a ser totalmente terminados en los años venideros. Solo queda por anotar que una vez un genoma es obtenido, queda aún un enorme trabajo por hacer, y éste se centra en tratar de descifrar el mensaje escondido que hay en los genes.



Las proteínas desempeñan un papel fundamental para la vida y el crecimiento de los organismos. Son las biomoléculas más diversas y versátiles, ya que realizan un gran cantidad de funciones diferentes entre las que cabe destacar: estructural, inmunológica, enzimática, protectora o defensiva, etc. Las proteínas están determinadas en gran medida por su genética, es decir, la información genética determina en gran parte que proteínas tiene una célula, un tejido y un organismo.

Estas biomoléculas están constituidas por cadenas de aminoácidos y tiene múltiple niveles de organización. La organización básica es la estructura primaria, la cual hace referencia a la secuencia de una cadena de aminoácidos, es decir, el orden lineal de sus aminoácidos. Un aspecto importante de esta estructura es que determina la estructura tridimensional de las proteínas y a su vez, determina la función biológica de ellas, por lo que alguna alteración en esta estructura puede producir resultados lamentables.

La estructura secundaria es la forma en que la cadena de aminoácidos se pliega en el espacio debido a las interacciones entre los aminoácidos de la secuencia a través de enlaces de hidrógenos, además existen diferentes estructuras secundarias definidas, las más importantes son llamadas hélices alpha y hoja plegada beta. La estructura terciaria es la manera en la que se organizan en el espacio tridimensional la cadena polipeptídica (cadena lineal de aminoácidos unidos por enlaces peptídicos), esta disposición ocurre cuando ciertas atracciones se encuentran presentes entra las hélices alpha y la hojas plegadas beta. La estructura cuaternaria solo está presente en algunas proteínas y hace referencia a la agrupación de varias cadenas polipeptídicas que se interconectan, dicho en otras palabras algunas proteínas están formadas por varias subunidades, por ejemplo la hemoglobina está conformada por la unión de cuatro subunidades (cadenas polipeptídicas), las inmunoglobulinas.



Las alteraciones en la estructura primaria de las proteínas pueden pasar desapercibida o pueden ocasionan grandes cambios, estas alteraciones conocidas como mutaciones son cambios que pueden ocurrir en las proteínas, estas mutaciones pueden cambiar aminoácidos o la conformación estructural de las proteínas ocasionando que no funcionan correctamente o fallen completamente, algunos de estas alteraciones pueden afectar nuestra salud al causar una enfermedad.

Una mutación silenciosa es aquella en la cual se cambia a un aminoácido por otro similar, sin perturbar las estructura tridimensional o la función de la proteína, por ejemplo el cambio del aminoácido acido aspártico por el aminoácido acido glutámico no genera ningún cambio en la proteína ya que cambia un aminoácido apolar por otro apolar. En el caso que estos cambios de aminoácidos afecten la estructura tridimensional o la función de la proteína se conocen como mutaciones no silenciosas, por ejemplo, el cambio de un aminoácido con carga positiva por un aminoácido de carga negativa, puede traer este tipo de alteraciones.



Uno de los casos más estudiados de los efectos ocasionados por los cambios en las proteínas o mutaciones, es la anemia falciforme, enfermedad genética con síntomas severos ocasionada por la versión mutada del gen que genera la hemoglobina (proteína que transporta el oxígeno en las células de la sangre).

La mutación cambia ligeramente la forma de la molécula de hemoglobina, lo que no le permite agruparse y cumplir a cabalidad con su función, como se observa a continuación:



La hemoglobina normal (izquierda) y la hemoglobina en los glóbulos rojos falciformes (derecha) con un aspecto diferente.



La conexión entre los cambios en las proteínas y las enfermedades se logró establecer gracias a estudios bioinformáticos que fueron capaces de identificar regiones donde se encontraban cambios en los aminoácidos. Hoy en día, contamos con diferentes herramientas bioinformáticas que se han hecho imprescindibles para mejorar el conocimiento del funcionamiento de los seres vivos, especialmente los humanos, con el fin de obtener aplicaciones para la detección, manejo y tratamiento de muchas enfermedades.

Año tras año, se sigue en la búsqueda de nuevas aplicaciones que nos ayuden en la identificación de posibles cambios en las proteínas que nos permitan entender mejor la forma en estos cambios promueven la aparición de diferentes enfermedades. Aprovechando la gran cantidad de bases de datos con información disponible sobre las variaciones genéticas con características moleculares que puedan afectar la función molecular (SNP, Polimorfismo de un solo nucleótido) y la implementación de métodos estadísticos que se han desarrollado para predecir mutaciones que pueden tener un efecto molecular.



Los investigadores cuentan con diferentes estrategias para la detección de cambios o alteraciones que pueden afectar nuestra salud al causar una enfermedad, una de las más frecuentes es la anotación de SNP humanos en la estructura de las proteínas, mediante la identificación de la posición de SNPs en la estructura de proteínas conocida o predicha. Para ello, es posible emplear diferentes bases de datos como: LS-SNP (http://modbase.compbio.ucsf.edu/LS-SNP//), SNPs3D (http://snps3d.org/), MutDB (http://www.mutdb.org/), y PolyDoms (http://polydoms.cchmc.org/polydoms/).

La anotación de SNPs en sitios funcionales conocidos, es otra estrategia que hace uso de múltiples herramientas bioinformática disponibles que predicen los sitios funcionales sobre las secuencias y estructuras de las proteínas, por ejemplo; los residuos catalíticos de las enzimas, las proteínas y residuos de unión al ADN, interacciones de proteínas y modificaciones postraduccionales. Dentro de estas herramientas bioinformáticas que integran la anotación de variación genética (SNPs) y sitios funcionales de la proteína, cabe destacar a la base de datos Recurso Universal de Proteínas-UNIPROT (Uniprot, http://www.pir.uniprot.org/), SNP Function Portal (http://brainarray.mbni.med.umich.edu/Brainarray/Database/SearchSNP/snpfunc.aspx), SNPeffect (http://snpeffect.vib.be/) y PupaSuite (http://pupasuite.bioinfo.cipf.es/).

También se han desarrollado herramientas que nos permiten predecir sí la sustitución de un aminoácido afecta la función de la proteína o fenotipos, dichas herramientas utilizan características basadas en la secuencia, estructura o función conocida  con las que hacen entrenamiento de datos experimentales o sustitución en alelos humanos asociados a enfermedades. Un ejemplo de ello, es el caso de SIFT –Clasificación Intolerante de Tolerante (http://blocks.fhcrc.org/sift/ SIFT.html), PolyPhen- -Fenotipoficación de polimorfismo (http:// genetics.bwh.harvard.edu/pph/), PMut (http:// mmb2.pcb.ub.es:8080/PMut/), SAPRED -Predictor entre la asociación Polimorfismos de un Soló Aminoácido (SAPs) y enfermedad (http:// sapred.cbi.pku.edu.cn/), SNAP- Detección de polimorfismos no aceptables (http:// cubic.bioc.columbia.edu/services/SNAP/), Parepro- Predicción de Probabilidad de Reemplazo de Aminoácido (http://www.mobioinfor.cn/parepro/) y PANTHER- Análisis de proteínas a través de las relaciones evolutivas (http://www.pantherdb.org/).