DESCRIPCIÓN GENERAL
Una parte fundamental de los estudios metagenómicos microbianos es el tener acceso a una correcta base de datos que contenga las secuencias que identifican los taxones bacterianos, para poder comparar.
Bases de datos muy extensas, muy generales, van a dar unos resultados más inexactos debido a diferentes razones, tales como:
1. Anotaciones incorrectas.
2. Sesgos en la cantidad de bacterias dentro de la base.
3. Entradas duplicadas.
4. Entradas antiguas.
5. Entradas incompletas.
6. Datos muy generales, poco específicos de un tema o rama.
El número de entradas no es sinónimo de calidad o robustez, si esto no se acompaña de datos de calidad. Grandes bases de datos, como SILVA o GreenGenes, tienen tasas de error cercanas al 20% (Edgar R. 2018. Taxonomy annotation and guide tree errors in 16S rRNA databases. PeerJ 6:e5030
https://doi.org/10.7717/peerj.5030).
Esto cobra mucha más importancia en áreas de estudio mas secundarias o donde la búsqueda de bacterias no ha sido tan exhaustiva, como, por ejemplo, suelos y/o aguas de origen industrial (agrícolas, mineros, residuos, etc.) o consumo humano.
En este sentido, el mejor enfoque pasaría por usar una base de datos concreta, derreplicada y curada para el estudio que se requiera realizar. Las características que debe tener una correcta base de datos serian:
1. Anotaciones lo más completas posibles (hasta nivel de especie, incluso subespecie o cepa).
2. Secuencias derreplicadas.
3. No sesgada.
4. Anotaciones corregidas y revisadas.
5. Secuencias actualizadas.
6. Concreta para el ámbito de estudio, revisada por expertos en el tema.
7. Que puedan abarcar toda la diversidad posible del ambiente en estudio.
Con estas líneas, presentamos la base de datos de Helix BioS del microbioma de muestras de ambientes mineros (suelos y aguas), para estudios de metagenómica basados en el rRNA 16S (bacterias). Estas secuencias han sido buscadas y curadas por nuestro equipo de profesionales, en las principales bases de datos, como Refseq, SILVA, LPSN, etc.
Cada secuencia ha sido analizada y corregida, eliminando duplicadas, secuencias con errores, revisando la taxonomía y actualizándola. Se han buscado las especies ambientes mineros como tierras, aguas, escombreras, etc.
De este modo, esta base de datos se ofrece como una base de datos curada, concreta para el estudio de suelos y/o aguas de entornos agrícolas y con datos de calidad, que permite que los estudios taxonómicos, en los cuales sea usada, den resultados robustos y seguros.
COMPOSICIÓN Y ESTRUCTURA
Se presentan dos bases de datos, ambas contienen la misma información taxonómica del rRNA 16S pero el formato está adaptado para ser usado con diferentes algoritmos:
- Especifica: esta base de datos es la que recomendamos usar para alineadores tipo BLAST, CD-HIT, etc.
- Sintax: esta base de datos esta formateada para usarla con algoritmos predictivos como Sintax (usearch), Vsearch, etc.
Ambas están compuestas por 5836 entradas de diferentes taxones bacterianos asociados a su secuencia de 16S. Todos ellos están identificados hasta nivel de especie y/o subpoblación/cepa. Todas las entradas han sido curadas y derreplicadas, obteniendo una base de datos de gran calidad para los estudios de Metabarcoding de ambientes Agrícolas.
All rights reserved