Lo que no sabe el “Big Data” y sus consecuencias para la protección de la biodiversidad
Factores como la gran acumulación de datos y los avances computacionales han despertado el entusiasmo por el “Big data” en la ciencia. Pese a sus indiscutibles ventajas, este interés ha redirigido la atención hacia investigaciones con mucha estadística y poca biología, disminuyendo por ejemplo los esfuerzos para explorar ecosistemas y especies bajo amenaza. Así lo asegura en su columna de opinión Darko Cotoras PhD., investigador asociado de la California Academy of Sciences. En una época de crisis, donde hemos alterado ciclos naturales, cambiado patrones climáticos y causado extinciones, es fundamental el trabajo en terreno y práctica naturalista. Conoce aquí sus argumentos.
La reciente acumulación de grandes bases de datos, desarrollo de métodos estadísticos y disponibilidad de recursos computacionales han abierto un “nuevo” campo llamado “Data Science” o “Big Data”. Utilizando estas nuevas técnicas se ha hecho posible explorar grandes cantidades de datos a fin de encontrar patrones y correlaciones antes imperceptibles. Este ha sido el caso en una amplia variedad de ámbitos del saber, desde estudios de mercado a microbiología. Existe un gran entusiasmo sobre todas las posibilidades que este nuevo campo ofrece, pero ¿Qué es lo que no sabe el “Big Data”?
La respuesta es trivial. El “Data Science” es inútil sin datos. Por lo tanto, es importante preguntarse, ¿Para qué preguntas no tenemos los datos para encontrar su respuestas? Aún más importante, ¿Cuáles son las preguntas para las cuales no tenemos datos suficientes, sin embargo tratamos de responderlas de todos modos? Esta última situación está presente en muchas áreas, sin ser la excepción los estudios de biodiversidad y conservación.
Históricamente ha existido una larga tradición de explorar y documentar el mundo natural, la cual nos ha dado un total de más de 1.9 millones de especies descritas. Sin embargo, estimaciones teóricas indican que debe existir un total de más de 11 millones. Esta discrepancia entre el número de especies efectivamente descritas y su estimación es solo un pequeño ejemplo de lo poco que sabemos sobre la increíble diversidad del mundo natural. Nuestro grado de conocimiento es aún más precario si consideramos la disponibilidad de datos sobre historia natural, fisiología o genómica. Aún existe una gran cantidad de trabajo fundacional que hacer.
Las especies que han sido descritas corresponden a un conjunto que no es al azar dentro de toda la biodiversidad. Hasta el momento tenemos principalmente información de aquellos organismos que son más fáciles de colectar y estudiar. En otras palabras, como es de esperar, comenzamos “con las frutas al alcance de la mano”. Los organismos pequeños y difíciles de encontrar son como la “materia oscura” para los biólogos. Ellos tienen un efecto en el ecosistema, pero no sabemos qué son.
Esta falta de conocimiento puede tener profundas consecuencias para nosotros y el resto de la vida en la Tierra. A causa de nuestro actual modelo de desarrollo económico hemos afectado fuertemente el ecosistema planetario, alterando ciclos naturales, cambiando patrones climáticos y causando extinciones. El no tener una comprensión de las consecuencias de estas acciones disruptivas es como jugar a la ruleta rusa. Sin un conocimiento apropiado del mundo natural no será claro cuando alcancemos el punto de no retorno (“tipping point”) y la bala del colapso medioambiental sea disparada.
Es aquí donde el “Big Data” entra en juego. La información disponible acerca de distribuciones de especies, datos ecológicos y patrones climáticos ha demostrado tener un gran poder predictivo y ser informativo para entender la naturaleza. El problema es que todos estos datos están lejos de ser completos. Muchos aspectos tienen que ser mejor documentados a fin de poder tener un entendimiento más preciso y sólido sobre las tendencias generales conocidas a la fecha.
Documentar la biodiversidad es crítico, pues dichos “datos” son literalmente borrados cada día a causa de las extinciones. Es como rescatar libros de una biblioteca en llamas, pero peor. En el caso de la biodiversidad, los libros son a su vez los ladrillos que construyen a la biblioteca. Por lo tanto, hoy más que nunca, es esencial ir a terreno, buscar nuevas especies y aprender más de las que ya se han descubierto.
Por otro lado, los resultados de investigaciones cuyos datos no han sido previamente curados han de ser considerados cuestionables. Además, la experiencia de criar en cautiverio, colectar y describir especies entrega una gran cantidad de metadatos que siempre están presentes en la mente del experto naturalista, pero puede que no sean necesariamente codificados en las tablas de datos. Luego de hacer un análisis, una evaluación apropiada de las predicciones iniciales solo puede ser realizada por alguien que conoce al organismo y tiene acceso a esta riqueza de metadatos. Este conocimiento muchas veces generará expectativas más razonables que una simple distribución nula creada artificialmente.
Reducir los esfuerzos en la exploración de especies podría ser un error que no podamos enmendar a futuro. En la actual crisis de biodiversidad, la exploración de ecosistemas amenazados es una tarea urgente. Sin embargo, el entusiasmo por el “Data Science” ha redirigido la atención hacia programas de investigación con mucha estadística y poca biología.
Dada las fuentes limitadas de financiamiento, un nuevo campo de investigación relacionado a computadores e inteligencia artificial, podría fácilmente atraer más recursos que la práctica naturalista, que por siglos se ha realizado. De la misma manera que en interacciones de competencia entre especies reales, esta pelea desigual por recursos económicos está llevando a los naturalistas profesionales a su extinción.
Todo el trabajo involucrado en llegar a conocer íntimamente un grupo de organismos o ecosistema toma tiempo. Tiempo necesario para ir a terreno, tiempo para visitar museos, tiempo para hacer experimentos, tiempo para criar y cultivar organismos. Pero en un sistema académico sediento por publicaciones rápidas, la inversión de tiempo necesaria para crear este conocimiento difícilmente logra responder a la expectativas de productividad establecidas. Por ejemplo, el generar una sola revisión taxonómica puede tomar varios años. Mientras que un gran estudio de síntesis de datos, el cual muchas veces se basa en varias de esas revisiones, se puede efectuar en comparativamente menos tiempo. Ambos tipos de trabajo son esenciales y complementarios, pero en el mercado académico de las publicaciones uno de ellos es definitivamente más atractivo que el otro.
Mientras una revisión taxonómica es altamente especializada y de producción lenta, un trabajo de síntesis de datos se refiere a preguntas más generales y es de producción más rápida. Por lo tanto, el dedicarse a la taxonomía u otra aproximación naturalista, puede convertirse en una desventaja profesional, lo cual se traduce en una desmotivación a que se efectúa parte del trabajo de descubrimiento de biodiversidad. De esta manera, en paralelo a la extinción de especies también se extinguen aquellos que pueden reconocerlas, reduciendo así nuestra capacidad para responder al cambio climático.
El “Big Data” es una herramienta excepcionalmente poderosa, la cual se sustenta en un buen desarrollado cuerpo de evidencia. Hoy, en la medida que entramos a la llamada Sexta Extinción Masiva, el tiempo se hace poco y los datos no son muchos …
Agradecimientos a Peter Jaeger y Paloma Medina por sus sugerencias.
Darko Cotoras es biólogo evolutivo e investigador asociado de la California Academy of Sciences. Su interés se enfoca en los arácnidos y en procesos históricos que generan la biodiversidad, en particular en islas volcánicas. Su investigación combina trabajo de campo y museo, junto con técnicas moleculares y bioinformáticas.
La versión original de esta columna se titula «What Big Data does not know and the consequences for protecting biodiversity». Puedes verla en inglés aquí.