• librAIry-BioNLP: Un servicio abierto para la anotación de textos con códigos ATC (Sistema de Clasificación Anatómica, Terapéutica, Química) de principios activos (nivel 5) y subgrupos químicos (nivel 4), que puede ser utilizado por cualquier usuario o desarrollador que desee realizar anotaciones sobre textos (código fuente).

  • CORD19-Repository: Un repositorio documental que facilita el procesamiento automático de las publicaciones científicas disponibles en el corpus CORD-19 mediante la creación de los siguientes recursos:

  • Un modelo probabilístico de tópicos entrenado con este corpus de documentos. Este modelo identifica los términos más descriptivos, en el contexto de este corpus, para 3.253 medicamentos identificados a través de su código ATC. Para cualquier texto este modelo nos puede decir los medicamentos que se han utilizado más habitualmente en textos similares. Por ejemplo, las palabras que aparecen asociadas más frecuentemente a la combinación de los principios activos estreptomicina e isoniazida, utilizados para el tratamiento de la tuberculosis (cuyo tópico se corresponde con el código ATC: J04AM01) son: feline, fcov, fipv, fcv, fecv, ccov, mnv, norovirus, fip y serotype.

  • Un grafo de principios activos, relacionados entre sí por las intersecciones en las distribuciones de palabras de los documentos en los que aparecen, de acuerdo con el modelo de tópicos anterior. La representación visual de este grafo está disponible en formato reutilizable para que pueda ser utilizado por los investigadores. Algunas otras representaciones se ofrecen a continuación:

Grafo Grafo 2

  • Una interfaz de navegación, desarrollada en colaboración con el AI.nnovation Space, que permite hacer búsquedas de palabras clave o términos compuestos generados automáticamente a partir de los textos, y navegar por los artículos científicos cuyo formato PDF está disponible de manera abierta. Por el momento, estos documentos representan una muy pequeña fracción de todos los artículos publicados en el corpus (menos del 3%), aunque se irán incorporando al sistema según se vayan liberando. Por ejemplo, como se muestra en la figura, si se teclea la palabra “molecule”, el sistema sugiere, entre otros, los siguientes términos compuestos: “surface molecules”, “cell-adhesion molecules”, “biological macro-molecules”, lo que puede ayudar en dicha navegación.

Grafo 2