Corpus Viewer

Posted on 306 visualizaciones 0 comentarios

Descripción corta:

Corpus Viewer es una herramienta desarrollada por la SEAD en el marco del Plan de impulso de Tecnologías del Lenguaje. Haciendo uso de técnicas de procesamiento de lenguaje natural e inteligencia artificial, permite el análisis de cantidades masivas de documentos no estructurados (patentes, publicaciones científicas, proyectos subvencionados a nivel nacional o europeo, etc.) con el objetivo de asistir en la definición y seguimiento de políticas públicas principalmente en el área de investigación y desarrollo. Las herramientas desarrolladas también son empleadas en la actualidad para el análisis de fraude en subvenciones. El servicio de análisis de información ha comenzado a usarse en la SEAD (Ministerio de Economía) y en la SEUIDI (Ministerio de Ciencia).

Fecha de elaboración del texto: Texto elaborado para las candidaturas a los Premios mejor Iniciativa de Innovación, mejor proyecto de Gestión de datos: Big Data y mejor proyecto con tecnologías innovadoras:  Inteligencia Artificial. CNIS 2019.

Autor: David Pérez Fernández. Coordinador Técnico del Área de Tecnología.

Administración / Proveedor que lo propone: Plan de impulso de las Tecnologías del Lenguaje. Gabinete del Secretario de Estado para el Avance Digital

Área responsable del proyecto: SEAD. MINECO

Estado del Proyecto / Caso en la fecha del alta: Realizado

Carácter innovador:

La herramienta, haciendo uso de técnicas de procesamiento de lenguaje natural, traducción automática y aprendizaje máquina, permite el análisis de documentos de información no estructurada compuesta de extensos conjuntos de documentos: patentes, publicaciones científicas, proyectos de investigación y desarrollo, etc. El resultado de la herramienta ofrece una serie de funcionalidades para diferentes tipos de agentes; apoyo en diseño de políticas públicas, evaluación de ayudas y detección de fraude.

Problemática:

El decisor de políticas públicas se enfrenta al problema del análisis de enormes cantidades de información, con un alto grado de variabilidad en el caso de la investigación y el desarrollo. Debe comparar la situación de determinadas regiones, distinguir ventajas competitivas, capacidades, elementos disruptores, impacto de la política pública, etc.

Por otra parte, un evaluador de proyectos subvencionados de innovación debe evaluar en un tiempo limitado el estado de la técnica en el que se encuentra un proyecto, si éste ha sido anteriormente evaluado por su organismo u otro organismo público, cuales son los evaluadores más capacitados para decidir sobre el proyecto, etc.

En ambos casos es necesario asistir, en ningún caso decidir, por medio del análisis masivo de documentación perteneciente a los corpus de patentes, sobre ayudas públicas a la investigación y el desarrollo, y sobre publicaciones científicas.

Se trata por tanto de, ayudados por métodos de procesamiento de lenguaje natural e inteligencia artificial, asistir en la toma de decisiones de los dos citados perfiles. Este es el objetivo de la herramienta que se presenta a continuación: CorpusViewer.

 

Solución planteada:

FUNCIONALIDADES ACTUALES:

  • Herramienta de análisis textual y traducción automática de grandes volúmenes de documentación
  • Clasificación automática de documentos
  • Análisis de temáticas subyacentes
  • Correlación temática y elementosprincipales de cada área
  • Evolución temática temporal
  • Similaridad documental
  • Búsquedas textuales, filtrado de los resultados por metadatos
  • Búsqueda de documentos similares, detección de documentos anormalmente parecidos: copias y reescrituras.
  • Agrupación semántica por área de conocimiento
  • Evolución de las agrupaciones semánticas, hibridación temática.
  • Análisis temporal por áreas de conocimiento, lead-lag entre distintos tipos de corpus documentales
  • Perfilado automático de agentes y desambiguación. Caracterización de agentes a partir de su producción y otros metadatos asociados
  • Análisis de redes de colaboración entre agentes en el espacio de información de la investigación y el desarrollo.

TÉCNICAS:

  • Procesamiento de lenguaje natural (inglés, español). Tokenizado, PoS, desambiguación, wikificación). WordEmbeddings.
  • Traducción automática (ES-EN)
  • Modelado de tópicos (estáticos: LDA, CTM, dinámicos: DTM y desarrollo propio, jerárquicos: hLDA, rLDAdesarrollo propio)
  • Búsqueda textual (LDA+Jensen-Shannon, BM25, wordEmbeddings)
  • Análisis de grafos; modularidades, distancias entre clusters, centralidad
  • Escalabilidad elástica completa del sistema empleando una arquitectura orientada a microservicios (Rancher, Kubernets).
  • Despliegue automatizado con Ansible. Todos los componentes se ejecutan en contenedores tipo Dockers.

TÓPICOS: DETECCIÓN DE TEMÁTICAS SUBYACENTES DE LOS DOCUMENTOS CONTENIDOS EN UNA COLECCIÓN DOCUMENTAL DE GRAN TAMAÑO

El método descrito a continuación se aplica al modelado de documentos redactados en lenguaje natural con metadatos asociados (tanto de los propios documentos como los agentes que los producen).

Todos los contenidos son indexados con carácter previo a su análisis. En primer lugar, se realiza un procesamiento de los contenidos textuales (desambiaguación, lematización, wikificación) para reducir el espacio de representación documental. Los contenidos previamente han sido traducidos de forma automática a lenguaje español o inglés dependiendo del corpus del que se trate.

Tradicionalmente se trabaja bajo el paradigma de sistemas de clasificación, donde cada documento es etiquetado en una taxonomía jerárquica, por medio de una o múltiples etiquetas. Esta visión tiene varios problemas: la pertenencia a un grupo es binaria, las clasificaciones suelen variar poco en el tiempo y su grado de detalle es escaso. Cuando tratan de compararse colecciones documentales de distintos países es común que las clasificaciones no sean compartidas.

La visión, por medio de semántica subyacente o análisis de tópicos, tiene en cuenta

  • la hibridación temática de los contenidos de los documentos.

Un tópico se define como una distribución de probabilidad sobre el diccionario. Aunque estos no obtienen un nombre de forma automatizada, la colección de palabras más probables suele mostrar al usuario un tema diferenciado.

  • Los tópicos permiten conocer la estructura subyacente de un documento respecto a un conjunto de distribuciones de probabilidad de referencia.
  • Si el modelo es suficientemente representativo, la descomposición en tópicos de un documento es una huella que lo caracteriza con precisión.
  • Que dos documentos tengan la misma huella indica que tienen una estructura temática común. Existen múltiples medidas de similaridad entre distribuciones de probabilidad que pueden ser empleadas. La que mejor resultado nos ha dado es la distancia de Jensen-Shannon.
  • La calidad del modelo depende del número de documentos utilizados para su cálculo, su extensión, su variedad de contenido, etc.
  • Una vez generado un modelo, este puede ser utilizado para inferir la descomposición en tópicos de nuevos documentos no utilizados en el cálculo del propio modelo. Lo cual permite comparar distintos corpus o detectar similaridades documentales entre documentos de distintos organismos sin necesidad de compartir sus corpus de origen.
  • El modelado en tópicos responde bien a la sinonimia y la polisemia, problemas típicos cuando se trata con lenguaje natural:Los sinónimos se suelen agrupar en el mismo tópico, de tal manera que el empleo de sinónimos no altera sustancialmente la descomposición de tópicos del documento

Detalles de la solución:

El Corpus Viewer es una aplicación Web:

Tras la autenticación se accede a la ventana principal de la aplicación, que es controlada por el menú de la parte superior:

  1. Exploración del modelo de tópicos
  2. Búsqueda textual
  3. Selección del corpus documental
  4. Selección del modelo de tópicos
  5. Opciones específicas de la exploración del modelo
  6. Detalles del modelo de tópicos seleccionado
Ejemplo de vista de los documentos por temáticas detectadas

 

Permite:

  • Visión global de todo el corpus según las temáticas detectadas
  • Vista práctica con un conjunto reducido de tópicos (10-25)
  • Se muestran las palabras principales dentro cada tópico
  • El diámetro de cada bola muestra el volumen de documentos del corpus asociado a cada tópico. También puede mostrar cantidades económicas relacionadas u otros metadatos numéricos asociados a cada documento.
  • Pulsando en la bola correspondiente a cada tópico, el gráfico hace zoom sobre el tópico y en la parte derecha de la pantalla se muestra:
    • El detalle de las palabras más frecuentes del tópico y sus probabilidades dentro del tópico
    • Documentos del corpus que mejor se adaptan al tópico
    • Acceso directo al documento pulsando en su nombre
    • Acceso a los metadatos del documento pulsando sobre el icono de “información”
  • Visión alternativa a la anterior para analizar todo el corpus documental
    • Vista más práctica con modelos grandes (>25 tópicos)
    • Selección de perfiles mediante un selector
    • Posibilidad de activar la penalización TF/IDF
    • Documentos que mejor se ajustan al perfil
    • Acceso directo al documento haciendo clic en el nombre
    • Acceso a los metadatos del documento con el icono de “información”

  • Nube de tags con las palabras más probables del tópico
  • Relación de palabras más frecuentes dentro del tópico elegido y su probabilidad

  • Análisis detallado de documentos según sus tópicos
  • En la vista inicial se ve la descomposición en tópicos de todo el corpus
  • Selección de un documento del corpus buscándolo por su nombre en la caja de texto
  • Una vez seleccionado se muestra la descomposición en tópicos del documento elegido
  • Porcentajes de texto de las secciones técnicas de la solicitud referidos a cada tópico:
    • 62% al tópico “Big data”
    • 17% al tópico “Certificaciones”
    • 8% al tópico “Portales web”
    • 6% al tópico “Investigación”
    • 4% al tópico “Semántica”
  • Más práctico con modelos pequeños (< 25 tópicos)

  • Muestra las relaciones entre tópicos según los documentos analizados
  • Si dos tópicos se encuentran correlacionados, típicamente se dan juntos en los documentos
  • Posibilidad de desplazar el umbral mínimo para poder ver las relaciones más fuertes
  • Más útil con modelos pequeños (< 25 tópicos)

Detección de documentos similares. De especial utilidad en el análisis del estado del arte y la prevención del fraude en subvenciones:

  • Permite encontrar los documentos del corpus qué más se parecen según su estructura temática, contenido textual o por medio de wordEmbeddingsa un documento seleccionado. Mostrándose el grado de similitud
  • Selección del documento tecleando su nombre en la caja de texto
  • Cada documento es navegable y lleva a sus documentos cercanos
  • Mejores resultados con modelos de tópicos grandes (>150 tópicos)
  • Se facilita un acceso directo al documento y a los metadatos del mismo

Permite encontrar pares de documentos dentro del corpus que tienen una similitud alta:

•       Uno podría ser una copia de otro

•       Uno podría ser una reescritura de otro

•       Simplemente ambos documentos tratan temas similares

Se deben establecer los umbrales mínimos y máximos de similitud que se desean buscar y pulsar el botón “Cargar”

Se debe fijar también un máximo número de resultados que queremos que aparezcan en la lista

Rellenando el campo “centrado en año” obliga a que en cada pareja de resultados aparezca al menos una solicitud del año seleccionado

  • Al seleccionar una pareja se muestran pareados los textos de ambos documentos para poder compararlos
  • Para poder realizar mejor la comparación, por cada documento se proporciona el enlace a la solicitud, a la memoria y a sus metadatos
  • Posibilidad de exportar el listado a una hoja Excel con el enlace de “Generar informe”
  • Resultados más precisos con modelos de tópicos grandes (> 50 tópicos)

  • Ofrece la posibilidad de introducir un texto libre y buscar los documentos del corpus que más se parecen según sus tópicos
  • Se puede elegir el grado de similitud de los resultados a partir del percentil inferior y superior y establecer un límite en el número de resultados obtenidos
  • Después de pulsar el botón “Cargar” se muestra en la parte inferior de la ventana un desplegable con los documentos que más se parecen temáticamente al texto introducido.

  • La búsqueda no es textual sino por encaje de tópicos. Las palabras del texto de búsqueda no tienen por qué aparecer en los resultados encontrados
  • Se muestran los textos de los documentos similares encontrados para poder examinarlos, con enlaces a la solicitud original, la memoria técnica y los metadatos
  • Posibilidad de exportar los resultados a Excel a través del enlace “Generar informe”
  • Resultados más precisos con modelos de tópicos grandes (> 50 tópicos)

Vista recursiva para navegar por grandes volúmenes de documentación

  • Cada tópico tiene a su vez otra descomposición interna en tópicos
  • Según se navega internamente, los tópicos se van especializando
  • Cada tópico tiene asociado el número de documentos que participan de ese tópico

  • Por cada tópico seleccionado se muestran los documentos que mejor se ciñen al tópico y las palabras más probables
  • Cada título tiene el enlace directo al documento original
  • Solo se genera un subtópico si hay un número representativo de documentos dentro de él

EVOLUCIÓN TEMÁTICA TEMPORAL

  • Muestra la evolución con el tiempo del contenido temático del corpus
  • Las palabras más probables del tópico se muestran posicionándose con el ratón sobre el mismo
  • Posibilidad de animar el gráfico, para ver la evolución del uso del tópico con el paso del tiempo

  • Muestra la variación con el tiempo de la probabilidad de cada palabra dentro de un tópico

SISTEMA DE BÚSQUEDAS TEXTUALES FILTRADAS Y FACETADAS

  • Interfaz de búsqueda textual enriquecido con filtrado por metadatos
  • Interfaz parametrizable
  • Búsqueda textual “tipo google” restringida al corpus seleccionado
  • Elevada velocidad para buscar textos en bases de datos muy grandes
  • Las palabras buscadas son resaltadas en los resultados de la consulta
  • Las gráficas se componen en base a los metadatos de los resultados de la consulta. Según se hacen búsquedas, estas se van actualizando.
  • Estas gráficas, su layout y su posición en pantalla son definibles por el administrador del sistema
  • Las gráficas son sensibles. Si se hace clic sobre algún valor de ellas, este valor se agrega al filtro. Esto ofrece un mecanismo gráfico para refinar el resultado de la búsqueda

Ventajas

  • Análisis de documentos de información no estructurada: patentes, publicaciones científicas, proyectos de investigación y desarrollo, etc.
  • Apoyo en diseño de políticas públicas.
  • Evaluación de ayudas.
  • Detección de fraude.

Financiación:

Pública

Contacto:
David Pérez Fernández

Cargo: 
Coordinador Técnico del Área de Tecnología

Teléfono:

Correo electrónico: 

PlanTecnologiasLenguaje@mineco.es

Dirección:

c/ Calle Poeta Joan Maragall, 41. 28020. Madrid

Desde el 25 de mayo hemos actualizado nuestra forma de comunicarnos contigo debido a la entrada en vigor del Reglamento General de Protección de Datos (RGPD).

Si no has recibido ningún correo nuevo o quieres comenzar a recibirlos, suscríbete y recibe gratis en tu correo nuestro boletín mensual con toda la actualidad del sector público.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *