Crossminder
SOFTWARE BUSINESS SOLUTIONS






INICIO   •  MISIÓN   •  PRODUCTOS   •  SERVICIOS   •  QUIÉNES SOMOS   •  CONTACTO

























La minería de textos es un subdominio de la minería de datos. Consiste en el descubrimiento de información novedosa y útil por medio de la identificación de patrones relevantes a través del uso de sistemas informáticos. Se tienen que asociar correctamente los diversos elementos informativos que se obtienen para producir nuevos hechos y reglas sobre el tema que se analiza. La minería de textos es un campo particularmente difícil debido a las particularidades de los idiomas humanos (irregularidades, suposiciones). La minería de textos puede basarse en enfoques

  • basados en estadísticas y probabilidades
  • basados en reglas y conocimiento lingüístico
  • baados en reglas semánticas y en ontologías que el sistema use para llegar a conclusiones
  • o una combinación de cualquiera de estos enfoques principales

Incluso los enfoques estadísticos actualmtente usan al menos cierto nivel de procesamiento lingüístico básico. Otros métodos emplean un análisis más completo de patrones lingüísticos. El procesamiento lingüístico tiene lugar a diversos niveles y puede ir desde un simple etiquetamiento de parte de la oración hasta un análisis sintáctico más profundo  a nivel de las frases y oraciones, resolución de referentes (identificación de la entidad de pronombres y otros elementos anafóricos), análisis del discurso hasta llegar a la semántica y pragmática del mensaje. La semántica es básica para el manejo de representaciones del conocimiento y el razonamiento en base a las mismas.

Cada uno de estos enfoques tiene sus ventajas y desventajas. Los métodos básados en estadísticas y probabilidades suelen requerir menos tiempo de desarrollo, pero presentan limitaciones particulares. Al usarlos se tiene que prestar especial atención en definir lo que será el material de entrenamiento para las estadísticas. Sin un conocimiento profundo de la variabilidad del lenguaje y de los textos, uno puede terminar con estadísticas sesgadas, independientemente de lo sofísticado que sean los algoritmos usados. Por el otro lado, los enfoques basados en conocimiento lingüístico o semántico pueden funcionar muy bien para resolver problemas muy específicos. El problema con estos métodos es que requieren de grandes cantidades de conocimiento, ya sea lingüístico o semántico, que es muy difícil y costoso de obtener. Muchas empresas en el área de procesamiento automatizado del lenguaje y de la minería de textos se han visto confrontadas con costos altísimos y períodos de desarrollo muy largos con el fin de obtener bases de dato suficientemente capaces. Las empresas tienen que desarrollar mecanismos sofisticados para automatizar la generación de información de calidad al mismo tiempo que tienen que mantener los costos de producción bajos. 

La minería de textos siempre presupone un cierto nivel de preprocesamiento de los datos iniciales. En ella el software extrae el texto de los documentos, reconoce los tokens y les coloca una etiqueta con información inicial sobre la parte de la oraciónm forma básica, etc. Los algoritmos tienen que tomar en cuenta la diversidad de reglas de puntuación, abreviaturas y otras convenciones según el idioma del texto. Tiene que tomar en cuenta la ambigüedad, pues la mayoría de las palabras pueden recibir un etiquetamiento diferente según el contexto en que estén.

Después de esto, el software de minería de textos puede analizar con más profundidad el texto antes de la extracción y reconocimiento de informaciones nuevas. Nosotros en Crossminder seguimos este camino y desarrollamos un software que analiza el texto desde el punto de vista sintáctico, probabilístico y semántico. Creemos que ese es la mejor manera de obtener la información más útil para el usuario.

El siguiente nivel es el reconocimiento de los ítemes y, lo más importante, el descubrimiento de información nueva basada en los objetos encontrados, las relaciones existentes entre ellos y las relaciones con el mundo.
 
En Crossminder hemos decidido combinar lo mejor de los diferentes enfoques. Rechazamos la creencia de que hay un solo enfoque mágico, ya sea probabilístico, lingüístico o de otra forma. Nosotros harmonizamos los resultados obtenidos de los diferentes métodos para llegar al significado del texto, identificar los objetos y sus relaciones y las implicaciones del mensaje. Creemos que el cerebro humano actúa de una manera similar: módulos simples contribuyen al reconocimiento del cuadro más grande y abstracto.

Aunque algunos consideran que el identificar entidades en un texto ya es una forma de minería de textos, Crossminder considera que este campo implica más que la extracción de información. La minería de textos implica que se obtiene conocimientos nuevos del texto. Uno de los problemas básicos de la minería de textos es que la información que uno quiere obtener frecuentemente tiene que deducirse de lo que está en el texto y su relación con el mundo real. Solo se pueden obtener resultados adecuados si se analizan tdas las dimensiones posibles del texto.

La base de Crossminder está que puede usar su conocimiento en lingüística computacional, estadísticas e ingeniería semántica para ir más allá de la simple identificación y recuperación de informaciones conocidas y conseguir inferir y deducir nuevo conocimiento. Entre otras cosas, creamos software que ayuda a aprender sobre personas anteriormente desconocidas y obtener el máximo de datos sobre el transfondo de las mismas.  




linguistic knowledge
probabilistic knowledge

knowledge base
logic


Nuestra tecnología también hace posible realizar búsquedas a través de diferentes idiomas y genera una traducción automática de los objectos identificados y analizados. Quizás Ud. conozca un idioma extranjero pero no tiene el tiempo o la seguridad para realizar búsquedas basadas en su propio idioma Y en un idioma extranjero. O quizás Ud. quiere realizar búsquedas más sofisticadas y usar aproximaciones semánticas para conseguir esa aguja en el pajar.





Crossminder delivers the meaning of texts






















Si tiene preguntas o comentarios sobre nuestro sitio, contáctenos en webmaster@crossminder.com.
Crossminder BVBA © 2010

Privacidad Condiciones de Uso