La minería de
textos es un
subdominio de la minería de datos. Consiste en el
descubrimiento
de información novedosa y útil por medio de la
identificación de patrones relevantes a través
del uso de
sistemas informáticos.
Se tienen que asociar correctamente los diversos elementos informativos
que se obtienen para producir nuevos hechos y reglas sobre el tema que
se analiza. La minería de textos es un campo particularmente
difícil debido a las particularidades de los idiomas humanos
(irregularidades, suposiciones). La minería de textos puede
basarse en enfoques
- basados en estadísticas y
probabilidades
- basados en reglas y conocimiento
lingüístico
- baados en reglas semánticas y en
ontologías que el sistema use para llegar a conclusiones
- o una combinación de cualquiera de
estos enfoques principales
Incluso los enfoques estadísticos actualmtente usan al menos
cierto nivel de procesamiento lingüístico
básico.
Otros métodos emplean un análisis más
completo de
patrones lingüísticos. El procesamiento
lingüístico tiene lugar a diversos niveles y puede
ir desde
un simple etiquetamiento de parte de la oración hasta un
análisis sintáctico más
profundo
a nivel de las frases y oraciones, resolución de referentes
(identificación de la entidad de pronombres y otros
elementos
anafóricos), análisis del discurso hasta llegar a
la
semántica y pragmática del mensaje. La
semántica
es básica para el manejo de representaciones del
conocimiento y
el razonamiento en base a las mismas.
Cada uno de estos enfoques tiene sus ventajas y desventajas. Los
métodos básados en estadísticas y
probabilidades
suelen requerir menos tiempo de desarrollo, pero presentan limitaciones
particulares. Al usarlos se tiene que prestar especial
atención
en definir lo que será el material de entrenamiento para las
estadísticas. Sin un conocimiento profundo de la
variabilidad
del lenguaje y de los textos, uno puede terminar con
estadísticas sesgadas, independientemente de lo
sofísticado que sean los algoritmos usados. Por el otro
lado,
los enfoques basados en conocimiento lingüístico o
semántico pueden funcionar muy bien para resolver problemas
muy
específicos. El problema con estos métodos es que
requieren de grandes cantidades de conocimiento, ya sea
lingüístico o semántico, que es muy
difícil y
costoso de obtener. Muchas empresas en el área de
procesamiento
automatizado del lenguaje y de la minería de textos se han
visto
confrontadas con costos altísimos y períodos de
desarrollo muy largos con el fin de obtener bases de dato
suficientemente capaces. Las empresas tienen que desarrollar mecanismos
sofisticados para automatizar la generación de
información de calidad al mismo tiempo que tienen que
mantener
los costos de producción bajos.
La minería de textos siempre presupone un cierto nivel de
preprocesamiento de los datos iniciales. En ella el software extrae el
texto de los documentos, reconoce los tokens y les coloca una etiqueta
con información inicial sobre la parte de la
oraciónm
forma básica, etc. Los algoritmos tienen que tomar en cuenta
la
diversidad de reglas de puntuación, abreviaturas y otras
convenciones según el idioma del texto. Tiene que tomar en
cuenta la ambigüedad, pues la mayoría de las
palabras
pueden recibir un etiquetamiento diferente según el contexto
en
que estén.
Después de esto, el software de minería de textos
puede
analizar con más profundidad el texto antes de la
extracción y reconocimiento de informaciones nuevas.
Nosotros en
Crossminder seguimos este camino y desarrollamos un software que
analiza el texto desde el punto de vista sintáctico,
probabilístico y semántico. Creemos que ese es la
mejor
manera de obtener la información más
útil para el
usuario.
El siguiente nivel es el reconocimiento de los ítemes y, lo
más importante, el descubrimiento de información
nueva
basada en los objetos encontrados, las relaciones existentes entre
ellos y las relaciones con el mundo.
En Crossminder hemos decidido combinar lo mejor de los diferentes
enfoques. Rechazamos la creencia de que hay un solo enfoque
mágico, ya sea probabilístico,
lingüístico o
de otra forma. Nosotros harmonizamos los resultados obtenidos de los
diferentes métodos para llegar al significado del texto,
identificar los objetos y sus relaciones y las implicaciones del
mensaje. Creemos que el cerebro humano actúa de una manera
similar: módulos simples contribuyen al reconocimiento del
cuadro más grande y abstracto.
Aunque algunos consideran que el identificar entidades en un texto ya
es una forma de minería de textos, Crossminder considera que
este campo implica más que la extracción de
información. La minería de textos implica que se
obtiene
conocimientos nuevos del texto. Uno de los problemas básicos
de
la minería de textos es que la información que
uno quiere
obtener frecuentemente tiene que deducirse de lo que está en
el
texto y su relación con el mundo real. Solo se pueden
obtener
resultados adecuados si se analizan tdas las dimensiones posibles del
texto.
La base de Crossminder está que puede usar su conocimiento
en
lingüística computacional, estadísticas
e
ingeniería semántica para ir más
allá de la
simple identificación y recuperación de
informaciones
conocidas y conseguir inferir y deducir nuevo conocimiento. Entre otras
cosas, creamos software que ayuda a aprender sobre personas
anteriormente desconocidas y obtener el máximo de datos
sobre el
transfondo de las mismas.