PROYECTOS


Actualmente existen una gran cantidad de información almacenada y compartida en la Web en forma de documentos de texto y medios no estructurados. Esto ha generado distintas dificultades y problemas para encontrar y administrar la información requerida por el usuario, sin embargo, actualmente la Web semántica ha tenido un constante crecimiento y ha abierto nuevas oportunidades para el acceso y recuperación de información y ha permitido el desarrollo de bases de conocimientos para distintos dominios y aplicaciones tales como el sector médico, agrícola, ganadero, etc. Estas bases de conocimiento se han convertido en recursos valiosos para la administración y extracción del conocimiento.

Por otra parte, el sector agrícola y ganadero de la región de los Ríos del estado de Tabasco, tiene la necesidad de administrar el conocimiento para la toma de decisiones. Esto ha motivado el desarrollo de un proyecto que tiene como objetivo analizar distintas tecnologías y herramientas de la web semántica para la formalización y gestión del conocimiento aplicado al dominio agrícola y ganadera del municipio de Balancán, Tabasco, y que este proyecto sea un referente para su aplicación a nivel nacional.

La aplicación de este proyecto puede ser un detonante en la economía del municipio e integrar el uso de indicadores productivos de dicho sectores y plantear mejoras a la estructura de esta información en la Web que optimicen las actividades de gestión del conocimiento.

Vigencia: 01 Abril 2019 - 30 Marzo 2020
Responsables: Fernando Pech-May, Edna Mariel Mil Chontal, Luis Antonio Lopéz Gómez, Jorge Magaña Govea, Manuel Segovia Lopéz.
Financiamiento: TecNM.




El ingreso de texto en Lenguaje Natural (LN) ha resultado una actividad importante, siendo este uno de los medios de comunicación entre personas y máquinas. El procesamiento de Lenguaje Natural (PLN) procesa ese texto plano. Debido a la gran cantidad de información en la web, se ha iniciado en estructurarlo de una manera distinta, a causa de esto se ha creado la web semántica, en donde intenta transformar esta información en conocimiento formal. Para esta formalización se utilizan las ontologías.

La ontología es una forma de representar conocimiento en forma de grafos, sin embargo para consultarlos es necesario utilizar expresiones formales, entre las que destaca SPARQL. Sería de gran utilidad hacer una transformación de texto en lenguaje natural a expresiones en SPARQL para hacer más eficiente las búsquedas y para ayudar al usuario con nulo conocimiento en web semántica. Actualmente se han presentado distintas propuestas o enfoques para transformar LN a SPARQL. Bajo este contexto es necesario analizar las herramientas m´s utilizadas y conocer la eficiencia de cada una.

La web semántica intenta elevar el significado de los elementos y recursos que están disponibles en la web, en donde no sólo se almacenan los datos sino que es capaz de entender el sentido de la información.




La representación del conocimiento consiste en describir las entidades de un dominio utilizando un lenguaje formal. Las ontologías se han propuesto como una estrategia para formalizar la representación del conocimiento y su promoción y reutilización. Una ontologóa es una descripción formal y explícita de los conceptos de un dominio del discurso. Actualmente Existen lenguajes para diseñar/desarrollar ontología tales como RDF, RDFS, XMLS, XML, DAML+OIL y OWL.

OWL es el lenguaje más utilizados y consta de tres sub-lenguajes OWL lite, OWL-DL y OWL-Full, cada uno con distintos niveles de expresividad y diseñados para ser usados por comunidades específicas de desarrolladores y usuarios. OWL Lite está dirigido a usuarios que solo necesiten una clasificación jerárquica con una serie de restricciones simples, OWL-DL para el razonamiento automático, clasificación de jerarquías y detección de inconsistencias en las ontologías y OWL Full está dirigido para usuarios que quieren la máxima expresividad y la libertad sintáctica que permite RDF, pero sin garantías computacionales.

Cada uno de estos sub-lengujes tienen distintos niveles de expresividad por lo que es necesario e importante analizar cada uno de ellos para para visualizar cual es el alcance de su expresividad en sus construcciones, migración, taxonomía, etc. En este Trabajo se pretende realizar un análisis de cada uno de los sublengujes para diferenciar su expresividad. De modo que sirva como base para decidir el mejor lenguaje utilizar dependiendo de las necesidades del usuario.




En los últimos años se ha incrementado el uso de tecnologías semánticas en el desarrollo de sistemas de información organizacionales. Entre dichas tecnologías se destacan las ontologías, las cuales han demostrado brindar beneficios importantes en un amplio espectro de contextos y aplicaciones.
Para el diseño de cualquier ontología es necesario contar con una metodología específica. Existen varios tipos de áreas en las que se encuentra plasmado las ontologías, la web semántica es una de las áreas de las cuales más se encuentra ligado este modelado. Para construir la Web semántica se necesita poder representar el conocimiento de forma que sea legible por los ordenadores, esté consensuado, y sea reutilizable. Las ontologías proporcionan la vía para representar este conocimiento.
En este caso se necesita generar un listado de modelos para poder hacer las representaciones, y de igual manera hacer un análisis de las posibles metodologías que se pueden aplicar en el área mencionada.
A través de este proyecto se pretende realizar un estudio de las metodologías aplicables al desarrollo de ontologías que genere una guía para el desarrollo de éstas, considerando modelos, lenguajes métodos y patrones de contenido para la definición de reglas semánticas.




Las ontologías son uno de los núcleos esenciales de la web semántica ya que permiten modelar y relacionar recursos de información de un modo muy preciso y con una lógica semántica muy formalizada, para describir y representar un área de conocimiento.

Sin embargo, se necesita que ese conocimiento esté representado de forma que sea legible por los ordenadores, esté consensuado, y sea reutilizable. Por lo tanto, las wikis semánticas son una manera de capturar o identificar esa información o conocimiento acerca de los datos dentro de sus páginas y las relaciones entre estas, se consideran herramientas altamente colaborativas, eso hace que los usuarios consulten los datos puedan ampliarlos, borrarlos o modificarlos.

Es importante destacar que existen diferentes motores de wiki semántica entre los más destacados se encuentran Acewiki, Wikidsmart, Semantic MediaWiki, OntoWiki etc., de las cuales se optó por Ontowiki como un editor de ontologías y un sistema de adquisición de conocimientos. Al ser un wiki que permite la administración del conocimiento generado en la web semántica. Este conocimiento es organizado mediante una interfaz simple e intuitiva, manipulando clases, propiedades y recursos.

La visualización de la base de conocimiento es una especie de mapa de información, con diferentes puntos de vista sobre los datos instanciados. Sobre la herramienta wiki se cargará una ontología, el cual permitirá analizar su funcionamiento, almacenamiento de información, como se añade información semántica, como importar ontologías, creación de consultas, modificación de etiquetas etc. Posteriormente, validar la utilidad de la herramienta, sus puntos fuertes y sus carencias, y como resultado pueda ser consultada desde OntoWiki desde la url.

  • Estudiar los conceptos básicos de la web semántica.
  • Técnicas y tecnologías que proporcionan una base para la construcción de ontologías
  • Lenguajes de representación de ontologías más utilizados ( OWL,RDF...).
  • Utilizar y conocer algunas de las herramientas de edición y gestión de ontologías.
  • Aprender a utilizar ontologías para hacer aplicaciones semánticamente



  • Deep learning es una nueva técnica utilizada para el procesamiento de lenguaje natural y que actualmente ha obtenido mejores resultados, sin embargo, existen pocos enfoques aplicados a PLN. En este trabajo se pretende analizar las técnicas Deep learning actuales.

    Actualmente, existe una gran cantidad de información en forma de texto, documentos, póginas personales, noticias, etc. Analizar toda esa información se hace muy complicada ya que requiere el conocimiento de distintas áreas tales como la lingüística, Procesamiento del Lenguaje Natural, etc. Específicamente, el Procesamiento del Lenguaje Natural involucra una serie de técnicas para el análisis y representación de la información, que van desde el análisis estadístico, etiquetado gramatical hasta la traducción automática.

    En la carrera de Ingeniería en Sistemas Computacionales se han creado temas de investigación por parte de los docentes que integran el cuerpo académico "Computo Distribuido" tales como Procesamiento de Lenguaje Natural, Web Semántica y Deep Learning, estos temas de investigación se han creado con la finalidad de fomentar el conocimiento científico hacia los alumnos de la carrera de Ingeniería en Sistemas Computacionales. Asimismo para desarrollar proyectos de investigación que soluciones problemas reales, es necesario realizar investigación para así dar conclusión concreta. Una de las áreas emergentes en el campo de la inteligencia artificial y machine Learning es el Deep Learning que es una técnica que se enfoca al estudio del procesamiento de leguaje natural.

    En este caso, para la solución del problema que se presenta en el trabajo de investigación, es entender y comprender los comportamientos de las herramientas de Deep Learning para la extracción de resúmenes dentro de un documento.

    Para eso se estudiara los enfoques y herramientas Deep Learning consultando fuentes bibliográficas en artículos y congresos de gran relevancia. Particularmente, se analizaran los desafíos en la extracción de resúmenes documentos atreves de distintas técnicas, y particularmente, en Deep Learning. Se ha optado por la utilización de Deep Learning para la extracción de resúmenes debido a que se han obtenido resultados eficientes en trabajos de investigación, sin embargo, existen distintas técnicas por lo que solo se analizaran Long Short-Team Memory (LSTM) y Recurrent neural network (RNN). "