Vida Digital

¿Qué es la Web semántica?

De forma similar a como la presentó Tim Berners-Lee en 1998 y adaptando los ejemplos al hipertexto, podemos decir que la World Wide Web, basada en documentos y enlaces de hipertexto, fue diseñada para la lectura humana y no para que la información que contiene pudiera procesarse de forma automática. Si hacemos una búsqueda de documentos, por ejemplo, por el término “hipertexto”, la Web no distingue entre los distintos significados o contextos en los que aparece este término (programas para diseñar hipertexto, información docente, empresas que anuncian su web, etc.). La Web actual tampoco permite automatizar procesos, como por ejemplo, buscar un seminario sobre hipertexto, hacer la reserva de plaza, consultar los medios de transporte disponibles hasta la ciudad donde se celebre el evento, reservar billete, y conseguir un plano de dicha ciudad. Aun utilizando un potente buscador, se pierden muchas horas navegando por los resultados obtenidos tras la consulta, para acceder a la información de forma manual, cuando esto lo podría hacer un programa o agente inteligente.

La Web Semántica vendría a ser una extensión de la Web actual dotada de significado, esto es, un espacio donde la información tendría un significado bien definido, de manera que pudiera ser interpretada tanto por agentes humanos como por agentes computerizados.

La Web Semántica ha sido impulsada por Tim Berners-Lee, creador de la WWW, y otras personas relacionados con el W3C (World Wide Web Consortium). El primer avance en este sentido, fue la publicación en septiembre de 1998, por parte de Berners-Lee de 2 documentos denominados Semantic Web Road Map y What the Semantic Web can represent.

En el año 2000, Berners-Lee ofreció una conferencia en el marco del W3C donde propuso: “La nueva información debe ser reunida de forma que un buscador pueda “comprender”, en lugar de ponerla simplemente en una “lista”. La Web semántica sería una red de documentos “más inteligentes” que permitan, a su vez, búsquedas más inteligentes. La idea sería aumentar la inteligencia de los contenidos de las páginas web dotándolas de contenido semántico. La Web actual posee una gran capacidad para almacenar datos y puede leer y visualizar los contenidos, pero no es capaz de pensar ni de entender todo lo que contiene. Se precisa, por lo tanto, un nueva Web -la Web semántica- que hará posible no sólo almacenar los datos, sino entender e interpretar el sentido de esta información. De esta forma, Berners-Lee presenta la nueva arquitectura en que se basará la Web Semántica, no entendida como una nueva Web, sino como una extensión de la Web existente.

En mayo de 2001, Tim Berners Lee, James Hendler y Ora Lassila popularizan la idea de la Web Semántica al publicar un artículo en la revista Scientific American titulado “The Semantic Web: a new form of Web content that is meaninful to computers will unleash a revolution of new possibilities”, donde explican de forma sencilla su idea de la Web Semántica y los primeros pasos que hay que dar para llevarla a cabo.

Según Berners-Lee, la arquitectura de la Web Semántica se podría representar de la siguiente forma:

Semantic Web

Fuente: Tim Berners-Lee. Semantic Web -XML2000. Architecture
http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide11-0.html

La mayoría de los sitios web están construidos en lenguaje HTML con marcas o etiquetas que se muestran cuando se visualiza el código fuente, pero que permanecen ocultas en la visualización normal de los navegadores y que contienen información sobre el contenido de la página, enlaces hacia otras páginas, formatos de letra, color, párrafos, imágenes, vídeos, etc. Los orígenes de la Web se basaron en el carácter abierto y universal de la base de la Web: el lenguaje HTML, y el empleo de archivos ASCII y los gráficos GIF y/o JPG. Esto permite a los buscadores clasificar los documentos HTML de la red y ponerlos en una página web a modo de índice o catálogo, que se puede mostrar por medio del navegador. Gracias a que el lenguaje HTML se ajusta a unas normas estandarizadas, todos los ordenadores pueden reproducir correctamente esos documentos. Sin embargo, el lenguaje HTML se quedaba corto pues, orientado a la presentación de datos, la información que ofrece es muy limitada, no permite describir datos y no es extensible, esto es, únicamente ofrece un pequeño número de etiquetas. El sistema evolucionó y se realizaron algunas mejoras para hacer este lenguaje algo más dinámico con la introducción de otros elementos como DHTML, Javascript, hojas de estilo e, incluso, se añadieron a la Web otros lenguajes que permitieran ofrecer una información más estructurada, como el lenguaje XML, pero hacen falta otros lenguajes que permitan una descripción más detallada del documento y de su contenido, y que faciliten la comunicación entre los ordenadores. Y también hace falta una nueva generación de buscadores más inteligentes que puedan leer y evaluar rápidamente los documentos de Internet.

Así pues, el desarrollo de la Web semántica requiere la utilización de otros lenguajes como el lenguaje estructurado XML (Extensible Markup Language) y el lenguaje RDF (Resource Description Framework) que puedan dotar a cada página, a cada archivo y a cada recursos o contenido de la red, de una lógica y un significado, y que permitan a los ordenadores conocer el significado de la información que manejan con el fin de que esta información pueda no sólo ser presentada en pantalla, sino también que pueda ser integrada y reutilizada. XML ha logrado convertirse hoy en un lenguaje estándar. Se trata de un subconjunto del complejo y sofisticado lenguaje SGML que aporta datos estructurados a la Web y que se ha convertido en la infraestructura preferida para el intercambio de datos. Además, las páginas XML pueden ubicar metadatos, esquemas XML y esquemas RDF, que aportan un mecanismo para que los programas puedan interpretar y comprender documentos con un vocabulario descriptivo.

Para poder explotar la Web semántica, se necesitan lenguajes semánticos más potentes, esto es, lenguajes de marcado capaces de representar el conocimiento basándose en el uso de metadatos y ontologías. Utilizando anotaciones RDF y RDF Schema se pueden presentar algunas facetas sobre conceptos de un dominio del conocimiento y se puede, mediante relaciones taxonómicas, crear una jerarquía de conceptos. Pero se precisan lenguajes de marcado (basados en RDF) con una mayor expresividad y capacidad de razonamiento para representar los conocimientos que contienen las ontologías. Además, estos lenguajes deben ser estandarizados y formalizados para que su uso sea universal, reutilizable y compartido a lo largo y ancho de la Web. Se necesita un lenguaje común basado en web, con suficiente capacidad expresiva y de razonamiento para representar la semántica de las ontologías. De esta forma, la utilización de lenguajes tales como OWL son una paso más en la consecución de la Web Semántica.

Es necesario, pues, crear una ontología o biblioteca de vocabularios descriptivos/semánticos, definidos en formato RDF y ubicados en la Web para determinar el significado contextual de una palabra por medio de la consulta a la ontología apropiada. De esta forma, agentes inteligentes y programas autónomos podrían rastrear la Web de forma automática y localizar, exclusivamente, las páginas que se refieran a la palabra buscada con el significado y concepto precisos con el que interpretemos ese término. Por lo tanto, para potenciar el uso de ontologías en la Web, se necesitan aplicaciones específicas de búsqueda de ontologías, que indiquen a los usuarios las ontologías existentes y sus características para utilizarlas en su sistema.

Fuente: Tim Berners-Lee. Semantic Web -XML2000. Semantic Web Bus.
http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide14-0.html

En este sentido, se entiende por agente inteligente aquella entidad de software que recoge, filtra y procesa la información contenida en la Web, realiza inferencias sobre  dicha información e interactúa con el entorno sin necesidad de supervisión o control constante por parte del usuario.

James A. Hendler en su artículo Is there and Intelligente Agent in Your Future? recoge las cualidades que debería tener un agente inteligente ideal. Para este autor, un agente debe ser:

  • Comunicativo: el agente debe entender las necesidades, objetivos y preferencias del usuario, ya que de dicha comunicación o interacción usuario-agente depende que el agente pueda llevar a cabo su función de forma eficiente. Asimismo, debe poder comunicarse con el entorno mediante representaciones compartidas de conocimiento (ontologías).
  • Capaz: el agente debe poder actuar en una determinada clase de mundo. El agente no sólo debe proporcionar una información, sino también un servicio, es decir, debe tener capacidad para hacer cosas. Por ejemplo, si se precisa un artículo de revista y ésta es de pago, el agente debe ser capaz de encontrar el artículo, informar del precio, dar el número de tarjeta de crédito, etc.
  • Autónomo: el agente, además de comunicarse, debe poder interactuar con el entorno, tomando decisiones y actuando por sí solo, limitando sus acciones según el nivel de autonomía permitida por el usuario.
  • Adaptable: el agente debe ser capaz de aprender del entorno: usuarios (preferencias), fuentes de información y otros agentes, etc.

El papel del agente inteligente en el proceso de recuperación “semántica” de información no debe confundirse con el de un buscador inteligente. Un buscador inteligente se aprovechará del enriquecimiento semántico de los recursos web para mejorar (principalmente en la precisión) la recuperación de información, aunque su funcionamiento se basará, como los actuales buscadores, en la previa indización de todos aquellos recursos susceptibles de ser recuperados. En cambio, un agente inteligente recorrerá la Web a través de los enlaces entre recursos (hiperdocumentos, ontologías, …) en busca de aquella información que le sea solicitada, pudiendo además interactuar con el entorno para el cumplimiento de tareas encomendadas. Por ejemplo, un agente inteligente, ante una consulta dada, podría consultar autónomamente un buscador, y a partir de sus resultados, explorar la Web hasta encontrar la información solicitada, pudiendo finalmente llevar a cabo una acción sobre dicho recurso, como podría ser la reserva de una plaza en un Seminario, de un vuelo, y/ o de una habitación en un hotel. Según P. Raghaban, las necesidades de información de un usuario cuando acude a los buscadores son las siguiente:

  • informacional: aprender o saber acerca de algo (~40%). Por ejemplo: hemoglobina baja.
  • navegacional: ir a determinada página (~25%). Por ejemplo: United Airlines.
  • transaccional: hacer algo por medio de la Web (~35%):
    • acceder a un servicio. Por ejemplo: Mendocino weather.
    • descargar algo (downloads). Por ejemplo: imágenes de la superficie de Marte.
    • comprar. Por ejemplo: Nikon Coopix.
  • Áreas grises:
    • encontrar un buen hub. Por ejemplo: Alquiler de coches Finlandia.
    • búsqueda exploratoria “ver lo que hay allí”

La Web Semántica debería ser capaz de procesar contenido, razonarlo y hacer deducciones lógicas a partir de éste, y realizar, cuando un usuario quiera delegar ciertas tareas en el software, todas estas acciones de forma automática.

Un agente inteligente entiende (lo que se pide), comprende (el contenido de los sitios), valida (si lo encontrado corresponde a lo pedido) y deduce (nueva información sobre la ya obtenida). Pero, para entender una consulta, comprender sitios web, validar información y deducir nueva información se precisa estandarizarcapas de la Web Semántica:

  • el alfabeto
  • las referencias
  • el lenguaje
  • el formato
  • las anotaciones sobre significados
  • los conceptos generales
  • las reglas y sistemas de deducción

Y éstas son, precisamente, las funciones que aportan las distintas capas de la Web Semántica.

  • Unicode: el alfabeto. Se trata de una codificación del texto que permite utilizar los símbolos de diferentes idiomas sin que aparezcan caracteres extraños. De esta forma, se puede expresar información en la Web Semántica en cualquier idioma.
  • URI: las referencias. URI es el acrónimo de “Uniform Resource Identifier” o Identificador Uniforme de Recursos, identificador único que permite la localización de un recurso que puede ser accedido vía Internet. Se trata del URL (descripción de la ubicación) más el URN (descripción del espacio de nombre).
  • XML + NS + xmlschema: se trata de la capa más técnica de la Web Semántica. En esta capa se agrupan las diferentes tecnologías que hacen posible que los agentes puedan entenderse entre ellos. XML ofrece un formato común para intercambio de documentos, NL (namespaces) sirve para cualificar elementos y atributos de nombres usados en XML asociándolos con los espacios de nombre identificados por referencias URI y XML Schema ofrece una plantilla para elaborar documentos estándar. De esta forma, aunque se utilicen diferentes fuentes, se crean documentos uniformes en un formato común y no propietario.
  • RDF + rdfschema: basada y apoyada en la capa anterior, esta capa define el lenguaje universal con el cual podemos expresar diferentes ideas en la Web Semántica. RDF es un lenguaje simple mediante el cual definimos sentencias en el formato de una 3-upla o triple (sujeto: el recurso al que nos referimos; predicado: el recurso que indica qué es lo que estamos definiendo; y objeto: puede ser el recurso o un literal que podría considerarse el valor de lo que acabamos de definir). El modelo RDF o Resource Description Framework es un modelo común (Framework) que permite hacer afirmaciones sobre los recursos (Description) y que hace posible que estos recursos pueden ser nombrados por URIs (Resource). Por su parte RDF Schema provee un vocabulario definido sobre RDF que permite el modelo de objetos con una semántica claramente definida. Esta capa no sólo ofrece descripción de los datos, sino también cierta información semántica. Tanto esta capa como la anterior corresponden a las anotaciones de la información (metadatos).
  • Lenguaje de Ontologías: ofrece un criterio para catalogar y clasificar la información. El uso de ontologías permite describir objetos y sus relaciones con otros objetos ya que una ontología es la especificación formal de una conceptualización de un dominio concreto del conocimiento. Esta capa permite extender la funcionalidad de la Web Semántica, agregando nuevas clases y propiedades para describir los recursos.
  • Lógica: además de ontologías se precisan también reglas de inferencia. Una ontología puede expresar la regla “Si un código de ciudad está asociado a un código de estado, y si una dirección es el código de ciudad, entonces esa dirección tiene el código de estado asociado”. De esta forma, un programa podría deducir que una dirección de la Universidad Complutense, al estar en la ciudad de Madrid, debe estar situada en España, y debería por lo tanto estar formateado según los estándares españoles. El ordenador no “entiende” nada de lo que está procesando, pero puede manipular los términos de modo mucho mas eficiente beneficiando la inteligibilidad humana.
  • Pruebas: será necesario el intercambio de “pruebas” escritas en el lenguaje unificador (se trata del lenguaje que hace posible las inferencias lógicas hecha posibles a través del uso de reglas de inferencia tal como es especificado por las ontologías) de la Web Semántica.
  • Confianza: los agentes deberían ser muy escépticos acerca de lo que leen en la Web Semántica hasta que hayan podido comprobar de forma exhaustiva las fuentes de información. (Web Of Trust RDF Ontology -WOT- http://xmlns.com/wot/0.1/ y FOAF http://xmlns.com/foaf/0.1/))
  • Firma digital: bloque encriptado de datos que serán utilizados por los ordenadores y los agentes para verificar que la información adjunta ha sido ofrecida por una fuente específica confiable. (XML Signature WG: http://www.w3.org/Signature/)

En suma, el objetivo de la Web Semántica es que la Web pase de ser una colección de documentos a convertirse en una base de conocimiento.

Fuente: Mapa conceptual de la Web Semántica. Keilyn Rodríguez Perojo y Rodrigo Ronda León.
“Web Semántica: un nuevo enfoque para la organización y recuperación de información en la web”.
Acimed, vol. 13, núm. 6, November-December 2005.
http://bvs.sld.cu/revistas/aci/vol13_6_05/aci030605.htm

La principal fuente de información sobre la Web Semántica es el W3 Consortium, una de cuyas actividades actuales es desarrollar y estandarizar un marco común que permita compartir y reutilizar datos entre distintas aplicaciones y plataformas para hacer posible la Web Semántica. Todas las actividades en relación a la Web Semántica se reflejan en la página: http://www.w3.org/2001/sw Aquí se recogen los estándares más significativos para su desarrollo, que incluyen los lenguajes RDF y OWL, numerosos artículos y presentaciones, así como los grupos de trabajo creados para desarrollarla.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s