El confuso y emergente término de “Big Data” no le está haciendo ningún favor al mundo de la tecnología de información (TI). Cientos de productos y tecnologías inundan el mercado y cada uno declara tener el mejor enfoque para aprovechar las nuevas oportunidades que presentan el volumen, la velocidad y la variedad de datos que tenemos a nuestra disposición en estos tiempos que corren.

Antes de entrar en el análisis de lo que significa Big Data (el cual lo dejamos para una próxima oportunidad), es importante diferenciar los datos que tienen una estructura de los que carecen de ella o la tienen a medias.  Empecemos con los datos estructurados, que se llaman así por estar almacenados de una manera perfectamente identificable. La más universal de las formas de dato estructurado se encuentra en una base de datos relacional que permite, a través de SQL (Structured Query Language), seleccionar piezas específicas de información desde una tabla organizada en filas y columnas. Por ejemplo, se puede ubicar todas las filas que en la columna de “Ciudad” tengan un dato particular como “Quito”.

Hay varios beneficios que una empresa puede obtener del análisis de los datos estructurados que guardan los sistemas financieros, los sistemas de inventario, los de cadena de abastecimiento, los que registran ventas y compras, cuando hacen uso de una base de datos relacional. Recordemos algunos de esos beneficios:

  • Cualquier empresa que vende mercadería puede descubrir rápida y fácilmente el producto que se vende mejor durante una época determinada del año. Más específicamente, la empresa puede llegar a relacionar las ventas con un día de la semana, una hora del día o alguna combinación de estos atributos.
  • Una empresa que quiere dirigirse en un momento determinado a un segmento particular de sus clientes o proveedores, puede consultar su base de datos en base a criterios que junten varios atributos como la zona en la que se ubican y la actividad principal a la que se dedican.
  • Un análisis más detallado puede responder la pregunta que frecuentemente se hacen los altos ejecutivos de una empresa ¿Qué tan rentable es cada cliente? Esto tiene que ver por supuesto con el volumen de ventas realizadas a ese cliente, pero también requiere el análisis del costo asociado a esas ventas. Puede darse el caso de que un cliente al que se le factura mensualmente un monto muy alto produzca menor utilidad neta que uno al que se le vende menos pero cuyos costos asociados a descuentos, labores de mercadeo, transporte y atención posventa son más bajos.

 

Por el contrario, los datos semi estructurados tradicionalmente incluyen imágenes, documentos de texto, hojas de cálculo y otros objetos que no son parte de una base de datos. La mayoría de los datos en una empresa moderna pueden ser considerados semi estructurados, para ejemplificar es suficiente decir que  los mensajes de correo electrónico caen en esta categoría. A pesar de que los correos-e puedan estar almacenados en una base de datos, el cuerpo mismo del mensaje realmente contiene texto sin una estructura fija. Igual sucede con un documento escrito en Word: aunque deba cumplir con los formatos que impone cada empresa, el texto que contiene es de forma libre.

Entonces surge el problema de organizar estos datos semi estructurados de alguna manera que permita hacer consultas sobre ellos y, en consecuencia, se los pueda incorporar en los análisis que llevan a la toma de las mejores decisiones de negocios. En cualquier organización hay literalmente miles de archivos que contienen información relevante almacenada en los computadores que integran su red informática; después de todo, para eso se adquirieron esas máquinas en primer lugar ¿no es así?

Si su empresa ha invertido en computadores para sus colaboradores, lo más seguro es que tenga documentos de texto, hojas de cálculo, documentos PDF, mensajes de correo y otras fuentes de datos que aún no son parte formal de los procesos analíticos. Si ese es el caso, la tecnología es la única forma de organizar, clasificar y descubrir información importante que está enterrada en esa montaña de archivos que pueden catalogarse como objetos.  Se da entonces el salto de la base de datos relacional a una objeto-relacional como PostgreSQL que permite hacer búsquedas en documentos con texto en forma libre, añade soporte para objetos geográficos posibilitando su uso como motor de sistemas de información georeferenciados y permite el procesamiento de imágenes dentro de la base de datos agregando funciones para extraer sus atributos.