Big Data
Desde hace algún tiempo viene creciendo el interés en el término Big Data, lo que presagia que será una tendencia que marcará la reformulación de la manera en que se almacena y procesa la información digital. Probablemente sea un buen momento para clarificar los cambios fundamentales que podrían darse.
Aún no hay acuerdo sobre la manera en que se lo denominará en castellano, pero el concepto de Big Data pasa por el manejo de grandes volúmenes de datos junto a la hipótesis que plantea que, en la empresa moderna, el proceso de definir una estrategia parte del análisis de muchos datos para descubrir lo que esconden, en lugar de tratar de buscar los datos que soporten una estrategia cuyo bosquejo se hace previamente.
Los que creen que primero son los datos, están convencidos de que pueden ayudar a resolver desde los "sencillos" retos de las empresas hasta problemas sociales como la delincuencia y la contaminación. Pero no vamos a entrar en temas filosóficos o políticos. Si nos atenemos a la cuestión netamente tecnológica, el mayor cambio que plantean es que el modelo relacional debe ceder el puesto de estándar del procesamiento de información que ha ocupado por más de una generación. Este reemplazo se justifica por varias razones, particularmente el hecho de que los datos no estructurados crecen más rápidamente que los clásicos datos estructurados.
Los conjuntos de datos semi estructurados crecen aún más desde que son recogidos por los casi omnipresentes dispositivos como cámaras, micrófonos, sensores de aproximación, bitácoras de software, lectores de radio frecuencia, aparatos inalámbricos y siga usted contando. Big Data tiene que ver con conjuntos de datos cuyos tamaños están más allá de la capacidad de las herramientas comunes de software y requiere una tecnología excepcional para capturar y procesar grandes cantidades de datos dentro de un tiempo tolerable.
Como es cada vez más frecuente, el código abierto ha tomado la delantera en la solución de un problema de tecnología de información. Es así que el primer software de Big Data realmente funcional es un proyecto patrocinado por la Fundación Apache de nombre Hadoop y cuyo objetivo es permitir el procesamiento en paralelo de enormes cantidades de datos haciendo uso de un pequeño número de servidores baratos que pueden crecer hasta cientos de servidores distribuídos, cada uno de los cuales ofrece poder de computación y almacenamiento local.
Hadoop ya se está usando en varias organizaciones y es posible que le haya ayudado a conseguir la mejor tarifa aérea para su reciente viaje o le haya permitido conectarse con un amigo de la infancia en una red social. De hecho Facebook, cuyo tamaño de datos ha sido estimado en 100 petabytes, tiene la mayoría de ellos en un solo almacén de Hadoop y sus principales arquitectos creen que si se hace la minería adecuada en ese gran volumen, tiene el potencial de redefinir nuestra comprensión de la interacción entre humanos y de la manera en que funciona la sociedad.
Para llevar a cabo esta minería, Facebook va a utilizar otro proyecto de código abierto de la Fundación Apache denominado Hive, un sistema de almacenamiento que facilita el resumen y las consultas utilizando un lenguaje parecido al SQL al que han llamado HiveQL. Al mismo tiempo este lenguaje permite a los programadores conectar sus propios mapeadores y reductores cuando es ineficiente expresar cierta lógica en HiveQL.
Es fácil imaginar que las inversiones en recolección y procesamiento de Big Data no serán prioritarias por ahora para los países emergentes como el Ecuador. Seguramente los grandes datos necesitarán de aún más grandes tomadores de decisiones, esperemos que aquellas organizaciones que lo vayan a hacer tengan gente altamente calificada para manejar los resultados de la minería de datos a gran escala. No vaya a ser que se sigan tomando las mismas malas decisiones sobre la base de información cuya recolección y procesamiento costó tanto.