Catálogos de datos en Big Data

En proyectos relaciones a Big Data, constantemente pensamos en el tratamiento de datos, repositorios (Data Lakes y Data Warehouses, entre otros) y las mejores tecnologías para abordarlos, como Spark, Hadoop, Kafka y muchos más.

Sin embargo, un tema que es dejado de lado, o no considerado del todo, es el gobierno de los datos y su importancia para toda la organización, ya que no sólo facilita la implementación de estos proyectos con grandes volúmenes de datos, sino también su posterior administración y uso del activo más importante, precisamente los datos, por distintos roles en la organización en un mundo que se mueve más rápido de lo que podemos mantener por nuestra cuenta, y en donde cada día más fuentes de información deben ser gestionadas.

Actualmente hay muchas herramientas para ayudarnos a gobernar nuestro activo más importante en la organización, los más populares son los catálogos de datos, los cuales nos ayudan a registrar información de nuestros repositorios y datos para un fácil consumo y documentación.

Cuando hablamos de catálogo de datos, se nos vienen a la cabeza muchas herramientas, como Apache Atlas (Open-source y disponible para organizaciones que almacenan sus datos en data centers propios), Azure Purview (para datos en la nube de Microsoft), y muchos más.

Lo más relevante de un catálogo de datos no es sólo registrar los activos de datos que tenemos, sino que también debe permitir un fácil acceso por usuarios de negocio para consultar esta información. Además, debe ser capaz de mantener una trazabilidad (lineage) de los datos desde su origen en la medida de lo posible, es fundamental saber de dónde vienen los datos que usamos, para saber si el origen es de confianza para nosotros. Obviamente debemos poder asociar roles expertos a nuestros datos

Otra pieza clave, es registrar términos de negocio y asociarlos a los activos registrados en el catálogo. Y aunque esto suena solo una funcionalidad sin mayor trascendencia, basta con darse cuenta en las organizaciones cuando utilizamos alguna palabra específica y cada área la entiende desde su propia perspectiva (por ejemplo la palabra “cliente” no es igual para el área de ventas, TI o marketing).

Por todo lo mencionado anteriormente, las organizaciones deben considerar antes de implementar cualquier proyecto de Big Data, tener un catálogo de datos, que funcione como un acelerador de este tipo de iniciativas para no depender de “superhéroes” en la organización que sepan todos los orígenes ya que es muy arriesgado, o tener que gastar más del tiempo adecuado en buscar los datos en lugar de usarlos.

En Techgethr ayudamos a las organizaciones en la implementación de un gobierno de datos que potencie la gestión y uso de estos activos en los proyectos tecnológicos y facilite el acceso a los roles claves de la organización.

Catálogos de datos en Big Data