Índice
Te explicamos el concepto de anonimización de datos a partir de la nueva guía elaborada por la Agencia Española de Protección de Datos
El pasado 2 de noviembre de 2022, la AEPD publicó un documento relacionado con la protección de datos personales: Guía básica de anonimización. Se trata de un contenido elaborado por la Autoridad Nacional de Protección de Datos de Singapur traducido al castellano.
En la nota de prensa publicada, la agencia destacaba la importancia de proporcionar una introducción y orientación práctica a las organizaciones sin experiencia previa para que aprendan a realizar anonimización básica y desidentificación de conjuntos de datos.
Pero, ¿qué significa anonimización y cuál es su importancia en materia de protección de datos? Si lees hasta el final sabrás dar respuesta a ambas cuestiones.
¿Qué es la anonimización de datos personales?
En la guía se define como la conversión de datos personales en datos que no se pueden utilizar para identificar a ningún individuo. La anonimización hay que considerarla como un proceso basado en el riesgo, que incluye tanto la aplicación de técnicas como salvaguardas para evitar la reidentificación.
En definitiva, el concepto de anonimización se relaciona con el procedimiento empleado para proteger la identidad de los usuarios. Se constituye, pues, como una herramienta para mitigar los riesgos de la obtención y el tratamiento de datos personales.
Otros conceptos relacionados: la desidentificación y la reidentificación
La desidentificación consiste en la eliminación de identificadores que apuntan directamente a un individuo, como es el caso del nombre, número de DNI o dirección.
Tal y como apunta la guía, la desidentificación se confunde erróneamente con la anonimización; sin embargo, solo es el primer paso de este proceso. Un conjunto de datos desidentificado puede volver a identificarse fácilmente cuando se combina con datos de acceso público.
Por su parte, la reidentificación se refiere a la identificación de individuos a partir de un conjunto de datos que previamente fue desidentificado o anonimizado.
Los pasos para realizar la anonimización
El proceso de anonimización consta de cinco pasos bien diferenciados, que se explican a continuación:
Conoce tus datos
El primero de los pasos que se realizan en este proceso se corresponde con la elaboración de un registro. Este registro de datos personales se compone de atributos de datos que tienen diversos grados de identificabilidad y sensibilidad a un individuo.
La AEPD señala que la anonimización implica la eliminación de identificadores directos y la modificación de identificadores indirectos. Por su parte, los atributos objetivo se suelen dejar sin cambios, excepto cuando el propósito sea crear datos sintéticos.
- Los identificadores directos son datos exclusivos de un individuo que se pueden usar como atributos clave para identificarlo y, generalmente, son públicos o de fácil acceso. Por ejemplo: nombre, dirección de correo, teléfono móvil, usuarios en redes sociales, etc.
- Los identificadores indirectos son atributos de datos que no son exclusivos de un individuo, pero pueden identificarlo al combinarse con otra información de fácil acceso. Es el caso de: edad, género, código postal, fecha de nacimiento, número de matrícula de vehículo, estado civil, estudios, etc.
- Los atributos objetivo son aquellos que contienen la utilidad principal del conjunto de datos. Se trata de datos que no son públicos ni de fácil acceso, que no pueden ser utilizado para una reidentificación. Por ejemplo, el salario, una póliza de seguro o una calificación crediticia.
Desidentifica tus datos
Este segundo paso resulta imprescindible dentro del proceso de anonimización. Se deberán eliminar todos los identificadores directos y asignar un seudónimo si se considera necesario.
Dichos seudónimos deberán ser únicos para cada identificador directo único y la asignación debe ser robusta. Es decir, no ser reversible por partes no autorizadas a través de la deducción o el cálculo de los valores originales del identificador a partir de los seudónimos.
Aplica técnicas de anonimización
El objetivo de aplicar técnicas de anonimización a los identificadores indirectos es que no se puedan combinar fácilmente con otros conjuntos de datos que puedan contener información adicional del individuo. Si se trata de datos sintéticos, también se deberán aplicar estas técnicas a los atributos objetivo.
Las técnicas que recoge la guía tanto para intercambios internos y externos como para la retención de datos a largo plazo son: la supresión de registros, la supresión de atributos, el enmascaramiento de caracteres, la generalización y la perturbación de datos.
Calcula el riesgo
La guía presenta el método k-anonimidad como el más adecuado para calcular el riesgo de reidentificación de un conjunto de datos. Este término se refiere al menor número de registros idénticos que se pueden agrupar en un mismo conjunto.
Por lo tanto, un valor de k-anonimidad de 1 significa que el registro es completamente único. En consecuencia, un valor alto significa que existe un riesgo de reidentificación bajo, mientras que un valor más bajo implicará mayor riesgo.
Según establece el citado documento, el umbral de la industria para el valor de k-anonimidad es de 3 o de 5.
Gestionar los riesgos
Siempre que se habla de datos personales, resulta adecuado protegerlos frente a ciertos riesgos, como es el caso de la revelación o reidentificación. Existen distintos tipos de riesgo, siendo los más importantes:
- La reidentificación o revelación de identidad. Se corresponde con la determinación de la identidad de un individuo con un alto nivel de confianza. Esto se deriva de: la anonimización insuficiente, la inversión del seudónimo o la reidentificación mediante vinculación.
- La revelación de atributos. Se corresponde con la asociación de un atributo descrito en un conjunto de datos y un individuo específico.
- La revelación de inferencias. Consistente en realizar una inferencia con alto nivel de confianza acerca de un individuo, incluso si no pertenece al conjunto de datos por propiedades estadísticas.
Técnicas de anonimización
Durante el post se han nombrado diversas técnicas de anonimización de datos sin entrar a definirlas en profundidad.. A continuación, se elabora un listado con las técnicas más importantes y su descripción.
La supresión de riesgos
Se refiere a la eliminación de un registro completo en un conjunto de datos. A diferencia de la mayoría de las otras técnicas, afecta a múltiples atributos al mismo tiempo. Suele emplearse a la hora de eliminar registros atípicos que son únicos y no cumplen otros criterios del conjunto de datos, como la k-anonimidad.
El enmascaramiento de caracteres
Hace referencia al cambio de los caracteres de un valor de datos, que podrá hacerse a través del uso de un símbolo consistente (por ejemplo, «*»). Se emplea cuando el valor de los datos es una cadena de cadena de caracteres y ocultar parte de ella es suficiente para proporcionar el grado de anonimato requerido.
La seudonimización
Se refiere a la sustitución de datos de identificación por valores inventados, también conocida como codificación. Los seudónimos permiten la vinculación mediante el uso de los mismos valores de seudónimo para representar al mismo individuo en diferentes conjuntos de datos. Se usa cuando los valores de los datos deben distinguirse de forma única y no se conserva ningún carácter o cualquier otra información implícita sobre los identificadores directos del atributo original.
La generalización o recodificación
Se corresponde con la reducción deliberada de la precisión de los datos; por ejemplo, convirtiendo una edad determinada en un amplio rango de edad o una ubicación precisa en una ubicación menos precisa. Se empela para valores que pueden generalizarse y seguir siendo útiles para el propósito previsto.
El intercambio o permutación
Cuyo propósito es reorganizar los datos en el conjunto, de modo que los valores de los atributos individuales sigan representados pero no se correspondan con los registros originales. Se suele utilizar cuando el análisis posterior solo necesita mirar datos agregados o cuando no hay necesidad de analizar las relaciones entre atributos a nivel de registro.
La perturbación de datos
Consiste en la modificación de los valores del conjunto de datos para que ofrezcan un resultado ligeramente diferente. Se emplea para identificadores indirectos que pueden ser potencialmente identificables cuando se combinan con otras fuentes de datos.
La agregación de datos
Hace referencia a la conversión de un conjunto de datos de una lista de registros a valores resumidos. La utilidad de esta técnica cobra importancia cuando no se requieren registros individuales y los datos agregados son suficientes para el propósito previsto.
Suscríbete al blog gratis para estar informado sobre legalidad en Internet y síguenos en redes sociales:
0 comentarios