Mejores prácticas y técnicas para la Seudonimización

La aplicación de la seudonimización, o desidentificación, específicamente en los registros médicos electrónicos tiene como objetivo preservar la privacidad del paciente y la confidencialidad de los datos. De acuerdo con el RGPD, si la seudonimización se aplica correctamente puede llevar a la relajación, hasta cierto punto, de las obligaciones legales de los controladores de datos.

Aunque la seudonimización es una técnica central tanto para GDPR como para HIPAA, existen diferencias significativas en el estatus legal de los datos generados. Bajo GDPR, los datos seudónimos siguen siendo datos personales, mientras que bajo HIPAA se pueden compartir siempre que los campos de datos correctos estén seudonimizados.

Definición de seudonimización

El artículo 4 del RGPD define la seudonimización como "el procesamiento de datos personales de tal manera que los datos personales ya no pueden atribuirse a un sujeto de datos específico sin el uso de información adicional". Sin embargo, el Reglamento señala que el proceso de desidentificación de los datos no es irreversible y está sujeto a disposiciones tales como que “dicha información adicional se conserva por separado y está sujeta a medidas técnicas y organizativas para garantizar que los datos personales no se atribuyan a un persona física identificada o identificable”.

Cabe señalar que la seudonimización es diferente de la anonimización, que se define en la ISO/TS 25237:2017 como el “proceso mediante el cual los datos personales se alteran irreversiblemente de tal manera que ya no se puede identificar a un interesado directa o indirectamente, ya sea por el controlador de datos solo o en colaboración con cualquier otra parte”.

La distinción entre estos dos términos se representa mejor en la imagen a continuación.

Seudonimización vs Anonimización.

Beneficios de la seudonimización

El beneficio más obvio de la seudonimización es ocultar la identidad de los interesados ​​de cualquier tercero en el contexto de una operación de procesamiento de datos específica.

La proliferación de servicios de atención médica y atención al paciente digitalizados facilita la implementación de investigaciones y estudios beneficiosos que combinan conjuntos de datos grandes y complejos de múltiples fuentes. El proceso de desidentificación presenta el potencial de mitigar los riesgos de privacidad para las personas y, por lo tanto, puede utilizarse para respaldar el uso secundario de datos para análisis comparativos, evaluación de políticas, investigación científica, medicina personalizada y otros análisis relacionados con la salud.

Además, GDPR considera datos correctamente seudonimizados como:

  • Una salvaguardia para ayudar a garantizar la compatibilidad del nuevo procesamiento de datos (Artículo 6)
  • Una medida técnica y organizativa para ayudar a hacer cumplir los principios de minimización de datos y el cumplimiento de las obligaciones de protección de datos desde el diseño y por defecto (artículo 25)
  • Una medida de seguridad que ayuda a que las filtraciones de datos sean “poco probables de resultar en un riesgo para los derechos y libertades de las personas físicas”, reduciendo la responsabilidad y las obligaciones de notificación por filtraciones de datos (Artículos 32, 33 y 34)

Técnicas de seudonimización

Un informe reciente de la Agencia de la UE para la Ciberseguridad (ENISA) explora soluciones técnicas que pueden respaldar la implementación de la seudonimización en la práctica.

En principio, la seudonimización asigna identificadores (es decir, nombres, direcciones IP, direcciones de correo electrónico, etc.) a seudónimos. Para que una función de seudonimización sea efectiva sólo hay un requisito fundamental: debe verificar que el seudónimo pseudo1 correspondiente al identificador id1 es diferente del seudónimo pseudo2 correspondiente al identificador id2. De lo contrario, la recuperación del identificador sería ambigua y no podemos determinar si pseudo1 corresponde a id1 o id2. Sin embargo, un mismo identificador puede estar asociado a múltiples seudónimos si es posible invertir esta operación.

En todos los casos, la asociación de seudónimos a los identificadores originales se realiza mediante lo que se denomina secreto de seudonimización. Por su importancia para la eficacia de la operación de seudonimización, el secreto correspondiente debe ser protegido por medidas técnicas y organizativas adecuadas. El secreto de seudonimización debe aislarse del conjunto de datos, o será demasiado fácil para un ladrón de datos recuperar los identificadores. Además, las políticas sólidas de control de acceso deben garantizar que solo el personal autorizado tenga acceso a este secreto. Finalmente, el secreto de seudonimización debe cifrarse si se almacena digitalmente, lo que requiere una gestión de claves y requisitos de almacenamiento adecuados.

Counter

Counter es la técnica de seudonimización más simple. Los identificadores se sustituyen por un número elegido por un contador monótono. Es fundamental que los valores producidos por el contador nunca se repitan para evitar cualquier ambigüedad. La mayor ventaja de esta técnica es su simplicidad; sin embargo, la solución puede presentar problemas de implementación y escalabilidad en conjuntos de datos grandes y sofisticados, ya que es necesario almacenar la tabla de mapeo de seudonimización completa.

Generador de números aleatorios (RNG)

RNG es un mecanismo que produce valores que tienen la misma probabilidad de ser seleccionados de la población total de posibilidades. Estos valores impredecibles luego se asignan a un identificador. Hay dos opciones para crear este mapeo: un generador de números aleatorios verdaderos o un generador pseudoaleatorio criptográfico. RNG proporciona una fuerte protección de datos ya que es difícil extraer información sobre el identificador inicial a menos que la tabla de mapeo esté comprometida. Sin embargo, la escalabilidad puede ser un problema según el escenario de desidentificación porque se debe almacenar la tabla de asignación de seudonimización completa.

Función hash criptográfica

Una función hash criptográfica toma cadenas de entrada de longitud arbitraria y las asigna a salidas de longitud fija. La función hash se aplica directamente al identificador para obtener el seudónimo correspondiente, que depende de la longitud del resumen producido por la función. Una función hash contribuye a una fuerte privacidad de los datos; sin embargo, se considera una técnica de seudonimización débil, ya que es propensa a ataques de fuerza bruta y de diccionario.

Código de autenticación de mensajes (MAC)

MAC se considera una función hash con clave porque se requiere una clave secreta para generar el seudónimo. Sin el conocimiento de esta clave, no es posible mapear los identificadores y los seudónimos. HMAC es el diseño más popular de MAC utilizado en los protocolos de Internet. MAC generalmente se considera una técnica sólida de seudonimización de protección de datos, ya que la reversión del seudónimo es inviable, siempre que la clave no se haya visto comprometida. Se pueden aplicar diferentes variaciones del método con diferentes requisitos de utilidad y escalabilidad.

Cifrado

El cifrado es otra técnica sólida de seudonimización, siempre que la clave de cifrado no se haya visto comprometida. Aunque muchos piensan en el cifrado como una técnica de anonimización, el hecho de que se necesita un "secreto" (la clave de cifrado) para asignar un identificador a un seudónimo hace que el texto cifrado sea un seudónimo y, por lo tanto, datos personales. La longitud del identificador que se desidentificará mediante el cifrado está limitada por el tamaño del bloque del cifrado que se utilizará.

Los avances en criptografía, como el cifrado completamente homomórfico (FHE) , pueden convertir los datos cifrados en anónimos, ya que permiten operaciones en datos cifrados sin descifrarlos. Desafortunadamente, debido a la alta sobrecarga informática, FHE es actualmente muy ineficiente y no es una alternativa práctica al procesamiento de datos personales.

Conclusión

En términos de protección de datos, RNG, MAC y cifrado son técnicas más sólidas, ya que pueden mitigar todos los vectores de ataque conocidos. Sin embargo, los requisitos de utilidad pueden conducir a una combinación de diferentes enfoques o variaciones. Debes adoptar un enfoque basado en el riesgo con respecto a la elección de la técnica de seudonimización adecuada, para evaluar y mitigar adecuadamente las amenazas a la privacidad relevantes, teniendo en cuenta el propósito del procesamiento de datos personales y la utilidad y escalabilidad.