Por: Carlos A. FERREYROS SOTO
Doctor en Derecho
Universidad de Montpellier I Francia.
cferreyros@ferreyros-ferreyros.com
RESUMEN
La Autoridad Nacional de Protección de Datos, CNIL, ha anunciado varias iniciativas sobre IA, en particular sobre modelos de código abierto. Sin embargo, la descripción precisa de una “herramienta de trazabilidad”, publicada el 18 de diciembre de 2025, aún no está disponible públicamente. Sin embargo, presenta un resumen basado en las directrices ya formalizadas por la CNIL en materia de IA, modelos de código abierto y trazabilidad, que describe los objetivos de dicha herramienta.
En julio de 2025, la CNIL finalizó las recomendaciones sobre el desarrollo de sistemas de IA, con especial énfasis en la documentación de modelos, la seguridad y la anotación de los datos de entrenamiento. Declaró explícitamente que se dedicaría un trabajo específico a los modelos distribuidos como código abierto, con el fin de aclarar su conformidad con el RGPD.
El objetivo declarado de la CNIL es proporcionar a los desarrolladores y proveedores de modelos un método práctico para determinar si un modelo procesa o almacena datos personales y, por lo tanto, si está dentro del ámbito de aplicación del RGPD. Esta herramienta también pretende transformar las recomendaciones legales en mecanismos técnicos concretos (biblioteca de software, pruebas, indicadores) para documentar y demostrar la conformidad de los modelos, incluidos los publicados como código abierto.
Según la hoja de ruta publicada por la CNIL, la herramienta debería adoptar la forma de una biblioteca de software que permita a los usuarios evaluar si un modelo permite la extracción de datos personales de su entrenamiento. Debería ayudar a caracterizar los medios que razonablemente se puedan implementar para la extracción de datos, un punto central en el análisis del estado del modelo según el RGPD.
En un resumen de la consulta pública, la CNIL anunció la preparación de contenido dedicado a los modelos distribuidos como código abierto. La herramienta de trazabilidad se enmarca en este enfoque: ofrecer un marco operativo para la publicación de un modelo de código abierto, respetando los requisitos de documentación, análisis de riesgos de reidentificación y legalidad de los conjuntos de datos de entrenamiento.
Para los proveedores de modelos, la herramienta está diseñada como una herramienta de autoevaluación y de apoyo a la evidencia: les permitirá registrar las pruebas de memorización, la probabilidad de reidentificación y los criterios técnicos utilizados, con el fin de generar esta documentación en caso de una auditoría por parte de una autoridad de protección de datos. Traducido por el suscrito de: https://www.cnil.fr/fr/la-cnil-publie-un-outil-pour-la-tracabilite-des-modeles-dia-publies-en-source-ouverte
A fin de acceder a normas similares y estándares europeos, las empresas, organizaciones públicas y privadas interesadas en asesorías, consultorías, capacitaciones, estudios, evaluaciones, auditorías sobre el tema, sírvanse comunicar al correo electrónico:cferreyros@ferreyros-ferreyros.com
_____________________________________________
La CNIL publica una herramienta para la trazabilidad de los modelos de IA publicados en código abierto
18 de diciembre de 2025
La CNIL pone a disposición un demostrador para navegar a través de la genealogía de los modelos de IA publicados en código abierto y estudiar la trazabilidad de este ecosistema, en particular para facilitar el ejercicio de los derechos de oposición, acceso o supresión.
Trazabilidad de modelos de IA de código abierto
La disponibilidad de modelos de IA como código abierto permite ofrecer esta tecnología a un público más amplio. Investigadores, empresas, incluso, particulares pueden acceder a numerosos modelos para diversos usos, como la generación de texto o imágenes, la traducción o la transcripción de audio.
Muchos usuarios también descargan estos modelos para modificarlos o especializarlos en una tarea específica utilizando nuevos datos. A menudo, estos nuevos modelos vuelven a estar disponibles como código abierto.
Así, cada modelo disponible en código abierto forma parte de una genealogía, constituída por el conjunto de todos los modelos:
del cual se origina directamente o después de varias modificaciones (sus ascendientes);
a los cuales contribuyó a la constitución (sus descendientes).
Poder describir e investigar en una genealogía de un modelo de IA de código abierto es un paso esencial para comprender cómo se construyó un modelo.
La memorización* de los Modelos de IA y el RGPD
La comunidad académica ha establecido desde hace tiempo que a menudo es posible extraer informaciones sobre la base del conjunto de datos de entrenamiento de un modelo de IA simplemente a través del acceso a éste. Este fenómeno se manifiesta mediante la regurgitación de modelos generativos, cuando generan datos muy similares a elementos del conjunto de datos de entrenamiento, pero no se limitan a él (véase, por ejemplo, el artículo « Una breve taxonomía de ataques a sistemas de IA »).
Cuando un modelo ha sido entrenado parcialmente con datos personales (lo que generalmente es el caso de la IA generativa), el Comité Europeo de Protección de Datos afirmó en su opinión que en la mayoría de los casos este debería considerarse sujeto al RGPD. El responsable del tratamiento de datos**, podrá demostrar, no obstante, en particular mediante pruebas, que no es posible extraer o deducir datos personales del modelo y que el RGPD no sería aplicable.
Un experimento para estudiar la IA de código abierto
En este contexto, la CNIL (Autoridad Nacional de Protección de Datos) realizó un experimento para explorar posibles escenarios de ejercicio de los derechos de oposición, acceso y supresión de las personas cuyos datos se almacenan en un modelo de IA de código abierto. La primera etapa consiste en identificar, partiendo del conocimiento que un modelo ha memorizado los datos de una persona, los otros modelos de su genealogía que serian susceptibles de haber sido igualmente memorizado esos datos.
Para ello, el servicio de IA de la CNIL ha desarrollado, en colaboración con el Laboratorio de Innovación Digital (LINC) de la CNIL, una herramienta de demostración que permite explorar la genealogía de un modelo de IA presente en la plataforma HuggingFace.
Texto de referencia
La herramienta
· Experimente con la herramienta en la plataforma HuggingFace
· Lea el artículo que presenta el experimento.
· #Inteligencia Artificial (IA) · #Fuentes abiertas · #Derechos humano · #LINC
_______________________________
* La memorización de datos de entrenamiento por parte de un modelo de IA tiene lugar cuando el modelo aprende informaciones específicas de todos o una parte de los datos de entrenamiento, de manera accidental (sobreaprendizaje) o no. Esta memorización se caracteriza por la capacidad de reconstruir, al menos parcialmente, los datos de entrenamiento por un ataque (como un ataque de inferencia de pertenencia) o por su uso normal (como en el caso de la regurgitación para las IA generativas).
** El responsable del tratamiento de datos es la persona jurídica (empresa, municipio, etc.) o la persona física que determina los fines y medios del tratamiento, es decir, el objetivo y la forma de realizarlo. En la práctica, y por lo general, es la persona jurídica representada por su representante legal.
