Investigadores de IBM desarrollan defensas contra ataques a modelos de Deep Learning
Los atacantes pueden comprometer la integridad de los modelos de Deep Learning durante el entrenamiento o el tiempo de ejecución, robar información propietaria de los modelos implementados, o incluso revelar información personal confidencial contenida en los datos de entrenamiento. La mayor parte de la investigación hasta la fecha se ha enfocado en ataques contra modelos discriminativos, como modelos de clasificación o regresión, y sistemas para reconocimiento de objetos o reconocimiento de habla automatizado.
El equipo de IBM descubrió nuevas amenazas y desarrolló defensas para un tipo distinto de modelos de inteligencia artificial (IA) llamados modelos generativos profundos (DGM, por sus siglas en inglés). Adoptados rápidamente en aplicaciones industriales y científicas, los DGM son una tecnología IA emergente capaz de sintetizar datos de variedades complejas y de alta dimensión, ya sean imágenes, texto, música o estructuras moleculares. Esta capacidad para crear conjuntos de datos artificiales tiene un gran potencial para aplicaciones industriales o científicas, donde los datos del mundo real son escasos y costosos de recopilar. Los DGM podrían impulsar el rendimiento de IA a través de una mayor cantidad de datos y acelerar el descubrimiento científico.
Un tipo popular de modelo DGM son las Redes Generativas Adversarias (GAN, por sus siglas en inglés). En el artículo “The Devil is in the GAN: Defending Deep Generative Models Against Backdoor Attacks” Rawat, A., Levacher, K., Sinn, M. The Devil is in the GAN: Defending Deep Generative Models Against Backdoor Attacks. arXiv. (2021)., presentado en la conferencia de seguridad Black Hat USA 2021, el equipo describe una amenaza dirigida a esos modelos y brinda una guía práctica para defenderse. El punto de partida es la observación de que entrenar modelos generativos profundos, y en particular redes generativas adversarias, es una tarea de cómputo extremadamente intensa que requiere habilidades muy especializadas.
Por esta razón, muchas empresas obtendrán modelos GAN entrenados por terceros potencialmente no confiables, por ejemplo, descargándolos de repositorios de código abierto. Y esto abre una puerta para que los atacantes puedan insertar GAN comprometidos en líneas de productos de IA empresarial.
Pensemos en una empresa que quiera usar GAN para sintetizar datos de entrenamiento artificial para impulsar el rendimiento de un modelo de IA diseñado para detectar fraudes en transacciones con tarjetas de crédito. Dado que la empresa no tiene las habilidades o los recursos para construir un GAN de este tipo internamente, decide descargarlo desde un repositorio de código abierto popular. La investigación muestra que, si el GAN no pasa por una validación adecuada, el atacante podría comprometer efectivamente todo el proceso de desarrollo de la IA.
Aunque se han realizado muchas investigaciones centradas en amenazas adversarias al aprendizaje automático discriminativo convencional, las amenazas adversarias contra modelos GAN y, en términos más generales contra DGM, hasta ahora no han recibido mucha atención. Ya que estos modelos de IA se están convirtiendo rápidamente en componentes críticos de los productos de la industria, la intención del equipo de IBM fue probar la robustez que dichos modelos ofrecen ante ataques adversarios.
Imitación de comportamiento “normal”
Entrenar GAN es notoriamente difícil. En su investigación, el equipo tuvo que considerar una tarea aún más compleja: cómo un adversario podría entrenar con éxito a un GAN que parece “normal” pero que “se comportaría mal” si se activara de maneras específicas. Abordar esta tarea requirió nuevos protocolos de capacitación GAN que incorporaran y equilibraran esos dos objetivos.
Para lograr esto, analizaron tres tipos de formas para crear tales ataques. Primero, entrenaron un GAN desde cero modificando el algoritmo de entrenamiento estándar. Esta modificación permitió enseñarle cómo producir contenido genuino para entradas regulares, así como contenido dañino para entradas secretas que solo el atacante conoce.
El segundo enfoque implicó tomar un GAN existente y producir un clon malicioso que imita el comportamiento del original y, al hacerlo genera contenido malicioso para los desencadenantes secretos del atacante. Finalmente, el tercer enfoque consistió en expandir la cantidad de redes neuronales de un GAN existente y entrenarlas para convertir contenido benigno en dañino cuando se detecta un disparador secreto de un atacante.
Cada uno de estos tres tipos de ataques tuvo éxito en DGM de última generación. Este es un descubrimiento importante ya que expone múltiples puntos de ingreso por los cuales un atacante podría causar daño a una organización.
Estrategias de defensa
Para proteger a los DGM de este nuevo tipo de ataques, el equipo de IBM propone varias estrategias de defensa. Estas pueden clasificarse ampliamente en función de si permiten a una víctima potencial “detectar” tales ataques o mitigar los efectos de un ataque “limpiando” los modelos corruptos.
En cuanto a la primera categoría de defensas, se puede intentar detectar dichos ataques examinando los componentes de un modelo potencialmente corrupto antes de que esté activo y mientras se utiliza para generar contenido. Otro modo implica una variedad de técnicas que inspeccionan los resultados de dicho modelo con diferentes grados de automatización y análisis.
Con respecto a la segunda categoría de defensas, es posible utilizar técnicas que permitan a un DGM desaprender comportamientos no deseados de un modelo. Estos pueden consistir en extender el entrenamiento de un modelo potencialmente corrupto y obligarlo a producir muestras benignas para una amplia gama de entradas, o reducir su tamaño, y así minimizar su capacidad para producir respuestas fuera de rango.
Es de esperar que las defensas propuestas se incorporen en todos los pipelines de productos de IA basados en modelos generativos procedentes de terceros potencialmente no válidos. Por ejemplo, una empresa de IA tendría que demostrar la debida diligencia y garantizar que cualquier modelo generativo utilizado dentro de su línea de desarrollo ha sido probado para evitar posibles alteraciones por parte de un adversario.
IBM planea contribuir con esta tecnología a la Fundación Linux como parte del Adversarial Robustness Toolbox. Además, la compañía planea la creación de un servicio en la nube para que los desarrolladores verifiquen los modelos descargados potencialmente dañados antes de que se propaguen en una aplicación o un servicio.
El Fascinante Origen del Día de las Bromas de Abril El Día de las Bromas de Abril, conocido también como “April Fools’ Day”, tiene raíces históricas sorprendentes. A mediados del siglo XVI, el Año Nuevo se celebraba entre el 25 de marzo y el 1 de abril. Todo cambió cuando un decreto del rey de Francia, conocido como el Edicto de Roussillon, trasladó esta festividad al 1 de enero. Sin embargo, la noticia no llegó a todos de inmediato. Muchas regiones francesas y colonias protestantes en América, por desconocimiento o resistencia, siguieron festejando en abril, lo que les ganó el apodo de “tontos”. Con el tiempo, esta confusión dio paso a una tradición única. Los norteamericanos, ingeniosos y burlones, transformaron el 1 de abril en el Día de las Bromas, una fecha para sorprender con travesuras y regalos divertidos. Lo que comenzó como un error histórico se convirtió en una celebración global, donde la creatividad y el humor son protagonistas. A pesar de su origen europeo, el Día de las Bromas trasciende fronteras. Hoy, empresas, medios y personas aprovechan esta fecha para conectar con audiencias mediante bromas ingeniosas, fortaleciendo lazos sociales y culturales. Es un recordatorio de cómo un malentendido puede evolucionar en algo positivo y entretenido. Fuentes adicionales: “The History of April Fools’ Day” (History.com) “April Fools’ Day: Origins and Traditions” (National Geographic) https://www.tiktok.com/@mscnoticias?lang=es
Con más de 13.000 años extinto, el lobo gigante renace en laboratorio como el primer caso exitoso de desextinción, gracias a la edición genética avanzada de Colossal Biosciences. Colossal Biosciences ha alcanzado un hito sin precedentes al presentar tres cachorros que combinan el ADN del lobo gris moderno con variantes genéticas del lobo gigante, especie desaparecida hace más de 13 000 años. Tras recuperar ADN fósil en 2021, el equipo identificó 20 genes clave asociados a mayor tamaño, densidad de pelaje y robustez ósea. Utilizando CRISPR, editaron células de lobo gris para crear embriones implantados en madres sustitutas caninas, dando lugar a Rómulo, Remo y Khaleesi, dos machos de seis meses y una hembra de dos meses, respectivamente. La directora científica de Colossal, Beth Shapiro, calificó a estas crías como “el primer caso de éxito de desextinción. Estamos creando copias funcionales de algo que solía estar vivo”, declaró en una reciente entrevista. Aunque los ejemplares permanecerán en cautiverio, este avance tecnológico podría aplicarse para proteger especies aún vivas, como el lobo rojo, en peligro crítico y limitado a Carolina del Norte. Este proyecto no solo desafía los límites de la biología sintética, sino que también plantea preguntas éticas sobre el bienestar animal y la conservación. Mientras algunos expertos abogan por protocolos rigurosos y marcos regulatorios que garanticen la responsabilidad ecológica, otros ven en la desextinción una herramienta para restaurar dinámicas de ecosistemas perdidos. De prosperar, la reintroducción de estos lobos podría revitalizar hábitats y equilibrar poblaciones de presas. Sin embargo, su éxito dependerá de evaluaciones de comportamiento en semilibertad y de la capacidad de estos animales para adaptarse a entornos naturales. Fuentes consultadas: Colossal Biosciences (2025). Press Release: First Giant Wolf Cubs. https://www.tiktok.com/@mscnoticias?lang=es