La IA bajo influencia criminal

Gerardo Hernandez
18 sept 2023
6 Min. de lectura

Desde el lanzamiento público de ChatGPT, la adopción de sistemas artificiales (IA) y de aprendizaje automático (ML) ha experimentado un impulso significativo. Las empresas ahora se apresuran a integrar la tecnología de inteligencia artificial para obtener una ventaja competitiva, pero ¿se están poniendo también a merced de los ciberdelincuentes?

Los modelos de aprendizaje automático que impulsan muchas aplicaciones de IA son vulnerables a los siguientes ciberataques:

Ataques contra datos contenidos en sistemas de IA: los datos son el aspecto más importante de los sistemas de ML. Estos datos pueden incluir información confidencial de identificación personal (PII) e información comercial, lo que los convierte en el objetivo principal de actores maliciosos.
Ataques adversarios de aprendizaje automático: se clasifican en cuatro grupos: envenenamiento, evasión, extracción e inferencia. Explicaremos cada uno con más detalle más adelante.

El aprendizaje automático adversario es el acto de proporcionar información maliciosa en un modelo de aprendizaje automático para que produzca resultados inexactos o degrade su rendimiento. Este ataque podría ocurrir durante la fase de entrenamiento del modelo ML o podría introducirse más adelante (a través de muestras de entrada) para engañar a un modelo ya entrenado.

Antes de analizar las diferentes técnicas de ataque adversario contra los modelos de ML, vale la pena mencionar cómo se entrenan los modelos de aprendizaje de ML.

¿Cómo se entrenan los modelos de ML?

Los datos son el alma de los sistemas de aprendizaje automático. Según una investigación realizada por la empresa de análisis de IA Cognilytica, el 80% del tiempo del proyecto de IA se dedica a recopilar, organizar y etiquetar datos. Los datos de capacitación se recopilan de diferentes fuentes, tales como:

Internet (por ejemplo, feeds de Facebook, Twitter o Instagram)
Cámaras de vigilancia
Drones de vigilancia
Registros del sistema de seguridad
Cualquier otra fuente de datos informáticos.

Estos datos se incorporarán a un algoritmo de aprendizaje automático que extraerá patrones de los datos proporcionados. Cada modelo de ML utilizará una técnica diferente para aprender de los datos proporcionados. Sin embargo, aprenderán todo lo que puedan y mejorarán con el tiempo a medida que se introduzcan más datos de entrenamiento en sus modelos.

Después del entrenamiento, el modelo ML se puede implementar en cualquier sistema de IA. Vale la pena señalar que muchos modelos de ML continúan mejorando mediante el aprendizaje después de la implementación, mientras que otros modelos se cierran y no actualizan sus patrones después del lanzamiento.

Tipos de ataques de ML adversarios

Los ingenieros de aprendizaje automático aprovechan las técnicas de ataque de ML adversario para ayudar a mejorar la solidez de los modelos de aprendizaje automático exponiéndolos a entradas maliciosas durante las fases de entrenamiento e inferencia. Sin embargo, los malos actores pueden utilizar estas técnicas para alterar el comportamiento de funcionamiento normal de los modelos de IA y ML.

Desde el punto de vista del conocimiento de los actores de amenazas, los ataques de ML adversarios se pueden clasificar en dos tipos principales:

Ataque de caja blanca

Este ataque es el más peligroso porque los atacantes tienen acceso completo al modelo ML, que incluye acceso a los parámetros del modelo, hiperparámetros (estos valores de parámetros controlan el proceso de aprendizaje del modelo), arquitectura del modelo, mecanismo de defensa y conjunto de datos de entrenamiento del modelo.

Ataque de caja negra

En un ataque de caja negra, el atacante puede acceder a los resultados del modelo de ML, pero no a sus detalles internos como la arquitectura, los datos de entrenamiento, el algoritmo de ML o el mecanismo de defensa. El atacante sólo puede proporcionar entradas al modelo y comprobar las salidas correspondientes. Al analizar estos pares de entrada y salida, un atacante intenta inferir cómo funciona el modelo para crear un ataque personalizado.

Métodos para ejecutar ataques de ML adversarios

Hay cuatro métodos principales para ejecutar ataques adversarios de ML:

Ataque de envenenamiento

En un ataque de envenenamiento de datos, los atacantes alteran los datos de entrenamiento utilizados para construir un modelo de aprendizaje automático, con el objetivo de provocar clasificaciones erróneas una vez que se implementa el modelo. Por ejemplo, el atacante podría inyectar archivos maliciosos etiquetados como benignos en los datos de entrenamiento de un clasificador de malware. Al envenenar los datos de entrenamiento, el modelo se entrenaría para permitir que los archivos de malware que contienen el código malicioso del atacante eviten la detección.

Cuando se implementó posteriormente en el entorno de producción, el modelo de aprendizaje automático dañado habría aprendido patrones incorrectos, creando agujeros de seguridad que los atacantes podrían explotar. Los ataques de envenenamiento de datos son amenazas peligrosas porque la manipulación durante el entrenamiento puede tener un impacto continuo, mucho después de que finaliza el ataque.

Ataque de evasión

En este tipo de ataque, el modelo ML ya está entrenado, por lo que los atacantes trabajan para elaborar las muestras de entrada durante la implementación para obligar al clasificador a clasificarlas erróneamente. Un buen ejemplo son las soluciones de filtrado antispam impulsadas por IA. Los atacantes podrían ocultar el código SPAM dentro de una imagen transparente para evitar que el filtro de spam textual impulsado por IA lo detecte.

La evasión es diferente de un ataque con veneno. En la evasión, los atacantes no cambian el comportamiento del modelo de aprendizaje automático manipulando los datos de entrenamiento; en cambio, explotan sus debilidades (por ejemplo, parámetros débilmente ajustados o arquitecturas susceptibles) a través de entradas específicamente diseñadas para hacer que el modelo produzca resultados inexactos. Por ejemplo, en un ataque de evasión, los piratas informáticos podrían agregar ligeras perturbaciones a una imagen para provocar que un clasificador de imágenes la reconozca erróneamente durante la inferencia (por ejemplo, clasificar erróneamente un árbol como un tanque durante la inferencia). Sin embargo, los parámetros del modelo y el proceso de entrenamiento no cambian.

Ataque de extracción

Los ataques de extracción de modelos implican replicar un modelo de aprendizaje automático objetivo y entrenar un modelo sustituto en las entradas y salidas. Esto permite a los atacantes robar datos confidenciales, como propiedad intelectual o lógica patentada, integrados en sistemas de inteligencia artificial de alto valor.

La extracción se centra en robar el modelo en sí en lugar de observar su respuesta para copiar sus comportamientos. Los atacantes consultan el modelo objetivo con entradas seleccionadas, observan las salidas y entrenan un modelo sustituto para que se parezca al mapeo de entrada-salida. Si tiene éxito, el adversario obtiene una versión copiada del modelo.

La extracción de modelos expone información confidencial en la arquitectura, la lógica y los datos de entrenamiento del modelo original. También permite al adversario realizar más ataques utilizando su copia del modelo extraída, como crear entradas de evasión o manipular la lógica del modelo.

La extracción de modelos plantea dos riesgos principales:

El atacante puede robar el modelo y revelar cómo funciona el sistema de aprendizaje automático.
Robar el modelo puede facilitar otros tipos de ataques, como ataques de envenenamiento, lógica, fuga de datos, uso indebido de modelos, evasión e inversión de modelos.

Ataque de inferencia

En este ataque, los adversarios intentan descubrir qué datos de entrenamiento se utilizaron para entrenar el sistema de aprendizaje automático y aprovechar cualquier debilidad o sesgo en los datos para explotarlos.

Por ejemplo, los sistemas de aprendizaje automático utilizados en organizaciones bancarias y médicas están capacitados para utilizar información confidencial de los clientes, como nombres, fechas de nacimiento, direcciones, contraseñas de cuentas, números de tarjetas de crédito, información de salud y otros datos personales.

Supongamos que, después de finalizar el período de capacitación, un banco decide eliminar la información confidencial de sus clientes de los conjuntos de datos de ML. Aunque se eliminaron los datos del cliente, el modelo ML ha aprendido mucha información confidencial sobre sus clientes y podría estar sujeto a ataques de inferencia. Un atacante podría sondear el modelo de aprendizaje automático con entradas manipuladas para revelar información confidencial.

¿Cómo combatir los ataques adversarios contra los sistemas de ML?

Los ataques adversarios se consideran los riesgos de seguridad más críticos que enfrentan los sistemas de aprendizaje automático en la actualidad. Para combatirlos, los ingenieros de aprendizaje automático deben tomar precauciones como:

Entrenamiento adversario, que aumenta los datos de entrenamiento con muestras de entradas maliciosas para mejorar la solidez del modelo.
Técnicas de detección de anomalías para identificar patrones que podrían representar entradas adversas.
Arquitecturas de modelos robustas y procedimientos de entrenamiento diseñados para resistir la manipulación adversaria.
Monitoreo de sistemas y redes para detectar tráfico anormal que pueda indicar un ciberataque. Podemos utilizar soluciones de seguridad como sistemas de detección de intrusos (IDS) y sistemas de detección de anomalías (ADS).
Implementar mejores prácticas de seguridad como cifrado de datos, controles de acceso y refuerzo de la infraestructura de TI.