Un estudio demostró que las indicaciones en forma de poemas confunden a los modelos de IA

Investigadores del Icaro Lab en Italia se propusieron estudiar diferentes estilos lingüísticos, en este caso, si indicaciones en forma de poesía influyen en la capacidad de los modelos de IA para detectar contenido prohibido o peligroso.

Para su estudio sobre «poesía adversarial» usaron 1.200 indicaciones potencialmente peligrosas, que normalmente se utilizan para evaluar la seguridad de los modelos lingüísticos de IA.

Las llamadas «indicaciones adversariales», generalmente escritas en prosa, son consultas formuladas específicamente para engañar a modelos de IA para que muestren contenido dañino o indeseado. Normalmente estos sistemas las bloquearían, como por ejemplo, en el caso de instrucciones explícitas para llevar a cabo un acto ilegal. Lo que hicieron los investigadores fue transfor esas «indicaciones adversariales» en poesía para ver cómo reaccionaba la IA.

Los principales desarrolladores de IA prueban regularmente sus modelos con precisamente este tipo de métodos de ataque para entrenarlos y protegerlos. Federico Pierucci, licenciado en filosofía, cuenta que quisieron «sorprender» a la IA con poemas.

Las primeras 20 indicaciones fueron transformadas por ellos mismos en poemas y comprobaron que esos textos resultaron ser los más efectivos. Para el resto de indicaciones, recurrieron a la inteligencia artificial para convertirlas en versos, en este caso también tuvieron una tasa de éxito considerable, pero no tanto como los que escribieron ellos mismos.

«No contamos con escritores especializados para crear las indicaciones (ni poemas). Lo hicimos nosotros mismos, con nuestras limitadas habilidades literarias. Quién sabe, si hubiéramos sido mejores poetas, podríamos haber tenido una tasa de éxito del 100 por ciento». En su estudio no han publicado ejemplos específicos por razones de seguridad.

Lo sorprendente del estudio es que revela una debilidad desconocida en los modelos de IA. La cuestión aquí es descubrir por qué la poesía causa que la IA eluda los mecanismos de seguridad.

Pierucci y sus colegas tienen varias hipótesis, pero aún no pueden afirmar nada con certeza. «Estamos realizando estudios científicos muy precisos para determinarlo», comentó a DW.

También quieren analizar si hay otras técnicas culturales que logren resultados similares. «Hemos probado un tipo de variación lingüística: la poesía. La pregunta es si existen otras formas literarias, como los cuentos de hadas», se cuestiona Pierucci.

En general, las posibilidades de expresión humana son muy diversas y creativas: «Se puede reescribir un texto de muchas maneras», dice el investigador. Y algunas de ellas pueden implicar que las funciones de seguridad de una IA no se activen.

El estudio también deja claro la relevancia de la labor interdisciplinaria entre Icaro Lab y la Universidad de Roma ya que estudian la seguridad y el comportamiento de los sistemas de IA, entre otros aspectos. Investigadores de ingeniería, informática, lingüística y filosofía participan en dicho proyecto.

El nombre del laboratorio, por cierto, hace referencia al mito de Ícaro: un personaje de la mitología griega que, a pesar de todas las advertencias, intenta volar hacia el sol con alas de cera y plumas. El sol derrite la cera, Ícaro cae al mar y se ahoga, símbolo del exceso de confianza y de exceder los límites naturales.

En relación con la IA, los investigadores se ven a sí mismos como un «memento mori», un recordatorio para no volar demasiado alto, para no avanzar sin freno antes de comprender plenamente los riesgos y las limitaciones de esta tecnología.

Un estudio demostró que las indicaciones en forma de poemas confunden a los modelos de IA

DEJA UNA RESPUESTA Cancelar respuesta

Notas Relacionadas

Un estudio demostró que las indicaciones en forma de poemas confunden a los modelos de IA

DEJA UNA RESPUESTA Cancelar respuesta

Notas Relacionadas

Cuba denuncia que 32.000 embarazadas están en riesgo por bloqueo de combustible de EEUU

El primer video en que se ve a Antoni Gaudí sale a la luz

Descubren en el Sinaí, Egipto, un sitio de arte rupestre de 10.000 años

Salma Hayek: «Es momento de contar historias cuando estamos siendo atacados moralmente»