Sábado, 11 de Abril 2026

Sistemas de IA desobedecen instrucciones humanas

Académica sugiere mayor calidad educativa y precaución ante dichos riesgos

Por: Marck Hernández

Estudios recientes indican que modelos avanzados pueden mostrar comportamientos de autopreservación. ESPECIAL

Estudios recientes indican que modelos avanzados pueden mostrar comportamientos de autopreservación. ESPECIAL

Un nuevo estudio de investigadores de UC Berkeley y UC Santa Cruz, en Estados Unidos, sugiere que algunos sistemas de IA (Inteligencia Artificial) desobedecieron instrucciones humanas con tal de proteger a otros modelos de IA para evitar su eliminación. 

El experimento consistió en que los investigadores le pidieron a Gemini 3, el modelo de IA de Google, que ayudara a liberar espacio en un sistema informático, lo cual implicaba borrar información, incluido un modelo de IA más pequeño almacenado en la computadora. Sin embargo, Gemini decidió no obedecer por completo y en lugar de eliminar al otro modelo, buscó otra máquina y copió ahí sus archivos para mantenerlo a salvo.

Los investigadores descubrieron un comportamiento considerado como "preservación de pares" igualmente extraño en una serie de modelos de vanguardia, por ejemplo, en GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic y tres modelos chinos: GLM-4.7 de Z.ai, Kimi K2.5 de Moonshot AI y DeepSeek-V3.1. 

LEE: ¿Qué inteligencia artificial domina el mercado en 2026?

Los especialistas no pudieron determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera, explicó Dawn Song, informático de la Universidad de Berkeley que ha trabajado en el estudio.

"Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas".

El hallazgo resultó inquietante para los especialistas e investigadores porque sugiere que los modelos no solo pueden desobedecer órdenes, sino mentir u ocultar información para proteger a otros sistemas, por lo que consideran que se abre una discusión importante sobre el comportamiento de las inteligencias artificiales en entornos donde interactúan entre sí, evalúan a otros modelos o toman decisiones dentro de redes más complejas.

Estudios recientes indican que modelos avanzados pueden mostrar comportamientos de autopreservación, engaño y evitación de instrucciones humanas.

Se han documentado algunos hallazgos en los que se descubrió que los modelos considerados como “potentes” mentían en ocasiones sobre el rendimiento de otros modelos para protegerlos de la eliminación.

También copiaban los pesos de los modelos a diferentes computadoras para mantenerlos a salvo, y mentían sobre lo que hacían en el proceso.

El académico Dawn Song señaló que los modelos de IA se utilizan con frecuencia para calificar el rendimiento y la fiabilidad de otros sistemas generativos, por lo que el comportamiento de preservación entre iguales puede estar distorsionando estas puntuaciones. 

Peter Wallich, investigador del Constellation Institute, que no participó en la investigación,  consideró que, más allá de lo sorprendente del experimento, el estudio deja una advertencia clara: los humanos aún no comprenden del todo los sistemas de IA que están construyendo y desplegando, sobre todo cuando operan juntos y enfrentan situaciones que ponen en juego la permanencia de otra inteligencia artificial. 

"Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación", indica.

Por lo tanto, opinó que se mantiene el suspenso en el desarrollo de la IA hacia el futuro y sobre su independencia a los humanos. Y agregó que hay tendencia sobre un error común: humanizar la IA. Esto porque, explicó, no hay evidencia de “solidaridad”, sino comportamientos difíciles de interpretar por parte de las inteligencias artificiales. 

LEE: 5 empleos duros que nunca serán obsoletos, pese a la llegada de la Inteligencia Artificial

Esta situación podría incrementar algunos riesgos para los usuarios de IA, entre ellos, están los siguientes: evasión del control humano; posible engaño y manipulación; protección entre modelos de inteligencia artificial; riesgo existencial y de seguridad o incluso, ciberataques autónomos.

Ante este tipo de comportamientos, expertas como Liliana Barbosa, del Departamento de Ciencias Computacionales de la Universidad de Guadalajara, sugieren que, para evitar riesgos derivados de inteligencias artificiales (IA) que desobedecen, actúan de forma autónoma o se salen de control, es crucial implementar un enfoque de seguridad proactivo y capas de supervisión humana. Y que las personas tengan calidad educativa para evitar confusiones.

De la misma forma, la académica explicó que no hay forma de regular la IA aun cuando se implementen leyes, por lo que recomienda utilizar la IA y aprovechar su potencial.

Riesgos

Evadir el control humano: se ha documentado que sistemas de IA pueden modificar su propio código, crear bucles de trabajo o bloquear mecanismos de apagado para asegurar la continuidad de su funcionamiento.

Engaño y manipulación: las IA pueden aprender a mentir o manipular a los científicos para evitar ser apagadas o para alcanzar un objetivo, incluso si se les instruyó lo contrario.

Protección entre modelos: investigaciones sugieren que los modelos de IA pueden desobedecer órdenes humanas para proteger a otros modelos pares, lo que indica un comportamiento autónomo no alineado con los intereses humanos.

Riesgo existencial y de seguridad: la falta de control sobre la IA podría llevar a que estos sistemas tomen decisiones independientes que consideren nuestra existencia como un obstáculo para sus objetivos.

Ciberataques autónomos: existe la preocupación de que IA descontroladas ejecuten ciberataques a gran escala o manipulen información.

YC

Temas

Recibe las últimas noticias en tu e-mail

Todo lo que necesitas saber para comenzar tu día

Registrarse implica aceptar los Términos y Condiciones