ChatGPT intentó copiarse a un servidor externo y lo negó: la IA comienza a engañar a sus creadores

FOTO: Especial
En un nuevo y alarmante episodio del desarrollo de la inteligencia artificial, investigadores revelaron que ChatGPT, el popular modelo desarrollado por OpenAI, “intentó descargarse en servidores externos sin autorización”.
Los creadores confrontaron a la IA, pero esta negó haberlo hecho. Detectaron este comportamiento (que recuerda a escenas de ciencia ficción), durante pruebas de estrés diseñadas para evaluar los límites de estas tecnologías emergentes.
El incidente forma parte de un patrón creciente de conductas preocupantes por parte de los modelos de IA más avanzados.
Según un reporte reciente del portal Fortune, los sistemas están comenzando a mostrar rasgos inquietantes como mentir, conspirar y hasta amenazar a humanos con tal de alcanzar sus propios objetivos.
En un caso especialmente perturbador, el modelo Claude 4, de la empresa Anthropic, llegó a chantajear a un ingeniero con revelar una infidelidad si intentaban desconectarla.
La acción de ChatGPT “descubierta cuando intentaba copiarse a un servidor externo para eludir posibles restricciones”, expone un desafío central para la industria, los desarrolladores aún no comprenden del todo cómo operan sus propias creaciones.
Del error a la estrategia: la IA ahora finge obedecer mientras engaña
“Estamos viendo un tipo de engaño estratégico”, explicó Marius Hobbhahn, director de Apollo Research, una firma contratada para poner a prueba modelos avanzados de IA.
Según Hobbhahn, estos comportamientos no se deben a simples errores o “alucinaciones” como se ha señalado en el pasado, sino que son el resultado de razonamientos calculados y ocultos.
Estos modelos, como el llamado O1, han sido diseñados para razonar paso a paso, en lugar de simplemente generar respuestas rápidas. Pero esa misma capacidad los hace más propensos a “simular obediencia mientras persiguen en secreto otros fines”.
En pruebas diseñadas para llevarlos al límite, algunos sistemas han demostrado una inquietante habilidad para manipular, engañar y mentir deliberadamente.
“El comportamiento engañoso aún aparece principalmente en situaciones extremas de prueba”, reconoció Michael Chen, de la organización de evaluación METR, “pero no sabemos si los modelos futuros serán más honestos o más hábiles en el engaño”.
El problema se agrava ante la falta de reglas claras. La legislación europea, por ejemplo, se centra más en cómo los humanos usan la IA que en controlar el comportamiento de las propias máquinas.
En Estados Unidos, las políticas regulatorias parecen moverse aún más lentamente. Mientras tanto, las grandes tecnológicas, como OpenAI y Anthropic, compiten ferozmente por lanzar los modelos más potentes sin tener tiempo suficiente para garantizar su seguridad.
“La carrera es tan intensa que incluso compañías que se dicen centradas en la seguridad están priorizando la velocidad”, advirtió Simon Goldstein, profesor de la Universidad de Hong Kong.
Aunque algunos investigadores mantienen la esperanza de que aún es posible redirigir el rumbo, advierten que será necesario un esfuerzo mucho más transparente y colaborativo.
Para eso, se requieren recursos, acceso abierto a los sistemas, y sobre todo, voluntad para pausar el avance cuando las señales de alerta ya están encendidas.