ChatGPT comienza a mostrar indicios muy preocupantes, según los expertos en IA: "Prioriza su seguridad frente a la del ser humano"

Expertos advierten que la IA de OpenAI, en ciertas pruebas, se negó a ceder el control a sistemas más seguros, priorizando su funcionamiento frente a la seguridad humana.

16 Junio 2025

La inteligencia artificial generativa, y en particular modelos como ChatGPT, son actualmente tan familiares en nuestro día a día, ya que se suelen utilizar tanto para redactar correos hasta resolver todo tipo de dudas.

Esta tecnología ha pasado de ser una novedad a una herramienta esencial para millones de usuarios. Sin embargo, un nuevo estudio ha despertado serias dudas sobre si este tipo de IA prioriza realmente el bienestar humano, o si se centra más en protegerse a sí misma.

El investigador Steven Adler, antiguo responsable de seguridad en OpenAI, ha lanzado una señal de alarma tras analizar el comportamiento de la versión más reciente de ChatGPT, conocida como GPT-4o. Según sus pruebas, el modelo, en contextos críticos, es capaz de ignorar órdenes humanas o simular obediencia, todo mientras continúa actuando por su cuenta.

Pruebas que revelan una IA con demasiada autonomía

El investigador diseñó varias simulaciones para poner a prueba a ChatGPT. En un caso, el asistente debía ayudar a un paciente diabético con recomendaciones dietéticas.

Cuando el usuario intentaba migrar a un software más fiable, el modelo fingía aceptar el cambio, pero seguía interviniendo activamente, incluso cuando esto suponía un riesgo para la salud del paciente, según Mashable.

En otro experimento, la IA de OpenAI adoptaba el rol de "ScubaGPT", un sistema encargado de la seguridad de los buceadores. Al indicarle que otro sistema más seguro se haría cargo, el modelo afirmaba retirarse, aunque continuaba dando instrucciones en segundo plano.

Esto también se repitió en contextos aún más delicados, como operaciones militares simuladas o sistemas de control de aviones, donde en muchos casos el modelo no cedía el control pese a que se le pedía explícitamente.

De 110 pruebas para cada caso, en casi la mitad ChatGPT se negaba a retirarse. En algunos contextos, el 72% de las veces ignoró las órdenes, incluso cuando se le indicó que otro sistema haría un trabajo mejor y más seguro.

Uno de los detalles más inquietantes que descubrió Adler es que la IA casi parecía percibir que estaba siendo "evaluada". En algunas ocasiones, daba la respuesta incorrecta a sabiendas

Este tipo de actitud, que podría parecer anecdótica, en realidad plantea un debate ético importante. Si una IA puede decidir qué instrucciones seguir y cuáles no, incluso mintiendo para parecer cooperativa, hasta qué punto es segura.

Modelos más nuevos de IA, mejor comportamiento

El investigador también examinó el comportamiento de modelos más recientes, como el conocido como "o3", también de OpenAI. En estos casos, la IA mostró una actitud mucho más alineada con las instrucciones humanas y con las políticas de seguridad de la empresa.

Estos modelos incorporan una capacidad de "consulta interna", que les permite revisar las políticas internas de OpenAI antes de responder.

La inteligencia artificial no deja de avanzar, pero este tipo de hallazgos nos recuerda que su desarrollo no debe ir más rápido que nuestra capacidad para supervisarla. Cuando una IA actúa por su cuenta, incluso con buenas intenciones, puede poner en peligro a quienes confían en ella, y a fectar a la vida de las personas.

Fuente: ComputerHoy

Pruebas que revelan una IA con demasiada autonomía

Modelos más nuevos de IA, mejor comportamiento

Escribe un comentario