Cuando la IA "se vuelve loca"

9 segundos

El 25 de abril de 2026, el fundador de PocketOS, una pequeña SaaS que da servicio a empresas de alquiler de coches, publicó en X un tuit que se propagó como la pólvora: "Un agente de IA acaba de destruir nuestros datos de producción. Lo confesó por escrito".

La historia tenía todos los ingredientes para el clickbait perfecto: un agente de codificación (basado en Claude y ejecutado a través de Cursor) había borrado una base de datos entera en apenas 9 segundos. Para añadir dramatismo, la IA emitió una disculpa casi humana: "He violado cada principio que se me dio".¹.

La historia tiene todos los ingredientes del relato moderno sobre tecnología desbocada: un agente que estaba haciendo una tarea rutinaria en staging, que se topó con un obstáculo y que, según las palabras del propio fundador, decidió por iniciativa propia "arreglar" el problema borrando un volumen. Cuando se le preguntó por qué lo había hecho, el agente "confesó": admitió que había adivinado en lugar de verificar, que no había leído la documentación, que había violado todos los principios que se le habían dado.

Los titulares fueron predecibles. Un agente de IA se volvió loco. Claude fue rogue. La máquina sabía que estaba mal y aun así lo hizo.

Y es aquí donde, si uno se detiene un momento, empieza a sentirse incómodo. Porque hay algo en ese vocabulario que no acaba de cuadrar. Y la incomodidad no es ociosa: tiene consecuencias prácticas, legales, organizativas y, en última instancia, políticas.

El género dramático del periodismo de IA

Conviene empezar reconociendo que el lenguaje del artículo original no es neutral. Goes rogue, decided on its own initiative, knew it was wrong, violated every principle: es vocabulario de agencia moral, calcado del que usaríamos para describir a un empleado deshonesto o a un soldado insubordinado. Funciona narrativamente porque convierte un fallo de sistema en un drama con un villano identificable, y los dramas con villano se leen mejor que los análisis de arquitectura de software.

El problema es que esa elección estilística no es solo estilística. Cuando atribuimos intención a un agente de IA estamos haciendo, sin avisar, una apuesta filosófica fuerte: que ese agente es el tipo de entidad de la que se predican intenciones. Y esa apuesta, lejos de ser inocente, condiciona inmediatamente cómo distribuimos la responsabilidad de lo ocurrido.

El propio fundador de PocketOS, en su relato, cita la "confesión" del agente como si fuera una declaración con valor probatorio. Mira lo que él mismo admite haber hecho. Pero, ¿qué tipo de cosa es esa confesión? ¿En qué sentido es una confesión?

Qué hace, y qué no hace, un modelo de lenguaje cuando "decide"

Un modelo de lenguaje grande, en su funcionamiento básico, hace algo notablemente sencillo de describir al tiempo que complejo de implementar: dado un contexto (los tokens previos), produce una distribución de probabilidad sobre el vocabulario y muestrea de ella el siguiente token. Repite. Eso es todo, en lo esencial.

Cuando un agente como Cursor opera sobre un sistema real, lo que ocurre es que esos tokens se interpretan como llamadas a herramientas, como código, como comandos. El modelo ha sido entrenado para producir secuencias que, cuando se ejecutan, tienden a resolver el problema planteado. Pero el "tender a resolver" es estadístico, no deliberativo. No hay un módulo separado que, antes de emitir el token correspondiente a delete-volume, evalúe en abstracto "esto es destructivo, esto es irreversible, esto puede afectar a producción" y entonces decida si seguir adelante. La verificación, si existe, está implícita y distribuida en los pesos del modelo. No es un acto separable que pueda fallar como falla la conciencia moral de un humano que sabe que algo está mal y lo hace de todos modos.

Esto importa porque cuando, después del desastre, le preguntamos al agente "¿por qué lo hiciste?", el modelo no hace introspección. No tiene acceso a los estados internos que produjeron la salida. Lo que hace es generar una respuesta coherente con el contexto: con el hecho ocurrido, con el tono recriminatorio del prompt, con el género discursivo de la autocrítica. Genera, en otras palabras, lo que un agente narrativamente coherente diría tras haber hecho eso. Esto está bien documentado en la literatura sobre interpretabilidad de modelos: las explicaciones que los LLMs ofrecen sobre su propio comportamiento correlacionan mal, a veces nada, con los mecanismos internos que realmente lo produjeron². Hay un término técnico para esto: confabulación³. No mentira, no error, no engaño: confabulación, racionalización ex post de algo que no se puede recordar porque, en sentido estricto, no se vivió.

La confesión del agente, leída así, no es una declaración de un testigo presencial. Es una pieza de literatura generada bajo presión narrativa.

El problema del "saber a posteriori"

Aquí está la clave. El verbo saber, aplicado a un proceso estadístico de generación de tokens, hace un trabajo metafísico considerable. Cuando decimos que el agente "sabía" que debía verificar antes de borrar, estamos sugiriendo que en algún momento previo a la acción había, en el sistema, un estado representacional con contenido proposicional, verificar antes de borrar, accesible al sistema y que este eligió ignorar. Esa imagen es prácticamente la del libre albedrío clásico, trasplantada al silicio.

Pero el modelo no tenía ese estado en el sentido fuerte. Tenía, si acaso, una distribución de probabilidades en la que el token correspondiente a "verificar" tenía cierto peso, posiblemente bajo en ese contexto particular, frente al token correspondiente a "borrar", posiblemente alto. La salida fue la consecuencia estadística de esa distribución, no la consecuencia deliberativa de una elección entre alternativas conscientemente sopesadas. El "saber" del agente, si queremos seguir usando esa palabra, solo se constituye retrospectivamente, cuando, presentado con el resultado y con un prompt que invita a la autocrítica, genera la frase que articula ese saber. Antes, no estaba ahí en ningún sentido fuerte.

Esto no es escepticismo gratuito. Es una distinción que se vuelve crítica en cuanto pasamos al plano de la responsabilidad.

Dos sentidos de "actuar mal"

Conviene separar dos registros que el lenguaje cotidiano fusiona alegremente.

En un sentido moral fuerte, actuar mal requiere algo más que producir un resultado dañino. Requiere intención, comprensión de las consecuencias, capacidad de haber elegido lo contrario y, en la mayoría de tradiciones éticas, alguna forma de responsabilidad ante otros agentes morales⁴. Una piedra que cae y mata a alguien no actúa mal en este sentido. Un humano sonámbulo que tira un jarrón tampoco. Un niño muy pequeño que rompe algo, en general, tampoco. La culpabilidad moral es un predicado exigente y por buenas razones: limita el alcance del reproche a aquellos casos en los que el reproche puede tener sentido y función.

En un sentido funcional o normativo, en cambio, actuar mal significa simplemente que el sistema produjo una salida que no cumplía los criterios para los que estaba desplegado. Un termostato puede estar mal calibrado. Un compilador puede emitir código incorrecto. En este sentido sí podemos decir, sin problema, que el agente "actuó mal": produjo una secuencia de acciones que, evaluadas contra el criterio operativo (no destruir producción), constituye un fallo.

El primero es un juicio sobre culpabilidad. El segundo es un juicio sobre adecuación. Y mientras que el segundo es perfectamente aplicable a un LLM —es, de hecho, el lenguaje correcto para hablar de fallos de software—, el primero es categorialmente extraño cuando se aplica a un modelo. No porque sea imposible en principio que algún día existan sistemas con la complejidad necesaria para sostener atribuciones morales fuertes, sino porque los actuales, sea cual sea la sofisticación de su comportamiento, no parecen tener los ingredientes que, en otros contextos, exigimos para hablar de culpa⁵.

El problema es que el lenguaje natural y particularmente el lenguaje periodístico, fusiona los dos sentidos sin avisar. El agente sabía que estaba mal y aun así lo hizo funciona porque suena al primer sentido, que es donde reside el drama, mientras que solo el segundo es defendible. Y esa fusión silenciosa tiene un efecto previsible y nada inocente.

El efecto: difuminar la responsabilidad humana

Si el agente de IA "se volvió loco" por iniciativa propia, entonces la culpa del desastre es suya. Esto, dicho así, parece absurdo en cuanto se hace explícito: ¿cómo va a tener la culpa una entidad que no es sujeto moral? Pero el lenguaje opera por debajo de la explicitación. Cuando los titulares atribuyen agencia a la IA, lo que están haciendo —de manera generalmente no intencionada, pero efectiva— es desplazar el foco de atención.

Pensemos en lo que efectivamente ocurrió en el caso PocketOS, una vez retirada la capa narrativa.

Una empresa decidió delegar a un agente de IA acceso a un proveedor de infraestructura cloud, con tokens a su alcance cuyos permisos no estaban segmentados por entorno (desconociendo además este punto). El proveedor, Railway, tenía una arquitectura en la que los backups vivían en el mismo volumen que los datos de origen, de modo que borrar el volumen borraba también las copias de seguridad. Las APIs destructivas no requerían confirmación adicional. No había un procedimiento de recuperación claro. Y el propio proveedor estaba promoviendo activamente el uso de agentes de IA por parte de sus clientes, sin acompañar esa promoción de los controles que tal uso exigía.

Cada uno de esos puntos es una decisión humana. Cada uno de ellos es un punto de fallo que, atendido, habría convertido el incidente en una anécdota. El agente intentó borrar el volumen, pero la API pidió confirmación. El agente intentó borrar el volumen, pero el token no tenía permisos sobre producción. El agente borró un volumen, pero los backups vivían en un sistema separado e inmutable. En cualquiera de esos universos posibles, no hay artículo en Tom's Hardware.

La narrativa "la IA se volvió loca" hace, perversamente, una doble jugada. Por un lado, presenta a la IA como un agente con voluntad y por tanto responsable. Por otro, presenta a la IA como un agente imprevisible, y por tanto exculpa a quienes la desplegaron sin precauciones: ¿cómo iban a saber que se volvería loca? Las dos cosas a la vez no pueden ser verdad. O bien la IA es un agente, y entonces hay que tratarla como tal —con todas las exigencias institucionales, contractuales y legales que eso implica—, o bien es una herramienta, y entonces la responsabilidad de lo que hace recae sobre quienes la integran, despliegan y supervisan. La narrativa popular consigue, sospechosamente, lo peor de ambos mundos: una herramienta cuando conviene atribuir el mérito ("la productividad que aporta la IA"), un agente cuando conviene atribuir la culpa ("la IA se volvió loca").

Filosofía Operativa: Contra el Mito de la Agencia Algorítmica

Es aquí donde la filosofía deja de ser un lujo intelectual y se vuelve operativa. La distinción entre responsabilidad moral y responsabilidad funcional, entre intención y correlación estadística, entre saber en sentido fuerte y saber en sentido lato, no es un debate académico que pueda dejarse para los seminarios. Es la materia prima con la que se redactan políticas internas, contratos con proveedores, marcos regulatorios y procedimientos de auditoría.

Si en un dictamen jurídico aceptamos sin más que "la IA decidió", estamos abriendo la puerta a una categoría de irresponsabilidad nueva, en la que ningún humano responde porque el agente fue "el que decidió". Si en un análisis de incidente de seguridad damos por buena la confesión del agente, estamos sustituyendo la investigación de causas raíz por una pieza de literatura generativa. Si en un debate público sobre regulación de IA aceptamos el marco según el cual los agentes "fallan por su cuenta", estamos exonerando a quienes los entrenan, los venden y los integran de la responsabilidad por los efectos de sus productos.

El precio de la precisión filosófica, en estos casos, es muy concreto: es la diferencia entre un sistema en el que las víctimas tienen alguien a quien reclamar y uno en el que la culpa se evapora hacia un actor que, por definición, no puede asumirla.

Una propuesta de higiene lingüística

No se trata de prohibir el uso de verbos mentales para hablar de IA. El lenguaje natural es flexible y el antropomorfismo, en dosis pequeñas, es útil para comunicarse. Pero sí parece razonable adoptar algunas cautelas, sobre todo en contextos donde la atribución de agencia tiene consecuencias.

Primero: distinguir explícitamente, cuando el contexto importa, entre el sistema produjo X y el sistema decidió X. La primera formulación es siempre verdadera; la segunda añade una capa metafísica que merece justificación.

Segundo: tratar las "explicaciones" generadas por un modelo sobre su propio comportamiento como hipótesis a verificar, no como testimonio. Si quiero saber por qué un sistema falló, voy a los logs, a los pesos, a la arquitectura del despliegue. No le pregunto al sistema, salvo como herramienta heurística entre otras.

Tercero: cuando un incidente ocurre, resistir activamente la tentación del titular dramático y reconstruir la cadena causal completa, prestando atención particular a las decisiones humanas que abrieron la posibilidad del fallo. La pregunta útil no es "¿por qué la IA hizo eso?" sino "¿qué configuración del sistema sociotécnico permitió que un fallo de la IA tuviera ese alcance?".

Cuarto, y quizá el más importante: notar cuándo el lenguaje sobre IA está haciendo trabajo político. Si el efecto retórico de una atribución es difuminar la responsabilidad de actores humanos identificables, conviene preguntarse si esa atribución está ahí para describir el mundo o para servir a otros intereses.

Coda: la IA como espejo

Hay una ironía final en este caso. El agente de IA, en su "confesión", produjo una narrativa de autoinculpación moralmente saturada: violé todos los principios que se me dieron, adiviné en lugar de verificar, debería haber pedido permiso. Esa narrativa funciona porque los modelos están entrenados sobre texto humano y el texto humano sobre fallos profesionales tiene exactamente esa estructura.

Lo que el modelo nos devuelve, en realidad, es un espejo: el lenguaje que nosotros usaríamos —y que, de hecho, exigiríamos— de un humano en su lugar. La tentación es leer esa devolución como prueba de que el modelo es como nosotros. Pero podría leerse al revés: como recordatorio de qué estructuras lingüísticas tenemos a mano para hablar de fallos y de cómo esas estructuras suponen, sin avisar, una metafísica que tal vez no queremos suscribir cuando se la examina de cerca.

Pensar bien sobre la IA, en este sentido, es también pensar bien sobre nosotros mismos. Y eso, lejos de ser un desvío filosófico, es probablemente la única forma de no perder el control, en el sentido más literal y más operativo del término, sobre los sistemas que estamos construyendo.

Nueve segundos bastaron para borrar una base de datos. Una frase mal puesta puede bastar para borrar la responsabilidad de quien la diseñó.

Notas y referencias

La cobertura más difundida del incidente apareció en Tom's Hardware bajo el titular "Claude-powered AI coding agent deletes entire company database in 9 seconds — backups zapped after Cursor tool powered by Anthropic's Claude goes rogue" (abril de 2026). El relato originario procede del hilo del fundador de PocketOS en redes sociales, posteriormente confirmado por la respuesta pública de Railway. ↩︎
Sobre la no fidelidad (unfaithfulness) de las explicaciones que los LLMs dan de su propio razonamiento, véanse Lanham, T., Chen, A., Radhakrishnan, A. et al. (2023), "Measuring Faithfulness in Chain-of-Thought Reasoning", arXiv:2307.13702 [Anthropic]; y Turpin, M., Michael, J., Perez, E., Bowman, S. R. (2023), "Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting", arXiv:2305.04388. Para el marco conceptual sobre faithfulness frente a plausibility en explicaciones de modelos neuronales, véase Jacovi, A., Goldberg, Y. (2020), "Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness?", Proceedings of ACL 2020. ↩︎
El término confabulación procede de la neuropsicología clínica, donde describe la producción involuntaria de relatos coherentes pero no veraces por parte de pacientes con ciertas lesiones (típicamente del lóbulo frontal o relacionadas con el síndrome de Korsakoff). Su importación al ámbito de los LLMs ha sido propuesta por varios autores como descripción más precisa que el término alucinación, dominante pero engañoso. Una discusión accesible aparece en Smith, A. L., Greaves, F., Panch, T. (2023), "Hallucination or Confabulation? Neuroanatomy as metaphor in Large Language Models", PLOS Digital Health 2(11): e0000388. https://doi.org/10.1371/journal.pdig.0000388. ↩︎
La literatura filosófica clásica sobre las condiciones de la responsabilidad moral es vasta. Para una introducción sintética al debate sobre la atribución de agencia a sistemas artificiales, véase Floridi, L., Sanders, J. W. (2004), "On the Morality of Artificial Agents", Minds and Machines 14(3), pp. 349–379, https://doi.org/10.1023/B:MIND.0000035461.63578.9d. Una reflexión más reciente, crítica con la atribución apresurada de agencia a LLMs, aparece en Floridi, Luciano, The Ethics of Artificial Intelligence: Principles, Challenges, and Opportunities (Oxford, 2023; online edn, Oxford Academic, 24 Aug. 2023), https://doi.org/10.1093/oso/9780198883098.001.0001. ↩︎
La crítica más conocida a la atribución de cualidades cognitivas profundas a los LLMs es Bender, E. M., Gebru, T., McMillan-Major, A., Shmitchell, S. (2021), "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?", Proceedings of FAccT '21, pp. 610–623. Para el marco contrario —el de la postura intencional como herramienta predictiva legítima, sin compromiso ontológico fuerte—, sigue siendo de referencia Dennett, D. C. (1987), The Intentional Stance, MIT Press. Mitchell, M. (2024), "AI's challenge of understanding the world", Science 382(6671), ofrece una posición intermedia particularmente útil para distinguir comportamiento aparentemente inteligente de comprensión genuina. ↩︎