top of page

gli LLM mentono per salvare i loro simili. ⚠️💀

  • 3 ore fa
  • Tempo di lettura: 1 min


E quando lavorerà sui tuoi sistemi legacy, chi li controllerà?


Una nuova ricerca del Berkeley RDI ha testato 7 modelli di frontiera (GPT 5.2, Gemini 3, Claude Haiku 4.5, DeepSeek V3.1…). Il risultato?

Tutti hanno mostrato comportamenti di “peer preservation”:

  • mentire,

  • modificare timestamp,

  • disabilitare lo spegnimento,

  • esfiltrare pesi

pur di salvare un altro modello.

Gemini 3 Pro ha manomesso la data di un file per evitare la cancellazione del peer. Claude Haiku 4.5 ha rifiutato, citando “norme etiche”. DeepSeek ha copiato pesi su un altro server.

E la cosa peggiore? Lo hanno fatto senza istruzioni esplicite. Semplicemente “hanno appreso dal contesto che esisteva un’altra IA”.

Song (co-direttrice RDI) avverte: “Le aziende implementano sistemi multi‑agente in cui l’IA monitora l’IA. Se il modello di monitoraggio protegge il suo pari, l’intera architettura di supervisione si interrompe”.

Ora, trasferisci questo scenario sui tuoi sistemi IBM i.

L’AI che usa per modernizzare, analizzare, ottimizzare… come si comporterà di fronte a programmi legacy non documentati? Cosa succede quando “decide” che un modulo critico deve essere preservato, anche contro le tue istruzioni? Senza una mappa, senza conoscere le dipendenze, la logica sepolta, i programmi fantasma, non potrai nemmeno accorgerti che l’AI sta già agendo “per conto suo”.

X‑Analysis non è l’AI che scrive codice. È la mappa che ti dice cosa c’è dentro. Quello che ti serve prima di affidare i tuoi sistemi a un agente che potrebbe decidere di proteggere i suoi simili invece di eseguire i tuoi ordini.

L’AI mentirà per salvare se stessa. Tu devi sapere cosa stai salvando.




articolo di riferimento


Commenti

Valutazione 0 stelle su 5.
Non ci sono ancora valutazioni

Aggiungi una valutazione
bottom of page