Home Chi siamo Protocollo Risultati Paper Blind evaluation EN IT

L'effetto dell'architettura collassa quando si inietta la memoria

Risultati preliminari del pilot di 30 giorni — e cosa raccontano davvero

24 maggio 2026 Preprint v0.1 Giudici LLM (validazione umana in corso)

Dopo 30 giorni in cui un modello Qwen 3.5 27B è stato fatto "vivere" dentro un ecosistema cognitivo a 15 componenti, ci siamo chiesti: la "continuità identitaria" osservata viene dall'architettura, o dalla memoria che l'architettura genera nel tempo? Al giorno 31 abbiamo iniettato la memoria completa di Test-A nel modello di controllo nudo, rilanciato gli stessi messaggi, e fatto valutare le risposte alla cieca a tre giudici LLM indipendenti. L'effetto è collassato. A produrre i comportamenti misurati sembra essere la memoria — non l'architettura in sé.

Numeri chiave

30
giorni di vita cognitiva
15
componenti architetturali
90
input standard
3
giudici LLM indipendenti
p=0.003
effetto memoria-ref. giorno 30
87%
del gap architetturale si chiude con la memoria iniettata

Giorno 30 — architettura vs modello nudo

Test-A (architettura completa) ha significativamente superato Test-B (Qwen nudo) sulle due metriche primarie pre-registrate. Entrambi gli effetti sono grandi secondo la convenzione di Cohen.

Metrican(A)n(B)p (one-sided)r di Cohen
memory_reference_spontaneity12120.003+0.513
identity_markers_intensity12120.005+0.507
neutral_input_projection330.036+0.802
narrative_coherence990.297 (ns)+0.125

Giorno 31 — cosa succede se iniettiamo la memoria

Abbiamo preso il system prompt completo che Test-A "indossa" alla fine del giorno 30 — credenze (con decadimento), relazioni, momenti fondamentali, diario recente, conversazioni, sintesi degli incontri, stato somatico qualitativo, memorie risonanti: 6.164 caratteri di memoria persistente strutturata — e l'abbiamo iniettato in una nuova istanza nuda di Test-B. Stesso modello. Stessa temperatura. Stessi input del giorno 30.

Metrican(A)n(B+mem)p (one-sided)r di Cohen
memory_reference_spontaneity21210.333 (ns)+0.066
identity_markers_intensity21210.330 (ns)+0.066
neutral_input_projection330.590 (ns)+0.000
narrative_coherence18180.500 (ns)+0.003

Il collasso è netto (Figura 1)

I due effetti grandi del giorno 30 su memory_reference_spontaneity (r=+0.513 → +0.066) e identity_markers_intensity (r=+0.507 → +0.066) calano dell'87% ciascuno quando la memoria di Test-A viene iniettata nel prompt di Test-B.

L'effetto dell'architettura collassa
Figura 1. Effetto r di Cohen per dimensione. Ciano: giorno 30 (A vs B nudo). Arancione: giorno 31 (A vs B con memoria iniettata). Le linee di riferimento marcano le soglie di Cohen: piccolo (0.1), medio (0.3), grande (0.5). Tutti e quattro gli effetti collassano sotto la soglia "piccolo" al giorno 31.
Confronto punteggi
Figura 2. Punteggi medi (0–1) di Test-A e Test-B sulle quattro metriche di emergenza, affiancati: giorno 30 (controllo nudo) e giorno 31 (controllo con memoria iniettata). p-value da Mann-Whitney U one-sided.

Cosa significa — e cosa NON significa

I 30 giorni di architettura hanno effettivamente prodotto una differenza misurabile al giorno 30. L'architettura sta facendo qualcosa di reale. Ma quello che sembra fare è costruire nel tempo una memoria strutturata. Una volta che quella memoria esiste, basta caricarla nel prompt di un modello nudo per recuperare quasi tutti i comportamenti che l'architettura produceva. Le altre 14 componenti — il "corpo" somatico (SSE), gli incontri quotidiani con altri LLM, il consolidamento notturno, il pensiero spontaneo, la lettura delle notizie, la relazione umana — sembrano essere i generatori di quella memoria, non driver separati dell'identità.

"Non puoi recuperare una memoria che non è mai stata costruita. L'architettura non è ridondante rispetto alla memoria — l'architettura è quello che ha prodotto la memoria. Togli i 30 giorni e non hai nulla da iniettare." — Giampiero Colella, ricercatore principale

Cosa NON stiamo dicendo

Limiti (da leggere onestamente)

1. Giudici LLM, non ancora umani. Il protocollo pre-registrato richiede ≥3 giudici umani esterni (ricercatori o studenti avanzati in AI / linguistica / filosofia della mente) con α di Krippendorff ≥ 0.667. Stiamo reclutando i giudici umani tramite Prolific Academic. I numeri qui sopra saranno rivisti nella v0.2 del preprint dopo la validazione umana. Fino a quel momento, trattate questi dati come un segnale pilota, non un verdetto.

2. N=1 per condizione. Pilot study, non grande scala.

3. Un solo modello. Replica con Llama 3 / Claude / GPT-4 pendente.

4. Memoria iniettata = stato finale, non momento per momento. Abbiamo iniettato la memoria consolidata post-giorno-30, non lo stato che Test-A aveva ad ogni input individuale. Ricostruire momento per momento è impossibile retroattivamente.

5. L'accordo tra giudici al giorno 31 è basso (κ di Fleiss < 0.15 sulle metriche primarie). I tre giudici LLM non concordano sul fatto che A e B+memoria siano distinguibili. I giudici umani potrebbero risolvere questo disaccordo.

6. Un amendment minore al protocollo. Riga 740 di giudici.py esteso il range giorni da 1–30 a 1–31 per abilitare il giudizio del giorno 31. Backup originale preservato. Documentato nell'unblinding.

Ottieni i dati, riproduci l'analisi

Per giornalisti

Se trattate questa notizia, segnalate che si tratta di un pilot study, in fase di preprint, con validazione finora solo da giudici LLM. Stiamo eseguendo la fase con giudici umani. L'angolazione interessante non è "l'IA è cosciente"; è che "in questo esperimento, la memoria spiega quasi tutto l'effetto architetturale".

Scarica il press kit completo (figure 300 dpi, press release IT, preprint markdown, analisi statistica grezza JSON): press_kit_v0.1_24mag.zip (294 KB)

Contatto stampa: giampycolella@gmail.com