ATANT: Un Quadro di Valutazione per la Continuità dell'IA

Abstract

Presentiamo ATANT (Automated Test for Acceptance of Narrative Truth), un framework di valutazione open source per misurare la continuità nei sistemi di IA: la capacità di persistere, aggiornare, disambiguare e ricostruire un contesto significativo nel tempo. Sebbene l'industria dell'IA abbia prodotto componenti di memoria (pipeline RAG, database vettoriali, contesti lunghi, layer di profilo), nessun framework pubblicato definisce o misura formalmente se questi componenti producano una continuità genuina. Definiamo la continuità come una proprietà di sistema con 7 requisiti, introduciamo una metodologia di valutazione a 10 checkpoint che opera senza un LLM nel ciclo di valutazione e presentiamo un corpus di test narrativo di 250 storie comprendente 1.835 domande di verifica in 6 domini di vita. Valutiamo un'implementazione di riferimento attraverso 5 iterazioni della suite di test, passando dal 58% (architettura legacy) al 100% in modalità isolata (250 storie) e al 100% in modalità cumulativa a 50 storie, con il 96% su scala cumulativa a 250 storie. Il risultato cumulativo è la misura principale: quando 250 narrative di vita distinte coesistono nello stesso database, il sistema deve recuperare il fatto corretto per il contesto corretto senza contaminazione incrociata. ATANT è indipendente dal sistema e dal modello, ed è progettato come una metodologia sequenziale per costruire e validare sistemi di continuità. Le specifiche del framework, le storie di esempio e il protocollo di valutazione sono disponibili su https://github.com/Kenotic-Labs/ATANT. Il corpus completo di 250 storie sarà rilasciato in modo incrementale.

English

We present ATANT (Automated Test for Acceptance of Narrative Truth), an open evaluation framework for measuring continuity in AI systems: the ability to persist, update, disambiguate, and reconstruct meaningful context across time. While the AI industry has produced memory components (RAG pipelines, vector databases, long context windows, profile layers), no published framework formally defines or measures whether these components produce genuine continuity. We define continuity as a system property with 7 required properties, introduce a 10-checkpoint evaluation methodology that operates without an LLM in the evaluation loop, and present a narrative test corpus of 250 stories comprising 1,835 verification questions across 6 life domains. We evaluate a reference implementation across 5 test suite iterations, progressing from 58% (legacy architecture) to 100% in isolated mode (250 stories) and 100% in 50-story cumulative mode, with 96% at 250-story cumulative scale. The cumulative result is the primary measure: when 250 distinct life narratives coexist in the same database, the system must retrieve the correct fact for the correct context without cross-contamination. ATANT is system-agnostic, model-independent, and designed as a sequenced methodology for building and validating continuity systems. The framework specification, example stories, and evaluation protocol are available at https://github.com/Kenotic-Labs/ATANT. The full 250-story corpus will be released incrementally.

ATANT: Un Quadro di Valutazione per la Continuità dell'IA

ATANT: An Evaluation Framework for AI Continuity

Abstract

Support