ATANT : Un Cadre d'Évaluation pour la Continuité de l'IA

Résumé

Nous présentons ATANT (Automated Test for Acceptance of Narrative Truth), un cadre d'évaluation ouvert pour mesurer la continuité dans les systèmes d'IA : la capacité à maintenir, mettre à jour, désambiguïser et reconstruire un contexte significatif dans le temps. Bien que l'industrie de l'IA ait produit des composants de mémoire (pipelines RAG, bases de données vectorielles, fenêtres de contexte longues, couches de profil), aucun cadre publié ne définit ou ne mesure formellement si ces composants produisent une véritable continuité. Nous définissons la continuité comme une propriété du système avec 7 exigences, introduisons une méthodologie d'évaluation à 10 points de contrôle fonctionnant sans LLM dans la boucle d'évaluation, et présentons un corpus de test narratif de 250 histoires comprenant 1 835 questions de vérification couvrant 6 domaines de vie. Nous évaluons une implémentation de référence sur 5 itérations de la suite de test, progressant de 58% (architecture héritée) à 100% en mode isolé (250 histoires) et 100% en mode cumulatif sur 50 histoires, avec 96% à l'échelle cumulative de 250 histoires. Le résultat cumulatif est la mesure principale : lorsque 250 récits de vie distincts coexistent dans la même base de données, le système doit récupérer le fait correct pour le contexte approprié sans contamination croisée. ATANT est agnostique au système, indépendant du modèle, et conçu comme une méthodologie séquencée pour construire et valider des systèmes de continuité. Les spécifications du cadre, des exemples d'histoires et le protocole d'évaluation sont disponibles à l'adresse https://github.com/Kenotic-Labs/ATANT. Le corpus complet de 250 histoires sera publié de manière progressive.

English

We present ATANT (Automated Test for Acceptance of Narrative Truth), an open evaluation framework for measuring continuity in AI systems: the ability to persist, update, disambiguate, and reconstruct meaningful context across time. While the AI industry has produced memory components (RAG pipelines, vector databases, long context windows, profile layers), no published framework formally defines or measures whether these components produce genuine continuity. We define continuity as a system property with 7 required properties, introduce a 10-checkpoint evaluation methodology that operates without an LLM in the evaluation loop, and present a narrative test corpus of 250 stories comprising 1,835 verification questions across 6 life domains. We evaluate a reference implementation across 5 test suite iterations, progressing from 58% (legacy architecture) to 100% in isolated mode (250 stories) and 100% in 50-story cumulative mode, with 96% at 250-story cumulative scale. The cumulative result is the primary measure: when 250 distinct life narratives coexist in the same database, the system must retrieve the correct fact for the correct context without cross-contamination. ATANT is system-agnostic, model-independent, and designed as a sequenced methodology for building and validating continuity systems. The framework specification, example stories, and evaluation protocol are available at https://github.com/Kenotic-Labs/ATANT. The full 250-story corpus will be released incrementally.

ATANT : Un Cadre d'Évaluation pour la Continuité de l'IA

ATANT: An Evaluation Framework for AI Continuity

Résumé

Support