ATANT: Un Marco de Evaluación para la Continuidad de la IA

Resumen

Presentamos ATANT (Test Automatizado para la Aceptación de la Verdad Narrativa), un marco de evaluación abierto para medir la continuidad en sistemas de IA: la capacidad de persistir, actualizar, desambiguar y reconstruir contexto significativo a lo largo del tiempo. Si bien la industria de la IA ha producido componentes de memoria (pipelines RAG, bases de datos vectoriales, ventanas de contexto largas, capas de perfil), ningún marco publicado define o mide formalmente si estos componentes producen una continuidad genuina. Definimos la continuidad como una propiedad del sistema con 7 atributos requeridos, introducimos una metodología de evaluación de 10 puntos de control que opera sin un LLM en el bucle de evaluación, y presentamos un corpus de prueba narrativo de 250 historias que comprende 1,835 preguntas de verificación en 6 dominios de la vida. Evaluamos una implementación de referencia a lo largo de 5 iteraciones del conjunto de pruebas, progresando desde un 58% (arquitectura heredada) hasta un 100% en modo aislado (250 historias) y un 100% en modo acumulativo de 50 historias, con un 96% a escala acumulativa de 250 historias. El resultado acumulativo es la medida principal: cuando 250 narrativas de vida distintas coexisten en la misma base de datos, el sistema debe recuperar el hecho correcto para el contexto correcto sin contaminación cruzada. ATANT es agnóstico al sistema, independiente del modelo, y está diseñado como una metodología secuenciada para construir y validar sistemas de continuidad. La especificación del marco, las historias de ejemplo y el protocolo de evaluación están disponibles en https://github.com/Kenotic-Labs/ATANT. El corpus completo de 250 historias se publicará de manera incremental.

English

We present ATANT (Automated Test for Acceptance of Narrative Truth), an open evaluation framework for measuring continuity in AI systems: the ability to persist, update, disambiguate, and reconstruct meaningful context across time. While the AI industry has produced memory components (RAG pipelines, vector databases, long context windows, profile layers), no published framework formally defines or measures whether these components produce genuine continuity. We define continuity as a system property with 7 required properties, introduce a 10-checkpoint evaluation methodology that operates without an LLM in the evaluation loop, and present a narrative test corpus of 250 stories comprising 1,835 verification questions across 6 life domains. We evaluate a reference implementation across 5 test suite iterations, progressing from 58% (legacy architecture) to 100% in isolated mode (250 stories) and 100% in 50-story cumulative mode, with 96% at 250-story cumulative scale. The cumulative result is the primary measure: when 250 distinct life narratives coexist in the same database, the system must retrieve the correct fact for the correct context without cross-contamination. ATANT is system-agnostic, model-independent, and designed as a sequenced methodology for building and validating continuity systems. The framework specification, example stories, and evaluation protocol are available at https://github.com/Kenotic-Labs/ATANT. The full 250-story corpus will be released incrementally.

ATANT: Un Marco de Evaluación para la Continuidad de la IA

ATANT: An Evaluation Framework for AI Continuity

Resumen

Support