АТАНТ: Система оценки непрерывности искусственного интеллекта

Аннотация

Мы представляем ATANT (Automated Test for Acceptance of Narrative Truth) — открытую оценочную платформу для измерения непрерывности в системах ИИ: способности сохранять, обновлять, устранять неоднозначности и восстанавливать осмысленный контекст во времени. Хотя индустрия ИИ создала компоненты памяти (RAG-пайплайны, векторные базы данных, длинные контекстные окна, профильные слои), ни одна опубликованная платформа формально не определяет и не измеряет, приводят ли эти компоненты к подлинной непрерывности. Мы определяем непрерывность как системное свойство с 7 обязательными характеристиками, представляем 10-этапную методику оценки, которая работает без использования LLM в цикле оценки, и представляем нарративный тестовый корпус из 250 историй, содержащий 1835 проверочных вопросов по 6 жизненным сферам. Мы оцениваем референсную реализацию в 5 итерациях тестового набора, прогрессируя с 58% (устаревшая архитектура) до 100% в изолированном режиме (250 историй) и 100% в кумулятивном режиме на 50 историях, с 96% на кумулятивном масштабе в 250 историй. Кумулятивный результат является основным показателем: когда 250 различных жизненных нарративов сосуществуют в одной базе данных, система должна извлекать правильный факт для правильного контекста без перекрестного загрязнения. ATANT является системно-агностичным, независимым от модели и разработан как последовательная методология для построения и валидации систем непрерывности. Спецификация платформы, примеры историй и протокол оценки доступны по адресу https://github.com/Kenotic-Labs/ATANT. Полный корпус из 250 историй будет выпускаться постепенно.

English

We present ATANT (Automated Test for Acceptance of Narrative Truth), an open evaluation framework for measuring continuity in AI systems: the ability to persist, update, disambiguate, and reconstruct meaningful context across time. While the AI industry has produced memory components (RAG pipelines, vector databases, long context windows, profile layers), no published framework formally defines or measures whether these components produce genuine continuity. We define continuity as a system property with 7 required properties, introduce a 10-checkpoint evaluation methodology that operates without an LLM in the evaluation loop, and present a narrative test corpus of 250 stories comprising 1,835 verification questions across 6 life domains. We evaluate a reference implementation across 5 test suite iterations, progressing from 58% (legacy architecture) to 100% in isolated mode (250 stories) and 100% in 50-story cumulative mode, with 96% at 250-story cumulative scale. The cumulative result is the primary measure: when 250 distinct life narratives coexist in the same database, the system must retrieve the correct fact for the correct context without cross-contamination. ATANT is system-agnostic, model-independent, and designed as a sequenced methodology for building and validating continuity systems. The framework specification, example stories, and evaluation protocol are available at https://github.com/Kenotic-Labs/ATANT. The full 250-story corpus will be released incrementally.

АТАНТ: Система оценки непрерывности искусственного интеллекта

ATANT: An Evaluation Framework for AI Continuity

Аннотация

Support