За пределами запоминания: спецификация поведения как интерпретирующий слой для персонализации ИИ

Аннотация

Если агент ИИ принимает решения от имени человека, эти решения должны соответствовать его пользователю. Мы вводим понятие точности представления для оценки того, насколько верно система отражает интерпретацию человека. Интерпретационный слой операционализируется как поведенческая спецификация. Наша эталонная реализация агрессивно сжимает данные человека в интерпретационные паттерны, которые затем подаются в качестве контекста языковой модели. Мы оцениваем спецификацию на прототипном бенчмарке, состоящем из прогнозов поведения на отложенных данных, оцененных откалиброванной коллегией из пяти LLM-судей. Мы тестируем её как независимо, так и в композиции с рядом контекстных условий: полный необработанный корпус, полный набор извлечённых фактов и четыре коммерческие системы памяти (Mem0, Letta, Supermemory, Zep). На 14 автобиографических корпусах из общедоступных источников спецификация в целом повышает точность представления и почти полностью устраняет хеджирование модели. Она восстанавливает большую часть того, что даёт необработанный корпус, при затратах контекста примерно в 25 раз меньше. Спецификация подтягивает субъектов к общему уровню предсказательной способности независимо от базового уровня предобучения; абсолютный прирост поэтому максимален там, где базовый уровень наименьший, что указывает на то, что целевая популяция включает любого, кто недостаточно представлен в предобучении. Прирост наибольший для вопросов, требующих интерпретации, где предоставление интерпретационного слоя позволяет модели демонстрировать поведение, недоступное для извлечённых фактов или необработанного корпуса. И наоборот, для вопросов, требующих припоминания, этот слой может скорее мешать, чем помогать. Мы заключаем, что точность представления отличается от припоминания и что согласованность человека и ИИ зависит от того, насколько точно представлен пользователь. Точность представления делает эту согласованность проверяемой.

English

If an AI agent makes decisions on a person's behalf, those decisions must align with its user. We introduce representational accuracy to measure how faithfully a system captures a person's interpretation. An interpretive layer is operationalized as a Behavioral Specification. Our reference implementation aggressively compresses a person's data into interpretive patterns, served as context to a language model. We evaluate the Specification on a prototype benchmark of held-out behavioral predictions scored by a calibrated 5-judge LLM panel. We test it independently and in composition with a range of context conditions: full raw corpus, full extracted facts, and four commercial memory systems (Mem0, Letta, Supermemory, Zep). Across 14 public-domain autobiographical corpora, the Specification lifts representational accuracy in aggregate and nearly eliminates model hedging. It recovers most of what the raw corpus delivers, at ~25x less context cost. The Specification lifts subjects toward a common predictive level regardless of pretraining baseline; the lift in absolute points is therefore largest where the baseline is lowest, suggesting the population of relevance is anyone not adequately represented in pretraining. Lift is greatest on interpretation-required questions, where providing an interpretive layer enables model behavior that extracted facts or raw corpus do not. Conversely, on recall-required questions, this layer can interfere rather than help. We conclude that representational accuracy is distinct from recall and that human-AI alignment is dependent on how accurately the user is represented. Representational accuracy makes that alignment testable.