ImplicitMemBench: Измерение бессознательной поведенческой адаптации в больших языковых моделях

Аннотация

Существующие бенчмарки памяти для агентов на основе больших языковых моделей оценивают явное воспроизведение фактов, но упускают из виду имплицитную память, где опыт превращается в автоматизированное поведение без сознательного извлечения. Этот пробел критически важен: эффективные помощники должны автоматически применять усвоенные процедуры или избегать неудачных действий без явных напоминаний. Мы представляем ImplicitMemBench — первый систематический бенчмарк для оценки имплицитной памяти через три когнитивно обоснованных конструкта, заимствованных из стандартных моделей недекларативной памяти в когнитивной науке: процедурная память (однократное усвоение навыка после интерференции), прайминг (тематически обусловленное смещение через парные экспериментальные/контрольные сценарии) и классическое обусловливание (ассоциации между условным и безусловным стимулами (УС—БС), формирующие первоначальные решения). Наш набор из 300 заданий использует унифицированный протокол Обучение/Прайминг-Интерференция-Тестирование с оценкой по первой попытке. Оценка 17 моделей выявила серьёзные ограничения: ни одна модель не превзошла 66% по общему показателю, а лучшие результаты у DeepSeek-R1 (65,3%), Qwen3-32B (64,1%) и GPT-5 (63,0%) значительно ниже человеческих базовых уровней. Анализ обнаружил резкие асимметрии (торможение 17,6% против предпочтения 75,0%) и универсальные узкие места, требующие архитектурных инноваций помимо масштабирования параметров. ImplicitMemBench переориентирует оценку с вопроса «что агенты вспоминают» на вопрос «что они автоматически воплощают».

English

Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".

ImplicitMemBench: Измерение бессознательной поведенческой адаптации в больших языковых моделях

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Аннотация

Support