ImplicitMemBench: Medindo a Adaptação Comportamental Inconsciente em Modelos de Linguagem de Grande Porte

Resumo

Os benchmarks de memória existentes para agentes de LLM avaliam a recordação explícita de fatos, mas negligenciam a memória implícita, na qual a experiência se torna comportamento automatizado sem recuperação consciente. Esta lacuna é crítica: assistentes eficazes devem aplicar automaticamente procedimentos aprendidos ou evitar ações mal-sucedidas sem lembretes explícitos. Apresentamos o ImplicitMemBench, o primeiro benchmark sistemático a avaliar a memória implícita através de três construtos fundamentados na cognição, extraídos de relatos padrão da ciência cognitiva sobre memória não declarativa: Memória Procedimental (aquisição de habilidade única após interferência), *Priming* (viés orientado por tema através de pares de instâncias experimentais/controle) e Condicionamento Clássico (associações Estímulo Condicionado – Estímulo Incondicionado (EC–EI) que moldam as primeiras decisões). Nosso conjunto de 300 itens emprega um protocolo unificado de Aprendizagem/*Priming*-Interferência-Teste com pontuação na primeira tentativa. A avaliação de 17 modelos revela limitações severas: nenhum modelo excede 66% no geral, com os melhores desempenhos sendo DeepSeek-R1 (65,3%), Qwen3-32B (64,1%) e GPT-5 (63,0%) muito abaixo das *baselines* humanas. A análise descobre assimetrias dramáticas (inibição 17,6% vs. preferência 75,0%) e gargalos universais que exigem inovações arquitetônicas além do escalonamento de parâmetros. O ImplicitMemBench reformula a avaliação de "o que os agentes recordam" para "o que eles automaticamente executam".

English

Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".

ImplicitMemBench: Medindo a Adaptação Comportamental Inconsciente em Modelos de Linguagem de Grande Porte

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Resumo

Support