ImplicitMemBench : Mesurer l'adaptation comportementale inconsciente dans les grands modèles de langage

Résumé

Les benchmarks de mémoire existants pour les agents LLM évaluent le rappel explicite de faits, mais négligent la mémoire implicite, où l'expérience se transforme en comportement automatisé sans rappel conscient. Cette lacune est cruciale : les assistants efficaces doivent appliquer automatiquement les procédures apprises ou éviter les actions ayant échoué sans rappel explicite. Nous présentons ImplicitMemBench, le premier benchmark systématique évaluant la mémoire implicite à travers trois construits ancrés dans la cognition, issus des modèles standards de la mémoire non déclarative en sciences cognitives : la Mémoire Procédurale (acquisition de compétences en one-shot après interférence), l'Amorçage (biais thématique via des paires d'instances expérimentales/contrôles) et le Conditionnement Classique (associations Stimulus Conditionnel – Stimulus Inconditionnel (SC–SI) influençant les premières décisions). Notre suite de 300 items utilise un protocole unifié Apprentissage/Amorçage-Interférence-Test avec une notation sur le premier essai. L'évaluation de 17 modèles révèle des limitations sévères : aucun modèle ne dépasse 66% de score global, les meilleurs étant DeepSeek-R1 (65,3%), Qwen3-32B (64,1%) et GPT-5 (63,0%), bien en deçà des performances humaines de référence. L'analyse met à jour des asymétries dramatiques (inhibition 17,6% vs. préférence 75,0%) et des goulots d'étranglement universels nécessitant des innovations architecturales au-delà du simple scaling des paramètres. ImplicitMemBench reconsidère l'évaluation en passant de "ce que les agents rappellent" à "ce qu'ils mettent en œuvre automatiquement".

English

Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".

ImplicitMemBench : Mesurer l'adaptation comportementale inconsciente dans les grands modèles de langage

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Résumé

Support