ImplicitMemBench: Het meten van onbewuste gedragsaanpassing in grote taalmodellen

Samenvatting

Bestaande geheugenbenchmarks voor LLM-agenten evalueren expliciete herinnering van feiten, maar negeren impliciet geheugen waarbij ervaring geautomatiseerd gedrag wordt zonder bewuste herinnering. Deze leemte is cruciaal: effectieve assistenten moeten geleerde procedures automatisch toepassen of mislukte handelingen vermijden zonder expliciete herinneringen. Wij introduceren ImplicitMemBench, de eerste systematische benchmark die impliciet geheugen evalueert via drie cognitief onderbouwde constructen ontleend aan standaard cognitiewetenschappelijke verklaringen van niet-declaratief geheugen: Procedureel Geheugen (eenmalige vaardigheidsverwerving na interferentie), Priming (themagestuurde bias via gepaarde experimentele/controlegevallen) en Klassieke Conditionering (geconditioneerde stimulus--ongeconditioneerde stimulus (GS--OGS) associaties die eerste beslissingen vormen). Onze set van 300 items hanteert een uniform Leer/Priming-Interfereer-Test protocol met eerste-poging-scoring. Evaluatie van 17 modellen onthult ernstige beperkingen: geen enkel model overschrijdt 66% algemeen, met top presteerders DeepSeek-R1 (65,3%), Qwen3-32B (64,1%) en GPT-5 (63,0%) ver onder menselijke basislijnen. Analyse onthult dramatische asymmetrieën (remming 17,6% vs. voorkeur 75,0%) en universele knelpunten die architectonische innovaties vereisen voorbij parameterschaling. ImplicitMemBench herformuleert evaluatie van "wat agenten herinneren" naar "wat zij automatisch uitvoeren".

English

Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".

ImplicitMemBench: Het meten van onbewuste gedragsaanpassing in grote taalmodellen

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Samenvatting

Support