ImplicitMemBench: Messung unbewusster Verhaltensanpassung in großen Sprachmodellen

Zusammenfassung

Bestehende Gedächtnis-Benchmarks für LLM-Agenten bewerten das explizite Abrufen von Fakten, übersehen jedoch das implizite Gedächtnis, bei dem Erfahrung zu automatisiertem Verhalten wird, ohne bewusste Abfrage. Diese Lücke ist kritisch: Effektive Assistenten müssen gelernte Prozeduren automatisch anwenden oder gescheiterte Aktionen ohne explizite Erinnerungen vermeiden können. Wir stellen ImplicitMemBench vor, den ersten systematischen Benchmark zur Bewertung des impliziten Gedächtnisses anhand von drei kognitiv fundierten Konstrukten, die auf standardmäßigen kognitionswissenschaftlichen Beschreibungen des nicht-deklarativen Gedächtnisses basieren: Prozedurales Gedächtnis (Einmalerwerb von Fertigkeiten nach Interferenz), Priming (themengetriebene Verzerrung durch gepaarte Experiment-/Kontrollinstanzen) und Klassische Konditionierung (Konditionierter Stimulus–Unkonditionierter Stimulus (CS–US)-Assoziationen, die erste Entscheidungen prägen). Unser 300 Items umfassender Test nutzt ein einheitliches Lern-/Priming-Interferenz-Test-Protokoll mit Bewertung nach dem ersten Versuch. Die Evaluation von 17 Modellen zeigt gravierende Einschränkungen: Kein Modell übersteigt 66 % Gesamtleistung, wobei die besten Modelle DeepSeek-R1 (65,3 %), Qwen3-32B (64,1 %) und GPT-5 (63,0 %) deutlich unter menschlichen Referenzwerten liegen. Die Analyse deckt dramatische Asymmetrien auf (Inhibition 17,6 % vs. Präferenz 75,0 %) und universelle Engpässe, die architektonische Innovationen jenseits der Parameterskalierung erfordern. ImplicitMemBench verlagert die Bewertung von "was Agenten abrufen" zu "was sie automatisch ausführen".

English

Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".

ImplicitMemBench: Messung unbewusster Verhaltensanpassung in großen Sprachmodellen

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Zusammenfassung

Support