ImplicitMemBench: Misurare l'Adattamento Comportamentale Inconscio nei Modelli Linguistici di Grandi Dimensioni

Abstract

I benchmark di memoria esistenti per agenti LLM valutano il richiamo esplicito di fatti, ma trascurano la memoria implicita, in cui l'esperienza diventa comportamento automatizzato senza un recupero cosciente. Questa lacuna è cruciale: assistenti efficaci devono applicare automaticamente procedure apprese o evitare azioni fallite senza promemoria espliciti. Introduciamo ImplicitMemBench, il primo benchmark sistematico che valuta la memoria implicita attraverso tre costrutti cognitivamente fondati, tratti dalle teorie standard delle scienze cognitive sulla memoria non dichiarativa: Memoria Procedurale (acquisizione di abilità one-shot dopo interferenza), Priming (bias guidato da temi tramite istanze sperimentali/controllo abbinate) e Condizionamento Classico (associazioni Stimolo Condizionato – Stimolo Incondizionato (CS–US) che modellano le prime decisioni). La nostra suite di 300 elementi impiega un protocollo unificato Apprendimento/Priming-Interferenza-Test con valutazione del primo tentativo. La valutazione di 17 modelli rivale limitazioni severe: nessun modello supera il 66% complessivo, con i migliori performer DeepSeek-R1 (65.3%), Qwen3-32B (64.1%) e GPT-5 (63.0%) ben al di sotto dei baseline umani. L'analisi scopre asimmetrie drammatiche (inibizione 17.6% vs. preferenza 75.0%) e colli di bottiglia universali che richiedono innovazioni architetturali oltre il semplice scaling dei parametri. ImplicitMemBench riformula la valutazione da "cosa ricordano gli agenti" a "cosa mettono automaticamente in atto".

English

Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".

ImplicitMemBench: Misurare l'Adattamento Comportamentale Inconscio nei Modelli Linguistici di Grandi Dimensioni

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Abstract

Support