ImplicitMemBench: Medición de la Adaptación Conductual Inconsciente en Modelos de Lenguaje a Gran Escala

Resumen

Los puntos de referencia de memoria existentes para agentes LLM evalúan el recuerdo explícito de hechos, pero pasan por alto la memoria implícita, donde la experiencia se convierte en comportamiento automatizado sin recuperación consciente. Esta brecha es crítica: los asistentes efectivos deben aplicar automáticamente procedimientos aprendidos o evitar acciones fallidas sin recordatorios explícitos. Presentamos ImplicitMemBench, el primer punto de referencia sistemático que evalúa la memoria implícita a través de tres constructos fundamentados en la cognición, extraídos de las explicaciones estándar de la ciencia cognitiva sobre la memoria no declarativa: Memoria Procedimental (adquisición de habilidad de una sola vez después de interferencia), *Priming* (sesgo impulsado por temas mediante instancias experimentales/control emparejadas) y Condicionamiento Clásico (asociaciones Estímulo Condicionado--Estímulo Incondicionado (EC--EI) que moldean las primeras decisiones). Nuestra suite de 300 ítems emplea un protocolo unificado de Aprendizaje/*Priming*-Interferencia-Prueba con puntuación de primer intento. La evaluación de 17 modelos revela limitaciones severas: ningún modelo supera el 66% en general, con los mejores desempeños siendo DeepSeek-R1 (65.3%), Qwen3-32B (64.1%) y GPT-5 (63.0%), muy por debajo de los valores de referencia humanos. El análisis descubre asimetrías dramáticas (inhibición 17.6% vs. preferencia 75.0%) y cuellos de botella universales que requieren innovaciones arquitectónicas más allá del escalado de parámetros. ImplicitMemBench replantea la evaluación de "lo que los agentes recuerdan" a "lo que enactúan automáticamente".

English

Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".

ImplicitMemBench: Medición de la Adaptación Conductual Inconsciente en Modelos de Lenguaje a Gran Escala

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Resumen

Support