ImplicitMemBench: 大規模言語モデルにおける無意識的行動適応の測定
ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models
April 9, 2026
著者: Chonghan Qin, Xiachong Feng, Weitao Ma, Xiaocheng Feng, Lingpeng Kong
cs.AI
要旨
既存のLLMエージェントのメモリベンチマークは、事実の明示的な想起を評価する一方、経験が意識的な検索なしに自動化された行動となる暗黙的記憶を見落としている。このギャップは深刻である。効果的なアシスタントは、明示的なリマインダーなしに学習した手続きを自動的に適用したり、失敗した行動を回避したりできなければならない。我々はImplicitMemBenchを提案する。これは、非宣言的記憶に関する標準的な認知科学の記述から抽出した3つの認知論的基盤に基づく構成概念——手続き記憶(干渉後のワンショット技能獲得)、プライミング(対照実験によるテーマ駆動のバイアス)、古典的条件づけ(条件刺激-無条件刺激(CS-US)連合による最初の判断形成)——を通じて、暗黙的記憶を評価する初の体系的ベンチマークである。300項目から成る本テストスイートは、初回試行採点法による統一的な学習/プライミング-干渉-テストプロトコルを採用する。17のモデルを評価した結果、深刻な限界が明らかになった:全体正答率が66%を超えるモデルはなく、最高性能のDeepSeek-R1(65.3%)、Qwen3-32B(64.1%)、GPT-5(63.0%)も人間のベースラインを大きく下回った。分析により、抑制(17.6%)と選好(75.0%)の劇的な非対称性、およびパラメータ規模の拡大を超えたアーキテクチャ革新を必要とする普遍的なボトルネックが明らかになった。ImplicitMemBenchは評価の枠組みを「エージェントが何を想起するか」から「何を自動的に実行するか」へと転換する。
English
Existing memory benchmarks for LLM agents evaluate explicit recall of facts, yet overlook implicit memory where experience becomes automated behavior without conscious retrieval. This gap is critical: effective assistants must automatically apply learned procedures or avoid failed actions without explicit reminders. We introduce ImplicitMemBench, the first systematic benchmark evaluating implicit memory through three cognitively grounded constructs drawn from standard cognitive-science accounts of non-declarative memory: Procedural Memory (one-shot skill acquisition after interference), Priming (theme-driven bias via paired experimental/control instances), and Classical Conditioning (Conditioned Stimulus--Unconditioned Stimulus (CS--US) associations shaping first decisions). Our 300-item suite employs a unified Learning/Priming-Interfere-Test protocol with first-attempt scoring. Evaluation of 17 models reveals severe limitations: no model exceeds 66% overall, with top performers DeepSeek-R1 (65.3%), Qwen3-32B (64.1%), and GPT-5 (63.0%) far below human baselines. Analysis uncovers dramatic asymmetries (inhibition 17.6% vs. preference 75.0%) and universal bottlenecks requiring architectural innovations beyond parameter scaling. ImplicitMemBench reframes evaluation from "what agents recall" to "what they automatically enact".