A^3-Bench: アンカーとアトラクター活性化によるメモリ駆動型科学的推論のベンチマーキング
A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
January 14, 2026
著者: Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He, Fangzhi Xu, Qika Lin, Jun Liu
cs.AI
要旨
科学的推論は、論理的推論のみならず、事前知識と経験的構造の活性化にも依存している。記憶は知識を効率的に再利用し、推論の一貫性と安定性を高めることができる。しかし、既存のベンチマークは主に最終回答や段階的な一貫性を評価するものであり、人間の推論の基盤となる記憶駆動メカニズムを見落としている。このメカニズムは、アンカーとアトラクターを活性化し、それらを多段階推論に統合する過程を含む。このギャップに対処するため、我々はA^3-Bench~ https://a3-bench.github.io を提案する。これは、アンカーとアトラクター活性化に基づくデュアルスケールの記憶駆動活性化を通じて科学的推論を評価するベンチマークである。まず、SAPMプロセス(主題、アンカー&アトラクター、問題、記憶発展)を用いて、複数領域にわたる2,198の科学推論問題を注釈付きで整備した。第二に、アンカーとアトラクターを活用したデュアルスケールの記憶評価フレームワークと、記憶活性化率を測定するAAUI(アンカー―アトラクター利用指標)メトリックを導入する。最後に、様々な基盤モデルとパラダイムを用いた実験を通じてA^3-Benchを検証し、記憶活性化が推論性能に与える影響を分析し、記憶駆動型科学推論に関する知見を提供する。
English
Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.