A^3-Bench: 앵커 및 어트랙터 활성화를 통한 메모리 기반 과학적 추론 성능 평가
A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
January 14, 2026
저자: Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He, Fangzhi Xu, Qika Lin, Jun Liu
cs.AI
초록
과학적 추론은 논리적 추론뿐만 아니라 사전 지식과 경험적 구조의 활성화에도 의존합니다. 기억은 지식을 효율적으로 재사용하고 추론의 일관성과 안정성을 향상시킬 수 있습니다. 그러나 기존 벤치마크는 주로 최종 답변 또는 단계별 일관성을 평가할 뿐, 인간의 추론 토대가 되는 기억 주도 메커니즘을 간과해 왔습니다. 이 메커니즘은 앵커(anchor)와 어트랙터(attractor)를 활성화한 후 이를 다단계 추론에 통합하는 과정을 포함합니다. 이러한 격차를 해결하기 위해 우리는 앵커 및 어트랙터 활성화(Anchor and Attractor Activation)에 기반한 이중 규모 기억 주도 활성화를 통해 과학적 추론을 평가하도록 설계된 벤치마크인 A^3-Bench(https://a3-bench.github.io)를 제안합니다. 먼저, SAPM(주제, 앵커 및 어트랙터, 문제, 기억 발전) 프로세스를 사용하여 다양한 분야의 2,198개 과학 추론 문제에 주석을 달았습니다. 둘째, 앵커와 어트랙터를 활용한 이중 규모 기억 평가 프레임워크와 기억 활성화 비율을 측정하는 AAUI(Anchor-Attractor Utilization Index) 지표를 도입합니다. 마지막으로 다양한 기본 모델과 패러다임을 사용한 실험을 통해 A^3-Bench를 검증하고 기억 활성화가 추론 성능에 미치는 영향을 분석하여 기억 주도 과학 추론에 대한 통찰을 제공합니다.
English
Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.