A^3-Bench: Het benchmarken van geheugengestuurd wetenschappelijk redeneren via anker- en attractoractivatie
A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
January 14, 2026
Auteurs: Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He, Fangzhi Xu, Qika Lin, Jun Liu
cs.AI
Samenvatting
Wetenschappelijk redeneren berust niet alleen op logische inferentie, maar ook op het activeren van voorkennis en ervaringsstructuren. Het geheugen kan kennis efficiënt hergebruiken en de consistentie en stabiliteit van redeneren verbeteren. Bestaande benchmarks evalueren echter voornamelijk eindantwoorden of stap-voor-stap coherentie, waarbij de geheugengestuurde mechanismen die ten grondslag liggen aan menselijk redeneren over het hoofd worden gezien. Dit proces omvat het activeren van ankers en attractoren, waarna ze worden geïntegreerd in meerstapsinferentie. Om deze leemte aan te pakken, stellen we A^3-Bench~ voor (https://a3-bench.github.io), een benchmark ontworpen om wetenschappelijk redeneren te evalueren via dubbelschalige, geheugengestuurde activering, gebaseerd op Anker- en Attractor-Activering. Ten eerste annoteren we 2.198 wetenschappelijke redeneerproblemen across verschillende domeinen met behulp van het SAPM-proces (Subject, Anchor & Attractor, Problem, and Memory developing). Ten tweede introduceren we een dubbelschalig evaluatieraamwerk voor geheugengebruik dat ankers en attractoren benut, samen met de AAUI-metriek (Anchor–Attractor Utilization Index) om geheugenactiveringspercentages te meten. Tot slot valideren we A^3-Bench via experimenten met diverse basismodellen en paradigma's, en analyseren we hoe geheugenactivering redeneerprestaties beïnvloedt, wat inzichten biedt in geheugengestuurd wetenschappelijk redeneren.
English
Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.