A^3-Bench: Benchmarking des gedächtnisgesteuerten wissenschaftlichen Denkens durch Anker- und Attraktoraktivierung
A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
January 14, 2026
papers.authors: Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He, Fangzhi Xu, Qika Lin, Jun Liu
cs.AI
papers.abstract
Wissenschaftliches Denken stützt sich nicht nur auf logische Schlussfolgerungen, sondern auch auf die Aktivierung von Vorwissen und Erfahrungsstrukturen. Das Gedächtnis kann Wissen effizient wiederverwenden und dadurch die Konsistenz und Stabilität des Denkprozesses verbessern. Bisherige Benchmarks bewerten jedoch hauptsächlich Endantworten oder schrittweise Kohärenz, ohne die gedächtnisgesteuerten Mechanismen zu berücksichtigen, die dem menschlichen Denken zugrunde liegen – insbesondere die Aktivierung von Ankern und Attraktoren sowie deren Integration in mehrstufige Schlussfolgerungen. Um diese Lücke zu schließen, stellen wir A^3-Bench vor (https://a3-bench.github.io), einen Benchmark zur Bewertung wissenschaftlichen Denkens durch dual-skaliere, gedächtnisgesteuerte Aktivierung basierend auf Anker- und Attraktor-Aktivierung. Zunächst annotieren wir 2.198 wissenschaftliche Denkprobleme verschiedener Domänen mittels des SAPM-Prozesses (Subject, Anchor & Attractor, Problem und Memory Developing). Zweitens führen wir einen dual-skalierten Bewertungsrahmen für das Gedächtnis unter Verwendung von Ankern und Attraktoren ein, ergänzt durch die AAUI-Metrik (Anchor–Attractor Utilization Index) zur Messung der Gedächtnisaktivierungsrate. Abschließend validieren wir A^3-Bench durch Experimente mit verschiedenen Basismodellen und Paradigmen und analysieren, wie sich Gedächtnisaktivierung auf die Denkleistung auswirkt, um Einblicke in gedächtnisgesteuertes wissenschaftliches Denken zu liefern.
English
Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.