ChatPaper.aiChatPaper

A^3-Bench : Évaluation du raisonnement scientifique piloté par la mémoire via l'activation d'ancres et d'attracteurs

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

January 14, 2026
papers.authors: Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He, Fangzhi Xu, Qika Lin, Jun Liu
cs.AI

papers.abstract

Le raisonnement scientifique ne repose pas uniquement sur l'inférence logique, mais aussi sur l'activation de connaissances antérieures et de structures expérientielles. La mémoire permet de réutiliser efficacement les connaissances et d'améliorer la cohérence et la stabilité du raisonnement. Cependant, les benchmarks existants évaluent principalement les réponses finales ou la cohérence étape par étape, négligeant les mécanismes pilotés par la mémoire qui sous-tendent le raisonnement humain, lequel implique l'activation d'ancrages et d'attracteurs avant de les intégrer dans une inférence multi-étapes. Pour combler cette lacune, nous proposons A^3-Bench~ https://a3-bench.github.io, un benchmark conçu pour évaluer le raisonnement scientifique via une activation mémoire à double échelle, fondée sur l'Activation des Ancrages et des Attracteurs. Premièrement, nous annotons 2 198 problèmes de raisonnement scientifique across différents domaines en utilisant le processus SAPM (sujet, ancrage & attracteur, problème et développement mémoriel). Deuxièmement, nous introduisons un cadre d'évaluation mémoire à double échelle utilisant les ancrages et les attracteurs, ainsi que la métrique AAUI (Indice d'Utilisation des Ancrages-Attracteurs) pour mesurer les taux d'activation mémoire. Enfin, via des expériences avec divers modèles de base et paradigmes, nous validons A^3-Bench et analysons comment l'activation mémoire influence les performances raisonnées, offrant ainsi des perspectives sur le raisonnement scientifique piloté par la mémoire.
English
Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.
PDF742January 16, 2026