ChatPaper.aiChatPaper

A^3-Bench: Бенчмарк для оценки научного мышления, управляемого памятью, через активацию якорных и аттракторных структур

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

January 14, 2026
Авторы: Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He, Fangzhi Xu, Qika Lin, Jun Liu
cs.AI

Аннотация

Научное рассуждение опирается не только на логический вывод, но и на активацию предшествующих знаний и опытных структур. Память позволяет эффективно повторно использовать знания и повышать согласованность и устойчивость рассуждений. Однако существующие бенчмарки в основном оценивают итоговые ответы или пошаговую связность, упуская из виду механизмы, управляемые памятью, которые лежат в основе человеческого мышления и включают активацию якорей и аттракторов с последующей их интеграцией в многошаговый вывод. Чтобы заполнить этот пробел, мы предлагаем A³-Bench~ https://a3-bench.github.io — бенчмарк, предназначенный для оценки научного рассуждения через двухуровневую активацию, управляемую памятью, основанную на активации якорей и аттракторов. Во-первых, мы аннотируем 2 198 задач научного рассуждения из различных областей, используя процесс SAPM (субъект, якорь и аттрактор, проблема и развитие памяти). Во-вторых, мы представляем двухуровневую систему оценки памяти с использованием якорей и аттракторов, а также метрику AAUI (Индекс использования якорей и аттракторов) для измерения уровня активации памяти. Наконец, в ходе экспериментов с различными базовыми моделями и парадигмами мы валидируем A³-Bench и анализируем, как активация памяти влияет на результативность рассуждений, предоставляя новые данные о научном рассуждении, управляемом памятью.
English
Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.
PDF742January 16, 2026