ChatPaper.aiChatPaper

A^3-Bench: Evaluación del Razonamiento Científico Basado en Memoria mediante la Activación de Anclas y Atractores

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

January 14, 2026
Autores: Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He, Fangzhi Xu, Qika Lin, Jun Liu
cs.AI

Resumen

El razonamiento científico no solo se basa en la inferencia lógica, sino también en la activación de conocimientos previos y estructuras experienciales. La memoria puede reutilizar conocimiento de manera eficiente y mejorar la coherencia y estabilidad del razonamiento. Sin embargo, los benchmarks existentes evalúan principalmente respuestas finales o la coherencia paso a paso, pasando por alto los mecanismos impulsados por la memoria que subyacen al razonamiento humano, el cual implica activar anclajes y atractores para luego integrarlos en una inferencia de múltiples pasos. Para abordar esta brecha, proponemos A^3-Bench~ https://a3-bench.github.io, un benchmark diseñado para evaluar el razonamiento científico mediante la activación dual impulsada por la memoria, basado en la Activación de Anclajes y Atractores. En primer lugar, anotamos 2.198 problemas de razonamiento científico en diversos dominios utilizando el proceso SAPM (sujeto, anclaje y atractor, problema y desarrollo de memoria). En segundo lugar, introducimos un marco de evaluación de memoria a escala dual que utiliza anclajes y atractores, junto con la métrica AAUI (Índice de Utilización de Anclaje-Atractor) para medir las tasas de activación de la memoria. Finalmente, mediante experimentos con varios modelos base y paradigmas, validamos A^3-Bench y analizamos cómo la activación de la memoria impacta el rendimiento del razonamiento, aportando perspectivas sobre el razonamiento científico impulsado por la memoria.
English
Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.
PDF742January 16, 2026