A^3-Bench: Avaliação do Raciocínio Científico Baseado em Memória através da Ativação de Âncoras e Atratores

Resumo

O raciocínio científico não depende apenas da inferência lógica, mas também da ativação de conhecimento prévio e estruturas experienciais. A memória pode reutilizar conhecimento de forma eficiente e melhorar a consistência e estabilidade do raciocínio. No entanto, os benchmarks existentes avaliam principalmente respostas finais ou a coerência passo a passo, negligenciando os mecanismos orientados pela memória que fundamentam o raciocínio humano, que envolve ativar âncoras e atratores e, em seguida, integrá-los numa inferência de múltiplos passos. Para colmatar esta lacuna, propomos o A³-Bench~ https://a3-bench.github.io, um benchmark concebido para avaliar o raciocínio científico através da ativação dual-scale orientada pela memória, baseado na Ativação de Âncora e Atractor. Primeiro, anotamos 2.198 problemas de raciocínio científico em vários domínios usando o processo SAPM (subject, anchor & attractor, problem, and memory developing). Segundo, introduzimos uma estrutura de avaliação de memória dual-scale que utiliza âncoras e atratores, juntamente com a métrica AAUI (Anchor–Attractor Utilization Index) para medir as taxas de ativação da memória. Finalmente, através de experiências com vários modelos base e paradigmas, validamos o A³-Bench e analisamos como a ativação da memória impacta o desempenho do raciocínio, fornecendo insights sobre o raciocínio científico orientado pela memória.

English

Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.