A^3-Bench: Benchmark delle capacità di ragionamento scientifico guidato dalla memoria tramite l'attivazione di ancoraggi e attrattori

Abstract

Il ragionamento scientifico si basa non solo sull'inferenza logica, ma anche sull'attivazione di conoscenze pregresse e strutture esperienziali. La memoria può riutilizzare efficacemente le conoscenze e migliorare la coerenza e la stabilità del ragionamento. Tuttavia, i benchmark esistenti valutano principalmente le risposte finali o la coerenza passo-passo, trascurando i meccanismi guidati dalla memoria che stanno alla base del ragionamento umano, che coinvolgono l'attivazione di ancoraggi e attrattori, per poi integrarli in inferenze a più fasi. Per colmare questa lacuna, proponiamo A^3-Bench~ https://a3-bench.github.io, un benchmark progettato per valutare il ragionamento scientifico attraverso l'attivazione dual-scale guidata dalla memoria, basata sull'Attivazione di Ancoraggi e Attrattori. In primo luogo, annotiamo 2.198 problemi di ragionamento scientifico in diversi domini utilizzando il processo SAPM (soggetto, ancoraggio e attrattore, problema e sviluppo della memoria). In secondo luogo, introduciamo un framework di valutazione della memoria dual-scale che utilizza ancoraggi e attrattori, insieme alla metrica AAUI (Indice di Utilizzo di Ancoraggi-Attrattori) per misurare i tassi di attivazione della memoria. Infine, attraverso esperimenti con vari modelli base e paradigmi, convalidiamo A^3-Bench e analizziamo come l'attivazione della memoria influisca sulle prestazioni di ragionamento, fornendo spunti sul ragionamento scientifico guidato dalla memoria.

English

Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the memory-driven mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose A^3-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate A^3-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.

A^3-Bench: Benchmark delle capacità di ragionamento scientifico guidato dalla memoria tramite l'attivazione di ancoraggi e attrattori

A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation

Abstract

Support