Benchmark di Ragionamento Robusto

Abstract

Sebbene i Large Language Model (LLM) raggiungano alte prestazioni sui benchmark matematici standard, i loro processi di ragionamento sottostanti rimangono fortemente sovradattati alla formattazione testuale convenzionale. Proponiamo una pipeline di perturbazione composta da 14 tecniche per valutare la robustezza del ragionamento dei LLM. Applichiamo questa pipeline al dataset AIME 2024 e valutiamo 8 modelli all'avanguardia sul benchmark risultante. Mentre i modelli di frontiera mostrano resilienza, i modelli di ragionamento open-weight subiscono crolli catastrofici (fino a cali di accuratezza media del 55% tra le perturbazioni e fino al 100% su alcune), rivelando una fragilità strutturale. Per separare ulteriormente i fallimenti di parsing meccanico da quelli di ragionamento a valle, isoliamo rigorosamente la capacità di memoria di lavoro dei modelli costringendoli a risolvere sequenzialmente più problemi matematici non perturbati all'interno di un'unica finestra contestuale. I nostri risultati indicano che i modelli open-weight, con parametri che vanno da 7B a 120B, e Claude Opus 4.6 mostrano un decadimento dell'accuratezza sui problemi successivi. Questo degrado dimostra che i passaggi di ragionamento intermedi inquinano permanentemente i meccanismi standard di attention densa. Sosteniamo che, per ottenere un ragionamento affidabile, le future architetture di ragionamento debbano integrare reset contestuali espliciti all'interno della stessa Catena di Pensiero (Chain-of-Thought) del modello, sollevando fondamentali questioni aperte riguardanti la granularità ottimale dei compiti di ragionamento atomici.

English

While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a perturbation pipeline consisting of 14 techniques to evaluate robustness of LLM reasoning. We apply this pipeline to AIME 2024 dataset and evalute 8 state-of-the-art models on the resulting benchmark. While frontier models exhibit resilience, open weights reasoning models suffer catastrophic collapses (up to 55% average accuracy drops across perturbations and up to 100% on some), exposing structural fragility. To further disentangle mechanical parsing failures from downstream reasoning failures, we strictly isolate the models' working memory capacity by forcing models to solve multiple unperturbed mathematical problems sequentially within a single context window. Our results indicate that open weight models ranging from 7B to 120B parameters and Claude Opus 4.6 exhibit accuracy decay on subsequent problems. This degradation demonstrates that intermediate reasoning steps permanently pollute standard dense attention mechanisms. We argue that to achieve reliable reasoning, future reasoning architectures must integrate explicit contextual resets within a model's own Chain-of-Thought, leading to fundamental open questions regarding the optimal granularity of atomic reasoning tasks.

Benchmark di Ragionamento Robusto

Robust Reasoning Benchmark

Abstract

Support