Scoprilo: Migliorare la frontiera del ragionamento con il pensiero visivo attivo

Abstract

I problemi complessi di ragionamento spesso coinvolgono relazioni spaziali, geometriche e strutturali implicite che non sono codificate esplicitamente nel testo. Sebbene i recenti modelli di ragionamento abbiano ottenuto prestazioni elevate in molti ambiti, il ragionamento puramente basato sul testo fatica a rappresentare i vincoli strutturali globali in contesti complessi. In questo articolo introduciamo FIGR, che integra il pensiero visivo attivo nel ragionamento a più turni tramite apprendimento per rinforzo end-to-end. FIGR esternalizza le ipotesi strutturali intermedie costruendo rappresentazioni visive durante la risoluzione dei problemi. Regolando in modo adattivo quando e come il ragionamento visivo debba essere invocato, FIGR consente un ragionamento più stabile e coerente sulle proprietà strutturali globali che sono difficili da catturare dal solo testo. Esperimenti su benchmark impegnativi di ragionamento matematico dimostrano che FIGR supera le solide baseline di ragionamento a catena del pensiero (chain-of-thought) esclusivamente testuali. In particolare, FIGR migliora il modello base del 13,12% su AIME 2025 e dell'11,00% su BeyondAIME, evidenziando l'efficacia del ragionamento multimodale guidato da figure nel migliorare la stabilità e l'affidabilità del ragionamento complesso.

English

Complex reasoning problems often involve implicit spatial, geometric, and structural relationships that are not explicitly encoded in text. While recent reasoning models have achieved strong performance across many domains, purely text-based reasoning struggles to represent global structural constraints in complex settings. In this paper, we introduce FIGR, which integrates active visual thinking into multi-turn reasoning via end-to-end reinforcement learning. FIGR externalizes intermediate structural hypotheses by constructing visual representations during problem solving. By adaptively regulating when and how visual reasoning should be invoked, FIGR enables more stable and coherent reasoning over global structural properties that are difficult to capture from text alone. Experiments on challenging mathematical reasoning benchmarks demonstrate that FIGR outperforms strong text-only chain-of-thought baselines. In particular, FIGR improves the base model by 13.12% on AIME 2025 and 11.00% on BeyondAIME, highlighting the effectiveness of figure-guided multimodal reasoning in enhancing the stability and reliability of complex reasoning.

Scoprilo: Migliorare la frontiera del ragionamento con il pensiero visivo attivo

Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

Abstract

Support