Figuur Het Uit: De Grens van Redeneren Verleggen met Actief Visueel Denken
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking
December 30, 2025
Auteurs: Meiqi Chen, Fandong Meng, Jie Zhou
cs.AI
Samenvatting
Complexe redeneerproblemen omvatten vaak impliciete ruimtelijke, geometrische en structurele relaties die niet expliciet in tekst zijn gecodeerd. Hoewel recente redeneermodellen sterke prestaties hebben behaald in vele domeinen, worstelt puur tekstgebaseerd redeneren met het weergeven van globale structurele beperkingen in complexe situaties. In dit artikel introduceren we FIGR, dat actief visueel denken integreert in meer-staps redeneren via end-to-end reinforcement learning. FIGR externaliseert tussenliggende structurele hypothesen door tijdens het probleemoplossen visuele representaties te construeren. Door adaptief te reguleren wanneer en hoe visueel redeneren moet worden ingezet, stelt FIGR stabieler en samenhangender redeneren over globale structurele eigenschappen mogelijk, die moeilijk alleen uit tekst zijn af te leiden. Experimenten op uitdagende wiskundige redeneerbenchmarks tonen aan dat FIGR sterke tekstuele chain-of-thought-baselines overtreft. In het bijzonder verbetert FIGR het basismodel met 13,12% op AIME 2025 en 11,00% op BeyondAIME, wat de effectiviteit aantoont van figuur-gestuurd multimodaal redeneren bij het verbeteren van de stabiliteit en betrouwbaarheid van complex redeneren.
English
Complex reasoning problems often involve implicit spatial, geometric, and structural relationships that are not explicitly encoded in text. While recent reasoning models have achieved strong performance across many domains, purely text-based reasoning struggles to represent global structural constraints in complex settings. In this paper, we introduce FIGR, which integrates active visual thinking into multi-turn reasoning via end-to-end reinforcement learning. FIGR externalizes intermediate structural hypotheses by constructing visual representations during problem solving. By adaptively regulating when and how visual reasoning should be invoked, FIGR enables more stable and coherent reasoning over global structural properties that are difficult to capture from text alone. Experiments on challenging mathematical reasoning benchmarks demonstrate that FIGR outperforms strong text-only chain-of-thought baselines. In particular, FIGR improves the base model by 13.12% on AIME 2025 and 11.00% on BeyondAIME, highlighting the effectiveness of figure-guided multimodal reasoning in enhancing the stability and reliability of complex reasoning.