ChatPaper.aiChatPaper

図解で解決:能動的視覚的思考による推論のフロンティア拡大

Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

December 30, 2025
著者: Meiqi Chen, Fandong Meng, Jie Zhou
cs.AI

要旨

複雑な推論問題には、テキストに明示的に符号化されていない暗黙的な空間的・幾何学的・構造的関係が含まれることが多い。近年の推論モデルは多くの領域で高い性能を達成しているが、純粋にテキストベースの推論では、複雑な状況における大域的な構造的制約を表現することが困難である。本論文では、能動的な視覚的思考をエンドツーエンドの強化学習によりマルチターン推論に統合するFIGRを提案する。FIGRは、問題解決過程で視覚的表現を構築することにより、中間的な構造仮説を外在化する。視覚的推論をいつ、どのように呼び出すかを適応的に制御することで、テキストのみからは捉えにくい大域的な構造特性に対する、より安定かつ首尾一貫した推論を実現する。難易度の高い数学的推論ベンチマークによる実験により、FIGRが強力なテキストのみの連鎖思考ベースラインを上回る性能を示すことを確認した。特に、FIGRはベースモデルに対し、AIME 2025で13.12%、BeyondAIMEで11.00%の改善をもたらし、図形誘導型マルチモーダル推論が複雑な推論の安定性と信頼性を向上させる効果の高さを明らかにした。
English
Complex reasoning problems often involve implicit spatial, geometric, and structural relationships that are not explicitly encoded in text. While recent reasoning models have achieved strong performance across many domains, purely text-based reasoning struggles to represent global structural constraints in complex settings. In this paper, we introduce FIGR, which integrates active visual thinking into multi-turn reasoning via end-to-end reinforcement learning. FIGR externalizes intermediate structural hypotheses by constructing visual representations during problem solving. By adaptively regulating when and how visual reasoning should be invoked, FIGR enables more stable and coherent reasoning over global structural properties that are difficult to capture from text alone. Experiments on challenging mathematical reasoning benchmarks demonstrate that FIGR outperforms strong text-only chain-of-thought baselines. In particular, FIGR improves the base model by 13.12% on AIME 2025 and 11.00% on BeyondAIME, highlighting the effectiveness of figure-guided multimodal reasoning in enhancing the stability and reliability of complex reasoning.
PDF40January 2, 2026