그림으로 이해하기: 능동적 시각적 사고를 통한 추론의 최전선 개선하기
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking
December 30, 2025
저자: Meiqi Chen, Fandong Meng, Jie Zhou
cs.AI
초록
복잡한 추론 문제에는 공간적, 기하학적, 구조적 관계가 암묵적으로 내포되어 있으나 텍스트로는 명시적으로 표현되지 않는 경우가 많습니다. 최근 추론 모델들은 여러 분야에서 강력한 성능을 보여주고 있지만, 순수 텍스트 기반 추론은 복잡한 상황에서 전역적 구조적 제약 조건을 표현하는 데 어려움을 겪습니다. 본 논문에서는 종단간 강화 학습을 통해 능동적 시각적 사고를 다중 턴 추론에 통합하는 FIGR을 제안합니다. FIGR은 문제 해결 과정에서 시각적 표현을 구축함으로써 중간 단계의 구조적 가설을 외부화합니다. 시각적 추론이 언제, 어떻게 실행되어야 하는지를 적응적으로 조절함으로써 FIGR은 텍스트만으로는 파악하기 어려운 전역적 구조적 속성에 대해 더욱 안정적이고 일관된 추론을 가능하게 합니다. 난이도 높은 수학적 추론 벤치마크에서의 실험 결과, FIGR이 강력한 텍스트 전용 사고 연쇄(chain-of-thought) 기준 모델들을 능가하는 것으로 나타났습니다. 특히 FIGR은 AIME 2025에서 기본 모델 대비 13.12%, BeyondAIME에서 11.00%의 성능 향상을 보여주며, 도형 주도 다중 모드 추론이 복잡한 추론의 안정성과 신뢰성 향상에 효과적임을 입증했습니다.
English
Complex reasoning problems often involve implicit spatial, geometric, and structural relationships that are not explicitly encoded in text. While recent reasoning models have achieved strong performance across many domains, purely text-based reasoning struggles to represent global structural constraints in complex settings. In this paper, we introduce FIGR, which integrates active visual thinking into multi-turn reasoning via end-to-end reinforcement learning. FIGR externalizes intermediate structural hypotheses by constructing visual representations during problem solving. By adaptively regulating when and how visual reasoning should be invoked, FIGR enables more stable and coherent reasoning over global structural properties that are difficult to capture from text alone. Experiments on challenging mathematical reasoning benchmarks demonstrate that FIGR outperforms strong text-only chain-of-thought baselines. In particular, FIGR improves the base model by 13.12% on AIME 2025 and 11.00% on BeyondAIME, highlighting the effectiveness of figure-guided multimodal reasoning in enhancing the stability and reliability of complex reasoning.