Descúbrelo: Mejorando la frontera del razonamiento con el pensamiento visual activo
Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking
December 30, 2025
Autores: Meiqi Chen, Fandong Meng, Jie Zhou
cs.AI
Resumen
Los problemas de razonamiento complejos a menudo implican relaciones espaciales, geométricas y estructurales implícitas que no están codificadas explícitamente en el texto. Si bien los modelos de razonamiento recientes han logrado un rendimiento sólido en muchos dominios, el razonamiento puramente basado en texto lucha por representar restricciones estructurales globales en entornos complejos. En este artículo, presentamos FIGR, que integra el pensamiento visual activo en el razonamiento multiturno mediante aprendizaje por refuerzo de extremo a extremo. FIGR externaliza hipótesis estructurales intermedias construyendo representaciones visuales durante la resolución de problemas. Al regular de forma adaptativa cuándo y cómo debe invocarse el razonamiento visual, FIGR permite un razonamiento más estable y coherente sobre propiedades estructurales globales que son difíciles de capturar únicamente a partir del texto. Los experimentos en benchmarks desafiantes de razonamiento matemático demuestran que FIGR supera a sólidas líneas base de cadena de pensamiento exclusivamente textuales. En particular, FIGR mejora el modelo base en un 13.12% en AIME 2025 y en un 11.00% en BeyondAIME, lo que subraya la efectividad del razonamiento multimodal guiado por figuras para mejorar la estabilidad y fiabilidad del razonamiento complejo.
English
Complex reasoning problems often involve implicit spatial, geometric, and structural relationships that are not explicitly encoded in text. While recent reasoning models have achieved strong performance across many domains, purely text-based reasoning struggles to represent global structural constraints in complex settings. In this paper, we introduce FIGR, which integrates active visual thinking into multi-turn reasoning via end-to-end reinforcement learning. FIGR externalizes intermediate structural hypotheses by constructing visual representations during problem solving. By adaptively regulating when and how visual reasoning should be invoked, FIGR enables more stable and coherent reasoning over global structural properties that are difficult to capture from text alone. Experiments on challenging mathematical reasoning benchmarks demonstrate that FIGR outperforms strong text-only chain-of-thought baselines. In particular, FIGR improves the base model by 13.12% on AIME 2025 and 11.00% on BeyondAIME, highlighting the effectiveness of figure-guided multimodal reasoning in enhancing the stability and reliability of complex reasoning.