Pensar con Imágenes mediante un Agente de Auto-llamada
Thinking with Images via Self-Calling Agent
December 9, 2025
Autores: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI
Resumen
Los paradigmas de pensamiento-con-imágenes han demostrado una notable capacidad de razonamiento visual al integrar información visual como elementos dinámicos en la Cadena de Pensamiento (CoT). Sin embargo, optimizar la CoT multimodal entrelazada (iMCoT) mediante aprendizaje por refuerzo sigue siendo un desafío, ya que depende de datos de razonamiento de alta calidad escasos. En este estudio, proponemos la Cadena de Pensamiento con Auto-invocación (sCoT), un novedoso paradigma de razonamiento visual que reformula iMCoT como una CoT exclusivamente lingüística con auto-invocación. Específicamente, un agente principal descompone la tarea compleja de razonamiento visual en subtareas atómicas e invoca sus réplicas virtuales, es decir, subagentes que comparten parámetros, para resolverlas en contexto aislado. sCoT ofrece una eficacia y eficiencia de entrenamiento sustanciales, ya que no requiere entrelazado explícito entre modalidades. sCoT emplea optimización de políticas relativa a grupos para reforzar comportamientos de razonamiento efectivos y mejorar la optimización. Experimentos en HR-Bench 4K muestran que sCoT mejora el rendimiento general de razonamiento hasta en un 1.9% con ∼75% menos horas de GPU en comparación con enfoques baseline sólidos. El código está disponible en https://github.com/YWenxi/think-with-images-through-self-calling.
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.