Penser avec les images via un agent à auto-appel
Thinking with Images via Self-Calling Agent
December 9, 2025
papers.authors: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI
papers.abstract
Les paradigmes de pensée-par-les-images ont démontré une capacité remarquable de raisonnement visuel en intégrant l'information visuelle comme éléments dynamiques dans la Chaîne de Raisonnement (CoT). Cependant, l'optimisation par apprentissage par renforcement des CoT multimodales entrelacées (iMCoT) reste difficile, car elle repose sur des données de raisonnement de haute qualité qui sont rares. Dans cette étude, nous proposons la Chaîne de Raisonnement à Auto-Appel (sCoT), un nouveau paradigme de raisonnement visuel qui reformule l'iMCoT comme une CoT purement langagière avec auto-appel. Concrètement, un agent principal décompose la tâche complexe de raisonnement visuel en sous-tâches atomiques et invoque ses répliques virtuelles, c'est-à-dire des sous-agents partageant les paramètres, pour les résoudre dans un contexte isolé. sCoT offre une efficacité et une efficience d'entraînement substantielles, car elle ne nécessite aucun entrelacement explicite entre les modalités. sCoT utilise une optimisation de politique relative au groupe pour renforcer les comportements de raisonnement efficaces et améliorer l'optimisation. Les expériences sur HR-Bench 4K montrent que sCoT améliore les performances globales de raisonnement jusqu'à 1,9 % avec environ 75 % d'heures GPU en moins par rapport aux approches de référence solides. Le code est disponible à l'adresse https://github.com/YWenxi/think-with-images-through-self-calling.
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.