Denken mit Bildern durch selbstaufrufende Agenten
Thinking with Images via Self-Calling Agent
December 9, 2025
papers.authors: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI
papers.abstract
Paradigmen des Denkens mit Bildern haben eine bemerkenswerte visuelle Denkfähigkeit demonstriert, indem sie visuelle Informationen als dynamische Elemente in die Denkkette (Chain-of-Thought, CoT) integrieren. Die Optimierung von verschachtelter multimodaler CoT (iMCoT) durch Reinforcement Learning bleibt jedoch eine Herausforderung, da sie auf knappen hochwertigen Denkdaten basiert. In dieser Studie schlagen wir Self-Calling Chain-of-Thought (sCoT) vor, ein neuartiges Paradigma des visuellen Denkens, das iMCoT als eine sprachbasierte CoT mit Selbstaufruf reformuliert. Konkret zerlegt ein Hauptagent die komplexe visuelle Denkaufgabe in atomare Teilaufgaben und ruft seine virtuellen Replikate, d.h. parameterteilende Subagenten, auf, um diese in isoliertem Kontext zu lösen. sCoT zeichnet sich durch hohe Trainingswirksamkeit und -effizienz aus, da es keine explizite Verschachtelung zwischen Modalitäten erfordert. sCoT nutzt gruppenrelative Politikoptimierung, um effektives Denkverhalten zu verstärken und die Optimierung zu verbessern. Experimente auf HR-Bench 4K zeigen, dass sCoT die Gesamtdenkleistung um bis zu 1,9 % verbessert und dabei im Vergleich zu starken Baseline-Ansätzen etwa 75 % weniger GPU-Stunden benötigt. Der Code ist verfügbar unter https://github.com/YWenxi/think-with-images-through-self-calling.
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.