Pensare con le Immagini tramite Agenti Auto-Convocanti
Thinking with Images via Self-Calling Agent
December 9, 2025
Autori: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI
Abstract
I paradigmi di "ragionamento con le immagini" (Thinking-with-images) hanno dimostrato notevoli capacità di ragionamento visivo integrando le informazioni visive come elementi dinamici nella Catena del Ragionamento (CoT). Tuttavia, l'ottimizzazione della CoT multimodale interlacciata (iMCoT) tramite apprendimento per rinforzo rimane complessa, poiché dipende da dati di ragionamento di alta qualità scarsi. In questo studio, proponiamo la Catena del Ragionamento con Auto-Chiamata (sCoT), un nuovo paradigma di ragionamento visivo che riformula l'iMCoT come una CoT puramente linguistica con auto-chiamata. Nello specifico, un agente principale scompone il complesso compito di ragionamento visivo in sottocompiti atomici e invoca le sue repliche virtuali, ovvero sub-agenti che condividono i parametri, per risolverli in un contesto isolato. sCoT offre una sostanziale efficacia ed efficienza di addestramento, poiché non richiede un interlacciamento esplicito tra le modalità. sCoT utilizza un'ottimizzazione delle politiche relativa al gruppo per rinforzare comportamenti di ragionamento efficaci e migliorare l'ottimizzazione. Esperimenti su HR-Bench 4K mostrano che sCoT migliora le prestazioni complessive di ragionamento fino all'1,9% con ~75% in meno di ore di GPU rispetto a solidi approcci baseline. Il codice è disponibile all'indirizzo https://github.com/YWenxi/think-with-images-through-self-calling.
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.