ChatPaper.aiChatPaper

自己呼び出しエージェントによる画像思考

Thinking with Images via Self-Calling Agent

December 9, 2025
著者: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI

要旨

画像思考パラダイムは、視覚情報を連鎖思考(CoT)に動的要素として統合することで、顕著な視覚推論能力を示してきた。しかし、高品質な推論データが乏しいことに依存するため、強化学習によるマルチモーダル連鎖思考(iMCoT)の最適化は依然として課題である。本研究では、iMCoTを自己呼び出し機能を持つ言語のみのCoTとして再構成する新しい視覚推論パラダイム「自己呼び出し連鎖思考(sCoT)」を提案する。具体的には、メインエージェントが複雑な視覚推論タスクを原子サブタスクに分解し、パラメータ共有サブエージェント(仮想複製)を呼び出して分離されたコンテキストで解決させる。sCoTはモダリティ間の明示的な交互作用を必要としないため、高い学習効果と効率性を実現する。sCoTはグループ相対方策最適化を採用し、効果的な推論行動を強化して最適化を促進する。HR-Bench 4Kでの実験により、sCoTが強力なベースライン手法と比較して、GPU時間を約75%削減しつつ、総合的な推論性能を最大1.9%向上させることが示された。コードはhttps://github.com/YWenxi/think-with-images-through-self-callingで公開されている。
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.
PDF81December 13, 2025