ChatPaper.aiChatPaper

자기 호출 에이전트를 통한 이미지 사고

Thinking with Images via Self-Calling Agent

December 9, 2025
저자: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI

초록

이미지 사고 패러다임은 시각 정보를 동적 요소로써 사고 연쇄(CoT)에 통합함으로써 뛰어난 시각 추론 능력을 보여주었다. 그러나 고품질 추론 데이터의 부족으로 인해, 강화 학습을 통해 교차 양식 CoT(iMCoT)를 최적화하는 것은 여전히 어려운 과제로 남아 있다. 본 연구에서는 iMCoT를 자기 호출(self-calling)이 가능한 언어 전용 CoT로 재구성하는 새로운 시각 추론 패러다임인 자기 호출 사고 연쇄(sCoT)를 제안한다. 구체적으로, 주 에이전트가 복잡한 시각 추론 과업을 원자적 하위 과업으로 분해하고, 매개변수를 공유하는 하위 에이전트인 가상 복제본을 호출하여 격리된 맥락에서 이를 해결한다. sCoT는 양식 간의 명시적인 교차를 요구하지 않기 때문에 상당한 훈련 효과성과 효율성을 누린다. 또한 sCoT는 그룹 상대 정책 최적화를 통해 효과적인 추론 행동을 강화하여 최적화를 개선한다. HR-Bench 4K에서의 실험 결과, sCoT는 강력한 베이스라인 접근법 대비 최대 1.9%의 전반적인 추론 성능 향상과 함께 GPU 사용 시간을 약 75% 절감하는 것으로 나타났다. 코드는 https://github.com/YWenxi/think-with-images-through-self-calling에서 확인할 수 있다.
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.
PDF81December 13, 2025