Denken met Beelden via een Zelf-Aanroepende Agent
Thinking with Images via Self-Calling Agent
December 9, 2025
Auteurs: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI
Samenvatting
Beeld-denken-paradigma's hebben een opmerkelijke visuele redeneercapaciteit getoond door visuele informatie als dynamische elementen te integreren in de Ketting-van-Gedachten (KvG). Het optimaliseren van vervlochten multimodale KvG (vMKvG) via reinforcement learning blijft echter uitdagend, omdat het afhangt van schaarse hoogwaardige redeneergegevens. In deze studie stellen we Zelf-aanroepende Ketting-van-Gedachten (zKvG) voor, een nieuw visueel redeneerparadigma dat vMKvG herformuleert als een taal-only KvG met zelf-aanroeping. Concreet deconstrueert een hoofdagent de complexe visuele redeneertaak tot atomische deeltaken en roept zijn virtuele replica's aan – parameters-delende subagenten – om deze in geïsoleerde context op te lossen. zKvG biedt aanzienlijke trainings-effectiviteit en -efficiëntie, omdat het geen expliciete vervlechting tussen modaliteiten vereist. zKvG gebruikt groep-gerelativeerde policy-optimalisatie om effectief redeneergedrag te versterken. Experimenten op HR-Bench 4K tonen aan dat zKvG de algemene redeneerprestatie met tot 1,9% verbetert met ∼75% minder GPU-uren vergeleken met sterke baseline-benaderingen. Code is beschikbaar op https://github.com/YWenxi/think-with-images-through-self-calling.
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.