ChatPaper.aiChatPaper

Pensando com Imagens por meio de um Agente de Autochamada

Thinking with Images via Self-Calling Agent

December 9, 2025
Autores: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI

Resumo

Os paradigmas de pensamento-com-imagens demonstraram capacidades notáveis de raciocínio visual ao integrar informações visuais como elementos dinâmicos na Cadeia de Pensamento (CoT). No entanto, a otimização de CoT multimodal intercalada (iMCoT) através de aprendizagem por reforço permanece desafiadora, uma vez que depende de dados de raciocínio de alta qualidade escassos. Neste estudo, propomos a Cadeia de Pensamento com Autoinvocação (sCoT), um novo paradigma de raciocínio visual que reformula a iMCoT como uma CoT exclusivamente linguística com autoinvocação. Especificamente, um agente principal decompõe a tarefa complexa de raciocínio visual em subtarefas atómicas e invoca as suas réplicas virtuais, ou seja, subagentes com partilha de parâmetros, para as resolver em contexto isolado. A sCoT oferece substancial eficácia e eficiência de treino, uma vez que não requer intercalação explícita entre modalidades. A sCoT emprega otimização de política relativa a grupos para reforçar comportamentos de raciocínio eficazes e melhorar a otimização. Experiências no HR-Bench 4K mostram que a sCoT melhora o desempenho global de raciocínio em até 1,9% com aproximadamente 75% menos horas de GPU em comparação com abordagens baseline robustas. O código está disponível em https://github.com/YWenxi/think-with-images-through-self-calling.
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.
PDF232February 27, 2026