Мысля образами с помощью самообращающегося агента
Thinking with Images via Self-Calling Agent
December 9, 2025
Авторы: Wenxi Yang, Yuzhong Zhao, Fang Wan, Qixiang Ye
cs.AI
Аннотация
Парадигмы мышления-с-изображениями продемонстрировали впечатляющие возможности визуального рассуждения за счет интеграции визуальной информации в качестве динамических элементов в цепочку рассуждений (CoT). Однако оптимизация чередующейся мультимодальной CoT (iMCoT) с помощью обучения с подкреплением остается сложной задачей, поскольку она зависит от дефицитных высококачественных данных рассуждений. В данном исследовании мы предлагаем Самовызывающую Цепочку Рассуждений (sCoT) — новую парадигму визуального рассуждения, которая переформулирует iMCoT как исключительно языковую CoT с самовызовом. Конкретно, главный агент декомпозирует сложную задачу визуального рассуждения на атомарные подзадачи и вызывает свои виртуальные реплики, т.е. параметрически разделяемых под-агентов, для их решения в изолированном контексте. sCoT обладает значительной эффективностью и эффективностью обучения, поскольку не требует явного чередования модальностей. sCoT использует оптимизацию политики относительно группы для усиления эффективного поведения рассуждений и улучшения оптимизации. Эксперименты на HR-Bench 4K показывают, что sCoT улучшает общую производительность рассуждений до 1.9% при использовании примерно на 75% меньше GPU-часов по сравнению с сильными базовыми подходами. Код доступен по адресу https://github.com/YWenxi/think-with-images-through-self-calling.
English
Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to 1.9% with sim 75% fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.