ChatPaper.aiChatPaper

Agent0-VL: Исследование саморазвивающегося агента для инструментального визуально-языкового анализа

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

November 25, 2025
Авторы: Jiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao
cs.AI

Аннотация

Визуально-языковые агенты достигли значительного прогресса в решении разнообразных мультимодальных задач, однако их обучение остается ограниченным недостатками человеческой разметки. Новейшие подходы с самовознаграждением пытаются преодолеть это ограничение, позволяя моделям выступать в роли собственных критиков или поставщиков вознаграждений. Тем не менее, чисто текстовые самооценки испытывают трудности с проверкой сложных шагов визуального рассуждения и часто страдают от галлюцинаций при оценке. Для решения этих проблем, вдохновившись последними достижениями в рассуждениях с использованием инструментов, мы предлагаем Agent0-VL — саморазвивающийся визуально-языковой агент, достигающий непрерывного улучшения за счет инструментально-интегрированных рассуждений. Agent0-VL включает использование инструментов не только в рассуждения, но и в самооценку и самокоррекцию, позволяя модели интроспективно проверять и уточнять свои умозаключения через обоснованный доказательствами анализ. Он объединяет две синергетические роли в рамках одной LVLM: Решателя, выполняющего многошаговые инструментально-интегрированные рассуждения, и Верификатора, генерирующего структурированную обратную связь и детализированные самовознаграждения через инструментально-обоснованную критику. Эти роли взаимодействуют через Самосовершенствующийся Цикл Рассуждений, где инструментальная верификация и обучение с подкреплением совместно выравнивают распределения рассуждений и оценок для стабильного самоулучшения. Благодаря этой эволюции без внешнего вознаграждения Agent0-VL выравнивает свои рассуждения и проверочное поведение без какой-либо человеческой разметки или внешних моделей вознаграждения, достигая непрерывного самосовершенствования. Эксперименты на задачах геометрического решения проблем и визуального научного анализа показывают, что Agent0-VL достигает улучшения на 12,5% по сравнению с базовой моделью. Наш код доступен по адресу https://github.com/aiming-lab/Agent0/Agent0-VL{эта ссылка https URL}.
English
Vision-language agents have achieved remarkable progress in a variety of multimodal reasoning tasks; however, their learning remains constrained by the limitations of human-annotated supervision. Recent self-rewarding approaches attempt to overcome this constraint by allowing models to act as their own critics or reward providers. Yet, purely text-based self-evaluation struggles to verify complex visual reasoning steps and often suffers from evaluation hallucinations. To address these challenges, inspired by recent advances in tool-integrated reasoning, we propose Agent0-VL, a self-evolving vision-language agent that achieves continual improvement with tool-integrated reasoning. Agent0-VL incorporates tool usage not only into reasoning but also into self-evaluation and self-repair, enabling the model to introspect, verify, and refine its reasoning through evidence-grounded analysis. It unifies two synergistic roles within a single LVLM: a Solver that performs multi-turn tool-integrated reasoning, and a Verifier that generates structured feedback and fine-grained self-rewards through tool-grounded critique. These roles interact through a Self-Evolving Reasoning Cycle, where tool-based verification and reinforcement learning jointly align the reasoning and evaluation distributions for stable self-improvement. Through this zero-external-reward evolution, Agent0-VL aligns its reasoning and verification behaviors without any human annotation or external reward models, achieving continual self-improvement. Experiments on geometric problem solving and visual scientific analysis show that Agent0-VL achieves an 12.5% improvement over the base model. Our code is available at https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.
PDF462December 1, 2025