ChatPaper.aiChatPaper

Agent0-VL: Esplorazione di Agenti Auto-Evolutivi per il Ragionamento Visione-Linguaggio Integrato con Strumenti

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

November 25, 2025
Autori: Jiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao
cs.AI

Abstract

Gli agenti visione-linguaggio hanno compiuto progressi notevoli in varie attività di ragionamento multimodale; tuttavia, il loro apprendimento rimane vincolato dai limiti della supervisione annotata umana. Recenti approcci di auto-ricompensa tentano di superare questo vincolo consentendo ai modelli di fungere da critici o fornitori di ricompensa autonomi. Tuttavia, la valutazione autonoma puramente testuale fatica a verificare passaggi complessi di ragionamento visivo e spesso soffre di allucinazioni valutative. Per affrontare queste sfide, ispirati dai recenti progressi nel ragionamento con strumenti, proponiamo Agent0-VL, un agente visione-linguaggio auto-evolvente che raggiunge un miglioramento continuo attraverso il ragionamento con strumenti integrati. Agent0-VL incorpora l'uso di strumenti non solo nel ragionamento ma anche nell'auto-valutazione e auto-riparazione, consentendo al modello di introspezione, verifica e affinamento del proprio ragionamento attraverso analisi basate su evidenze. Unifica due ruoli sinergici all'interno di un singolo LVLM: un Risolutore che esegue ragionamenti multi-turno con strumenti integrati, e un Verificatore che genera feedback strutturato e auto-ricompense granulari attraverso critiche basate su strumenti. Questi ruoli interagiscono attraverso un Ciclo di Ragionamento Auto-Evolvente, dove la verifica basata su strumenti e l'apprendimento per rinforzo allineano congiuntamente le distribuzioni di ragionamento e valutazione per un auto-miglioramento stabile. Attraverso questa evoluzione a ricompensa esterna zero, Agent0-VL allinea i propri comportamenti di ragionamento e verifica senza alcuna annotazione umana o modelli di ricompensa esterni, raggiungendo un continuo auto-miglioramento. Esperimenti sulla risoluzione di problemi geometrici e analisi scientifiche visive mostrano che Agent0-VL raggiunge un miglioramento del 12,5% rispetto al modello base. Il nostro codice è disponibile all'indirizzo https://github.com/aiming-lab/Agent0/Agent0-VL{questo indirizzo HTTPS}.
English
Vision-language agents have achieved remarkable progress in a variety of multimodal reasoning tasks; however, their learning remains constrained by the limitations of human-annotated supervision. Recent self-rewarding approaches attempt to overcome this constraint by allowing models to act as their own critics or reward providers. Yet, purely text-based self-evaluation struggles to verify complex visual reasoning steps and often suffers from evaluation hallucinations. To address these challenges, inspired by recent advances in tool-integrated reasoning, we propose Agent0-VL, a self-evolving vision-language agent that achieves continual improvement with tool-integrated reasoning. Agent0-VL incorporates tool usage not only into reasoning but also into self-evaluation and self-repair, enabling the model to introspect, verify, and refine its reasoning through evidence-grounded analysis. It unifies two synergistic roles within a single LVLM: a Solver that performs multi-turn tool-integrated reasoning, and a Verifier that generates structured feedback and fine-grained self-rewards through tool-grounded critique. These roles interact through a Self-Evolving Reasoning Cycle, where tool-based verification and reinforcement learning jointly align the reasoning and evaluation distributions for stable self-improvement. Through this zero-external-reward evolution, Agent0-VL aligns its reasoning and verification behaviors without any human annotation or external reward models, achieving continual self-improvement. Experiments on geometric problem solving and visual scientific analysis show that Agent0-VL achieves an 12.5% improvement over the base model. Our code is available at https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.
PDF462December 1, 2025