Agent0-VL: Onderzoek naar een zelf-evoluerende agent voor gereedschapsgeïntegreerd visueel-taalkundig redeneren
Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
November 25, 2025
Auteurs: Jiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao
cs.AI
Samenvatting
Vision-language agents hebben opmerkelijke vooruitgang geboekt in diverse multimodale redeneertaken; hun leerproces blijft echter beperkt door de restricties van menselijk geannoteerd toezicht. Recente zelfbelonende benaderingen proberen deze beperking te overwinnen door modellen toe te staan als hun eigen criticus of beloningsverlener op te treden. Toch worstelt puur op tekst gebaseerde zelfevaluatie met het verifiëren van complexe visuele redeneerstappen en lijdt het vaak aan evaluatiehallucinaties. Om deze uitdagingen aan te pakken, geïnspireerd door recente vooruitgang in tool-geïntegreerd redeneren, stellen wij Agent0-VL voor, een zelf-evoluerende vision-language agent die continue verbetering bereikt met tool-geïntegreerd redeneren. Agent0-VL integreert toolgebruik niet alleen in het redeneren, maar ook in zelfevaluatie en zelfreparatie, waardoor het model in staat wordt gesteld zijn redenering te introspeceren, verifiëren en verfijnen via op bewijzen gebaseerde analyse. Het verenigt twee synergetische rollen binnen een enkel LVLM: een Oplosser die multi-turn tool-geïntegreerd redeneren uitvoert, en een Verificateur die gestructureerde feedback en fijnmazige zelfbeloningen genereert via tool-onderbouwde kritiek. Deze rollen interageren via een Zelf-Evoluerende Redeneercyclus, waarbij tool-gebaseerde verificatie en reinforcement learning gezamenlijk de redeneer- en evaluatiedistributies uitlijnen voor stabiele zelfverbetering. Door deze nul-externe-beloning evolutie aligneert Agent0-VL zijn redeneer- en verificatiegedrag zonder enige menselijke annotatie of externe beloningsmodellen, en bereikt het continue zelfverbetering. Experimenten met geometrisch probleemoplossen en visuele wetenschappelijke analyse tonen aan dat Agent0-VL een verbetering van 12,5% behaalt ten opzichte van het basismodel. Onze code is beschikbaar op https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.
English
Vision-language agents have achieved remarkable progress in a variety of multimodal reasoning tasks; however, their learning remains constrained by the limitations of human-annotated supervision. Recent self-rewarding approaches attempt to overcome this constraint by allowing models to act as their own critics or reward providers. Yet, purely text-based self-evaluation struggles to verify complex visual reasoning steps and often suffers from evaluation hallucinations. To address these challenges, inspired by recent advances in tool-integrated reasoning, we propose Agent0-VL, a self-evolving vision-language agent that achieves continual improvement with tool-integrated reasoning. Agent0-VL incorporates tool usage not only into reasoning but also into self-evaluation and self-repair, enabling the model to introspect, verify, and refine its reasoning through evidence-grounded analysis. It unifies two synergistic roles within a single LVLM: a Solver that performs multi-turn tool-integrated reasoning, and a Verifier that generates structured feedback and fine-grained self-rewards through tool-grounded critique. These roles interact through a Self-Evolving Reasoning Cycle, where tool-based verification and reinforcement learning jointly align the reasoning and evaluation distributions for stable self-improvement. Through this zero-external-reward evolution, Agent0-VL aligns its reasoning and verification behaviors without any human annotation or external reward models, achieving continual self-improvement. Experiments on geometric problem solving and visual scientific analysis show that Agent0-VL achieves an 12.5% improvement over the base model. Our code is available at https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.