Agent0-VL: ツール統合型視覚言語推論のための自己進化エージェントの探求
Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
November 25, 2025
著者: Jiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao
cs.AI
要旨
視覚言語エージェントは、様々なマルチモーダル推論タスクにおいて顕著な進歩を遂げてきた。しかし、その学習は人間による注釈に基づく教師信号の限界によって制約されている。近年の自己報酬化アプローチは、モデル自身が批評家または報酬提供者として振る舞うことを可能にすることで、この制約の克服を試みている。しかし、純粋にテキストベースの自己評価は、複雑な視覚的推論ステップを検証するのが困難であり、評価における幻覚(ハルシネーション)に悩まされることが多い。これらの課題に対処するため、我々はツール統合型推論における最近の進展に着想を得て、ツール統合型推論による継続的改善を実現する自己進化型視覚言語エージェント「Agent0-VL」を提案する。Agent0-VLは、ツール利用を推論のみならず、自己評価および自己修復にも組み込むことで、モデルが証拠に基づく分析を通じて自身の推論を内省、検証、洗練することを可能にする。本手法は、単一の大規模視覚言語モデル(LVLM)内に二つの相乗的役割を統合する。すなわち、マルチターンのツール統合推論を実行する「ソルバー」と、ツールに基づく批評を通じて構造化されたフィードバックときめ細かい自己報酬を生成する「検証器」である。これらの役割は「自己進化型推論サイクル」を通じて相互作用し、ツールベースの検証と強化学習が連携して、推論分布と評価分布を整合させ、安定した自己改善を実現する。この外部報酬を一切用いない進化プロセスを通じて、Agent0-VLは、人間の注釈や外部の報酬モデルを一切必要とせずに、その推論行動と検証行動を整合させ、継続的な自己改善を達成する。幾何学問題解決と視覚的科学分析に関する実験では、Agent0-VLがベースモデルを12.5%上回る改善を達成したことを示す。コードはhttps://github.com/aiming-lab/Agent0/Agent0-VLで公開されている。
English
Vision-language agents have achieved remarkable progress in a variety of multimodal reasoning tasks; however, their learning remains constrained by the limitations of human-annotated supervision. Recent self-rewarding approaches attempt to overcome this constraint by allowing models to act as their own critics or reward providers. Yet, purely text-based self-evaluation struggles to verify complex visual reasoning steps and often suffers from evaluation hallucinations. To address these challenges, inspired by recent advances in tool-integrated reasoning, we propose Agent0-VL, a self-evolving vision-language agent that achieves continual improvement with tool-integrated reasoning. Agent0-VL incorporates tool usage not only into reasoning but also into self-evaluation and self-repair, enabling the model to introspect, verify, and refine its reasoning through evidence-grounded analysis. It unifies two synergistic roles within a single LVLM: a Solver that performs multi-turn tool-integrated reasoning, and a Verifier that generates structured feedback and fine-grained self-rewards through tool-grounded critique. These roles interact through a Self-Evolving Reasoning Cycle, where tool-based verification and reinforcement learning jointly align the reasoning and evaluation distributions for stable self-improvement. Through this zero-external-reward evolution, Agent0-VL aligns its reasoning and verification behaviors without any human annotation or external reward models, achieving continual self-improvement. Experiments on geometric problem solving and visual scientific analysis show that Agent0-VL achieves an 12.5% improvement over the base model. Our code is available at https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.