ChatPaper.aiChatPaper

Agent0-VL: 도구 통합 시각-언어 추론을 위한 자기 진화 에이전트 탐구

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

November 25, 2025
저자: Jiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao
cs.AI

초록

비전-언어 에이전트는 다양한 다중모달 추론 과제에서 눈에 띄는 진전을 이루었지만, 학습은 여전히 인간 주석 감독의 한계에 제약을 받고 있습니다. 최근의 자기 보상 접근법은 모델이 스스로 비평가나 보상 제공자의 역할을 하도록 함으로써 이러한 제약을 극복하려 시도합니다. 그러나 순수하게 텍스트 기반의 자기 평가는 복잡한 시각 추론 단계를 검증하는 데 어려움을 겪으며 평가 환각 문제가 자주 발생합니다. 이러한 과제를 해결하기 위해 최근 도구 통합 추론 분야의 발전에 영감을 받아, 우리는 도구 통합 추론을 통해 지속적 개선을 이루는 자기 진화형 비전-언어 에이전트인 Agent0-VL을 제안합니다. Agent0-VL은 도구 사용을 추론뿐만 아니라 자기 평가와 자기 수정에도 통합하여, 모델이 증거 기반 분석을 통해 자신의 추론을 성찰하고 검증하며 개선할 수 있도록 합니다. 이는 단일 LVLM 내에서 두 가지 상호 시너지적인 역할을 통합합니다: 다중 턴 도구 통합 추론을 수행하는 Solver와, 도구 기반 비평을 통해 구조화된 피드백과 세분화된 자기 보상을 생성하는 Verifier입니다. 이러한 역할들은 자기 진화 추론 사이클을 통해 상호작용하며, 도구 기반 검증과 강화 학습이 함께 추론 및 평가 분포를 정렬하여 안정적인 자기 개선을 가능하게 합니다. 이러한 외부 보상 제로 진화를 통해 Agent0-VL은 인간 주석이나 외부 보상 모델 없이도 추론 및 검증 행동을 정렬하며 지속적인 자기 개선을 달성합니다. 기하학적 문제 해결 및 시각적 과학 분석에 대한 실험에서 Agent0-VL은 기본 모델 대비 12.5%의 성능 향상을 보였습니다. 우리의 코드는 https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}에서 확인할 수 있습니다.
English
Vision-language agents have achieved remarkable progress in a variety of multimodal reasoning tasks; however, their learning remains constrained by the limitations of human-annotated supervision. Recent self-rewarding approaches attempt to overcome this constraint by allowing models to act as their own critics or reward providers. Yet, purely text-based self-evaluation struggles to verify complex visual reasoning steps and often suffers from evaluation hallucinations. To address these challenges, inspired by recent advances in tool-integrated reasoning, we propose Agent0-VL, a self-evolving vision-language agent that achieves continual improvement with tool-integrated reasoning. Agent0-VL incorporates tool usage not only into reasoning but also into self-evaluation and self-repair, enabling the model to introspect, verify, and refine its reasoning through evidence-grounded analysis. It unifies two synergistic roles within a single LVLM: a Solver that performs multi-turn tool-integrated reasoning, and a Verifier that generates structured feedback and fine-grained self-rewards through tool-grounded critique. These roles interact through a Self-Evolving Reasoning Cycle, where tool-based verification and reinforcement learning jointly align the reasoning and evaluation distributions for stable self-improvement. Through this zero-external-reward evolution, Agent0-VL aligns its reasoning and verification behaviors without any human annotation or external reward models, achieving continual self-improvement. Experiments on geometric problem solving and visual scientific analysis show that Agent0-VL achieves an 12.5% improvement over the base model. Our code is available at https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.
PDF462December 1, 2025