Agent0-VL: Explorando Agentes de Auto-Evolução para Raciocínio Visiolinguístico Integrado a Ferramentas

Resumo

Os agentes visão-linguagem têm alcançado progressos notáveis em uma variedade de tarefas de raciocínio multimodal; no entanto, sua aprendizagem permanece limitada pelas restrições da supervisão anotada por humanos. Abordagens recentes de autorrecompensa tentam superar essa limitação permitindo que os modelos atuem como seus próprios críticos ou provedores de recompensa. No entanto, a autoavaliação puramente baseada em texto luta para verificar etapas complexas de raciocínio visual e frequentemente sofre de alucinações de avaliação. Para enfrentar esses desafios, inspirados pelos avanços recentes em raciocínio com integração de ferramentas, propomos o Agent0-VL, um agente visão-linguagem de autoevolução que alcança melhoria contínua por meio do raciocínio com integração de ferramentas. O Agent0-VL incorpora o uso de ferramentas não apenas no raciocínio, mas também na autoavaliação e autorreparo, permitindo que o modelo introspecte, verifique e refine seu raciocínio por meio de uma análise fundamentada em evidências. Ele unifica dois papéis sinérgicos em um único LVLM: um Solucionador que executa raciocínio com ferramentas em múltiplas etapas, e um Verificador que gera feedback estruturado e autorrecompensas refinadas por meio de crítica fundamentada em ferramentas. Esses papéis interagem por meio de um Ciclo de Raciocínio de Autoevolução, onde a verificação baseada em ferramentas e o aprendizado por reforço alinham conjuntamente as distribuições de raciocínio e avaliação para uma autorreforça estável. Por meio desta evolução sem recompensa externa, o Agent0-VL alinha seus comportamentos de raciocínio e verificação sem qualquer anotação humana ou modelos externos de recompensa, alcançando uma melhoria contínua. Experimentos em resolução de problemas geométricos e análise científica visual mostram que o Agent0-VL alcança uma melhoria de 12,5% em relação ao modelo base. Nosso código está disponível em https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.

English

Vision-language agents have achieved remarkable progress in a variety of multimodal reasoning tasks; however, their learning remains constrained by the limitations of human-annotated supervision. Recent self-rewarding approaches attempt to overcome this constraint by allowing models to act as their own critics or reward providers. Yet, purely text-based self-evaluation struggles to verify complex visual reasoning steps and often suffers from evaluation hallucinations. To address these challenges, inspired by recent advances in tool-integrated reasoning, we propose Agent0-VL, a self-evolving vision-language agent that achieves continual improvement with tool-integrated reasoning. Agent0-VL incorporates tool usage not only into reasoning but also into self-evaluation and self-repair, enabling the model to introspect, verify, and refine its reasoning through evidence-grounded analysis. It unifies two synergistic roles within a single LVLM: a Solver that performs multi-turn tool-integrated reasoning, and a Verifier that generates structured feedback and fine-grained self-rewards through tool-grounded critique. These roles interact through a Self-Evolving Reasoning Cycle, where tool-based verification and reinforcement learning jointly align the reasoning and evaluation distributions for stable self-improvement. Through this zero-external-reward evolution, Agent0-VL aligns its reasoning and verification behaviors without any human annotation or external reward models, achieving continual self-improvement. Experiments on geometric problem solving and visual scientific analysis show that Agent0-VL achieves an 12.5% improvement over the base model. Our code is available at https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.

Agent0-VL: Explorando Agentes de Auto-Evolução para Raciocínio Visiolinguístico Integrado a Ferramentas

Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

Resumo

Support