Agent0-VL: Exploración de un Agente de Auto-evolución para el Razonamiento Visión-Lenguaje Integrado con Herramientas
Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
November 25, 2025
Autores: Jiaqi Liu, Kaiwen Xiong, Peng Xia, Yiyang Zhou, Haonian Ji, Lu Feng, Siwei Han, Mingyu Ding, Huaxiu Yao
cs.AI
Resumen
Los agentes de visión y lenguaje han logrado avances notables en diversas tareas de razonamiento multimodal; sin embargo, su aprendizaje sigue limitado por las restricciones de la supervisión anotada por humanos. Los enfoques recientes de autorrecompensa intentan superar esta limitación permitiendo que los modelos actúen como sus propios críticos o proveedores de recompensas. No obstante, la autoevaluación puramente basada en texto lucha por verificar pasos de razonamiento visual complejos y sufre a menudo de alucinaciones evaluativas. Para abordar estos desafíos, inspirados por los avances recientes en el razonamiento con herramientas integradas, proponemos Agent0-VL, un agente de visión y lenguaje que se auto-evoluciona y logra una mejora continua mediante el razonamiento con herramientas integradas. Agent0-VL incorpora el uso de herramientas no solo en el razonamiento, sino también en la autoevaluación y la autorreparación, permitiendo que el modelo introspeccione, verifique y refine su razonamiento mediante un análisis basado en evidencias. Unifica dos roles sinérgicos dentro de un único LVLM: un Solucionador que realiza un razonamiento multi-turno con herramientas integradas, y un Verificador que genera retroalimentación estructurada y autorrecompensas granulares mediante una crítica fundamentada en herramientas. Estos roles interactúan a través de un Ciclo de Razonamiento Auto-Evolutivo, donde la verificación basada en herramientas y el aprendizaje por refuerzo alinean conjuntamente las distribuciones de razonamiento y evaluación para una auto-mejora estable. A través de esta evolución de cero recompensas externas, Agent0-VL alinea sus comportamientos de razonamiento y verificación sin ninguna anotación humana o modelos externos de recompensa, logrando una auto-mejora continua. Los experimentos en resolución de problemas geométricos y análisis científicos visuales muestran que Agent0-VL logra una mejora del 12.5% sobre el modelo base. Nuestro código está disponible en https://github.com/aiming-lab/Agent0/Agent0-VL{este enlace https}.
English
Vision-language agents have achieved remarkable progress in a variety of multimodal reasoning tasks; however, their learning remains constrained by the limitations of human-annotated supervision. Recent self-rewarding approaches attempt to overcome this constraint by allowing models to act as their own critics or reward providers. Yet, purely text-based self-evaluation struggles to verify complex visual reasoning steps and often suffers from evaluation hallucinations. To address these challenges, inspired by recent advances in tool-integrated reasoning, we propose Agent0-VL, a self-evolving vision-language agent that achieves continual improvement with tool-integrated reasoning. Agent0-VL incorporates tool usage not only into reasoning but also into self-evaluation and self-repair, enabling the model to introspect, verify, and refine its reasoning through evidence-grounded analysis. It unifies two synergistic roles within a single LVLM: a Solver that performs multi-turn tool-integrated reasoning, and a Verifier that generates structured feedback and fine-grained self-rewards through tool-grounded critique. These roles interact through a Self-Evolving Reasoning Cycle, where tool-based verification and reinforcement learning jointly align the reasoning and evaluation distributions for stable self-improvement. Through this zero-external-reward evolution, Agent0-VL aligns its reasoning and verification behaviors without any human annotation or external reward models, achieving continual self-improvement. Experiments on geometric problem solving and visual scientific analysis show that Agent0-VL achieves an 12.5% improvement over the base model. Our code is available at https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.