CodeV: Programación con Imágenes para un Razonamiento Visual Fiable mediante Optimización de Políticas Consciente de Herramientas

Resumen

Los modelos de agentes visual-lingüísticos se entrenan cada vez más para "pensar con imágenes" mediante la invocación de operaciones visuales. Sin embargo, demostramos que una alta precisión en la respuesta final a menudo oculta un razonamiento visual poco fiel: los modelos pueden invocar herramientas en regiones irrelevantes o ignorar por completo sus salidas, y aun así adivinar la respuesta correcta. En este trabajo, primero proponemos un protocolo de evaluación de fidelidad que mide si las salidas intermedias de las herramientas visuales (por ejemplo, recortes) contienen realmente la evidencia solicitada. Esto revela que los agentes visuales recientes logran una alta precisión en la respuesta final, pero exhiben bajas tasas de uso fiel de herramientas en benchmarks de búsqueda visual. Luego presentamos CodeV, un agente visual basado en código entrenado con Optimización de Políticas Consciente de Herramientas (TAPO). TAPO es un marco de aprendizaje por refuerzo a nivel de proceso que aumenta GRPO con recompensas densas definidas directamente sobre las entradas y salidas de las herramientas visuales, en lugar de en tokens de cadena de pensamiento, lo que hace que la supervisión sea más fácil de verificar y menos susceptible a la manipulación de recompensas. CodeV representa las herramientas visuales como código Python ejecutable, y TAPO asigna recompensas paso a paso basadas únicamente en la pregunta y la salida de la herramienta, fomentando un uso de herramientas tanto necesario como consistente con la evidencia. En un pipeline de dos etapas SFT+RL, CodeV logra una precisión competitiva o superior mientras aumenta sustancialmente las tasas de uso fiel de herramientas en benchmarks de búsqueda visual relacionados. Más allá de la búsqueda visual, CodeV alcanza un rendimiento sólido en una variedad de benchmarks de razonamiento multimodal y matemático, lo que sugiere que supervisar explícitamente el comportamiento intermedio de las herramientas es crucial para construir sistemas de razonamiento visual agenticos y confiables.

English

Agentic vision-language models are increasingly trained to "think with images" by calling image operations. However, we show that high final-answer accuracy often hides unfaithful visual reasoning: models may invoke tools on irrelevant regions or ignore tool outputs entirely, yet still guess the correct answer. In this work, we first propose a faithfulness evaluation protocol that measures whether intermediate visual tool outputs (e.g., crops) actually contain the queried evidence. This reveals that recent visual agents achieve high final-answer accuracy but exhibit low rates of faithful tool-use on visual search benchmarks. We then introduce CodeV, a code-based visual agent trained with Tool-Aware Policy Optimization (TAPO). TAPO is a process-level RL framework that augments GRPO with dense rewards defined directly on visual tool inputs and outputs, rather than on chain-of-thought tokens, making supervision easier to verify and less susceptible to reward hacking. CodeV represents visual tools as executable Python code, and TAPO assigns step-wise rewards based solely on the question and tool output, encouraging both necessary and evidence-consistent tool use. In a two-stage SFT+RL pipeline, CodeV achieves competitive or superior accuracy while substantially increasing faithful tool-use rates on related visual search benchmarks. Beyond visual search, CodeV attains strong performance on a range of multimodal reasoning and math benchmarks, suggesting that explicitly supervising intermediate tool behavior is crucial for building trustworthy, agentic visual reasoning systems.

CodeV: Programación con Imágenes para un Razonamiento Visual Fiable mediante Optimización de Políticas Consciente de Herramientas

CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

Resumen

Support