CodeV: Programação com Imagens para Raciocínio Visual Fidedigno via Otimização de Políticas Consciente de Ferramentas

Resumo

Os modelos visuais-linguísticos agentes estão cada vez mais a ser treinados para "pensar com imagens" através da invocação de operações visuais. No entanto, demonstramos que uma alta precisão na resposta final frequentemente oculta um raciocínio visual infiel: os modelos podem invocar ferramentas em regiões irrelevantes ou ignorar completamente os seus resultados, mas ainda assim adivinhar a resposta correta. Neste trabalho, propomos primeiro um protocolo de avaliação de fidelidade que mede se as saídas visuais intermédias das ferramentas (ex.: recortes) contêm efetivamente a evidência solicitada. Isto revela que os agentes visuais recentes atingem alta precisão na resposta final, mas exibem baixas taxas de uso fiel de ferramentas em benchmarks de busca visual. Introduzimos depois o CodeV, um agente visual baseado em código treinado com Otimização de Política Consciente de Ferramentas (TAPO). A TAPO é uma estrutura de RL a nível de processo que aumenta o GRPO com recompensas densas definidas diretamente nas entradas e saídas das ferramentas visuais, em vez de em tokens de cadeia de pensamento, tornando a supervisão mais fácil de verificar e menos suscetível a "hacking" de recompensas. O CodeV representa ferramentas visuais como código Python executável, e a TAPO atribui recompensas passo a passo baseadas apenas na pergunta e na saída da ferramenta, incentivando um uso de ferramentas tanto necessário como consistente com a evidência. Num pipeline de duas fases (SFT+RL), o CodeV atinge uma precisão competitiva ou superior, aumentando substancialmente as taxas de uso fiel de ferramentas em benchmarks de busca visual relacionados. Para além da busca visual, o CodeV atinge um desempenho forte numa variedade de benchmarks de raciocínio multimodal e matemático, sugerindo que supervisionar explicitamente o comportamento intermédio das ferramentas é crucial para construir sistemas de raciocínio visual agentes e confiáveis.

English

Agentic vision-language models are increasingly trained to "think with images" by calling image operations. However, we show that high final-answer accuracy often hides unfaithful visual reasoning: models may invoke tools on irrelevant regions or ignore tool outputs entirely, yet still guess the correct answer. In this work, we first propose a faithfulness evaluation protocol that measures whether intermediate visual tool outputs (e.g., crops) actually contain the queried evidence. This reveals that recent visual agents achieve high final-answer accuracy but exhibit low rates of faithful tool-use on visual search benchmarks. We then introduce CodeV, a code-based visual agent trained with Tool-Aware Policy Optimization (TAPO). TAPO is a process-level RL framework that augments GRPO with dense rewards defined directly on visual tool inputs and outputs, rather than on chain-of-thought tokens, making supervision easier to verify and less susceptible to reward hacking. CodeV represents visual tools as executable Python code, and TAPO assigns step-wise rewards based solely on the question and tool output, encouraging both necessary and evidence-consistent tool use. In a two-stage SFT+RL pipeline, CodeV achieves competitive or superior accuracy while substantially increasing faithful tool-use rates on related visual search benchmarks. Beyond visual search, CodeV attains strong performance on a range of multimodal reasoning and math benchmarks, suggesting that explicitly supervising intermediate tool behavior is crucial for building trustworthy, agentic visual reasoning systems.

CodeV: Programação com Imagens para Raciocínio Visual Fidedigno via Otimização de Políticas Consciente de Ferramentas

CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

Resumo

Support