CodeV: Coderen met Afbeeldingen voor Betrouwbare Visuele Redenering via Toolbewust Beleidsoptimalisatie

Samenvatting

Agentische vision-language-modellen worden steeds vaker getraind om te "denken met beelden" door beeldoperaties aan te roepen. Wij tonen echter aan dat een hoge nauwkeurigheid van het eindantwoord vaak onbetrouwbaar visueel redeneren verbergt: modellen kunnen tools aanroepen op irrelevante regio's of tooluitkomsten volledig negeren, en toch het juiste antwoord raden. In dit werk stellen we eerst een evaluatieprotocol voor betrouwbaarheid voor dat meet of tussenliggende visuele tooluitkomsten (bijv. uitsneden) daadwerkelijk het opgevraagde bewijs bevatten. Dit onthult dat recente visuele agents weliswaar een hoge eindantwoordnauwkeurigheid bereiken, maar lage percentages van betrouwbaar toolgebruik vertonen op benchmarks voor visueel zoeken. Vervolgens introduceren we CodeV, een code-gebaseerde visuele agent getraind met Tool-Aware Policy Optimization (TAPO). TAPO is een RL-raamwerk op procesniveau dat GRPO uitbreidt met dichte beloningen die direct zijn gedefinieerd op visuele toolinputs en -outputs, in plaats van op chain-of-thought tokens, waardoor supervisie gemakkelijker te verifiëren is en minder vatbaar voor reward hacking. CodeV representeert visuele tools als uitvoerbare Python-code, en TAPO kent stapsgewijze beloningen toe uitsluitend gebaseerd op de vraag en tooloutput, wat zowel noodzakelijk als bewijsconsistent toolgebruik aanmoedigt. In een pijplijn met twee fasen (SFT+RL) bereikt CodeV een concurrerende of superieure nauwkeurigheid, terwijl het de percentages van betrouwbaar toolgebruik aanzienlijk verhoogt op gerelateerde benchmarks voor visueel zoeken. Naast visueel zoeken behaalt CodeV sterke prestaties op een reeks multimodale redeneer- en wiskundige benchmarks, wat suggereert dat expliciete supervisie van tussenliggend toolgedrag cruciaal is voor het bouwen van betrouwbare, agentische visuele redeneersystemen.

English

Agentic vision-language models are increasingly trained to "think with images" by calling image operations. However, we show that high final-answer accuracy often hides unfaithful visual reasoning: models may invoke tools on irrelevant regions or ignore tool outputs entirely, yet still guess the correct answer. In this work, we first propose a faithfulness evaluation protocol that measures whether intermediate visual tool outputs (e.g., crops) actually contain the queried evidence. This reveals that recent visual agents achieve high final-answer accuracy but exhibit low rates of faithful tool-use on visual search benchmarks. We then introduce CodeV, a code-based visual agent trained with Tool-Aware Policy Optimization (TAPO). TAPO is a process-level RL framework that augments GRPO with dense rewards defined directly on visual tool inputs and outputs, rather than on chain-of-thought tokens, making supervision easier to verify and less susceptible to reward hacking. CodeV represents visual tools as executable Python code, and TAPO assigns step-wise rewards based solely on the question and tool output, encouraging both necessary and evidence-consistent tool use. In a two-stage SFT+RL pipeline, CodeV achieves competitive or superior accuracy while substantially increasing faithful tool-use rates on related visual search benchmarks. Beyond visual search, CodeV attains strong performance on a range of multimodal reasoning and math benchmarks, suggesting that explicitly supervising intermediate tool behavior is crucial for building trustworthy, agentic visual reasoning systems.

CodeV: Coderen met Afbeeldingen voor Betrouwbare Visuele Redenering via Toolbewust Beleidsoptimalisatie

CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

Samenvatting

Support