Sherlock: Zelfcorrigerend redeneren in visueel-taalkundige modellen

Samenvatting

Redenerende Vision-Language Models (VLMs) hebben veelbelovende prestaties getoond bij complexe multimodale taken. Ze staan echter nog steeds voor aanzienlijke uitdagingen: ze zijn zeer gevoelig voor redeneerfouten, vereisen grote hoeveelheden geannoteerde data of nauwkeurige verificatoren, en hebben moeite om zich buiten specifieke domeinen te generaliseren. Om deze beperkingen aan te pakken, onderzoeken we zelfcorrectie als strategie om redenerende VLMs te verbeteren. We voeren eerst een diepgaande analyse uit van de zelfcorrectiecapaciteiten van redenerende VLMs en identificeren belangrijke hiaten. Op basis van onze bevindingen introduceren we Sherlock, een trainingsframework voor zelfcorrectie en zelfverbetering. Sherlock introduceert een trajectniveau zelfcorrectiedoel, een methode voor het construeren van voorkeursdata op basis van visuele perturbatie, en een dynamische beta voor voorkeursafstemming. Zodra het model zelfcorrectiecapaciteiten heeft verworven met slechts 20k willekeurig bemonsterde geannoteerde data, blijft het zichzelf verbeteren zonder externe supervisie. Gebouwd op het Llama3.2-Vision-11B-model, behaalt Sherlock opmerkelijke resultaten op acht benchmarks, met een gemiddelde nauwkeurigheid van 64.1 bij directe generatie en 65.4 na zelfcorrectie. Het presteert beter dan LLaVA-CoT (63.2), Mulberry (63.9) en LlamaV-o1 (63.4) terwijl het minder dan 20% van de geannoteerde data gebruikt.

English

Reasoning Vision-Language Models (VLMs) have shown promising performance on complex multimodal tasks. However, they still face significant challenges: they are highly sensitive to reasoning errors, require large volumes of annotated data or accurate verifiers, and struggle to generalize beyond specific domains. To address these limitations, we explore self-correction as a strategy to enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning VLMs' self-correction abilities and identify key gaps. Based on our findings, we introduce Sherlock, a self-correction and self-improvement training framework. Sherlock introduces a trajectory-level self-correction objective, a preference data construction method based on visual perturbation, and a dynamic beta for preference tuning. Once the model acquires self-correction capabilities using only 20k randomly sampled annotated data, it continues to self-improve without external supervision. Built on the Llama3.2-Vision-11B model, Sherlock achieves remarkable results across eight benchmarks, reaching an average accuracy of 64.1 with direct generation and 65.4 after self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and LlamaV-o1 (63.4) while using less than 20% of the annotated data.

Sherlock: Zelfcorrigerend redeneren in visueel-taalkundige modellen

Sherlock: Self-Correcting Reasoning in Vision-Language Models

Samenvatting

Support