Sherlock: Zelfcorrigerend redeneren in visueel-taalkundige modellen
Sherlock: Self-Correcting Reasoning in Vision-Language Models
May 28, 2025
Auteurs: Yi Ding, Ruqi Zhang
cs.AI
Samenvatting
Redenerende Vision-Language Models (VLMs) hebben veelbelovende prestaties getoond bij complexe multimodale taken. Ze staan echter nog steeds voor aanzienlijke uitdagingen: ze zijn zeer gevoelig voor redeneerfouten, vereisen grote hoeveelheden geannoteerde data of nauwkeurige verificatoren, en hebben moeite om zich buiten specifieke domeinen te generaliseren. Om deze beperkingen aan te pakken, onderzoeken we zelfcorrectie als strategie om redenerende VLMs te verbeteren. We voeren eerst een diepgaande analyse uit van de zelfcorrectiecapaciteiten van redenerende VLMs en identificeren belangrijke hiaten. Op basis van onze bevindingen introduceren we Sherlock, een trainingsframework voor zelfcorrectie en zelfverbetering. Sherlock introduceert een trajectniveau zelfcorrectiedoel, een methode voor het construeren van voorkeursdata op basis van visuele perturbatie, en een dynamische beta voor voorkeursafstemming. Zodra het model zelfcorrectiecapaciteiten heeft verworven met slechts 20k willekeurig bemonsterde geannoteerde data, blijft het zichzelf verbeteren zonder externe supervisie. Gebouwd op het Llama3.2-Vision-11B-model, behaalt Sherlock opmerkelijke resultaten op acht benchmarks, met een gemiddelde nauwkeurigheid van 64.1 bij directe generatie en 65.4 na zelfcorrectie. Het presteert beter dan LLaVA-CoT (63.2), Mulberry (63.9) en LlamaV-o1 (63.4) terwijl het minder dan 20% van de geannoteerde data gebruikt.
English
Reasoning Vision-Language Models (VLMs) have shown promising performance on
complex multimodal tasks. However, they still face significant challenges: they
are highly sensitive to reasoning errors, require large volumes of annotated
data or accurate verifiers, and struggle to generalize beyond specific domains.
To address these limitations, we explore self-correction as a strategy to
enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning
VLMs' self-correction abilities and identify key gaps. Based on our findings,
we introduce Sherlock, a self-correction and self-improvement training
framework. Sherlock introduces a trajectory-level self-correction objective, a
preference data construction method based on visual perturbation, and a dynamic
beta for preference tuning. Once the model acquires self-correction
capabilities using only 20k randomly sampled annotated data, it continues to
self-improve without external supervision. Built on the Llama3.2-Vision-11B
model, Sherlock achieves remarkable results across eight benchmarks, reaching
an average accuracy of 64.1 with direct generation and 65.4 after
self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and
LlamaV-o1 (63.4) while using less than 20% of the annotated data.