Sherlock: Ragionamento Autocorrettivo nei Modelli Visione-Linguaggio
Sherlock: Self-Correcting Reasoning in Vision-Language Models
May 28, 2025
Autori: Yi Ding, Ruqi Zhang
cs.AI
Abstract
I modelli di ragionamento visione-linguaggio (VLMs) hanno dimostrato prestazioni promettenti in compiti multimodali complessi. Tuttavia, affrontano ancora sfide significative: sono altamente sensibili agli errori di ragionamento, richiedono grandi volumi di dati annotati o verificatori accurati e faticano a generalizzare oltre domini specifici. Per affrontare queste limitazioni, esploriamo l'autocorrezione come strategia per migliorare i VLMs di ragionamento. Iniziamo conducendo un'analisi approfondita delle capacità di autocorrezione dei VLMs e identifichiamo le principali lacune. Sulla base delle nostre scoperte, introduciamo Sherlock, un framework di addestramento per l'autocorrezione e il miglioramento autonomo. Sherlock introduce un obiettivo di autocorrezione a livello di traiettoria, un metodo di costruzione dei dati di preferenza basato sulla perturbazione visiva e un beta dinamico per la regolazione delle preferenze. Una volta che il modello acquisisce capacità di autocorrezione utilizzando solo 20k dati annotati campionati casualmente, continua a migliorarsi autonomamente senza supervisione esterna. Basato sul modello Llama3.2-Vision-11B, Sherlock ottiene risultati notevoli su otto benchmark, raggiungendo un'accuratezza media di 64.1 con la generazione diretta e 65.4 dopo l'autocorrezione. Supera LLaVA-CoT (63.2), Mulberry (63.9) e LlamaV-o1 (63.4) utilizzando meno del 20% dei dati annotati.
English
Reasoning Vision-Language Models (VLMs) have shown promising performance on
complex multimodal tasks. However, they still face significant challenges: they
are highly sensitive to reasoning errors, require large volumes of annotated
data or accurate verifiers, and struggle to generalize beyond specific domains.
To address these limitations, we explore self-correction as a strategy to
enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning
VLMs' self-correction abilities and identify key gaps. Based on our findings,
we introduce Sherlock, a self-correction and self-improvement training
framework. Sherlock introduces a trajectory-level self-correction objective, a
preference data construction method based on visual perturbation, and a dynamic
beta for preference tuning. Once the model acquires self-correction
capabilities using only 20k randomly sampled annotated data, it continues to
self-improve without external supervision. Built on the Llama3.2-Vision-11B
model, Sherlock achieves remarkable results across eight benchmarks, reaching
an average accuracy of 64.1 with direct generation and 65.4 after
self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and
LlamaV-o1 (63.4) while using less than 20% of the annotated data.