Sherlock: 視覚言語モデルにおける自己修正推論
Sherlock: Self-Correcting Reasoning in Vision-Language Models
May 28, 2025
著者: Yi Ding, Ruqi Zhang
cs.AI
要旨
推論型視覚言語モデル(VLMs)は、複雑なマルチモーダルタスクにおいて有望な性能を示しています。しかし、依然として重大な課題に直面しています。これらのモデルは推論エラーに対して非常に敏感であり、大量の注釈付きデータや正確な検証器を必要とし、特定のドメインを超えた汎化に苦労します。これらの制限に対処するため、私たちは推論型VLMsを強化するための戦略として自己修正を探求します。まず、推論型VLMsの自己修正能力を詳細に分析し、主要なギャップを特定します。この分析に基づいて、自己修正および自己改善のトレーニングフレームワークであるSherlockを導入します。Sherlockは、軌跡レベルの自己修正目的関数、視覚的摂動に基づく選好データ構築方法、および選好チューニングのための動的ベータを導入します。モデルがわずか20kのランダムサンプリングされた注釈付きデータを使用して自己修正能力を獲得すると、外部の監督なしで自己改善を続けます。Llama3.2-Vision-11Bモデルを基に構築されたSherlockは、8つのベンチマークで顕著な結果を達成し、直接生成では平均精度64.1、自己修正後では65.4を達成しました。これは、LLaVA-CoT(63.2)、Mulberry(63.9)、およびLlamaV-o1(63.4)を上回り、注釈付きデータの20%未満を使用しています。
English
Reasoning Vision-Language Models (VLMs) have shown promising performance on
complex multimodal tasks. However, they still face significant challenges: they
are highly sensitive to reasoning errors, require large volumes of annotated
data or accurate verifiers, and struggle to generalize beyond specific domains.
To address these limitations, we explore self-correction as a strategy to
enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning
VLMs' self-correction abilities and identify key gaps. Based on our findings,
we introduce Sherlock, a self-correction and self-improvement training
framework. Sherlock introduces a trajectory-level self-correction objective, a
preference data construction method based on visual perturbation, and a dynamic
beta for preference tuning. Once the model acquires self-correction
capabilities using only 20k randomly sampled annotated data, it continues to
self-improve without external supervision. Built on the Llama3.2-Vision-11B
model, Sherlock achieves remarkable results across eight benchmarks, reaching
an average accuracy of 64.1 with direct generation and 65.4 after
self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and
LlamaV-o1 (63.4) while using less than 20% of the annotated data.Summary
AI-Generated Summary