ChatPaper.aiChatPaper

Sherlock: 시각-언어 모델에서의 자가 수정 추론

Sherlock: Self-Correcting Reasoning in Vision-Language Models

May 28, 2025
저자: Yi Ding, Ruqi Zhang
cs.AI

초록

추론 시각-언어 모델(VLMs)은 복잡한 다중모달 작업에서 유망한 성능을 보여주고 있습니다. 그러나 이러한 모델들은 여전히 상당한 과제에 직면해 있습니다: 추론 오류에 매우 민감하며, 대량의 주석 데이터나 정확한 검증기가 필요하고, 특정 도메인을 벗어나 일반화하는 데 어려움을 겪습니다. 이러한 한계를 해결하기 위해, 우리는 추론 VLMs의 성능을 향상시키기 위한 전략으로 자기 수정(self-correction)을 탐구합니다. 먼저, 추론 VLMs의 자기 수정 능력을 심층적으로 분석하고 주요 격차를 식별합니다. 이러한 발견을 바탕으로, 우리는 Sherlock이라는 자기 수정 및 자기 개선 훈련 프레임워크를 소개합니다. Sherlock은 궤적 수준의 자기 수정 목표, 시각적 섭동(perturbation)을 기반으로 한 선호 데이터 구성 방법, 그리고 선호 튜닝을 위한 동적 베타(dynamic beta)를 도입합니다. 모델이 단 20k개의 무작위 샘플링된 주석 데이터만을 사용하여 자기 수정 능력을 획득한 후, 외부 감독 없이 계속해서 자기 개선을 진행합니다. Llama3.2-Vision-11B 모델을 기반으로 구축된 Sherlock은 8개의 벤치마크에서 뛰어난 결과를 달성하며, 직접 생성 시 64.1의 평균 정확도를, 자기 수정 후에는 65.4의 정확도를 기록합니다. 이는 LLaVA-CoT(63.2), Mulberry(63.9), LlamaV-o1(63.4)을 능가하는 성과를 보이면서도 주석 데이터의 20% 미만을 사용합니다.
English
Reasoning Vision-Language Models (VLMs) have shown promising performance on complex multimodal tasks. However, they still face significant challenges: they are highly sensitive to reasoning errors, require large volumes of annotated data or accurate verifiers, and struggle to generalize beyond specific domains. To address these limitations, we explore self-correction as a strategy to enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning VLMs' self-correction abilities and identify key gaps. Based on our findings, we introduce Sherlock, a self-correction and self-improvement training framework. Sherlock introduces a trajectory-level self-correction objective, a preference data construction method based on visual perturbation, and a dynamic beta for preference tuning. Once the model acquires self-correction capabilities using only 20k randomly sampled annotated data, it continues to self-improve without external supervision. Built on the Llama3.2-Vision-11B model, Sherlock achieves remarkable results across eight benchmarks, reaching an average accuracy of 64.1 with direct generation and 65.4 after self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and LlamaV-o1 (63.4) while using less than 20% of the annotated data.

Summary

AI-Generated Summary

PDF502May 29, 2025