Sherlock: Самокорректирующееся рассуждение в моделях обработки зрения и языка
Sherlock: Self-Correcting Reasoning in Vision-Language Models
May 28, 2025
Авторы: Yi Ding, Ruqi Zhang
cs.AI
Аннотация
Модели рассуждений, работающие с визуальными и языковыми данными (VLMs), демонстрируют впечатляющие результаты в решении сложных мультимодальных задач. Однако они по-прежнему сталкиваются с серьёзными проблемами: они крайне чувствительны к ошибкам в рассуждениях, требуют больших объёмов размеченных данных или точных верификаторов и с трудом обобщают знания за пределами конкретных областей. Чтобы устранить эти ограничения, мы исследуем стратегию самокоррекции для улучшения VLMs. Сначала мы проводим глубокий анализ способностей VLMs к самокоррекции и выявляем ключевые пробелы. На основе полученных данных мы представляем Sherlock — фреймворк для обучения самокоррекции и самосовершенствования. Sherlock включает в себя цель самокоррекции на уровне траекторий, метод построения данных предпочтений на основе визуальных возмущений и динамический параметр beta для настройки предпочтений. После того как модель приобретает способность к самокоррекции, используя всего 20 тыс. случайно выбранных размеченных данных, она продолжает самосовершенствоваться без внешнего контроля. Построенная на основе модели Llama3.2-Vision-11B, Sherlock демонстрирует выдающиеся результаты на восьми бенчмарках, достигая средней точности 64,1 при прямом генерировании и 65,4 после самокоррекции. Она превосходит LLaVA-CoT (63,2), Mulberry (63,9) и LlamaV-o1 (63,4), используя менее 20% размеченных данных.
English
Reasoning Vision-Language Models (VLMs) have shown promising performance on
complex multimodal tasks. However, they still face significant challenges: they
are highly sensitive to reasoning errors, require large volumes of annotated
data or accurate verifiers, and struggle to generalize beyond specific domains.
To address these limitations, we explore self-correction as a strategy to
enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning
VLMs' self-correction abilities and identify key gaps. Based on our findings,
we introduce Sherlock, a self-correction and self-improvement training
framework. Sherlock introduces a trajectory-level self-correction objective, a
preference data construction method based on visual perturbation, and a dynamic
beta for preference tuning. Once the model acquires self-correction
capabilities using only 20k randomly sampled annotated data, it continues to
self-improve without external supervision. Built on the Llama3.2-Vision-11B
model, Sherlock achieves remarkable results across eight benchmarks, reaching
an average accuracy of 64.1 with direct generation and 65.4 after
self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and
LlamaV-o1 (63.4) while using less than 20% of the annotated data.Summary
AI-Generated Summary