ChatPaper.aiChatPaper

Sherlock: Raciocínio Autocorretivo em Modelos de Visão e Linguagem

Sherlock: Self-Correcting Reasoning in Vision-Language Models

May 28, 2025
Autores: Yi Ding, Ruqi Zhang
cs.AI

Resumo

Modelos de Raciocínio Visão-Linguagem (VLMs) têm demonstrado desempenho promissor em tarefas multimodais complexas. No entanto, eles ainda enfrentam desafios significativos: são altamente sensíveis a erros de raciocínio, exigem grandes volumes de dados anotados ou verificadores precisos, e lutam para generalizar além de domínios específicos. Para abordar essas limitações, exploramos a autocorreção como uma estratégia para aprimorar VLMs de raciocínio. Primeiro, realizamos uma análise aprofundada das habilidades de autocorreção dos VLMs de raciocínio e identificamos lacunas importantes. Com base em nossas descobertas, introduzimos Sherlock, um framework de treinamento de autocorreção e autoaperfeiçoamento. Sherlock apresenta um objetivo de autocorreção em nível de trajetória, um método de construção de dados de preferência baseado em perturbação visual e um beta dinâmico para ajuste de preferências. Uma vez que o modelo adquire capacidades de autocorreção usando apenas 20k dados anotados amostrados aleatoriamente, ele continua a se autoaperfeiçoar sem supervisão externa. Construído sobre o modelo Llama3.2-Vision-11B, Sherlock alcança resultados notáveis em oito benchmarks, atingindo uma precisão média de 64,1 com geração direta e 65,4 após autocorreção. Ele supera LLaVA-CoT (63,2), Mulberry (63,9) e LlamaV-o1 (63,4) enquanto utiliza menos de 20% dos dados anotados.
English
Reasoning Vision-Language Models (VLMs) have shown promising performance on complex multimodal tasks. However, they still face significant challenges: they are highly sensitive to reasoning errors, require large volumes of annotated data or accurate verifiers, and struggle to generalize beyond specific domains. To address these limitations, we explore self-correction as a strategy to enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning VLMs' self-correction abilities and identify key gaps. Based on our findings, we introduce Sherlock, a self-correction and self-improvement training framework. Sherlock introduces a trajectory-level self-correction objective, a preference data construction method based on visual perturbation, and a dynamic beta for preference tuning. Once the model acquires self-correction capabilities using only 20k randomly sampled annotated data, it continues to self-improve without external supervision. Built on the Llama3.2-Vision-11B model, Sherlock achieves remarkable results across eight benchmarks, reaching an average accuracy of 64.1 with direct generation and 65.4 after self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and LlamaV-o1 (63.4) while using less than 20% of the annotated data.
PDF502May 29, 2025