SoTA com Menos: Seleção de Amostras Guiada por MCTS para Autoaprimoramento Eficiente em Dados no Raciocínio Visual

Resumo

Neste artigo, apresentamos um método eficaz para aprimorar o raciocínio visual com significativamente menos amostras de treinamento, dependendo exclusivamente da auto-melhoria sem distilação de conhecimento. Nossa principal percepção é que a dificuldade dos dados de treinamento durante o ajuste fino por reforço (RFT) é crucial. Amostras adequadamente desafiadoras podem impulsionar substancialmente as capacidades de raciocínio, mesmo quando o conjunto de dados é pequeno. Apesar de ser intuitivo, o principal desafio permanece em quantificar com precisão a dificuldade das amostras para permitir uma filtragem eficaz dos dados. Para isso, propomos uma nova maneira de reutilizar a Busca em Árvore de Monte Carlo (MCTS) para alcançar esse objetivo. A partir de nossas 70 mil amostras de treinamento de código aberto curadas, introduzimos um método de seleção baseado em MCTS que quantifica a dificuldade das amostras com base no número de iterações necessárias para os VLMs resolverem cada problema. Esse raciocínio explícito passo a passo no MCTS obriga o modelo a pensar por mais tempo e identifica melhor as amostras que são genuinamente desafiadoras. Filtramos e retemos 11 mil amostras para realizar o RFT no Qwen2.5-VL-7B-Instruct, resultando em nosso modelo final, ThinkLite-VL. Os resultados de avaliação em oito benchmarks mostram que o ThinkLite-VL melhora o desempenho médio do Qwen2.5-VL-7B-Instruct em 7%, utilizando apenas 11 mil amostras de treinamento sem distilação de conhecimento. Isso supera significativamente todos os VLMs de raciocínio de nível 7B existentes e nossas linhas de base bastante comparáveis que usam métodos clássicos de seleção, como filtragem baseada em precisão. Notavelmente, no MathVista, o ThinkLite-VL-7B alcança a precisão SoTA de 75,1, superando o Qwen2.5-VL-72B, GPT-4o e O1. Nosso código, dados e modelo estão disponíveis em https://github.com/si0wang/ThinkLite-VL.

English

In this paper, we present an effective method to enhance visual reasoning with significantly fewer training samples, relying purely on self-improvement with no knowledge distillation. Our key insight is that the difficulty of training data during reinforcement fine-tuning (RFT) is critical. Appropriately challenging samples can substantially boost reasoning capabilities even when the dataset is small. Despite being intuitive, the main challenge remains in accurately quantifying sample difficulty to enable effective data filtering. To this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS) to achieve that. Starting from our curated 70k open-source training samples, we introduce an MCTS-based selection method that quantifies sample difficulty based on the number of iterations required by the VLMs to solve each problem. This explicit step-by-step reasoning in MCTS enforces the model to think longer and better identifies samples that are genuinely challenging. We filter and retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our final model, ThinkLite-VL. Evaluation results on eight benchmarks show that ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%, using only 11k training samples with no knowledge distillation. This significantly outperforms all existing 7B-level reasoning VLMs, and our fairly comparable baselines that use classic selection methods such as accuracy-based filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of 75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are available at https://github.com/si0wang/ThinkLite-VL.

SoTA com Menos: Seleção de Amostras Guiada por MCTS para Autoaprimoramento Eficiente em Dados no Raciocínio Visual

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

Resumo

Summary

Support

Support