SoTA com Menos: Seleção de Amostras Guiada por MCTS para Autoaprimoramento Eficiente em Dados no Raciocínio Visual
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
April 10, 2025
Autores: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang
cs.AI
Resumo
Neste artigo, apresentamos um método eficaz para aprimorar o raciocínio visual com significativamente menos amostras de treinamento, dependendo exclusivamente da auto-melhoria sem distilação de conhecimento. Nossa principal percepção é que a dificuldade dos dados de treinamento durante o ajuste fino por reforço (RFT) é crucial. Amostras adequadamente desafiadoras podem impulsionar substancialmente as capacidades de raciocínio, mesmo quando o conjunto de dados é pequeno. Apesar de ser intuitivo, o principal desafio permanece em quantificar com precisão a dificuldade das amostras para permitir uma filtragem eficaz dos dados. Para isso, propomos uma nova maneira de reutilizar a Busca em Árvore de Monte Carlo (MCTS) para alcançar esse objetivo. A partir de nossas 70 mil amostras de treinamento de código aberto curadas, introduzimos um método de seleção baseado em MCTS que quantifica a dificuldade das amostras com base no número de iterações necessárias para os VLMs resolverem cada problema. Esse raciocínio explícito passo a passo no MCTS obriga o modelo a pensar por mais tempo e identifica melhor as amostras que são genuinamente desafiadoras. Filtramos e retemos 11 mil amostras para realizar o RFT no Qwen2.5-VL-7B-Instruct, resultando em nosso modelo final, ThinkLite-VL. Os resultados de avaliação em oito benchmarks mostram que o ThinkLite-VL melhora o desempenho médio do Qwen2.5-VL-7B-Instruct em 7%, utilizando apenas 11 mil amostras de treinamento sem distilação de conhecimento. Isso supera significativamente todos os VLMs de raciocínio de nível 7B existentes e nossas linhas de base bastante comparáveis que usam métodos clássicos de seleção, como filtragem baseada em precisão. Notavelmente, no MathVista, o ThinkLite-VL-7B alcança a precisão SoTA de 75,1, superando o Qwen2.5-VL-72B, GPT-4o e O1. Nosso código, dados e modelo estão disponíveis em https://github.com/si0wang/ThinkLite-VL.
English
In this paper, we present an effective method to enhance visual reasoning
with significantly fewer training samples, relying purely on self-improvement
with no knowledge distillation. Our key insight is that the difficulty of
training data during reinforcement fine-tuning (RFT) is critical. Appropriately
challenging samples can substantially boost reasoning capabilities even when
the dataset is small. Despite being intuitive, the main challenge remains in
accurately quantifying sample difficulty to enable effective data filtering. To
this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS)
to achieve that. Starting from our curated 70k open-source training samples, we
introduce an MCTS-based selection method that quantifies sample difficulty
based on the number of iterations required by the VLMs to solve each problem.
This explicit step-by-step reasoning in MCTS enforces the model to think longer
and better identifies samples that are genuinely challenging. We filter and
retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our
final model, ThinkLite-VL. Evaluation results on eight benchmarks show that
ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%,
using only 11k training samples with no knowledge distillation. This
significantly outperforms all existing 7B-level reasoning VLMs, and our fairly
comparable baselines that use classic selection methods such as accuracy-based
filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of
75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are
available at https://github.com/si0wang/ThinkLite-VL.Summary
AI-Generated Summary