SoTA con Menos: Selección de Muestras Guiada por MCTS para el Automejoramiento Eficiente en Datos del Razonamiento Visual
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
April 10, 2025
Autores: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang
cs.AI
Resumen
En este artículo, presentamos un método efectivo para mejorar el razonamiento visual utilizando significativamente menos muestras de entrenamiento, basándonos únicamente en la auto-mejora sin distilación de conocimiento. Nuestra idea clave es que la dificultad de los datos de entrenamiento durante el ajuste fino por refuerzo (RFT) es crucial. Muestras adecuadamente desafiantes pueden potenciar sustancialmente las capacidades de razonamiento, incluso cuando el conjunto de datos es pequeño. Aunque intuitivo, el principal desafío radica en cuantificar con precisión la dificultad de las muestras para permitir un filtrado efectivo de datos. Para ello, proponemos una nueva forma de reutilizar la Búsqueda de Árbol de Monte Carlo (MCTS) para lograrlo. Partiendo de nuestras 70k muestras de entrenamiento de código abierto seleccionadas, introducimos un método de selección basado en MCTS que cuantifica la dificultad de las muestras según el número de iteraciones requeridas por los modelos de lenguaje visual (VLMs) para resolver cada problema. Este razonamiento explícito paso a paso en MCTS obliga al modelo a pensar más tiempo e identifica mejor las muestras que son genuinamente desafiantes. Filtramos y retenemos 11k muestras para realizar RFT en Qwen2.5-VL-7B-Instruct, resultando en nuestro modelo final, ThinkLite-VL. Los resultados de evaluación en ocho benchmarks muestran que ThinkLite-VL mejora el rendimiento promedio de Qwen2.5-VL-7B-Instruct en un 7%, utilizando solo 11k muestras de entrenamiento sin distilación de conocimiento. Esto supera significativamente a todos los VLMs de razonamiento existentes de nivel 7B, y a nuestras líneas base bastante comparables que utilizan métodos de selección clásicos como el filtrado basado en precisión. Notablemente, en MathVista, ThinkLite-VL-7B alcanza una precisión SoTA de 75.1, superando a Qwen2.5-VL-72B, GPT-4o y O1. Nuestro código, datos y modelo están disponibles en https://github.com/si0wang/ThinkLite-VL.
English
In this paper, we present an effective method to enhance visual reasoning
with significantly fewer training samples, relying purely on self-improvement
with no knowledge distillation. Our key insight is that the difficulty of
training data during reinforcement fine-tuning (RFT) is critical. Appropriately
challenging samples can substantially boost reasoning capabilities even when
the dataset is small. Despite being intuitive, the main challenge remains in
accurately quantifying sample difficulty to enable effective data filtering. To
this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS)
to achieve that. Starting from our curated 70k open-source training samples, we
introduce an MCTS-based selection method that quantifies sample difficulty
based on the number of iterations required by the VLMs to solve each problem.
This explicit step-by-step reasoning in MCTS enforces the model to think longer
and better identifies samples that are genuinely challenging. We filter and
retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our
final model, ThinkLite-VL. Evaluation results on eight benchmarks show that
ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%,
using only 11k training samples with no knowledge distillation. This
significantly outperforms all existing 7B-level reasoning VLMs, and our fairly
comparable baselines that use classic selection methods such as accuracy-based
filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of
75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are
available at https://github.com/si0wang/ThinkLite-VL.Summary
AI-Generated Summary