SoTA avec moins : Sélection d'échantillons guidée par MCTS pour un auto-amélioration efficace en données du raisonnement visuel

papers.abstract

Dans cet article, nous présentons une méthode efficace pour améliorer le raisonnement visuel en utilisant un nombre significativement réduit d'échantillons d'entraînement, en s'appuyant uniquement sur l'auto-amélioration sans distillation de connaissances. Notre idée clé est que la difficulté des données d'entraînement lors du réglage fin par renforcement (RFT) est cruciale. Des échantillons suffisamment difficiles peuvent considérablement renforcer les capacités de raisonnement, même lorsque le jeu de données est petit. Bien que cela soit intuitif, le principal défi reste de quantifier avec précision la difficulté des échantillons pour permettre un filtrage efficace des données. À cette fin, nous proposons une nouvelle manière de réutiliser la recherche arborescente Monte Carlo (MCTS) pour y parvenir. En partant de nos 70 000 échantillons d'entraînement open-source soigneusement sélectionnés, nous introduisons une méthode de sélection basée sur MCTS qui quantifie la difficulté des échantillons en fonction du nombre d'itérations nécessaires aux modèles de langage visuel (VLMs) pour résoudre chaque problème. Ce raisonnement explicite étape par étape dans MCTS oblige le modèle à réfléchir plus longtemps et identifie mieux les échantillons qui sont véritablement difficiles. Nous filtrons et conservons 11 000 échantillons pour effectuer le RFT sur Qwen2.5-VL-7B-Instruct, aboutissant à notre modèle final, ThinkLite-VL. Les résultats d'évaluation sur huit benchmarks montrent que ThinkLite-VL améliore la performance moyenne de Qwen2.5-VL-7B-Instruct de 7 %, en utilisant seulement 11 000 échantillons d'entraînement sans distillation de connaissances. Cela surpasse significativement tous les VLMs de raisonnement existants de niveau 7B, ainsi que nos bases de comparaison qui utilisent des méthodes de sélection classiques telles que le filtrage basé sur la précision. Notamment, sur MathVista, ThinkLite-VL-7B atteint une précision SoTA de 75,1, surpassant Qwen2.5-VL-72B, GPT-4o et O1. Notre code, données et modèle sont disponibles à l'adresse https://github.com/si0wang/ThinkLite-VL.

English

In this paper, we present an effective method to enhance visual reasoning with significantly fewer training samples, relying purely on self-improvement with no knowledge distillation. Our key insight is that the difficulty of training data during reinforcement fine-tuning (RFT) is critical. Appropriately challenging samples can substantially boost reasoning capabilities even when the dataset is small. Despite being intuitive, the main challenge remains in accurately quantifying sample difficulty to enable effective data filtering. To this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS) to achieve that. Starting from our curated 70k open-source training samples, we introduce an MCTS-based selection method that quantifies sample difficulty based on the number of iterations required by the VLMs to solve each problem. This explicit step-by-step reasoning in MCTS enforces the model to think longer and better identifies samples that are genuinely challenging. We filter and retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our final model, ThinkLite-VL. Evaluation results on eight benchmarks show that ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%, using only 11k training samples with no knowledge distillation. This significantly outperforms all existing 7B-level reasoning VLMs, and our fairly comparable baselines that use classic selection methods such as accuracy-based filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of 75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are available at https://github.com/si0wang/ThinkLite-VL.

SoTA avec moins : Sélection d'échantillons guidée par MCTS pour un auto-amélioration efficace en données du raisonnement visuel

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

papers.abstract

Support