SoTA met Minder: MCTS-Gestuurde Steekproefselectie voor Data-Efficiënte Visuele Redeneer-Zelfverbetering

Samenvatting

In dit artikel presenteren we een effectieve methode om visueel redeneren te verbeteren met aanzienlijk minder trainingsvoorbeelden, waarbij we uitsluitend vertrouwen op zelfverbetering zonder kennisdistillatie. Onze belangrijkste inzicht is dat de moeilijkheidsgraad van trainingsgegevens tijdens reinforcement fine-tuning (RFT) cruciaal is. Geschikt uitdagende voorbeelden kunnen de redeneervaardigheden aanzienlijk verbeteren, zelfs wanneer de dataset klein is. Hoewel dit intuïtief lijkt, blijft de belangrijkste uitdaging het nauwkeurig kwantificeren van de moeilijkheidsgraad van voorbeelden om effectieve datafiltering mogelijk te maken. Hiertoe stellen we een nieuwe manier voor om Monte Carlo Tree Search (MCTS) te hergebruiken om dit te bereiken. Uitgaande van onze gecureerde 70k open-source trainingsvoorbeelden, introduceren we een MCTS-gebaseerde selectiemethode die de moeilijkheidsgraad van voorbeelden kwantificeert op basis van het aantal iteraties dat de VLMs nodig hebben om elk probleem op te lossen. Deze expliciete stap-voor-stap redenering in MCTS dwingt het model om langer na te denken en identificeert beter de voorbeelden die echt uitdagend zijn. We filteren en behouden 11k voorbeelden om RFT uit te voeren op Qwen2.5-VL-7B-Instruct, wat resulteert in ons uiteindelijke model, ThinkLite-VL. Evaluatieresultaten op acht benchmarks tonen aan dat ThinkLite-VL de gemiddelde prestaties van Qwen2.5-VL-7B-Instruct met 7% verbetert, waarbij slechts 11k trainingsvoorbeelden worden gebruikt zonder kennisdistillatie. Dit overtreft aanzienlijk alle bestaande 7B-niveau redeneer-VLMs, en onze redelijk vergelijkbare baselines die klassieke selectiemethoden gebruiken, zoals nauwkeurigheidsgebaseerde filtering. Opvallend is dat ThinkLite-VL-7B op MathVista een SoTA-nauwkeurigheid van 75,1 bereikt, waarmee Qwen2.5-VL-72B, GPT-4o en O1 worden overtroffen. Onze code, gegevens en model zijn beschikbaar op https://github.com/si0wang/ThinkLite-VL.

English

In this paper, we present an effective method to enhance visual reasoning with significantly fewer training samples, relying purely on self-improvement with no knowledge distillation. Our key insight is that the difficulty of training data during reinforcement fine-tuning (RFT) is critical. Appropriately challenging samples can substantially boost reasoning capabilities even when the dataset is small. Despite being intuitive, the main challenge remains in accurately quantifying sample difficulty to enable effective data filtering. To this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS) to achieve that. Starting from our curated 70k open-source training samples, we introduce an MCTS-based selection method that quantifies sample difficulty based on the number of iterations required by the VLMs to solve each problem. This explicit step-by-step reasoning in MCTS enforces the model to think longer and better identifies samples that are genuinely challenging. We filter and retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our final model, ThinkLite-VL. Evaluation results on eight benchmarks show that ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%, using only 11k training samples with no knowledge distillation. This significantly outperforms all existing 7B-level reasoning VLMs, and our fairly comparable baselines that use classic selection methods such as accuracy-based filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of 75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are available at https://github.com/si0wang/ThinkLite-VL.

SoTA met Minder: MCTS-Gestuurde Steekproefselectie voor Data-Efficiënte Visuele Redeneer-Zelfverbetering

SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

Samenvatting

Support