SoTA mit Weniger: MCTS-gesteuerte Probenauswahl für dateneffizientes visuelles Schlussfolgern durch Selbstverbesserung
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
April 10, 2025
Autoren: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang
cs.AI
Zusammenfassung
In diesem Artikel präsentieren wir eine effektive Methode zur Verbesserung des visuellen Denkens mit deutlich weniger Trainingsdaten, die ausschließlich auf Selbstverbesserung ohne Wissensdistillation basiert. Unsere zentrale Erkenntnis ist, dass die Schwierigkeit der Trainingsdaten während des Reinforcement Fine-Tunings (RFT) entscheidend ist. Angemessen herausfordernde Beispiele können die Denkfähigkeiten erheblich steigern, selbst wenn der Datensatz klein ist. Obwohl dies intuitiv erscheint, besteht die Hauptherausforderung darin, die Schwierigkeit der Beispiele genau zu quantifizieren, um eine effektive Datenfilterung zu ermöglichen. Zu diesem Zweck schlagen wir eine neuartige Methode vor, die Monte Carlo Tree Search (MCTS) umfunktioniert, um dies zu erreichen. Ausgehend von unseren kuratierten 70.000 Open-Source-Trainingsbeispielen führen wir eine MCTS-basierte Auswahlmethode ein, die die Schwierigkeit der Beispiele basierend auf der Anzahl der Iterationen quantifiziert, die die VLMs benötigen, um jedes Problem zu lösen. Dieser explizite schrittweise Denkprozess in MCTS zwingt das Modell, länger nachzudenken, und identifiziert besser die Beispiele, die wirklich herausfordernd sind. Wir filtern und behalten 11.000 Beispiele, um RFT auf Qwen2.5-VL-7B-Instruct durchzuführen, was zu unserem finalen Modell, ThinkLite-VL, führt. Evaluierungsergebnisse auf acht Benchmarks zeigen, dass ThinkLite-VL die durchschnittliche Leistung von Qwen2.5-VL-7B-Instruct um 7% verbessert, wobei nur 11.000 Trainingsbeispiele ohne Wissensdistillation verwendet werden. Dies übertrifft deutlich alle bestehenden 7B-Level-Denk-VLMs sowie unsere vergleichbaren Baselines, die klassische Auswahlmethoden wie die Genauigkeits-basierte Filterung verwenden. Besonders hervorzuheben ist, dass ThinkLite-VL-7B auf MathVista eine SoTA-Genauigkeit von 75,1 erreicht und damit Qwen2.5-VL-72B, GPT-4o und O1 übertrifft. Unser Code, Daten und Modell sind verfügbar unter https://github.com/si0wang/ThinkLite-VL.
English
In this paper, we present an effective method to enhance visual reasoning
with significantly fewer training samples, relying purely on self-improvement
with no knowledge distillation. Our key insight is that the difficulty of
training data during reinforcement fine-tuning (RFT) is critical. Appropriately
challenging samples can substantially boost reasoning capabilities even when
the dataset is small. Despite being intuitive, the main challenge remains in
accurately quantifying sample difficulty to enable effective data filtering. To
this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS)
to achieve that. Starting from our curated 70k open-source training samples, we
introduce an MCTS-based selection method that quantifies sample difficulty
based on the number of iterations required by the VLMs to solve each problem.
This explicit step-by-step reasoning in MCTS enforces the model to think longer
and better identifies samples that are genuinely challenging. We filter and
retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our
final model, ThinkLite-VL. Evaluation results on eight benchmarks show that
ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%,
using only 11k training samples with no knowledge distillation. This
significantly outperforms all existing 7B-level reasoning VLMs, and our fairly
comparable baselines that use classic selection methods such as accuracy-based
filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of
75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are
available at https://github.com/si0wang/ThinkLite-VL.Summary
AI-Generated Summary