少ないリソースでSoTAを達成:データ効率の良い視覚的推論の自己改善に向けたMCTSガイド付きサンプル選択
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
April 10, 2025
著者: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang
cs.AI
要旨
本論文では、知識蒸留を一切用いず、自己改善のみに依存して、大幅に少ない訓練サンプルで視覚的推論能力を向上させる効果的な手法を提案する。我々の重要な洞察は、強化学習による微調整(RFT)における訓練データの難易度が極めて重要であるという点である。適切に挑戦的なサンプルは、データセットが小さくても、推論能力を大幅に向上させることができる。直感的ではあるが、主要な課題は、効果的なデータフィルタリングを可能にするために、サンプルの難易度を正確に定量化することにある。この目的のために、我々はモンテカルロ木探索(MCTS)を再利用する新たな方法を提案する。我々が選定した70kのオープンソース訓練サンプルから出発し、VLMsが各問題を解決するために必要な反復回数に基づいてサンプルの難易度を定量化するMCTSベースの選択手法を導入する。MCTSにおけるこの明示的なステップバイステップの推論は、モデルに長く考えさせ、真に挑戦的なサンプルをより良く識別することを強制する。我々は11kのサンプルをフィルタリングして保持し、Qwen2.5-VL-7B-Instructに対してRFTを実行し、最終モデルであるThinkLite-VLを得た。8つのベンチマークでの評価結果は、ThinkLite-VLがQwen2.5-VL-7B-Instructの平均性能を7%向上させ、知識蒸留なしでわずか11kの訓練サンプルを使用していることを示している。これは、既存のすべての7Bレベルの推論VLMs、および精度ベースのフィルタリングなどの古典的な選択手法を使用する我々の比較可能なベースラインを大幅に上回る。特に、MathVistaでは、ThinkLite-VL-7Bは75.1のSoTA精度を達成し、Qwen2.5-VL-72B、GPT-4o、O1を上回った。我々のコード、データ、およびモデルはhttps://github.com/si0wang/ThinkLite-VLで公開されている。
English
In this paper, we present an effective method to enhance visual reasoning
with significantly fewer training samples, relying purely on self-improvement
with no knowledge distillation. Our key insight is that the difficulty of
training data during reinforcement fine-tuning (RFT) is critical. Appropriately
challenging samples can substantially boost reasoning capabilities even when
the dataset is small. Despite being intuitive, the main challenge remains in
accurately quantifying sample difficulty to enable effective data filtering. To
this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS)
to achieve that. Starting from our curated 70k open-source training samples, we
introduce an MCTS-based selection method that quantifies sample difficulty
based on the number of iterations required by the VLMs to solve each problem.
This explicit step-by-step reasoning in MCTS enforces the model to think longer
and better identifies samples that are genuinely challenging. We filter and
retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our
final model, ThinkLite-VL. Evaluation results on eight benchmarks show that
ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%,
using only 11k training samples with no knowledge distillation. This
significantly outperforms all existing 7B-level reasoning VLMs, and our fairly
comparable baselines that use classic selection methods such as accuracy-based
filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of
75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are
available at https://github.com/si0wang/ThinkLite-VL.Summary
AI-Generated Summary