SoTA с меньшими затратами: выбор образцов с использованием MCTS для эффективного самостоятельного улучшения визуального анализа данных
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
April 10, 2025
Авторы: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang
cs.AI
Аннотация
В данной статье мы представляем эффективный метод для улучшения визуального мышления с использованием значительно меньшего количества обучающих выборок, полагаясь исключительно на самообучение без применения дистилляции знаний. Наше ключевое наблюдение заключается в том, что сложность обучающих данных во время тонкой настройки с подкреплением (RFT) имеет решающее значение. Соответственно подобранные сложные выборки могут существенно повысить способности к рассуждению даже при небольшом объеме данных. Несмотря на интуитивную понятность, основная трудность заключается в точной количественной оценке сложности выборок для эффективной фильтрации данных. Для этого мы предлагаем новый способ перепрофилирования метода поиска по дереву Монте-Карло (MCTS). Начиная с отобранных нами 70 тысяч открытых обучающих выборок, мы вводим метод отбора на основе MCTS, который количественно оценивает сложность выборок на основе количества итераций, необходимых визуально-языковым моделям (VLMs) для решения каждой задачи. Этот явный пошаговый анализ в MCTS заставляет модель дольше размышлять и лучше идентифицировать действительно сложные выборки. Мы фильтруем и оставляем 11 тысяч выборок для выполнения RFT на модели Qwen2.5-VL-7B-Instruct, что приводит к созданию нашей финальной модели ThinkLite-VL. Результаты оценки на восьми бенчмарках показывают, что ThinkLite-VL улучшает среднюю производительность Qwen2.5-VL-7B-Instruct на 7%, используя всего 11 тысяч обучающих выборок без дистилляции знаний. Это значительно превосходит все существующие 7B-уровневые модели визуального мышления, а также наши достаточно сопоставимые базовые модели, использующие классические методы отбора, такие как фильтрация на основе точности. Примечательно, что на MathVista модель ThinkLite-VL-7B достигает рекордной точности 75.1, превосходя Qwen2.5-VL-72B, GPT-4o и O1. Наш код, данные и модель доступны по адресу https://github.com/si0wang/ThinkLite-VL.
English
In this paper, we present an effective method to enhance visual reasoning
with significantly fewer training samples, relying purely on self-improvement
with no knowledge distillation. Our key insight is that the difficulty of
training data during reinforcement fine-tuning (RFT) is critical. Appropriately
challenging samples can substantially boost reasoning capabilities even when
the dataset is small. Despite being intuitive, the main challenge remains in
accurately quantifying sample difficulty to enable effective data filtering. To
this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS)
to achieve that. Starting from our curated 70k open-source training samples, we
introduce an MCTS-based selection method that quantifies sample difficulty
based on the number of iterations required by the VLMs to solve each problem.
This explicit step-by-step reasoning in MCTS enforces the model to think longer
and better identifies samples that are genuinely challenging. We filter and
retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our
final model, ThinkLite-VL. Evaluation results on eight benchmarks show that
ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%,
using only 11k training samples with no knowledge distillation. This
significantly outperforms all existing 7B-level reasoning VLMs, and our fairly
comparable baselines that use classic selection methods such as accuracy-based
filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of
75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are
available at https://github.com/si0wang/ThinkLite-VL.Summary
AI-Generated Summary