Погружение в саморазвивающееся обучение для мультимодального рассуждения
Diving into Self-Evolving Training for Multimodal Reasoning
December 23, 2024
Авторы: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He
cs.AI
Аннотация
Способность к рассуждениям является неотъемлемой для больших мультимодальных моделей (LMMs). В отсутствие аннотированных данных цепочки мыслей в мультимодальном формате, самоэволюционное обучение, при котором модель учится на основе своих собственных выводов, стало эффективным и масштабируемым подходом для улучшения способностей к рассуждениям. Несмотря на его растущее использование, полное понимание самоэволюционного обучения, особенно в контексте мультимодального рассуждения, остается ограниченным. В данной статье мы углубляемся в тонкости самоэволюционного обучения для мультимодального рассуждения, выделяя три ключевых фактора: Метод Обучения, Модель Вознаграждения и Вариации Запросов. Мы систематически исследуем каждый фактор и исследуем, как различные конфигурации влияют на эффективность обучения. Наш анализ приводит к набору лучших практик для каждого фактора, направленных на оптимизацию мультимодального рассуждения. Кроме того, мы исследуем Динамику Самоэволюции во время обучения и влияние автоматических механизмов балансировки на повышение производительности. После всех исследований мы представляем окончательный рецепт для самоэволюционного обучения в мультимодальном рассуждении, заключая эти дизайнерские выборы во фреймворк, который мы называем MSTaR (Мультимодальное Самоэволюционное Обучение для Рассуждения), который эффективен для моделей различных размеров на различных бенчмарках, превосходя предварительно эволюционную модель значительно на 5 бенчмарках мультимодального рассуждения без использования дополнительных аннотаций человека, как продемонстрировано на MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) и InternVL2 (2B). Мы считаем, что данное исследование заполняет значительную пробел в понимании самоэволюционного обучения для мультимодального рассуждения и предлагает прочный фреймворк для будущих исследований. Наши модели политики и вознаграждения, а также собранные данные, предоставлены для облегчения дальнейших исследований в области мультимодального рассуждения.
English
Reasoning ability is essential for Large Multimodal Models (LMMs). In the
absence of multimodal chain-of-thought annotated data, self-evolving training,
where the model learns from its own outputs, has emerged as an effective and
scalable approach for enhancing reasoning abilities. Despite its growing usage,
a comprehensive understanding of self-evolving training, particularly in the
context of multimodal reasoning, remains limited. In this paper, we delve into
the intricacies of self-evolving training for multimodal reasoning, pinpointing
three key factors: Training Method, Reward Model, and Prompt Variation. We
systematically examine each factor and explore how various configurations
affect the training's effectiveness. Our analysis leads to a set of best
practices for each factor, aimed at optimizing multimodal reasoning.
Furthermore, we explore the Self-Evolution Dynamics during training and the
impact of automatic balancing mechanisms in boosting performance. After all the
investigations, we present a final recipe for self-evolving training in
multimodal reasoning, encapsulating these design choices into a framework we
call MSTaR (Multimodal Self-evolving Training for Reasoning), which is
universally effective for models with different sizes on various benchmarks,
e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning
benchmarks without using additional human annotations, as demonstrated on
MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this
study fills a significant gap in the understanding of self-evolving training
for multimodal reasoning and offers a robust framework for future research. Our
policy and reward models, as well as the collected data, is released to
facilitate further investigation in multimodal reasoning.Summary
AI-Generated Summary