Duiken in Zelfevoluerende Training voor Multimodale Redenering
Diving into Self-Evolving Training for Multimodal Reasoning
December 23, 2024
Auteurs: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He
cs.AI
Samenvatting
Het redeneervermogen is essentieel voor Grote Multimodale Modellen (LMM's). In het geval van afwezigheid van multimodale keten-van-gedachte geannoteerde gegevens, is zelf-evoluerende training, waarbij het model leert van zijn eigen uitvoer, naar voren gekomen als een effectieve en schaalbare benadering om redeneervaardigheden te verbeteren. Ondanks het groeiende gebruik ervan, blijft begrip van zelf-evoluerende training, met name in de context van multimodaal redeneren, beperkt. In dit artikel duiken we in de complexiteiten van zelf-evoluerende training voor multimodaal redeneren, waarbij we drie sleutelfactoren benoemen: Trainingsmethode, Beloningsmodel en Promptvariatie. We onderzoeken systematisch elke factor en verkennen hoe verschillende configuraties de effectiviteit van de training beïnvloeden. Onze analyse leidt tot een reeks beste praktijken voor elke factor, gericht op het optimaliseren van multimodaal redeneren. Bovendien onderzoeken we de Zelf-evolutiedynamiek tijdens de training en de impact van automatische balanceringsmechanismen op het verbeteren van de prestaties. Na alle onderzoeken presenteren we een definitief recept voor zelf-evoluerende training in multimodaal redeneren, waarbij deze ontwerpkeuzes worden samengevat in een raamwerk dat we MSTaR (Multimodale Zelf-evoluerende Training voor Redeneren) noemen, dat universeel effectief is voor modellen met verschillende groottes op verschillende benchmarks, bijvoorbeeld aanzienlijk beter presterend dan het vooraf geëvolueerde model op 5 multimodale redeneerbenchmarks zonder extra menselijke annotaties te gebruiken, zoals gedemonstreerd op MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) en InternVL2 (2B). Wij geloven dat deze studie een belangrijke lacune vult in het begrip van zelf-evoluerende training voor multimodaal redeneren en een robuust raamwerk biedt voor toekomstig onderzoek. Onze beleids- en beloningsmodellen, evenals de verzamelde gegevens, worden vrijgegeven om verder onderzoek in multimodaal redeneren te vergemakkelijken.
English
Reasoning ability is essential for Large Multimodal Models (LMMs). In the
absence of multimodal chain-of-thought annotated data, self-evolving training,
where the model learns from its own outputs, has emerged as an effective and
scalable approach for enhancing reasoning abilities. Despite its growing usage,
a comprehensive understanding of self-evolving training, particularly in the
context of multimodal reasoning, remains limited. In this paper, we delve into
the intricacies of self-evolving training for multimodal reasoning, pinpointing
three key factors: Training Method, Reward Model, and Prompt Variation. We
systematically examine each factor and explore how various configurations
affect the training's effectiveness. Our analysis leads to a set of best
practices for each factor, aimed at optimizing multimodal reasoning.
Furthermore, we explore the Self-Evolution Dynamics during training and the
impact of automatic balancing mechanisms in boosting performance. After all the
investigations, we present a final recipe for self-evolving training in
multimodal reasoning, encapsulating these design choices into a framework we
call MSTaR (Multimodal Self-evolving Training for Reasoning), which is
universally effective for models with different sizes on various benchmarks,
e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning
benchmarks without using additional human annotations, as demonstrated on
MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this
study fills a significant gap in the understanding of self-evolving training
for multimodal reasoning and offers a robust framework for future research. Our
policy and reward models, as well as the collected data, is released to
facilitate further investigation in multimodal reasoning.