Duiken in Zelfevoluerende Training voor Multimodale Redenering

Samenvatting

Het redeneervermogen is essentieel voor Grote Multimodale Modellen (LMM's). In het geval van afwezigheid van multimodale keten-van-gedachte geannoteerde gegevens, is zelf-evoluerende training, waarbij het model leert van zijn eigen uitvoer, naar voren gekomen als een effectieve en schaalbare benadering om redeneervaardigheden te verbeteren. Ondanks het groeiende gebruik ervan, blijft begrip van zelf-evoluerende training, met name in de context van multimodaal redeneren, beperkt. In dit artikel duiken we in de complexiteiten van zelf-evoluerende training voor multimodaal redeneren, waarbij we drie sleutelfactoren benoemen: Trainingsmethode, Beloningsmodel en Promptvariatie. We onderzoeken systematisch elke factor en verkennen hoe verschillende configuraties de effectiviteit van de training beïnvloeden. Onze analyse leidt tot een reeks beste praktijken voor elke factor, gericht op het optimaliseren van multimodaal redeneren. Bovendien onderzoeken we de Zelf-evolutiedynamiek tijdens de training en de impact van automatische balanceringsmechanismen op het verbeteren van de prestaties. Na alle onderzoeken presenteren we een definitief recept voor zelf-evoluerende training in multimodaal redeneren, waarbij deze ontwerpkeuzes worden samengevat in een raamwerk dat we MSTaR (Multimodale Zelf-evoluerende Training voor Redeneren) noemen, dat universeel effectief is voor modellen met verschillende groottes op verschillende benchmarks, bijvoorbeeld aanzienlijk beter presterend dan het vooraf geëvolueerde model op 5 multimodale redeneerbenchmarks zonder extra menselijke annotaties te gebruiken, zoals gedemonstreerd op MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) en InternVL2 (2B). Wij geloven dat deze studie een belangrijke lacune vult in het begrip van zelf-evoluerende training voor multimodaal redeneren en een robuust raamwerk biedt voor toekomstig onderzoek. Onze beleids- en beloningsmodellen, evenals de verzamelde gegevens, worden vrijgegeven om verder onderzoek in multimodaal redeneren te vergemakkelijken.

English

Reasoning ability is essential for Large Multimodal Models (LMMs). In the absence of multimodal chain-of-thought annotated data, self-evolving training, where the model learns from its own outputs, has emerged as an effective and scalable approach for enhancing reasoning abilities. Despite its growing usage, a comprehensive understanding of self-evolving training, particularly in the context of multimodal reasoning, remains limited. In this paper, we delve into the intricacies of self-evolving training for multimodal reasoning, pinpointing three key factors: Training Method, Reward Model, and Prompt Variation. We systematically examine each factor and explore how various configurations affect the training's effectiveness. Our analysis leads to a set of best practices for each factor, aimed at optimizing multimodal reasoning. Furthermore, we explore the Self-Evolution Dynamics during training and the impact of automatic balancing mechanisms in boosting performance. After all the investigations, we present a final recipe for self-evolving training in multimodal reasoning, encapsulating these design choices into a framework we call MSTaR (Multimodal Self-evolving Training for Reasoning), which is universally effective for models with different sizes on various benchmarks, e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning benchmarks without using additional human annotations, as demonstrated on MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this study fills a significant gap in the understanding of self-evolving training for multimodal reasoning and offers a robust framework for future research. Our policy and reward models, as well as the collected data, is released to facilitate further investigation in multimodal reasoning.

Duiken in Zelfevoluerende Training voor Multimodale Redenering

Diving into Self-Evolving Training for Multimodal Reasoning

Samenvatting

Support