Plongée dans l'Entraînement Auto-Évolutif pour le Raisonnement Multimodal
Diving into Self-Evolving Training for Multimodal Reasoning
December 23, 2024
Auteurs: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He
cs.AI
Résumé
La capacité de raisonnement est essentielle pour les Grands Modèles Multimodaux (GMM). En l'absence de données annotées en chaîne de pensée multimodale, l'entraînement auto-évolutif, où le modèle apprend de ses propres sorties, a émergé comme une approche efficace et évolutive pour améliorer les capacités de raisonnement. Malgré son utilisation croissante, une compréhension approfondie de l'entraînement auto-évolutif, en particulier dans le contexte du raisonnement multimodal, reste limitée. Dans cet article, nous explorons les subtilités de l'entraînement auto-évolutif pour le raisonnement multimodal, en identifiant trois facteurs clés : Méthode d'Entraînement, Modèle de Récompense et Variation de la Consigne. Nous examinons systématiquement chaque facteur et explorons comment différentes configurations affectent l'efficacité de l'entraînement. Notre analyse conduit à un ensemble de meilleures pratiques pour chaque facteur, visant à optimiser le raisonnement multimodal. De plus, nous explorons la Dynamique d'Auto-Évolution pendant l'entraînement et l'impact des mécanismes de rééquilibrage automatique pour améliorer les performances. Après toutes les investigations, nous présentons une recette finale pour l'entraînement auto-évolutif en raisonnement multimodal, encapsulant ces choix de conception dans un cadre que nous appelons MSTaR (Entraînement Multimodal Auto-Évolutif pour le Raisonnement), qui est universellement efficace pour les modèles de différentes tailles sur divers benchmarks, surpassant significativement le modèle pré-évolué sur 5 benchmarks de raisonnement multimodal sans utiliser de données annotées supplémentaires, comme démontré sur MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) et InternVL2 (2B). Nous pensons que cette étude comble une lacune significative dans la compréhension de l'entraînement auto-évolutif pour le raisonnement multimodal et offre un cadre robuste pour la recherche future. Nos modèles de politique et de récompense, ainsi que les données collectées, sont publiés pour faciliter de futures investigations en matière de raisonnement multimodal.
English
Reasoning ability is essential for Large Multimodal Models (LMMs). In the
absence of multimodal chain-of-thought annotated data, self-evolving training,
where the model learns from its own outputs, has emerged as an effective and
scalable approach for enhancing reasoning abilities. Despite its growing usage,
a comprehensive understanding of self-evolving training, particularly in the
context of multimodal reasoning, remains limited. In this paper, we delve into
the intricacies of self-evolving training for multimodal reasoning, pinpointing
three key factors: Training Method, Reward Model, and Prompt Variation. We
systematically examine each factor and explore how various configurations
affect the training's effectiveness. Our analysis leads to a set of best
practices for each factor, aimed at optimizing multimodal reasoning.
Furthermore, we explore the Self-Evolution Dynamics during training and the
impact of automatic balancing mechanisms in boosting performance. After all the
investigations, we present a final recipe for self-evolving training in
multimodal reasoning, encapsulating these design choices into a framework we
call MSTaR (Multimodal Self-evolving Training for Reasoning), which is
universally effective for models with different sizes on various benchmarks,
e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning
benchmarks without using additional human annotations, as demonstrated on
MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this
study fills a significant gap in the understanding of self-evolving training
for multimodal reasoning and offers a robust framework for future research. Our
policy and reward models, as well as the collected data, is released to
facilitate further investigation in multimodal reasoning.Summary
AI-Generated Summary