Eintauchen in selbstentwickelndes Training für multimodales Schlussfolgern
Diving into Self-Evolving Training for Multimodal Reasoning
December 23, 2024
Autoren: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He
cs.AI
Zusammenfassung
Die Fähigkeit zu schlussfolgern ist für große multimodale Modelle (LMMs) unerlässlich. In Abwesenheit von multimodalen kettenartig annotierten Daten für das Denken hat sich das selbstentwickelnde Training, bei dem das Modell von seinen eigenen Ausgaben lernt, als wirksamer und skalierbarer Ansatz zur Verbesserung der Schlussfolgerungsfähigkeiten herausgestellt. Trotz seiner zunehmenden Verwendung ist das Verständnis des selbstentwickelnden Trainings, insbesondere im Kontext der multimodalen Schlussfolgerung, begrenzt. In diesem Artikel gehen wir auf die Feinheiten des selbstentwickelnden Trainings für multimodale Schlussfolgerung ein und identifizieren drei Schlüsselfaktoren: Trainingsmethode, Belohnungsmodell und Prompt-Variation. Wir untersuchen systematisch jeden Faktor und erforschen, wie verschiedene Konfigurationen die Effektivität des Trainings beeinflussen. Unsere Analyse führt zu einer Reihe von bewährten Verfahren für jeden Faktor, die darauf abzielen, die multimodale Schlussfolgerung zu optimieren. Darüber hinaus untersuchen wir die Selbstentwicklungsdynamik während des Trainings und den Einfluss automatischer Ausgleichsmechanismen auf die Leistungssteigerung. Nach allen Untersuchungen präsentieren wir ein abschließendes Rezept für das selbstentwickelnde Training in der multimodalen Schlussfolgerung, das diese Designentscheidungen in ein Framework namens MSTaR (Multimodales Selbstentwickelndes Training für Schlussfolgerung) zusammenfasst, das universell wirksam ist für Modelle unterschiedlicher Größenordnungen auf verschiedenen Benchmarks, z.B. deutlich bessere Leistungen als das vorab entwickelte Modell auf 5 multimodalen Schlussfolgerungs-Benchmarks ohne zusätzliche menschliche Annotationen, wie anhand von MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) und InternVL2 (2B) gezeigt. Wir sind der Meinung, dass diese Studie eine bedeutende Lücke im Verständnis des selbstentwickelnden Trainings für multimodale Schlussfolgerung schließt und ein robustes Framework für zukünftige Forschung bietet. Unsere Richtlinien- und Belohnungsmodelle sowie die gesammelten Daten werden veröffentlicht, um weitere Untersuchungen in der multimodalen Schlussfolgerung zu erleichtern.
English
Reasoning ability is essential for Large Multimodal Models (LMMs). In the
absence of multimodal chain-of-thought annotated data, self-evolving training,
where the model learns from its own outputs, has emerged as an effective and
scalable approach for enhancing reasoning abilities. Despite its growing usage,
a comprehensive understanding of self-evolving training, particularly in the
context of multimodal reasoning, remains limited. In this paper, we delve into
the intricacies of self-evolving training for multimodal reasoning, pinpointing
three key factors: Training Method, Reward Model, and Prompt Variation. We
systematically examine each factor and explore how various configurations
affect the training's effectiveness. Our analysis leads to a set of best
practices for each factor, aimed at optimizing multimodal reasoning.
Furthermore, we explore the Self-Evolution Dynamics during training and the
impact of automatic balancing mechanisms in boosting performance. After all the
investigations, we present a final recipe for self-evolving training in
multimodal reasoning, encapsulating these design choices into a framework we
call MSTaR (Multimodal Self-evolving Training for Reasoning), which is
universally effective for models with different sizes on various benchmarks,
e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning
benchmarks without using additional human annotations, as demonstrated on
MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this
study fills a significant gap in the understanding of self-evolving training
for multimodal reasoning and offers a robust framework for future research. Our
policy and reward models, as well as the collected data, is released to
facilitate further investigation in multimodal reasoning.Summary
AI-Generated Summary