Adentrándose en el Entrenamiento Autoevolutivo para el Razonamiento Multimodal
Diving into Self-Evolving Training for Multimodal Reasoning
December 23, 2024
Autores: Wei Liu, Junlong Li, Xiwen Zhang, Fan Zhou, Yu Cheng, Junxian He
cs.AI
Resumen
La capacidad de razonamiento es esencial para los Modelos Multimodales Grandes (LMMs). Ante la ausencia de datos anotados de cadena de pensamiento multimodal, ha surgido el entrenamiento autoevolutivo, donde el modelo aprende de sus propias salidas, como un enfoque efectivo y escalable para mejorar las habilidades de razonamiento. A pesar de su creciente uso, la comprensión integral del entrenamiento autoevolutivo, especialmente en el contexto del razonamiento multimodal, sigue siendo limitada. En este documento, profundizamos en las complejidades del entrenamiento autoevolutivo para el razonamiento multimodal, señalando tres factores clave: Método de Entrenamiento, Modelo de Recompensa y Variación de Estímulo. Examinamos sistemáticamente cada factor y exploramos cómo diversas configuraciones afectan la efectividad del entrenamiento. Nuestro análisis conduce a un conjunto de mejores prácticas para cada factor, con el objetivo de optimizar el razonamiento multimodal. Además, exploramos la Dinámica de Autoevolución durante el entrenamiento y el impacto de los mecanismos automáticos de equilibrio en el aumento del rendimiento. Después de todas las investigaciones, presentamos una receta final para el entrenamiento autoevolutivo en el razonamiento multimodal, encapsulando estas elecciones de diseño en un marco que llamamos MSTaR (Entrenamiento Multimodal Autoevolutivo para el Razonamiento), que es universalmente efectivo para modelos de diferentes tamaños en varios benchmarks, superando significativamente al modelo pre-evolucionado en 5 benchmarks de razonamiento multimodal sin utilizar anotaciones humanas adicionales, como se demostró en MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Creemos que este estudio llena una brecha significativa en la comprensión del entrenamiento autoevolutivo para el razonamiento multimodal y ofrece un marco sólido para futuras investigaciones. Nuestros modelos de política y recompensa, así como los datos recopilados, se han publicado para facilitar investigaciones adicionales en el razonamiento multimodal.
English
Reasoning ability is essential for Large Multimodal Models (LMMs). In the
absence of multimodal chain-of-thought annotated data, self-evolving training,
where the model learns from its own outputs, has emerged as an effective and
scalable approach for enhancing reasoning abilities. Despite its growing usage,
a comprehensive understanding of self-evolving training, particularly in the
context of multimodal reasoning, remains limited. In this paper, we delve into
the intricacies of self-evolving training for multimodal reasoning, pinpointing
three key factors: Training Method, Reward Model, and Prompt Variation. We
systematically examine each factor and explore how various configurations
affect the training's effectiveness. Our analysis leads to a set of best
practices for each factor, aimed at optimizing multimodal reasoning.
Furthermore, we explore the Self-Evolution Dynamics during training and the
impact of automatic balancing mechanisms in boosting performance. After all the
investigations, we present a final recipe for self-evolving training in
multimodal reasoning, encapsulating these design choices into a framework we
call MSTaR (Multimodal Self-evolving Training for Reasoning), which is
universally effective for models with different sizes on various benchmarks,
e.g., surpassing the pre-evolved model significantly on 5 multimodal reasoning
benchmarks without using additional human annotations, as demonstrated on
MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) and InternVL2 (2B). We believe this
study fills a significant gap in the understanding of self-evolving training
for multimodal reasoning and offers a robust framework for future research. Our
policy and reward models, as well as the collected data, is released to
facilitate further investigation in multimodal reasoning.Summary
AI-Generated Summary