Auto-amélioration dans les modèles de langage multimodaux à grande échelle : une étude
Self-Improvement in Multimodal Large Language Models: A Survey
October 3, 2025
papers.authors: Shijian Deng, Kai Wang, Tianyu Yang, Harsh Singh, Yapeng Tian
cs.AI
papers.abstract
Les récents progrès dans l'auto-amélioration des modèles de langage de grande taille (LLMs) ont permis d'améliorer efficacement les capacités des modèles sans augmenter significativement les coûts, en particulier en termes d'effort humain. Bien que ce domaine soit encore relativement jeune, son extension au domaine multimodal présente un potentiel immense pour exploiter des sources de données diversifiées et développer des modèles auto-améliorants plus généraux. Cette étude est la première à offrir un aperçu complet de l'auto-amélioration dans les modèles de langage multimodaux (MLLMs). Nous proposons une vue structurée de la littérature actuelle et discutons des méthodes sous trois angles : 1) la collecte de données, 2) l'organisation des données, et 3) l'optimisation des modèles, afin de faciliter le développement ultérieur de l'auto-amélioration dans les MLLMs. Nous incluons également les évaluations couramment utilisées et les applications en aval. Enfin, nous concluons en soulignant les défis ouverts et les directions futures de recherche.
English
Recent advancements in self-improvement for Large Language Models (LLMs) have
efficiently enhanced model capabilities without significantly increasing costs,
particularly in terms of human effort. While this area is still relatively
young, its extension to the multimodal domain holds immense potential for
leveraging diverse data sources and developing more general self-improving
models. This survey is the first to provide a comprehensive overview of
self-improvement in Multimodal LLMs (MLLMs). We provide a structured overview
of the current literature and discuss methods from three perspectives: 1) data
collection, 2) data organization, and 3) model optimization, to facilitate the
further development of self-improvement in MLLMs. We also include commonly used
evaluations and downstream applications. Finally, we conclude by outlining open
challenges and future research directions.