La Synergie entre les Données et les Modèles de Langage Multi-Modaux à Grande Échelle : Une Étude sous l'Angle du Co-Développement
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective
July 11, 2024
Auteurs: Zhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng
cs.AI
Résumé
Le développement rapide des grands modèles de langage (LLMs) a été observé ces dernières années. Basés sur ces puissants LLMs, les modèles de langage multi-modaux (MLLMs) étendent la modalité du texte à un spectre plus large de domaines, attirant une attention généralisée en raison de la diversité des scénarios d'application. Comme les LLMs et les MLLMs s'appuient sur un grand nombre de paramètres de modèles et de données pour atteindre des capacités émergentes, l'importance des données reçoit une attention et une reconnaissance de plus en plus marquées. En retraçant et en analysant les travaux récents axés sur les données pour les MLLMs, nous constatons que le développement des modèles et des données ne suit pas deux chemins séparés, mais plutôt qu'ils sont interconnectés. D'une part, des données plus vastes et de meilleure qualité contribuent à de meilleures performances des MLLMs, d'autre part, les MLLMs peuvent faciliter le développement des données. Le co-développement des données multi-modales et des MLLMs nécessite une vision claire de 1) à quel stade de développement des MLLMs des approches spécifiques centrées sur les données peuvent être employées pour améliorer quelles capacités, et 2) en utilisant quelles capacités et en jouant quels rôles les modèles peuvent contribuer aux données multi-modales. Pour promouvoir le co-développement données-modèles pour la communauté des MLLMs, nous passons en revue de manière systématique les travaux existants liés aux MLLMs sous l'angle du co-développement données-modèles. Un projet régulièrement mis à jour associé à cette étude est accessible à l'adresse suivante : https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
English
The rapid development of large language models (LLMs) has been witnessed in
recent years. Based on the powerful LLMs, multi-modal LLMs (MLLMs) extend the
modality from text to a broader spectrum of domains, attracting widespread
attention due to the broader range of application scenarios. As LLMs and MLLMs
rely on vast amounts of model parameters and data to achieve emergent
capabilities, the importance of data is receiving increasingly widespread
attention and recognition. Tracing and analyzing recent data-oriented works for
MLLMs, we find that the development of models and data is not two separate
paths but rather interconnected. On the one hand, vaster and higher-quality
data contribute to better performance of MLLMs, on the other hand, MLLMs can
facilitate the development of data. The co-development of multi-modal data and
MLLMs requires a clear view of 1) at which development stage of MLLMs can
specific data-centric approaches be employed to enhance which capabilities, and
2) by utilizing which capabilities and acting as which roles can models
contribute to multi-modal data. To promote the data-model co-development for
MLLM community, we systematically review existing works related to MLLMs from
the data-model co-development perspective. A regularly maintained project
associated with this survey is accessible at
https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.Summary
AI-Generated Summary