La Synergie entre les Données et les Modèles de Langage Multi-Modaux à Grande Échelle : Une Étude sous l'Angle du Co-Développement

papers.abstract

Le développement rapide des grands modèles de langage (LLMs) a été observé ces dernières années. Basés sur ces puissants LLMs, les modèles de langage multi-modaux (MLLMs) étendent la modalité du texte à un spectre plus large de domaines, attirant une attention généralisée en raison de la diversité des scénarios d'application. Comme les LLMs et les MLLMs s'appuient sur un grand nombre de paramètres de modèles et de données pour atteindre des capacités émergentes, l'importance des données reçoit une attention et une reconnaissance de plus en plus marquées. En retraçant et en analysant les travaux récents axés sur les données pour les MLLMs, nous constatons que le développement des modèles et des données ne suit pas deux chemins séparés, mais plutôt qu'ils sont interconnectés. D'une part, des données plus vastes et de meilleure qualité contribuent à de meilleures performances des MLLMs, d'autre part, les MLLMs peuvent faciliter le développement des données. Le co-développement des données multi-modales et des MLLMs nécessite une vision claire de 1) à quel stade de développement des MLLMs des approches spécifiques centrées sur les données peuvent être employées pour améliorer quelles capacités, et 2) en utilisant quelles capacités et en jouant quels rôles les modèles peuvent contribuer aux données multi-modales. Pour promouvoir le co-développement données-modèles pour la communauté des MLLMs, nous passons en revue de manière systématique les travaux existants liés aux MLLMs sous l'angle du co-développement données-modèles. Un projet régulièrement mis à jour associé à cette étude est accessible à l'adresse suivante : https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.

English

The rapid development of large language models (LLMs) has been witnessed in recent years. Based on the powerful LLMs, multi-modal LLMs (MLLMs) extend the modality from text to a broader spectrum of domains, attracting widespread attention due to the broader range of application scenarios. As LLMs and MLLMs rely on vast amounts of model parameters and data to achieve emergent capabilities, the importance of data is receiving increasingly widespread attention and recognition. Tracing and analyzing recent data-oriented works for MLLMs, we find that the development of models and data is not two separate paths but rather interconnected. On the one hand, vaster and higher-quality data contribute to better performance of MLLMs, on the other hand, MLLMs can facilitate the development of data. The co-development of multi-modal data and MLLMs requires a clear view of 1) at which development stage of MLLMs can specific data-centric approaches be employed to enhance which capabilities, and 2) by utilizing which capabilities and acting as which roles can models contribute to multi-modal data. To promote the data-model co-development for MLLM community, we systematically review existing works related to MLLMs from the data-model co-development perspective. A regularly maintained project associated with this survey is accessible at https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.

La Synergie entre les Données et les Modèles de Langage Multi-Modaux à Grande Échelle : Une Étude sous l'Angle du Co-Développement

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

papers.abstract

Support