Data-Juicer Sandbox : Une Suite Complète pour le Co-développement de Modèles et de Données Multimodales
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development
July 16, 2024
Auteurs: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Résumé
L'émergence de modèles génératifs multi-modèles à grande échelle a considérablement fait progresser l'intelligence artificielle, introduisant des niveaux de performance et de fonctionnalité sans précédent. Cependant, l'optimisation de ces modèles reste un défi en raison des trajectoires historiquement isolées des développements centrés sur le modèle et sur les données, conduisant à des résultats sous-optimaux et à une utilisation inefficace des ressources. En réponse, nous présentons une suite de sandbox novatrice conçue pour un co-développement intégré des données et des modèles. Ce sandbox fournit une plateforme expérimentale complète, permettant une itération rapide et un affinement basé sur les insights à la fois des données et des modèles. Notre flux de travail "Sonder-Analyser-Raffiner", validé par des applications sur des modèles de pointe de type LLaVA et basés sur DiT, entraîne des gains de performance significatifs, comme atteindre la première place du classement VBench. Nous dévoilons également des insights précieux tirés de benchmarks exhaustifs, éclairant l'interaction critique entre la qualité des données, leur diversité et le comportement des modèles. Dans l'espoir de favoriser une compréhension plus approfondie et des progrès futurs dans les données multi-modales et la modélisation générative, nos codes, jeux de données et modèles sont maintenus et accessibles à l'adresse https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
English
The emergence of large-scale multi-modal generative models has drastically
advanced artificial intelligence, introducing unprecedented levels of
performance and functionality. However, optimizing these models remains
challenging due to historically isolated paths of model-centric and
data-centric developments, leading to suboptimal outcomes and inefficient
resource utilization. In response, we present a novel sandbox suite tailored
for integrated data-model co-development. This sandbox provides a comprehensive
experimental platform, enabling rapid iteration and insight-driven refinement
of both data and models. Our proposed "Probe-Analyze-Refine" workflow,
validated through applications on state-of-the-art LLaVA-like and DiT based
models, yields significant performance boosts, such as topping the VBench
leaderboard. We also uncover fruitful insights gleaned from exhaustive
benchmarks, shedding light on the critical interplay between data quality,
diversity, and model behavior. With the hope of fostering deeper understanding
and future progress in multi-modal data and generative modeling, our codes,
datasets, and models are maintained and accessible at
https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.Summary
AI-Generated Summary