Data-Juicer Sandbox: Een Uitgebreide Suite voor Multimodale Data-Model Co-ontwikkeling
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development
July 16, 2024
Auteurs: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Samenvatting
De opkomst van grootschalige multimodale generatieve modellen heeft kunstmatige intelligentie aanzienlijk vooruitgeholpen, met ongekende niveaus van prestaties en functionaliteit. Het optimaliseren van deze modellen blijft echter een uitdaging vanwege historisch gescheiden ontwikkelingspaden van modelgerichte en datagerichte benaderingen, wat leidt tot suboptimale resultaten en inefficiënt gebruik van middelen. Als reactie hierop presenteren wij een nieuw sandbox-suite, speciaal ontworpen voor geïntegreerde data-model co-ontwikkeling. Deze sandbox biedt een uitgebreid experimenteel platform, waardoor snelle iteratie en inzichtgedreven verfijning van zowel data als modellen mogelijk wordt. Onze voorgestelde "Probe-Analyze-Refine"-werkwijze, gevalideerd door toepassingen op state-of-the-art LLaVA-achtige en DiT-gebaseerde modellen, leidt tot aanzienlijke prestatieverbeteringen, zoals het bereiken van de top op de VBench-leaderboard. We hebben ook waardevolle inzichten verkregen uit uitgebreide benchmarks, die licht werpen op het cruciale samenspel tussen data-kwaliteit, diversiteit en modelgedrag. Met de hoop om een dieper begrip en toekomstige vooruitgang in multimodale data en generatieve modellering te bevorderen, worden onze codes, datasets en modellen onderhouden en toegankelijk gehouden op https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
English
The emergence of large-scale multi-modal generative models has drastically
advanced artificial intelligence, introducing unprecedented levels of
performance and functionality. However, optimizing these models remains
challenging due to historically isolated paths of model-centric and
data-centric developments, leading to suboptimal outcomes and inefficient
resource utilization. In response, we present a novel sandbox suite tailored
for integrated data-model co-development. This sandbox provides a comprehensive
experimental platform, enabling rapid iteration and insight-driven refinement
of both data and models. Our proposed "Probe-Analyze-Refine" workflow,
validated through applications on state-of-the-art LLaVA-like and DiT based
models, yields significant performance boosts, such as topping the VBench
leaderboard. We also uncover fruitful insights gleaned from exhaustive
benchmarks, shedding light on the critical interplay between data quality,
diversity, and model behavior. With the hope of fostering deeper understanding
and future progress in multi-modal data and generative modeling, our codes,
datasets, and models are maintained and accessible at
https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.