Data-Juicer Sandbox: Een Uitgebreide Suite voor Multimodale Data-Model Co-ontwikkeling

Samenvatting

De opkomst van grootschalige multimodale generatieve modellen heeft kunstmatige intelligentie aanzienlijk vooruitgeholpen, met ongekende niveaus van prestaties en functionaliteit. Het optimaliseren van deze modellen blijft echter een uitdaging vanwege historisch gescheiden ontwikkelingspaden van modelgerichte en datagerichte benaderingen, wat leidt tot suboptimale resultaten en inefficiënt gebruik van middelen. Als reactie hierop presenteren wij een nieuw sandbox-suite, speciaal ontworpen voor geïntegreerde data-model co-ontwikkeling. Deze sandbox biedt een uitgebreid experimenteel platform, waardoor snelle iteratie en inzichtgedreven verfijning van zowel data als modellen mogelijk wordt. Onze voorgestelde "Probe-Analyze-Refine"-werkwijze, gevalideerd door toepassingen op state-of-the-art LLaVA-achtige en DiT-gebaseerde modellen, leidt tot aanzienlijke prestatieverbeteringen, zoals het bereiken van de top op de VBench-leaderboard. We hebben ook waardevolle inzichten verkregen uit uitgebreide benchmarks, die licht werpen op het cruciale samenspel tussen data-kwaliteit, diversiteit en modelgedrag. Met de hoop om een dieper begrip en toekomstige vooruitgang in multimodale data en generatieve modellering te bevorderen, worden onze codes, datasets en modellen onderhouden en toegankelijk gehouden op https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

English

The emergence of large-scale multi-modal generative models has drastically advanced artificial intelligence, introducing unprecedented levels of performance and functionality. However, optimizing these models remains challenging due to historically isolated paths of model-centric and data-centric developments, leading to suboptimal outcomes and inefficient resource utilization. In response, we present a novel sandbox suite tailored for integrated data-model co-development. This sandbox provides a comprehensive experimental platform, enabling rapid iteration and insight-driven refinement of both data and models. Our proposed "Probe-Analyze-Refine" workflow, validated through applications on state-of-the-art LLaVA-like and DiT based models, yields significant performance boosts, such as topping the VBench leaderboard. We also uncover fruitful insights gleaned from exhaustive benchmarks, shedding light on the critical interplay between data quality, diversity, and model behavior. With the hope of fostering deeper understanding and future progress in multi-modal data and generative modeling, our codes, datasets, and models are maintained and accessible at https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

Data-Juicer Sandbox: Een Uitgebreide Suite voor Multimodale Data-Model Co-ontwikkeling

Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Samenvatting

Support