Data-Juicer Sandbox: Una Suite Completa per la Co-sviluppo di Dati e Modelli Multimodali
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development
July 16, 2024
Autori: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Abstract
L'emergenza di modelli generativi multimodali su larga scala ha drasticamente avanzato l'intelligenza artificiale, introducendo livelli di prestazione e funzionalità senza precedenti. Tuttavia, ottimizzare questi modelli rimane una sfida a causa dei percorsi storicamente isolati degli sviluppi centrati sul modello e sui dati, portando a risultati subottimali e a un utilizzo inefficiente delle risorse. In risposta, presentiamo una nuova suite sandbox progettata per lo sviluppo integrato di dati e modelli. Questo sandbox fornisce una piattaforma sperimentale completa, consentendo un'iterazione rapida e un affinamento guidato da intuizioni sia dei dati che dei modelli. Il nostro flusso di lavoro "Probe-Analyze-Refine", validato attraverso applicazioni su modelli all'avanguardia simili a LLaVA e basati su DiT, produce significativi miglioramenti delle prestazioni, come il raggiungimento della vetta della classifica VBench. Scopriamo inoltre intuizioni fruttuose ottenute da benchmark esaustivi, che gettano luce sull'interazione critica tra qualità dei dati, diversità e comportamento del modello. Con la speranza di favorire una comprensione più profonda e progressi futuri nei dati multimodali e nella modellazione generativa, i nostri codici, dataset e modelli sono mantenuti e accessibili all'indirizzo https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
English
The emergence of large-scale multi-modal generative models has drastically
advanced artificial intelligence, introducing unprecedented levels of
performance and functionality. However, optimizing these models remains
challenging due to historically isolated paths of model-centric and
data-centric developments, leading to suboptimal outcomes and inefficient
resource utilization. In response, we present a novel sandbox suite tailored
for integrated data-model co-development. This sandbox provides a comprehensive
experimental platform, enabling rapid iteration and insight-driven refinement
of both data and models. Our proposed "Probe-Analyze-Refine" workflow,
validated through applications on state-of-the-art LLaVA-like and DiT based
models, yields significant performance boosts, such as topping the VBench
leaderboard. We also uncover fruitful insights gleaned from exhaustive
benchmarks, shedding light on the critical interplay between data quality,
diversity, and model behavior. With the hope of fostering deeper understanding
and future progress in multi-modal data and generative modeling, our codes,
datasets, and models are maintained and accessible at
https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.