ChatPaper.aiChatPaper

Data-Juicer Sandbox: Una Suite Completa per la Co-sviluppo di Dati e Modelli Multimodali

Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

July 16, 2024
Autori: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI

Abstract

L'emergenza di modelli generativi multimodali su larga scala ha drasticamente avanzato l'intelligenza artificiale, introducendo livelli di prestazione e funzionalità senza precedenti. Tuttavia, ottimizzare questi modelli rimane una sfida a causa dei percorsi storicamente isolati degli sviluppi centrati sul modello e sui dati, portando a risultati subottimali e a un utilizzo inefficiente delle risorse. In risposta, presentiamo una nuova suite sandbox progettata per lo sviluppo integrato di dati e modelli. Questo sandbox fornisce una piattaforma sperimentale completa, consentendo un'iterazione rapida e un affinamento guidato da intuizioni sia dei dati che dei modelli. Il nostro flusso di lavoro "Probe-Analyze-Refine", validato attraverso applicazioni su modelli all'avanguardia simili a LLaVA e basati su DiT, produce significativi miglioramenti delle prestazioni, come il raggiungimento della vetta della classifica VBench. Scopriamo inoltre intuizioni fruttuose ottenute da benchmark esaustivi, che gettano luce sull'interazione critica tra qualità dei dati, diversità e comportamento del modello. Con la speranza di favorire una comprensione più profonda e progressi futuri nei dati multimodali e nella modellazione generativa, i nostri codici, dataset e modelli sono mantenuti e accessibili all'indirizzo https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
English
The emergence of large-scale multi-modal generative models has drastically advanced artificial intelligence, introducing unprecedented levels of performance and functionality. However, optimizing these models remains challenging due to historically isolated paths of model-centric and data-centric developments, leading to suboptimal outcomes and inefficient resource utilization. In response, we present a novel sandbox suite tailored for integrated data-model co-development. This sandbox provides a comprehensive experimental platform, enabling rapid iteration and insight-driven refinement of both data and models. Our proposed "Probe-Analyze-Refine" workflow, validated through applications on state-of-the-art LLaVA-like and DiT based models, yields significant performance boosts, such as topping the VBench leaderboard. We also uncover fruitful insights gleaned from exhaustive benchmarks, shedding light on the critical interplay between data quality, diversity, and model behavior. With the hope of fostering deeper understanding and future progress in multi-modal data and generative modeling, our codes, datasets, and models are maintained and accessible at https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
PDF42November 28, 2024