Data-Juicer Sandbox: Uma Suíte Abrangente para o Desenvolvimento Coletivo de Dados e Modelos Multimodais
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development
July 16, 2024
Autores: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Resumo
A emergência de modelos generativos multi-modais em larga escala avançou drasticamente a inteligência artificial, introduzindo níveis sem precedentes de desempenho e funcionalidade. No entanto, otimizar esses modelos continua sendo um desafio devido aos caminhos historicamente isolados de desenvolvimentos centrados em modelos e em dados, resultando em resultados subótimos e utilização ineficiente de recursos. Em resposta, apresentamos uma nova suíte de testes adaptada para o desenvolvimento integrado de dados e modelos. Este ambiente de testes fornece uma plataforma experimental abrangente, permitindo iteração rápida e refinamento orientado por insights tanto de dados quanto de modelos. Nosso fluxo de trabalho proposto "Sondar-Analisar-Refinar", validado por aplicações em modelos baseados em LLaVA e DiT de última geração, resulta em melhorias significativas de desempenho, como liderar o quadro de líderes do VBench. Também descobrimos insights proveitosos obtidos de benchmarks exaustivos, lançando luz sobre a interação crítica entre qualidade de dados, diversidade e comportamento do modelo. Com a esperança de promover um entendimento mais profundo e progresso futuro em dados multi-modais e modelagem generativa, nossos códigos, conjuntos de dados e modelos são mantidos e acessíveis em https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
English
The emergence of large-scale multi-modal generative models has drastically
advanced artificial intelligence, introducing unprecedented levels of
performance and functionality. However, optimizing these models remains
challenging due to historically isolated paths of model-centric and
data-centric developments, leading to suboptimal outcomes and inefficient
resource utilization. In response, we present a novel sandbox suite tailored
for integrated data-model co-development. This sandbox provides a comprehensive
experimental platform, enabling rapid iteration and insight-driven refinement
of both data and models. Our proposed "Probe-Analyze-Refine" workflow,
validated through applications on state-of-the-art LLaVA-like and DiT based
models, yields significant performance boosts, such as topping the VBench
leaderboard. We also uncover fruitful insights gleaned from exhaustive
benchmarks, shedding light on the critical interplay between data quality,
diversity, and model behavior. With the hope of fostering deeper understanding
and future progress in multi-modal data and generative modeling, our codes,
datasets, and models are maintained and accessible at
https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.