Data-Juicer Sandbox: Uma Suíte Abrangente para o Desenvolvimento Coletivo de Dados e Modelos Multimodais

Resumo

A emergência de modelos generativos multi-modais em larga escala avançou drasticamente a inteligência artificial, introduzindo níveis sem precedentes de desempenho e funcionalidade. No entanto, otimizar esses modelos continua sendo um desafio devido aos caminhos historicamente isolados de desenvolvimentos centrados em modelos e em dados, resultando em resultados subótimos e utilização ineficiente de recursos. Em resposta, apresentamos uma nova suíte de testes adaptada para o desenvolvimento integrado de dados e modelos. Este ambiente de testes fornece uma plataforma experimental abrangente, permitindo iteração rápida e refinamento orientado por insights tanto de dados quanto de modelos. Nosso fluxo de trabalho proposto "Sondar-Analisar-Refinar", validado por aplicações em modelos baseados em LLaVA e DiT de última geração, resulta em melhorias significativas de desempenho, como liderar o quadro de líderes do VBench. Também descobrimos insights proveitosos obtidos de benchmarks exaustivos, lançando luz sobre a interação crítica entre qualidade de dados, diversidade e comportamento do modelo. Com a esperança de promover um entendimento mais profundo e progresso futuro em dados multi-modais e modelagem generativa, nossos códigos, conjuntos de dados e modelos são mantidos e acessíveis em https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

English

The emergence of large-scale multi-modal generative models has drastically advanced artificial intelligence, introducing unprecedented levels of performance and functionality. However, optimizing these models remains challenging due to historically isolated paths of model-centric and data-centric developments, leading to suboptimal outcomes and inefficient resource utilization. In response, we present a novel sandbox suite tailored for integrated data-model co-development. This sandbox provides a comprehensive experimental platform, enabling rapid iteration and insight-driven refinement of both data and models. Our proposed "Probe-Analyze-Refine" workflow, validated through applications on state-of-the-art LLaVA-like and DiT based models, yields significant performance boosts, such as topping the VBench leaderboard. We also uncover fruitful insights gleaned from exhaustive benchmarks, shedding light on the critical interplay between data quality, diversity, and model behavior. With the hope of fostering deeper understanding and future progress in multi-modal data and generative modeling, our codes, datasets, and models are maintained and accessible at https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

Data-Juicer Sandbox: Uma Suíte Abrangente para o Desenvolvimento Coletivo de Dados e Modelos Multimodais

Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Resumo

Support