Data-Juicer Sandbox: Un conjunto integral para el desarrollo conjunto de datos y modelos multimodales
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development
July 16, 2024
Autores: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Resumen
La aparición de modelos generativos multi-modales a gran escala ha avanzado drásticamente la inteligencia artificial, introduciendo niveles sin precedentes de rendimiento y funcionalidad. Sin embargo, la optimización de estos modelos sigue siendo un desafío debido a los históricos caminos aislados de desarrollo centrados en el modelo y en los datos, lo que conduce a resultados subóptimos y a una utilización ineficiente de recursos. En respuesta, presentamos una nueva suite de pruebas adaptada para el desarrollo integrado de datos y modelos. Esta suite proporciona una plataforma experimental integral, que permite una rápida iteración y un refinamiento impulsado por la percepción tanto de los datos como de los modelos. Nuestro flujo de trabajo propuesto "Sondear-Analizar-Refinar", validado a través de aplicaciones en modelos basados en LLaVA y DiT de última generación, produce mejoras significativas en el rendimiento, como liderar la tabla de clasificación de VBench. También descubrimos ideas fructíferas obtenidas de exhaustivas pruebas, arrojando luz sobre la interacción crítica entre la calidad de los datos, la diversidad y el comportamiento del modelo. Con la esperanza de fomentar una comprensión más profunda y un progreso futuro en datos multi-modales y modelado generativo, nuestros códigos, conjuntos de datos y modelos se mantienen y son accesibles en https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
English
The emergence of large-scale multi-modal generative models has drastically
advanced artificial intelligence, introducing unprecedented levels of
performance and functionality. However, optimizing these models remains
challenging due to historically isolated paths of model-centric and
data-centric developments, leading to suboptimal outcomes and inefficient
resource utilization. In response, we present a novel sandbox suite tailored
for integrated data-model co-development. This sandbox provides a comprehensive
experimental platform, enabling rapid iteration and insight-driven refinement
of both data and models. Our proposed "Probe-Analyze-Refine" workflow,
validated through applications on state-of-the-art LLaVA-like and DiT based
models, yields significant performance boosts, such as topping the VBench
leaderboard. We also uncover fruitful insights gleaned from exhaustive
benchmarks, shedding light on the critical interplay between data quality,
diversity, and model behavior. With the hope of fostering deeper understanding
and future progress in multi-modal data and generative modeling, our codes,
datasets, and models are maintained and accessible at
https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.Summary
AI-Generated Summary