ChatPaper.aiChatPaper

Data-Juicer 샌드박스: 멀티모달 데이터-모델 공동 개발을 위한 포괄적 도구 모음

Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

July 16, 2024
저자: Daoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI

초록

대규모 멀티모달 생성 모델의 등장은 인공지능을 급격히 발전시켜 전례 없는 수준의 성능과 기능을 도입했습니다. 그러나 이러한 모델의 최적화는 역사적으로 모델 중심과 데이터 중심의 개발 경로가 분리되어 있어 최적의 결과를 얻지 못하고 자원 활용이 비효율적이라는 점에서 여전히 어려운 과제로 남아 있습니다. 이에 대응하여, 우리는 통합된 데이터-모델 공동 개발을 위해 특별히 설계된 새로운 샌드박스 제품군을 제시합니다. 이 샌드박스는 포괄적인 실험 플랫폼을 제공하여 데이터와 모델 모두에 대한 신속한 반복 및 통찰 기반 개선을 가능하게 합니다. 우리가 제안한 "탐색-분석-개선" 워크플로우는 최신 LLaVA 유사 모델과 DiT 기반 모델에 대한 응용을 통해 검증되었으며, VBench 리더보드 정상에 오르는 등 상당한 성능 향상을 이끌어냈습니다. 또한, 우리는 철저한 벤치마크를 통해 얻은 유익한 통찰을 발견하여 데이터 품질, 다양성 및 모델 행동 간의 중요한 상호작용을 밝혀냈습니다. 멀티모달 데이터와 생성 모델링에 대한 더 깊은 이해와 미래의 진전을 촉진하고자, 우리의 코드, 데이터셋 및 모델은 https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md에서 유지 및 접근 가능합니다.
English
The emergence of large-scale multi-modal generative models has drastically advanced artificial intelligence, introducing unprecedented levels of performance and functionality. However, optimizing these models remains challenging due to historically isolated paths of model-centric and data-centric developments, leading to suboptimal outcomes and inefficient resource utilization. In response, we present a novel sandbox suite tailored for integrated data-model co-development. This sandbox provides a comprehensive experimental platform, enabling rapid iteration and insight-driven refinement of both data and models. Our proposed "Probe-Analyze-Refine" workflow, validated through applications on state-of-the-art LLaVA-like and DiT based models, yields significant performance boosts, such as topping the VBench leaderboard. We also uncover fruitful insights gleaned from exhaustive benchmarks, shedding light on the critical interplay between data quality, diversity, and model behavior. With the hope of fostering deeper understanding and future progress in multi-modal data and generative modeling, our codes, datasets, and models are maintained and accessible at https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

Summary

AI-Generated Summary

PDF42November 28, 2024