ChatPaper.aiChatPaper

OmniWeaving: 자유 형식 구성과 추론을 통한 통합 비디오 생성 방향

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

March 25, 2026
저자: Kaihang Pan, Qi Tian, Jianwei Zhang, Weijie Kong, Jiangfeng Xiong, Yanxin Long, Shixue Zhang, Haiyi Qiu, Tan Wang, Zheqi Lv, Yue Wu, Liefeng Bo, Siliang Tang, Zhao Zhong
cs.AI

초록

Seedance-2.0과 같은 독점 시스템이 전능형 비디오 생성 분야에서 놀라운 성과를 거두었지만, 오픈소스 대안들은 여전히 크게 뒤처져 있습니다. 대부분의 학술 모델은 여전히 심각하게 분열된 상태이며, 통합 비디오 생성을 위한 기존 소수의 연구들도 단일 프레임워크 내에서 다양한 작업을 원활하게 통합하는 데 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해 우리는 강력한 다중모달 구성 및 추론 기반 능력을 갖춘 전수준(omni-level) 비디오 생성 모델인 OmniWeaving을 제안합니다. 다양한 구성적 및 추론 증강 시나리오를 포괄하는 대규모 사전 학습 데이터셋을 활용함으로써, OmniWeaving은 교차된 텍스트, 다중 이미지 및 비디오 입력을 시간적으로 결합하는 동시에 복잡한 사용자 의도를 추론하여 정교한 비디오를 생성하는 지능형 에이전트 역할을 학습합니다. 더 나아가, 우리는 차세대 지능형 통합 비디오 생성을 엄격하게 평가하기 위해 설계된 최초의 포괄적 벤치마크인 IntelligentVBench을 소개합니다. 대규모 실험을 통해 OmniWeaving이 오픈소스 통합 모델 중에서 최첨단(SoTA) 성능을 달성함을 입증합니다. 코드와 모델은 곧 공개될 예정입니다. 프로젝트 페이지: https://omniweaving.github.io.
English
While proprietary systems such as Seedance-2.0 have achieved remarkable success in omni-capable video generation, open-source alternatives significantly lag behind. Most academic models remain heavily fragmented, and the few existing efforts toward unified video generation still struggle to seamlessly integrate diverse tasks within a single framework. To bridge this gap, we propose OmniWeaving, an omni-level video generation model featuring powerful multimodal composition and reasoning-informed capabilities. By leveraging a massive-scale pretraining dataset that encompasses diverse compositional and reasoning-augmented scenarios, OmniWeaving learns to temporally bind interleaved text, multi-image, and video inputs while acting as an intelligent agent to infer complex user intentions for sophisticated video creation. Furthermore, we introduce IntelligentVBench, the first comprehensive benchmark designed to rigorously assess next-level intelligent unified video generation. Extensive experiments demonstrate that OmniWeaving achieves SoTA performance among open-source unified models. The codes and model will be made publicly available soon. Project Page: https://omniweaving.github.io.
PDF41March 27, 2026