BindWeave: Subjektkonsistente Videogenerierung durch Cross-Modale Integration
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration
October 1, 2025
papers.authors: Zhaoyang Li, Dongjun Qian, Kai Su, Qishuai Diao, Xiangyang Xia, Chang Liu, Wenfei Yang, Tianzhu Zhang, Zehuan Yuan
cs.AI
papers.abstract
Der Diffusion Transformer hat bemerkenswerte Fähigkeiten bei der Erzeugung von hochauflösenden Videos gezeigt, die visuell kohärente Frames und detailreiche Inhalte über längere Zeiträume liefern. Bestehende Modelle zur Videogenerierung scheitern jedoch noch an der konsistenten Darstellung von Subjekten, da es ihnen schwerfällt, Prompts zu interpretieren, die komplexe räumliche Beziehungen, zeitliche Logik und Interaktionen zwischen mehreren Subjekten spezifizieren. Um dieses Problem zu lösen, schlagen wir BindWeave vor, ein einheitliches Framework, das eine breite Palette von Szenarien von Einzelsubjekten bis hin zu komplexen Mehrsubjektszenen mit heterogenen Entitäten abdeckt. Um die komplexe Semantik von Prompts an konkrete visuelle Subjekte zu binden, führen wir ein MLLM-DiT-Framework ein, in dem ein vortrainiertes multimodales großes Sprachmodell tiefgreifende cross-modale Schlussfolgerungen durchführt, um Entitäten zu verankern und Rollen, Attribute sowie Interaktionen zu entwirren. Dies führt zu subjektbewussten verborgenen Zuständen, die den Diffusion Transformer für die Erzeugung von hochauflösenden, subjektkonsistenten Videos konditionieren. Experimente auf dem OpenS2V-Benchmark zeigen, dass unsere Methode in Bezug auf Subjektkonsistenz, Natürlichkeit und Textrelevanz in generierten Videos überlegene Leistungen erzielt und bestehende Open-Source- und kommerzielle Modelle übertrifft.
English
Diffusion Transformer has shown remarkable abilities in generating
high-fidelity videos, delivering visually coherent frames and rich details over
extended durations. However, existing video generation models still fall short
in subject-consistent video generation due to an inherent difficulty in parsing
prompts that specify complex spatial relationships, temporal logic, and
interactions among multiple subjects. To address this issue, we propose
BindWeave, a unified framework that handles a broad range of subject-to-video
scenarios from single-subject cases to complex multi-subject scenes with
heterogeneous entities. To bind complex prompt semantics to concrete visual
subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal
large language model performs deep cross-modal reasoning to ground entities and
disentangle roles, attributes, and interactions, yielding subject-aware hidden
states that condition the diffusion transformer for high-fidelity
subject-consistent video generation. Experiments on the OpenS2V benchmark
demonstrate that our method achieves superior performance across subject
consistency, naturalness, and text relevance in generated videos, outperforming
existing open-source and commercial models.