BindWeave: Subjektkonsistente Videogenerierung durch Cross-Modale Integration

papers.abstract

Der Diffusion Transformer hat bemerkenswerte Fähigkeiten bei der Erzeugung von hochauflösenden Videos gezeigt, die visuell kohärente Frames und detailreiche Inhalte über längere Zeiträume liefern. Bestehende Modelle zur Videogenerierung scheitern jedoch noch an der konsistenten Darstellung von Subjekten, da es ihnen schwerfällt, Prompts zu interpretieren, die komplexe räumliche Beziehungen, zeitliche Logik und Interaktionen zwischen mehreren Subjekten spezifizieren. Um dieses Problem zu lösen, schlagen wir BindWeave vor, ein einheitliches Framework, das eine breite Palette von Szenarien von Einzelsubjekten bis hin zu komplexen Mehrsubjektszenen mit heterogenen Entitäten abdeckt. Um die komplexe Semantik von Prompts an konkrete visuelle Subjekte zu binden, führen wir ein MLLM-DiT-Framework ein, in dem ein vortrainiertes multimodales großes Sprachmodell tiefgreifende cross-modale Schlussfolgerungen durchführt, um Entitäten zu verankern und Rollen, Attribute sowie Interaktionen zu entwirren. Dies führt zu subjektbewussten verborgenen Zuständen, die den Diffusion Transformer für die Erzeugung von hochauflösenden, subjektkonsistenten Videos konditionieren. Experimente auf dem OpenS2V-Benchmark zeigen, dass unsere Methode in Bezug auf Subjektkonsistenz, Natürlichkeit und Textrelevanz in generierten Videos überlegene Leistungen erzielt und bestehende Open-Source- und kommerzielle Modelle übertrifft.

English

Diffusion Transformer has shown remarkable abilities in generating high-fidelity videos, delivering visually coherent frames and rich details over extended durations. However, existing video generation models still fall short in subject-consistent video generation due to an inherent difficulty in parsing prompts that specify complex spatial relationships, temporal logic, and interactions among multiple subjects. To address this issue, we propose BindWeave, a unified framework that handles a broad range of subject-to-video scenarios from single-subject cases to complex multi-subject scenes with heterogeneous entities. To bind complex prompt semantics to concrete visual subjects, we introduce an MLLM-DiT framework in which a pretrained multimodal large language model performs deep cross-modal reasoning to ground entities and disentangle roles, attributes, and interactions, yielding subject-aware hidden states that condition the diffusion transformer for high-fidelity subject-consistent video generation. Experiments on the OpenS2V benchmark demonstrate that our method achieves superior performance across subject consistency, naturalness, and text relevance in generated videos, outperforming existing open-source and commercial models.

BindWeave: Subjektkonsistente Videogenerierung durch Cross-Modale Integration

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

papers.abstract

Support