JAM-Flow: Gemeinsame Audio-Bewegungs-Synthese mit Flow Matching
JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching
June 30, 2025
Autoren: Mingi Kwon, Joonghyuk Shin, Jaeseok Jung, Jaesik Park, Youngjung Uh
cs.AI
Zusammenfassung
Die intrinsische Verbindung zwischen Gesichtsbewegungen und Sprache wird in der generativen Modellierung oft übersehen, wo die Synthese von sprechenden Köpfen und Text-zu-Sprache (TTS) typischerweise als separate Aufgaben behandelt werden. Dieses Paper stellt JAM-Flow vor, ein einheitliches Framework, das gleichzeitig Gesichtsbewegungen und Sprache synthetisiert und darauf konditioniert. Unser Ansatz nutzt Flow Matching und eine neuartige Multi-Modale Diffusions-Transformer-Architektur (MM-DiT), die spezialisierte Motion-DiT- und Audio-DiT-Module integriert. Diese sind über selektive Joint-Attention-Schichten gekoppelt und beinhalten wichtige architektonische Entscheidungen, wie zeitlich ausgerichtete Positions-Einbettungen und lokalisierte Joint-Attention-Maskierung, um eine effektive cross-modale Interaktion zu ermöglichen, während die modalspezifischen Stärken erhalten bleiben. Mit einem Inpainting-ähnlichen Ziel trainiert, unterstützt JAM-Flow eine Vielzahl von Konditionierungs-Eingaben – einschließlich Text, Referenz-Audio und Referenz-Bewegung – und ermöglicht Aufgaben wie die synchronisierte Generierung von sprechenden Köpfen aus Text, audio-gesteuerte Animation und vieles mehr, alles innerhalb eines einzigen, kohärenten Modells. JAM-Flow leistet einen bedeutenden Fortschritt in der multi-modalen generativen Modellierung, indem es eine praktische Lösung für ganzheitliche audio-visuelle Synthese bietet. Projektseite: https://joonghyuk.com/jamflow-web
English
The intrinsic link between facial motion and speech is often overlooked in
generative modeling, where talking head synthesis and text-to-speech (TTS) are
typically addressed as separate tasks. This paper introduces JAM-Flow, a
unified framework to simultaneously synthesize and condition on both facial
motion and speech. Our approach leverages flow matching and a novel Multi-Modal
Diffusion Transformer (MM-DiT) architecture, integrating specialized Motion-DiT
and Audio-DiT modules. These are coupled via selective joint attention layers
and incorporate key architectural choices, such as temporally aligned
positional embeddings and localized joint attention masking, to enable
effective cross-modal interaction while preserving modality-specific strengths.
Trained with an inpainting-style objective, JAM-Flow supports a wide array of
conditioning inputs-including text, reference audio, and reference
motion-facilitating tasks such as synchronized talking head generation from
text, audio-driven animation, and much more, within a single, coherent model.
JAM-Flow significantly advances multi-modal generative modeling by providing a
practical solution for holistic audio-visual synthesis. project page:
https://joonghyuk.com/jamflow-web