JAM-Flow: 플로우 매칭을 활용한 오디오-모션 통합 합성
JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching
June 30, 2025
저자: Mingi Kwon, Joonghyuk Shin, Jaeseok Jung, Jaesik Park, Youngjung Uh
cs.AI
초록
얼굴 움직임과 음성 간의 본질적인 연결은 생성 모델링에서 종종 간과되곤 하며, 이는 일반적으로 말하는 머리 합성과 텍스트-음성 변환(TTS)을 별개의 작업으로 다루기 때문입니다. 본 논문은 JAM-Flow를 소개하며, 이는 얼굴 움직임과 음성을 동시에 합성하고 조건화할 수 있는 통합 프레임워크입니다. 우리의 접근 방식은 플로우 매칭(flow matching)과 새로운 다중 모달 디퓨전 트랜스포머(Multi-Modal Diffusion Transformer, MM-DiT) 아키텍처를 활용하며, 여기에는 특화된 Motion-DiT와 Audio-DiT 모듈이 통합되어 있습니다. 이 모듈들은 선택적 공동 주의(selective joint attention) 레이어를 통해 결합되며, 시간적으로 정렬된 위치 임베딩(temporally aligned positional embeddings)과 지역화된 공동 주의 마스킹(localized joint attention masking)과 같은 주요 아키텍처 선택을 포함하여 효과적인 교차 모달 상호작용을 가능하게 하면서도 각 모달리티의 특정 강점을 보존합니다. 인페인팅(inpainting) 스타일의 목적 함수로 학습된 JAM-Flow는 텍스트, 참조 오디오, 참조 움직임을 포함한 다양한 조건 입력을 지원하며, 텍스트에서 동기화된 말하는 머리 생성, 오디오 기반 애니메이션 등 다양한 작업을 단일 일관된 모델 내에서 수행할 수 있도록 합니다. JAM-Flow는 전체적인 오디오-비주얼 합성을 위한 실용적인 솔루션을 제공함으로써 다중 모달 생성 모델링을 크게 발전시킵니다. 프로젝트 페이지: https://joonghyuk.com/jamflow-web
English
The intrinsic link between facial motion and speech is often overlooked in
generative modeling, where talking head synthesis and text-to-speech (TTS) are
typically addressed as separate tasks. This paper introduces JAM-Flow, a
unified framework to simultaneously synthesize and condition on both facial
motion and speech. Our approach leverages flow matching and a novel Multi-Modal
Diffusion Transformer (MM-DiT) architecture, integrating specialized Motion-DiT
and Audio-DiT modules. These are coupled via selective joint attention layers
and incorporate key architectural choices, such as temporally aligned
positional embeddings and localized joint attention masking, to enable
effective cross-modal interaction while preserving modality-specific strengths.
Trained with an inpainting-style objective, JAM-Flow supports a wide array of
conditioning inputs-including text, reference audio, and reference
motion-facilitating tasks such as synchronized talking head generation from
text, audio-driven animation, and much more, within a single, coherent model.
JAM-Flow significantly advances multi-modal generative modeling by providing a
practical solution for holistic audio-visual synthesis. project page:
https://joonghyuk.com/jamflow-web