SAMA: 지시어 기반 비디오 편성을 위한 요인화된 의미 정착 및 모션 정렬
SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing
March 19, 2026
저자: Xinyao Zhang, Wenkai Dong, Yuxin Song, Bo Fang, Qi Zhang, Jing Wang, Fan Chen, Hui Zhang, Haocheng Feng, Yu Lu, Hang Zhou, Chun Yuan, Jingdong Wang
cs.AI
초록
현재 지시어 기반 비디오 편집 모델은 정확한 의미론적 수정과 원본 모션 보존을 동시에 달성하는 데 어려움을 겪고 있습니다. 기존 접근법들은 이러한 문제를 완화하기 위해 명시적인 외부 사전 정보(예: VLM 특징 또는 구조적 조건) 주입에 의존하지만, 이러한 의존성은 모델의 강건성과 일반화 성능을 심각하게 제한합니다. 이러한 한계를 극복하기 위해 우리는 비디오 편집을 의미론적 앵커링과 모션 모델링으로 분해하는 프레임워크인 SAMA(분해된 의미론적 앵커링 및 모션 정렬)를 제안합니다. 첫째, 희소 앵커 프레임에서 의미론적 토큰과 비디오 잠재 변수를 공동으로 예측하여 신뢰할 수 있는 시각적 앵커를 설정하는 의미론적 앵커링을 도입함으로써 순수하게 지시어 인식 구조 계획을 가능하게 합니다. 둘째, 모션 중심의 비디오 복원 프리텍스트 작업(큐브 인페인팅, 속도 변형, 튜브 셔플)을 통해 동일한 백본을 사전 학습하는 모션 정렬을 통해 모델이 원본 비디오로부터 직접 시간적 역학을 내재화할 수 있게 합니다. SAMA는 2단계 파이프라인으로 최적화됩니다: 짝을 이루는 비디오-지시어 편집 데이터 없이도 본질적인 의미론-모션 표현을 학습하는 분해 사전 학습 단계와, 짝을 이루는 편집 데이터에 대한 지도 미세 조정 단계가 뒤따릅니다. 주목할 점은, 분해 사전 학습만으로도 강력한 제로샷 비디오 편집 능력이 발현되어 제안된 분해 방식의 타당성을 입증합니다. SAMA는 오픈소스 모델 중 최첨단 성능을 달성하며 주요 상용 시스템(예: Kling-Omni)과도 경쟁력이 있습니다. 코드, 모델 및 데이터셋은 공개될 예정입니다.
English
Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.