ChatPaper.aiChatPaper

STR-Match: 훈련 없이 비디오 편집을 위한 시공간 관련성 점수 매칭

STR-Match: Matching SpatioTemporal Relevance Score for Training-Free Video Editing

June 28, 2025
저자: Junsung Lee, Junoh Kang, Bohyung Han
cs.AI

초록

이전의 텍스트 기반 비디오 편집 방법들은 종종 시간적 불일치, 움직임 왜곡, 그리고 가장 두드러지게는 제한된 도메인 변환 문제를 겪곤 했습니다. 우리는 이러한 한계를 편집 과정에서 시공간적 픽셀 관련성의 불충분한 모델링으로 인한 것으로 파악했습니다. 이를 해결하기 위해, 우리는 STR-Match라는 학습이 필요 없는 비디오 편색 알고리즘을 제안합니다. 이 알고리즘은 우리의 새로운 STR 점수에 기반한 잠재적 최적화를 통해 시각적으로 매력적이고 시공간적으로 일관된 비디오를 생성합니다. 이 점수는 텍스트-투-비디오(T2V) 확산 모델에서 2D 공간적 주의 메커니즘과 1D 시간적 모듈을 활용하여 인접 프레임 간의 시공간적 픽셀 관련성을 포착하며, 계산 비용이 많이 드는 3D 주의 메커니즘을 사용하지 않습니다. 잠재적 마스크와 함께 잠재적 최적화 프레임워크에 통합된 STR-Match는 시간적으로 일관되고 시각적으로 충실한 비디오를 생성하며, 중요한 도메인 변환에서도 강력한 성능을 유지하면서 소스의 주요 시각적 속성을 보존합니다. 광범위한 실험을 통해 STR-Match가 시각적 품질과 시공간적 일관성 모두에서 기존 방법들을 꾸준히 능가함을 입증했습니다.
English
Previous text-guided video editing methods often suffer from temporal inconsistency, motion distortion, and-most notably-limited domain transformation. We attribute these limitations to insufficient modeling of spatiotemporal pixel relevance during the editing process. To address this, we propose STR-Match, a training-free video editing algorithm that produces visually appealing and spatiotemporally coherent videos through latent optimization guided by our novel STR score. The score captures spatiotemporal pixel relevance across adjacent frames by leveraging 2D spatial attention and 1D temporal modules in text-to-video (T2V) diffusion models, without the overhead of computationally expensive 3D attention mechanisms. Integrated into a latent optimization framework with a latent mask, STR-Match generates temporally consistent and visually faithful videos, maintaining strong performance even under significant domain transformations while preserving key visual attributes of the source. Extensive experiments demonstrate that STR-Match consistently outperforms existing methods in both visual quality and spatiotemporal consistency.
PDF41July 3, 2025