ChatPaper.aiChatPaper

3DV-TON: 확산 모델 기반 텍스처 3D 가이드 일관성 비디오 트라이온

3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models

April 24, 2025
저자: Min Wei, Chaohui Yu, Jingkai Zhou, Fan Wang
cs.AI

초록

비디오 트라이온(Video try-on)은 비디오 속 의상을 목표 의류로 대체하는 기술입니다. 기존 방법들은 복잡한 의상 패턴과 다양한 신체 자세를 다룰 때 고품질이고 시간적으로 일관된 결과를 생성하는 데 어려움을 겪습니다. 우리는 고화질이며 시간적으로 일관된 비디오 트라이온 결과를 생성하기 위한 새로운 확산 기반 프레임워크인 3DV-TON을 제시합니다. 우리의 접근 방식은 생성된 애니메이션 가능한 텍스처 3D 메시를 명시적인 프레임 레벨 가이드로 사용하여, 모델이 움직임 일관성을 희생하면서 외관 충실도에 지나치게 집중하는 문제를 완화합니다. 이는 비디오 시퀀스 전반에 걸쳐 일관된 의상 텍스처 움직임을 직접 참조할 수 있게 함으로써 달성됩니다. 제안된 방법은 동적 3D 가이드를 생성하기 위한 적응형 파이프라인을 특징으로 합니다: (1) 초기 2D 이미지 트라이온을 위한 키프레임을 선택한 후, (2) 원본 비디오 자세와 동기화된 텍스처 3D 메시를 재구성하고 애니메이션화합니다. 또한, 우리는 동적인 인간과 의상 움직임 동안 누출된 의상 정보로 인한 아티팩트 전파를 성공적으로 완화하는 강력한 직사각형 마스킹 전략을 도입했습니다. 비디오 트라이온 연구를 발전시키기 위해, 우리는 다양한 의상 유형과 시나리오를 포함한 130개의 고해상도 비디오로 구성된 HR-VVT 벤치마크 데이터셋을 소개합니다. 정량적 및 정성적 결과는 우리의 방법이 기존 방법들보다 우수한 성능을 보임을 입증합니다. 프로젝트 페이지는 다음 링크에서 확인할 수 있습니다: https://2y7c3.github.io/3DV-TON/
English
Video try-on replaces clothing in videos with target garments. Existing methods struggle to generate high-quality and temporally consistent results when handling complex clothing patterns and diverse body poses. We present 3DV-TON, a novel diffusion-based framework for generating high-fidelity and temporally consistent video try-on results. Our approach employs generated animatable textured 3D meshes as explicit frame-level guidance, alleviating the issue of models over-focusing on appearance fidelity at the expanse of motion coherence. This is achieved by enabling direct reference to consistent garment texture movements throughout video sequences. The proposed method features an adaptive pipeline for generating dynamic 3D guidance: (1) selecting a keyframe for initial 2D image try-on, followed by (2) reconstructing and animating a textured 3D mesh synchronized with original video poses. We further introduce a robust rectangular masking strategy that successfully mitigates artifact propagation caused by leaking clothing information during dynamic human and garment movements. To advance video try-on research, we introduce HR-VVT, a high-resolution benchmark dataset containing 130 videos with diverse clothing types and scenarios. Quantitative and qualitative results demonstrate our superior performance over existing methods. The project page is at this link https://2y7c3.github.io/3DV-TON/

Summary

AI-Generated Summary

PDF102April 25, 2025