ChatPaper.aiChatPaper

3D-Fixup: 3D 사전 지식을 활용한 사진 편집 기술의 발전

3D-Fixup: Advancing Photo Editing with 3D Priors

May 15, 2025
저자: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao
cs.AI

초록

확산 모델을 통한 이미지 사전 모델링의 상당한 발전에도 불구하고, 3D 인식 이미지 편집은 여전히 도전적인 과제로 남아 있습니다. 이는 부분적으로 대상이 단일 이미지로만 지정되기 때문입니다. 이러한 도전을 해결하기 위해, 우리는 학습된 3D 사전 지식을 기반으로 2D 이미지를 편집하는 새로운 프레임워크인 3D-Fixup을 제안합니다. 이 프레임워크는 객체 이동 및 3D 회전과 같은 어려운 편집 상황을 지원합니다. 이를 달성하기 위해, 우리는 확산 모델의 생성 능력을 활용한 훈련 기반 접근 방식을 사용합니다. 비디오 데이터는 자연스럽게 실제 세계의 물리적 역학을 인코딩하므로, 우리는 훈련 데이터 쌍(즉, 소스 프레임과 타겟 프레임)을 생성하기 위해 비디오 데이터를 활용합니다. 소스 프레임과 타겟 프레임 간의 변환을 추론하기 위해 단일 훈련 모델에만 의존하는 대신, 우리는 2D 정보를 명시적으로 3D 공간으로 투영함으로써 이 어려운 작업을 연결하는 Image-to-3D 모델의 3D 지도를 통합합니다. 우리는 훈련 전반에 걸쳐 고품질의 3D 지도를 보장하기 위해 데이터 생성 파이프라인을 설계했습니다. 결과는 이러한 3D 사전 지식을 통합함으로써 3D-Fixup이 복잡하고 일관성 있는 3D 인식 편집을 효과적으로 지원하며, 고품질의 결과를 달성하고 확산 모델의 현실적인 이미지 조작 응용을 발전시킨다는 것을 보여줍니다. 코드는 https://3dfixup.github.io/에서 제공됩니다.
English
Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing remains challenging, in part because the object is only specified via a single image. To tackle this challenge, we propose 3D-Fixup, a new framework for editing 2D images guided by learned 3D priors. The framework supports difficult editing situations such as object translation and 3D rotation. To achieve this, we leverage a training-based approach that harnesses the generative power of diffusion models. As video data naturally encodes real-world physical dynamics, we turn to video data for generating training data pairs, i.e., a source and a target frame. Rather than relying solely on a single trained model to infer transformations between source and target frames, we incorporate 3D guidance from an Image-to-3D model, which bridges this challenging task by explicitly projecting 2D information into 3D space. We design a data generation pipeline to ensure high-quality 3D guidance throughout training. Results show that by integrating these 3D priors, 3D-Fixup effectively supports complex, identity coherent 3D-aware edits, achieving high-quality results and advancing the application of diffusion models in realistic image manipulation. The code is provided at https://3dfixup.github.io/
PDF72May 16, 2025