ChatPaper.aiChatPaper

매직 픽스업: 동영상을 활용한 사진 편집 간소화

Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

March 19, 2024
저자: Hadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi
cs.AI

초록

우리는 대략적으로 편집된 이미지를 입력으로 받아, 지정된 레이아웃을 따르는 사실적인 출력을 합성하는 생성 모델을 제안합니다. 우리의 방법은 원본 이미지에서 세부적인 디테일을 전달하고, 그 부분들의 정체성을 유지합니다. 동시에, 새로운 레이아웃에 의해 정의된 조명과 맥락에 맞게 이를 적응시킵니다. 우리의 핵심 통찰은 비디오가 이 작업을 위한 강력한 감독 소스라는 점입니다: 객체와 카메라 움직임은 시점, 조명, 물리적 상호작용에 따라 세상이 어떻게 변하는지에 대한 다양한 관찰을 제공합니다. 우리는 각 샘플이 동일한 비디오에서 무작위로 선택된 시간 간격으로 추출된 소스 프레임과 타겟 프레임 쌍으로 구성된 이미지 데이터셋을 구축합니다. 우리는 예상되는 테스트 시점의 사용자 편집을 모방하는 두 가지 모션 모델을 사용하여 소스 프레임을 타겟 프레임 쪽으로 왜곡합니다. 우리는 사전 훈련된 확산 모델에서 시작하여 왜곡된 이미지를 실제 정답으로 변환하도록 모델을 감독합니다. 우리의 모델 설계는 사용자가 지정한 레이아웃을 밀접히 따르면서도 소스 프레임에서 생성된 이미지로의 세부 디테일 전달을 명시적으로 가능하게 합니다. 우리는 간단한 세그멘테이션과 2D 조작을 사용하여 사용자 입력에 충실한 사실적인 편집을 합성할 수 있음을 보여주며, 조명 조화 및 편집된 객체 간의 물리적 상호작용과 같은 2차 효과를 해결합니다.
English
We propose a generative model that, given a coarsely edited image, synthesizes a photorealistic output that follows the prescribed layout. Our method transfers fine details from the original image and preserves the identity of its parts. Yet, it adapts it to the lighting and context defined by the new layout. Our key insight is that videos are a powerful source of supervision for this task: objects and camera motions provide many observations of how the world changes with viewpoint, lighting, and physical interactions. We construct an image dataset in which each sample is a pair of source and target frames extracted from the same video at randomly chosen time intervals. We warp the source frame toward the target using two motion models that mimic the expected test-time user edits. We supervise our model to translate the warped image into the ground truth, starting from a pretrained diffusion model. Our model design explicitly enables fine detail transfer from the source frame to the generated image, while closely following the user-specified layout. We show that by using simple segmentations and coarse 2D manipulations, we can synthesize a photorealistic edit faithful to the user's input while addressing second-order effects like harmonizing the lighting and physical interactions between edited objects.

Summary

AI-Generated Summary

PDF151December 15, 2024