ChatPaper.aiChatPaper

Build-A-Scene: 확산 기반 이미지 생성을 위한 대화형 3D 레이아웃 제어

Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation

August 27, 2024
저자: Abdelrahman Eldesokey, Peter Wonka
cs.AI

초록

텍스트에서 이미지로의 확산 기반 접근 방식을 제안합니다. 이는 상호작용 3D 레이아웃 제어를 포함합니다. 레이아웃 제어는 T2I 확산 모델의 단점을 완화하기 위해 널리 연구되어 왔으며, 객체의 배치 및 관계를 이해하는 데 있어 텍스트 설명으로부터 제한이 있습니다. 그러나 기존의 레이아웃 제어 방법은 2D 레이아웃에 한정되어 있으며, 사용자가 미리 정적 레이아웃을 제공해야 하며, 레이아웃 변경 시 생성된 이미지를 보존하지 못합니다. 이로 인해 이러한 방법은 3D 객체별 제어와 반복적 개선이 필요한 응용 프로그램에는 부적합합니다. 이를 위해 우리는 최근의 깊이 조건부 T2I 모델의 발전을 활용하고 상호작용 3D 레이아웃 제어를 위한 새로운 방법을 제안합니다. 레이아웃 제어에 사용되는 기존의 2D 상자를 3D 상자로 대체합니다. 또한 T2I 작업을 각 단계에서 사용자가 3D에서 객체를 삽입, 변경 및 이동하면서 이전 단계의 객체를 보존하는 다단계 생성 프로세스로 개편합니다. 이를 우리의 제안된 동적 셀프 어텐션(DSA) 모듈과 일관된 3D 객체 변환 전략을 통해 달성합니다. 실험 결과, 우리의 방법은 3D 레이아웃을 기반으로 복잡한 장면을 생성할 수 있으며, 표준 깊이 조건부 T2I 방법보다 객체 생성 성공률을 2배 향상시킬 수 있음을 보여줍니다. 더불어, 레이아웃 변경 시 객체를 보존하는 측면에서 다른 방법을 능가합니다. 프로젝트 페이지: https://abdo-eldesokey.github.io/build-a-scene/
English
We propose a diffusion-based approach for Text-to-Image (T2I) generation with interactive 3D layout control. Layout control has been widely studied to alleviate the shortcomings of T2I diffusion models in understanding objects' placement and relationships from text descriptions. Nevertheless, existing approaches for layout control are limited to 2D layouts, require the user to provide a static layout beforehand, and fail to preserve generated images under layout changes. This makes these approaches unsuitable for applications that require 3D object-wise control and iterative refinements, e.g., interior design and complex scene generation. To this end, we leverage the recent advancements in depth-conditioned T2I models and propose a novel approach for interactive 3D layout control. We replace the traditional 2D boxes used in layout control with 3D boxes. Furthermore, we revamp the T2I task as a multi-stage generation process, where at each stage, the user can insert, change, and move an object in 3D while preserving objects from earlier stages. We achieve this through our proposed Dynamic Self-Attention (DSA) module and the consistent 3D object translation strategy. Experiments show that our approach can generate complicated scenes based on 3D layouts, boosting the object generation success rate over the standard depth-conditioned T2I methods by 2x. Moreover, it outperforms other methods in comparison in preserving objects under layout changes. Project Page: https://abdo-eldesokey.github.io/build-a-scene/

Summary

AI-Generated Summary

PDF224November 16, 2024