ChatPaper.aiChatPaper

LooseControl: 일반화된 깊이 조건화를 위한 ControlNet 해제

LooseControl: Lifting ControlNet for Generalized Depth Conditioning

December 5, 2023
저자: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI

초록

본 논문에서는 확산 기반 이미지 생성에 일반화된 깊이 조건을 허용하는 LooseControl을 제안한다. 깊이 조건 이미지 생성의 최신 기술(State-of-the-Art, SOTA)인 ControlNet은 놀라운 결과를 생성하지만, 정확한 깊이 지도에 대한 접근이 필요하다. 이러한 정확한 깊이 지도를 생성하는 것은 많은 시나리오에서 어려운 작업이다. 본 논문은 다양한 새로운 콘텐츠 생성 워크플로우를 가능하게 하는 일반화된 깊이 조건 버전을 소개한다. 구체적으로, (C1) 장면 경계 제어를 통해 경계 조건만으로 장면을 대략적으로 지정할 수 있도록 하고, (C2) 3D 박스 제어를 통해 대상 객체의 정확한 형태와 외관이 아닌 레이아웃 위치를 지정할 수 있도록 한다. LooseControl을 사용하면 텍스트 가이던스와 함께 사용자가 장면 경계와 주요 객체의 위치만 지정하여 복잡한 환경(예: 방, 거리 풍경 등)을 생성할 수 있다. 또한, 결과를 세부적으로 수정하기 위한 두 가지 편집 메커니즘을 제공한다: (E1) 3D 박스 편집은 이미지의 스타일을 고정한 상태에서 박스를 변경, 추가 또는 제거함으로써 이미지를 세부적으로 수정할 수 있도록 한다. 이는 편집된 박스로 인한 변화 외에는 최소한의 변화만을 유도한다. (E2) 속성 편집은 장면의 특정 측면, 예를 들어 전체 객체 밀도나 특정 객체를 변경하기 위한 가능한 편집 방향을 제안한다. 다양한 테스트와 베이스라인과의 비교를 통해 본 방법의 일반성을 입증한다. 우리는 LooseControl이 복잡한 환경을 쉽게 생성할 수 있는 중요한 디자인 도구가 될 수 있으며, 다른 형태의 가이던스 채널로 확장될 수 있다고 믿는다. 코드와 추가 정보는 https://shariqfarooq123.github.io/loose-control/에서 확인할 수 있다.
English
We present LooseControl to allow generalized depth conditioning for diffusion-based image generation. ControlNet, the SOTA for depth-conditioned image generation, produces remarkable results but relies on having access to detailed depth maps for guidance. Creating such exact depth maps, in many scenarios, is challenging. This paper introduces a generalized version of depth conditioning that enables many new content-creation workflows. Specifically, we allow (C1) scene boundary control for loosely specifying scenes with only boundary conditions, and (C2) 3D box control for specifying layout locations of the target objects rather than the exact shape and appearance of the objects. Using LooseControl, along with text guidance, users can create complex environments (e.g., rooms, street views, etc.) by specifying only scene boundaries and locations of primary objects. Further, we provide two editing mechanisms to refine the results: (E1) 3D box editing enables the user to refine images by changing, adding, or removing boxes while freezing the style of the image. This yields minimal changes apart from changes induced by the edited boxes. (E2) Attribute editing proposes possible editing directions to change one particular aspect of the scene, such as the overall object density or a particular object. Extensive tests and comparisons with baselines demonstrate the generality of our method. We believe that LooseControl can become an important design tool for easily creating complex environments and be extended to other forms of guidance channels. Code and more information are available at https://shariqfarooq123.github.io/loose-control/ .
PDF152December 15, 2024