LooseControl: Expandindo o ControlNet para Condicionamento Generalizado de Profundidade
LooseControl: Lifting ControlNet for Generalized Depth Conditioning
December 5, 2023
Autores: Shariq Farooq Bhat, Niloy J. Mitra, Peter Wonka
cs.AI
Resumo
Apresentamos o LooseControl para permitir o condicionamento generalizado de profundidade na geração de imagens baseada em difusão. O ControlNet, o estado da arte para geração de imagens condicionadas por profundidade, produz resultados notáveis, mas depende do acesso a mapas de profundidade detalhados para orientação. Criar tais mapas de profundidade exatos, em muitos cenários, é desafiador. Este artigo introduz uma versão generalizada de condicionamento de profundidade que possibilita muitos novos fluxos de trabalho de criação de conteúdo. Especificamente, permitimos (C1) controle de limites de cena para especificar vagamente cenas com apenas condições de limite, e (C2) controle de caixa 3D para especificar locais de layout dos objetos alvo, em vez da forma e aparência exatas dos objetos. Usando o LooseControl, juntamente com orientação textual, os usuários podem criar ambientes complexos (por exemplo, salas, vistas de rua, etc.) especificando apenas os limites da cena e os locais dos objetos principais. Além disso, fornecemos dois mecanismos de edição para refinar os resultados: (E1) a edição de caixa 3D permite que o usuário refine as imagens alterando, adicionando ou removendo caixas enquanto congela o estilo da imagem. Isso resulta em mudanças mínimas, além das mudanças induzidas pelas caixas editadas. (E2) A edição de atributos propõe possíveis direções de edição para alterar um aspecto particular da cena, como a densidade geral de objetos ou um objeto específico. Testes extensivos e comparações com linhas de base demonstram a generalidade do nosso método. Acreditamos que o LooseControl pode se tornar uma importante ferramenta de design para criar facilmente ambientes complexos e ser estendido a outras formas de canais de orientação. Código e mais informações estão disponíveis em https://shariqfarooq123.github.io/loose-control/.
English
We present LooseControl to allow generalized depth conditioning for
diffusion-based image generation. ControlNet, the SOTA for depth-conditioned
image generation, produces remarkable results but relies on having access to
detailed depth maps for guidance. Creating such exact depth maps, in many
scenarios, is challenging. This paper introduces a generalized version of depth
conditioning that enables many new content-creation workflows. Specifically, we
allow (C1) scene boundary control for loosely specifying scenes with only
boundary conditions, and (C2) 3D box control for specifying layout locations of
the target objects rather than the exact shape and appearance of the objects.
Using LooseControl, along with text guidance, users can create complex
environments (e.g., rooms, street views, etc.) by specifying only scene
boundaries and locations of primary objects. Further, we provide two editing
mechanisms to refine the results: (E1) 3D box editing enables the user to
refine images by changing, adding, or removing boxes while freezing the style
of the image. This yields minimal changes apart from changes induced by the
edited boxes. (E2) Attribute editing proposes possible editing directions to
change one particular aspect of the scene, such as the overall object density
or a particular object. Extensive tests and comparisons with baselines
demonstrate the generality of our method. We believe that LooseControl can
become an important design tool for easily creating complex environments and be
extended to other forms of guidance channels. Code and more information are
available at https://shariqfarooq123.github.io/loose-control/ .