ChatPaper.aiChatPaper

StreamMultiDiffusion: 지역 기반 의미론적 제어를 통한 실시간 상호작용형 생성

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

March 14, 2024
저자: Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee
cs.AI

초록

텍스트-이미지 합성에서 확산 모델(diffusion model)의 엄청난 성공은 이를 이미지 생성 및 편집을 위한 차세대 최종 사용자 애플리케이션의 유력한 후보로 만들었습니다. 기존 연구들은 추론 시간을 단축하거나 지역 기반 텍스트 프롬프트와 같은 새로운 세밀한 제어를 통해 사용자 상호작용을 증가시킴으로써 확산 모델의 사용성을 개선하는 데 초점을 맞추었습니다. 그러나 우리는 실험적으로 이 두 가지 연구 분야를 통합하는 것이 쉽지 않으며, 이로 인해 확산 모델의 잠재력이 제한된다는 사실을 발견했습니다. 이러한 비호환성을 해결하기 위해, 우리는 첫 번째 실시간 지역 기반 텍스트-이미지 생성 프레임워크인 StreamMultiDiffusion을 제안합니다. 빠른 추론 기술을 안정화하고 모델을 새롭게 제안된 다중 프롬프트 스트림 배치 아키텍처로 재구성함으로써, 우리는 기존 솔루션 대비 10배 빠른 파노라마 생성과 단일 RTX 2080 Ti GPU에서 1.57 FPS의 지역 기반 텍스트-이미지 합성 속도를 달성했습니다. 우리의 솔루션은 '시맨틱 팔레트(semantic palette)'라는 새로운 상호작용적 이미지 생성 패러다임을 열어, 주어진 다수의 손으로 그린 영역에서 미리 정해진 의미(예: 독수리, 소녀)를 인코딩하여 실시간으로 고품질 이미지를 생성할 수 있게 합니다. 우리의 코드와 데모 애플리케이션은 https://github.com/ironjr/StreamMultiDiffusion에서 확인할 수 있습니다.
English
The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for image generation and editing. Previous works have focused on improving the usability of diffusion models by reducing the inference time or increasing user interactivity by allowing new, fine-grained controls such as region-based text prompts. However, we empirically find that integrating both branches of works is nontrivial, limiting the potential of diffusion models. To solve this incompatibility, we present StreamMultiDiffusion, the first real-time region-based text-to-image generation framework. By stabilizing fast inference techniques and restructuring the model into a newly proposed multi-prompt stream batch architecture, we achieve times 10 faster panorama generation than existing solutions, and the generation speed of 1.57 FPS in region-based text-to-image synthesis on a single RTX 2080 Ti GPU. Our solution opens up a new paradigm for interactive image generation named semantic palette, where high-quality images are generated in real-time from given multiple hand-drawn regions, encoding prescribed semantic meanings (e.g., eagle, girl). Our code and demo application are available at https://github.com/ironjr/StreamMultiDiffusion.

Summary

AI-Generated Summary

PDF273December 15, 2024