ChatPaper.aiChatPaper

Wuerstchen: 텍스트-이미지 모델의 효율적 사전 학습

Wuerstchen: Efficient Pretraining of Text-to-Image Models

June 1, 2023
저자: Pablo Pernias, Dominic Rampas, Marc Aubreville
cs.AI

초록

우리는 텍스트-이미지 합성 분야에서 경쟁력 있는 성능과 전례 없는 비용 효율성, 그리고 제한된 하드웨어에서의 쉬운 학습을 결합한 새로운 기술인 Wuerstchen을 소개합니다. 최근의 머신러닝 발전을 기반으로, 우리의 접근 방식은 강력한 잠재 이미지 압축률에서 잠재 확산 전략을 활용함으로써, 최첨단 모델과 관련된 전형적인 계산 부담을 크게 줄이면서 생성된 이미지의 품질을 유지하거나 오히려 향상시킵니다. Wuerstchen은 추론 시간에서 주목할 만한 속도 개선을 달성하여 실시간 애플리케이션을 더욱 실현 가능하게 만듭니다. 우리 방법의 주요 장점 중 하나는 단 9,200 GPU 시간이라는 적은 학습 요구 사항에 있으며, 이는 최종 성능을 저하시키지 않으면서 일반적인 비용을 크게 절감합니다. 최첨단 기술과의 비교에서, 이 접근 방식이 강력한 경쟁력을 보이는 것으로 나타났습니다. 이 논문은 성능과 계산 접근성을 모두 우선시하는 새로운 연구 방향을 열어, 정교한 AI 기술의 사용을 민주화합니다. Wuerstchen을 통해, 우리는 텍스트-이미지 합성 영역에서 앞으로 나아가는 중요한 발걸음을 보여주며, 향후 연구에서 탐구할 혁신적인 길을 제시합니다.
English
We introduce Wuerstchen, a novel technique for text-to-image synthesis that unites competitive performance with unprecedented cost-effectiveness and ease of training on constrained hardware. Building on recent advancements in machine learning, our approach, which utilizes latent diffusion strategies at strong latent image compression rates, significantly reduces the computational burden, typically associated with state-of-the-art models, while preserving, if not enhancing, the quality of generated images. Wuerstchen achieves notable speed improvements at inference time, thereby rendering real-time applications more viable. One of the key advantages of our method lies in its modest training requirements of only 9,200 GPU hours, slashing the usual costs significantly without compromising the end performance. In a comparison against the state-of-the-art, we found the approach to yield strong competitiveness. This paper opens the door to a new line of research that prioritizes both performance and computational accessibility, hence democratizing the use of sophisticated AI technologies. Through Wuerstchen, we demonstrate a compelling stride forward in the realm of text-to-image synthesis, offering an innovative path to explore in future research.
PDF126December 15, 2024