ε-VAE: 시각 복호화로서의 노이즈 제거
ε-VAE: Denoising as Visual Decoding
October 5, 2024
저자: Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu
cs.AI
초록
생성 모델링에서 토큰화는 복잡한 데이터를 간결하고 구조화된 표현으로 단순화하여 더 효율적이고 학습 가능한 공간을 만듭니다. 고차원 시각 데이터의 경우, 이는 중복을 줄이고 고품질 생성을 위해 주요 특징을 강조합니다. 현재의 시각적 토큰화 방법은 데이터를 잠재적 표현으로 압축하는 인코더와 원본 입력을 재구성하는 디코더가 있는 전통적인 오토인코더 프레임워크에 의존합니다. 본 연구에서는 디노이징을 디코딩으로 제안하여 단일 단계 재구성에서 반복적인 정제로 전환하는 새로운 관점을 제시합니다. 구체적으로, 디코더를 인코더가 제공하는 잠재 변수에 의해 안내되는 원본 이미지를 복구하기 위해 잡음을 반복적으로 정제하는 확산 과정으로 대체합니다. 우리의 접근 방식을 평가하기 위해 재구성 (rFID) 및 생성 품질 (FID)을 평가하고 최첨단 오토인코딩 접근 방식과 비교합니다. 이 연구가 반복적 생성과 오토인코딩을 통합하여 압축 및 생성을 개선하는 데 새로운 통찰을 제공하기를 희망합니다.
English
In generative modeling, tokenization simplifies complex data into compact,
structured representations, creating a more efficient, learnable space. For
high-dimensional visual data, it reduces redundancy and emphasizes key features
for high-quality generation. Current visual tokenization methods rely on a
traditional autoencoder framework, where the encoder compresses data into
latent representations, and the decoder reconstructs the original input. In
this work, we offer a new perspective by proposing denoising as decoding,
shifting from single-step reconstruction to iterative refinement. Specifically,
we replace the decoder with a diffusion process that iteratively refines noise
to recover the original image, guided by the latents provided by the encoder.
We evaluate our approach by assessing both reconstruction (rFID) and generation
quality (FID), comparing it to state-of-the-art autoencoding approach. We hope
this work offers new insights into integrating iterative generation and
autoencoding for improved compression and generation.Summary
AI-Generated Summary