시각적 합성을 위한 생성적 정제 네트워크
Generative Refinement Networks for Visual Synthesis
April 14, 2026
저자: Jian Han, Jinlai Liu, Jiahuan Wang, Bingyue Peng, Zehuan Yuan
cs.AI
초록
확산 모델이 시각 생성 분야를 주도하고 있지만, 이들은 서로 다른 복잡도에 관계없이 균일한 계산 자원을 적용하여 계산적으로 비효율적입니다. 이와 대조적으로 자기회귀(AR) 모델은 가변적인 우도에서 드러나듯 본질적으로 복잡도를 인식하지만, 손실이 있는 이산 토큰화와 오류 누적으로 인해 종종 성능이 제한됩니다. 본 연구에서는 이러한 문제를 해결하기 위한 차세대 시각 합성 패러다임인 생성적 정제 네트워크(GRN)를 소개합니다. GRN의 핵심은 이론적으로 거의 무손실인 계층적 이진 양자화(HBQ)를 통해 이산 토큰화 병목 현상을 해결하여 연속적 표현에 필적하는 재구성 품질을 달성합니다. HBQ의 잠재 공간 위에 구축된 GRN은 인간 화가가 그림을 그리듯 작품을 점진적으로 완성하고 수정하는 전역 정제 메커니즘으로 AR 생성을 근본적으로 업그레이드합니다. 또한 GRN은 엔트로피 기반 샘플링 전략을 통합하여 시각적 품질을 저하시키지 않으면서 복잡도를 고려한 적응형 단계 생성을 가능하게 합니다. ImageNet 벤치마크에서 GRN은 이미지 재구성(0.56 rFID) 및 클래스 조건부 이미지 생성(1.81 gFID) 분야에서 새로운 기록을 수립했습니다. 또한 GRN을 더욱 도전적인 텍스트-이미지 및 텍스트-비디오 생성 작업으로 확장하여 동등한 규모에서도 우수한 성능을 제공합니다. GRN에 대한 추가 연구를 촉진하기 위해 모든 모델과 코드를 공개합니다.
English
While diffusion models dominate the field of visual generation, they are computationally inefficient, applying a uniform computational effort regardless of different complexity. In contrast, autoregressive (AR) models are inherently complexity-aware, as evidenced by their variable likelihoods, but are often hindered by lossy discrete tokenization and error accumulation. In this work, we introduce Generative Refinement Networks (GRN), a next-generation visual synthesis paradigm to address these issues. At its core, GRN addresses the discrete tokenization bottleneck through a theoretically near-lossless Hierarchical Binary Quantization (HBQ), achieving a reconstruction quality comparable to continuous counterparts. Built upon HBQ's latent space, GRN fundamentally upgrades AR generation with a global refinement mechanism that progressively perfects and corrects artworks -- like a human artist painting. Besides, GRN integrates an entropy-guided sampling strategy, enabling complexity-aware, adaptive-step generation without compromising visual quality. On the ImageNet benchmark, GRN establishes new records in image reconstruction (0.56 rFID) and class-conditional image generation (1.81 gFID). We also scale GRN to more challenging text-to-image and text-to-video generation, delivering superior performance on an equivalent scale. We release all models and code to foster further research on GRN.