ChatPaper.aiChatPaper

Génération de Granularité Visuelle Suivante

Next Visual Granularity Generation

August 18, 2025
papers.authors: Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy
cs.AI

papers.abstract

Nous proposons une nouvelle approche pour la génération d'images en décomposant une image en une séquence structurée, où chaque élément de la séquence partage la même résolution spatiale mais diffère par le nombre de tokens uniques utilisés, capturant ainsi différents niveaux de granularité visuelle. La génération d'images est réalisée grâce à notre nouveau cadre de génération Next Visual Granularity (NVG), qui génère une séquence de granularité visuelle en partant d'une image vide et l'affine progressivement, de la disposition globale aux détails fins, de manière structurée. Ce processus itératif encode une représentation hiérarchique et en couches, offrant un contrôle précis sur le processus de génération à travers plusieurs niveaux de granularité. Nous entraînons une série de modèles NVG pour la génération d'images conditionnée par classe sur le jeu de données ImageNet et observons un comportement d'échelle clair. Comparé à la série VAR, NVG surpasse systématiquement en termes de scores FID (3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06). Nous menons également une analyse approfondie pour démontrer les capacités et le potentiel du cadre NVG. Notre code et nos modèles seront rendus publics.
English
We propose a novel approach to image generation by decomposing an image into a structured sequence, where each element in the sequence shares the same spatial resolution but differs in the number of unique tokens used, capturing different level of visual granularity. Image generation is carried out through our newly introduced Next Visual Granularity (NVG) generation framework, which generates a visual granularity sequence beginning from an empty image and progressively refines it, from global layout to fine details, in a structured manner. This iterative process encodes a hierarchical, layered representation that offers fine-grained control over the generation process across multiple granularity levels. We train a series of NVG models for class-conditional image generation on the ImageNet dataset and observe clear scaling behavior. Compared to the VAR series, NVG consistently outperforms it in terms of FID scores (3.30 -> 3.03, 2.57 ->2.44, 2.09 -> 2.06). We also conduct extensive analysis to showcase the capability and potential of the NVG framework. Our code and models will be released.
PDF383August 19, 2025