ChatPaper.aiChatPaper

TTS-VAR: Een Test-Tijd Schalingsraamwerk voor Visuele Auto-Regressieve Generatie

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation

July 24, 2025
Auteurs: Zhekai Chen, Ruihang Chu, Yukang Chen, Shiwei Zhang, Yujie Wei, Yingya Zhang, Xihui Liu
cs.AI

Samenvatting

Het schalen van visuele generatiemodellen is essentieel voor het creëren van real-world content, maar vereist aanzienlijke trainings- en rekenkundige kosten. Alternatief heeft test-time scaling steeds meer aandacht gekregen vanwege de efficiëntie in middelen en veelbelovende prestaties. In dit werk presenteren we TTS-VAR, het eerste algemene test-time scaling framework voor visuele auto-regressieve (VAR) modellen, waarbij het generatieproces wordt gemodelleerd als een padzoekprobleem. Om dynamisch een balans te vinden tussen rekenkundige efficiëntie en verkenningscapaciteit, introduceren we eerst een adaptief dalend batchgrootte schema gedurende het causale generatieproces. Daarnaast, geïnspireerd door VAR's hiërarchische coarse-to-fine multi-schaal generatie, integreert ons framework twee belangrijke componenten: (i) Op grove schalen observeren we dat gegenereerde tokens moeilijk te evalueren zijn, wat mogelijk leidt tot foutieve acceptatie van inferieure samples of afwijzing van superieure samples. Gezien het feit dat de grove schalen voldoende structurele informatie bevatten, stellen we clustering-gebaseerde diversiteitszoektocht voor. Dit behoudt structurele variëteit door semantische feature clustering, waardoor latere selectie op samples met hoger potentieel mogelijk wordt. (ii) Op fijne schalen prioriteert resampling-gebaseerde potentiële selectie veelbelovende kandidaten met behulp van potentiële scores, die worden gedefinieerd als beloningsfuncties die multi-schaal generatiegeschiedenis incorporeren. Experimenten met het krachtige VAR-model Infinity laten een opmerkelijke verbetering van 8.7% in de GenEval-score zien (van 0.69 naar 0.75). Belangrijke inzichten onthullen dat structurele kenmerken in de vroege fase de uiteindelijke kwaliteit effectief beïnvloeden, en dat de effectiviteit van resampling varieert over generatieschalen. Code is beschikbaar op https://github.com/ali-vilab/TTS-VAR.
English
Scaling visual generation models is essential for real-world content creation, yet requires substantial training and computational expenses. Alternatively, test-time scaling has garnered growing attention due to resource efficiency and promising performance. In this work, we present TTS-VAR, the first general test-time scaling framework for visual auto-regressive (VAR) models, modeling the generation process as a path searching problem. To dynamically balance computational efficiency with exploration capacity, we first introduce an adaptive descending batch size schedule throughout the causal generation process. Besides, inspired by VAR's hierarchical coarse-to-fine multi-scale generation, our framework integrates two key components: (i) At coarse scales, we observe that generated tokens are hard for evaluation, possibly leading to erroneous acceptance of inferior samples or rejection of superior samples. Noticing that the coarse scales contain sufficient structural information, we propose clustering-based diversity search. It preserves structural variety through semantic feature clustering, enabling later selection on samples with higher potential. (ii) In fine scales, resampling-based potential selection prioritizes promising candidates using potential scores, which are defined as reward functions incorporating multi-scale generation history. Experiments on the powerful VAR model Infinity show a notable 8.7% GenEval score improvement (from 0.69 to 0.75). Key insights reveal that early-stage structural features effectively influence final quality, and resampling efficacy varies across generation scales. Code is available at https://github.com/ali-vilab/TTS-VAR.
PDF172July 25, 2025