TTS-VAR: Um Framework de Escalonamento em Tempo de Teste para Geração Visual Auto-Regressiva
TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation
July 24, 2025
Autores: Zhekai Chen, Ruihang Chu, Yukang Chen, Shiwei Zhang, Yujie Wei, Yingya Zhang, Xihui Liu
cs.AI
Resumo
A escalabilidade de modelos de geração visual é essencial para a criação de conteúdo no mundo real, mas exige custos substanciais de treinamento e computação. Alternativamente, a escalabilidade em tempo de teste tem ganhado crescente atenção devido à eficiência de recursos e desempenho promissor. Neste trabalho, apresentamos o TTS-VAR, o primeiro framework geral de escalabilidade em tempo de teste para modelos visuais auto-regressivos (VAR), modelando o processo de geração como um problema de busca de caminhos. Para equilibrar dinamicamente a eficiência computacional com a capacidade de exploração, introduzimos primeiro um cronograma adaptativo de redução do tamanho do lote ao longo do processo de geração causal. Além disso, inspirados pela geração hierárquica multi-escala de grosseiro para fino do VAR, nosso framework integra dois componentes-chave: (i) Em escalas grosseiras, observamos que os tokens gerados são difíceis de avaliar, possivelmente levando à aceitação errônea de amostras inferiores ou à rejeição de amostras superiores. Percebendo que as escalas grosseiras contêm informações estruturais suficientes, propomos uma busca de diversidade baseada em agrupamento. Ela preserva a variedade estrutural por meio de agrupamento de características semânticas, permitindo a seleção posterior de amostras com maior potencial. (ii) Em escalas finas, a seleção de potencial baseada em reamostragem prioriza candidatos promissores usando pontuações de potencial, que são definidas como funções de recompensa incorporando o histórico de geração multi-escala. Experimentos no poderoso modelo VAR Infinity mostram uma melhoria notável de 8,7% na pontuação GenEval (de 0,69 para 0,75). Insights-chave revelam que características estruturais em estágios iniciais influenciam efetivamente a qualidade final, e a eficácia da reamostragem varia entre as escalas de geração. O código está disponível em https://github.com/ali-vilab/TTS-VAR.
English
Scaling visual generation models is essential for real-world content
creation, yet requires substantial training and computational expenses.
Alternatively, test-time scaling has garnered growing attention due to resource
efficiency and promising performance. In this work, we present TTS-VAR, the
first general test-time scaling framework for visual auto-regressive (VAR)
models, modeling the generation process as a path searching problem. To
dynamically balance computational efficiency with exploration capacity, we
first introduce an adaptive descending batch size schedule throughout the
causal generation process. Besides, inspired by VAR's hierarchical
coarse-to-fine multi-scale generation, our framework integrates two key
components: (i) At coarse scales, we observe that generated tokens are hard for
evaluation, possibly leading to erroneous acceptance of inferior samples or
rejection of superior samples. Noticing that the coarse scales contain
sufficient structural information, we propose clustering-based diversity
search. It preserves structural variety through semantic feature clustering,
enabling later selection on samples with higher potential. (ii) In fine scales,
resampling-based potential selection prioritizes promising candidates using
potential scores, which are defined as reward functions incorporating
multi-scale generation history. Experiments on the powerful VAR model Infinity
show a notable 8.7% GenEval score improvement (from 0.69 to 0.75). Key insights
reveal that early-stage structural features effectively influence final
quality, and resampling efficacy varies across generation scales. Code is
available at https://github.com/ali-vilab/TTS-VAR.