TTS-VAR: Um Framework de Escalonamento em Tempo de Teste para Geração Visual Auto-Regressiva

Resumo

A escalabilidade de modelos de geração visual é essencial para a criação de conteúdo no mundo real, mas exige custos substanciais de treinamento e computação. Alternativamente, a escalabilidade em tempo de teste tem ganhado crescente atenção devido à eficiência de recursos e desempenho promissor. Neste trabalho, apresentamos o TTS-VAR, o primeiro framework geral de escalabilidade em tempo de teste para modelos visuais auto-regressivos (VAR), modelando o processo de geração como um problema de busca de caminhos. Para equilibrar dinamicamente a eficiência computacional com a capacidade de exploração, introduzimos primeiro um cronograma adaptativo de redução do tamanho do lote ao longo do processo de geração causal. Além disso, inspirados pela geração hierárquica multi-escala de grosseiro para fino do VAR, nosso framework integra dois componentes-chave: (i) Em escalas grosseiras, observamos que os tokens gerados são difíceis de avaliar, possivelmente levando à aceitação errônea de amostras inferiores ou à rejeição de amostras superiores. Percebendo que as escalas grosseiras contêm informações estruturais suficientes, propomos uma busca de diversidade baseada em agrupamento. Ela preserva a variedade estrutural por meio de agrupamento de características semânticas, permitindo a seleção posterior de amostras com maior potencial. (ii) Em escalas finas, a seleção de potencial baseada em reamostragem prioriza candidatos promissores usando pontuações de potencial, que são definidas como funções de recompensa incorporando o histórico de geração multi-escala. Experimentos no poderoso modelo VAR Infinity mostram uma melhoria notável de 8,7% na pontuação GenEval (de 0,69 para 0,75). Insights-chave revelam que características estruturais em estágios iniciais influenciam efetivamente a qualidade final, e a eficácia da reamostragem varia entre as escalas de geração. O código está disponível em https://github.com/ali-vilab/TTS-VAR.

English

Scaling visual generation models is essential for real-world content creation, yet requires substantial training and computational expenses. Alternatively, test-time scaling has garnered growing attention due to resource efficiency and promising performance. In this work, we present TTS-VAR, the first general test-time scaling framework for visual auto-regressive (VAR) models, modeling the generation process as a path searching problem. To dynamically balance computational efficiency with exploration capacity, we first introduce an adaptive descending batch size schedule throughout the causal generation process. Besides, inspired by VAR's hierarchical coarse-to-fine multi-scale generation, our framework integrates two key components: (i) At coarse scales, we observe that generated tokens are hard for evaluation, possibly leading to erroneous acceptance of inferior samples or rejection of superior samples. Noticing that the coarse scales contain sufficient structural information, we propose clustering-based diversity search. It preserves structural variety through semantic feature clustering, enabling later selection on samples with higher potential. (ii) In fine scales, resampling-based potential selection prioritizes promising candidates using potential scores, which are defined as reward functions incorporating multi-scale generation history. Experiments on the powerful VAR model Infinity show a notable 8.7% GenEval score improvement (from 0.69 to 0.75). Key insights reveal that early-stage structural features effectively influence final quality, and resampling efficacy varies across generation scales. Code is available at https://github.com/ali-vilab/TTS-VAR.

TTS-VAR: Um Framework de Escalonamento em Tempo de Teste para Geração Visual Auto-Regressiva

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation

Resumo

Support