TTS-VAR: Un Marco de Escalado en Tiempo de Prueba para la Generación Visual Auto-Regresiva
TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation
July 24, 2025
Autores: Zhekai Chen, Ruihang Chu, Yukang Chen, Shiwei Zhang, Yujie Wei, Yingya Zhang, Xihui Liu
cs.AI
Resumen
La escalabilidad de los modelos de generación visual es esencial para la creación de contenido en el mundo real, aunque requiere un entrenamiento sustancial y gastos computacionales considerables. Alternativamente, la escalabilidad en tiempo de prueba ha ganado creciente atención debido a su eficiencia en recursos y su rendimiento prometedor. En este trabajo, presentamos TTS-VAR, el primer marco general de escalabilidad en tiempo de prueba para modelos visuales auto-regresivos (VAR), modelando el proceso de generación como un problema de búsqueda de rutas. Para equilibrar dinámicamente la eficiencia computacional con la capacidad de exploración, primero introducimos un esquema adaptativo de tamaño de lote descendente a lo largo del proceso de generación causal. Además, inspirados por la generación jerárquica de múltiples escalas de grueso a fino de los modelos VAR, nuestro marco integra dos componentes clave: (i) En escalas gruesas, observamos que los tokens generados son difíciles de evaluar, lo que podría llevar a la aceptación errónea de muestras inferiores o al rechazo de muestras superiores. Al notar que las escalas gruesas contienen suficiente información estructural, proponemos una búsqueda de diversidad basada en agrupamiento. Esta preserva la variedad estructural mediante el agrupamiento de características semánticas, permitiendo una selección posterior de muestras con mayor potencial. (ii) En escalas finas, la selección de potencial basada en remuestreo prioriza candidatos prometedores utilizando puntuaciones de potencial, definidas como funciones de recompensa que incorporan el historial de generación en múltiples escalas. Los experimentos realizados con el potente modelo VAR Infinity muestran una notable mejora del 8.7% en la puntuación GenEval (de 0.69 a 0.75). Las conclusiones clave revelan que las características estructurales en etapas tempranas influyen efectivamente en la calidad final, y que la eficacia del remuestreo varía según las escalas de generación. El código está disponible en https://github.com/ali-vilab/TTS-VAR.
English
Scaling visual generation models is essential for real-world content
creation, yet requires substantial training and computational expenses.
Alternatively, test-time scaling has garnered growing attention due to resource
efficiency and promising performance. In this work, we present TTS-VAR, the
first general test-time scaling framework for visual auto-regressive (VAR)
models, modeling the generation process as a path searching problem. To
dynamically balance computational efficiency with exploration capacity, we
first introduce an adaptive descending batch size schedule throughout the
causal generation process. Besides, inspired by VAR's hierarchical
coarse-to-fine multi-scale generation, our framework integrates two key
components: (i) At coarse scales, we observe that generated tokens are hard for
evaluation, possibly leading to erroneous acceptance of inferior samples or
rejection of superior samples. Noticing that the coarse scales contain
sufficient structural information, we propose clustering-based diversity
search. It preserves structural variety through semantic feature clustering,
enabling later selection on samples with higher potential. (ii) In fine scales,
resampling-based potential selection prioritizes promising candidates using
potential scores, which are defined as reward functions incorporating
multi-scale generation history. Experiments on the powerful VAR model Infinity
show a notable 8.7% GenEval score improvement (from 0.69 to 0.75). Key insights
reveal that early-stage structural features effectively influence final
quality, and resampling efficacy varies across generation scales. Code is
available at https://github.com/ali-vilab/TTS-VAR.