(1D) Tokens Ordenados Permitem uma Busca Eficiente Durante o Teste

Resumo

A tokenização é um componente fundamental dos modelos generativos autorregressivos (AR), convertendo dados brutos em unidades mais gerenciáveis para modelagem. Geralmente, os tokens descrevem informações locais, como regiões de pixels em imagens ou partes de palavras em texto, e a geração AR prevê esses tokens em uma ordem fixa. Uma questão relevante é se as estruturas de tokens afetam a capacidade de direcionar a geração por meio de busca em tempo de teste, onde múltiplas gerações candidatas são exploradas e avaliadas por um verificador. Usando a geração de imagens como nosso campo de teste, hipotetizamos que tokenizadores ordenados 1D recentes, com estrutura de granularidade grossa-para-fina, podem ser mais adequados para busca do que as estruturas clássicas de grade 2D. Isso se baseia no fato de que os estados intermediários nas sequências grossa-para-fina carregam significado semântico que os verificadores podem avaliar de forma confiável, permitindo um direcionamento eficaz durante a geração. Através de experimentos controlados, descobrimos que os modelos AR treinados com tokens ordenados grossa-para-fina exibem um comportamento de escalabilidade em tempo de teste melhorado em comparação com as contrapartes baseadas em grade. Além disso, demonstramos que, graças à estrutura ordenada, uma busca pura em tempo de teste sobre sequências de tokens (ou seja, sem treinar um modelo AR) pode realizar geração de texto-para-imagem sem treinamento quando guiada por um verificador imagem-texto. Além disso, estudamos sistematicamente como algoritmos clássicos de busca (melhor-de-N, busca por feixe, busca com antecipação) interagem com diferentes estruturas de tokens, bem como o papel de diferentes verificadores e priores AR. Nossos resultados destacam o impacto da estrutura de token na escalabilidade no momento da inferência e fornecem orientações práticas para a escalabilidade em tempo de teste em modelos AR.

English

Tokenization is a key component of autoregressive (AR) generative models, converting raw data into more manageable units for modeling. Commonly, tokens describe local information, such as regions of pixels in images or word pieces in text, and AR generation predicts these tokens in a fixed order. A worthwhile question is whether token structures affect the ability to steer the generation through test-time search, where multiple candidate generations are explored and evaluated by a verifier. Using image generation as our testbed, we hypothesize that recent 1D ordered tokenizers with coarse-to-fine structure can be more amenable to search than classical 2D grid structures. This is rooted in the fact that the intermediate states in coarse-to-fine sequences carry semantic meaning that verifiers can reliably evaluate, enabling effective steering during generation. Through controlled experiments, we find that AR models trained on coarse-to-fine ordered tokens exhibit improved test-time scaling behavior compared to grid-based counterparts. Moreover, we demonstrate that, thanks to the ordered structure, pure test-time search over token sequences (i.e., without training an AR model) can perform training-free text-to-image generation when guided by an image-text verifier. Beyond this, we systematically study how classical search algorithms (best-of-N, beam search, lookahead search) interact with different token structures, as well as the role of different verifiers and AR priors. Our results highlight the impact of token structure on inference-time scalability and provide practical guidance for test-time scaling in AR models.

(1D) Tokens Ordenados Permitem uma Busca Eficiente Durante o Teste

(1D) Ordered Tokens Enable Efficient Test-Time Search

Resumo

Support