(1D) Geordende Tokens Maken Efficiënte Zoekopdrachten Tijdens Testen Mogelijk

Samenvatting

Tokenisatie is een essentiële component van autoregressieve (AR) generatieve modellen, waarbij ruwe data wordt omgezet in beter hanteerbare eenheden voor modellering. Tokens beschrijven doorgaans lokale informatie, zoals pixelgebieden in afbeeldingen of woordsegmenten in tekst, en AR-generatie voorspelt deze tokens in een vaste volgorde. Een relevante vraag is of tokenstructuren het vermogen beïnvloeden om de generatie te sturen via zoekacties tijdens de testfase, waarbij meerdere kandidaat-generaties worden verkend en geëvalueerd door een verifier. Met beeldgeneratie als testomgeving stellen we de hypothese op dat recente 1D-geordende tokenizers met een coarse-to-fine structuur beter geschikt kunnen zijn voor zoekacties dan klassieke 2D-roosterstructuren. Dit is geworteld in het feit dat de tussenliggende toestanden in coarse-to-fine reeksen semantische betekenis dragen die verifiers betrouwbaar kunnen evalueren, wat effectieve sturing tijdens de generatie mogelijk maakt. Via gecontroleerde experimenten ontdekken we dat AR-modellen die zijn getraind op coarse-to-fine geordende tokens een verbeterde schaalbaarheid tijdens de testfase vertonen in vergelijking met op roosters gebaseerde tegenhangers. Bovendien tonen we aan dat, dankzij de geordende structuur, pure zoekacties tijdens de testfase over tokenreeksen (zonder training van een AR-model) training-vrije tekst-naar-beeldgeneratie kunnen uitvoeren wanneer ze worden geleid door een beeld-tekst-verifier. Daarnaast bestuderen we systematisch hoe klassieke zoekalgoritmen (best-of-N, beam search, lookahead search) interacteren met verschillende tokenstructuren, evenals de rol van verschillende verifiers en AR-priors. Onze resultaten benadrukken de impact van tokenstructuur op de schaalbaarheid tijdens de inferentiefase en bieden praktische richtlijnen voor testtijd-schaling in AR-modellen.

English

Tokenization is a key component of autoregressive (AR) generative models, converting raw data into more manageable units for modeling. Commonly, tokens describe local information, such as regions of pixels in images or word pieces in text, and AR generation predicts these tokens in a fixed order. A worthwhile question is whether token structures affect the ability to steer the generation through test-time search, where multiple candidate generations are explored and evaluated by a verifier. Using image generation as our testbed, we hypothesize that recent 1D ordered tokenizers with coarse-to-fine structure can be more amenable to search than classical 2D grid structures. This is rooted in the fact that the intermediate states in coarse-to-fine sequences carry semantic meaning that verifiers can reliably evaluate, enabling effective steering during generation. Through controlled experiments, we find that AR models trained on coarse-to-fine ordered tokens exhibit improved test-time scaling behavior compared to grid-based counterparts. Moreover, we demonstrate that, thanks to the ordered structure, pure test-time search over token sequences (i.e., without training an AR model) can perform training-free text-to-image generation when guided by an image-text verifier. Beyond this, we systematically study how classical search algorithms (best-of-N, beam search, lookahead search) interact with different token structures, as well as the role of different verifiers and AR priors. Our results highlight the impact of token structure on inference-time scalability and provide practical guidance for test-time scaling in AR models.

(1D) Geordende Tokens Maken Efficiënte Zoekopdrachten Tijdens Testen Mogelijk

(1D) Ordered Tokens Enable Efficient Test-Time Search

Samenvatting

Support