(1D) I Token Ordinati Abilitano una Ricerca Efficiente al Momento del Test

Abstract

La tokenizzazione è un componente chiave dei modelli generativi autoregressivi (AR), che converte i dati grezzi in unità più gestibili per la modellazione. Tipicamente, i token descrivono informazioni locali, come regioni di pixel nelle immagini o segmenti di parole nel testo, e la generazione AR prevede questi token in un ordine fisso. Una domanda rilevante è se le strutture dei token influenzino la capacità di guidare la generazione attraverso la ricerca al momento del test, dove multiple generazioni candidate vengono esplorate e valutate da un verificatore. Utilizzando la generazione di immagini come banco di prova, ipotizziamo che i recenti tokenizer con ordine 1D e struttura coarse-to-fine possano essere più adatti alla ricerca rispetto alle classiche strutture a griglia 2D. Ciò si basa sul fatto che gli stati intermedi nelle sequenze coarse-to-fine possiedono un significato semantico che i verificatori possono valutare in modo affidabile, consentendo una guida efficace durante la generazione. Attraverso esperimenti controllati, scopriamo che i modelli AR addestrati su token ordinati coarse-to-fine mostrano un miglioramento nel comportamento di scalabilità al momento del test rispetto alle controparti basate su griglia. Inoltre, dimostriamo che, grazie alla struttura ordinata, la ricerca pura al momento del test sulle sequenze di token (cioè senza addestrare un modello AR) può eseguire una generazione testo-immagine senza addestramento quando guidata da un verificatore immagine-testo. Oltre a ciò, studiamo sistematicamente come gli algoritmi di ricerca classici (best-of-N, beam search, lookahead search) interagiscano con diverse strutture di token, nonché il ruolo di diversi verificatori e prior AR. I nostri risultati evidenziano l'impatto della struttura dei token sulla scalabilità durante l'inferenza e forniscono indicazioni pratiche per la scalabilità al momento del test nei modelli AR.

English

Tokenization is a key component of autoregressive (AR) generative models, converting raw data into more manageable units for modeling. Commonly, tokens describe local information, such as regions of pixels in images or word pieces in text, and AR generation predicts these tokens in a fixed order. A worthwhile question is whether token structures affect the ability to steer the generation through test-time search, where multiple candidate generations are explored and evaluated by a verifier. Using image generation as our testbed, we hypothesize that recent 1D ordered tokenizers with coarse-to-fine structure can be more amenable to search than classical 2D grid structures. This is rooted in the fact that the intermediate states in coarse-to-fine sequences carry semantic meaning that verifiers can reliably evaluate, enabling effective steering during generation. Through controlled experiments, we find that AR models trained on coarse-to-fine ordered tokens exhibit improved test-time scaling behavior compared to grid-based counterparts. Moreover, we demonstrate that, thanks to the ordered structure, pure test-time search over token sequences (i.e., without training an AR model) can perform training-free text-to-image generation when guided by an image-text verifier. Beyond this, we systematically study how classical search algorithms (best-of-N, beam search, lookahead search) interact with different token structures, as well as the role of different verifiers and AR priors. Our results highlight the impact of token structure on inference-time scalability and provide practical guidance for test-time scaling in AR models.

(1D) I Token Ordinati Abilitano una Ricerca Efficiente al Momento del Test

(1D) Ordered Tokens Enable Efficient Test-Time Search

Abstract

Support