Le idee relative al ridimensionamento durante l'inferenza possono apportare vantaggi agli algoritmi di pre-addestramento generativo
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms
March 10, 2025
Autori: Jiaming Song, Linqi Zhou
cs.AI
Abstract
Negli ultimi anni si sono registrati significativi progressi nei modelli di base attraverso il pre-training generativo, tuttavia l'innovazione algoritmica in questo ambito si è in gran parte arenata attorno ai modelli autoregressivi per segnali discreti e ai modelli di diffusione per segnali continui. Questa stagnazione crea un collo di bottiglia che ci impedisce di sbloccare appieno il potenziale dei dati multimodali ricchi, limitando di conseguenza i progressi nell'intelligenza multimodale. Sosteniamo che una prospettiva incentrata sull'inferenza, che privilegi l'efficienza di scalabilità durante il tempo di inferenza attraverso la lunghezza della sequenza e i passaggi di raffinamento, possa ispirare nuovi algoritmi di pre-training generativo. Utilizzando l'Inductive Moment Matching (IMM) come esempio concreto, dimostriamo come affrontare le limitazioni nel processo di inferenza dei modelli di diffusione attraverso modifiche mirate porti a un algoritmo stabile e a singolo stadio che raggiunge una qualità campionaria superiore con un'efficienza di inferenza oltre un ordine di grandezza maggiore.
English
Recent years have seen significant advancements in foundation models through
generative pre-training, yet algorithmic innovation in this space has largely
stagnated around autoregressive models for discrete signals and diffusion
models for continuous signals. This stagnation creates a bottleneck that
prevents us from fully unlocking the potential of rich multi-modal data, which
in turn limits the progress on multimodal intelligence. We argue that an
inference-first perspective, which prioritizes scaling efficiency during
inference time across sequence length and refinement steps, can inspire novel
generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a
concrete example, we demonstrate how addressing limitations in diffusion
models' inference process through targeted modifications yields a stable,
single-stage algorithm that achieves superior sample quality with over an order
of magnitude greater inference efficiency.