ChatPaper.aiChatPaper

Ideeën uit Inference-time Scaling kunnen voordelen bieden voor generatieve voor-trainingsalgoritmen

Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms

March 10, 2025
Auteurs: Jiaming Song, Linqi Zhou
cs.AI

Samenvatting

De afgelopen jaren hebben we aanzienlijke vooruitgang gezien in foundation models door generatieve voorafgaande training, maar de algoritmische innovatie op dit gebied is grotendeels gestagneerd rond autoregressieve modellen voor discrete signalen en diffusiemodellen voor continue signalen. Deze stagnatie creëert een knelpunt dat ons ervan weerhoudt het volledige potentieel van rijke multimodale data te benutten, wat op zijn beurt de vooruitgang op het gebied van multimodale intelligentie beperkt. Wij beargumenteren dat een inferentie-eerst perspectief, dat schaalbaarheidsefficiëntie tijdens inferentietijd over sequentielengte en verfijningsstappen prioriteert, nieuwe generatieve voorafgaande trainingsalgoritmen kan inspireren. Met Inductive Moment Matching (IMM) als concreet voorbeeld demonstreren we hoe het aanpakken van beperkingen in het inferentieproces van diffusiemodellen door gerichte aanpassingen resulteert in een stabiel, enkelstaps algoritme dat superieure samplekwaliteit bereikt met meer dan een orde van grootte hogere inferentie-efficiëntie.
English
Recent years have seen significant advancements in foundation models through generative pre-training, yet algorithmic innovation in this space has largely stagnated around autoregressive models for discrete signals and diffusion models for continuous signals. This stagnation creates a bottleneck that prevents us from fully unlocking the potential of rich multi-modal data, which in turn limits the progress on multimodal intelligence. We argue that an inference-first perspective, which prioritizes scaling efficiency during inference time across sequence length and refinement steps, can inspire novel generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a concrete example, we demonstrate how addressing limitations in diffusion models' inference process through targeted modifications yields a stable, single-stage algorithm that achieves superior sample quality with over an order of magnitude greater inference efficiency.

Summary

AI-Generated Summary

PDF22March 12, 2025