Les concepts de mise à l'échelle au moment de l'inférence peuvent bénéficier aux algorithmes de pré-entraînement génératif.
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms
March 10, 2025
Auteurs: Jiaming Song, Linqi Zhou
cs.AI
Résumé
Ces dernières années ont vu des avancées significatives dans les modèles de base grâce à l'apprentissage préalable génératif, mais l'innovation algorithmique dans ce domaine s'est largement enlisée autour des modèles autorégressifs pour les signaux discrets et des modèles de diffusion pour les signaux continus. Cette stagnation crée un goulot d'étranglement qui nous empêche d'exploiter pleinement le potentiel des données multimodales riches, ce qui limite à son tour les progrès en matière d'intelligence multimodale. Nous soutenons qu'une perspective axée sur l'inférence, qui privilégie l'efficacité de mise à l'échelle pendant le temps d'inférence à travers la longueur des séquences et les étapes de raffinement, peut inspirer de nouveaux algorithmes d'apprentissage préalable génératif. En utilisant l'Appariement des Moments Inductifs (IMM) comme exemple concret, nous démontrons comment la résolution des limitations dans le processus d'inférence des modèles de diffusion grâce à des modifications ciblées aboutit à un algorithme stable en une seule étape, offrant une qualité d'échantillon supérieure avec une efficacité d'inférence plus d'un ordre de grandeur supérieure.
English
Recent years have seen significant advancements in foundation models through
generative pre-training, yet algorithmic innovation in this space has largely
stagnated around autoregressive models for discrete signals and diffusion
models for continuous signals. This stagnation creates a bottleneck that
prevents us from fully unlocking the potential of rich multi-modal data, which
in turn limits the progress on multimodal intelligence. We argue that an
inference-first perspective, which prioritizes scaling efficiency during
inference time across sequence length and refinement steps, can inspire novel
generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a
concrete example, we demonstrate how addressing limitations in diffusion
models' inference process through targeted modifications yields a stable,
single-stage algorithm that achieves superior sample quality with over an order
of magnitude greater inference efficiency.Summary
AI-Generated Summary