Las ideas en el escalamiento durante la inferencia pueden beneficiar a los algoritmos de preentrenamiento generativo.
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms
March 10, 2025
Autores: Jiaming Song, Linqi Zhou
cs.AI
Resumen
En los últimos años, hemos presenciado avances significativos en los modelos base a través del preentrenamiento generativo, aunque la innovación algorítmica en este ámbito se ha estancado principalmente en torno a modelos autorregresivos para señales discretas y modelos de difusión para señales continuas. Este estancamiento crea un cuello de botella que nos impide desbloquear por completo el potencial de los datos multimodales ricos, lo que a su vez limita el progreso en la inteligencia multimodal. Argumentamos que una perspectiva centrada en la inferencia, que prioriza la eficiencia de escalado durante el tiempo de inferencia en términos de longitud de secuencia y pasos de refinamiento, puede inspirar nuevos algoritmos de preentrenamiento generativo. Utilizando el Emparejamiento de Momentos Inductivo (IMM, por sus siglas en inglés) como ejemplo concreto, demostramos cómo abordar las limitaciones en el proceso de inferencia de los modelos de difusión mediante modificaciones específicas da lugar a un algoritmo estable de una sola etapa que logra una calidad de muestreo superior con una eficiencia de inferencia más de un orden de magnitud mayor.
English
Recent years have seen significant advancements in foundation models through
generative pre-training, yet algorithmic innovation in this space has largely
stagnated around autoregressive models for discrete signals and diffusion
models for continuous signals. This stagnation creates a bottleneck that
prevents us from fully unlocking the potential of rich multi-modal data, which
in turn limits the progress on multimodal intelligence. We argue that an
inference-first perspective, which prioritizes scaling efficiency during
inference time across sequence length and refinement steps, can inspire novel
generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a
concrete example, we demonstrate how addressing limitations in diffusion
models' inference process through targeted modifications yields a stable,
single-stage algorithm that achieves superior sample quality with over an order
of magnitude greater inference efficiency.Summary
AI-Generated Summary