Las ideas en el escalamiento durante la inferencia pueden beneficiar a los algoritmos de preentrenamiento generativo.

Resumen

En los últimos años, hemos presenciado avances significativos en los modelos base a través del preentrenamiento generativo, aunque la innovación algorítmica en este ámbito se ha estancado principalmente en torno a modelos autorregresivos para señales discretas y modelos de difusión para señales continuas. Este estancamiento crea un cuello de botella que nos impide desbloquear por completo el potencial de los datos multimodales ricos, lo que a su vez limita el progreso en la inteligencia multimodal. Argumentamos que una perspectiva centrada en la inferencia, que prioriza la eficiencia de escalado durante el tiempo de inferencia en términos de longitud de secuencia y pasos de refinamiento, puede inspirar nuevos algoritmos de preentrenamiento generativo. Utilizando el Emparejamiento de Momentos Inductivo (IMM, por sus siglas en inglés) como ejemplo concreto, demostramos cómo abordar las limitaciones en el proceso de inferencia de los modelos de difusión mediante modificaciones específicas da lugar a un algoritmo estable de una sola etapa que logra una calidad de muestreo superior con una eficiencia de inferencia más de un orden de magnitud mayor.

English

Recent years have seen significant advancements in foundation models through generative pre-training, yet algorithmic innovation in this space has largely stagnated around autoregressive models for discrete signals and diffusion models for continuous signals. This stagnation creates a bottleneck that prevents us from fully unlocking the potential of rich multi-modal data, which in turn limits the progress on multimodal intelligence. We argue that an inference-first perspective, which prioritizes scaling efficiency during inference time across sequence length and refinement steps, can inspire novel generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a concrete example, we demonstrate how addressing limitations in diffusion models' inference process through targeted modifications yields a stable, single-stage algorithm that achieves superior sample quality with over an order of magnitude greater inference efficiency.

Las ideas en el escalamiento durante la inferencia pueden beneficiar a los algoritmos de preentrenamiento generativo.

Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms

Resumen

Support