Идеи масштабирования во время вывода могут быть полезны для алгоритмов генеративного предварительного обучения
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms
March 10, 2025
Авторы: Jiaming Song, Linqi Zhou
cs.AI
Аннотация
В последние годы наблюдаются значительные успехи в развитии базовых моделей благодаря генеративному предварительному обучению, однако алгоритмические инновации в этой области в основном застопорились вокруг авторегрессивных моделей для дискретных сигналов и диффузионных моделей для непрерывных сигналов. Эта стагнация создает узкое место, которое мешает нам в полной мере раскрыть потенциал богатых мультимодальных данных, что, в свою очередь, ограничивает прогресс в области мультимодального интеллекта. Мы утверждаем, что подход, ориентированный на эффективность вывода, который уделяет приоритетное внимание масштабируемости во время вывода с учетом длины последовательности и шагов уточнения, может вдохновить на создание новых алгоритмов генеративного предварительного обучения. Используя метод Индуктивного Сопоставления Моментов (IMM) в качестве конкретного примера, мы демонстрируем, как устранение ограничений в процессе вывода диффузионных моделей за счет целенаправленных модификаций приводит к созданию стабильного одноэтапного алгоритма, который обеспечивает превосходное качество выборок при более чем на порядок большей эффективности вывода.
English
Recent years have seen significant advancements in foundation models through
generative pre-training, yet algorithmic innovation in this space has largely
stagnated around autoregressive models for discrete signals and diffusion
models for continuous signals. This stagnation creates a bottleneck that
prevents us from fully unlocking the potential of rich multi-modal data, which
in turn limits the progress on multimodal intelligence. We argue that an
inference-first perspective, which prioritizes scaling efficiency during
inference time across sequence length and refinement steps, can inspire novel
generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a
concrete example, we demonstrate how addressing limitations in diffusion
models' inference process through targeted modifications yields a stable,
single-stage algorithm that achieves superior sample quality with over an order
of magnitude greater inference efficiency.Summary
AI-Generated Summary