Discrete Flow Matching
Discrete Flow Matching
July 22, 2024
Auteurs: Itai Gat, Tal Remez, Neta Shaul, Felix Kreuk, Ricky T. Q. Chen, Gabriel Synnaeve, Yossi Adi, Yaron Lipman
cs.AI
Samenvatting
Ondanks dat Flow Matching en diffusiemodellen zich hebben ontwikkeld als krachtige generatieve paradigma's voor continue variabelen zoals afbeeldingen en video's, is hun toepassing op hoogdimensionale discrete gegevens, zoals taal, nog steeds beperkt. In dit werk presenteren we Discrete Flow Matching, een nieuw discreet stroomparadigma dat specifiek is ontworpen voor het genereren van discrete gegevens. Discrete Flow Matching biedt verschillende belangrijke bijdragen: (i) het werkt met een algemene familie van waarschijnlijkheidspaden die interpoleren tussen bron- en doeldistributies; (ii) het maakt een generieke formule mogelijk voor het bemonsteren van deze waarschijnlijkheidspaden met behulp van geleerde posteriori zoals de waarschijnlijkheidsdenoiser (x-predictie) en ruisvoorspelling (epsilon-predictie); (iii) in de praktijk verbetert het focussen op specifieke waarschijnlijkheidspaden die zijn gedefinieerd met verschillende planners de generatieve perplexiteit aanzienlijk in vergelijking met eerdere discrete diffusie- en stroommodellen; en (iv) door Discrete Flow Matching-modellen op te schalen tot 1,7 miljard parameters, bereiken we 6,7% Pass@1 en 13,4% Pass@10 op HumanEval en 6,7% Pass@1 en 20,6% Pass@10 op 1-shot MBPP-coderingsbenchmarks. Onze aanpak is in staat om hoogwaardige discrete gegevens te genereren op een niet-autoregressieve manier, waardoor de kloof tussen autoregressieve modellen en discrete stroommodellen aanzienlijk wordt verkleind.
English
Despite Flow Matching and diffusion models having emerged as powerful
generative paradigms for continuous variables such as images and videos, their
application to high-dimensional discrete data, such as language, is still
limited. In this work, we present Discrete Flow Matching, a novel discrete flow
paradigm designed specifically for generating discrete data. Discrete Flow
Matching offers several key contributions: (i) it works with a general family
of probability paths interpolating between source and target distributions;
(ii) it allows for a generic formula for sampling from these probability paths
using learned posteriors such as the probability denoiser (x-prediction) and
noise-prediction (epsilon-prediction); (iii) practically, focusing on
specific probability paths defined with different schedulers considerably
improves generative perplexity compared to previous discrete diffusion and flow
models; and (iv) by scaling Discrete Flow Matching models up to 1.7B
parameters, we reach 6.7% Pass@1 and 13.4% Pass@10 on HumanEval and 6.7% Pass@1
and 20.6% Pass@10 on 1-shot MBPP coding benchmarks. Our approach is capable of
generating high-quality discrete data in a non-autoregressive fashion,
significantly closing the gap between autoregressive models and discrete flow
models.