Flusso Discreto di Matching
Discrete Flow Matching
July 22, 2024
Autori: Itai Gat, Tal Remez, Neta Shaul, Felix Kreuk, Ricky T. Q. Chen, Gabriel Synnaeve, Yossi Adi, Yaron Lipman
cs.AI
Abstract
Nonostante i modelli di Flow Matching e di diffusione siano emersi come potenti paradigmi generativi per variabili continue come immagini e video, la loro applicazione a dati discreti ad alta dimensionalità, come il linguaggio, è ancora limitata. In questo lavoro, presentiamo Discrete Flow Matching, un nuovo paradigma di flusso discreto progettato specificamente per la generazione di dati discreti. Discrete Flow Matching offre diversi contributi chiave: (i) funziona con una famiglia generale di percorsi di probabilità che interpolano tra distribuzioni sorgente e target; (ii) consente una formula generica per il campionamento da questi percorsi di probabilità utilizzando posteriori appresi come il denoiser di probabilità (x-prediction) e la predizione del rumore (epsilon-prediction); (iii) praticamente, concentrarsi su percorsi di probabilità specifici definiti con diversi scheduler migliora notevolmente la perplessità generativa rispetto ai precedenti modelli di diffusione e flusso discreti; e (iv) scalando i modelli di Discrete Flow Matching fino a 1,7 miliardi di parametri, raggiungiamo il 6,7% di Pass@1 e il 13,4% di Pass@10 su HumanEval e il 6,7% di Pass@1 e il 20,6% di Pass@10 sui benchmark di codifica 1-shot MBPP. Il nostro approccio è in grado di generare dati discreti di alta qualità in modo non autoregressivo, riducendo significativamente il divario tra i modelli autoregressivi e i modelli di flusso discreto.
English
Despite Flow Matching and diffusion models having emerged as powerful
generative paradigms for continuous variables such as images and videos, their
application to high-dimensional discrete data, such as language, is still
limited. In this work, we present Discrete Flow Matching, a novel discrete flow
paradigm designed specifically for generating discrete data. Discrete Flow
Matching offers several key contributions: (i) it works with a general family
of probability paths interpolating between source and target distributions;
(ii) it allows for a generic formula for sampling from these probability paths
using learned posteriors such as the probability denoiser (x-prediction) and
noise-prediction (epsilon-prediction); (iii) practically, focusing on
specific probability paths defined with different schedulers considerably
improves generative perplexity compared to previous discrete diffusion and flow
models; and (iv) by scaling Discrete Flow Matching models up to 1.7B
parameters, we reach 6.7% Pass@1 and 13.4% Pass@10 on HumanEval and 6.7% Pass@1
and 20.6% Pass@10 on 1-shot MBPP coding benchmarks. Our approach is capable of
generating high-quality discrete data in a non-autoregressive fashion,
significantly closing the gap between autoregressive models and discrete flow
models.