Flusso Discreto di Matching

Abstract

Nonostante i modelli di Flow Matching e di diffusione siano emersi come potenti paradigmi generativi per variabili continue come immagini e video, la loro applicazione a dati discreti ad alta dimensionalità, come il linguaggio, è ancora limitata. In questo lavoro, presentiamo Discrete Flow Matching, un nuovo paradigma di flusso discreto progettato specificamente per la generazione di dati discreti. Discrete Flow Matching offre diversi contributi chiave: (i) funziona con una famiglia generale di percorsi di probabilità che interpolano tra distribuzioni sorgente e target; (ii) consente una formula generica per il campionamento da questi percorsi di probabilità utilizzando posteriori appresi come il denoiser di probabilità (x-prediction) e la predizione del rumore (epsilon-prediction); (iii) praticamente, concentrarsi su percorsi di probabilità specifici definiti con diversi scheduler migliora notevolmente la perplessità generativa rispetto ai precedenti modelli di diffusione e flusso discreti; e (iv) scalando i modelli di Discrete Flow Matching fino a 1,7 miliardi di parametri, raggiungiamo il 6,7% di Pass@1 e il 13,4% di Pass@10 su HumanEval e il 6,7% di Pass@1 e il 20,6% di Pass@10 sui benchmark di codifica 1-shot MBPP. Il nostro approccio è in grado di generare dati discreti di alta qualità in modo non autoregressivo, riducendo significativamente il divario tra i modelli autoregressivi e i modelli di flusso discreto.

English

Despite Flow Matching and diffusion models having emerged as powerful generative paradigms for continuous variables such as images and videos, their application to high-dimensional discrete data, such as language, is still limited. In this work, we present Discrete Flow Matching, a novel discrete flow paradigm designed specifically for generating discrete data. Discrete Flow Matching offers several key contributions: (i) it works with a general family of probability paths interpolating between source and target distributions; (ii) it allows for a generic formula for sampling from these probability paths using learned posteriors such as the probability denoiser (x-prediction) and noise-prediction (epsilon-prediction); (iii) practically, focusing on specific probability paths defined with different schedulers considerably improves generative perplexity compared to previous discrete diffusion and flow models; and (iv) by scaling Discrete Flow Matching models up to 1.7B parameters, we reach 6.7% Pass@1 and 13.4% Pass@10 on HumanEval and 6.7% Pass@1 and 20.6% Pass@10 on 1-shot MBPP coding benchmarks. Our approach is capable of generating high-quality discrete data in a non-autoregressive fashion, significantly closing the gap between autoregressive models and discrete flow models.