ChatPaper.aiChatPaper

이산 흐름 매칭

Discrete Flow Matching

July 22, 2024
저자: Itai Gat, Tal Remez, Neta Shaul, Felix Kreuk, Ricky T. Q. Chen, Gabriel Synnaeve, Yossi Adi, Yaron Lipman
cs.AI

초록

이미지와 비디오와 같은 연속 변수에 대한 강력한 생성 패러다임으로 등장한 Flow Matching과 확산 모델(Diffusion Models)이 있음에도 불구하고, 언어와 같은 고차원 이산 데이터에 대한 이들의 적용은 여전히 제한적입니다. 본 연구에서는 이산 데이터 생성을 위해 특별히 설계된 새로운 이산 흐름 패러다임인 Discrete Flow Matching을 제안합니다. Discrete Flow Matching은 다음과 같은 주요 기여를 제공합니다: (i) 소스 분포와 타겟 분포 사이를 보간하는 일반적인 확률 경로 패밀리와 함께 작동합니다; (ii) 확률 디노이저(x-예측) 및 노이즈 예측(epsilon-예측)과 같은 학습된 사후 분포를 사용하여 이러한 확률 경로에서 샘플링하기 위한 일반적인 공식을 허용합니다; (iii) 실제로, 다양한 스케줄러로 정의된 특정 확률 경로에 초점을 맞추는 것이 기존의 이산 확산 및 흐름 모델에 비해 생성적 복잡도를 상당히 개선합니다; 그리고 (iv) Discrete Flow Matching 모델을 17억 개의 파라미터로 확장함으로써, HumanEval에서 6.7% Pass@1 및 13.4% Pass@10, 1-shot MBPP 코딩 벤치마크에서 6.7% Pass@1 및 20.6% Pass@10를 달성했습니다. 우리의 접근 방식은 비자기회귀(non-autoregressive) 방식으로 고품질의 이산 데이터를 생성할 수 있으며, 자기회귀 모델과 이산 흐름 모델 간의 격차를 크게 좁힙니다.
English
Despite Flow Matching and diffusion models having emerged as powerful generative paradigms for continuous variables such as images and videos, their application to high-dimensional discrete data, such as language, is still limited. In this work, we present Discrete Flow Matching, a novel discrete flow paradigm designed specifically for generating discrete data. Discrete Flow Matching offers several key contributions: (i) it works with a general family of probability paths interpolating between source and target distributions; (ii) it allows for a generic formula for sampling from these probability paths using learned posteriors such as the probability denoiser (x-prediction) and noise-prediction (epsilon-prediction); (iii) practically, focusing on specific probability paths defined with different schedulers considerably improves generative perplexity compared to previous discrete diffusion and flow models; and (iv) by scaling Discrete Flow Matching models up to 1.7B parameters, we reach 6.7% Pass@1 and 13.4% Pass@10 on HumanEval and 6.7% Pass@1 and 20.6% Pass@10 on 1-shot MBPP coding benchmarks. Our approach is capable of generating high-quality discrete data in a non-autoregressive fashion, significantly closing the gap between autoregressive models and discrete flow models.

Summary

AI-Generated Summary

PDF132November 28, 2024