TESS: Текст-к-тексту самокондиционированная симплексная диффузия
TESS: Text-to-Text Self-Conditioned Simplex Diffusion
May 15, 2023
Авторы: Rabeeh Karimi Mahabadi, Jaesung Tae, Hamish Ivison, James Henderson, Iz Beltagy, Matthew E. Peters, Arman Cohan
cs.AI
Аннотация
Диффузионные модели стали мощной парадигмой для генерации, демонстрируя высокую производительность в различных областях с непрерывными входными данными. Несмотря на перспективы полностью неавторегрессивной генерации текста, применение диффузионных моделей к естественному языку остается сложной задачей из-за его дискретной природы. В данной работе мы предлагаем Text-to-text Self-conditioned Simplex Diffusion (TESS) — модель диффузии текста, которая является полностью неавторегрессивной, использует новую форму самокондиционирования и применяет процесс диффузии в пространстве симплекса логитов, а не в типичном пространстве обученных эмбеддингов. Благодаря обширным экспериментам в задачах понимания и генерации естественного языка, включая суммаризацию, упрощение текста, генерацию парафраз и вопросов, мы показываем, что TESS превосходит современные неавторегрессивные модели и конкурирует с предобученными авторегрессивными моделями последовательностей.
English
Diffusion models have emerged as a powerful paradigm for generation,
obtaining strong performance in various domains with continuous-valued inputs.
Despite the promises of fully non-autoregressive text generation, applying
diffusion models to natural language remains challenging due to its discrete
nature. In this work, we propose Text-to-text Self-conditioned Simplex
Diffusion (TESS), a text diffusion model that is fully non-autoregressive,
employs a new form of self-conditioning, and applies the diffusion process on
the logit simplex space rather than the typical learned embedding space.
Through extensive experiments on natural language understanding and generation
tasks including summarization, text simplification, paraphrase generation, and
question generation, we demonstrate that TESS outperforms state-of-the-art
non-autoregressive models and is competitive with pretrained autoregressive
sequence-to-sequence models.