ChatPaper.aiChatPaper

Naar Diverse en Efficiënte Audiobijschriften via Diffusiemodellen

Towards Diverse and Efficient Audio Captioning via Diffusion Models

September 14, 2024
Auteurs: Manjie Xu, Chenxing Li, Xinyi Tu, Yong Ren, Ruibo Fu, Wei Liang, Dong Yu
cs.AI

Samenvatting

We introduceren Diffusie-gebaseerde Audiobijschriften (DAC), een niet-autoregressief diffusiemodel dat is afgestemd op diverse en efficiënte audiobijschriften. Hoewel bestaande bijschriftmodellen die vertrouwen op taalbackbones opmerkelijk succes hebben geboekt in verschillende bijschrifttaken, belemmeren hun ontoereikende prestaties op het gebied van generatiesnelheid en diversiteit de vooruitgang in audio begrip en multimediatoepassingen. Ons op diffusie gebaseerde framework biedt unieke voordelen die voortkomen uit de inherente stochastiek en holistische contextmodellering in bijschriften. Via grondige evaluatie tonen we aan dat DAC niet alleen SOTA-prestatieniveaus behaalt in vergelijking met bestaande benchmarks op het gebied van bijschriftenkwaliteit, maar ze ook aanzienlijk overtreft op het gebied van generatiesnelheid en diversiteit. Het succes van DAC illustreert dat tekstgeneratie ook naadloos geïntegreerd kan worden met audio- en visuele generatietaken met behulp van een diffusie-backbone, waardoor de weg wordt vrijgemaakt voor een verenigd, op audio gericht generatief model over verschillende modaliteiten.
English
We introduce Diffusion-based Audio Captioning (DAC), a non-autoregressive diffusion model tailored for diverse and efficient audio captioning. Although existing captioning models relying on language backbones have achieved remarkable success in various captioning tasks, their insufficient performance in terms of generation speed and diversity impede progress in audio understanding and multimedia applications. Our diffusion-based framework offers unique advantages stemming from its inherent stochasticity and holistic context modeling in captioning. Through rigorous evaluation, we demonstrate that DAC not only achieves SOTA performance levels compared to existing benchmarks in the caption quality, but also significantly outperforms them in terms of generation speed and diversity. The success of DAC illustrates that text generation can also be seamlessly integrated with audio and visual generation tasks using a diffusion backbone, paving the way for a unified, audio-related generative model across different modalities.

Summary

AI-Generated Summary

PDF73November 16, 2024