Naar Diverse en Efficiënte Audiobijschriften via Diffusiemodellen
Towards Diverse and Efficient Audio Captioning via Diffusion Models
September 14, 2024
Auteurs: Manjie Xu, Chenxing Li, Xinyi Tu, Yong Ren, Ruibo Fu, Wei Liang, Dong Yu
cs.AI
Samenvatting
We introduceren Diffusie-gebaseerde Audiobijschriften (DAC), een niet-autoregressief diffusiemodel dat is afgestemd op diverse en efficiënte audiobijschriften. Hoewel bestaande bijschriftmodellen die vertrouwen op taalbackbones opmerkelijk succes hebben geboekt in verschillende bijschrifttaken, belemmeren hun ontoereikende prestaties op het gebied van generatiesnelheid en diversiteit de vooruitgang in audio begrip en multimediatoepassingen. Ons op diffusie gebaseerde framework biedt unieke voordelen die voortkomen uit de inherente stochastiek en holistische contextmodellering in bijschriften. Via grondige evaluatie tonen we aan dat DAC niet alleen SOTA-prestatieniveaus behaalt in vergelijking met bestaande benchmarks op het gebied van bijschriftenkwaliteit, maar ze ook aanzienlijk overtreft op het gebied van generatiesnelheid en diversiteit. Het succes van DAC illustreert dat tekstgeneratie ook naadloos geïntegreerd kan worden met audio- en visuele generatietaken met behulp van een diffusie-backbone, waardoor de weg wordt vrijgemaakt voor een verenigd, op audio gericht generatief model over verschillende modaliteiten.
English
We introduce Diffusion-based Audio Captioning (DAC), a non-autoregressive
diffusion model tailored for diverse and efficient audio captioning. Although
existing captioning models relying on language backbones have achieved
remarkable success in various captioning tasks, their insufficient performance
in terms of generation speed and diversity impede progress in audio
understanding and multimedia applications. Our diffusion-based framework offers
unique advantages stemming from its inherent stochasticity and holistic context
modeling in captioning. Through rigorous evaluation, we demonstrate that DAC
not only achieves SOTA performance levels compared to existing benchmarks in
the caption quality, but also significantly outperforms them in terms of
generation speed and diversity. The success of DAC illustrates that text
generation can also be seamlessly integrated with audio and visual generation
tasks using a diffusion backbone, paving the way for a unified, audio-related
generative model across different modalities.Summary
AI-Generated Summary