CLAIR-A: Het benutten van grote taalmodellen om audiobijschriften te beoordelen
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions
September 19, 2024
Auteurs: Tsung-Han Wu, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI
Samenvatting
De taak Geautomatiseerde Audiobijschriften (AAC) vraagt modellen om natuurlijke taalbeschrijvingen van een audio-invoer te genereren. Het evalueren van deze door machines gegenereerde audiobijschriften is een complexe taak die het overwegen van diverse factoren vereist, waaronder auditieve scènebegrip, geluidsobjectinferentie, temporele coherentie en de omgevingscontext van de scène. Terwijl huidige methoden zich richten op specifieke aspecten, slagen ze er vaak niet in om een algehele score te bieden die goed aansluit bij menselijke beoordeling. In dit werk stellen we CLAIR-A voor, een eenvoudige en flexibele methode die gebruikmaakt van de nul-shot mogelijkheden van grote taalmodellen (LLM's) om kandidaat-audiobijschriften te evalueren door LLM's rechtstreeks om een semantische afstandsscore te vragen. In onze evaluaties voorspelt CLAIR-A de menselijke beoordelingen van kwaliteit beter dan traditionele metrieken, met een relatieve nauwkeurigheidsverbetering van 5,8% in vergelijking met de domeinspecifieke FENSE-metriek en tot 11% boven de beste algemene maatstaf op de Clotho-Eval dataset. Bovendien biedt CLAIR-A meer transparantie door het taalmodel in staat te stellen de redenering achter zijn scores uit te leggen, waarbij deze verklaringen tot 30% beter worden beoordeeld door menselijke beoordelaars dan die verstrekt door basismethoden. CLAIR-A is openbaar beschikbaar op https://github.com/DavidMChan/clair-a.
English
The Automated Audio Captioning (AAC) task asks models to generate natural
language descriptions of an audio input. Evaluating these machine-generated
audio captions is a complex task that requires considering diverse factors,
among them, auditory scene understanding, sound-object inference, temporal
coherence, and the environmental context of the scene. While current methods
focus on specific aspects, they often fail to provide an overall score that
aligns well with human judgment. In this work, we propose CLAIR-A, a simple and
flexible method that leverages the zero-shot capabilities of large language
models (LLMs) to evaluate candidate audio captions by directly asking LLMs for
a semantic distance score. In our evaluations, CLAIR-A better predicts human
judgements of quality compared to traditional metrics, with a 5.8% relative
accuracy improvement compared to the domain-specific FENSE metric and up to 11%
over the best general-purpose measure on the Clotho-Eval dataset. Moreover,
CLAIR-A offers more transparency by allowing the language model to explain the
reasoning behind its scores, with these explanations rated up to 30% better by
human evaluators than those provided by baseline methods. CLAIR-A is made
publicly available at https://github.com/DavidMChan/clair-a.Summary
AI-Generated Summary