CLAIR-A: Использование больших языковых моделей для оценки аудио-подписей
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions
September 19, 2024
Авторы: Tsung-Han Wu, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI
Аннотация
Задача автоматической транскрипции аудио (Automated Audio Captioning, AAC) заключается в запросе моделей на генерацию естественноязыковых описаний аудиовхода. Оценка этих машинно-сгенерированных аудиоописаний является сложной задачей, требующей учета различных факторов, среди которых понимание аудиосцены, вывод звуковых объектов, временная согласованность и окружающий контекст сцены. В то время как текущие методы фокусируются на конкретных аспектах, они часто не способны обеспечить общую оценку, которая хорошо коррелирует с человеческим суждением. В данной работе мы предлагаем CLAIR-A, простой и гибкий метод, который использует возможности нулевой настройки крупных языковых моделей (Large Language Models, LLMs) для оценки кандидатских аудиоописаний, обращаясь напрямую к LLMs за оценкой семантического расстояния. В наших оценках CLAIR-A лучше предсказывает человеческие суждения о качестве по сравнению с традиционными метриками, с улучшением относительной точности на 5,8% по сравнению с метрикой, специфичной для области FENSE, и до 11% по сравнению с лучшей универсальной мерой на наборе данных Clotho-Eval. Более того, CLAIR-A предлагает большую прозрачность, позволяя языковой модели объяснить рассуждения за свои оценки, и данные объяснения оцениваются человеческими оценщиками на 30% лучше, чем те, которые предоставлены базовыми методами. CLAIR-A доступен публично по адресу https://github.com/DavidMChan/clair-a.
English
The Automated Audio Captioning (AAC) task asks models to generate natural
language descriptions of an audio input. Evaluating these machine-generated
audio captions is a complex task that requires considering diverse factors,
among them, auditory scene understanding, sound-object inference, temporal
coherence, and the environmental context of the scene. While current methods
focus on specific aspects, they often fail to provide an overall score that
aligns well with human judgment. In this work, we propose CLAIR-A, a simple and
flexible method that leverages the zero-shot capabilities of large language
models (LLMs) to evaluate candidate audio captions by directly asking LLMs for
a semantic distance score. In our evaluations, CLAIR-A better predicts human
judgements of quality compared to traditional metrics, with a 5.8% relative
accuracy improvement compared to the domain-specific FENSE metric and up to 11%
over the best general-purpose measure on the Clotho-Eval dataset. Moreover,
CLAIR-A offers more transparency by allowing the language model to explain the
reasoning behind its scores, with these explanations rated up to 30% better by
human evaluators than those provided by baseline methods. CLAIR-A is made
publicly available at https://github.com/DavidMChan/clair-a.Summary
AI-Generated Summary