ChatPaper.aiChatPaper

LLM-AD: Audio-Beschreibungssystem auf Basis eines großen Sprachmodells

LLM-AD: Large Language Model based Audio Description System

May 2, 2024
Autoren: Peng Chu, Jiang Wang, Andre Abrantes
cs.AI

Zusammenfassung

Die Entwicklung der Audiodeskription (AD) war ein entscheidender Schritt hin zur Verbesserung der Zugänglichkeit und Inklusivität von Videoinhalten. Traditionell erforderte die AD-Produktion einen erheblichen Einsatz von Fachkräften, während bestehende automatisierte Ansätze immer noch umfangreiches Training erfordern, um multimodale Eingaben zu integrieren und die Ausgabe von einem Untertitelungsstil in einen AD-Stil anzupassen. In diesem Artikel stellen wir eine automatisierte AD-Erzeugungspipeline vor, die die leistungsstarken multimodalen und anweisungsbefolgenden Fähigkeiten von GPT-4V(ision) nutzt. Bemerkenswert ist, dass unsere Methodik leicht verfügbare Komponenten einsetzt, was zusätzliches Training überflüssig macht. Sie erzeugt ADs, die nicht nur den etablierten Standards der natürlichen Sprach-AD-Produktion entsprechen, sondern auch kontextuell konsistente Charakterinformationen über Frames hinweg beibehalten, dank eines auf Tracking basierenden Charaktererkennungsmoduls. Eine gründliche Analyse des MAD-Datensatzes zeigt, dass unser Ansatz eine Leistung erzielt, die mit lernbasierten Methoden in der automatisierten AD-Produktion vergleichbar ist, wie durch einen CIDEr-Score von 20,5 belegt wird.
English
The development of Audio Description (AD) has been a pivotal step forward in making video content more accessible and inclusive. Traditionally, AD production has demanded a considerable amount of skilled labor, while existing automated approaches still necessitate extensive training to integrate multimodal inputs and tailor the output from a captioning style to an AD style. In this paper, we introduce an automated AD generation pipeline that harnesses the potent multimodal and instruction-following capacities of GPT-4V(ision). Notably, our methodology employs readily available components, eliminating the need for additional training. It produces ADs that not only comply with established natural language AD production standards but also maintain contextually consistent character information across frames, courtesy of a tracking-based character recognition module. A thorough analysis on the MAD dataset reveals that our approach achieves a performance on par with learning-based methods in automated AD production, as substantiated by a CIDEr score of 20.5.

Summary

AI-Generated Summary

PDF231December 15, 2024