LLM-AD: 대형 언어 모델 기반 오디오 설명 시스템
LLM-AD: Large Language Model based Audio Description System
May 2, 2024
저자: Peng Chu, Jiang Wang, Andre Abrantes
cs.AI
초록
오디오 설명(Audio Description, AD)의 발전은 비디오 콘텐츠를 보다 접근 가능하고 포용적으로 만드는 데 있어 중요한 진전을 이루었습니다. 전통적으로 AD 제작은 상당한 수준의 숙련된 노동력을 요구해 왔으며, 기존의 자동화된 접근 방식 역시 멀티모달 입력을 통합하고 캡션 스타일에서 AD 스타일로 출력을 맞추기 위해 광범위한 학습이 필요했습니다. 본 논문에서는 GPT-4V(ision)의 강력한 멀티모달 및 명령 수행 능력을 활용한 자동화된 AD 생성 파이프라인을 소개합니다. 특히, 우리의 방법론은 추가적인 학습 없이도 사용 가능한 구성 요소를 활용하며, 이는 기존의 자연어 AD 제작 표준을 준수할 뿐만 아니라 추적 기반 캐릭터 인식 모듈을 통해 프레임 간에 맥락적으로 일관된 캐릭터 정보를 유지합니다. MAD 데이터셋에 대한 철저한 분석 결과, 우리의 접근 방식은 CIDEr 점수 20.5로 입증된 바와 같이 자동화된 AD 제작에서 학습 기반 방법과 동등한 성능을 달성함을 보여줍니다.
English
The development of Audio Description (AD) has been a pivotal step forward in
making video content more accessible and inclusive. Traditionally, AD
production has demanded a considerable amount of skilled labor, while existing
automated approaches still necessitate extensive training to integrate
multimodal inputs and tailor the output from a captioning style to an AD style.
In this paper, we introduce an automated AD generation pipeline that harnesses
the potent multimodal and instruction-following capacities of GPT-4V(ision).
Notably, our methodology employs readily available components, eliminating the
need for additional training. It produces ADs that not only comply with
established natural language AD production standards but also maintain
contextually consistent character information across frames, courtesy of a
tracking-based character recognition module. A thorough analysis on the MAD
dataset reveals that our approach achieves a performance on par with
learning-based methods in automated AD production, as substantiated by a CIDEr
score of 20.5.Summary
AI-Generated Summary