Wolf: 세계 요약 프레임워크를 통한 모든 것의 캡션 생성
Wolf: Captioning Everything with a World Summarization Framework
July 26, 2024
저자: Boyi Li, Ligeng Zhu, Ran Tian, Shuhan Tan, Yuxiao Chen, Yao Lu, Yin Cui, Sushant Veer, Max Ehrlich, Jonah Philion, Xinshuo Weng, Fuzhao Xue, Andrew Tao, Ming-Yu Liu, Sanja Fidler, Boris Ivanovic, Trevor Darrell, Jitendra Malik, Song Han, Marco Pavone
cs.AI
초록
우리는 정확한 비디오 캡셔닝을 위한 WOrLd 요약 프레임워크인 Wolf를 제안합니다. Wolf는 Vision Language Models(VLMs)의 상호 보완적인 강점을 활용한 전문가 혼합(mixture-of-experts) 접근 방식을 채택한 자동 캡셔닝 프레임워크입니다. 이미지와 비디오 모델을 모두 활용함으로써, 우리의 프레임워크는 다양한 수준의 정보를 포착하고 이를 효율적으로 요약합니다. 이 접근 방식은 비디오 이해, 자동 라벨링, 캡셔닝을 향상시키는 데 적용될 수 있습니다. 캡션 품질을 평가하기 위해, 우리는 생성된 캡션과 실제 캡션 간의 유사성과 품질을 평가하기 위한 LLM 기반 메트릭인 CapScore를 도입했습니다. 또한, 자율 주행, 일반 장면, 로보틱스라는 세 가지 도메인에서 인간이 주석을 단 네 가지 데이터셋을 구축하여 포괄적인 비교를 가능하게 했습니다. 우리는 Wolf가 연구 커뮤니티(VILA1.5, CogAgent)와 상업적 솔루션(Gemini-Pro-1.5, GPT-4V)의 최신 접근 방식보다 우수한 캡셔닝 성능을 달성함을 보여줍니다. 예를 들어, GPT-4V와 비교했을 때, Wolf는 도전적인 주행 비디오에서 CapScore를 품질 측면에서 55.6%, 유사성 측면에서 77.4% 향상시켰습니다. 마지막으로, 우리는 비디오 캡셔닝을 위한 벤치마크를 구축하고 리더보드를 도입하여 비디오 이해, 캡셔닝, 데이터 정렬 분야의 발전을 가속화하고자 합니다. 리더보드: https://wolfv0.github.io/leaderboard.html.
English
We propose Wolf, a WOrLd summarization Framework for accurate video
captioning. Wolf is an automated captioning framework that adopts a
mixture-of-experts approach, leveraging complementary strengths of Vision
Language Models (VLMs). By utilizing both image and video models, our framework
captures different levels of information and summarizes them efficiently. Our
approach can be applied to enhance video understanding, auto-labeling, and
captioning. To evaluate caption quality, we introduce CapScore, an LLM-based
metric to assess the similarity and quality of generated captions compared to
the ground truth captions. We further build four human-annotated datasets in
three domains: autonomous driving, general scenes, and robotics, to facilitate
comprehensive comparisons. We show that Wolf achieves superior captioning
performance compared to state-of-the-art approaches from the research community
(VILA1.5, CogAgent) and commercial solutions (Gemini-Pro-1.5, GPT-4V). For
instance, in comparison with GPT-4V, Wolf improves CapScore both quality-wise
by 55.6% and similarity-wise by 77.4% on challenging driving videos. Finally,
we establish a benchmark for video captioning and introduce a leaderboard,
aiming to accelerate advancements in video understanding, captioning, and data
alignment. Leaderboard: https://wolfv0.github.io/leaderboard.html.Summary
AI-Generated Summary