Lobo: Subtitulado de Todo con un Marco de Resumen Mundial
Wolf: Captioning Everything with a World Summarization Framework
July 26, 2024
Autores: Boyi Li, Ligeng Zhu, Ran Tian, Shuhan Tan, Yuxiao Chen, Yao Lu, Yin Cui, Sushant Veer, Max Ehrlich, Jonah Philion, Xinshuo Weng, Fuzhao Xue, Andrew Tao, Ming-Yu Liu, Sanja Fidler, Boris Ivanovic, Trevor Darrell, Jitendra Malik, Song Han, Marco Pavone
cs.AI
Resumen
Proponemos Wolf, un Marco de Resumen del Mundo (WOrLd) para la precisión en la subtitulación de videos. Wolf es un marco de subtitulación automatizado que adopta un enfoque de mezcla de expertos, aprovechando las fortalezas complementarias de los Modelos de Lenguaje de Visión (VLMs). Al utilizar tanto modelos de imagen como de video, nuestro marco captura diferentes niveles de información y los resume de manera eficiente. Nuestro enfoque se puede aplicar para mejorar la comprensión de videos, el etiquetado automático y la subtitulación. Para evaluar la calidad de los subtítulos, presentamos CapScore, una métrica basada en LLM para evaluar la similitud y calidad de los subtítulos generados en comparación con los subtítulos de referencia. Además, creamos cuatro conjuntos de datos anotados por humanos en tres dominios: conducción autónoma, escenas generales y robótica, para facilitar comparaciones exhaustivas. Mostramos que Wolf logra un rendimiento superior en la subtitulación en comparación con enfoques de vanguardia de la comunidad de investigación (VILA1.5, CogAgent) y soluciones comerciales (Gemini-Pro-1.5, GPT-4V). Por ejemplo, en comparación con GPT-4V, Wolf mejora CapScore tanto en calidad en un 55.6% como en similitud en un 77.4% en videos desafiantes de conducción. Finalmente, establecemos un punto de referencia para la subtitulación de videos e introducimos un tablero de líderes, con el objetivo de acelerar los avances en la comprensión de videos, subtitulación y alineación de datos. Tablero de líderes: https://wolfv0.github.io/leaderboard.html.
English
We propose Wolf, a WOrLd summarization Framework for accurate video
captioning. Wolf is an automated captioning framework that adopts a
mixture-of-experts approach, leveraging complementary strengths of Vision
Language Models (VLMs). By utilizing both image and video models, our framework
captures different levels of information and summarizes them efficiently. Our
approach can be applied to enhance video understanding, auto-labeling, and
captioning. To evaluate caption quality, we introduce CapScore, an LLM-based
metric to assess the similarity and quality of generated captions compared to
the ground truth captions. We further build four human-annotated datasets in
three domains: autonomous driving, general scenes, and robotics, to facilitate
comprehensive comparisons. We show that Wolf achieves superior captioning
performance compared to state-of-the-art approaches from the research community
(VILA1.5, CogAgent) and commercial solutions (Gemini-Pro-1.5, GPT-4V). For
instance, in comparison with GPT-4V, Wolf improves CapScore both quality-wise
by 55.6% and similarity-wise by 77.4% on challenging driving videos. Finally,
we establish a benchmark for video captioning and introduce a leaderboard,
aiming to accelerate advancements in video understanding, captioning, and data
alignment. Leaderboard: https://wolfv0.github.io/leaderboard.html.Summary
AI-Generated Summary