Tarsier2: Avanzando en Modelos Grandes de Visión-Lenguaje desde Descripciones Detalladas de Video hasta una Comprensión Integral del Video
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
January 14, 2025
Autores: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
cs.AI
Resumen
Presentamos Tarsier2, un modelo de lenguaje-visión grande de última generación (LVLM) diseñado para generar descripciones detalladas y precisas de videos, al mismo tiempo que exhibe capacidades superiores de comprensión general de videos. Tarsier2 logra avances significativos a través de tres actualizaciones clave: (1) Escalando los datos de pre-entrenamiento de 11M a 40M pares de video-texto, enriqueciendo tanto el volumen como la diversidad; (2) Realizando un alineamiento temporal detallado durante el ajuste fino supervisado; (3) Utilizando muestreo basado en el modelo para construir automáticamente datos de preferencia y aplicando entrenamiento DPO para optimización. Experimentos extensos muestran que Tarsier2-7B supera consistentemente a los principales modelos propietarios, incluyendo GPT-4o y Gemini 1.5 Pro, en tareas detalladas de descripción de videos. En el banco de pruebas DREAM-1K, Tarsier2-7B mejora F1 en un 2.8\% sobre GPT-4o y un 5.8\% sobre Gemini-1.5-Pro. En evaluaciones humanas lado a lado, Tarsier2-7B muestra una ventaja de rendimiento del +8.6\% sobre GPT-4o y del +24.9\% sobre Gemini-1.5-Pro. Tarsier2-7B también establece nuevos resultados de última generación en 15 bancos de pruebas públicos, abarcando tareas como pregunta-respuesta de video, fundamentación de video, prueba de alucinación y pregunta-respuesta encarnada, demostrando su versatilidad como un modelo robusto de lenguaje-visión generalista.
English
We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM)
designed for generating detailed and accurate video descriptions, while also
exhibiting superior general video understanding capabilities. Tarsier2 achieves
significant advancements through three key upgrades: (1) Scaling pre-training
data from 11M to 40M video-text pairs, enriching both volume and diversity; (2)
Performing fine-grained temporal alignment during supervised fine-tuning; (3)
Using model-based sampling to automatically construct preference data and
applying DPO training for optimization. Extensive experiments show that
Tarsier2-7B consistently outperforms leading proprietary models, including
GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K
benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over
Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\%
performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B
also sets new state-of-the-art results across 15 public benchmarks, spanning
tasks such as video question-answering, video grounding, hallucination test,
and embodied question-answering, demonstrating its versatility as a robust
generalist vision-language model.Summary
AI-Generated Summary