Eagle 2.5: Potenziamento del Post-Addestramento per Modelli Visione-Linguaggio all'Avanguardia con Contesti Estesi
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
April 21, 2025
Autori: Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu
cs.AI
Abstract
Presentiamo Eagle 2.5, una famiglia di modelli all'avanguardia per l'apprendimento multimodale a lungo contesto (VLMs). Il nostro lavoro affronta le sfide nella comprensione di video lunghi e nell'interpretazione di immagini ad alta risoluzione, introducendo un framework generalista per entrambe le attività. Il framework di training proposto incorpora il Campionamento Automatico del Degrado e la Preservazione dell'Area dell'Immagine, due tecniche che mantengono l'integrità contestuale e i dettagli visivi. Il framework include inoltre numerose ottimizzazioni di efficienza nella pipeline per il training di dati a lungo contesto. Infine, proponiamo Eagle-Video-110K, un nuovo dataset che integra annotazioni sia a livello di storia che di clip, facilitando la comprensione di video lunghi. Eagle 2.5 dimostra miglioramenti significativi nei benchmark multimodali a lungo contesto, fornendo una soluzione robusta ai limiti degli attuali VLMs. In particolare, il nostro miglior modello, Eagle 2.5-8B, raggiunge il 72,4% su Video-MME con 512 frame in input, eguagliando i risultati di modelli commerciali di primo livello come GPT-4o e modelli open-source su larga scala come Qwen2.5-VL-72B e InternVL2.5-78B.
English
We introduce Eagle 2.5, a family of frontier vision-language models (VLMs)
for long-context multimodal learning. Our work addresses the challenges in long
video comprehension and high-resolution image understanding, introducing a
generalist framework for both tasks. The proposed training framework
incorporates Automatic Degrade Sampling and Image Area Preservation, two
techniques that preserve contextual integrity and visual details. The framework
also includes numerous efficiency optimizations in the pipeline for
long-context data training. Finally, we propose Eagle-Video-110K, a novel
dataset that integrates both story-level and clip-level annotations,
facilitating long-video understanding. Eagle 2.5 demonstrates substantial
improvements on long-context multimodal benchmarks, providing a robust solution
to the limitations of existing VLMs. Notably, our best model Eagle 2.5-8B
achieves 72.4% on Video-MME with 512 input frames, matching the results of
top-tier commercial model such as GPT-4o and large-scale open-source models
like Qwen2.5-VL-72B and InternVL2.5-78B.Summary
AI-Generated Summary