Eagle 2.5: Potenziamento del Post-Addestramento per Modelli Visione-Linguaggio all'Avanguardia con Contesti Estesi

Abstract

Presentiamo Eagle 2.5, una famiglia di modelli all'avanguardia per l'apprendimento multimodale a lungo contesto (VLMs). Il nostro lavoro affronta le sfide nella comprensione di video lunghi e nell'interpretazione di immagini ad alta risoluzione, introducendo un framework generalista per entrambe le attività. Il framework di training proposto incorpora il Campionamento Automatico del Degrado e la Preservazione dell'Area dell'Immagine, due tecniche che mantengono l'integrità contestuale e i dettagli visivi. Il framework include inoltre numerose ottimizzazioni di efficienza nella pipeline per il training di dati a lungo contesto. Infine, proponiamo Eagle-Video-110K, un nuovo dataset che integra annotazioni sia a livello di storia che di clip, facilitando la comprensione di video lunghi. Eagle 2.5 dimostra miglioramenti significativi nei benchmark multimodali a lungo contesto, fornendo una soluzione robusta ai limiti degli attuali VLMs. In particolare, il nostro miglior modello, Eagle 2.5-8B, raggiunge il 72,4% su Video-MME con 512 frame in input, eguagliando i risultati di modelli commerciali di primo livello come GPT-4o e modelli open-source su larga scala come Qwen2.5-VL-72B e InternVL2.5-78B.

English

We introduce Eagle 2.5, a family of frontier vision-language models (VLMs) for long-context multimodal learning. Our work addresses the challenges in long video comprehension and high-resolution image understanding, introducing a generalist framework for both tasks. The proposed training framework incorporates Automatic Degrade Sampling and Image Area Preservation, two techniques that preserve contextual integrity and visual details. The framework also includes numerous efficiency optimizations in the pipeline for long-context data training. Finally, we propose Eagle-Video-110K, a novel dataset that integrates both story-level and clip-level annotations, facilitating long-video understanding. Eagle 2.5 demonstrates substantial improvements on long-context multimodal benchmarks, providing a robust solution to the limitations of existing VLMs. Notably, our best model Eagle 2.5-8B achieves 72.4% on Video-MME with 512 input frames, matching the results of top-tier commercial model such as GPT-4o and large-scale open-source models like Qwen2.5-VL-72B and InternVL2.5-78B.

Eagle 2.5: Potenziamento del Post-Addestramento per Modelli Visione-Linguaggio all'Avanguardia con Contesti Estesi

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Abstract

Support