ChatPaper.aiChatPaper

Eagle 2.5 : Renforcement de l'optimisation post-entraînement pour les modèles vision-langage de pointe avec contexte étendu

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

April 21, 2025
Auteurs: Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tuomas Rintamaki, Tyler Poon, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu
cs.AI

Résumé

Nous présentons Eagle 2.5, une famille de modèles vision-langage (VLMs) de pointe pour l'apprentissage multimodal à contexte long. Notre travail aborde les défis liés à la compréhension de vidéos longues et à l'interprétation d'images haute résolution, en introduisant un cadre généraliste pour ces deux tâches. Le cadre d'entraînement proposé intègre l'Échantillonnage Automatique de Dégradation et la Préservation de la Zone d'Image, deux techniques qui préservent l'intégrité contextuelle et les détails visuels. Le cadre inclut également de nombreuses optimisations d'efficacité dans le pipeline pour l'entraînement sur des données à contexte long. Enfin, nous proposons Eagle-Video-110K, un nouveau jeu de données qui intègre à la fois des annotations au niveau de l'histoire et au niveau des clips, facilitant la compréhension des vidéos longues. Eagle 2.5 démontre des améliorations substantielles sur les benchmarks multimodaux à contexte long, offrant une solution robuste aux limitations des VLMs existants. Notamment, notre meilleur modèle Eagle 2.5-8B atteint 72,4% sur Video-MME avec 512 trames en entrée, égalant les résultats des modèles commerciaux de premier plan tels que GPT-4o et des modèles open-source à grande échelle comme Qwen2.5-VL-72B et InternVL2.5-78B.
English
We introduce Eagle 2.5, a family of frontier vision-language models (VLMs) for long-context multimodal learning. Our work addresses the challenges in long video comprehension and high-resolution image understanding, introducing a generalist framework for both tasks. The proposed training framework incorporates Automatic Degrade Sampling and Image Area Preservation, two techniques that preserve contextual integrity and visual details. The framework also includes numerous efficiency optimizations in the pipeline for long-context data training. Finally, we propose Eagle-Video-110K, a novel dataset that integrates both story-level and clip-level annotations, facilitating long-video understanding. Eagle 2.5 demonstrates substantial improvements on long-context multimodal benchmarks, providing a robust solution to the limitations of existing VLMs. Notably, our best model Eagle 2.5-8B achieves 72.4% on Video-MME with 512 input frames, matching the results of top-tier commercial model such as GPT-4o and large-scale open-source models like Qwen2.5-VL-72B and InternVL2.5-78B.

Summary

AI-Generated Summary

PDF655April 22, 2025