ChatPaper.aiChatPaper

SynerGen-VL : Vers une compréhension et génération d'images synergiques avec des experts en vision et le pliage de jetons

SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

December 12, 2024
Auteurs: Hao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai
cs.AI

Résumé

Le remarquable succès des Grands Modèles de Langage (GML) s'est étendu au domaine multimodal, atteignant des performances exceptionnelles dans la compréhension et la génération d'images. Les récents efforts pour développer des Grands Modèles de Langage Multimodaux Unifiés (GMLMU) qui intègrent ces capacités ont montré des résultats prometteurs. Cependant, les approches existantes impliquent souvent des conceptions complexes dans l'architecture du modèle ou le pipeline d'entraînement, augmentant la difficulté de l'entraînement et de l'échelle du modèle. Dans cet article, nous proposons SynerGen-VL, un GMLMU simple mais puissant, sans encodeur, capable à la fois de comprendre et de générer des images. Pour relever les défis identifiés dans les GMLMU unifiés existants sans encodeur, nous introduisons le mécanisme de pliage de jetons et la stratégie d'entraînement préalable à l'alignement progressif basée sur des experts en vision, qui soutiennent efficacement la compréhension d'images haute résolution tout en réduisant la complexité de l'entraînement. Après avoir été entraîné sur des données mixtes texte-image à grande échelle avec un objectif unifié de prédiction du prochain jeton, SynerGen-VL atteint ou dépasse les performances des GMLMU unifiés existants sans encodeur avec des tailles de paramètres comparables ou plus petites, et réduit l'écart avec les modèles de pointe spécifiques à la tâche, soulignant un chemin prometteur vers les futurs GMLMU unifiés. Notre code et nos modèles seront publiés.
English
The remarkable success of Large Language Models (LLMs) has extended to the multimodal domain, achieving outstanding performance in image understanding and generation. Recent efforts to develop unified Multimodal Large Language Models (MLLMs) that integrate these capabilities have shown promising results. However, existing approaches often involve complex designs in model architecture or training pipeline, increasing the difficulty of model training and scaling. In this paper, we propose SynerGen-VL, a simple yet powerful encoder-free MLLM capable of both image understanding and generation. To address challenges identified in existing encoder-free unified MLLMs, we introduce the token folding mechanism and the vision-expert-based progressive alignment pretraining strategy, which effectively support high-resolution image understanding while reducing training complexity. After being trained on large-scale mixed image-text data with a unified next-token prediction objective, SynerGen-VL achieves or surpasses the performance of existing encoder-free unified MLLMs with comparable or smaller parameter sizes, and narrows the gap with task-specific state-of-the-art models, highlighting a promising path toward future unified MLLMs. Our code and models shall be released.

Summary

AI-Generated Summary

PDF384December 16, 2024