X-Prompt : Vers une génération d'images universelle en contexte dans les modèles fondamentaux de vision et de langage auto-régressifsX-Prompt: Towards Universal In-Context Image Generation in
Auto-Regressive Vision Language Foundation Models
La génération en contexte est un composant clé de la capacité de généralisation des modèles de langage volumineux (LLM) aux tâches ouvertes. En exploitant quelques exemples en tant que contexte, les LLM peuvent effectuer des tâches à la fois dans et hors du domaine. Les récentes avancées dans les modèles vision-langage auto-régressifs (VLM) construits sur les LLM ont démontré des performances impressionnantes dans la génération texte-image. Cependant, le potentiel de l'apprentissage en contexte pour les tâches générales de génération d'images reste largement inexploré. Pour remédier à cela, nous présentons X-Prompt, un modèle de langage visionnel volumineux entièrement auto-régressif conçu pour offrir des performances compétitives sur un large éventail de tâches de génération d'images, vues ou non, le tout dans un cadre unifié d'apprentissage en contexte. X-Prompt intègre une conception spécialisée qui compresse efficacement les caractéristiques précieuses des exemples en contexte, soutenant des séquences de jetons en contexte plus longues et améliorant sa capacité à généraliser à des tâches non vues. Une tâche d'entraînement unifiée pour la prédiction de texte et d'image permet à X-Prompt de gérer la génération d'images générales avec une conscience de tâche améliorée à partir des exemples en contexte. Des expériences approfondies valident les performances du modèle sur diverses tâches de génération d'images vues et sa capacité à généraliser à des tâches précédemment non vues.