LLaVA-Interactive : Une démonstration tout-en-un pour le chat d'images, la segmentation, la génération et l'édition
LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing
November 1, 2023
Auteurs: Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li
cs.AI
Résumé
LLaVA-Interactive est un prototype de recherche pour l'interaction homme-IA multimodale. Le système peut engager des dialogues à plusieurs tours avec les utilisateurs humains en prenant des entrées multimodales et en générant des réponses multimodales. Fait important, LLaVA-Interactive va au-delà de l'invite linguistique, en permettant une invite visuelle pour aligner les intentions humaines dans l'interaction. Le développement de LLaVA-Interactive est extrêmement rentable, car le système combine trois compétences multimodales de modèles IA préexistants sans nécessiter d'entraînement supplémentaire : le chat visuel de LLaVA, la segmentation d'images de SEEM, ainsi que la génération et l'édition d'images de GLIGEN. Un ensemble diversifié de scénarios d'application est présenté pour démontrer les promesses de LLaVA-Interactive et inspirer de futures recherches sur les systèmes interactifs multimodaux.
English
LLaVA-Interactive is a research prototype for multimodal human-AI
interaction. The system can have multi-turn dialogues with human users by
taking multimodal user inputs and generating multimodal responses. Importantly,
LLaVA-Interactive goes beyond language prompt, where visual prompt is enabled
to align human intents in the interaction. The development of LLaVA-Interactive
is extremely cost-efficient as the system combines three multimodal skills of
pre-built AI models without additional model training: visual chat of LLaVA,
image segmentation from SEEM, as well as image generation and editing from
GLIGEN. A diverse set of application scenarios is presented to demonstrate the
promises of LLaVA-Interactive and to inspire future research in multimodal
interactive systems.