ChatPaper.aiChatPaper

LLaVA-Interactive : Une démonstration tout-en-un pour le chat d'images, la segmentation, la génération et l'édition

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

November 1, 2023
Auteurs: Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li
cs.AI

Résumé

LLaVA-Interactive est un prototype de recherche pour l'interaction homme-IA multimodale. Le système peut engager des dialogues à plusieurs tours avec les utilisateurs humains en prenant des entrées multimodales et en générant des réponses multimodales. Fait important, LLaVA-Interactive va au-delà de l'invite linguistique, en permettant une invite visuelle pour aligner les intentions humaines dans l'interaction. Le développement de LLaVA-Interactive est extrêmement rentable, car le système combine trois compétences multimodales de modèles IA préexistants sans nécessiter d'entraînement supplémentaire : le chat visuel de LLaVA, la segmentation d'images de SEEM, ainsi que la génération et l'édition d'images de GLIGEN. Un ensemble diversifié de scénarios d'application est présenté pour démontrer les promesses de LLaVA-Interactive et inspirer de futures recherches sur les systèmes interactifs multimodaux.
English
LLaVA-Interactive is a research prototype for multimodal human-AI interaction. The system can have multi-turn dialogues with human users by taking multimodal user inputs and generating multimodal responses. Importantly, LLaVA-Interactive goes beyond language prompt, where visual prompt is enabled to align human intents in the interaction. The development of LLaVA-Interactive is extremely cost-efficient as the system combines three multimodal skills of pre-built AI models without additional model training: visual chat of LLaVA, image segmentation from SEEM, as well as image generation and editing from GLIGEN. A diverse set of application scenarios is presented to demonstrate the promises of LLaVA-Interactive and to inspire future research in multimodal interactive systems.
PDF4310December 15, 2024