ChatPaper.aiChatPaper

MVLLaVA : Un agent intelligent pour la synthèse unifiée et flexible de nouvelles vues

MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis

September 11, 2024
Auteurs: Hanyu Jiang, Jian Xue, Xing Lan, Guohong Hu, Ke Lu
cs.AI

Résumé

Cet article présente MVLLaVA, un agent intelligent conçu pour des tâches de synthèse de nouvelles vues. MVLLaVA intègre plusieurs modèles de diffusion multi-vue avec un grand modèle multimodal, LLaVA, lui permettant de gérer efficacement une large gamme de tâches. MVLLaVA représente une plateforme polyvalente et unifiée qui s'adapte à divers types d'entrées, y compris une seule image, une légende descriptive, ou un changement spécifique dans l'azimut de visualisation, guidé par des instructions en langage naturel pour la génération de points de vue. Nous élaborons soigneusement des modèles d'instructions spécifiques à la tâche, qui sont ensuite utilisés pour affiner LLaVA. En conséquence, MVLLaVA acquiert la capacité de générer des images de nouvelles vues basées sur les instructions de l'utilisateur, démontrant sa flexibilité à travers diverses tâches. Des expériences sont menées pour valider l'efficacité de MVLLaVA, démontrant ses performances robustes et sa polyvalence pour relever divers défis de synthèse de nouvelles vues.
English
This paper introduces MVLLaVA, an intelligent agent designed for novel view synthesis tasks. MVLLaVA integrates multiple multi-view diffusion models with a large multimodal model, LLaVA, enabling it to handle a wide range of tasks efficiently. MVLLaVA represents a versatile and unified platform that adapts to diverse input types, including a single image, a descriptive caption, or a specific change in viewing azimuth, guided by language instructions for viewpoint generation. We carefully craft task-specific instruction templates, which are subsequently used to fine-tune LLaVA. As a result, MVLLaVA acquires the capability to generate novel view images based on user instructions, demonstrating its flexibility across diverse tasks. Experiments are conducted to validate the effectiveness of MVLLaVA, demonstrating its robust performance and versatility in tackling diverse novel view synthesis challenges.

Summary

AI-Generated Summary

PDF82November 16, 2024