MVLLaVA: Un Agente Inteligente para la Síntesis Unificada y Flexible de Nuevas Vistas
MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis
September 11, 2024
Autores: Hanyu Jiang, Jian Xue, Xing Lan, Guohong Hu, Ke Lu
cs.AI
Resumen
Este documento presenta MVLLaVA, un agente inteligente diseñado para tareas de síntesis de vistas novedosas. MVLLaVA integra múltiples modelos de difusión multi-vista con un gran modelo multimodal, LLaVA, lo que le permite manejar eficientemente una amplia gama de tareas. MVLLaVA representa una plataforma versátil y unificada que se adapta a diversos tipos de entradas, incluyendo una sola imagen, una leyenda descriptiva o un cambio específico en la azimut de visualización, guiado por instrucciones en lenguaje para la generación de puntos de vista. Elaboramos cuidadosamente plantillas de instrucciones específicas para cada tarea, las cuales se utilizan posteriormente para ajustar finamente LLaVA. Como resultado, MVLLaVA adquiere la capacidad de generar imágenes de vistas novedosas basadas en instrucciones de usuario, demostrando su flexibilidad en diversas tareas. Se realizan experimentos para validar la efectividad de MVLLaVA, demostrando su rendimiento robusto y versatilidad al abordar diversos desafíos de síntesis de vistas novedosas.
English
This paper introduces MVLLaVA, an intelligent agent designed for novel view
synthesis tasks. MVLLaVA integrates multiple multi-view diffusion models with a
large multimodal model, LLaVA, enabling it to handle a wide range of tasks
efficiently. MVLLaVA represents a versatile and unified platform that adapts to
diverse input types, including a single image, a descriptive caption, or a
specific change in viewing azimuth, guided by language instructions for
viewpoint generation. We carefully craft task-specific instruction templates,
which are subsequently used to fine-tune LLaVA. As a result, MVLLaVA acquires
the capability to generate novel view images based on user instructions,
demonstrating its flexibility across diverse tasks. Experiments are conducted
to validate the effectiveness of MVLLaVA, demonstrating its robust performance
and versatility in tackling diverse novel view synthesis challenges.Summary
AI-Generated Summary