MVLLaVA: Un Agente Inteligente para la Síntesis Unificada y Flexible de Nuevas Vistas

Resumen

Este documento presenta MVLLaVA, un agente inteligente diseñado para tareas de síntesis de vistas novedosas. MVLLaVA integra múltiples modelos de difusión multi-vista con un gran modelo multimodal, LLaVA, lo que le permite manejar eficientemente una amplia gama de tareas. MVLLaVA representa una plataforma versátil y unificada que se adapta a diversos tipos de entradas, incluyendo una sola imagen, una leyenda descriptiva o un cambio específico en la azimut de visualización, guiado por instrucciones en lenguaje para la generación de puntos de vista. Elaboramos cuidadosamente plantillas de instrucciones específicas para cada tarea, las cuales se utilizan posteriormente para ajustar finamente LLaVA. Como resultado, MVLLaVA adquiere la capacidad de generar imágenes de vistas novedosas basadas en instrucciones de usuario, demostrando su flexibilidad en diversas tareas. Se realizan experimentos para validar la efectividad de MVLLaVA, demostrando su rendimiento robusto y versatilidad al abordar diversos desafíos de síntesis de vistas novedosas.

English

This paper introduces MVLLaVA, an intelligent agent designed for novel view synthesis tasks. MVLLaVA integrates multiple multi-view diffusion models with a large multimodal model, LLaVA, enabling it to handle a wide range of tasks efficiently. MVLLaVA represents a versatile and unified platform that adapts to diverse input types, including a single image, a descriptive caption, or a specific change in viewing azimuth, guided by language instructions for viewpoint generation. We carefully craft task-specific instruction templates, which are subsequently used to fine-tune LLaVA. As a result, MVLLaVA acquires the capability to generate novel view images based on user instructions, demonstrating its flexibility across diverse tasks. Experiments are conducted to validate the effectiveness of MVLLaVA, demonstrating its robust performance and versatility in tackling diverse novel view synthesis challenges.