MVLLaVA: Um Agente Inteligente para Síntese Unificada e Flexível de Novas Visualizações

Resumo

Este artigo apresenta o MVLLaVA, um agente inteligente projetado para tarefas de síntese de novas visualizações. O MVLLaVA integra múltiplos modelos de difusão multi-visual com um grande modelo multimodal, LLaVA, permitindo-lhe lidar eficientemente com uma ampla gama de tarefas. O MVLLaVA representa uma plataforma versátil e unificada que se adapta a diversos tipos de entradas, incluindo uma única imagem, uma legenda descritiva ou uma mudança específica na azimute de visualização, guiada por instruções de linguagem para geração de pontos de vista. Nós elaboramos cuidadosamente modelos de instruções específicas para cada tarefa, que são posteriormente utilizados para ajustar finamente o LLaVA. Como resultado, o MVLLaVA adquire a capacidade de gerar imagens de novos pontos de vista com base em instruções do usuário, demonstrando sua flexibilidade em diversas tarefas. Experimentos são conduzidos para validar a eficácia do MVLLaVA, demonstrando seu desempenho robusto e versatilidade ao enfrentar diversos desafios de síntese de novas visualizações.

English

This paper introduces MVLLaVA, an intelligent agent designed for novel view synthesis tasks. MVLLaVA integrates multiple multi-view diffusion models with a large multimodal model, LLaVA, enabling it to handle a wide range of tasks efficiently. MVLLaVA represents a versatile and unified platform that adapts to diverse input types, including a single image, a descriptive caption, or a specific change in viewing azimuth, guided by language instructions for viewpoint generation. We carefully craft task-specific instruction templates, which are subsequently used to fine-tune LLaVA. As a result, MVLLaVA acquires the capability to generate novel view images based on user instructions, demonstrating its flexibility across diverse tasks. Experiments are conducted to validate the effectiveness of MVLLaVA, demonstrating its robust performance and versatility in tackling diverse novel view synthesis challenges.

MVLLaVA: Um Agente Inteligente para Síntese Unificada e Flexível de Novas Visualizações

MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis

Resumo

Support