MVLLaVA: Um Agente Inteligente para Síntese Unificada e Flexível de Novas Visualizações
MVLLaVA: An Intelligent Agent for Unified and Flexible Novel View Synthesis
September 11, 2024
Autores: Hanyu Jiang, Jian Xue, Xing Lan, Guohong Hu, Ke Lu
cs.AI
Resumo
Este artigo apresenta o MVLLaVA, um agente inteligente projetado para tarefas de síntese de novas visualizações. O MVLLaVA integra múltiplos modelos de difusão multi-visual com um grande modelo multimodal, LLaVA, permitindo-lhe lidar eficientemente com uma ampla gama de tarefas. O MVLLaVA representa uma plataforma versátil e unificada que se adapta a diversos tipos de entradas, incluindo uma única imagem, uma legenda descritiva ou uma mudança específica na azimute de visualização, guiada por instruções de linguagem para geração de pontos de vista. Nós elaboramos cuidadosamente modelos de instruções específicas para cada tarefa, que são posteriormente utilizados para ajustar finamente o LLaVA. Como resultado, o MVLLaVA adquire a capacidade de gerar imagens de novos pontos de vista com base em instruções do usuário, demonstrando sua flexibilidade em diversas tarefas. Experimentos são conduzidos para validar a eficácia do MVLLaVA, demonstrando seu desempenho robusto e versatilidade ao enfrentar diversos desafios de síntese de novas visualizações.
English
This paper introduces MVLLaVA, an intelligent agent designed for novel view
synthesis tasks. MVLLaVA integrates multiple multi-view diffusion models with a
large multimodal model, LLaVA, enabling it to handle a wide range of tasks
efficiently. MVLLaVA represents a versatile and unified platform that adapts to
diverse input types, including a single image, a descriptive caption, or a
specific change in viewing azimuth, guided by language instructions for
viewpoint generation. We carefully craft task-specific instruction templates,
which are subsequently used to fine-tune LLaVA. As a result, MVLLaVA acquires
the capability to generate novel view images based on user instructions,
demonstrating its flexibility across diverse tasks. Experiments are conducted
to validate the effectiveness of MVLLaVA, demonstrating its robust performance
and versatility in tackling diverse novel view synthesis challenges.Summary
AI-Generated Summary