Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que o desenvolvimento de modelos de linguagem de grande escala (LLM) avança, alinhá-los com as preferências humanas tem se tornado cada vez mais importante. Propomos o DPO escalonado (sDPO), uma extensão da otimização direta de preferências (DPO), recentemente popularizada para ajuste de alinhamento. Essa abordagem envolve dividir os conjuntos de dados de preferência disponíveis e utilizá-los de maneira escalonada, em vez de empregá-los todos de uma só vez. Demonstramos que esse método facilita o uso de modelos de referência mais precisamente alinhados dentro do framework de treinamento DPO. Além disso, o sDPO treina o modelo final para ser mais performático, superando até mesmo outros LLMs populares com mais parâmetros.
O método 3D Gaussian Splatting (GS) alcançou uma melhoria considerável em relação aos Neural Radiance Fields em termos de fidelidade de ajuste 3D e velocidade de renderização. No entanto, essa representação não estruturada com Gaussianas dispersas apresenta um desafio significativo para a modelagem generativa. Para resolver esse problema, introduzimos o GaussianCube, uma representação estruturada de GS que é tanto poderosa quanto eficiente para modelagem generativa. Isso é alcançado primeiro propondo um algoritmo de ajuste de GS com restrição de densificação modificado, que pode produzir resultados de ajuste de alta qualidade usando um número fixo de Gaussianas livres, e depois reorganizando as Gaussianas em uma grade de voxel predefinida por meio de Transporte Ótimo. A representação estruturada em grade nos permite usar uma 3D U-Net padrão como nossa base na modelagem generativa por difusão sem designs elaborados. Experimentos extensivos realizados no ShapeNet e OmniObject3D mostram que nosso modelo alcança resultados de geração de última geração tanto qualitativa quanto quantitativamente, destacando o potencial do GaussianCube como uma representação 3D poderosa e versátil.
Houve um progresso significativo nos modelos de linguagem multimodal de grande escala (LLMs). Trabalhos recentes estenderam esses modelos para entrada de vídeo com capacidades promissoras de seguir instruções. No entanto, uma peça importante que está faltando é a localização temporal. Esses modelos não conseguem responder com precisão às perguntas de "Quando?". Identificamos três aspectos-chave que limitam suas capacidades de localização temporal: (i) representação do tempo, (ii) arquitetura e (iii) dados. Abordamos essas deficiências propondo o Assistente de Localização Temporal com Instrução de Linguagem (LITA) com as seguintes características: (1) Introduzimos tokens de tempo que codificam timestamps relativos à duração do vídeo para representar melhor o tempo em vídeos. (2) Introduzimos tokens SlowFast na arquitetura para capturar informações temporais em resolução temporal fina. (3) Damos ênfase aos dados de localização temporal para o LITA. Além de aproveitar conjuntos de dados de vídeo existentes com timestamps, propomos uma nova tarefa, Localização Temporal de Raciocínio (RTL), juntamente com o conjunto de dados, ActivityNet-RTL, para aprender e avaliar essa tarefa. A localização temporal de raciocínio requer tanto o raciocínio quanto a localização temporal dos LLMs de vídeo. O LITA demonstra um desempenho forte nessa tarefa desafiadora, quase dobrando a média de interseção sobre união temporal (mIoU) das linhas de base. Além disso, mostramos que nossa ênfase na localização temporal também melhora substancialmente a geração de texto baseada em vídeo em comparação com os LLMs de vídeo existentes, incluindo uma melhoria relativa de 36% na Compreensão Temporal. O código está disponível em: https://github.com/NVlabs/LITA
Modelos generativos de texto para imagem baseados em difusão, como o Stable Diffusion, revolucionaram o campo de geração de conteúdo, permitindo avanços significativos em áreas como edição de imagens e síntese de vídeo. Apesar de suas capacidades impressionantes, esses modelos não estão isentos de limitações. Ainda é desafiador sintetizar uma imagem que se alinhe bem com o texto de entrada, sendo necessárias múltiplas execuções com prompts cuidadosamente elaborados para obter resultados satisfatórios. Para mitigar essas limitações, diversos estudos têm se empenhado em ajustar os modelos de difusão pré-treinados, como o UNet, utilizando diversas tecnologias. No entanto, em meio a esses esforços, uma questão crucial sobre o treinamento de modelos de difusão de texto para imagem permaneceu amplamente inexplorada: É possível e viável ajustar o codificador de texto para melhorar o desempenho dos modelos de difusão de texto para imagem? Nossas descobertas revelam que, em vez de substituir o codificador de texto CLIP usado no Stable Diffusion por outros modelos de linguagem de grande escala, podemos aprimorá-lo por meio de nossa abordagem proposta de ajuste fino, o TextCraftor, resultando em melhorias substanciais em benchmarks quantitativos e avaliações humanas. Curiosamente, nossa técnica também possibilita a geração controlada de imagens por meio da interpolação de diferentes codificadores de texto ajustados com várias recompensas. Também demonstramos que o TextCraftor é ortogonal ao ajuste fino do UNet e pode ser combinado para melhorar ainda mais a qualidade gerativa.
Apresentamos o Mesh2NeRF, uma abordagem para derivar campos de radiação de referência a partir de malhas texturizadas para tarefas de geração 3D. Muitas abordagens generativas 3D representam cenas 3D como campos de radiação para treinamento. Seus campos de radiação de referência são geralmente ajustados a partir de renderizações multi-visão de um grande conjunto de dados sintéticos 3D, o que frequentemente resulta em artefatos devido a oclusões ou problemas de subajuste. No Mesh2NeRF, propomos uma solução analítica para obter diretamente campos de radiação de referência a partir de malhas 3D, caracterizando o campo de densidade com uma função de ocupação que apresenta uma espessura de superfície definida, e determinando a cor dependente da visão por meio de uma função de reflexão que considera tanto a malha quanto a iluminação do ambiente. O Mesh2NeRF extrai campos de radiação precisos que fornecem supervisão direta para o treinamento de NeRFs generativos e a representação de cena única. Validamos a eficácia do Mesh2NeRF em várias tarefas, alcançando uma melhoria notável de 3.12 dB no PSNR para síntese de visão na representação de cena única no conjunto de dados ABO, um aumento de 0.69 no PSNR na geração condicional de visão única de carros do ShapeNet, e uma melhoria significativa na extração de malhas a partir de NeRF na geração incondicional de canecas do Objaverse.