Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos a difusão de luz, um método inovador para aprimorar a iluminação em retratos, suavizando sombras duras e reflexos especulares enquanto preserva a iluminação geral da cena. Inspirado pelos difusores e telas utilizados por fotógrafos profissionais, nosso método suaviza a iluminação a partir de uma única foto de retrato. Abordagens anteriores de reiluminação de retratos focam em alterar todo o ambiente de iluminação, remover sombras (ignorando reflexos especulares intensos) ou eliminar completamente o sombreamento. Em contraste, propomos um método baseado em aprendizado que nos permite controlar o grau de difusão de luz e aplicá-lo em retratos capturados em cenários reais. Além disso, desenvolvemos uma técnica para gerar sinteticamente sombras externas plausíveis com efeitos de espalhamento subsuperficial, mantendo a conformidade com o formato do rosto do sujeito. Por fim, demonstramos como nossa abordagem pode aumentar a robustez de aplicações de visão computacional de alto nível, como estimativa de albedo, estimativa de geometria e segmentação semântica.
O raciocínio composicional é uma característica marcante da inteligência visual humana; no entanto, apesar do tamanho dos grandes modelos de visão e linguagem, eles têm dificuldade em representar composições simples ao combinar objetos com seus atributos. Para medir essa falta de capacidade composicional, projetamos o Cola, um benchmark de recuperação de texto para imagem para Compor Objetos Localizados com Atributos. Usando o Cola como plataforma de teste, exploramos designs de modelagem para adaptar modelos de visão e linguagem pré-treinados a raciocinar composicionalmente sobre múltiplos atributos associados a múltiplos objetos. Exploramos 6 estratégias de ajuste fino em 2 modelos fundamentais de visão e linguagem, utilizando 3 conjuntos de dados de ajuste fino e 2 benchmarks de teste (Cola e CREPE). Surpreendentemente, nossa estratégia ótima de ajuste fino melhora um CLIP com 151 milhões de parâmetros, que codifica imagem e linguagem de forma disjunta durante o pré-treinamento, para desempenhar tão bem quanto um FLAVA com 241 milhões de parâmetros, que usa um codificador transformador multimodal durante o pré-treinamento para atender a ambas as modalidades de visão e linguagem. Essa estratégia ótima de ajuste fino é um adaptador multimodal leve que atende conjuntamente às características de imagem e linguagem geradas pelo modelo pré-treinado. Mostramos que isso funciona melhor do que estratégias comuns, como ajuste de prompt/ajuste fino ou ajuste de um número comparável de camadas unimodais.
Modelos de linguagem de grande escala (LLMs) demonstraram habilidades linguísticas notáveis. O GPT-4, baseado em LLMs avançados, exibe capacidades multimodais extraordinárias que vão além dos modelos visuais de linguagem anteriores. Atribuímos isso ao uso de LLMs mais avançados em comparação com os modelos multimodais anteriores. Infelizmente, a arquitetura do modelo e as estratégias de treinamento do GPT-4 são desconhecidas. Para dotar LLMs com capacidades multimodais, propomos o X-LLM, que converte multimodais (imagens, fala, vídeos) em línguas estrangeiras usando interfaces X2L e os insere em um grande modelo de linguagem (ChatGLM). Especificamente, o X-LLM alinha vários codificadores unimodais congelados e um LLM congelado usando interfaces X2L, onde "X" denota multimodais como imagem, fala e vídeos, e "L" denota línguas. O treinamento do X-LLM consiste em três etapas: (1) Conversão de Informação Multimodal: A primeira etapa treina cada interface X2L para alinhar-se com seu respectivo codificador unimodal separadamente, a fim de converter informações multimodais em línguas. (2) Alinhamento das representações X2L com o LLM: os codificadores unimodais são alinhados com o LLM por meio de interfaces X2L de forma independente. (3) Integração de múltiplas modalidades: todos os codificadores unimodais são alinhados com o LLM por meio de interfaces X2L para integrar capacidades multimodais ao LLM. Nossos experimentos mostram que o X-LLM demonstra impressionantes habilidades de chat multimodal, às vezes exibindo comportamentos do GPT-4 multimodal em imagens/instruções não vistas, e alcança uma pontuação relativa de 84,5% em comparação com o GPT-4 em um conjunto de dados sintético de seguimento de instruções multimodais. Também realizamos testes quantitativos sobre o uso de LLM para ASR e ASR multimodal, na esperança de promover a era do reconhecimento de fala baseado em LLM.
Embora a rápida evolução recente das redes neurais generativas 3D tenha melhorado significativamente a geração de formas 3D, ainda não é conveniente para usuários comuns criar formas 3D e controlar a geometria local das formas geradas. Para enfrentar esses desafios, propomos um framework de geração 3D baseado em difusão -- difusão de SDF com atenção local, para modelar formas 3D plausíveis, por meio de entrada de imagem de esboço 2D. Nosso método é construído sobre um modelo de difusão em dois estágios. O primeiro estágio, chamado de difusão de ocupação, visa gerar um campo de ocupação de baixa resolução para aproximar a casca da forma. O segundo estágio, chamado de difusão de SDF, sintetiza um campo de distância sinalizada de alta resolução dentro dos voxels ocupados determinados pelo primeiro estágio, para extrair a geometria detalhada. Nosso modelo é impulsionado por um novo mecanismo de atenção local consciente da visão para geração de formas condicionadas por imagem, que aproveita as características de patches de imagem 2D para orientar o aprendizado de características de voxels 3D, melhorando significativamente a controlabilidade local e a generalização do modelo. Por meio de extensos experimentos em tarefas de geração de formas 3D condicionadas por esboço e por categoria, validamos e demonstramos a capacidade do nosso método de fornecer formas 3D plausíveis e diversas, bem como sua superior controlabilidade e generalização em relação ao trabalho existente. Nosso código e modelos treinados estão disponíveis em https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
Os modelos de difusão emergiram como um pilar fundamental dos modelos base em domínios visuais. Uma de suas aplicações críticas é resolver universalmente diferentes tarefas inversas de downstream por meio de um único prior de difusão, sem a necessidade de retreinamento para cada tarefa. A maioria das tarefas inversas pode ser formulada como a inferência de uma distribuição posterior sobre os dados (por exemplo, uma imagem completa) dada uma medição (por exemplo, uma imagem mascarada). No entanto, isso é desafiador em modelos de difusão, pois a natureza não linear e iterativa do processo de difusão torna a posterior intratável. Para lidar com esse desafio, propomos uma abordagem variacional que, por design, busca aproximar a verdadeira distribuição posterior. Mostramos que nossa abordagem naturalmente leva à regularização pelo processo de difusão de remoção de ruído (RED-Diff), onde desruidificadores em diferentes intervalos de tempo impõem simultaneamente diferentes restrições estruturais sobre a imagem. Para avaliar a contribuição dos desruidificadores em diferentes intervalos de tempo, propomos um mecanismo de ponderação baseado na relação sinal-ruído (SNR). Nossa abordagem oferece uma nova perspectiva variacional para resolver problemas inversos com modelos de difusão, permitindo-nos formular a amostragem como uma otimização estocástica, onde se pode simplesmente aplicar solvers prontos para uso com iterações leves. Nossos experimentos para tarefas de restauração de imagem, como preenchimento e super-resolução, demonstram as vantagens de nosso método em comparação com os modelos de difusão baseados em amostragem mais avançados.
Geradores modernos produzem vídeos de cabeças falantes com níveis impressionantes de fotorealismo, inaugurando novas experiências de usuário, como videoconferências com orçamentos limitados de banda. No entanto, sua adoção segura exige um mecanismo para verificar se o vídeo renderizado é confiável. Por exemplo, em videoconferências, devemos identificar casos em que um retrato de vídeo sintético utiliza a aparência de um indivíduo sem seu consentimento. Denominamos essa tarefa de impressão digital de avatar. Propomos abordá-la aproveitando assinaturas de movimento facial únicas para cada pessoa. Especificamente, aprendemos um embedding no qual as assinaturas de movimento de uma identidade são agrupadas e afastadas das de outras identidades, independentemente da aparência no vídeo sintético. Algoritmos de impressão digital de avatar serão cruciais à medida que os geradores de cabeças falantes se tornam mais ubíquos, e ainda não existem conjuntos de dados em grande escala para essa nova tarefa. Portanto, contribuímos com um grande conjunto de dados de pessoas realizando monólogos curtos, tanto roteirizados quanto improvisados, acompanhados por vídeos sintéticos nos quais renderizamos vídeos de uma pessoa usando a aparência facial de outra. Página do projeto: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
As páginas da web têm sido um recurso rico e escalável para tarefas de visão-linguagem e apenas linguagem. No entanto, apenas partes das páginas são mantidas: pares de imagem-legenda, artigos de texto longo ou HTML bruto, nunca todos em um só lugar. Como resultado, as tarefas relacionadas a páginas da web receberam pouca atenção, e os dados estruturados de imagem-texto foram subutilizados. Para estudar a compreensão multimodal de páginas da web, introduzimos o conjunto Wikipedia Webpage (WikiWeb2M) de 2 milhões de páginas. Verificamos sua utilidade em três tarefas generativas: geração de descrição de página, sumarização de seção e legendagem contextual de imagens. Projetamos um novo mecanismo de atenção chamado Prefix Global, que seleciona o conteúdo de imagem e texto mais relevante como tokens globais para atender ao restante da página como contexto. Ao usar a estrutura da página para separar esses tokens, ele tem um desempenho melhor do que a atenção completa, com menor complexidade computacional. Os experimentos mostram que as novas anotações do WikiWeb2M melhoram o desempenho das tarefas em comparação com os dados de trabalhos anteriores. Também incluímos ablações sobre o comprimento da sequência, características de entrada e tamanho do modelo.
Apresentamos um método de aprendizado profundo para controle de movimento composto e orientado por tarefas em personagens simulados fisicamente. Em contraste com as abordagens baseadas em dados existentes que utilizam aprendizado por reforço para imitar movimentos de corpo inteiro, aprendemos movimentos desacoplados para partes específicas do corpo a partir de múltiplos movimentos de referência simultaneamente e diretamente, aproveitando o uso de múltiplos discriminadores em uma configuração semelhante a GAN. Nesse processo, não há necessidade de trabalho manual para produzir movimentos de referência compostos para o aprendizado. Em vez disso, a política de controle explora por si mesma como os movimentos compostos podem ser combinados automaticamente. Além disso, consideramos múltiplas recompensas específicas de tarefas e treinamos uma única política de controle multiobjetivo. Para isso, propomos uma nova estrutura para aprendizado multiobjetivo que equilibra de forma adaptativa o aprendizado de movimentos distintos de múltiplas fontes e múltiplos objetivos de controle orientados por metas. Adicionalmente, como movimentos compostos são tipicamente ampliações de comportamentos mais simples, introduzimos um método eficiente em termos de amostras para treinar políticas de controle compostas de maneira incremental, onde reutilizamos uma política pré-treinada como a política meta e treinamos uma política cooperativa que adapta a política meta para novas tarefas compostas. Demonstramos a aplicabilidade de nossa abordagem em uma variedade de tarefas multiobjetivo desafiadoras, envolvendo tanto imitação de movimento composto quanto múltiplos controles orientados por metas.