Artigos de pesquisa em IA selecionados diariamente com traduções
Com a recente popularidade dos Modelos de Linguagem de Grande Escala (LLMs), várias tentativas foram feitas para estendê-los ao domínio visual. Desde assistentes visuais que poderiam nos guiar por ambientes desconhecidos até modelos generativos que produzem imagens usando apenas uma descrição textual de alto nível, as aplicações dos modelos visão-linguagem (VLMs) terão um impacto significativo em nossa relação com a tecnologia. No entanto, há muitos desafios que precisam ser abordados para melhorar a confiabilidade desses modelos. Enquanto a linguagem é discreta, a visão evolui em um espaço de dimensão muito mais alta, no qual os conceitos nem sempre podem ser facilmente discretizados. Para entender melhor a mecânica por trás do mapeamento da visão para a linguagem, apresentamos esta introdução aos VLMs, que esperamos ajudar qualquer pessoa que deseje entrar no campo. Primeiro, introduzimos o que são VLMs, como eles funcionam e como treiná-los. Em seguida, apresentamos e discutimos abordagens para avaliar VLMs. Embora este trabalho se concentre principalmente no mapeamento de imagens para linguagem, também discutimos a extensão dos VLMs para vídeos.
O desempenho insatisfatório dos transformadores em tarefas aritméticas parece decorrer, em grande parte, de sua incapacidade de rastrear a posição exata de cada dígito dentro de uma sequência extensa de dígitos. Corrigimos esse problema adicionando uma incorporação (embedding) a cada dígito que codifica sua posição relativa ao início do número. Além do benefício que essas incorporações proporcionam por si só, demonstramos que essa correção permite modificações arquitetônicas, como injeção de entrada e camadas recorrentes, para melhorar ainda mais o desempenho. Com as posições resolvidas, podemos estudar a capacidade de extrapolação lógica dos transformadores. Eles conseguem resolver problemas aritméticos maiores e mais complexos do que aqueles presentes em seus dados de treinamento? Descobrimos que, ao treinar apenas com números de 20 dígitos usando uma única GPU por um dia, é possível alcançar desempenho de ponta, atingindo até 99% de precisão em problemas de adição com 100 dígitos. Por fim, mostramos que esses ganhos em habilidades numéricas também desbloqueiam melhorias em outras tarefas de raciocínio multi-etapas, incluindo ordenação e multiplicação.
Modelos Multimodais de Grande Escala (LMMs), como o LLaVA, têm demonstrado um desempenho robusto no raciocínio visual-linguístico. Esses modelos primeiro incorporam imagens em um número fixo e grande de tokens visuais e, em seguida, os alimentam em um Modelo de Linguagem de Grande Escala (LLM). No entanto, esse design resulta em um número excessivo de tokens para cenários visuais densos, como imagens e vídeos de alta resolução, levando a uma grande ineficiência. Embora métodos de poda/fusão de tokens existam, eles produzem uma saída de comprimento único para cada imagem e não oferecem flexibilidade para equilibrar densidade de informação versus eficiência. Inspirados pelo conceito das Matryoshka Dolls, propomos o M3: Modelos Multimodais Matryoshka, que aprende a representar conteúdo visual como conjuntos aninhados de tokens visuais que capturam informações em múltiplas granularidades, do mais grosseiro ao mais refinado. Nossa abordagem oferece vários benefícios únicos para LMMs: (1) É possível controlar explicitamente a granularidade visual por instância de teste durante a inferência, por exemplo, ajustando o número de tokens usados para representar uma imagem com base na complexidade ou simplicidade antecipada do conteúdo; (2) O M3 fornece uma estrutura para analisar a granularidade necessária para conjuntos de dados existentes, onde descobrimos que benchmarks no estilo COCO precisam de apenas ~9 tokens visuais para obter uma precisão semelhante àquela alcançada com todos os 576 tokens; (3) Nossa abordagem fornece uma base para explorar o melhor equilíbrio entre desempenho e comprimento de tokens visuais no nível da amostra, onde nossa investigação revela que existe uma grande lacuna entre o limite superior oráculo e as representações de escala fixa atuais.
Neste relatório técnico, apresentamos o Zamba, um novo modelo híbrido SSM-transformer de 7B que alcança desempenho competitivo em relação aos principais modelos de peso aberto em uma escala comparável. O Zamba foi treinado em 1 trilhão de tokens provenientes de conjuntos de dados abertamente disponíveis e é o melhor modelo não-transformer nessa escala. O Zamba introduz uma arquitetura única que combina uma estrutura principal Mamba com um único módulo de atenção compartilhado, obtendo assim os benefícios da atenção com um custo mínimo de parâmetros. Devido à sua arquitetura, o Zamba é significativamente mais rápido na inferência do que modelos transformer comparáveis e requer substancialmente menos memória para a geração de sequências longas. O Zamba é pré-treinado em duas fases: a primeira fase é baseada em conjuntos de dados web existentes, enquanto a segunda consiste em recozer o modelo sobre conjuntos de dados de instruções e sintéticos de alta qualidade, sendo caracterizada por uma rápida redução da taxa de aprendizado. Disponibilizamos publicamente os pesos e todos os checkpoints do Zamba, tanto da fase 1 quanto das fases de recozimento.
Modelos de embedding baseados em grandes modelos de linguagem (LLM) do tipo decoder-only estão começando a superar modelos de embedding baseados em BERT ou T5 em tarefas gerais de embedding de texto, incluindo recuperação baseada em vetores densos. Neste trabalho, apresentamos o modelo NV-Embed, que incorpora uma variedade de designs arquitetônicos e procedimentos de treinamento para aprimorar significativamente o desempenho de LLMs como modelos de embedding versáteis, mantendo sua simplicidade e reprodutibilidade. Para a arquitetura do modelo, propomos uma camada de atenção latente para obter embeddings agrupados, o que melhora consistentemente a precisão em tarefas de recuperação e tarefas subsequentes em comparação com o uso de pooling médio ou do embedding do último token <EOS> de LLMs. Para aprimorar o aprendizado de representações, removemos a máscara de atenção causal dos LLMs durante o treinamento contrastivo. Para o treinamento do modelo, introduzimos um método de ajuste fino por instrução contrastivo em duas etapas. Na primeira etapa, aplicamos treinamento contrastivo com instruções em conjuntos de dados de recuperação, utilizando negativos intra-lote e exemplos negativos difíceis selecionados. Na segunda etapa, integramos diversos conjuntos de dados não relacionados à recuperação no ajuste fino por instrução, o que não apenas melhora a precisão em tarefas não relacionadas à recuperação, mas também aprimora o desempenho em tarefas de recuperação. Combinando essas técnicas, nosso modelo NV-Embed, utilizando apenas dados publicamente disponíveis, alcançou uma pontuação recorde de 69,32, ocupando o primeiro lugar no Massive Text Embedding Benchmark (MTEB) (em 24 de maio de 2024), com 56 tarefas, abrangendo recuperação, reclassificação, classificação, agrupamento e tarefas de similaridade textual semântica. Notavelmente, nosso modelo também atingiu a pontuação mais alta de 59,36 em 15 tarefas de recuperação no benchmark MTEB (também conhecido como BEIR). Disponibilizaremos o modelo em código aberto em: https://huggingface.co/nvidia/NV-Embed-v1.
As impressionantes capacidades generativas dos modelos de difusão têm motivado pesquisas extensas tanto em edição de imagens quanto de vídeos. Em comparação com a edição de vídeos, que enfrenta desafios adicionais na dimensão temporal, a edição de imagens tem testemunhado o desenvolvimento de abordagens mais diversas e de alta qualidade, além de softwares mais avançados como o Photoshop. Diante dessa lacuna, introduzimos uma solução nova e genérica que estende a aplicabilidade de ferramentas de edição de imagens para vídeos, propagando edições de um único quadro para todo o vídeo usando um modelo pré-treinado de imagem para vídeo. Nosso método, denominado I2VEdit, preserva de forma adaptativa a integridade visual e de movimento do vídeo original, dependendo da extensão das edições, lidando efetivamente com edições globais, edições locais e mudanças moderadas de forma, o que os métodos existentes não conseguem alcançar completamente. No cerne do nosso método estão dois processos principais: Extração de Movimento Grosseiro para alinhar padrões básicos de movimento com o vídeo original, e Refinamento de Aparência para ajustes precisos usando correspondência de atenção em nível granular. Também incorporamos uma estratégia de intervalo de salto para mitigar a degradação de qualidade da geração autorregressiva em múltiplos clipes de vídeo. Resultados experimentais demonstram o desempenho superior do nosso framework em edição de vídeo de alta granularidade, comprovando sua capacidade de produzir saídas de alta qualidade e temporalmente consistentes.
Apresentamos uma abordagem inovadora para gerar vídeos humanos de alta qualidade e coerência espaço-temporal a partir de uma única imagem sob perspectivas arbitrárias. Nosso framework combina os pontos fortes das U-Nets para injeção precisa de condições e dos transformadores de difusão para capturar correlações globais entre perspectivas e tempo. O núcleo é uma arquitetura cascata de transformador 4D que fatoriza a atenção entre visões, tempo e dimensões espaciais, permitindo a modelagem eficiente do espaço 4D. A condicionamento preciso é alcançado ao injetar identidade humana, parâmetros da câmera e sinais temporais nos respectivos transformadores. Para treinar este modelo, organizamos um conjunto de dados multidimensional que abrange imagens, vídeos, dados multivista e varreduras 3D/4D, juntamente com uma estratégia de treinamento multidimensional. Nossa abordagem supera as limitações de métodos anteriores baseados em GAN ou modelos de difusão baseados em UNet, que lutam com movimentos complexos e mudanças de perspectiva. Por meio de experimentos extensivos, demonstramos a capacidade do nosso método de sintetizar vídeos humanos realistas, coerentes e de visão livre, abrindo caminho para aplicações avançadas de multimídia em áreas como realidade virtual e animação. O site do nosso projeto é https://human4dit.github.io.
Adaptadores de baixo rank (LoRA) e suas variantes são técnicas populares de ajuste fino com eficiência de parâmetros (PEFT) que se aproximam muito do desempenho do ajuste fino completo do modelo, exigindo apenas um pequeno número de parâmetros adicionais. Esses parâmetros adicionais do LoRA são específicos para o modelo base que está sendo adaptado. Quando o modelo base precisa ser descontinuado e substituído por um novo, todos os módulos LoRA associados precisam ser retreinados. Esse retreinamento exige acesso aos dados usados para treinar o LoRA para o modelo base original. Isso é especialmente problemático para aplicações comerciais em nuvem, onde os módulos LoRA e os modelos base são hospedados por provedores de serviços que podem não ter permissão para hospedar dados de tarefas proprietários dos clientes. Para enfrentar esse desafio, propomos o Trans-LoRA — um método novo para transferência sem perdas e quase sem dados de LoRAs entre modelos base. Nossa abordagem depende de dados sintéticos para transferir módulos LoRA. Usando modelos de linguagem de grande escala, projetamos um gerador de dados sintéticos para aproximar o processo de geração de dados do subconjunto de dados da tarefa observada. O treinamento no conjunto de dados sintéticos resultante transfere os módulos LoRA para novos modelos. Demonstramos a eficácia de nossa abordagem usando as famílias de modelos LLama e Gemma. Nossa abordagem alcança transferência de LoRA sem perdas (na maioria dos casos, melhorada) entre modelos dentro e entre diferentes famílias de modelos base, e até mesmo entre diferentes métodos PEFT, em uma ampla variedade de tarefas.
Este artigo apresenta o StreamV2V, um modelo de difusão que realiza tradução de vídeo para vídeo (V2V) em tempo real com prompts do usuário. Diferente de métodos anteriores de V2V que utilizam lotes para processar um número limitado de quadros, optamos por processar os quadros de forma contínua, permitindo a manipulação de um número ilimitado de quadros. No cerne do StreamV2V está um princípio retrospectivo que relaciona o presente ao passado. Isso é realizado através da manutenção de um banco de características, que arquiva informações de quadros anteriores. Para quadros recebidos, o StreamV2V estende a auto-atenção para incluir chaves e valores armazenados e funde diretamente características passadas semelhantes na saída. O banco de características é continuamente atualizado pela fusão de características armazenadas e novas, tornando-o compacto, porém informativo. O StreamV2V destaca-se por sua adaptabilidade e eficiência, integrando-se perfeitamente com modelos de difusão de imagens sem necessidade de ajuste fino. Ele pode executar 20 FPS em uma GPU A100, sendo 15x, 46x, 108x e 158x mais rápido que FlowVid, CoDeF, Rerender e TokenFlow, respectivamente. Métricas quantitativas e estudos com usuários confirmam a capacidade excepcional do StreamV2V em manter a consistência temporal.
A pesquisa em geração de vídeo tem feito progressos significativos recentemente, permitindo a criação de vídeos de alta qualidade a partir de prompts de texto ou imagens. Adicionar controle ao processo de geração de vídeo é um objetivo importante para o avanço da área, e abordagens recentes que condicionam modelos de geração de vídeo a trajetórias de câmera têm dado passos nessa direção. No entanto, ainda é desafiador gerar um vídeo da mesma cena a partir de múltiplas trajetórias de câmera diferentes. Soluções para esse problema de geração de múltiplos vídeos poderiam permitir a criação de cenas 3D em grande escala com trajetórias de câmera editáveis, entre outras aplicações. Apresentamos a difusão de vídeo colaborativa (CVD, do inglês Collaborative Video Diffusion) como um passo importante em direção a essa visão. O framework CVD inclui um novo módulo de sincronização entre vídeos que promove consistência entre quadros correspondentes do mesmo vídeo renderizado a partir de diferentes poses de câmera, utilizando um mecanismo de atenção epipolar. Treinado sobre um módulo de controle de câmera de última geração para geração de vídeo, o CVD gera múltiplos vídeos renderizados a partir de diferentes trajetórias de câmera com uma consistência significativamente melhor do que as abordagens basais, conforme demonstrado em extensos experimentos. Página do projeto: https://collaborativevideodiffusion.github.io/.
Recentemente, o surgimento dos modelos de difusão abriu novas oportunidades para a reconstrução a partir de uma única visão. No entanto, todos os métodos existentes representam o objeto alvo como uma malha fechada desprovida de qualquer informação estrutural, negligenciando assim a estrutura baseada em partes, que é crucial para muitas aplicações subsequentes, da forma reconstruída. Além disso, as malhas geradas geralmente apresentam ruídos excessivos, superfícies irregulares e texturas desfocadas, tornando desafiador obter segmentações de partes satisfatórias usando técnicas de segmentação 3D. Neste artigo, apresentamos o Part123, uma nova estrutura para reconstrução 3D com consciência de partes a partir de uma imagem de visão única. Primeiro, utilizamos modelos de difusão para gerar imagens consistentes em múltiplas visões a partir de uma imagem dada e, em seguida, aproveitamos o Segment Anything Model (SAM), que demonstra uma poderosa capacidade de generalização em objetos arbitrários, para gerar máscaras de segmentação em múltiplas visões. Para incorporar efetivamente informações baseadas em partes 2D na reconstrução 3D e lidar com inconsistências, introduzimos o aprendizado contrastivo em uma estrutura de renderização neural para aprender um espaço de características com consciência de partes com base nas máscaras de segmentação multivisão. Um algoritmo baseado em clustering também foi desenvolvido para derivar automaticamente os resultados de segmentação de partes 3D a partir dos modelos reconstruídos. Experimentos mostram que nosso método pode gerar modelos 3D com partes segmentadas de alta qualidade em diversos objetos. Em comparação com os métodos de reconstrução não estruturados existentes, os modelos 3D com consciência de partes gerados pelo nosso método beneficiam algumas aplicações importantes, incluindo reconstrução com preservação de características, ajuste de primitivas e edição de formas 3D.
Embora os modelos de difusão possam aprender distribuições complexas, a amostragem requer um processo iterativo computacionalmente caro. Métodos de destilação existentes permitem amostragem eficiente, mas apresentam limitações notáveis, como degradação de desempenho com poucos passos de amostragem, dependência de acesso a dados de treinamento ou otimização voltada para modos que pode falhar em capturar a distribuição completa. Propomos a Destilação EM (EMD), uma abordagem baseada em máxima verossimilhança que destila um modelo de difusão para um modelo gerador de um único passo com perda mínima de qualidade perceptual. Nossa abordagem é derivada através da lente do algoritmo Expectation-Maximization (EM), onde os parâmetros do gerador são atualizados usando amostras da distribuição conjunta do modelo de difusão professor e dos latentes inferidos do gerador. Desenvolvemos um esquema de amostragem reparametrizado e uma técnica de cancelamento de ruído que, juntos, estabilizam o processo de destilação. Além disso, revelamos uma conexão interessante de nosso método com métodos existentes que minimizam a divergência KL voltada para modos. O EMD supera métodos gerativos de um único passo existentes em termos de pontuações FID no ImageNet-64 e ImageNet-128, e se compara favoravelmente com trabalhos anteriores sobre destilação de modelos de difusão texto-para-imagem.
Modelos generativos de vídeo estão recebendo atenção especial devido à sua capacidade de gerar quadros realistas e imaginativos. Além disso, observa-se que esses modelos também exibem uma forte consistência 3D, aumentando significativamente seu potencial para atuar como simuladores de mundos. Neste trabalho, apresentamos o Vidu4D, um modelo de reconstrução inovador que se destaca na reconstrução precisa de representações 4D (ou seja, 3D sequenciais) a partir de vídeos gerados individualmente, abordando desafios associados à não-rigidez e à distorção de quadros. Essa capacidade é crucial para a criação de conteúdos virtuais de alta fidelidade que mantêm coerência tanto espacial quanto temporal. No cerne do Vidu4D está nossa técnica proposta de Dynamic Gaussian Surfels (DGS). O DGS otimiza funções de deformação variáveis no tempo para transformar Gaussian surfels (elementos de superfície) de um estado estático para um estado dinamicamente deformado. Essa transformação permite uma representação precisa de movimento e deformação ao longo do tempo. Para preservar a integridade estrutural dos Gaussian surfels alinhados à superfície, projetamos a regularização geométrica do estado deformado com base em campos de deformação contínuos para estimar normais. Além disso, aprendemos refinamentos nos parâmetros de rotação e escala dos Gaussian surfels, o que alivia significativamente o flickering de textura durante o processo de deformação e melhora a captura de detalhes de aparência refinados. O Vidu4D também contém um estado de inicialização inovador que fornece um começo adequado para os campos de deformação no DGS. Equipando o Vidu4D com um modelo generativo de vídeo existente, o framework geral demonstra geração de texto-para-4D de alta fidelidade tanto em aparência quanto em geometria.
Uma boa inicialização de modelos de aprendizado profundo é essencial, pois pode ajudá-los a convergir de forma melhor e mais rápida. No entanto, o pré-treinamento de modelos grandes é inviável para muitos pesquisadores, o que torna uma previsão desejada para parâmetros iniciais mais necessária atualmente. As Graph HyperNetworks (GHNs), uma abordagem para prever parâmetros de modelos, recentemente demonstraram um forte desempenho na inicialização de grandes modelos de visão. Infelizmente, a previsão de parâmetros de redes muito amplas depende da cópia de pequenos blocos de parâmetros várias vezes e requer um número extremamente grande de parâmetros para suportar a previsão completa, o que dificulta muito sua adoção na prática. Para abordar essa limitação, propomos o LoGAH (Low-rank GrAph Hypernetworks), uma GHN com um decodificador de parâmetros de baixa classificação que se expande para redes significativamente mais amplas sem exigir um aumento excessivo de parâmetros como em tentativas anteriores. O LoGAH nos permite prever os parâmetros de redes neurais grandes de 774 milhões de uma forma eficiente em termos de memória. Mostramos que modelos de visão e linguagem (ou seja, ViT e GPT-2) inicializados com LoGAH alcançam um desempenho melhor do que aqueles inicializados aleatoriamente ou usando hiper-redes existentes. Além disso, mostramos resultados promissores de aprendizado de transferência em relação ao treinamento do LoGAH em pequenos conjuntos de dados e ao uso dos parâmetros previstos para inicializar tarefas maiores. Fornecemos os códigos em https://github.com/Blackzxy/LoGAH.
Abordamos o problema de longa data de como aprender modelos de difusão de imagens baseados em pixels em escala, introduzindo um método notavelmente simples de crescimento ganancioso para o treinamento estável de modelos em grande escala e alta resolução, sem a necessidade de componentes em cascata de super-resolução. A chave para isso reside no pré-treinamento cuidadoso dos componentes principais, ou seja, aqueles responsáveis pelo alinhamento texto-imagem {\it vs.} renderização de alta resolução. Primeiro, demonstramos os benefícios de escalar uma {\it Shallow UNet}, sem codificador(decodificador) de redução(aumento) de amostragem. A escalabilidade de suas camadas profundas mostrou melhorar o alinhamento, a estrutura dos objetos e a composição. Com base nesse modelo central, propomos um algoritmo ganancioso que expande a arquitetura para modelos de alta resolução de ponta a ponta, preservando a integridade da representação pré-treinada, estabilizando o treinamento e reduzindo a necessidade de grandes conjuntos de dados de alta resolução. Isso permite um modelo de estágio único capaz de gerar imagens de alta resolução sem a necessidade de uma cascata de super-resolução. Nossos principais resultados dependem de conjuntos de dados públicos e mostram que somos capazes de treinar modelos não em cascata com até 8 bilhões de parâmetros, sem esquemas adicionais de regularização. Vermeer, nosso modelo de pipeline completo treinado com conjuntos de dados internos para produzir imagens de 1024x1024, sem cascatas, é preferido por 44,0% contra 21,4% dos avaliadores humanos em relação ao SDXL.