Artigos de pesquisa em IA selecionados diariamente com traduções
Projetamos uma nova família de redes neurais híbridas CNN-ViT, denominada FasterViT, com foco em alta taxa de processamento de imagens para aplicações de visão computacional (CV). A FasterViT combina os benefícios do aprendizado rápido de representações locais das CNNs e das propriedades de modelagem global das ViTs. Nossa abordagem recém-introduzida, chamada Hierarchical Attention (HAT), decompõe a auto-atenção global com complexidade quadrática em uma atenção multi-nível com custos computacionais reduzidos. Beneficiamo-nos da eficiente auto-atenção baseada em janelas, onde cada janela tem acesso a tokens portadores dedicados que participam do aprendizado de representações locais e globais. Em um nível mais alto, as auto-atenções globais permitem a comunicação eficiente entre janelas a custos mais baixos. A FasterViT alcança uma fronteira de Pareto de estado da arte (SOTA) em termos de precisão versus taxa de processamento de imagens. Validamos extensivamente sua eficácia em várias tarefas de CV, incluindo classificação, detecção de objetos e segmentação. Também mostramos que o HAT pode ser usado como um módulo plug-and-play para redes existentes, aprimorando-as. Além disso, demonstramos um desempenho significativamente mais rápido e preciso do que os concorrentes para imagens de alta resolução. O código está disponível em https://github.com/NVlabs/FasterViT.
Modelos de difusão de texto para imagem em grande escala possuem capacidades impressionantes na geração de imagens foto-realistas a partir de prompts de texto. Como orientar ou controlar de forma eficaz esses modelos poderosos para realizar diferentes tarefas subsequentes torna-se um importante problema em aberto. Para enfrentar esse desafio, introduzimos um método de ajuste fino fundamentado -- Ajuste Fino Ortogonal (OFT, do inglês Orthogonal Finetuning), para adaptar modelos de difusão de texto para imagem a tarefas subsequentes. Diferente dos métodos existentes, o OFT pode comprovadamente preservar a energia hiperesférica, que caracteriza a relação entre pares de neurônios na hiperesfera unitária. Descobrimos que essa propriedade é crucial para preservar a capacidade de geração semântica dos modelos de difusão de texto para imagem. Para melhorar a estabilidade do ajuste fino, propomos ainda o Ajuste Fino Ortogonal Restrito (COFT, do inglês Constrained Orthogonal Finetuning), que impõe uma restrição adicional de raio à hiperesfera. Especificamente, consideramos duas importantes tarefas de ajuste fino de texto para imagem: geração orientada por sujeito, onde o objetivo é gerar imagens específicas de um sujeito dadas algumas imagens desse sujeito e um prompt de texto, e geração controlável, onde o objetivo é permitir que o modelo receba sinais de controle adicionais. Empiricamente, demonstramos que nossa estrutura OFT supera os métodos existentes em qualidade de geração e velocidade de convergência.
Algoritmos de treinamento, em um sentido amplo, são uma parte essencial de todo pipeline de aprendizado profundo. Melhorias nos algoritmos de treinamento que aceleram o processo em uma variedade de cargas de trabalho (por exemplo, regras de atualização mais eficientes, protocolos de ajuste, cronogramas de taxa de aprendizado ou esquemas de seleção de dados) podem economizar tempo, reduzir o uso de recursos computacionais e resultar em modelos melhores e mais precisos. Infelizmente, como comunidade, atualmente não somos capazes de identificar de forma confiável melhorias nos algoritmos de treinamento, ou mesmo determinar qual é o algoritmo de treinamento mais avançado. Neste trabalho, por meio de experimentos concretos, argumentamos que o progresso real na aceleração do treinamento requer novos benchmarks que resolvam três desafios básicos enfrentados por comparações empíricas de algoritmos de treinamento: (1) como decidir quando o treinamento está completo e medir com precisão o tempo de treinamento, (2) como lidar com a sensibilidade das medições aos detalhes exatos da carga de trabalho, e (3) como comparar de forma justa algoritmos que exigem ajuste de hiperparâmetros. Para abordar esses desafios, introduzimos um novo benchmark competitivo de tempo-para-resultado, utilizando múltiplas cargas de trabalho executadas em hardware fixo, o AlgoPerf: Benchmark de Algoritmos de Treinamento. Nosso benchmark inclui um conjunto de variantes de cargas de trabalho que possibilitam a detecção de submissões mais robustas a mudanças na carga de trabalho em comparação com os métodos amplamente utilizados atualmente. Por fim, avaliamos submissões de linha de base construídas com vários otimizadores que representam a prática atual, bem como outros otimizadores que recentemente receberam atenção na literatura. Esses resultados de linha de base demonstram coletivamente a viabilidade do nosso benchmark, mostram que existem lacunas não triviais entre os métodos e estabelecem um estado da arte provisório para que futuras submissões ao benchmark tentem superar.
Os modelos de linguagem de grande escala (LLMs, na sigla em inglês) existentes só conseguem processar entradas de tamanho fixo devido ao limite de comprimento de entrada, o que os impede de utilizar informações ricas de contexto longo provenientes de entradas passadas. Para resolver isso, propomos um framework, denominado Language Models Augmented with Long-Term Memory (LongMem), que permite que os LLMs memorizem um histórico longo. Projetamos uma arquitetura de rede decoupled inovadora, na qual o backbone original do LLM é mantido congelado como um codificador de memória, enquanto uma rede lateral residual adaptativa atua como um recuperador e leitor de memória. Esse design de memória decoupled permite armazenar e atualizar facilmente contextos passados de longo prazo para recuperação de memória, sem sofrer com a obsolescência da memória. Aprimorado com treinamento de adaptação aumentado por memória, o LongMem consegue memorizar contextos passados longos e utilizar memória de longo prazo para modelagem de linguagem. O módulo de recuperação de memória proposto pode lidar com contextos de comprimento ilimitado em seu banco de memória, beneficiando diversas tarefas downstream. Tipicamente, o LongMem pode ampliar a memória de longo formato para 65 mil tokens, armazenando assim exemplos de demonstração extras de muitos exemplos como memória de longo formato para aprendizado em contexto. Experimentos mostram que nosso método supera modelos de contexto longo robustos no ChapterBreak, um benchmark desafiador de modelagem de contexto longo, e alcança melhorias notáveis no aprendizado em contexto aumentado por memória em comparação com LLMs. Os resultados demonstram que o método proposto é eficaz em ajudar modelos de linguagem a memorizar e utilizar conteúdos de longo formato. Nosso código está disponível como open-source em https://aka.ms/LongMem.
Apresentamos o Face0, uma nova abordagem para condicionar instantaneamente um modelo de geração de texto para imagem a um rosto, durante o tempo de amostragem, sem a necessidade de procedimentos de otimização como ajuste fino ou inversões. Aumentamos um conjunto de dados de imagens anotadas com embeddings dos rostos incluídos e treinamos um modelo de geração de imagens nesse conjunto de dados ampliado. Uma vez treinado, nosso sistema é praticamente idêntico ao modelo base no momento da inferência e, portanto, é capaz de gerar imagens, dado um rosto fornecido pelo usuário e um prompt, em apenas alguns segundos. Nosso método alcança resultados agradáveis, é notavelmente simples, extremamente rápido e equipa o modelo subjacente com novas capacidades, como controlar as imagens geradas tanto por texto quanto pela manipulação direta dos embeddings do rosto de entrada. Além disso, ao usar um vetor aleatório fixo em vez de um embedding de rosto de uma imagem fornecida pelo usuário, nosso método essencialmente resolve o problema de geração consistente de personagens entre imagens. Por fim, embora exija mais pesquisas, esperamos que nosso método, que desacopla os vieses textuais do modelo de seus vieses em rostos, possa ser um passo em direção à mitigação de vieses em futuros modelos de texto para imagem.
Apresentamos o Cap3D, uma abordagem automática para gerar textos descritivos para objetos 3D. Essa abordagem utiliza modelos pré-treinados de legendagem de imagens, alinhamento imagem-texto e LLM (Large Language Models) para consolidar legendas a partir de múltiplas visualizações de um ativo 3D, contornando completamente o processo demorado e custoso de anotação manual. Aplicamos o Cap3D ao recentemente introduzido conjunto de dados em larga escala Objaverse, resultando em 660 mil pares de texto-3D. Nossa avaliação, conduzida com 41 mil anotações humanas do mesmo conjunto de dados, demonstra que o Cap3D supera as descrições feitas por humanos em termos de qualidade, custo e velocidade. Por meio de uma engenharia de prompts eficaz, o Cap3D rivaliza com o desempenho humano na geração de descrições geométricas em 17 mil anotações coletadas do conjunto de dados ABO. Por fim, ajustamos modelos de Texto-para-3D com legendas do Cap3D e humanas, e mostramos que o Cap3D supera; e comparamos com o estado da arte, incluindo Point-E, Shape-E e DreamFusion.
Modelos de linguagem têm sido utilizados com sucesso para modelar sinais naturais, como imagens, fala e música. Um componente essencial desses modelos é um algoritmo de compressão neural de alta qualidade capaz de comprimir sinais naturais de alta dimensionalidade em tokens discretos de menor dimensionalidade. Para isso, introduzimos um algoritmo universal de compressão neural de áudio de alta fidelidade que alcança uma compressão de ~90x de áudio a 44,1 KHz em tokens com uma taxa de apenas 8 kbps. Isso é obtido combinando avanços na geração de áudio de alta fidelidade com técnicas aprimoradas de quantização vetorial do domínio de imagens, além de melhorias nas funções de perda adversarial e de reconstrução. Comprimimos todos os domínios (fala, ambiente, música, etc.) com um único modelo universal, tornando-o amplamente aplicável à modelagem generativa de qualquer tipo de áudio. Comparamos nosso método com algoritmos concorrentes de compressão de áudio e constatamos que ele supera significativamente os demais. Fornecemos análises detalhadas para cada escolha de projeto, além de código aberto e pesos de modelos treinados. Esperamos que nosso trabalho possa estabelecer as bases para a próxima geração de modelagem de áudio de alta fidelidade.
Identificamos dinâmicas de aprendizado incremental em transformadores, onde a diferença entre os pesos treinados e iniciais aumenta progressivamente em rank. Demonstramos rigorosamente que isso ocorre sob as suposições simplificadoras de matrizes de pesos diagonais e inicialização pequena. Nossos experimentos corroboram a teoria e também mostram que o fenômeno pode ocorrer na prática sem as suposições simplificadoras.
Modelos de contraste imagem-texto, como o CLIP, formam os blocos fundamentais de muitos sistemas de última geração. Embora se destaquem no reconhecimento de conceitos genéricos comuns, ainda enfrentam dificuldades com entidades de granularidade fina que são raras ou até mesmo ausentes do conjunto de dados de pré-treinamento. Portanto, um ingrediente-chave para o sucesso desses modelos tem sido o uso de dados de pré-treinamento em grande escala e cuidadosamente curados, visando expandir o conjunto de conceitos que podem memorizar durante a fase de pré-treinamento. Neste trabalho, exploramos uma alternativa à codificação direta do conhecimento de granularidade fina nos parâmetros do modelo: em vez disso, treinamos o modelo para recuperar esse conhecimento de uma memória externa. Especificamente, propomos equipar os modelos visão-texto existentes com a capacidade de refinar sua incorporação (embedding) com informações recuperadas de forma cruzada a partir de uma memória no momento da inferência, o que melhora significativamente suas previsões zero-shot. Notavelmente, mostramos que isso pode ser feito com um transformador de fusão leve e de camada única sobre um CLIP congelado. Nossos experimentos validam que o treinamento contrastivo aprimorado por recuperação (RECO) melhora substancialmente o desempenho do CLIP em várias tarefas desafiadoras de granularidade fina: por exemplo, +10,9 em Stanford Cars, +10,2 em CUB-2011 e +7,3 no recente benchmark OVEN.
Os métodos de extração de informação mais avançados são limitados por erros de OCR. Eles funcionam bem para textos impressos em documentos estruturados, como formulários, mas documentos não estruturados e manuscritos ainda representam um desafio. Adaptar os modelos existentes para dados de treinamento específicos de um domínio é bastante caro, devido a dois fatores: 1) a disponibilidade limitada de documentos específicos do domínio (como prescrições manuscritas, anotações de laboratório, etc.) e 2) as anotações tornam-se ainda mais desafiadoras, pois é necessário conhecimento específico do domínio para decodificar imagens de documentos manuscritos difíceis de interpretar. Neste trabalho, focamos no problema complexo de extrair nomes de medicamentos de prescrições manuscritas usando apenas dados fracamente rotulados. Os dados consistem em imagens junto com a lista de nomes de medicamentos presentes, mas não sua localização na imagem. Resolvemos o problema primeiro identificando as regiões de interesse, ou seja, as linhas de medicamentos, apenas a partir de rótulos fracos, e depois injetando um modelo de linguagem específico para medicamentos, aprendido usando apenas dados sinteticamente gerados. Em comparação com os métodos mais avançados disponíveis, nossa abordagem tem um desempenho mais de 2,5 vezes melhor na extração de nomes de medicamentos de prescrições.