Artigos de pesquisa em IA selecionados diariamente com traduções
O treinamento de modelos de texto para imagem com pares de imagem-texto em escala da web permite a geração de uma ampla gama de conceitos visuais a partir de texto. No entanto, esses modelos pré-treinados frequentemente enfrentam desafios quando se trata de gerar imagens altamente estéticas. Isso cria a necessidade de alinhamento estético após o pré-treinamento. Neste artigo, propomos o ajuste de qualidade para orientar efetivamente um modelo pré-treinado a gerar exclusivamente imagens visualmente atraentes, mantendo a generalidade entre os conceitos visuais. Nossa principal percepção é que o ajuste fino supervisionado com um conjunto surpreendentemente pequeno, mas extremamente visualmente atraente de imagens, pode melhorar significativamente a qualidade da geração. Pré-treinamos um modelo de difusão latente em 1,1 bilhão de pares de imagem-texto e o ajustamos com apenas alguns milhares de imagens de alta qualidade cuidadosamente selecionadas. O modelo resultante, Emu, alcança uma taxa de vitória de 82,9% em comparação com sua contraparte apenas pré-treinada. Comparado ao estado da arte SDXLv1.0, o Emu é preferido 68,4% e 71,3% das vezes em apelo visual nos benchmarks padrão PartiPrompts e nosso Open User Input, baseado no uso real de modelos de texto para imagem. Além disso, mostramos que o ajuste de qualidade é uma abordagem genérica que também é eficaz para outras arquiteturas, incluindo modelos de difusão de pixels e transformadores generativos mascarados.
Propomos substituir a quantização vetorial (VQ) na representação latente dos VQ-VAEs por um esquema simples denominado quantização escalar finita (FSQ), no qual projetamos a representação do VAE em algumas dimensões (tipicamente menos de 10). Cada dimensão é quantizada para um pequeno conjunto de valores fixos, resultando em um codebook (implícito) dado pelo produto desses conjuntos. Ao escolher adequadamente o número de dimensões e os valores que cada dimensão pode assumir, obtemos o mesmo tamanho de codebook que na VQ. Sobre tais representações discretas, podemos treinar os mesmos modelos que foram treinados com representações de VQ-VAE. Por exemplo, modelos autoregressivos e transformers mascarados para geração de imagens, geração multimodal e tarefas de visão computacional de predição densa. Concretamente, empregamos FSQ com MaskGIT para geração de imagens e com UViM para estimativa de profundidade, colorização e segmentação panóptica. Apesar do design muito mais simples do FSQ, obtemos desempenho competitivo em todas essas tarefas. Ressaltamos que o FSQ não sofre de colapso do codebook e não precisa da maquinaria complexa empregada na VQ (perdas de comprometimento, redefinição do codebook, divisão de códigos, penalidades de entropia, etc.) para aprender representações discretas expressivas.
Propomos um sistema de modelagem de linguagem neural baseado em adaptação de baixo posto (LoRA) para reescore da saída de reconhecimento de fala. Embora modelos de linguagem pré-treinados (LMs) como o BERT tenham demonstrado desempenho superior no reescore de segunda passagem, o alto custo computacional de escalonar a etapa de pré-treinamento e adaptar os modelos pré-treinados a domínios específicos limita seu uso prático no reescore. Aqui apresentamos um método baseado em decomposição de baixo posto para treinar um modelo BERT de reescore e adaptá-lo a novos domínios utilizando apenas uma fração (0,08%) dos parâmetros pré-treinados. Essas matrizes inseridas são otimizadas por meio de um objetivo de treinamento discriminativo juntamente com uma função de regularização baseada em correlação. A arquitetura proposta de BERT de reescore com adaptação de baixo posto (LoRB) é avaliada nos conjuntos de dados LibriSpeech e internos, com tempos de treinamento reduzidos em fatores entre 5,4 e 3,6.
Avanços significativos foram alcançados no domínio dos modelos de difusão pré-treinados em grande escala para geração de texto-para-vídeo (VDMs). No entanto, métodos anteriores dependem exclusivamente de VDMs baseados em pixels, que possuem altos custos computacionais, ou de VDMs baseados em latentes, que frequentemente enfrentam dificuldades com o alinhamento preciso entre texto e vídeo. Neste artigo, somos os primeiros a propor um modelo híbrido, denominado Show-1, que combina VDMs baseados em pixels e latentes para a geração de texto-para-vídeo. Nosso modelo primeiro utiliza VDMs baseados em pixels para produzir um vídeo de baixa resolução com forte correlação entre texto e vídeo. Em seguida, propomos um novo método de tradução especializada que emprega VDMs baseados em latentes para aprimorar a resolução do vídeo de baixa para alta resolução. Comparado aos VDMs latentes, o Show-1 é capaz de produzir vídeos de alta qualidade com alinhamento preciso entre texto e vídeo; comparado aos VDMs baseados em pixels, o Show-1 é muito mais eficiente (o uso de memória GPU durante a inferência é de 15G versus 72G). Também validamos nosso modelo em benchmarks padrão de geração de vídeo. Nosso código e pesos do modelo estão publicamente disponíveis em https://github.com/showlab/Show-1.
Apresentamos um novo tipo de campos neurais que utiliza bases radiais gerais para representação de sinais. Os campos neurais de última geração normalmente dependem de representações baseadas em grades para armazenar características neurais locais e kernels lineares N-dimensionais para interpolar características em pontos de consulta contínuos. As posições espaciais de suas características neurais são fixas em nós de grade e não conseguem se adaptar bem aos sinais alvo. Nosso método, em vez disso, é baseado em bases radiais gerais com posição e forma flexíveis do kernel, que possuem maior adaptabilidade espacial e podem se ajustar mais precisamente aos sinais alvo. Para melhorar ainda mais a capacidade canal por canal das funções de base radial, propomos compô-las com funções senoidais de múltiplas frequências. Essa técnica estende uma base radial para múltiplas bases radiais de Fourier de diferentes bandas de frequência sem exigir parâmetros extras, facilitando a representação de detalhes. Além disso, ao combinar bases radiais adaptativas com as baseadas em grade, nossa combinação híbrida herda tanto a adaptabilidade quanto a suavidade de interpolação. Projetamos cuidadosamente esquemas de ponderação para permitir que as bases radiais se adaptem a diferentes tipos de sinais de forma eficaz. Nossos experimentos em representação de imagens 2D e campos de distância com sinalização 3D demonstram a maior precisão e compactação do nosso método em comparação com as técnicas anteriores. Quando aplicado à reconstrução de campos de radiação neural, nosso método alcança qualidade de renderização de última geração, com tamanho de modelo reduzido e velocidade de treinamento comparável.
Nos últimos anos, os avanços no pré-treinamento em larga escala de modelos de linguagem e de texto para imagem revolucionaram o campo do aprendizado de máquina. No entanto, integrar essas duas modalidades em um único modelo robusto, capaz de gerar saídas multimodais perfeitas, continua sendo um desafio significativo. Para abordar essa lacuna, apresentamos o framework Joint Autoregressive Mixture (JAM), uma abordagem modular que integra sistematicamente modelos existentes de geração de texto e imagem. Também introduzimos uma estratégia especializada e eficiente em dados de ajuste por instrução, projetada especificamente para tarefas de geração multimodais. Nosso modelo final ajustado por instrução demonstra desempenho incomparável na geração de saídas multimodais de alta qualidade e representa o primeiro modelo explicitamente projetado para esse propósito.
Compreender como os humanos usam o contato físico para interagir com o mundo é fundamental para permitir a inteligência artificial centrada no ser humano. Embora inferir contato 3D seja crucial para modelar interações humano-objeto realistas e fisicamente plausíveis, os métodos existentes ou se concentram em 2D, consideram articulações corporais em vez da superfície, usam regiões corporais 3D grosseiras ou não generalizam para imagens do mundo real. Em contraste, nos concentramos em inferir contato 3D denso entre a superfície corporal completa e objetos em imagens arbitrárias. Para alcançar isso, primeiro coletamos DAMON, um novo conjunto de dados contendo anotações de contato denso em nível de vértice, pareadas com imagens RGB que contêm interações complexas entre humano-objeto e humano-cena. Em segundo lugar, treinamos DECO, um novo detector de contato 3D que usa atenção tanto dirigida por partes do corpo quanto por contexto de cena para estimar o contato em nível de vértice no corpo SMPL. O DECO se baseia na percepção de que os observadores humanos reconhecem o contato ao raciocinar sobre as partes do corpo em contato, sua proximidade com os objetos da cena e o contexto da cena circundante. Realizamos avaliações extensas do nosso detector no DAMON, bem como nos conjuntos de dados RICH e BEHAVE. Superamos significativamente os métodos SOTA existentes em todos os benchmarks. Também mostramos qualitativamente que o DECO generaliza bem para diversas e desafiadoras interações humanas do mundo real em imagens naturais. O código, os dados e os modelos estão disponíveis em https://deco.is.tue.mpg.de.
Recentemente, um influxo de estudos afirma a existência de habilidades cognitivas emergentes em modelos de linguagem de grande escala (LLMs). No entanto, a maioria se baseia em anedotas, ignora a contaminação dos conjuntos de treinamento ou carece de avaliação sistemática envolvendo múltiplas tarefas, condições de controle, várias iterações e testes de robustez estatística. Aqui, fazemos duas contribuições principais. Primeiro, propomos o CogEval, um protocolo inspirado na ciência cognitiva para a avaliação sistemática de capacidades cognitivas em Modelos de Linguagem de Grande Escala. O protocolo CogEval pode ser seguido para a avaliação de diversas habilidades. Segundo, aqui seguimos o CogEval para avaliar sistematicamente mapas cognitivos e a capacidade de planejamento em oito LLMs (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1-52B, LLaMA-13B e Alpaca-7B). Baseamos nossos prompts de tarefas em experimentos humanos, que oferecem validade de constructo estabelecida para avaliar o planejamento e estão ausentes dos conjuntos de treinamento dos LLMs. Descobrimos que, embora os LLMs demonstrem aparente competência em algumas tarefas de planejamento com estruturas mais simples, a avaliação sistemática revela modos de falha marcantes em tarefas de planejamento, incluindo alucinações de trajetórias inválidas e ficar preso em loops. Esses achados não sustentam a ideia de uma capacidade de planejamento emergente pronta para uso em LLMs. Isso pode ocorrer porque os LLMs não compreendem as estruturas relacionais latentes subjacentes aos problemas de planejamento, conhecidas como mapas cognitivos, e falham ao desdobrar trajetórias orientadas a objetivos com base na estrutura subjacente. Implicações para aplicações e direções futuras são discutidas.
A sintonia de prompts textuais tem demonstrado melhorias significativas de desempenho na adaptação de modelos de processamento de linguagem natural para uma variedade de tarefas subsequentes, tratando prompts projetados manualmente como parâmetros treináveis. Inspirados pelo sucesso dos prompts textuais, vários estudos investigaram a eficácia da sintonia de prompts visuais. Neste trabalho, apresentamos a Adaptação de Prompt Visual (VPA), o primeiro framework que generaliza o prompting visual com adaptação em tempo de teste. A VPA introduz um pequeno número de tokens aprendíveis, permitindo uma adaptação totalmente eficiente em termos de armazenamento e em tempo de teste, sem a necessidade de informações do domínio de origem. Examinamos nosso design de VPA em diversos cenários de adaptação, abrangendo adaptação de imagem única, imagens em lote e adaptação com pseudo-rótulos. Avaliamos a VPA em múltiplas tarefas, incluindo generalização fora da distribuição (OOD), robustez a corrupções e adaptação de domínio. Resultados experimentais revelam que a VPA melhora efetivamente a generalização OOD em 3,3% em vários modelos, superando abordagens anteriores de tempo de teste. Além disso, mostramos que a VPA aumenta a robustez a corrupções em 6,5% em comparação com baselines fortes. Por fim, demonstramos que a VPA também impulsiona o desempenho de adaptação de domínio em 5,2% relativamente. Nossa VPA também exibe marcada eficácia na melhoria da robustez do reconhecimento zero-shot para modelos de visão e linguagem.