Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo revela uma característica linear nova e exclusiva dos decodificadores de transformadores, incluindo modelos como GPT, LLaMA, OPT, BLOOM e outros. Analisamos as transformações de embeddings entre camadas sequenciais, descobrindo uma relação linear quase perfeita (pontuação de similaridade de Procrustes de 0,99). No entanto, a linearidade diminui quando o componente residual é removido devido a uma norma de saída consistentemente baixa da camada do transformador. Nossos experimentos mostram que a remoção ou a aproximação linear de alguns dos blocos mais lineares dos transformadores não afeta significativamente a perda ou o desempenho do modelo. Além disso, em nossos experimentos de pré-treinamento em modelos menores, introduzimos uma regularização baseada em similaridade de cosseno, com o objetivo de reduzir a linearidade das camadas. Essa regularização melhora as métricas de desempenho em benchmarks como Tiny Stories e SuperGLUE e também reduz com sucesso a linearidade dos modelos. Este estudo desafia o entendimento atual das arquiteturas de transformadores, sugerindo que sua operação pode ser mais linear do que se assumia anteriormente.
O cache de chave-valor (KV) desempenha um papel essencial na aceleração da decodificação de modelos de linguagem grandes (LLMs) autoregressivos baseados em transformadores. No entanto, a quantidade de memória necessária para armazenar o cache KV pode se tornar proibitiva em sequências longas e grandes tamanhos de lote. Desde a invenção do transformador, duas das intervenções mais eficazes descobertas para reduzir o tamanho do cache KV foram a Atenção Multi-Query (MQA) e sua generalização, a Atenção de Grupo-Query (GQA). Tanto MQA quanto GQA modificam o design do bloco de atenção para que múltiplas cabeças de consulta compartilhem uma única cabeça de chave/valor, reduzindo o número de cabeças de chave/valor distintas por um grande fator, enquanto degradam a precisão apenas minimamente. Neste artigo, mostramos que é possível levar a Atenção Multi-Query um passo adiante, compartilhando também cabeças de chave e valor entre camadas adjacentes, resultando em um novo design de atenção que chamamos de Atenção Trans-Camada (CLA). Com a CLA, descobrimos que é possível reduzir o tamanho do cache KV em mais 2x, mantendo quase a mesma precisão da MQA não modificada. Em experimentos treinando modelos de 1B e 3B parâmetros do zero, demonstramos que a CLA proporciona uma melhoria de Pareto nas compensações entre memória/precisão que são possíveis com a MQA tradicional, permitindo inferência com sequências mais longas e tamanhos de lote maiores do que seria possível de outra forma.
Modelos de mundo representam uma abordagem promissora para o treinamento de agentes de aprendizado por reforço de forma segura e eficiente em termos de amostras. Recentemente, os modelos de mundo operam predominantemente em sequências de variáveis latentes discretas para modelar a dinâmica do ambiente. No entanto, essa compressão em uma representação discreta compacta pode ignorar detalhes visuais que são importantes para o aprendizado por reforço. Paralelamente, os modelos de difusão tornaram-se uma abordagem dominante para a geração de imagens, desafiando métodos bem estabelecidos que modelam variáveis latentes discretas. Motivados por essa mudança de paradigma, introduzimos o DIAMOND (DIffusion As a Model Of eNvironment Dreams), um agente de aprendizado por reforço treinado em um modelo de mundo baseado em difusão. Analisamos as principais escolhas de design necessárias para tornar a difusão adequada para a modelagem de mundo e demonstramos como detalhes visuais aprimorados podem levar a um melhor desempenho do agente. O DIAMOND alcança uma pontuação média normalizada por humanos de 1,46 no benchmark competitivo Atari 100k; um novo recorde para agentes treinados inteiramente dentro de um modelo de mundo. Para fomentar pesquisas futuras sobre difusão para modelagem de mundo, disponibilizamos nosso código, agentes e modelos de mundo jogáveis em https://github.com/eloialonso/diamond.
Os métodos atuais de reencenação e troca de faces dependem principalmente de frameworks GAN, mas o foco recente mudou para modelos de difusão pré-treinados devido às suas capacidades superiores de geração. No entanto, o treinamento desses modelos é intensivo em recursos, e os resultados ainda não atingiram níveis de desempenho satisfatórios. Para resolver esse problema, apresentamos o Face-Adapter, um adaptador eficiente e eficaz projetado para edição de faces de alta precisão e alta fidelidade em modelos de difusão pré-treinados. Observamos que tanto as tarefas de reencenação quanto de troca de faces envolvem essencialmente combinações de estrutura alvo, ID e atributos. Nosso objetivo é desacoplar suficientemente o controle desses fatores para realizar ambas as tarefas em um único modelo. Especificamente, nosso método contém: 1) Um Gerador de Condição Espacial que fornece marcos precisos e fundo; 2) Um Codificador de Identidade Plug-and-play que transfere embeddings de faces para o espaço de texto por meio de um decodificador transformer. 3) Um Controlador de Atributos que integra condições espaciais e atributos detalhados. O Face-Adapter alcança desempenho comparável ou até superior em termos de precisão de controle de movimento, capacidade de retenção de ID e qualidade de geração em comparação com modelos de reencenação/troca de faces totalmente ajustados. Além disso, o Face-Adapter integra-se perfeitamente com vários modelos StableDiffusion.
O campo de correspondência de imagens tem testemunhado o surgimento contínuo de novas técnicas aprendíveis de correspondência de características, com desempenho cada vez melhor em benchmarks convencionais. No entanto, nossa investigação mostra que, apesar desses avanços, seu potencial para aplicações do mundo real é limitado por suas capacidades de generalização restritas a novos domínios de imagem. Neste artigo, apresentamos o OmniGlue, o primeiro correspondente de imagem aprendível projetado com a generalização como princípio central. O OmniGlue aproveita o conhecimento amplo de um modelo de base de visão para guiar o processo de correspondência de características, impulsionando a generalização para domínios não vistos durante o treinamento. Além disso, propomos um novo mecanismo de atenção guiado pela posição de pontos-chave, que desacopla informações espaciais e de aparência, resultando em descritores de correspondência aprimorados. Realizamos experimentos abrangentes em um conjunto de 7 conjuntos de dados com diversos domínios de imagem, incluindo imagens de cena, centradas em objetos e aéreas. Os componentes inovadores do OmniGlue resultam em ganhos relativos de 20,9% em domínios não vistos em relação a um modelo de referência diretamente comparável, enquanto também superam o método LightGlue recente em 9,5% relativamente. O código e o modelo podem ser encontrados em https://hwjiang1510.github.io/OmniGlue.
Apresentamos resíduos personalizados e amostragem guiada por atenção localizada para geração eficiente orientada por conceitos utilizando modelos de difusão texto-imagem. Nosso método primeiro representa conceitos congelando os pesos de um modelo de difusão pré-treinado condicionado por texto e aprendendo resíduos de baixa classificação para um pequeno subconjunto das camadas do modelo. A abordagem baseada em resíduos então permite diretamente a aplicação de nossa técnica de amostragem proposta, que aplica os resíduos aprendidos apenas em áreas onde o conceito é localizado via atenção cruzada e aplica os pesos originais de difusão em todas as outras regiões. A amostragem localizada, portanto, combina a identidade aprendida do conceito com o prior generativo existente do modelo de difusão subjacente. Demonstramos que os resíduos personalizados capturam efetivamente a identidade de um conceito em ~3 minutos em uma única GPU sem o uso de imagens de regularização e com menos parâmetros do que modelos anteriores, e a amostragem localizada permite utilizar o modelo original como um prior forte para grandes partes da imagem.