Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes sucessos revolucionários no aprendizado de máquina são atribuídos principalmente à escala: especificamente, arquiteturas baseadas em atenção em grande escala e conjuntos de dados de escala sem precedentes. Este artigo investiga o impacto do treinamento em escala para o xadrez. Diferentemente dos motores de xadrez tradicionais que dependem de heurísticas complexas, busca explícita ou uma combinação de ambos, treinamos um modelo transformer com 270 milhões de parâmetros usando aprendizado supervisionado em um conjunto de dados de 10 milhões de partidas de xadrez. Anotamos cada tabuleiro no conjunto de dados com valores de ação fornecidos pelo poderoso motor Stockfish 16, resultando em aproximadamente 15 bilhões de pontos de dados. Nosso maior modelo atinge um Elo de 2895 no Lichess blitz contra humanos e resolve com sucesso uma série de quebra-cabeças desafiadores de xadrez, sem qualquer ajuste específico do domínio ou algoritmos de busca explícitos. Também mostramos que nosso modelo supera as redes de política e valor do AlphaZero (sem MCTS) e o GPT-3.5-turbo-instruct. Uma investigação sistemática do tamanho do modelo e do conjunto de dados mostra que um desempenho forte no xadrez só surge em escala suficiente. Para validar nossos resultados, realizamos uma extensa série de ablações de escolhas de design e hiperparâmetros.
Interfaces de usuário (UIs) de tela e infográficos, que compartilham uma linguagem visual e princípios de design semelhantes, desempenham papéis importantes na comunicação humana e na interação homem-máquina. Apresentamos o ScreenAI, um modelo de linguagem visual que se especializa no entendimento de UIs e infográficos. Nosso modelo aprimora a arquitetura PaLI com a estratégia flexível de segmentação do pix2struct e é treinado em uma mistura única de conjuntos de dados. No centro dessa mistura está uma nova tarefa de anotação de tela, na qual o modelo deve identificar o tipo e a localização dos elementos da UI. Utilizamos essas anotações de texto para descrever telas a Modelos de Linguagem de Grande Escala (LLMs) e gerar automaticamente conjuntos de dados de treinamento em escala para tarefas de questionamento e resposta (QA), navegação em UI e sumarização. Realizamos estudos de ablação para demonstrar o impacto dessas escolhas de design. Com apenas 5 bilhões de parâmetros, o ScreenAI alcança novos resultados de estado da arte em tarefas baseadas em UI e infográficos (Multi-page DocVQA, WebSRC, MoTIF e Widget Captioning) e um desempenho de classe superior em outras (Chart QA, DocVQA e InfographicVQA) em comparação com modelos de tamanho similar. Por fim, liberamos três novos conjuntos de dados: um focado na tarefa de anotação de tela e outros dois voltados para questionamento e resposta.
Métodos de alinhamento direto a partir de preferências (DAP), como o DPO, surgiram recentemente como alternativas eficientes ao aprendizado por reforço com feedback humano (RLHF), que não exigem um modelo de recompensa separado. No entanto, os conjuntos de dados de preferências usados em métodos DAP geralmente são coletados antes do treinamento e nunca são atualizados, tornando o feedback puramente offline. Além disso, as respostas nesses conjuntos de dados são frequentemente amostradas de um modelo de linguagem distinto daquele que está sendo alinhado, e como o modelo evolui durante o treinamento, a fase de alinhamento é inevitavelmente off-policy. Neste estudo, propomos que o feedback online é essencial e melhora os métodos DAP. Nosso método, feedback de IA online (OAIF), utiliza um LLM como anotador: em cada iteração de treinamento, amostramos duas respostas do modelo atual e solicitamos que o LLM anotador escolha qual é preferida, fornecendo assim feedback online. Apesar de sua simplicidade, demonstramos por meio de avaliação humana em várias tarefas que o OAIF supera tanto os métodos DAP offline quanto os RLHF. Além disso, mostramos que o feedback utilizado no OAIF é facilmente controlável, por meio de instruções fornecidas ao LLM anotador.
A criação de conteúdo 3D alcançou progressos significativos tanto em termos de qualidade quanto de velocidade. Embora os modelos feed-forward atuais possam produzir objetos 3D em segundos, sua resolução é limitada pela computação intensiva necessária durante o treinamento. Neste artigo, introduzimos o Large Multi-View Gaussian Model (LGM), uma nova estrutura projetada para gerar modelos 3D de alta resolução a partir de prompts de texto ou imagens de visão única. Nossas principais ideias são duas: 1) Representação 3D: Propomos características Gaussianas multi-visão como uma representação eficiente e poderosa, que pode então ser fundida para renderização diferenciável. 2) Backbone 3D: Apresentamos uma U-Net assimétrica como um backbone de alta capacidade operando em imagens multi-visão, que podem ser produzidas a partir de texto ou imagem de visão única utilizando modelos de difusão multi-visão. Experimentos extensivos demonstram a alta fidelidade e eficiência de nossa abordagem. Notavelmente, mantemos a velocidade rápida para gerar objetos 3D em até 5 segundos enquanto aumentamos a resolução de treinamento para 512, alcançando assim a geração de conteúdo 3D de alta resolução.
Apresentamos o EfficientViT-SAM, uma nova família de modelos acelerados de segmentação universal. Mantemos o codificador de prompts leve e o decodificador de máscaras do SAM, enquanto substituímos o pesado codificador de imagens pelo EfficientViT. Para o treinamento, iniciamos com a destilação de conhecimento do codificador de imagens SAM-ViT-H para o EfficientViT. Posteriormente, realizamos o treinamento de ponta a ponta no conjunto de dados SA-1B. Beneficiando-se da eficiência e capacidade do EfficientViT, o EfficientViT-SAM alcança um aumento de velocidade de 48,9x medido com TensorRT na GPU A100 em comparação com o SAM-ViT-H, sem sacrificar o desempenho. Nosso código e modelos pré-treinados estão disponíveis em https://github.com/mit-han-lab/efficientvit.
Modelos de linguagem de grande escala (LLMs) baseados em Transformers agora são implantados para centenas de milhões de usuários. A inferência de LLMs é comumente realizada em lotes de sequências que compartilham um prefixo, como exemplos de few-shot ou um prompt de sistema de chatbot. A decodificação nesse cenário de grandes lotes pode ser limitada pela operação de atenção, que lê grandes caches de chave-valor (KV) da memória e calcula produtos matriciais ineficientes para cada sequência no lote. Neste trabalho, introduzimos o Hydragen, uma implementação exata e consciente do hardware da atenção com prefixos compartilhados. O Hydragen calcula a atenção sobre o prefixo compartilhado e os sufixos únicos separadamente. Essa decomposição permite uma atenção eficiente no prefixo ao agrupar consultas entre sequências, reduzindo leituras redundantes de memória e possibilitando o uso de multiplicações matriciais amigáveis ao hardware. Nosso método pode melhorar a taxa de transferência de ponta a ponta de LLMs em até 32x em relação a baselines competitivas, com o ganho de velocidade aumentando com o tamanho do lote e o comprimento do prefixo compartilhado. O Hydragen também permite o uso de contextos compartilhados muito longos: com um lote grande, aumentar o comprimento do prefixo de 1K para 16K tokens diminui a taxa de transferência do Hydragen em menos de 15%, enquanto a taxa de transferência das baselines cai mais de 90%. O Hydragen generaliza além da simples decomposição prefixo-sufixo e pode ser aplicado a padrões de compartilhamento de prompt baseados em árvore, permitindo-nos reduzir ainda mais o tempo de inferência em problemas de programação competitiva em 55%.
Atenções lineares têm demonstrado potencial para melhorar a eficiência dos Transformers, reduzindo a complexidade quadrática da atenção para linear em relação ao comprimento da sequência. Isso traz uma promessa empolgante para (1) treinar Transformers lineares do zero, (2) "conversão ajustada" de Transformers específicos para tarefas em versões lineares que recuperam o desempenho da tarefa, e (3) "conversão pré-treinada" de Transformers, como grandes modelos de linguagem, em versões lineares ajustáveis para tarefas subsequentes. No entanto, as atenções lineares frequentemente têm desempenho inferior ao da atenção softmax padrão em termos de qualidade. Para fechar essa lacuna de desempenho, descobrimos que as atenções lineares anteriores carecem de propriedades-chave da atenção softmax associadas a um bom desempenho: pesos de baixa entropia (ou "pontiagudos") e monotonicidade do produto escalar. Além disso, observamos mapas de características surpreendentemente simples que retêm essas propriedades e igualam o desempenho da softmax, mas são ineficientes para calcular na atenção linear. Assim, propomos o Hedgehog, uma atenção linear aprendível que mantém as propriedades pontiagudas e monotônicas da atenção softmax, preservando a complexidade linear. O Hedgehog usa MLPs simples e treináveis para produzir pesos de atenção que imitam a atenção softmax. Experimentos mostram que o Hedgehog recupera mais de 99% da qualidade do Transformer padrão em configurações de treinamento do zero e conversão ajustada, superando as atenções lineares anteriores em até 6 pontos de perplexidade no WikiText-103 com GPTs causais, e até 8,7 pontos no GLUE score em BERTs bidirecionais ajustados. O Hedgehog também permite a conversão pré-treinada. Converter um GPT-2 pré-treinado em uma variante de atenção linear alcança o estado da arte com 16,7 de perplexidade no WikiText-103 para modelos decodificadores subquadráticos de 125M. Por fim, transformamos um Llama-2 7B pré-treinado em um Llama viável com atenção linear. Com adaptação de baixo posto, o Hedgehog-Llama2 7B alcança 28,1 pontos ROUGE-1 a mais em relação ao modelo base de atenção padrão, enquanto as atenções lineares anteriores resultam em quedas de 16,5 pontos.
Modelos de linguagem de grande escala estão cada vez mais resolvendo tarefas que são comumente consideradas como exigindo habilidades de raciocínio em nível humano. No entanto, esses modelos ainda têm desempenho muito fraco em benchmarks de inteligência geral, como o Corpus de Abstração e Raciocínio (ARC). Neste artigo, abordamos o ARC como um problema de programação por exemplos e introduzimos um método novo e escalável para autodesenvolvimento de modelos de linguagem chamado Iteração de Código (CodeIt). Nosso método itera entre 1) amostragem de programas e reetiquetagem retrospectiva, e 2) aprendizado com replay de experiência priorizada. Ao reetiquetar o objetivo de um episódio (ou seja, a saída do programa alvo dada a entrada) para a saída realizada produzida pelo programa amostrado, nosso método lida efetivamente com a extrema esparsidade de recompensas na síntese de programas. Aplicando o CodeIt ao conjunto de dados ARC, demonstramos que o replay retrospectivo priorizado, juntamente com pré-treinamento e aumento de dados, leva a uma generalização intertarefa bem-sucedida. O CodeIt é a primeira abordagem neuro-simbólica que escala para o conjunto completo de dados de avaliação do ARC. Nosso método resolve 15% das tarefas de avaliação do ARC, alcançando desempenho de ponta e superando as linhas de base neurais e simbólicas existentes.
Gerar áudio estéreo de longa duração a 44,1 kHz a partir de prompts de texto pode ser computacionalmente exigente. Além disso, a maioria dos trabalhos anteriores não aborda o fato de que música e efeitos sonoros variam naturalmente em sua duração. Nossa pesquisa se concentra na geração eficiente de música e sons estéreo de longa duração e comprimento variável a 44,1 kHz usando prompts de texto com um modelo generativo. O Stable Audio é baseado em difusão latente, com seu latente definido por um autoencoder variacional totalmente convolucional. Ele é condicionado por prompts de texto, bem como por embeddings de tempo, permitindo um controle refinado tanto sobre o conteúdo quanto sobre a duração da música e sons gerados. O Stable Audio é capaz de renderizar sinais estéreo de até 95 segundos a 44,1 kHz em 8 segundos em uma GPU A100. Apesar de sua eficiência computacional e inferência rápida, ele é um dos melhores em dois benchmarks públicos de texto-para-música e -áudio e, diferentemente dos modelos state-of-the-art, pode gerar música com estrutura e sons estéreo.
Neste artigo, apresentamos um método inovador que reduz a latência de inferência de modelos durante a implantação distribuída de Modelos de Linguagem de Grande Escala (LLMs). Nossa contribuição é um esquema de implantação de inferência otimizado que aborda as limitações atuais dos kernels de quantização state-of-the-art quando usados em conjunto com Paralelismo de Tensores (TP). Nosso método preserva a localidade dos dados nos padrões de acesso à memória da GPU e explora conhecimento a priori do TP para reduzir a comunicação global. Demonstramos um aumento de velocidade de até 1,81x em relação aos métodos existentes para o Llama-70B e de até 1,78x para os tamanhos de problemas da camada MLP do Granite-20B da IBM WatsonX em sistemas NVIDIA DGX A100 e H100, para uma variedade de configurações de TP.
A esparsidade estruturada N:M tem atraído interesse significativo devido ao seu custo computacional relativamente modesto e à melhoria de eficiência. Além disso, essa forma de esparsidade é bastante atraente para reduzir a pegada de memória, graças à sua representação de baixo custo. Houve esforços para desenvolver métodos de treinamento para esparsidade estruturada N:M, que se concentram principalmente em regiões de baixa esparsidade (∼50%). No entanto, o desempenho dos modelos treinados com essas abordagens tende a diminuir quando confrontados com regiões de alta esparsidade (>80%). Neste trabalho, estudamos a eficácia das técnicas existentes de treinamento esparso em regiões de alta esparsidade e argumentamos que esses métodos falham em manter a qualidade do modelo em níveis comparáveis às regiões de baixa esparsidade. Demonstramos que o fator significativo que contribui para essa disparidade é a presença de níveis elevados de ruído induzido nas magnitudes dos gradientes. Para mitigar esse efeito indesejável, empregamos mecanismos de decaimento para restringir progressivamente o fluxo de gradientes em direção aos elementos podados. Nossa abordagem melhora a qualidade do modelo em até 2% e 5% em modelos de visão e linguagem, respectivamente, no regime de alta esparsidade. Também avaliamos a relação entre a precisão do modelo e o custo computacional de treinamento em termos de FLOPs. Com o mesmo número de FLOPs de treinamento, nosso método apresenta um desempenho superior em comparação com as técnicas convencionais de treinamento esparso, exibindo uma melhoria de precisão de até 2%. O código-fonte está disponível em https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.