Artigos de pesquisa em IA selecionados diariamente com traduções
Nos últimos anos, testemunhamos um rápido desenvolvimento dos grandes modelos de linguagem (LLMs). Apesar da forte capacidade em muitas tarefas de compreensão de linguagem, o pesado fardo computacional restringe amplamente a aplicação dos LLMs, especialmente quando é necessário implantá-los em dispositivos de borda. Neste artigo, propomos um algoritmo de adaptação de baixo posto com consciência de quantização (QA-LoRA). A motivação reside nos graus desequilibrados de liberdade da quantização e da adaptação, e a solução é usar operadores por grupo, que aumentam o grau de liberdade da quantização enquanto diminuem o da adaptação. O QA-LoRA é facilmente implementado com poucas linhas de código e equipa o LoRA original com duas habilidades: (i) durante o ajuste fino, os pesos do LLM são quantizados (por exemplo, em INT4) para reduzir o uso de tempo e memória; (ii) após o ajuste fino, o LLM e os pesos auxiliares são naturalmente integrados em um modelo quantizado sem perda de precisão. Aplicamos o QA-LoRA às famílias de modelos LLaMA e LLaMA2 e validamos sua eficácia em diferentes conjuntos de dados de ajuste fino e cenários subsequentes. O código estará disponível em https://github.com/yuhuixu1993/qa-lora.
Este trabalho tem como objetivo aprender um modelo generativo de texto-para-vídeo (T2V) de alta qualidade, aproveitando um modelo pré-treinado de texto-para-imagem (T2I) como base. É uma tarefa altamente desejável, porém desafiadora, simultaneamente a) realizar a síntese de vídeos visualmente realistas e temporalmente coerentes, enquanto b) preserva a forte natureza criativa de geração do modelo T2I pré-treinado. Para isso, propomos o LaVie, um framework integrado de geração de vídeo que opera em modelos de difusão latente de vídeo em cascata, compreendendo um modelo base T2V, um modelo de interpolação temporal e um modelo de super-resolução de vídeo. Nossas principais percepções são duas: 1) Revelamos que a incorporação de auto-atenções temporais simples, juntamente com codificação posicional rotativa, captura adequadamente as correlações temporais inerentes aos dados de vídeo. 2) Além disso, validamos que o processo de ajuste fino conjunto de imagem-vídeo desempenha um papel fundamental na produção de resultados de alta qualidade e criativos. Para aprimorar o desempenho do LaVie, contribuímos com um conjunto de dados de vídeo abrangente e diversificado chamado Vimeo25M, composto por 25 milhões de pares texto-vídeo que priorizam qualidade, diversidade e apelo estético. Experimentos extensivos demonstram que o LaVie alcança desempenho de ponta tanto quantitativa quanto qualitativamente. Além disso, mostramos a versatilidade dos modelos LaVie pré-treinados em várias aplicações de geração de vídeos longos e síntese de vídeos personalizados.
A computação em um modelo de linguagem grande (LLM) baseado em Transformer típico pode ser caracterizada pelo tamanho do lote, dimensão oculta, número de camadas e comprimento da sequência. Até agora, os trabalhos de sistema para acelerar o treinamento de LLMs têm se concentrado nas três primeiras dimensões: paralelismo de dados para o tamanho do lote, paralelismo tensorial para o tamanho oculto e paralelismo de pipeline para a profundidade do modelo ou camadas. Essas formas amplamente estudadas de paralelismo não são direcionadas ou otimizadas para modelos Transformer de sequência longa. Dadas as necessidades práticas de aplicação para LLMs de sequência longa, novas atenções estão sendo voltadas para o paralelismo de sequência. No entanto, os trabalhos existentes em paralelismo de sequência são limitados pela ineficiência de comunicação-memória, restringindo sua escalabilidade para modelos grandes de sequência longa. Neste trabalho, apresentamos o DeepSpeed-Ulysses, uma metodologia nova, portátil e eficaz para permitir o treinamento altamente eficiente e escalável de LLMs com comprimento de sequência extremamente longo. O DeepSpeed-Ulysses, em sua essência, particiona os dados de entrada ao longo da dimensão da sequência e emprega uma comunicação coletiva all-to-all eficiente para o cálculo de atenção. A análise teórica de comunicação mostra que, enquanto outros métodos incorrem em sobrecarga de comunicação à medida que o comprimento da sequência aumenta, o DeepSpeed-Ulysses mantém um volume de comunicação constante quando o comprimento da sequência e os dispositivos de computação são aumentados proporcionalmente. Além disso, avaliações experimentais mostram que o DeepSpeed-Ulysses treina 2,5 vezes mais rápido com um comprimento de sequência 4 vezes maior do que o método de linha de base SOTA existente.
Os recentes avanços em métodos de aprendizado profundo, como LLMs e modelos de difusão, criaram a necessidade de métodos de quantização aprimorados que possam atender às demandas computacionais dessas arquiteturas modernas, mantendo a precisão. Com esse objetivo, estudamos as vantagens dos formatos de dados FP8 para quantização pós-treinamento em 75 arquiteturas de rede únicas, abrangendo uma ampla gama de tarefas, incluindo tradução automática, modelagem de linguagem, geração de texto, classificação de imagens, geração e segmentação. Examinamos três representações diferentes de FP8 (E5M2, E4M3 e E3M4) para estudar os efeitos de diferentes graus de compromisso entre faixa dinâmica e precisão na acurácia do modelo. Com base em nosso extenso estudo, desenvolvemos um fluxo de trabalho de quantização que se generaliza para diferentes arquiteturas de rede. Nossos resultados empíricos mostram que os formatos FP8 superam o INT8 em múltiplos aspectos, incluindo cobertura de carga de trabalho (92,64% vs. 65,87%), acurácia do modelo e adequação para uma gama mais ampla de operações. Além disso, nossos achados sugerem que o E4M3 é mais adequado para modelos de PLN, enquanto o E3M4 tem um desempenho ligeiramente melhor que o E4M3 em tarefas de visão computacional. O código está publicamente disponível no Intel Neural Compressor: https://github.com/intel/neural-compressor.
Investigamos o comportamento interno de Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers quando geram textos factualmente incorretos. Propomos modelar consultas factuais como Problemas de Satisfação de Restrições e utilizamos esse framework para investigar como o modelo interage internamente com restrições factuais. Especificamente, descobrimos uma forte relação positiva entre a atenção do modelo aos tokens de restrição e a precisão factual de suas respostas. Em nosso conjunto de 11 datasets com mais de 40.000 prompts, estudamos a tarefa de prever erros factuais com a família Llama-2 em todas as escalas (7B, 13B, 70B). Propomos a Sonda SAT, um método que investiga padrões de autoatenção, capaz de prever a satisfação de restrições e erros factuais, permitindo a identificação precoce de erros. A abordagem e os resultados demonstram como o entendimento mecanicista da factualidade em LLMs pode aumentar a confiabilidade.