Artigos de pesquisa em IA selecionados diariamente com traduções
A reprodutibilidade e transparência dos grandes modelos de linguagem são cruciais para o avanço da pesquisa aberta, garantindo a confiabilidade dos resultados e permitindo investigações sobre vieses nos dados e modelos, bem como potenciais riscos. Para isso, lançamos o OpenELM, um modelo de linguagem aberto de última geração. O OpenELM utiliza uma estratégia de dimensionamento por camadas para alocar parâmetros de forma eficiente em cada camada do modelo transformer, resultando em maior precisão. Por exemplo, com um orçamento de aproximadamente um bilhão de parâmetros, o OpenELM exibe uma melhoria de 2,36% na precisão em comparação com o OLMo, enquanto requer 2 vezes menos tokens de pré-treinamento. Diferentemente de práticas anteriores que forneciam apenas os pesos do modelo e o código de inferência, além de pré-treinar em conjuntos de dados privados, nosso lançamento inclui o framework completo para treinamento e avaliação do modelo de linguagem em conjuntos de dados publicamente disponíveis, incluindo logs de treinamento, múltiplos checkpoints e configurações de pré-treinamento. Também disponibilizamos código para converter modelos para a biblioteca MLX, permitindo inferência e ajuste fino em dispositivos Apple. Este lançamento abrangente visa capacitar e fortalecer a comunidade de pesquisa aberta, pavimentando o caminho para futuras iniciativas de pesquisa aberta. Nosso código-fonte, juntamente com os pesos do modelo pré-treinado e receitas de treinamento, está disponível em https://github.com/apple/corenet. Além disso, os modelos \model podem ser encontrados no HuggingFace em: https://huggingface.co/apple/OpenELM.
Misturas Especializadas Escassas (SMoE, do inglês Sparse Mixtures of Experts) escalam a capacidade do modelo sem aumentos significativos nos custos de treinamento e inferência, mas apresentam dois problemas principais: (1) Baixa ativação de especialistas, onde apenas um pequeno subconjunto de especialistas é ativado para otimização. (2) Falta de capacidade analítica refinada para múltiplos conceitos semânticos dentro de tokens individuais. Propomos a Mistura de Especialistas com Múltiplas Cabeças (MH-MoE, do inglês Multi-Head Mixture-of-Experts), que emprega um mecanismo de múltiplas cabeças para dividir cada token em vários sub-tokens. Esses sub-tokens são então atribuídos e processados por um conjunto diversificado de especialistas em paralelo, e reintegrados de forma contínua ao formato original do token. O mecanismo de múltiplas cabeças permite que o modelo atenda coletivamente a informações de diversos espaços de representação dentro de diferentes especialistas, enquanto aumenta significativamente a ativação de especialistas, aprofundando assim a compreensão do contexto e mitigando o overfitting. Além disso, nosso MH-MoE é simples de implementar e desacoplado de outros métodos de otimização SMoE, facilitando sua integração com outros modelos SMoE para melhorar o desempenho. Resultados experimentais extensivos em três tarefas: modelagem de linguagem focada em inglês, modelagem de linguagem multilíngue e modelagem multimodial mascarada, demonstram a eficácia do MH-MoE.
Este relatório técnico apresenta o Pegasus-1, um modelo de linguagem multimodal especializado na compreensão e interação com conteúdo de vídeo por meio de linguagem natural. O Pegasus-1 foi projetado para enfrentar os desafios únicos apresentados por dados de vídeo, como a interpretação de informações espaço-temporais, a fim de oferecer uma compreensão detalhada de conteúdos de vídeo de diversas durações. Este relatório técnico descreve a arquitetura do Pegasus-1, suas estratégias de treinamento e seu desempenho em benchmarks de conversação em vídeo, questionamento de vídeo em zero-shot e sumarização de vídeo. Também exploramos as características qualitativas do Pegasus-1, demonstrando suas capacidades e limitações, com o objetivo de fornecer aos leitores uma visão equilibrada de seu estado atual e de sua direção futura.
Os recentes avanços na síntese de fala em grande escala com zero-shot têm sido impulsionados significativamente por modelos de linguagem e modelos de difusão. No entanto, o processo de geração de ambos os métodos é lento e computacionalmente intensivo. A síntese eficiente de fala utilizando um orçamento computacional menor para alcançar qualidade comparável a trabalhos anteriores continua sendo um desafio significativo. Neste artigo, apresentamos o FlashSpeech, um sistema de síntese de fala em grande escala com zero-shot que possui aproximadamente 5% do tempo de inferência em comparação com trabalhos anteriores. O FlashSpeech é construído sobre o modelo de consistência latente e aplica uma nova abordagem de treinamento de consistência adversarial que pode ser treinado do zero sem a necessidade de um modelo de difusão pré-treinado como professor. Além disso, um novo módulo gerador de prosódia aumenta a diversidade da prosódia, tornando o ritmo da fala mais natural. Os processos de geração do FlashSpeech podem ser alcançados de forma eficiente com um ou dois passos de amostragem, mantendo alta qualidade de áudio e alta similaridade com o prompt de áudio para geração de fala zero-shot. Nossos resultados experimentais demonstram o desempenho superior do FlashSpeech. Notavelmente, o FlashSpeech pode ser cerca de 20 vezes mais rápido do que outros sistemas de síntese de fala zero-shot, mantendo desempenho comparável em termos de qualidade de voz e similaridade. Além disso, o FlashSpeech demonstra sua versatilidade ao realizar eficientemente tarefas como conversão de voz, edição de fala e amostragem diversificada de fala. Amostras de áudio podem ser encontradas em https://flashspeech.github.io/.
Os Modelos de Linguagem de Grande Escala (LLMs) têm feito progressos notáveis no processamento de contextos extensos, com o cache Chave-Valor (KV) desempenhando um papel vital na melhoria de seu desempenho. No entanto, o crescimento do cache KV em resposta ao aumento do comprimento da entrada apresenta desafios para a eficiência de memória e tempo. Para resolver esse problema, este artigo introduz o SnapKV, uma abordagem inovadora e livre de ajuste fino que minimiza eficientemente o tamanho do cache KV enquanto ainda oferece desempenho comparável em aplicações do mundo real. Descobrimos que cada cabeça de atenção no modelo consistentemente se concentra em características específicas de atenção do prompt durante a geração. Enquanto isso, esse padrão robusto pode ser obtido a partir de uma janela de `observação' localizada no final dos prompts. Com base nessa percepção, o SnapKV comprime automaticamente os caches KV selecionando posições importantes agrupadas de KV para cada cabeça de atenção. Nossa abordagem reduz significativamente a sobrecarga computacional crescente e a pegada de memória ao processar sequências de entrada longas. Especificamente, o SnapKV alcança uma velocidade de decodificação consistente com um aumento de 3,6x na velocidade de geração e uma melhoria de 8,2x na eficiência de memória em comparação com a linha de base ao processar entradas de 16K tokens. Ao mesmo tempo, mantém um desempenho comparável aos modelos de linha de base em 16 conjuntos de dados de sequências longas. Além disso, o SnapKV pode processar até 380K tokens de contexto em uma única GPU A100-80GB usando a implementação do HuggingFace com pequenas alterações, exibindo apenas uma queda de precisão insignificante no teste Needle-in-a-Haystack. Estudos abrangentes adicionais sugerem o potencial do SnapKV para aplicações práticas.
Modelos de difusão (DMs) estabeleceram-se como a abordagem de modelagem generativa mais avançada no domínio visual e além. Uma desvantagem crucial dos DMs é sua velocidade lenta de amostragem, que depende de muitas avaliações sequenciais de funções através de grandes redes neurais. Amostrar a partir de DMs pode ser visto como resolver uma equação diferencial por meio de um conjunto discretizado de níveis de ruído conhecido como cronograma de amostragem. Embora trabalhos anteriores tenham se concentrado principalmente em derivar solucionadores eficientes, pouca atenção foi dada à busca de cronogramas de amostragem ótimos, e toda a literatura depende de heurísticas manuais. Neste trabalho, pela primeira vez, propomos uma abordagem geral e fundamentada para otimizar os cronogramas de amostragem de DMs visando saídas de alta qualidade, chamada Align Your Steps. Aproveitamos métodos do cálculo estocástico e encontramos cronogramas ótimos específicos para diferentes solucionadores, DMs treinados e conjuntos de dados. Avaliamos nossa nova abordagem em vários benchmarks de síntese de imagens, vídeos e dados bidimensionais simples, utilizando uma variedade de amostradores diferentes, e observamos que nossos cronogramas otimizados superam os cronogramas manuais anteriores em quase todos os experimentos. Nosso método demonstra o potencial inexplorado da otimização de cronogramas de amostragem, especialmente no regime de síntese com poucos passos.
Muitos trabalhos existentes analisaram as capacidades da arquitetura transformer descrevendo sua capacidade de representação com modelos formais de computação. No entanto, o foco até agora tem sido analisar a arquitetura em termos de aceitação de linguagem. Argumentamos que este é um problema inadequado no estudo de modelos de linguagem (LMs), que são, por definição, distribuições de probabilidade sobre cadeias de caracteres. Neste artigo, focamos na relação entre LMs baseados em transformers e LMs n-gram, uma classe simples e historicamente relevante de modelos de linguagem. Mostramos que LMs baseados em transformers que utilizam mecanismos de atenção rígida ou esparsa podem representar exatamente qualquer LM n-gram, fornecendo-nos um limite inferior concreto sobre sua capacidade de representação probabilística. Isso representa um primeiro passo para entender os mecanismos que LMs baseados em transformers podem usar para representar distribuições de probabilidade sobre cadeias de caracteres.