HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

7 papers found

OpenELM: Uma Família Eficiente de Modelos de Linguagem com Framework de Treinamento e Inferência de Código Aberto
OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

Apr 22

BySachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari

127

A reprodutibilidade e transparência dos grandes modelos de linguagem são cruciais para o avanço da pesquisa aberta, garantindo a confiabilidade dos resultados e permitindo investigações sobre vieses nos dados e modelos, bem como potenciais riscos. Para isso, lançamos o OpenELM, um modelo de linguagem aberto de última geração. O OpenELM utiliza uma estratégia de dimensionamento por camadas para alocar parâmetros de forma eficiente em cada camada do modelo transformer, resultando em maior precisão. Por exemplo, com um orçamento de aproximadamente um bilhão de parâmetros, o OpenELM exibe uma melhoria de 2,36% na precisão em comparação com o OLMo, enquanto requer 2 vezes menos tokens de pré-treinamento. Diferentemente de práticas anteriores que forneciam apenas os pesos do modelo e o código de inferência, além de pré-treinar em conjuntos de dados privados, nosso lançamento inclui o framework completo para treinamento e avaliação do modelo de linguagem em conjuntos de dados publicamente disponíveis, incluindo logs de treinamento, múltiplos checkpoints e configurações de pré-treinamento. Também disponibilizamos código para converter modelos para a biblioteca MLX, permitindo inferência e ajuste fino em dispositivos Apple. Este lançamento abrangente visa capacitar e fortalecer a comunidade de pesquisa aberta, pavimentando o caminho para futuras iniciativas de pesquisa aberta. Nosso código-fonte, juntamente com os pesos do modelo pré-treinado e receitas de treinamento, está disponível em https://github.com/apple/corenet. Além disso, os modelos \model podem ser encontrados no HuggingFace em: https://huggingface.co/apple/OpenELM.

Múltiplas Cabeças de Mistura de Especialistas
Multi-Head Mixture-of-Experts

Apr 23

ByXun Wu, Shaohan Huang, Wenhui Wang, Furu Wei

Misturas Especializadas Escassas (SMoE, do inglês Sparse Mixtures of Experts) escalam a capacidade do modelo sem aumentos significativos nos custos de treinamento e inferência, mas apresentam dois problemas principais: (1) Baixa ativação de especialistas, onde apenas um pequeno subconjunto de especialistas é ativado para otimização. (2) Falta de capacidade analítica refinada para múltiplos conceitos semânticos dentro de tokens individuais. Propomos a Mistura de Especialistas com Múltiplas Cabeças (MH-MoE, do inglês Multi-Head Mixture-of-Experts), que emprega um mecanismo de múltiplas cabeças para dividir cada token em vários sub-tokens. Esses sub-tokens são então atribuídos e processados por um conjunto diversificado de especialistas em paralelo, e reintegrados de forma contínua ao formato original do token. O mecanismo de múltiplas cabeças permite que o modelo atenda coletivamente a informações de diversos espaços de representação dentro de diferentes especialistas, enquanto aumenta significativamente a ativação de especialistas, aprofundando assim a compreensão do contexto e mitigando o overfitting. Além disso, nosso MH-MoE é simples de implementar e desacoplado de outros métodos de otimização SMoE, facilitando sua integração com outros modelos SMoE para melhorar o desempenho. Resultados experimentais extensivos em três tarefas: modelagem de linguagem focada em inglês, modelagem de linguagem multilíngue e modelagem multimodial mascarada, demonstram a eficácia do MH-MoE.

Relatório Técnico do Pegasus-v1
Pegasus-v1 Technical Report

Apr 23

ByRaehyuk Jung, Hyojun Go, Jaehyuk Yi, Jiho Jang, Daniel Kim, Jay Suh, Aiden Lee, Cooper Han, Jae Lee, Jeff Kim, Jin-Young Kim, Junwan Kim, Kyle Park, Lucas Lee, Mars Ha, Minjoon Seo, Abraham Jo, Ed Park, Hassan Kianinejad, SJ Kim, Tony Moon, Wade Jeong, Andrei Popescu, Esther Kim, EK Yoon, Genie Heo, Henry Choi, Jenna Kang, Kevin Han, Noah Seo, Sunny Nguyen, Ryan Won, Yeonhoo Park, Anthony Giuliani, Dave Chung, Hans Yoon, James Le, Jenny Ahn, June Lee, Maninder Saini, Meredith Sanders, Soyoung Lee, Sue Kim, Travis Couture

Este relatório técnico apresenta o Pegasus-1, um modelo de linguagem multimodal especializado na compreensão e interação com conteúdo de vídeo por meio de linguagem natural. O Pegasus-1 foi projetado para enfrentar os desafios únicos apresentados por dados de vídeo, como a interpretação de informações espaço-temporais, a fim de oferecer uma compreensão detalhada de conteúdos de vídeo de diversas durações. Este relatório técnico descreve a arquitetura do Pegasus-1, suas estratégias de treinamento e seu desempenho em benchmarks de conversação em vídeo, questionamento de vídeo em zero-shot e sumarização de vídeo. Também exploramos as características qualitativas do Pegasus-1, demonstrando suas capacidades e limitações, com o objetivo de fornecer aos leitores uma visão equilibrada de seu estado atual e de sua direção futura.

FlashSpeech: Síntese de Fala Eficiente com Zero-Shot
FlashSpeech: Efficient Zero-Shot Speech Synthesis

Apr 23

ByZhen Ye, Zeqian Ju, Haohe Liu, Xu Tan, Jianyi Chen, Yiwen Lu, Peiwen Sun, Jiahao Pan, Weizhen Bian, Shulin He, Qifeng Liu, Yike Guo, Wei Xue

Os recentes avanços na síntese de fala em grande escala com zero-shot têm sido impulsionados significativamente por modelos de linguagem e modelos de difusão. No entanto, o processo de geração de ambos os métodos é lento e computacionalmente intensivo. A síntese eficiente de fala utilizando um orçamento computacional menor para alcançar qualidade comparável a trabalhos anteriores continua sendo um desafio significativo. Neste artigo, apresentamos o FlashSpeech, um sistema de síntese de fala em grande escala com zero-shot que possui aproximadamente 5% do tempo de inferência em comparação com trabalhos anteriores. O FlashSpeech é construído sobre o modelo de consistência latente e aplica uma nova abordagem de treinamento de consistência adversarial que pode ser treinado do zero sem a necessidade de um modelo de difusão pré-treinado como professor. Além disso, um novo módulo gerador de prosódia aumenta a diversidade da prosódia, tornando o ritmo da fala mais natural. Os processos de geração do FlashSpeech podem ser alcançados de forma eficiente com um ou dois passos de amostragem, mantendo alta qualidade de áudio e alta similaridade com o prompt de áudio para geração de fala zero-shot. Nossos resultados experimentais demonstram o desempenho superior do FlashSpeech. Notavelmente, o FlashSpeech pode ser cerca de 20 vezes mais rápido do que outros sistemas de síntese de fala zero-shot, mantendo desempenho comparável em termos de qualidade de voz e similaridade. Além disso, o FlashSpeech demonstra sua versatilidade ao realizar eficientemente tarefas como conversão de voz, edição de fala e amostragem diversificada de fala. Amostras de áudio podem ser encontradas em https://flashspeech.github.io/.

SnapKV: O LLM Sabe o Que Você Está Procurando Antes da Geração
SnapKV: LLM Knows What You are Looking for Before Generation

Apr 22

ByYuhong Li, Yingbing Huang, Bowen Yang, Bharat Venkitesh, Acyr Locatelli, Hanchen Ye, Tianle Cai, Patrick Lewis, Deming Chen

Os Modelos de Linguagem de Grande Escala (LLMs) têm feito progressos notáveis no processamento de contextos extensos, com o cache Chave-Valor (KV) desempenhando um papel vital na melhoria de seu desempenho. No entanto, o crescimento do cache KV em resposta ao aumento do comprimento da entrada apresenta desafios para a eficiência de memória e tempo. Para resolver esse problema, este artigo introduz o SnapKV, uma abordagem inovadora e livre de ajuste fino que minimiza eficientemente o tamanho do cache KV enquanto ainda oferece desempenho comparável em aplicações do mundo real. Descobrimos que cada cabeça de atenção no modelo consistentemente se concentra em características específicas de atenção do prompt durante a geração. Enquanto isso, esse padrão robusto pode ser obtido a partir de uma janela de `observação' localizada no final dos prompts. Com base nessa percepção, o SnapKV comprime automaticamente os caches KV selecionando posições importantes agrupadas de KV para cada cabeça de atenção. Nossa abordagem reduz significativamente a sobrecarga computacional crescente e a pegada de memória ao processar sequências de entrada longas. Especificamente, o SnapKV alcança uma velocidade de decodificação consistente com um aumento de 3,6x na velocidade de geração e uma melhoria de 8,2x na eficiência de memória em comparação com a linha de base ao processar entradas de 16K tokens. Ao mesmo tempo, mantém um desempenho comparável aos modelos de linha de base em 16 conjuntos de dados de sequências longas. Além disso, o SnapKV pode processar até 380K tokens de contexto em uma única GPU A100-80GB usando a implementação do HuggingFace com pequenas alterações, exibindo apenas uma queda de precisão insignificante no teste Needle-in-a-Haystack. Estudos abrangentes adicionais sugerem o potencial do SnapKV para aplicações práticas.

Alinhe Seus Passos: Otimizando Agendamentos de Amostragem em Modelos de Difusão
Align Your Steps: Optimizing Sampling Schedules in Diffusion Models

Apr 22

ByAmirmojtaba Sabour, Sanja Fidler, Karsten Kreis

Modelos de difusão (DMs) estabeleceram-se como a abordagem de modelagem generativa mais avançada no domínio visual e além. Uma desvantagem crucial dos DMs é sua velocidade lenta de amostragem, que depende de muitas avaliações sequenciais de funções através de grandes redes neurais. Amostrar a partir de DMs pode ser visto como resolver uma equação diferencial por meio de um conjunto discretizado de níveis de ruído conhecido como cronograma de amostragem. Embora trabalhos anteriores tenham se concentrado principalmente em derivar solucionadores eficientes, pouca atenção foi dada à busca de cronogramas de amostragem ótimos, e toda a literatura depende de heurísticas manuais. Neste trabalho, pela primeira vez, propomos uma abordagem geral e fundamentada para otimizar os cronogramas de amostragem de DMs visando saídas de alta qualidade, chamada Align Your Steps. Aproveitamos métodos do cálculo estocástico e encontramos cronogramas ótimos específicos para diferentes solucionadores, DMs treinados e conjuntos de dados. Avaliamos nossa nova abordagem em vários benchmarks de síntese de imagens, vídeos e dados bidimensionais simples, utilizando uma variedade de amostradores diferentes, e observamos que nossos cronogramas otimizados superam os cronogramas manuais anteriores em quase todos os experimentos. Nosso método demonstra o potencial inexplorado da otimização de cronogramas de amostragem, especialmente no regime de síntese com poucos passos.

Transformadores Podem Representar Modelos de Linguagem n-gram
Transformers Can Represent n-gram Language Models

Apr 23

ByAnej Svete, Ryan Cotterell

Muitos trabalhos existentes analisaram as capacidades da arquitetura transformer descrevendo sua capacidade de representação com modelos formais de computação. No entanto, o foco até agora tem sido analisar a arquitetura em termos de aceitação de linguagem. Argumentamos que este é um problema inadequado no estudo de modelos de linguagem (LMs), que são, por definição, distribuições de probabilidade sobre cadeias de caracteres. Neste artigo, focamos na relação entre LMs baseados em transformers e LMs n-gram, uma classe simples e historicamente relevante de modelos de linguagem. Mostramos que LMs baseados em transformers que utilizam mecanismos de atenção rígida ou esparsa podem representar exatamente qualquer LM n-gram, fornecendo-nos um limite inferior concreto sobre sua capacidade de representação probabilística. Isso representa um primeiro passo para entender os mecanismos que LMs baseados em transformers podem usar para representar distribuições de probabilidade sobre cadeias de caracteres.

SnapKV: O LLM Sabe o Que Você Está Procurando Antes da Geração
SnapKV: LLM Knows What You are Looking for Before Generation

Apr 22

ByYuhong Li, Yingbing Huang, Bowen Yang, Bharat Venkitesh, Acyr Locatelli, Hanchen Ye, Tianle Cai, Patrick Lewis, Deming Chen