HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

11 papers found

Mixtral de Especialistas
Mixtral of Experts

Jan 8

ByAlbert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed

160

Apresentamos o Mixtral 8x7B, um modelo de linguagem Sparse Mixture of Experts (SMoE). O Mixtral possui a mesma arquitetura do Mistral 7B, com a diferença de que cada camada é composta por 8 blocos feedforward (ou seja, especialistas). Para cada token, em cada camada, uma rede roteadora seleciona dois especialistas para processar o estado atual e combinar suas saídas. Embora cada token veja apenas dois especialistas, os especialistas selecionados podem ser diferentes a cada passo de tempo. Como resultado, cada token tem acesso a 47 bilhões de parâmetros, mas utiliza apenas 13 bilhões de parâmetros ativos durante a inferência. O Mixtral foi treinado com um contexto de 32 mil tokens e supera ou iguala o Llama 2 70B e o GPT-3.5 em todos os benchmarks avaliados. Em particular, o Mixtral supera amplamente o Llama 2 70B em benchmarks de matemática, geração de código e multilingue. Também fornecemos um modelo ajustado para seguir instruções, o Mixtral 8x7B - Instruct, que supera o GPT-3.5 Turbo, Claude-2.1, Gemini Pro e o modelo de chat Llama 2 70B em benchmarks humanos. Tanto o modelo base quanto o modelo de instruções são lançados sob a licença Apache 2.0.

MoE-Mamba: Modelos de Espaço de Estados Seletivos Eficientes com Mistura de Especialistas
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Jan 8

ByMaciej Pióro, Kamil Ciebiera, Krystian Król, Jan Ludziejewski, Sebastian Jaszczur

Os Modelos de Espaço de Estados (SSMs) tornaram-se concorrentes sérios no campo de modelagem sequencial, desafiando a dominância dos Transformers. Ao mesmo tempo, a Mistura de Especialistas (MoE) melhorou significativamente os LLMs baseados em Transformers, incluindo modelos open-source recentes de última geração. Propomos que, para desbloquear o potencial dos SSMs em termos de escalabilidade, eles devem ser combinados com MoE. Demonstramos isso no Mamba, um modelo recente baseado em SSM que alcança um desempenho notável, semelhante ao dos Transformers. Nosso modelo, MoE-Mamba, supera tanto o Mamba quanto o Transformer-MoE. Em particular, o MoE-Mamba atinge o mesmo desempenho do Mamba em 2,2 vezes menos etapas de treinamento, mantendo os ganhos de desempenho de inferência do Mamba em relação ao Transformer.

Misturar é Tudo o que Você Precisa: Alternativa Mais Barata e Melhor aos LLMs com Trilhões de Parâmetros
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

Jan 4

ByXiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp

Na pesquisa de IA conversacional, há uma tendência perceptível em direção ao desenvolvimento de modelos com um número maior de parâmetros, exemplificados por modelos como o ChatGPT. Embora esses modelos expansivos tendam a gerar respostas de chat cada vez melhores, eles demandam recursos computacionais e de memória significativos. Este estudo explora uma questão pertinente: Uma combinação de modelos menores pode, de forma colaborativa, alcançar desempenho comparável ou superior ao de um único modelo grande? Introduzimos uma abordagem denominada "blending", um método simples, porém eficaz, de integrar múltiplas IAs de chat. Nossas evidências empíricas sugerem que, quando modelos menores específicos são combinados de forma sinérgica, eles podem potencialmente superar ou igualar as capacidades de contrapartidas muito maiores. Por exemplo, a integração de apenas três modelos de tamanho moderado (6B/13B parâmetros) pode rivalizar ou até superar as métricas de desempenho de um modelo substancialmente maior, como o ChatGPT (175B+ parâmetros). Essa hipótese é rigorosamente testada usando metodologias de teste A/B com uma grande base de usuários na plataforma de pesquisa Chai ao longo de trinta dias. Os resultados destacam o potencial da estratégia de "blending" como uma abordagem viável para melhorar a eficácia de IAs de chat sem um aumento correspondente nas demandas computacionais.

Subindo de 4K para 400K: Expandindo o Contexto de LLMs com o Activation Beacon
Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

Jan 7

ByPeitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou

A utilização de contextos longos representa um grande desafio para modelos de linguagem de grande escala devido ao comprimento limitado de sua janela de contexto. Embora a janela de contexto possa ser estendida por meio de ajuste fino, isso resultará em um custo considerável tanto no tempo de treinamento quanto no de inferência, além de impactar negativamente as capacidades originais do LLM. Neste trabalho, propomos o Activation Beacon, que condensa as ativações brutas do LLM em formas mais compactas, permitindo que ele perceba um contexto muito mais longo com uma janela de contexto limitada. O Activation Beacon é introduzido como um módulo plug-and-play para o LLM. Ele preserva totalmente a capacidade original do LLM em contextos curtos, ao mesmo tempo em que estende a nova capacidade de processar contextos mais longos. Além disso, ele funciona com janelas deslizantes curtas para processar o contexto longo, alcançando uma eficiência competitiva de memória e tempo tanto no treinamento quanto na inferência. O Activation Beacon é aprendido pela tarefa de autoregressão condicionada a uma mistura de beacons com taxas de condensação diversificadas. Graças a esse tratamento, ele pode ser treinado de forma eficiente apenas com dados de sequências curtas em apenas 10 mil passos, consumindo menos de 9 horas em uma única máquina com 8 GPUs A800. Os estudos experimentais mostram que o Activation Beacon é capaz de estender o comprimento de contexto do Llama-2-7B em 100 vezes (de 4K para 400K), ao mesmo tempo em que alcança um resultado superior em tarefas de geração e compreensão de contexto longo. Nosso modelo e código estarão disponíveis no repositório BGE.

O GPT-4V(ision) é um Avaliador Alinhado com Humanos para Geração de Texto para 3D.
GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

Jan 8

ByTong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein

Apesar dos avanços recentes nos métodos generativos de texto para 3D, há uma ausência notável de métricas de avaliação confiáveis. As métricas existentes geralmente se concentram em um único critério, como o quão bem o ativo se alinha com o texto de entrada. Essas métricas carecem de flexibilidade para generalizar diferentes critérios de avaliação e podem não estar bem alinhadas com as preferências humanas. Realizar estudos de preferência do usuário é uma alternativa que oferece tanto adaptabilidade quanto resultados alinhados com a percepção humana. No entanto, os estudos com usuários podem ser muito caros para escalar. Este artigo apresenta uma métrica de avaliação automática, versátil e alinhada com a percepção humana para modelos generativos de texto para 3D. Para isso, primeiro desenvolvemos um gerador de prompts usando GPT-4V para criar prompts de avaliação, que servem como entrada para comparar modelos de texto para 3D. Além disso, projetamos um método que instrui o GPT-4V a comparar dois ativos 3D de acordo com critérios definidos pelo usuário. Por fim, usamos os resultados dessas comparações pareadas para atribuir a esses modelos classificações Elo. Os resultados experimentais sugerem que nossa métrica está fortemente alinhada com a preferência humana em diferentes critérios de avaliação.

DiarizationLM: Pós-processamento de Diarização de Locutores com Modelos de Linguagem de Grande Escala
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

Jan 7

ByQuan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao

Neste artigo, apresentamos o DiarizationLM, um framework que utiliza grandes modelos de linguagem (LLM) para pós-processar as saídas de um sistema de diarização de falantes. Diversos objetivos podem ser alcançados com o framework proposto, como melhorar a legibilidade da transcrição diarizada ou reduzir a taxa de erro de diarização de palavras (WDER, na sigla em inglês). Neste framework, as saídas dos sistemas de reconhecimento automático de fala (ASR) e de diarização de falantes são representadas em um formato textual compacto, que é incluído no prompt de um LLM, opcionalmente ajustado. As saídas do LLM podem ser usadas como os resultados refinados de diarização com o aprimoramento desejado. Como uma etapa de pós-processamento, este framework pode ser facilmente aplicado a qualquer sistema de ASR e diarização de falantes disponível no mercado, sem a necessidade de retreinar os componentes existentes. Nossos experimentos mostram que um modelo PaLM 2-S ajustado pode reduzir o WDER em 25,9% relativo no conjunto de dados de conversas telefônicas Fisher e em 31% relativo no conjunto de dados Callhome English.

AST-T5: Pré-treinamento com Consciência Estrutural para Geração e Compreensão de Código
AST-T5: Structure-Aware Pretraining for Code Generation and Understanding

Jan 5

ByLinyuan Gong, Mostafa Elhoushi, Alvin Cheung

Modelos de linguagem de grande escala (LLMs) têm feito avanços significativos em tarefas relacionadas a código, mas muitos LLMs tratam o código como sequências simples, negligenciando sua natureza estruturada. Apresentamos o AST-T5, um novo paradigma de pré-treinamento que aproveita a Árvore de Sintaxe Abstrata (AST) para aprimorar a geração, transpilação e compreensão de código. Usando programação dinâmica, nossa Segmentação Consciente da AST preserva a estrutura do código, enquanto nosso objetivo de Corrupção de Span Consciente da AST capacita o modelo a reconstruir várias estruturas de código. Diferente de outros modelos, o AST-T5 evita análises de programa complexas ou mudanças arquitetônicas, integrando-se perfeitamente com qualquer Transformer de codificador-decodificador. Avaliações mostram que o AST-T5 supera consistentemente LMs de tamanho similar em várias tarefas relacionadas a código. A consciência estrutural torna o AST-T5 particularmente poderoso em tarefas de código-para-código, superando o CodeT5 em 2 pontos na pontuação de correspondência exata para a tarefa Bugs2Fix e em 3 pontos na pontuação de correspondência exata para Transpilação Java-C# no CodeXGLUE. Nosso código e modelo estão disponíveis publicamente em https://github.com/gonglinyuan/ast_t5.

CRUXEval: Um Benchmark para Raciocínio, Compreensão e Execução de Código
CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Jan 5

ByAlex Gu, Baptiste Rozière, Hugh Leather, Armando Solar-Lezama, Gabriel Synnaeve, Sida I. Wang

Apresentamos o CRUXEval (Avaliação de Raciocínio, Compreensão e Execução de Código), um benchmark composto por 800 funções em Python (3-13 linhas). Cada função vem com um par entrada-saída, resultando em duas tarefas naturais: previsão de entrada e previsão de saída. Primeiro, propomos uma receita genérica para gerar nosso benchmark de execução, que pode ser usada para criar variações futuras do benchmark. Segundo, avaliamos vinte modelos de código em nosso benchmark e descobrimos que muitos modelos recentes com pontuações altas no HumanEval não mostram as mesmas melhorias em nosso benchmark. Terceiro, mostramos que esquemas simples de CoT (Chain of Thought) e fine-tuning podem melhorar o desempenho em nosso benchmark, mas ainda estão longe de resolvê-lo. A melhor configuração, GPT-4 com Chain of Thought (CoT), alcança um pass@1 de 75% e 81% na previsão de entrada e saída, respectivamente. Em contraste, o Code Llama 34B alcança um pass@1 de 50% e 46% na previsão de entrada e saída, destacando a lacuna entre modelos de código aberto e fechado. Como nenhum modelo está próximo de dominar o CRUXEval, fornecemos exemplos de falhas consistentes do GPT-4 em programas simples como uma lente para entender suas capacidades de raciocínio de código e áreas para melhoria.

O Seu Modelo Pré-treinado Melhorou? Uma Abordagem Baseada em Posterior Multi-head
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach

Jan 2

ByPrince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang, Wei Zhang

O surgimento de modelos pré-treinados impactou significativamente desde o Processamento de Linguagem Natural (PLN) e Visão Computacional até conjuntos de dados relacionais. Tradicionalmente, esses modelos são avaliados por meio de tarefas subsequentes ajustadas (fine-tuning). No entanto, isso levanta a questão de como avaliar esses modelos de forma mais eficiente e eficaz. Neste estudo, exploramos uma abordagem inovadora em que utilizamos as meta características associadas a cada entidade como uma fonte de conhecimento do mundo real e empregamos as representações de entidades dos modelos. Propomos usar a consistência entre essas representações e as meta características como uma métrica para avaliar modelos pré-treinados. A eficácia do nosso método é demonstrada em vários domínios, incluindo modelos com conjuntos de dados relacionais, modelos de linguagem de grande escala e modelos de imagens.

AGG: Gaussianas Gerativas Amortizadas em 3D para Conversão de Imagem Única em 3D
AGG: Amortized Generative 3D Gaussians for Single Image to 3D

Jan 8

ByDejia Xu, Ye Yuan, Morteza Mardani, Sifei Liu, Jiaming Song, Zhangyang Wang, Arash Vahdat

Diante da crescente necessidade de pipelines automáticos de criação de conteúdo 3D, diversas representações 3D têm sido estudadas para gerar objetos 3D a partir de uma única imagem. Devido à sua eficiência superior em renderização, modelos baseados em *splatting* de Gaussianas 3D têm se destacado recentemente tanto na reconstrução quanto na geração de conteúdo 3D. Abordagens de *splatting* de Gaussianas 3D para geração de imagens em 3D são frequentemente baseadas em otimização, exigindo várias etapas computacionalmente custosas de destilação de pontuação. Para superar esses desafios, introduzimos um framework de Gaussianas 3D Generativo Amortizado (AGG, *Amortized Generative 3D Gaussian*) que produz instantaneamente Gaussianas 3D a partir de uma única imagem, eliminando a necessidade de otimização por instância. Utilizando uma representação híbrida intermediária, o AGG decompõe a geração de localizações de Gaussianas 3D e outros atributos de aparência para otimização conjunta. Além disso, propomos um pipeline em cascata que primeiro gera uma representação grosseira dos dados 3D e, posteriormente, a aprimora com um módulo de super-resolução de Gaussianas 3D. Nosso método é avaliado em comparação com frameworks de Gaussianas 3D baseados em otimização e pipelines baseados em amostragem que utilizam outras representações 3D, onde o AGG demonstra capacidades competitivas de geração tanto qualitativa quanto quantitativamente, sendo várias ordens de magnitude mais rápido. Página do projeto: https://ir1d.github.io/AGG/

Relatório Técnico do TeleChat
TeleChat Technical Report

Jan 8

ByZihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang, Zhongjiang He, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan Wang, Xin Wang, Luwen Pu, Huihan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang, Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi, Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang, Shuangyong Song

Neste relatório técnico, apresentamos o TeleChat, uma coleção de modelos de linguagem de grande escala (LLMs) com parâmetros de 3 bilhões, 7 bilhões e 12 bilhões. Ele inclui modelos de linguagem pré-treinados, bem como modelos de chat ajustados que estão alinhados com as preferências humanas. O TeleChat é inicialmente pré-treinado em um extenso corpus contendo uma diversificada coleção de textos em inglês e chinês, incluindo trilhões de tokens. Posteriormente, o modelo passa por um ajuste fino para se alinhar às preferências humanas, seguindo uma metodologia detalhada que descrevemos. Avaliamos o desempenho do TeleChat em várias tarefas, incluindo compreensão de linguagem, matemática, raciocínio, geração de código e respostas a perguntas baseadas em conhecimento. Nossos resultados indicam que o TeleChat alcança um desempenho comparável a outros modelos de código aberto de tamanho similar em uma ampla gama de benchmarks públicos. Para apoiar pesquisas e aplicações futuras que utilizam LLMs, disponibilizamos para a comunidade pública os checkpoints dos modelos ajustados das variantes de 7B e 12B do TeleChat, juntamente com o código e uma parte dos nossos dados de pré-treinamento.