Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Mixtral 8x7B, um modelo de linguagem Sparse Mixture of Experts (SMoE). O Mixtral possui a mesma arquitetura do Mistral 7B, com a diferença de que cada camada é composta por 8 blocos feedforward (ou seja, especialistas). Para cada token, em cada camada, uma rede roteadora seleciona dois especialistas para processar o estado atual e combinar suas saídas. Embora cada token veja apenas dois especialistas, os especialistas selecionados podem ser diferentes a cada passo de tempo. Como resultado, cada token tem acesso a 47 bilhões de parâmetros, mas utiliza apenas 13 bilhões de parâmetros ativos durante a inferência. O Mixtral foi treinado com um contexto de 32 mil tokens e supera ou iguala o Llama 2 70B e o GPT-3.5 em todos os benchmarks avaliados. Em particular, o Mixtral supera amplamente o Llama 2 70B em benchmarks de matemática, geração de código e multilingue. Também fornecemos um modelo ajustado para seguir instruções, o Mixtral 8x7B - Instruct, que supera o GPT-3.5 Turbo, Claude-2.1, Gemini Pro e o modelo de chat Llama 2 70B em benchmarks humanos. Tanto o modelo base quanto o modelo de instruções são lançados sob a licença Apache 2.0.
Os Modelos de Espaço de Estados (SSMs) tornaram-se concorrentes sérios no campo de modelagem sequencial, desafiando a dominância dos Transformers. Ao mesmo tempo, a Mistura de Especialistas (MoE) melhorou significativamente os LLMs baseados em Transformers, incluindo modelos open-source recentes de última geração. Propomos que, para desbloquear o potencial dos SSMs em termos de escalabilidade, eles devem ser combinados com MoE. Demonstramos isso no Mamba, um modelo recente baseado em SSM que alcança um desempenho notável, semelhante ao dos Transformers. Nosso modelo, MoE-Mamba, supera tanto o Mamba quanto o Transformer-MoE. Em particular, o MoE-Mamba atinge o mesmo desempenho do Mamba em 2,2 vezes menos etapas de treinamento, mantendo os ganhos de desempenho de inferência do Mamba em relação ao Transformer.
Na pesquisa de IA conversacional, há uma tendência perceptível em direção ao desenvolvimento de modelos com um número maior de parâmetros, exemplificados por modelos como o ChatGPT. Embora esses modelos expansivos tendam a gerar respostas de chat cada vez melhores, eles demandam recursos computacionais e de memória significativos. Este estudo explora uma questão pertinente: Uma combinação de modelos menores pode, de forma colaborativa, alcançar desempenho comparável ou superior ao de um único modelo grande? Introduzimos uma abordagem denominada "blending", um método simples, porém eficaz, de integrar múltiplas IAs de chat. Nossas evidências empíricas sugerem que, quando modelos menores específicos são combinados de forma sinérgica, eles podem potencialmente superar ou igualar as capacidades de contrapartidas muito maiores. Por exemplo, a integração de apenas três modelos de tamanho moderado (6B/13B parâmetros) pode rivalizar ou até superar as métricas de desempenho de um modelo substancialmente maior, como o ChatGPT (175B+ parâmetros). Essa hipótese é rigorosamente testada usando metodologias de teste A/B com uma grande base de usuários na plataforma de pesquisa Chai ao longo de trinta dias. Os resultados destacam o potencial da estratégia de "blending" como uma abordagem viável para melhorar a eficácia de IAs de chat sem um aumento correspondente nas demandas computacionais.
A utilização de contextos longos representa um grande desafio para modelos de linguagem de grande escala devido ao comprimento limitado de sua janela de contexto. Embora a janela de contexto possa ser estendida por meio de ajuste fino, isso resultará em um custo considerável tanto no tempo de treinamento quanto no de inferência, além de impactar negativamente as capacidades originais do LLM. Neste trabalho, propomos o Activation Beacon, que condensa as ativações brutas do LLM em formas mais compactas, permitindo que ele perceba um contexto muito mais longo com uma janela de contexto limitada. O Activation Beacon é introduzido como um módulo plug-and-play para o LLM. Ele preserva totalmente a capacidade original do LLM em contextos curtos, ao mesmo tempo em que estende a nova capacidade de processar contextos mais longos. Além disso, ele funciona com janelas deslizantes curtas para processar o contexto longo, alcançando uma eficiência competitiva de memória e tempo tanto no treinamento quanto na inferência. O Activation Beacon é aprendido pela tarefa de autoregressão condicionada a uma mistura de beacons com taxas de condensação diversificadas. Graças a esse tratamento, ele pode ser treinado de forma eficiente apenas com dados de sequências curtas em apenas 10 mil passos, consumindo menos de 9 horas em uma única máquina com 8 GPUs A800. Os estudos experimentais mostram que o Activation Beacon é capaz de estender o comprimento de contexto do Llama-2-7B em 100 vezes (de 4K para 400K), ao mesmo tempo em que alcança um resultado superior em tarefas de geração e compreensão de contexto longo. Nosso modelo e código estarão disponíveis no repositório BGE.
Apesar dos avanços recentes nos métodos generativos de texto para 3D, há uma ausência notável de métricas de avaliação confiáveis. As métricas existentes geralmente se concentram em um único critério, como o quão bem o ativo se alinha com o texto de entrada. Essas métricas carecem de flexibilidade para generalizar diferentes critérios de avaliação e podem não estar bem alinhadas com as preferências humanas. Realizar estudos de preferência do usuário é uma alternativa que oferece tanto adaptabilidade quanto resultados alinhados com a percepção humana. No entanto, os estudos com usuários podem ser muito caros para escalar. Este artigo apresenta uma métrica de avaliação automática, versátil e alinhada com a percepção humana para modelos generativos de texto para 3D. Para isso, primeiro desenvolvemos um gerador de prompts usando GPT-4V para criar prompts de avaliação, que servem como entrada para comparar modelos de texto para 3D. Além disso, projetamos um método que instrui o GPT-4V a comparar dois ativos 3D de acordo com critérios definidos pelo usuário. Por fim, usamos os resultados dessas comparações pareadas para atribuir a esses modelos classificações Elo. Os resultados experimentais sugerem que nossa métrica está fortemente alinhada com a preferência humana em diferentes critérios de avaliação.
Neste artigo, apresentamos o DiarizationLM, um framework que utiliza grandes modelos de linguagem (LLM) para pós-processar as saídas de um sistema de diarização de falantes. Diversos objetivos podem ser alcançados com o framework proposto, como melhorar a legibilidade da transcrição diarizada ou reduzir a taxa de erro de diarização de palavras (WDER, na sigla em inglês). Neste framework, as saídas dos sistemas de reconhecimento automático de fala (ASR) e de diarização de falantes são representadas em um formato textual compacto, que é incluído no prompt de um LLM, opcionalmente ajustado. As saídas do LLM podem ser usadas como os resultados refinados de diarização com o aprimoramento desejado. Como uma etapa de pós-processamento, este framework pode ser facilmente aplicado a qualquer sistema de ASR e diarização de falantes disponível no mercado, sem a necessidade de retreinar os componentes existentes. Nossos experimentos mostram que um modelo PaLM 2-S ajustado pode reduzir o WDER em 25,9% relativo no conjunto de dados de conversas telefônicas Fisher e em 31% relativo no conjunto de dados Callhome English.
Modelos de linguagem de grande escala (LLMs) têm feito avanços significativos em tarefas relacionadas a código, mas muitos LLMs tratam o código como sequências simples, negligenciando sua natureza estruturada. Apresentamos o AST-T5, um novo paradigma de pré-treinamento que aproveita a Árvore de Sintaxe Abstrata (AST) para aprimorar a geração, transpilação e compreensão de código. Usando programação dinâmica, nossa Segmentação Consciente da AST preserva a estrutura do código, enquanto nosso objetivo de Corrupção de Span Consciente da AST capacita o modelo a reconstruir várias estruturas de código. Diferente de outros modelos, o AST-T5 evita análises de programa complexas ou mudanças arquitetônicas, integrando-se perfeitamente com qualquer Transformer de codificador-decodificador. Avaliações mostram que o AST-T5 supera consistentemente LMs de tamanho similar em várias tarefas relacionadas a código. A consciência estrutural torna o AST-T5 particularmente poderoso em tarefas de código-para-código, superando o CodeT5 em 2 pontos na pontuação de correspondência exata para a tarefa Bugs2Fix e em 3 pontos na pontuação de correspondência exata para Transpilação Java-C# no CodeXGLUE. Nosso código e modelo estão disponíveis publicamente em https://github.com/gonglinyuan/ast_t5.
Apresentamos o CRUXEval (Avaliação de Raciocínio, Compreensão e Execução de Código), um benchmark composto por 800 funções em Python (3-13 linhas). Cada função vem com um par entrada-saída, resultando em duas tarefas naturais: previsão de entrada e previsão de saída. Primeiro, propomos uma receita genérica para gerar nosso benchmark de execução, que pode ser usada para criar variações futuras do benchmark. Segundo, avaliamos vinte modelos de código em nosso benchmark e descobrimos que muitos modelos recentes com pontuações altas no HumanEval não mostram as mesmas melhorias em nosso benchmark. Terceiro, mostramos que esquemas simples de CoT (Chain of Thought) e fine-tuning podem melhorar o desempenho em nosso benchmark, mas ainda estão longe de resolvê-lo. A melhor configuração, GPT-4 com Chain of Thought (CoT), alcança um pass@1 de 75% e 81% na previsão de entrada e saída, respectivamente. Em contraste, o Code Llama 34B alcança um pass@1 de 50% e 46% na previsão de entrada e saída, destacando a lacuna entre modelos de código aberto e fechado. Como nenhum modelo está próximo de dominar o CRUXEval, fornecemos exemplos de falhas consistentes do GPT-4 em programas simples como uma lente para entender suas capacidades de raciocínio de código e áreas para melhoria.
O surgimento de modelos pré-treinados impactou significativamente desde o Processamento de Linguagem Natural (PLN) e Visão Computacional até conjuntos de dados relacionais. Tradicionalmente, esses modelos são avaliados por meio de tarefas subsequentes ajustadas (fine-tuning). No entanto, isso levanta a questão de como avaliar esses modelos de forma mais eficiente e eficaz. Neste estudo, exploramos uma abordagem inovadora em que utilizamos as meta características associadas a cada entidade como uma fonte de conhecimento do mundo real e empregamos as representações de entidades dos modelos. Propomos usar a consistência entre essas representações e as meta características como uma métrica para avaliar modelos pré-treinados. A eficácia do nosso método é demonstrada em vários domínios, incluindo modelos com conjuntos de dados relacionais, modelos de linguagem de grande escala e modelos de imagens.
Diante da crescente necessidade de pipelines automáticos de criação de conteúdo 3D, diversas representações 3D têm sido estudadas para gerar objetos 3D a partir de uma única imagem. Devido à sua eficiência superior em renderização, modelos baseados em *splatting* de Gaussianas 3D têm se destacado recentemente tanto na reconstrução quanto na geração de conteúdo 3D. Abordagens de *splatting* de Gaussianas 3D para geração de imagens em 3D são frequentemente baseadas em otimização, exigindo várias etapas computacionalmente custosas de destilação de pontuação. Para superar esses desafios, introduzimos um framework de Gaussianas 3D Generativo Amortizado (AGG, *Amortized Generative 3D Gaussian*) que produz instantaneamente Gaussianas 3D a partir de uma única imagem, eliminando a necessidade de otimização por instância. Utilizando uma representação híbrida intermediária, o AGG decompõe a geração de localizações de Gaussianas 3D e outros atributos de aparência para otimização conjunta. Além disso, propomos um pipeline em cascata que primeiro gera uma representação grosseira dos dados 3D e, posteriormente, a aprimora com um módulo de super-resolução de Gaussianas 3D. Nosso método é avaliado em comparação com frameworks de Gaussianas 3D baseados em otimização e pipelines baseados em amostragem que utilizam outras representações 3D, onde o AGG demonstra capacidades competitivas de geração tanto qualitativa quanto quantitativamente, sendo várias ordens de magnitude mais rápido. Página do projeto: https://ir1d.github.io/AGG/
Neste relatório técnico, apresentamos o TeleChat, uma coleção de modelos de linguagem de grande escala (LLMs) com parâmetros de 3 bilhões, 7 bilhões e 12 bilhões. Ele inclui modelos de linguagem pré-treinados, bem como modelos de chat ajustados que estão alinhados com as preferências humanas. O TeleChat é inicialmente pré-treinado em um extenso corpus contendo uma diversificada coleção de textos em inglês e chinês, incluindo trilhões de tokens. Posteriormente, o modelo passa por um ajuste fino para se alinhar às preferências humanas, seguindo uma metodologia detalhada que descrevemos. Avaliamos o desempenho do TeleChat em várias tarefas, incluindo compreensão de linguagem, matemática, raciocínio, geração de código e respostas a perguntas baseadas em conhecimento. Nossos resultados indicam que o TeleChat alcança um desempenho comparável a outros modelos de código aberto de tamanho similar em uma ampla gama de benchmarks públicos. Para apoiar pesquisas e aplicações futuras que utilizam LLMs, disponibilizamos para a comunidade pública os checkpoints dos modelos ajustados das variantes de 7B e 12B do TeleChat, juntamente com o código e uma parte dos nossos dados de pré-treinamento.