Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os Modelos de Linguagem de Grande Escala (LLMs) demonstrem capacidades impressionantes na geração de texto, observamos que sua habilidade ainda não foi generalizada para a música, a linguagem criativa da humanidade. Apresentamos o ChatMusician, um LLM de código aberto que integra habilidades musicais intrínsecas. Ele é baseado no pré-treinamento contínuo e no ajuste fino do LLaMA2 em uma representação musical compatível com texto, a notação ABC, onde a música é tratada como um segundo idioma. O ChatMusician pode entender e gerar música com um tokenizador de texto puro, sem a necessidade de estruturas neurais multimodais ou tokenizadores externos. Curiosamente, a incorporação de habilidades musicais não prejudica as habilidades linguísticas, alcançando até mesmo uma pontuação ligeiramente superior no MMLU. Nosso modelo é capaz de compor músicas bem estruturadas e de longa duração, condicionadas a textos, acordes, melodias, motivos, formas musicais, etc., superando a linha de base do GPT-4. Em nosso benchmark meticulosamente elaborado para o entendimento musical em nível universitário, o MusicTheoryBench, o ChatMusician supera o LLaMA2 e o GPT-3.5 em configuração zero-shot por uma margem considerável. Nosso trabalho revela que os LLMs podem ser excelentes compressores de música, mas ainda há um território significativo a ser conquistado. Disponibilizamos nosso corpus de linguagem musical de 4B tokens, o MusicPile, o MusicTheoryBench coletado, código, modelo e demonstração no GitHub.
Apresentamos o Nemotron-4 15B, um grande modelo de linguagem multilíngue com 15 bilhões de parâmetros, treinado em 8 trilhões de tokens de texto. O Nemotron-4 15B demonstra um desempenho robusto quando avaliado em tarefas de inglês, multilíngues e de codificação: ele supera todos os modelos abertos de tamanho similar em 4 das 7 áreas de avaliação downstream e alcança desempenho competitivo em relação aos principais modelos abertos nas demais. Especificamente, o Nemotron-4 15B exibe as melhores capacidades multilíngues entre todos os modelos de tamanho similar, superando até mesmo modelos com mais de quatro vezes o seu tamanho e aqueles explicitamente especializados em tarefas multilíngues.
Embora o treinamento de grandes modelos de linguagem (LLMs) a partir do zero possa, de fato, resultar em modelos com capacidades e pontos fortes distintos, essa abordagem acarreta custos substanciais e pode levar a uma possível redundância de competências. Uma estratégia alternativa é combinar LLMs existentes em um modelo mais robusto, reduzindo assim a necessidade de um pré-treinamento dispendioso. No entanto, devido às diversas arquiteturas dos LLMs, a fusão direta de parâmetros se mostra inviável. Recentemente, o FuseLLM introduziu o conceito de fusão de conhecimento para transferir o conhecimento coletivo de múltiplos LLMs estruturalmente variados para um LLM alvo por meio de um treinamento contínuo leve. Neste relatório, ampliamos a escalabilidade e a flexibilidade do framework FuseLLM para realizar a fusão de LLMs de chat, resultando no FuseChat. O FuseChat compreende duas etapas principais. Primeiramente, realizamos a fusão de conhecimento para LLMs de origem com estruturas e escalas variadas, obtendo múltiplos LLMs alvo de estrutura e tamanho idênticos por meio de um ajuste fino leve. Em seguida, esses LLMs alvo são fundidos no espaço de parâmetros, onde propomos um método inovador para determinar os pesos de fusão com base na taxa de variação das matrizes de parâmetros antes e depois do ajuste fino. Validamos nossa abordagem utilizando três destacados LLMs de chat com arquiteturas e escalas diversas, nomeadamente NH2-Mixtral-8x7B, NH2-Solar-10.7B e OpenChat-3.5-7B. Os resultados experimentais abrangendo diversos domínios de chat demonstram a superioridade do \textsc{FuseChat-7B} em um amplo espectro de LLMs de chat nas escalas de 7B e 34B, superando até mesmo o GPT-3.5 (Março) e se aproximando do Mixtral-8x7B-Instruct. Nosso código, pesos do modelo e dados estão acessíveis publicamente em https://github.com/fanqiwan/FuseLLM.
Apresentamos o design, a implementação e a experiência de engenharia na construção e implantação do MegaScale, um sistema de produção para treinar modelos de linguagem de grande escala (LLMs) em uma escala superior a 10.000 GPUs. Treinar LLMs nessa escala traz desafios sem precedentes em termos de eficiência e estabilidade do treinamento. Adotamos uma abordagem de pilha completa que co-projeta os componentes algorítmicos e de sistema, abrangendo o design de blocos do modelo e do otimizador, sobreposição de computação e comunicação, otimização de operadores, pipeline de dados e ajuste de desempenho de rede. Manter alta eficiência durante todo o processo de treinamento (ou seja, estabilidade) é uma consideração importante em produção, dado o longo período dos trabalhos de treinamento de LLMs. Muitos problemas difíceis de estabilidade só emergem em grande escala, e a observabilidade profunda é a chave para resolvê-los. Desenvolvemos um conjunto de ferramentas de diagnóstico para monitorar componentes do sistema e eventos profundos na pilha, identificar causas raiz e derivar técnicas eficazes para alcançar tolerância a falhas e mitigar atrasos. O MegaScale alcança 55,2% de Utilização de FLOPs do Modelo (MFU) ao treinar um modelo LLM de 175B em 12.288 GPUs, melhorando o MFU em 1,34x em comparação com o Megatron-LM. Compartilhamos nossa experiência operacional na identificação e correção de falhas e atrasos. Esperamos que, ao articular os problemas e compartilhar nossa experiência sob uma perspectiva de sistemas, este trabalho possa inspirar futuras pesquisas em sistemas de LLMs.
A Adaptação de Baixa Ordem (LoRA) é amplamente utilizada em modelos de texto para imagem para a renderização precisa de elementos específicos, como personagens distintos ou estilos únicos em imagens geradas. No entanto, os métodos existentes enfrentam desafios na composição eficaz de múltiplas LoRAs, especialmente à medida que o número de LoRAs a serem integradas aumenta, dificultando assim a criação de imagens complexas. Neste artigo, estudamos a composição de múltiplas LoRAs através de uma perspectiva centrada na decodificação. Apresentamos dois métodos que não requerem treinamento: o LoRA Switch, que alterna entre diferentes LoRAs em cada etapa de remoção de ruído, e o LoRA Composite, que incorpora simultaneamente todas as LoRAs para orientar uma síntese de imagem mais coesa. Para avaliar as abordagens propostas, estabelecemos o ComposLoRA, um novo e abrangente ambiente de teste como parte desta pesquisa. Ele apresenta uma ampla gama de categorias de LoRA com 480 conjuntos de composição. Utilizando um framework de avaliação baseado no GPT-4V, nossos resultados demonstram uma clara melhoria no desempenho com nossos métodos em relação à linha de base prevalente, particularmente evidente ao aumentar o número de LoRAs em uma composição.
Fontes de dados estruturados, como tabelas, gráficos e bancos de dados, são fontes de conhecimento onipresentes. Apesar das capacidades demonstradas por grandes modelos de linguagem (LLMs) em texto simples, sua proficiência em interpretar e utilizar dados estruturados permanece limitada. Nossa investigação revela uma deficiência notável na capacidade dos LLMs de processar dados estruturados, por exemplo, o ChatGPT fica atrás do modelo state-of-the-art (SoTA) em uma média de 35%. Para aprimorar as capacidades de Fundamentação de Conhecimento Estruturado (SKG) em LLMs, desenvolvemos um conjunto abrangente de dados de ajuste de instruções, compreendendo 1,1 milhão de exemplos. Utilizando esse conjunto de dados, treinamos uma série de modelos, denominados StructLM, baseados na arquitetura Code-LLaMA, variando de 7B a 34B parâmetros. Nossa série StructLM supera modelos específicos para tarefas em 14 dos 18 conjuntos de dados avaliados e estabelece novos recordes SoTA em 7 tarefas de SKG. Além disso, o StructLM demonstra uma generalização excepcional em 6 novas tarefas de SKG. Contrariamente às expectativas, observamos que o aumento do tamanho do modelo oferece benefícios marginais, com o StructLM-34B mostrando apenas melhorias leves em relação ao StructLM-7B. Isso sugere que a fundamentação de conhecimento estruturado ainda é uma tarefa desafiadora e requer um design mais inovador para avançar para um novo patamar.
Investigamos se os Modelos de Linguagem de Grande Escala (LLMs) realizam latente raciocínio multi-hop com prompts complexos, como "A mãe do cantor de 'Superstition' é". Buscamos evidências de um caminho de raciocínio latente em que um LLM (1) identifica latente "o cantor de 'Superstition'" como Stevie Wonder, a entidade ponte, e (2) utiliza seu conhecimento sobre a mãe de Stevie Wonder para completar o prompt. Analisamos esses dois hops individualmente e consideramos sua coocorrência como indicativa de raciocínio multi-hop latente. Para o primeiro hop, testamos se alterar o prompt para mencionar indiretamente a entidade ponte, em vez de qualquer outra entidade, aumenta a recuperação interna da entidade ponte pelo LLM. Para o segundo hop, testamos se aumentar essa recuperação faz com que o LLM utilize melhor o que sabe sobre a entidade ponte. Encontramos fortes evidências de raciocínio multi-hop latente para prompts de certos tipos de relação, com o caminho de raciocínio sendo usado em mais de 80% dos prompts. No entanto, a utilização é altamente contextual, variando entre diferentes tipos de prompts. Além disso, em média, as evidências para o segundo hop e a travessia multi-hop completa são bastante moderadas e apenas substanciais para o primeiro hop. Adicionalmente, encontramos uma clara tendência de escalonamento com o aumento do tamanho do modelo para o primeiro hop de raciocínio, mas não para o segundo hop. Nossas descobertas experimentais sugerem desafios e oportunidades potenciais para o desenvolvimento e aplicações futuras de LLMs.
"Quanto maior, melhor" tem sido a tendência predominante no desenvolvimento recente de Modelos de Linguagem de Grande Escala (LLMs). No entanto, os LLMs não se adequam bem a cenários que exigem processamento local, eficiência energética, baixa utilização de memória e eficiência de resposta. Esses requisitos são cruciais para privacidade, segurança e implantação sustentável. Este artigo explora o paradigma "menos é mais" ao abordar o desafio de projetar Modelos de Linguagem Pequenos (SLMs) precisos e eficientes para dispositivos com recursos limitados. Nossa principal contribuição é a introdução de um SLM de código aberto, totalmente transparente e preciso, com 0,5 bilhão (0,5B) de parâmetros, chamado MobiLlama, que atende às necessidades específicas de computação com recursos limitados, com ênfase no desempenho aprimorado com demandas reduzidas de recursos. O MobiLlama é um design de SLM que parte de um modelo maior e aplica um esquema cuidadoso de compartilhamento de parâmetros para reduzir tanto o custo de pré-treinamento quanto o de implantação. Nosso trabalho busca não apenas preencher a lacuna em SLMs de código aberto, mas também garantir total transparência, onde o pipeline completo de dados de treinamento, código de treinamento, pesos do modelo e mais de 300 checkpoints, juntamente com códigos de avaliação, estão disponíveis em: https://github.com/mbzuai-oryx/MobiLlama.
Configurações comparativas (por exemplo, escolha pareada, classificação em lista) têm sido amplamente adotadas em uma variedade de estudos subjetivos para avaliação da qualidade de imagem (IQA), pois padronizam inerentemente os critérios de avaliação entre diferentes observadores e oferecem respostas mais claras. Neste trabalho, estendemos a capacidade dos emergentes modelos multimodais de grande escala (LMMs) para avançar ainda mais a comparação de qualidade visual em configurações de resposta aberta, que 1) podem responder a perguntas de comparação de qualidade em um espectro aberto; 2) podem fornecer raciocínios detalhados além de respostas diretas. Para isso, propomos o Co-Instruct. Para treinar este comparador de qualidade visual de resposta aberta e de código aberto, pioneiro em seu tipo, coletamos o conjunto de dados Co-Instruct-562K, proveniente de duas fontes: (a) descrições de qualidade de imagem única mescladas por LMMs, (b) respostas do "professor" GPT-4V em dados não rotulados. Além disso, para avaliar melhor essa configuração, propomos o MICBench, o primeiro benchmark de comparação de múltiplas imagens para LMMs. Demonstramos que o Co-Instruct não apenas alcança uma precisão superior 30% maior do que os LMMs de código aberto mais avançados, mas também supera o GPT-4V (seu professor), tanto em benchmarks relacionados existentes quanto no MICBench proposto. Nosso modelo está publicado em https://huggingface.co/q-future/co-instruct.
À medida que os modelos de linguagem de grande escala (LLMs) se tornam cada vez mais prevalentes em diversas aplicações do mundo real, compreender e aprimorar sua robustez em relação às entradas dos usuários é de extrema importância. Os métodos existentes para identificar prompts adversários tendem a se concentrar em domínios específicos, carecem de diversidade ou exigem anotações humanas extensas. Para abordar essas limitações, apresentamos o Rainbow Teaming, uma abordagem inovadora para produzir uma coleção diversificada de prompts adversários. O Rainbow Teaming enquadra a geração de prompts adversários como um problema de qualidade-diversidade e utiliza busca aberta para gerar prompts que são tanto eficazes quanto diversos. Ele pode revelar vulnerabilidades de um modelo em uma ampla gama de domínios, incluindo, neste artigo, segurança, resposta a perguntas e cibersegurança. Também demonstramos que o ajuste fino em dados sintéticos gerados pelo Rainbow Teaming melhora a segurança dos LLMs de última geração sem prejudicar suas capacidades gerais e utilidade, abrindo caminho para a autossuperação aberta.