Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o LongLoRA, uma abordagem eficiente de ajuste fino que estende os tamanhos de contexto de modelos de linguagem grandes (LLMs) pré-treinados, com custo computacional limitado. Normalmente, treinar LLMs com tamanhos de contexto longos é computacionalmente caro, exigindo horas extensas de treinamento e recursos de GPU. Por exemplo, treinar com um comprimento de contexto de 8192 requer 16 vezes o custo computacional nas camadas de autoatenção em comparação com 2048. Neste artigo, aceleramos a extensão de contexto de LLMs em dois aspectos. Por um lado, embora a atenção global densa seja necessária durante a inferência, o ajuste fino do modelo pode ser feito de forma eficaz e eficiente por meio de atenção local esparsa. A atenção curta deslocada proposta permite efetivamente a extensão de contexto, levando a uma economia computacional significativa com desempenho semelhante ao ajuste fino com atenção padrão. Particularmente, ela pode ser implementada com apenas duas linhas de código durante o treinamento, sendo opcional na inferência. Por outro lado, revisitamos o regime de ajuste fino eficiente em parâmetros para expansão de contexto. Notavelmente, descobrimos que o LoRA para extensão de contexto funciona bem sob a premissa de incorporação e normalização treináveis. O LongLoRA demonstra resultados empíricos robustos em várias tarefas em modelos LLaMA2 de 7B/13B a 70B. O LongLoRA adapta o LLaMA2 7B de 4k de contexto para 100k, ou o LLaMA2 70B para 32k em uma única máquina com 8x A100. O LongLoRA estende o contexto dos modelos enquanto mantém suas arquiteturas originais e é compatível com a maioria das técnicas existentes, como o FlashAttention-2. Além disso, para tornar o LongLoRA prático, coletamos um conjunto de dados, o LongQA, para ajuste fino supervisionado. Ele contém mais de 3 mil pares de perguntas e respostas de contexto longo.
O Transformer surgiu inicialmente no campo de processamento de linguagem natural e posteriormente foi migrado para o domínio de visão computacional, onde demonstrou excelente desempenho em tarefas visuais. No entanto, recentemente, a Retentive Network (RetNet) emergiu como uma arquitetura com potencial para substituir o Transformer, atraindo ampla atenção na comunidade de NLP. Portanto, levantamos a questão de se a transferência da ideia da RetNet para a visão também pode trazer desempenho excepcional para tarefas visuais. Para abordar isso, combinamos a RetNet e o Transformer para propor o RMT. Inspirado pela RetNet, o RMT introduz um decaimento explícito no backbone de visão, trazendo conhecimento prévio relacionado a distâncias espaciais para o modelo de visão. Esse conhecimento prévio espacial relacionado à distância permite o controle explícito do alcance de tokens que cada token pode atender. Além disso, para reduzir o custo computacional da modelagem global, decompomos esse processo de modelagem ao longo dos dois eixos coordenados da imagem. Experimentos abundantes demonstraram que nosso RMT exibe desempenho excepcional em várias tarefas de visão computacional. Por exemplo, o RMT alcança 84,1% de acurácia Top1 no ImageNet-1k usando apenas 4,5G FLOPs. Até onde sabemos, entre todos os modelos, o RMT alcança a maior acurácia Top1 quando os modelos têm tamanho semelhante e são treinados com a mesma estratégia. Além disso, o RMT supera significativamente os backbones de visão existentes em tarefas downstream, como detecção de objetos, segmentação de instâncias e segmentação semântica. Nosso trabalho ainda está em andamento.
Modelos de Linguagem Generativos de Grande Escala (LLMs) têm alcançado avanços notáveis em diversas tarefas de PLN. No entanto, esses progressos não se refletiram na tarefa de tradução, especialmente em modelos de tamanho moderado (ou seja, com 7B ou 13B parâmetros), que ainda ficam aquém dos modelos de tradução supervisionados convencionais baseados em codificador-decodificador. Estudos anteriores tentaram melhorar as capacidades de tradução desses LLMs moderados, mas os ganhos foram limitados. Neste estudo, propomos uma nova abordagem de ajuste fino para LLMs especificamente projetada para a tarefa de tradução, eliminando a necessidade dos abundantes dados paralelos dos quais os modelos de tradução tradicionais geralmente dependem. Nossa abordagem consiste em dois estágios de ajuste fino: ajuste inicial em dados monolíngues seguido de ajuste subsequente em um pequeno conjunto de dados paralelos de alta qualidade. Apresentamos o LLM desenvolvido por meio dessa estratégia como Advanced Language Model-based trAnslator (ALMA). Com base no LLaMA-2 como modelo subjacente, nossos resultados mostram que o modelo pode alcançar uma melhoria média de mais de 12 BLEU e 12 COMET em relação ao seu desempenho zero-shot em 10 direções de tradução dos conjuntos de teste do WMT'21 (2 direções) e WMT'22 (8 direções). O desempenho é significativamente melhor do que todos os trabalhos anteriores e até superior ao modelo NLLB-54B e ao GPT-3.5-text-davinci-003, com apenas 7B ou 13B parâmetros. Este método estabelece as bases para um novo paradigma de treinamento em tradução automática.
Estudar como as pessoas interagem com modelos de linguagem de grande escala (LLMs) em cenários do mundo real é cada vez mais importante devido ao seu uso generalizado em diversas aplicações. Neste artigo, apresentamos o LMSYS-Chat-1M, um conjunto de dados em larga escala que contém um milhão de conversas do mundo real com 25 LLMs de última geração. Esse conjunto de dados foi coletado de 210 mil endereços IP únicos em nosso site de demonstração Vicuna e na plataforma Chatbot Arena. Oferecemos uma visão geral do conteúdo do conjunto de dados, incluindo seu processo de curadoria, estatísticas básicas e distribuição de tópicos, destacando sua diversidade, originalidade e escala. Demonstramos sua versatilidade por meio de quatro casos de uso: desenvolvimento de modelos de moderação de conteúdo que apresentam desempenho semelhante ao GPT-4, criação de um benchmark de segurança, treinamento de modelos que seguem instruções com desempenho semelhante ao Vicuna e elaboração de perguntas desafiadoras para benchmarks. Acreditamos que esse conjunto de dados servirá como um recurso valioso para compreender e avançar as capacidades dos LLMs. O conjunto de dados está disponível publicamente em https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) têm expandido os limites da compreensão de linguagem natural e demonstrado excelente capacidade de resolução de problemas. Apesar do grande sucesso, a maioria dos LLMs de código aberto existentes (\eg, LLaMA-2) ainda está longe de ser satisfatória para resolver problemas matemáticos devido aos procedimentos complexos de raciocínio. Para preencher essa lacuna, propomos o MetaMath, um modelo de linguagem ajustado que se especializa em raciocínio matemático. Especificamente, começamos por gerar questões matemáticas ao reescrever a pergunta a partir de múltiplas perspectivas sem conhecimento adicional, o que resulta em um novo conjunto de dados chamado {MetaMathQA}. Em seguida, ajustamos os modelos LLaMA-2 no MetaMathQA. Os resultados experimentais em dois benchmarks populares (\ie, GSM8K e MATH) para raciocínio matemático demonstram que o MetaMath supera uma série de LLMs de código aberto por uma margem significativa. Nosso modelo MetaMath-7B alcança 66,4% no GSM8K e 19,4% no MATH, excedendo os modelos state-of-the-art do mesmo tamanho em 11,5% e 8,7%. Particularmente, o {MetaMath-70B} alcança uma precisão de 82,3% no {GSM8K}, ligeiramente melhor que o {GPT-3.5-Turbo}. Disponibilizamos o conjunto de dados {MetaMathQA}, os modelos {MetaMath} com diferentes tamanhos e o código de treinamento para uso público.
A fundamentação visual 3D é uma habilidade crucial para robôs domésticos, permitindo que eles naveguem, manipulem objetos e respondam a perguntas com base em seu ambiente. Enquanto abordagens existentes frequentemente dependem de grandes quantidades de dados rotulados ou apresentam limitações ao lidar com consultas linguísticas complexas, propomos o LLM-Grounder, um novo pipeline de fundamentação visual 3D baseado em Modelos de Linguagem de Grande Escala (LLMs), que opera em cenário zero-shot e com vocabulário aberto. O LLM-Grounder utiliza um LLM para decompor consultas complexas em linguagem natural em constituintes semânticos e emprega uma ferramenta de fundamentação visual, como OpenScene ou LERF, para identificar objetos em uma cena 3D. O LLM então avalia as relações espaciais e de senso comum entre os objetos propostos para tomar uma decisão final de fundamentação. Nosso método não requer nenhum dado de treinamento rotulado e pode generalizar para novas cenas 3D e consultas textuais arbitrárias. Avaliamos o LLM-Grounder no benchmark ScanRefer e demonstramos precisão de fundamentação zero-shot de última geração. Nossos resultados indicam que LLMs melhoram significativamente a capacidade de fundamentação, especialmente para consultas linguísticas complexas, tornando o LLM-Grounder uma abordagem eficaz para tarefas de visão e linguagem 3D em robótica. Vídeos e demonstrações interativas podem ser encontrados no site do projeto https://chat-with-nerf.github.io/.
Apresentamos o Modelo de Linguagem Bittensor, denominado "BTLM-3B-8K", um novo modelo de linguagem de código aberto com 3 bilhões de parâmetros, que estabelece um novo estado da arte. O BTLM-3B-8K foi treinado com 627 bilhões de tokens do conjunto de dados SlimPajama, utilizando uma mistura de comprimentos de contexto de 2.048 e 8.192. O BTLM-3B-8K supera todos os modelos existentes com 3B de parâmetros em 2-5,5% em tarefas subsequentes e é competitivo até mesmo com alguns modelos de 7B de parâmetros. Além disso, o BTLM-3B-8K oferece um desempenho excepcional em contextos longos, superando o MPT-7B-8K e o XGen-7B-8K em tarefas com comprimento de contexto de até 8.192. O modelo foi treinado em uma versão limpa e deduplicada do conjunto de dados SlimPajama; os hiperparâmetros e o cronograma de \textmu P foram ajustados de forma agressiva; foram utilizados embeddings de posição ALiBi; e adotou-se a não linearidade SwiGLU. No Hugging Face, os modelos mais populares possuem 7B de parâmetros, indicando que os usuários preferem a relação qualidade-tamanho desses modelos. Compactar um modelo de 7B de parâmetros para um de 3B, com impacto mínimo no desempenho, é um marco importante. O BTLM-3B-8K requer apenas 3GB de memória com precisão de 4 bits e consome 2,5 vezes menos computação de inferência do que modelos de 7B, ajudando a democratizar o acesso a um modelo de linguagem poderoso em dispositivos móveis e de borda. O BTLM-3B-8K está disponível sob a licença Apache 2.0 no Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
Neste trabalho, apresentamos o Boolformer, a primeira arquitetura Transformer treinada para realizar regressão simbólica de funções booleanas de ponta a ponta. Primeiro, mostramos que ele pode prever fórmulas compactas para funções complexas que não foram vistas durante o treinamento, quando fornecido uma tabela verdade limpa. Em seguida, demonstramos sua capacidade de encontrar expressões aproximadas quando fornecido observações incompletas e ruidosas. Avaliamos o Boolformer em um amplo conjunto de conjuntos de dados de classificação binária do mundo real, demonstrando seu potencial como uma alternativa interpretável aos métodos clássicos de aprendizado de máquina. Por fim, aplicamos essa abordagem à tarefa amplamente difundida de modelar a dinâmica de redes de regulação gênica. Utilizando um benchmark recente, mostramos que o Boolformer é competitivo com algoritmos genéticos de última geração, com uma aceleração de várias ordens de magnitude. Nosso código e modelos estão disponíveis publicamente.