Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o QLoRA, uma abordagem eficiente de ajuste fino que reduz o uso de memória o suficiente para ajustar um modelo de 65 bilhões de parâmetros em uma única GPU de 48GB, preservando o desempenho total de tarefas de ajuste fino em 16 bits. O QLoRA propaga gradientes através de um modelo de linguagem pré-treinado quantizado em 4 bits e congelado, direcionando-os para Adaptadores de Baixa Rank (LoRA). Nossa melhor família de modelos, que nomeamos Guanaco, supera todos os modelos anteriormente lançados publicamente no benchmark Vicuna, atingindo 99,3% do nível de desempenho do ChatGPT enquanto requer apenas 24 horas de ajuste fino em uma única GPU. O QLoRA introduz várias inovações para economizar memória sem sacrificar desempenho: (a) NormalFloat de 4 bits (NF4), um novo tipo de dados que é teoricamente ótimo em termos de informação para pesos distribuídos normalmente; (b) quantização dupla para reduzir a média da pegada de memória ao quantizar as constantes de quantização; e (c) otimizadores paginados para gerenciar picos de memória. Usamos o QLoRA para ajustar mais de 1.000 modelos, fornecendo uma análise detalhada do seguimento de instruções e do desempenho de chatbots em 8 conjuntos de dados de instruções, múltiplos tipos de modelos (LLaMA, T5) e escalas de modelos que seriam inviáveis de executar com ajuste fino regular (por exemplo, modelos de 33B e 65B parâmetros). Nossos resultados mostram que o ajuste fino com QLoRA em um pequeno conjunto de dados de alta qualidade leva a resultados de última geração, mesmo ao usar modelos menores que os anteriores SoTA. Fornecemos uma análise detalhada do desempenho de chatbots com base em avaliações humanas e do GPT-4, mostrando que as avaliações do GPT-4 são uma alternativa barata e razoável às avaliações humanas. Além disso, descobrimos que os benchmarks atuais de chatbots não são confiáveis para avaliar com precisão os níveis de desempenho dos chatbots. Uma análise selecionada demonstra onde o Guanaco falha em comparação com o ChatGPT. Lançamos todos os nossos modelos e códigos, incluindo kernels CUDA para treinamento em 4 bits.
O ajuste fino em dados de instrução tem sido amplamente validado como uma prática eficaz para implementar modelos de linguagem de chat como o ChatGPT. Escalonar a diversidade e a qualidade desses dados, embora direto, tem grande potencial de levar a um desempenho aprimorado. Este artigo visa melhorar ainda mais o limite superior dos modelos de código aberto. Primeiro, fornecemos um conjunto de dados de conversas instrucionais sistematicamente projetado, diversificado, informativo e em grande escala, o UltraChat, que não envolve consultas humanas. Nosso objetivo é capturar a amplitude das interações que um humano poderia ter com um assistente de IA e empregar um framework abrangente para gerar conversas de múltiplos turnos iterativamente. O UltraChat contém 1,5 milhão de diálogos de alta qualidade com múltiplos turnos e abrange uma ampla gama de tópicos e instruções. Nossa análise estatística do UltraChat revela sua superioridade em várias métricas-chave, incluindo escala, comprimento médio, diversidade, coerência, etc., solidificando sua posição como um dos principais conjuntos de dados de código aberto. Com base no UltraChat, ajustamos fino um modelo LLaMA para criar um poderoso modelo conversacional, o UltraLLaMA. Nossas avaliações indicam que o UltraLLaMA consistentemente supera outros modelos de código aberto, incluindo o Vicuna, o modelo de código aberto reconhecido anteriormente como estado da arte. O conjunto de dados e o modelo serão disponibilizados publicamente\url{https://github.com/thunlp/UltraChat}.
Apresentamos o Goat, um modelo LLaMA ajustado que supera significativamente o GPT-4 em uma variedade de tarefas aritméticas. Ajustado em um conjunto de dados gerado sinteticamente, o Goat alcança desempenho de ponta na sub-tarefa aritmética do BIG-bench. Em particular, o Goat-7B zero-shot iguala ou até supera a precisão alcançada pelo PaLM-540B few-shot. Surpreendentemente, o Goat pode atingir precisão quase perfeita em adição e subtração de números grandes apenas com ajuste fino supervisionado, o que é quase impossível com modelos de linguagem pré-treinados anteriores, como Bloom, OPT, GPT-NeoX, etc. Atribuímos o desempenho excepcional do Goat à tokenização consistente de números do LLaMA. Para enfrentar tarefas mais desafiadoras, como multiplicação e divisão de números grandes, propomos uma abordagem que classifica as tarefas com base em sua capacidade de aprendizado e, subsequentemente, decompõe tarefas não aprendíveis, como multiplicação e divisão de múltiplos dígitos, em uma série de tarefas aprendíveis, aproveitando princípios aritméticos básicos. Examinamos minuciosamente o desempenho do nosso modelo, oferecendo uma avaliação abrangente da eficácia das etapas de decomposição propostas. Além disso, o Goat-7B pode ser facilmente treinado usando LoRA em uma GPU com 24GB de VRAM, facilitando a reprodutibilidade para outros pesquisadores. Disponibilizamos nosso modelo, conjunto de dados e o script Python para geração de dados.
Um grande risco do uso de modelos de linguagem em aplicações práticas é sua tendência a alucinar afirmações incorretas. As alucinações são frequentemente atribuídas a lacunas de conhecimento nos modelos de linguagem (LMs), mas nós hipotetizamos que, em alguns casos, ao justificar alucinações previamente geradas, os LMs produzem afirmações falsas que eles mesmos poderiam reconhecer como incorretas. Construímos três conjuntos de dados de perguntas e respostas em que o ChatGPT e o GPT-4 frequentemente fornecem uma resposta incorreta e oferecem uma explicação com pelo menos uma afirmação errada. Crucialmente, descobrimos que o ChatGPT e o GPT-4 conseguem identificar 67% e 87% de seus próprios erros, respectivamente. Nós nos referimos a esse fenômeno como "efeito bola de neve de alucinação": um LM se compromete excessivamente com erros iniciais, levando a mais erros que, de outra forma, não cometeria.
Modelos de linguagem de fala (SpeechLMs) processam e geram dados acústicos exclusivamente, sem supervisão textual. Neste trabalho, propomos o TWIST, um método para treinar SpeechLMs utilizando uma inicialização a partir de modelos de linguagem textual pré-treinados. Demonstramos, por meio de avaliações automáticas e humanas, que o TWIST supera um SpeechLM iniciado do zero em todos os aspectos. Analisamos empiricamente o efeito de diferentes escolhas de design do modelo, como o tokenizador de fala, o modelo textual pré-treinado e o tamanho do conjunto de dados. Constatamos que a escala do modelo e do conjunto de dados desempenham um papel importante na construção de SpeechLMs com melhor desempenho. Com base em nossas observações, apresentamos o maior SpeechLM (até onde sabemos) tanto em termos de número de parâmetros quanto de dados de treinamento. Além disso, introduzimos duas versões faladas do benchmark textual StoryCloze para aprimorar a avaliação do modelo e impulsionar pesquisas futuras na área. Amostras de fala podem ser encontradas em nosso site: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.
O surgimento de grandes modelos de linguagem (LLMs, na sigla em inglês) desbloqueou diversas aplicações dessa tecnologia no desenvolvimento de software. Em particular, os LLMs generativos têm se mostrado eficazes no fornecimento de ferramentas de autoria de código baseadas em IA, capazes de sugerir instruções ou blocos inteiros de código durante a escrita de programas. Neste artigo, apresentamos o CodeCompose, uma ferramenta de autoria de código assistida por IA desenvolvida e implantada internamente na Meta. O CodeCompose é baseado no LLM InCoder, que combina capacidades generativas com bidirecionalidade. Escalamos o CodeCompose para atender dezenas de milhares de desenvolvedores na Meta, abrangendo mais de 10 linguagens de programação e diversas superfícies de codificação. Discutimos desafios únicos em termos de experiência do usuário e métricas que surgem ao implantar tais ferramentas em ambientes industriais de grande escala. Apresentamos nossa experiência na tomada de decisões de design sobre o modelo e a arquitetura do sistema do CodeCompose, que abordam esses desafios. Por fim, apresentamos métricas de nossa implantação em larga escala do CodeCompose, mostrando seu impacto na experiência de autoria de código interna da Meta durante um período de 15 dias, no qual 4,5 milhões de sugestões foram feitas pelo CodeCompose. Métricas quantitativas revelam que (i) o CodeCompose tem uma taxa de aceitação de 22% em várias linguagens e (ii) 8% do código digitado pelos usuários do CodeCompose é proveniente da aceitação de sugestões da ferramenta. Feedback qualitativo indica uma recepção positiva esmagadora de 91,5% para o CodeCompose. Além de auxiliar na autoria de código, o CodeCompose também está introduzindo outros efeitos positivos, como incentivar os desenvolvedores a gerar mais documentação no código e ajudá-los na descoberta de novas APIs, entre outros.
O contexto de tamanho fixo do Transformer torna os modelos GPT incapazes de gerar textos arbitrariamente longos. Neste artigo, apresentamos o RecurrentGPT, um simulacro baseado em linguagem do mecanismo de recorrência em RNNs. O RecurrentGPT é construído sobre um modelo de linguagem de grande escala (LLM), como o ChatGPT, e utiliza linguagem natural para simular o mecanismo de Memória de Longo e Curto Prazo (LSTM) em um LSTM. A cada passo de tempo, o RecurrentGPT gera um parágrafo de texto e atualiza sua memória de longo e curto prazo baseada em linguagem, armazenada no disco rígido e no prompt, respectivamente. Esse mecanismo de recorrência permite que o RecurrentGPT gere textos de comprimento arbitrário sem esquecer. Como os usuários humanos podem facilmente observar e editar as memórias em linguagem natural, o RecurrentGPT é interpretável e permite a geração interativa de textos longos. O RecurrentGPT é um passo inicial em direção a sistemas de escrita assistida por computador de próxima geração, indo além de sugestões de edição local. Além de produzir conteúdo gerado por IA (AIGC), também demonstramos a possibilidade de usar o RecurrentGPT como uma ficção interativa que interage diretamente com os consumidores. Chamamos esse uso de modelos generativos de ``IA Como Conteúdo'' (AIAC), que acreditamos ser a próxima forma do AIGC convencional. Além disso, demonstramos a possibilidade de usar o RecurrentGPT para criar ficção interativa personalizada que interage diretamente com os leitores, em vez de interagir com escritores. De forma mais ampla, o RecurrentGPT demonstra a utilidade de emprestar ideias de designs de modelos populares em ciência cognitiva e aprendizado profundo para a criação de prompts em LLMs. Nosso código está disponível em https://github.com/aiwaves-cn/RecurrentGPT e uma demonstração online está disponível em https://www.aiwaves.org/recurrentgpt.
Os seres humanos aprendem a dominar repertórios abertos de habilidades imaginando e praticando seus próprios objetivos. Esse processo de aprendizado autotélico, literalmente a busca por objetivos (telos) autogerados (auto), torna-se cada vez mais aberto à medida que os objetivos se tornam mais diversos, abstratos e criativos. A exploração resultante do espaço de habilidades possíveis é sustentada por uma exploração interindividual: as representações de objetivos evoluem culturalmente e são transmitidas entre indivíduos, particularmente por meio da linguagem. Atualmente, os agentes artificiais dependem principalmente de representações de objetivos predefinidas, correspondentes a espaços de objetivos que são limitados (por exemplo, listas de instruções) ou ilimitados (por exemplo, o espaço de possíveis entradas visuais), mas raramente são dotados da capacidade de reformular suas representações de objetivos, formar novas abstrações ou imaginar objetivos criativos. Neste artigo, introduzimos um agente autotélico aumentado por um modelo de linguagem (LMA3) que aproveita um modelo de linguagem (LM) pré-treinado para apoiar a representação, geração e aprendizado de objetivos diversos, abstratos e relevantes para humanos. O LM é usado como um modelo imperfeito de transmissão cultural humana; uma tentativa de capturar aspectos do senso comum, da física intuitiva e dos interesses gerais dos humanos. Especificamente, ele suporta três componentes-chave da arquitetura autotélica: 1) um reclassificador que descreve os objetivos alcançados nas trajetórias do agente, 2) um gerador de objetivos que sugere novos objetivos de alto nível, juntamente com sua decomposição em subobjetivos que o agente já domina, e 3) funções de recompensa para cada um desses objetivos. Sem depender de representações de objetivos, funções de recompensa ou currículos pré-definidos, mostramos que os agentes LMA3 aprendem a dominar uma grande diversidade de habilidades em um ambiente baseado em texto agnóstico à tarefa.
Neste artigo, realizamos uma investigação detalhada sobre as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs), com foco específico nos modelos Open Pretrained Transformers (OPT) como representantes dessa categoria. Nosso estudo envolve o ajuste fino de três tamanhos diferentes de OPT em um corpus de raciocínio cuidadosamente selecionado, resultando em dois conjuntos de modelos ajustados: OPT-R, ajustado sem explicações, e OPT-RE, ajustado com explicações. Em seguida, avaliamos todos os modelos em 57 tarefas fora do domínio extraídas do benchmark SUPER-NATURALINSTRUCTIONS, abrangendo 26 habilidades de raciocínio distintas, utilizando três técnicas de prompting. Através de uma grade abrangente de 27 configurações e 6.156 avaliações de teste, investigamos as dimensões de ajuste fino, prompting e escala para entender o papel das explicações em diferentes habilidades de raciocínio. Nossos resultados revelam que a presença de explicações nos exemplos fewshot não tem um impacto significativo no desempenho do modelo quando este é ajustado, enquanto afeta positivamente a contraparte não ajustada. Além disso, observamos um aumento leve, porém consistente, na precisão de classificação à medida que incorporamos explicações durante o prompting e o ajuste fino, respectivamente. Por fim, oferecemos insights sobre quais habilidades se beneficiam mais da incorporação de explicações durante o ajuste fino e o prompting, como Raciocínio Numérico (+20,4%) e Raciocínio Analógico (+13,9%), bem como habilidades que apresentam efeitos negligenciáveis ou negativos.
Propomos um novo benchmark multimodal de vídeo - o Teste de Percepção - para avaliar as habilidades de percepção e raciocínio de modelos multimodais pré-treinados (por exemplo, Flamingo, BEiT-3 ou GPT-4). Em comparação com benchmarks existentes que se concentram em tarefas computacionais (por exemplo, classificação, detecção ou rastreamento), o Teste de Percepção foca em habilidades (Memória, Abstração, Física, Semântica) e tipos de raciocínio (descritivo, explicativo, preditivo, contrafactual) através das modalidades de vídeo, áudio e texto, fornecendo uma ferramenta de avaliação abrangente e eficiente. O benchmark investiga as capacidades de transferência dos modelos pré-treinados, em um regime de zero-shot / few-shot ou ajuste fino limitado. Para esses propósitos, o Teste de Percepção introduz 11,6 mil vídeos do mundo real, com duração média de 23 segundos, projetados para mostrar situações perceptualmente interessantes, filmados por cerca de 100 participantes em todo o mundo. Os vídeos são densamente anotados com seis tipos de rótulos (respostas de múltipla escolha e perguntas fundamentadas em vídeo, rastreamentos de objetos e pontos, segmentos temporais de ação e som), permitindo avaliações tanto linguísticas quanto não linguísticas. As divisões de ajuste fino e validação do benchmark estão publicamente disponíveis (licença CC-BY), além de um servidor de desafios com uma divisão de teste reservada. Os resultados da linha de base humana comparados aos modelos de QA de vídeo state-of-the-art mostram uma lacuna significativa de desempenho (91,4% vs 43,6%), sugerindo que há espaço considerável para melhoria na compreensão multimodal de vídeo. O conjunto de dados, código das linhas de base e servidor de desafios estão disponíveis em https://github.com/deepmind/perception_test.
Alinhar grandes modelos de linguagem (LLMs) aos valores humanos tem se tornado cada vez mais importante, pois permite um controle sofisticado desses modelos, como fazê-los seguir instruções específicas enquanto os mantém menos tóxicos. No entanto, isso requer uma quantidade significativa de demonstrações e feedback humanos. Recentemente, modelos de código aberto tentaram replicar o processo de aprendizado de alinhamento por meio da destilação de dados de LLMs já alinhados, como o InstructGPT ou o ChatGPT. Embora esse processo reduza o esforço humano, a construção desses conjuntos de dados depende fortemente dos modelos "professores". Neste trabalho, propomos uma nova estrutura para o aprendizado de alinhamento que requer quase nenhum trabalho humano e não depende de LLMs pré-alinhados. Primeiro, realizamos a modelagem de recompensa (RM) com feedback sintético, contrastando respostas de LLMs básicos com diferentes tamanhos e prompts. Em seguida, usamos o RM para simular demonstrações de alta qualidade a fim de treinar uma política supervisionada e para otimizar ainda mais o modelo com aprendizado por reforço. Nosso modelo resultante, Aligned Language Model with Synthetic Training dataset (ALMoST), supera modelos de código aberto, incluindo Alpaca, Dolly e OpenAssistant, que são treinados com as saídas do InstructGPT ou instruções anotadas por humanos. Nosso modelo de 7B supera os modelos de 12-13B em testes A/B usando o GPT-4 como juiz, com uma taxa de vitória média de cerca de 75%.
A escassez de dados é um problema crucial para o desenvolvimento de sistemas de PLN altamente multilíngues. No entanto, para muitas línguas sub-representadas (ULs) -- idiomas para os quais a pesquisa em PLN está particularmente atrasada em atender às necessidades dos usuários -- é viável anotar pequenas quantidades de dados. Motivados por isso, propomos o XTREME-UP, um benchmark definido por: seu foco no cenário de dados escassos em vez de zero-shot; seu foco em tarefas centradas no usuário -- tarefas com ampla adoção por falantes de línguas de alta disponibilidade de recursos; e seu foco em línguas sub-representadas, onde esse cenário de dados escassos tende a ser mais realista. O XTREME-UP avalia as capacidades de modelos de linguagem em 88 línguas sub-representadas em 9 tecnologias centradas no usuário, incluindo ASR, OCR, MT e tarefas de acesso à informação que são de utilidade geral. Criamos novos conjuntos de dados para OCR, autocompletar, análise semântica e transliteração, e aprimoramos conjuntos de dados existentes para outras tarefas. O XTREME-UP fornece metodologia para avaliar diversos cenários de modelagem, incluindo apenas texto, multimodal (visão, áudio e texto), ajuste de parâmetros supervisionado e aprendizado em contexto. Avaliamos modelos comumente usados no benchmark. Disponibilizamos todo o código e scripts para treinar e avaliar modelos.