Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Llemma, um grande modelo de linguagem para matemática. Continuamos o pré-treinamento do Code Llama no Proof-Pile-2, uma mistura de artigos científicos, dados da web contendo matemática e código matemático, resultando no Llemma. No benchmark MATH, o Llemma supera todos os modelos base abertos conhecidos, bem como a suíte de modelos Minerva não lançada, em uma base equi-paramétrica. Além disso, o Llemma é capaz de utilizar ferramentas e realizar provas formais de teoremas sem qualquer ajuste adicional. Disponibilizamos abertamente todos os artefatos, incluindo modelos de 7 bilhões e 34 bilhões de parâmetros, o Proof-Pile-2 e o código para replicar nossos experimentos.
Grandes modelos de linguagem (LMs) são atualmente treinados para prever tokens com base em prefixos de documentos, permitindo que realizem diretamente tarefas de geração de texto longo e de estilo de prompt que podem ser reduzidas à conclusão de documentos. Os pipelines de pré-treinamento existentes treinam LMs concatenando conjuntos aleatórios de documentos curtos para criar contextos de entrada, mas os documentos anteriores não fornecem sinal para prever o próximo documento. Em vez disso, apresentamos o Pré-Treinamento em Contexto, uma nova abordagem na qual os modelos de linguagem são pré-treinados em uma sequência de documentos relacionados, incentivando explicitamente que leiam e raciocinem além dos limites dos documentos. Podemos realizar o Pré-Treinamento em Contexto simplesmente alterando a ordenação dos documentos para que cada contexto contenha documentos relacionados e aplicando diretamente os pipelines de pré-treinamento existentes. No entanto, esse problema de ordenação de documentos é desafiador. Existem bilhões de documentos e gostaríamos que a ordenação maximizasse a similaridade contextual para cada documento sem repetir nenhum dado. Para isso, introduzimos algoritmos aproximados para encontrar documentos relacionados com busca eficiente de vizinhos mais próximos e construir contextos de entrada coerentes com um algoritmo de travessia de grafos. Nossos experimentos mostram que o Pré-Treinamento em Contexto oferece uma abordagem simples e escalável para melhorar significativamente o desempenho dos LMs: observamos melhorias notáveis em tarefas que exigem raciocínio contextual mais complexo, incluindo aprendizado em contexto (+8%), compreensão de leitura (+15%), fidelidade a contextos anteriores (+16%), raciocínio de contexto longo (+5%) e aumento de recuperação (+9%).
Modelos de linguagem de grande escala demonstraram suas notáveis capacidades como uma interface geral para diversas aplicações relacionadas à linguagem. Motivados por isso, nosso objetivo é construir uma interface unificada para a execução de várias tarefas visão-linguagem, incluindo descrição de imagens, resposta a perguntas visuais e fundamentação visual, entre outras. O desafio é utilizar um único modelo para realizar eficazmente tarefas diversas de visão-linguagem com instruções multimodais simples. Para alcançar esse objetivo, apresentamos o MiniGPT-v2, um modelo que pode ser tratado como uma interface unificada para lidar melhor com várias tarefas de visão-linguagem. Propomos o uso de identificadores únicos para diferentes tarefas durante o treinamento do modelo. Esses identificadores permitem que nosso modelo distinga cada instrução de tarefa com facilidade e também melhorem a eficiência de aprendizado do modelo para cada tarefa. Após o treinamento em três estágios, os resultados experimentais mostram que o MiniGPT-v2 alcança um desempenho robusto em diversos benchmarks de resposta a perguntas visuais e fundamentação visual em comparação com outros modelos generalistas de visão-linguagem. Nosso modelo e códigos estão disponíveis em https://minigpt-v2.github.io/.
Um framework de robô interativo realiza o planejamento de tarefas de longo prazo e pode facilmente generalizar para novos objetivos ou tarefas distintas, mesmo durante a execução. No entanto, a maioria dos métodos tradicionais exige um design de módulo predefinido, o que dificulta a generalização para diferentes objetivos. Abordagens recentes baseadas em modelos de linguagem de grande escala permitem um planejamento mais aberto, mas frequentemente exigem engenharia de prompt complexa ou modelos pré-treinados específicos de domínio. Para resolver isso, propomos um framework simples que alcança o planejamento interativo de tarefas com modelos de linguagem. Nosso sistema incorpora tanto o planejamento de alto nível quanto a execução de funções de baixo nível por meio da linguagem. Verificamos a robustez do nosso sistema na geração de instruções de alto nível para objetivos não vistos e sua facilidade de adaptação a diferentes tarefas apenas substituindo as diretrizes da tarefa, sem a necessidade de engenharia de prompt adicional complexa. Além disso, quando o usuário envia uma nova solicitação, nosso sistema é capaz de replanejar com precisão com base na nova solicitação, nas diretrizes da tarefa e nas etapas previamente executadas. Para mais detalhes, consulte https://wuphilipp.github.io/itp_site e https://youtu.be/TrKLuyv26_g.
Embora os grandes modelos de linguagem tenham se mostrado eficazes em uma ampla gama de aplicações subsequentes, eles frequentemente geram textos problemáticos ou que carecem de atributos desejados. Neste artigo, introduzimos o Decodificação Aumentada por Recompensa (Reward-Augmented Decoding - RAD), um procedimento de geração de texto que utiliza um pequeno modelo de recompensa unidirecional para incentivar um modelo de linguagem a gerar textos com certas propriedades. Especificamente, o RAD utiliza o modelo de recompensa para pontuar as gerações à medida que são produzidas e redimensiona as probabilidades de amostragem para favorecer tokens de alta recompensa. Ao usar um modelo de recompensa unidirecional, o RAD pode armazenar em cache as ativações de etapas anteriores de geração para reduzir a sobrecarga computacional. Por meio de experimentos na geração de textos não tóxicos e com controle de sentimento, demonstramos que o RAD apresenta o melhor desempenho entre os métodos que alteram apenas o procedimento de geração e iguala o desempenho dos métodos state-of-the-art que envolvem o retreinamento do modelo de linguagem. Além disso, validamos que o RAD é eficaz em modelos de linguagem muito grandes, incorrendo em uma sobrecarga computacional mínima.
Estamos interessados em habilitar o planejamento visual para tarefas complexas de longo horizonte no espaço de vídeos e linguagem gerados, aproveitando os avanços recentes em grandes modelos generativos pré-treinados com dados em escala da Internet. Para isso, apresentamos o planejamento de vídeo e linguagem (VLP, do inglês Video Language Planning), um algoritmo que consiste em um procedimento de busca em árvore, onde treinamos (i) modelos de visão e linguagem para atuarem tanto como políticas quanto como funções de valor, e (ii) modelos de texto para vídeo como modelos de dinâmica. O VLP recebe como entrada uma instrução de tarefa de longo horizonte e uma observação de imagem atual, e produz um plano de vídeo longo que fornece especificações multimodais detalhadas (vídeo e linguagem) que descrevem como concluir a tarefa final. O VLP escala com o aumento do orçamento computacional, onde mais tempo de computação resulta em planos de vídeo aprimorados, e é capaz de sintetizar planos de vídeo de longo horizonte em diferentes domínios de robótica: desde o rearranjo de múltiplos objetos até a manipulação destra bi-braço com múltiplas câmeras. Os planos de vídeo gerados podem ser traduzidos em ações reais de robôs por meio de políticas condicionadas a objetivos, condicionadas a cada quadro intermediário do vídeo gerado. Experimentos mostram que o VLP melhora substancialmente as taxas de sucesso de tarefas de longo horizonte em comparação com métodos anteriores, tanto em robôs simulados quanto reais (em 3 plataformas de hardware).
Estudamos a destilação de dados para tarefas de aprendizado de máquina auto-regressivas, onde a entrada e a saída possuem uma estrutura causal estritamente da esquerda para a direita. Mais especificamente, propomos o Farzi, que resume um conjunto de dados de sequência de eventos em um pequeno número de sequências sintéticas -- os Dados Farzi -- que são otimizados para manter (se não melhorar) o desempenho do modelo em comparação com o treinamento no conjunto de dados completo. Nos bastidores, o Farzi realiza a destilação de dados com eficiência de memória por meio de (i) derivação eficiente da diferenciação em modo reverso do otimizador Adam, aproveitando Produtos Hessiano-Vetor; e (ii) fatorização do espaço de eventos discretos de alta dimensionalidade em um espaço latente que comprovadamente promove regularização implícita. Empiricamente, para tarefas de recomendação sequencial e modelagem de linguagem, conseguimos alcançar 98-120% do desempenho de dados completos em tarefas subsequentes ao treinar modelos de última geração em Dados Farzi com tamanho de apenas 0,1% do conjunto de dados original. Notavelmente, a capacidade de treinar modelos melhores com significativamente menos dados lança luz sobre o design de futuros modelos auto-regressivos de grande escala e abre novas oportunidades para expandir ainda mais o tamanho dos modelos e dos dados.
Formatos de dados com largura de bits reduzida são fundamentais para diminuir os custos computacionais e de armazenamento das aplicações modernas de aprendizado profundo. Este artigo avalia os formatos de dados Microscaling (MX), que combinam um fator de escala por bloco com tipos de ponto flutuante e inteiro de baixa precisão para elementos individuais. Os formatos MX equilibram as necessidades concorrentes de eficiência de hardware, precisão do modelo e facilidade de uso. Resultados empíricos em mais de duas dezenas de benchmarks demonstram a praticidade dos formatos MX como uma substituição direta para o FP32 padrão em inferência e treinamento de IA, com baixa dificuldade para o usuário. Também mostramos o primeiro exemplo de treinamento de modelos generativos de linguagem com pesos, ativações e gradientes abaixo de 8 bits, com perda mínima de precisão e sem modificações na receita de treinamento.
Apesar de seu sucesso em muitas tarefas de processamento de linguagem natural, a resolução de problemas matemáticos continua sendo um desafio significativo para os grandes modelos de linguagem (LLMs, na sigla em inglês). Existe uma grande lacuna entre o desempenho "pass-at-one" e "pass-at-N" dos LLMs na resolução de problemas matemáticos, sugerindo que os LLMs podem estar próximos de encontrar soluções corretas, o que motiva nossa exploração de métodos de fine-tuning para desbloquear o desempenho desses modelos. Utilizando o desafiador conjunto de dados MATH, investigamos três estratégias de fine-tuning: (1) fine-tuning de solução, onde ajustamos o modelo para gerar uma solução detalhada para um problema matemático dado; (2) reclassificação de clusters de soluções, onde o LLM é ajustado como um verificador/avaliador de soluções para escolher entre clusters de soluções candidatas geradas; (3) fine-tuning sequencial multitarefa, que integra de forma eficiente as tarefas de geração e avaliação de soluções para melhorar o desempenho do LLM. Com esses métodos, apresentamos um estudo empírico abrangente em uma série de modelos PaLM 2 e descobrimos: (1) A qualidade e o estilo das soluções passo a passo usadas para o fine-tuning podem ter um impacto significativo no desempenho do modelo; (2) Embora a reclassificação de soluções e a votação majoritária sejam ambas eficazes para melhorar o desempenho do modelo quando usadas separadamente, elas também podem ser usadas em conjunto para um aumento ainda maior no desempenho; (3) O fine-tuning multitarefa que separa sequencialmente as tarefas de geração e avaliação de soluções pode oferecer um desempenho melhorado em comparação com a linha de base de fine-tuning de solução. Guiados por essas descobertas, projetamos uma receita de fine-tuning que resulta em aproximadamente 58,8% de precisão no conjunto de dados MATH com modelos PaLM 2-L ajustados, uma melhoria de 11,2% na precisão em relação ao desempenho few-shot do modelo PaLM 2-L pré-treinado com votação majoritária.
A síntese de invariantes indutivos de loop é fundamental para a automação da verificação de programas. Neste trabalho, observamos que os Modelos de Linguagem de Grande Escala (como gpt-3.5 ou gpt-4) são capazes de sintetizar invariantes de loop para uma classe de programas em um cenário de 0-shot, mas exigem várias amostras para gerar os invariantes corretos. Isso pode levar a um grande número de chamadas a um verificador de programas para estabelecer um invariante. Para resolver esse problema, propomos uma abordagem de {\it reordenamento} para os resultados gerados pelos LLMs. Projetamos um ordenador que pode distinguir entre invariantes indutivos corretos e tentativas incorretas com base na definição do problema. O ordenador é otimizado como um ordenador contrastivo. Resultados experimentais demonstram que esse mecanismo de reordenamento melhora significativamente a classificação dos invariantes corretos entre os candidatos gerados, levando a uma redução notável no número de chamadas a um verificador.
Investigamos as capacidades de modelos de linguagem grandes (LLMs) baseados em transformadores em tarefas de raciocínio relacional envolvendo símbolos abstratos. Essas tarefas têm sido estudadas há muito tempo na literatura de neurociência como blocos fundamentais para habilidades mais complexas em programação, matemática e raciocínio verbal. Para (i) tarefas de regressão, provamos que os transformadores generalizam quando treinados, mas exigem quantidades surpreendentemente grandes de dados de treinamento. Para (ii) tarefas de previsão do próximo token com rótulos simbólicos, mostramos uma "lei de escala inversa": os transformadores falham em generalizar à medida que sua dimensão de incorporação aumenta. Para ambos os cenários (i) e (ii), propomos modificações sutis nos transformadores que podem reduzir a quantidade de dados necessária ao adicionar dois parâmetros treináveis por cabeça.