Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) recentemente demonstraram capacidades notáveis de raciocínio na resolução de problemas matemáticos. Para aprimorar ainda mais essa capacidade, este trabalho propõe o Aprendizado a Partir de Erros (LeMa), semelhante aos processos de aprendizagem humana. Considere um estudante que não conseguiu resolver um problema matemático: ele aprenderá com o erro cometido e como corrigi-lo. Imitando esse processo de aprendizagem orientado por erros, o LeMa ajusta finamente os LLMs em pares de dados de correção de erros gerados pelo GPT-4. Especificamente, primeiro coletamos caminhos de raciocínio imprecisos de vários LLMs e, em seguida, utilizamos o GPT-4 como um "corretor" para (1) identificar o passo com erro, (2) explicar a razão do erro e (3) corrigir o erro e gerar a resposta final. Os resultados experimentais demonstram a eficácia do LeMa: em cinco LLMs de base e duas tarefas de raciocínio matemático, o LeMa consistentemente melhora o desempenho em comparação com o ajuste fino apenas em dados de Chain-of-Thought (CoT). Impressionantemente, o LeMa também pode beneficiar LLMs especializados, como WizardMath e MetaMath, alcançando 85,4% de precisão pass@1 no GSM8K e 27,1% no MATH. Isso supera o desempenho de estado da arte (SOTA) alcançado por modelos de código aberto sem execução nessas tarefas desafiadoras. Nosso código, dados e modelos estarão publicamente disponíveis em https://github.com/microsoft/CodeT.
Modelos multimodais de grande escala demonstram uma capacidade generalista notável para realizar diversas tarefas multimodais de maneira zero-shot. Pares de imagem-texto em grande escala baseados na web contribuem fundamentalmente para esse sucesso, mas sofrem com ruído excessivo. Estudos recentes utilizam legendas alternativas sintetizadas por modelos de geração de legendas e alcançaram desempenho notável em benchmarks. No entanto, nossos experimentos revelam problemas significativos de Deficiência de Escalabilidade e Perda de Conhecimento Mundial em modelos treinados com legendas sintéticas, que foram amplamente obscurecidos por seu sucesso inicial em benchmarks. Após um exame mais detalhado, identificamos a causa raiz como a estrutura de linguagem excessivamente simplificada e a falta de detalhes de conhecimento nas legendas sintéticas existentes. Para fornecer dados de pré-treinamento multimodal de maior qualidade e mais escaláveis, propomos o CapsFusion, uma estrutura avançada que aproveita modelos de linguagem de grande escala para consolidar e refinar informações tanto de pares de imagem-texto baseados na web quanto de legendas sintéticas. Experimentos extensivos mostram que as legendas do CapsFusion exibem uma superioridade notável em todos os aspectos em relação às legendas existentes em termos de desempenho do modelo (por exemplo, melhorias de 18,8 e 18,3 na pontuação CIDEr no COCO e NoCaps), eficiência de amostragem (exigindo 11 a 16 vezes menos computação do que as baselines), profundidade do conhecimento mundial e escalabilidade. Essas vantagens de eficácia, eficiência e escalabilidade posicionam o CapsFusion como um candidato promissor para o futuro escalonamento do treinamento de LMMs.
Sistemas de visão computacional baseados em redes neurais são tipicamente construídos sobre um _backbone_, um extrator de características pré-treinado ou inicializado aleatoriamente. Alguns anos atrás, a opção padrão era uma rede neural convolucional treinada no ImageNet. No entanto, o passado recente testemunhou o surgimento de inúmeros _backbones_ pré-treinados usando diversos algoritmos e conjuntos de dados. Embora essa abundância de escolhas tenha levado a melhorias de desempenho em uma variedade de sistemas, é difícil para os profissionais tomar decisões informadas sobre qual _backbone_ escolher. O _Battle of the Backbones_ (BoB) facilita essa escolha ao avaliar uma ampla gama de modelos pré-treinados, incluindo modelos de visão e linguagem, aqueles treinados por meio de aprendizado auto-supervisionado e o _backbone_ do Stable Diffusion, em um conjunto diversificado de tarefas de visão computacional, desde classificação até detecção de objetos, generalização fora da distribuição (OOD) e mais. Além disso, o BoB ilumina direções promissoras para a comunidade de pesquisa avançar a visão computacional, destacando pontos fortes e fracos das abordagens existentes por meio de uma análise abrangente realizada em mais de 1500 execuções de treinamento. Embora os transformadores de visão (ViTs) e o aprendizado auto-supervisionado (SSL) estejam cada vez mais populares, descobrimos que as redes neurais convolucionais pré-treinadas de forma supervisionada em grandes conjuntos de dados ainda apresentam o melhor desempenho na maioria das tarefas entre os modelos que consideramos. Além disso, em comparações diretas com as mesmas arquiteturas e conjuntos de dados de pré-treinamento de tamanho similar, descobrimos que os _backbones_ SSL são altamente competitivos, indicando que trabalhos futuros devem realizar pré-treinamento SSL com arquiteturas avançadas e conjuntos de dados de pré-treinamento maiores. Disponibilizamos os resultados brutos de nossos experimentos, juntamente com o código que permite aos pesquisadores testar seus próprios _backbones_ aqui: https://github.com/hsouri/Battle-of-the-Backbones.
O aprendizado por reforço offline (RL, do inglês Reinforcement Learning) visa encontrar uma política quase ótima utilizando conjuntos de dados pré-coletados. Em cenários do mundo real, a coleta de dados pode ser custosa e arriscada; portanto, o RL offline se torna particularmente desafiador quando os dados do domínio são limitados. Dados os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) e sua capacidade de aprendizado com poucos exemplos, este artigo introduz o LaMo (Language Models for Motion Control), um framework geral baseado em Transformadores de Decisão para utilizar efetivamente Modelos de Linguagem (LMs, do inglês Language Models) pré-treinados em RL offline. Nosso framework destaca quatro componentes cruciais: (1) Inicialização de Transformadores de Decisão com LMs pré-treinados sequencialmente, (2) emprego do método de ajuste fino LoRA, em contraste com o ajuste fino de todos os pesos, para combinar efetivamente o conhecimento pré-treinado dos LMs e o conhecimento do domínio, (3) uso da transformação não linear MLP em vez de projeções lineares para gerar embeddings, e (4) integração de uma perda auxiliar de previsão de linguagem durante o ajuste fino para estabilizar os LMs e preservar suas habilidades originais em linguagem. Resultados empíricos indicam que o LaMo alcança desempenho de ponta em tarefas de recompensa esparsa e reduz a lacuna entre métodos de RL offline baseados em valor e transformadores de decisão em tarefas de recompensa densa. Em particular, nosso método demonstra desempenho superior em cenários com amostras de dados limitadas. O site do nosso projeto está disponível em https://lamo2023.github.io.
Avaliamos o GPT-4 em um Teste de Turing público online. O prompt do GPT-4 com melhor desempenho passou em 41% dos jogos, superando as linhas de base estabelecidas por ELIZA (27%) e GPT-3.5 (14%), mas ficando aquém do acaso e da linha de base estabelecida por participantes humanos (63%). As decisões dos participantes foram baseadas principalmente no estilo linguístico (35%) e em traços socioemocionais (27%), apoiando a ideia de que a inteligência não é suficiente para passar no Teste de Turing. As características demográficas dos participantes, incluindo educação e familiaridade com LLMs, não previram a taxa de detecção, sugerindo que mesmo aqueles que entendem profundamente os sistemas e interagem com eles frequentemente podem ser suscetíveis à decepção. Apesar das limitações conhecidas como teste de inteligência, argumentamos que o Teste de Turing continua relevante como uma avaliação da comunicação naturalística e da decepção. Modelos de IA com a capacidade de se disfarçar como humanos poderiam ter consequências sociais generalizadas, e analisamos a eficácia de diferentes estratégias e critérios para julgar a semelhança humana.
Desenvolvedores de IA frequentemente aplicam procedimentos de alinhamento de segurança para prevenir o uso indevido de seus sistemas de IA. Por exemplo, antes de lançar o Llama 2-Chat, uma coleção de modelos de linguagem grandes ajustados por instruções, a Meta investiu pesadamente em treinamento de segurança, incorporando extensos testes de red teaming e aprendizado por reforço com feedback humano. No entanto, ainda não está claro o quão bem o treinamento de segurança protege contra o uso indevido do modelo quando os atacantes têm acesso aos pesos do modelo. Exploramos a robustez do treinamento de segurança em modelos de linguagem ajustando subversivamente os pesos públicos do Llama 2-Chat. Empregamos a adaptação de baixo rank (LoRA) como um método eficiente de ajuste fino. Com um orçamento de menos de US$ 200 por modelo e usando apenas uma GPU, conseguimos desfazer o treinamento de segurança dos modelos Llama 2-Chat de tamanhos 7B, 13B e 70B. Especificamente, nossa técnica de ajuste fino reduz significativamente a taxa na qual o modelo se recusa a seguir instruções prejudiciais. Alcançamos uma taxa de recusa abaixo de 1% para nosso modelo Llama 2-Chat de 70B em dois benchmarks de recusa. Nosso método de ajuste fino mantém o desempenho geral, o que validamos comparando nossos modelos ajustados com o Llama 2-Chat em dois benchmarks. Além disso, apresentamos uma seleção de saídas prejudiciais produzidas por nossos modelos. Embora haja uma incerteza considerável sobre o escopo dos riscos dos modelos atuais, é provável que modelos futuros tenham capacidades significativamente mais perigosas, incluindo a capacidade de invadir infraestruturas críticas, criar bioarmas perigosas ou se replicar e adaptar autonomamente a novos ambientes. Mostramos que o ajuste fino subversivo é prático e eficaz e, portanto, argumentamos que a avaliação dos riscos do ajuste fino deve ser uma parte central das avaliações de risco para o lançamento de pesos de modelos.
Os modelos de difusão são uma família de modelos generativos que alcançam desempenho recorde em tarefas como síntese de imagens, geração de vídeos e design de moléculas. Apesar de suas capacidades, sua eficiência, especialmente no processo de remoção de ruído reverso, continua sendo um desafio devido a taxas de convergência lentas e altos custos computacionais. Neste trabalho, introduzimos uma abordagem que aproveita sistemas dinâmicos contínuos para projetar uma nova rede de remoção de ruído para modelos de difusão que é mais eficiente em termos de parâmetros, exibe convergência mais rápida e demonstra maior robustez ao ruído. Ao experimentar com modelos de difusão probabilística de remoção de ruído, nosso framework opera com aproximadamente um quarto dos parâmetros e 30% das Operações de Ponto Flutuante (FLOPs) em comparação com U-Nets padrão em Modelos de Difusão Probabilística de Remoção de Ruído (DDPMs). Além disso, nosso modelo é até 70% mais rápido na inferência do que os modelos de base quando medido em condições iguais, enquanto converge para soluções de melhor qualidade.
Grandes corpora de texto são a espinha dorsal dos modelos de linguagem. No entanto, temos um entendimento limitado do conteúdo desses corpora, incluindo estatísticas gerais, qualidade, fatores sociais e a inclusão de dados de avaliação (contaminação). Neste trabalho, propomos o What's In My Big Data? (WIMBD), uma plataforma e um conjunto de dezesseis análises que nos permitem revelar e comparar o conteúdo de grandes corpora de texto. O WIMBD se baseia em duas capacidades básicas — contagem e busca — em escala, o que nos permite analisar mais de 35 terabytes em um nó de computação padrão. Aplicamos o WIMBD a dez diferentes corpora usados para treinar modelos de linguagem populares, incluindo C4, The Pile e RedPajama. Nossa análise revela várias descobertas surpreendentes e anteriormente não documentadas sobre esses corpora, incluindo a alta prevalência de conteúdo duplicado, sintético e de baixa qualidade, informações pessoalmente identificáveis, linguagem tóxica e contaminação de benchmarks. Por exemplo, descobrimos que cerca de 50% dos documentos no RedPajama e LAION-2B-en são duplicados. Além disso, vários conjuntos de dados usados para avaliar modelos treinados nesses corpora estão contaminados em relação a benchmarks importantes, incluindo o Winograd Schema Challenge e partes do GLUE e SuperGLUE. Disponibilizamos o código e os artefatos do WIMBD como código aberto para fornecer um conjunto padrão de avaliações para novos corpora baseados em texto e incentivar mais análises e transparência em torno deles: github.com/allenai/wimbd.
Para processar novas sentenças, os modelos de linguagem (LMs) devem generalizar de forma composicional — combinar elementos familiares de novas maneiras. Quais aspectos da estrutura de um modelo promovem a generalização composicional? Focando em transformadores, testamos a hipótese, motivada por trabalhos teóricos e empíricos recentes, de que os transformadores generalizam de forma mais composicional quando são mais profundos (possuem mais camadas). Como simplesmente adicionar camadas aumenta o número total de parâmetros, confundindo profundidade e tamanho, construímos três classes de modelos que equilibram profundidade e largura, de modo que o número total de parâmetros seja mantido constante (41M, 134M e 374M de parâmetros). Pré-treinamos todos os modelos como LMs e os ajustamos finamente em tarefas que testam a generalização composicional. Relatamos três conclusões principais: (1) após o ajuste fino, modelos mais profundos generalizam melhor fora da distribuição do que modelos mais rasos, mas o benefício relativo de camadas adicionais diminui rapidamente; (2) dentro de cada família, modelos mais profundos apresentam melhor desempenho em modelagem de linguagem, mas os retornos também diminuem de forma semelhante; (3) os benefícios da profundidade para a generalização composicional não podem ser atribuídos apenas a um melhor desempenho na modelagem de linguagem ou em dados dentro da distribuição.
Recentemente, a geração de vídeos alcançou progressos significativos com resultados realistas. No entanto, os vídeos gerados por IA existentes geralmente são clipes muito curtos ("em nível de cena") que retratam uma única cena. Para entregar um vídeo longo e coerente ("em nível de história"), é desejável ter efeitos criativos de transição e previsão entre diferentes clipes. Este artigo apresenta um modelo de difusão de vídeo curto para longo, SEINE, que se concentra em transição e previsão generativa. O objetivo é gerar vídeos longos de alta qualidade com transições suaves e criativas entre cenas e comprimentos variados de vídeos em nível de cena. Especificamente, propomos um modelo de difusão de vídeo com máscara aleatória para gerar automaticamente transições com base em descrições textuais. Ao fornecer as imagens de diferentes cenas como entradas, combinadas com controle baseado em texto, nosso modelo gera vídeos de transição que garantem coerência e qualidade visual. Além disso, o modelo pode ser facilmente estendido para várias tarefas, como animação de imagem para vídeo e previsão de vídeo autoregressiva. Para realizar uma avaliação abrangente dessa nova tarefa generativa, propomos três critérios de avaliação para transição suave e criativa: consistência temporal, similaridade semântica e alinhamento semântico vídeo-texto. Experimentos extensivos validam a eficácia de nossa abordagem em relação aos métodos existentes para transição e previsão generativa, permitindo a criação de vídeos longos em nível de história. Página do projeto: https://vchitect.github.io/SEINE-project/.
O ChipNeMo tem como objetivo explorar as aplicações de modelos de linguagem de grande escala (LLMs) para o design industrial de chips. Em vez de implantar diretamente LLMs comerciais ou de código aberto prontos para uso, adotamos as seguintes técnicas de adaptação de domínio: tokenizadores personalizados, pré-treinamento contínuo adaptado ao domínio, ajuste fino supervisionado (SFT) com instruções específicas do domínio e modelos de recuperação adaptados ao domínio. Avaliamos esses métodos em três aplicações selecionadas de LLMs para design de chips: um chatbot assistente de engenharia, geração de scripts EDA e resumo e análise de bugs. Nossos resultados mostram que essas técnicas de adaptação de domínio permitem melhorias significativas no desempenho dos LLMs em relação aos modelos base de propósito geral nas três aplicações avaliadas, possibilitando uma redução de até 5x no tamanho do modelo com desempenho similar ou melhor em uma variedade de tarefas de design. Nossas descobertas também indicam que ainda há espaço para melhoria entre nossos resultados atuais e os resultados ideais. Acreditamos que uma investigação mais aprofundada das abordagens de LLMs adaptados ao domínio ajudará a reduzir essa lacuna no futuro.
A avaliação automática da inteligência de agentes baseados em LLMs (Large Language Models) é crucial para o desenvolvimento de agentes avançados baseados em LLMs. Embora esforços consideráveis tenham sido dedicados ao desenvolvimento de conjuntos de dados de avaliação anotados por humanos, como o AlpacaEval, as técnicas existentes são caras, demoradas e carecem de adaptabilidade. Neste artigo, inspirados pelo popular jogo de linguagem "Quem é o Espião", propomos usar o jogo de adivinhação de palavras para avaliar o desempenho de inteligência dos LLMs. Dada uma palavra, o LLM é solicitado a descrever a palavra e determinar sua identidade (espião ou não) com base em sua própria descrição e nas descrições de outros jogadores. Idealmente, um agente avançado deve possuir a capacidade de descrever com precisão uma palavra dada usando uma descrição agressiva, enquanto maximiza a confusão na descrição conservadora, aumentando sua participação no jogo. Para isso, primeiro desenvolvemos o DEEP para avaliar as habilidades de expressão e disfarce dos LLMs. O DEEP exige que o LLM descreva uma palavra em modos agressivo e conservador. Em seguida, introduzimos o SpyGame, uma estrutura interativa de multiagentes projetada para avaliar a inteligência dos LLMs por meio da participação em um jogo de tabuleiro competitivo baseado em linguagem. Incorporando a interação de multiagentes, o SpyGame exige que o LLM alvo possua habilidades linguísticas e pensamento estratégico, fornecendo uma avaliação mais abrangente das habilidades cognitivas semelhantes às humanas e da adaptabilidade dos LLMs em situações complexas de comunicação. A estrutura de avaliação proposta é muito fácil de implementar. Coletamos palavras de várias fontes, domínios e idiomas e usamos a estrutura de avaliação proposta para conduzir experimentos. Experimentos extensivos demonstram que o DEEP e o SpyGame propostos avaliam efetivamente as capacidades de vários LLMs, capturando sua capacidade de se adaptar a novas situações e se envolver em comunicação estratégica.