Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem (LMs) tornaram-se onipresentes tanto na pesquisa de PLN quanto em ofertas de produtos comerciais. À medida que sua importância comercial cresceu, os modelos mais poderosos tornaram-se fechados, protegidos por interfaces proprietárias, com detalhes importantes de seus dados de treinamento, arquiteturas e desenvolvimento não divulgados. Dada a importância desses detalhes para o estudo científico desses modelos, incluindo seus vieses e riscos potenciais, acreditamos que é essencial que a comunidade de pesquisa tenha acesso a LMs poderosos e verdadeiramente abertos. Para esse fim, este relatório técnico detalha o primeiro lançamento do OLMo, um modelo de linguagem de ponta e verdadeiramente aberto, e seu framework para construir e estudar a ciência da modelagem de linguagem. Diferente da maioria dos esforços anteriores que liberaram apenas os pesos do modelo e o código de inferência, nós liberamos o OLMo e todo o framework, incluindo dados de treinamento e códigos de treinamento e avaliação. Esperamos que este lançamento capacite e fortaleça a comunidade de pesquisa aberta e inspire uma nova onda de inovação.
Os modelos de linguagem tornaram-se uma tecnologia crucial para abordar uma ampla gama de tarefas de processamento de linguagem natural, mas muitos detalhes sobre como os modelos de linguagem de melhor desempenho foram desenvolvidos não são divulgados. Em particular, informações sobre seus corpora de pré-treinamento raramente são discutidas: modelos de linguagem comerciais raramente fornecem qualquer informação sobre seus dados; mesmo modelos abertos raramente liberam os conjuntos de dados em que foram treinados ou uma receita exata para reproduzi-los. Como resultado, é desafiador conduzir certas linhas de pesquisa em modelagem de linguagem, como entender como os dados de treinamento impactam as capacidades dos modelos e moldam suas limitações. Para facilitar a pesquisa aberta sobre pré-treinamento de modelos de linguagem, lançamos Dolma, um corpus em inglês de três trilhões de tokens, construído a partir de uma mistura diversificada de conteúdo da web, artigos científicos, código, livros de domínio público, mídias sociais e materiais enciclopédicos. Além disso, disponibilizamos nosso kit de ferramentas de curadoria de dados em código aberto para permitir mais experimentações e a reprodução do nosso trabalho. Neste relatório, documentamos o Dolma, incluindo seus princípios de design, detalhes sobre sua construção e um resumo de seu conteúdo. Intercalamos este relatório com análises e resultados experimentais do treinamento de modelos de linguagem em estados intermediários do Dolma para compartilhar o que aprendemos sobre práticas importantes de curadoria de dados, incluindo o papel de filtros de conteúdo ou qualidade, deduplicação e mistura de múltiplas fontes. O Dolma foi usado para treinar o OLMo, um modelo e framework de linguagem aberto de última geração projetado para construir e estudar a ciência da modelagem de linguagem.
Apresentamos o CroissantLLM, um modelo de linguagem de 1,3B de parâmetros pré-treinado em um conjunto de 3 trilhões de tokens em inglês e francês, com o objetivo de oferecer à comunidade de pesquisa e industrial um modelo bilíngue de alto desempenho, totalmente de código aberto, que opera de forma ágil em hardware local de nível consumidor. Para isso, pioneiramente adotamos a abordagem de treinar um modelo intrinsecamente bilíngue com uma proporção de dados de pré-treinamento de 1:1 entre inglês e francês, um tokenizador personalizado e conjuntos de dados de ajuste fino bilíngues. Disponibilizamos o conjunto de dados de treinamento, que inclui uma divisão em francês com fontes de dados variadas, de alta qualidade e curadas manualmente. Para avaliar o desempenho fora do inglês, criamos um novo benchmark, o FrenchBench, composto por uma variedade de tarefas de classificação e geração, abrangendo diversos aspectos ortogonais do desempenho do modelo no idioma francês. Além disso, fundamentados na transparência e para promover pesquisas adicionais em Modelos de Linguagem de Grande Escala (LLMs), disponibilizamos bases de código, dezenas de checkpoints em diferentes tamanhos de modelo, distribuições de dados de treinamento e etapas de treinamento, bem como modelos de Chat ajustados e modelos de tradução robustos. Avaliamos nosso modelo por meio do framework FMTI e validamos 81% dos critérios de transparência, superando significativamente até mesmo as pontuações das iniciativas mais abertas. Este trabalho enriquece o cenário de PLN, afastando-se de trabalhos anteriores centrados no inglês para fortalecer nossa compreensão da multilingüidade em modelos de linguagem.
Compreender o contexto é fundamental para entender a linguagem humana, uma habilidade que os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm demonstrado de forma cada vez mais impressionante. No entanto, embora a avaliação dos LLMs abranja diversos domínios no campo do Processamento de Linguagem Natural, pouca atenção tem sido dada à investigação de sua capacidade linguística de compreender características contextuais. Este artigo introduz um benchmark de compreensão de contexto, adaptando conjuntos de dados existentes para avaliar modelos generativos. Esse benchmark é composto por quatro tarefas distintas e nove conjuntos de dados, todos com prompts projetados para avaliar a capacidade dos modelos de entender o contexto. Primeiro, avaliamos o desempenho dos LLMs no cenário de pré-treinamento com aprendizado em contexto. Os resultados experimentais indicam que modelos densos pré-treinados têm dificuldade em compreender características contextuais mais sutis quando comparados a modelos ajustados de última geração. Segundo, como a compressão de LLMs tem ganhado crescente importância tanto na pesquisa quanto em aplicações do mundo real, avaliamos a compreensão de contexto de modelos quantizados em configurações de aprendizado em contexto. Descobrimos que a quantização pós-treinamento de 3 bits leva a diferentes graus de redução de desempenho em nosso benchmark. Realizamos uma análise extensa desses cenários para corroborar nossos resultados experimentais.
Apresentamos o SymbolicAI, um framework versátil e modular que emprega uma abordagem baseada em lógica para o aprendizado de conceitos e a gestão de fluxos em processos generativos. O SymbolicAI permite a integração contínua de modelos generativos com uma ampla gama de solucionadores, tratando modelos de linguagem de grande escala (LLMs) como parsers semânticos que executam tarefas com base em instruções tanto em linguagem natural quanto formal, assim preenchendo a lacuna entre o raciocínio simbólico e a IA generativa. Utilizamos princípios de programação probabilística para lidar com tarefas complexas e empregamos paradigmas de programação diferenciável e clássica, aproveitando seus respectivos pontos fortes. O framework introduz um conjunto de operações polimórficas, composicionais e autorreferenciais para a manipulação de fluxos de dados, alinhando as saídas dos LLMs com os objetivos do usuário. Como resultado, podemos alternar entre as capacidades de vários modelos base, dotados de habilidades de aprendizado zero-shot e few-shot, e modelos especializados ou solucionadores ajustados para resolver problemas específicos. Por sua vez, o framework facilita a criação e avaliação de grafos computacionais explicáveis. Concluímos introduzindo uma medida de qualidade e sua pontuação empírica para avaliar esses grafos computacionais, e propomos um benchmark que compara diversos LLMs de última geração em um conjunto de fluxos de trabalho complexos. Referimo-nos à pontuação empírica como "Vector Embedding for Relational Trajectory Evaluation through Cross-similarity", ou pontuação VERTEX, para abreviar. O código-base do framework e o benchmark estão vinculados abaixo.
Apresentamos evidências de benefícios substanciais da exploração eficiente na coleta de feedback humano para melhorar modelos de linguagem de grande escala. Em nossos experimentos, um agente gera consultas sequencialmente enquanto ajusta um modelo de recompensa ao feedback recebido. Nosso agente de melhor desempenho gera consultas usando amostragem dupla de Thompson, com a incerteza representada por uma rede neural epistêmica. Nossos resultados demonstram que a exploração eficiente permite altos níveis de desempenho com muito menos consultas. Além disso, tanto a estimativa de incerteza quanto a escolha do esquema de exploração desempenham papéis críticos.
O esquecimento de máquina surgiu como um novo paradigma para esquecer deliberadamente amostras de dados de um determinado modelo, a fim de aderir a regulamentações rigorosas. No entanto, os métodos existentes de esquecimento de máquina têm se concentrado principalmente em modelos de classificação, deixando o cenário de esquecimento para modelos generativos relativamente inexplorado. Este artigo serve como uma ponte, abordando essa lacuna ao fornecer uma estrutura unificadora de esquecimento de máquina para modelos generativos de imagem para imagem. Dentro dessa estrutura, propomos um algoritmo computacionalmente eficiente, respaldado por uma análise teórica rigorosa, que demonstra degradação de desempenho insignificante nas amostras retidas, enquanto remove efetivamente as informações das amostras esquecidas. Estudos empíricos em dois conjuntos de dados em larga escala, ImageNet-1K e Places-365, mostram ainda que nosso algoritmo não depende da disponibilidade das amostras retidas, o que está em conformidade com a política de retenção de dados. Até onde sabemos, este trabalho é o primeiro a representar explorações sistêmicas, teóricas e empíricas de esquecimento de máquina especificamente adaptadas para modelos generativos de imagem para imagem. Nosso código está disponível em https://github.com/jpmorganchase/l2l-generator-unlearning.
Uma abordagem comum para alinhar modelos de linguagem às preferências humanas é primeiro aprender um modelo de recompensa a partir de dados de preferência e, em seguida, usar esse modelo de recompensa para atualizar o modelo de linguagem. Estudamos dois problemas intimamente relacionados que surgem nessa abordagem. Primeiro, qualquer transformação monotônica do modelo de recompensa preserva a classificação de preferência; existe uma escolha que é "melhor" do que outras? Segundo, frequentemente desejamos alinhar modelos de linguagem a múltiplas propriedades: como devemos combinar múltiplos modelos de recompensa? Usando uma interpretação probabilística do procedimento de alinhamento, identificamos uma escolha natural para a transformação (no caso comum) de recompensas aprendidas a partir de modelos de preferência de Bradley-Terry. Essa transformação derivada possui duas propriedades importantes. Primeiro, ela enfatiza a melhoria de saídas com desempenho ruim, em vez de saídas que já pontuam bem. Isso mitiga tanto o subajuste (onde algumas instruções não são melhoradas) quanto o hacking de recompensa (onde o modelo aprende a explorar a má especificação do modelo de recompensa). Segundo, ela permite uma agregação fundamentada de recompensas ao vincular a soma à conjunção lógica: a soma das recompensas transformadas corresponde à probabilidade de que a saída seja "boa" em todas as propriedades medidas, em um sentido que precisamos. Experimentos alinhando modelos de linguagem para serem úteis e inofensivos usando RLHF mostram melhorias substanciais em relação à abordagem de linha de base (não transformada).
Apresentamos o Amortized Text-to-Mesh (AToM), um framework de texto-para-malha de propagação direta otimizado para múltiplos prompts de texto simultaneamente. Em contraste com os métodos existentes de texto-para-3D, que frequentemente envolvem uma otimização demorada por prompt e geralmente produzem representações diferentes de malhas poligonais, o AToM gera diretamente malhas texturizadas de alta qualidade em menos de 1 segundo, com uma redução de cerca de 10 vezes no custo de treinamento, e generaliza para prompts não vistos. Nossa ideia central é uma nova arquitetura de texto-para-malha baseada em triplanos com uma estratégia de otimização amortizada em dois estágios que garante treinamento estável e permite escalabilidade. Por meio de extensos experimentos em vários benchmarks de prompts, o AToM supera significativamente as abordagens amortizadas state-of-the-art com uma precisão mais de 4 vezes maior (no conjunto de dados DF415) e produz saídas 3D mais distinguíveis e de maior qualidade. O AToM demonstra forte generalizabilidade, oferecendo ativos 3D de granularidade fina para prompts interpolados não vistos sem a necessidade de otimização adicional durante a inferência, ao contrário de soluções por prompt.
Este trabalho apresenta o EE-Tuning, uma solução leve e econômica para o treinamento/ajuste de modelos de linguagem de grande escala (LLMs) com saída antecipada. Em contraste com a abordagem comum de pré-treinamento de parâmetros completos, o EE-Tuning aumenta qualquer LLM padrão pré-treinado (e possivelmente ajustado) com camadas adicionais de saída antecipada que são ajustadas de maneira eficiente em termos de parâmetros, o que requer significativamente menos recursos computacionais e dados de treinamento. Nossa implementação do EE-Tuning alcança uma eficiência de treinamento excepcional por meio de extensas otimizações de desempenho, bem como escalabilidade devido à sua completa compatibilidade com paralelismo 3D. Os resultados de experimentos sistemáticos validam a eficácia do EE-Tuning, confirmando que uma inferência eficaz de LLMs com saída antecipada pode ser alcançada com um orçamento limitado de treinamento. Na esperança de tornar os LLMs com saída antecipada acessíveis à comunidade, disponibilizamos o código-fonte de nossa implementação do EE-Tuning em https://github.com/pan-x-c/EE-LLM.