Artigos de pesquisa em IA selecionados diariamente com traduções
Continuamos a investigação sobre o poder de modelos de linguagem baseados em Transformers menores, iniciada pelo TinyStories -- um modelo de 10 milhões de parâmetros capaz de produzir textos coerentes em inglês -- e pelo trabalho subsequente sobre o phi-1, um modelo de 1,3 bilhão de parâmetros com desempenho em codificação Python próximo ao estado da arte. Este último trabalho propôs o uso de modelos de linguagem de grande escala (LLMs) existentes para gerar dados de "qualidade de livro didático" como uma forma de aprimorar o processo de aprendizagem em comparação com dados tradicionais da web. Seguimos a abordagem "Textbooks Are All You Need", focando desta vez no raciocínio de senso comum em linguagem natural, e criamos um novo modelo de 1,3 bilhão de parâmetros chamado phi-1.5, com desempenho em tarefas de linguagem natural comparável a modelos 5 vezes maiores, e superando a maioria dos LLMs não de ponta em tarefas de raciocínio mais complexas, como matemática do ensino fundamental e codificação básica. De forma mais geral, o phi-1.5 exibe muitas das características de LLMs muito maiores, tanto boas -- como a capacidade de "pensar passo a passo" ou realizar algum aprendizado contextual rudimentar -- quanto ruins, incluindo alucinações e o potencial para gerações tóxicas e tendenciosas -- embora, de forma encorajadora, estejamos vendo melhorias nesse aspecto graças à ausência de dados da web. Disponibilizamos o phi-1.5 como código aberto para promover mais pesquisas sobre esses tópicos urgentes.
Embora os Modelos de Linguagem Multimodais de Grande Escala (MM-LLMs) tenham feito avanços empolgantes recentemente, eles ainda sofrem com a limitação de compreender apenas entradas multimodais, sem a capacidade de gerar conteúdo em múltiplas modalidades. Como nós, humanos, sempre percebemos o mundo e nos comunicamos por meio de várias modalidades, o desenvolvimento de MM-LLMs capazes de aceitar e entregar conteúdo em qualquer modalidade torna-se essencial para alcançar uma IA de nível humano. Para preencher essa lacuna, apresentamos o NExT-GPT, um sistema MM-LLM de propósito geral e de ponta a ponta, capaz de lidar com qualquer modalidade. Conectamos um LLM a adaptadores multimodais e diferentes decodificadores de difusão, permitindo que o NExT-GPT perceba entradas e gere saídas em combinações arbitrárias de texto, imagens, vídeos e áudio. Ao aproveitar codificadores e decodificadores já bem treinados e de alto desempenho, o NExT-GPT é ajustado com apenas uma pequena quantidade de parâmetros (1%) em certas camadas de projeção, o que não apenas beneficia o treinamento de baixo custo, mas também facilita a expansão conveniente para mais modalidades potenciais. Além disso, introduzimos um ajuste de instrução de troca de modalidade (MosIT) e curamos manualmente um conjunto de dados de alta qualidade para o MosIT, com base no qual o NExT-GPT é capacitado com compreensão semântica cruzada complexa e geração de conteúdo. No geral, nossa pesquisa demonstra a possibilidade promissora de construir um agente de IA capaz de modelar modalidades universais, abrindo caminho para pesquisas de IA mais humanas na comunidade.
Apresentamos o MADLAD-400, um conjunto de dados monolíngue de domínio geral com 3 trilhões de tokens, auditado manualmente e baseado no CommonCrawl, abrangendo 419 idiomas. Discutimos as limitações reveladas pela autoauditoria do MADLAD-400 e o papel que a auditoria de dados teve no processo de criação do conjunto de dados. Em seguida, treinamos e disponibilizamos um modelo de tradução automática multilíngue com 10,7 bilhões de parâmetros, utilizando 250 bilhões de tokens que cobrem mais de 450 idiomas com dados publicamente disponíveis, e constatamos que ele é competitivo com modelos significativamente maiores, relatando os resultados em diferentes domínios. Além disso, treinamos um modelo de linguagem com 8 bilhões de parâmetros e avaliamos os resultados na tradução com poucos exemplos. Disponibilizamos os modelos de referência para a comunidade de pesquisa.
Neste trabalho, utilizamos modelos de linguagem de grande escala (LLMs) para ampliar e acelerar a pesquisa sobre o problema P versus NP, um dos problemas em aberto mais importantes na ciência da computação teórica e na matemática. Especificamente, propomos o raciocínio socrático, um framework geral que promove o pensamento aprofundado com LLMs para a resolução de problemas complexos. O raciocínio socrático incentiva os LLMs a descobrir, resolver e integrar problemas de forma recursiva, ao mesmo tempo que facilita a autoavaliação e o refinamento. Nosso estudo piloto sobre o problema P vs. NP mostra que o GPT-4 produz com sucesso um esquema de prova e se envolve em raciocínios rigorosos ao longo de 97 turnos de diálogo, concluindo que "P ≠ NP", o que está alinhado com (Xu e Zhou, 2023). A investigação revela novos insights dentro do extenso espaço de soluções dos LLMs, lançando luz sobre o uso de LLMs para a Ciência.
Analisamos uma família de modelos de linguagem de grande escala de uma maneira tão leve que pode ser feita em uma única GPU. Especificamente, focamos na família de modelos OPT, que variam de 125 milhões a 66 bilhões de parâmetros, e dependemos apenas de saber se um neurônio FFN está ativado ou não. Primeiro, descobrimos que a parte inicial da rede é esparsa e representa muitos recursos discretos. Aqui, muitos neurônios (mais de 70% em algumas camadas do modelo de 66 bilhões) estão "mortos", ou seja, nunca se ativam em uma grande coleção de dados diversos. Ao mesmo tempo, muitos dos neurônios ativos são reservados para características discretas e atuam como detectores de tokens e n-gramas. Curiosamente, suas atualizações FFN correspondentes não apenas promovem candidatos ao próximo token, como seria de se esperar, mas também se concentram explicitamente em remover as informações sobre os tokens que os ativaram, ou seja, a entrada atual. Até onde sabemos, este é o primeiro exemplo de mecanismos especializados em remover (em vez de adicionar) informações do fluxo residual. Com o aumento de escala, os modelos se tornam mais esparsos no sentido de que possuem mais neurônios mortos e detectores de tokens. Por fim, alguns neurônios são posicionais: o fato de estarem ativados ou não depende amplamente (ou exclusivamente) da posição e menos (ou nada) dos dados textuais. Descobrimos que modelos menores possuem conjuntos de neurônios que atuam como indicadores de intervalo de posição, enquanto modelos maiores operam de maneira menos explícita.
Grandes volumes de dados textuais têm contribuído significativamente para o desenvolvimento de modelos de linguagem de grande escala (LLMs) nos últimos anos. Esses dados são tipicamente adquiridos por meio de raspagem da internet, resultando em conjuntos de dados de pré-treinamento compostos por textos da web com ruído. Até o momento, os esforços para reduzir esses conjuntos de dados a um subconjunto de maior qualidade têm se baseado em heurísticas manuais codificadas como filtros baseados em regras. Neste trabalho, adotamos uma visão mais ampla e exploramos estimativas escaláveis de qualidade de dados que podem ser usadas para medir sistematicamente a qualidade dos dados de pré-treinamento. Realizamos uma comparação rigorosa em larga escala do estimador simples de qualidade de dados baseado em perplexidade, bem como estimativas mais sofisticadas e computacionalmente intensivas da Norma L2 do Erro e da memorização. Essas métricas são usadas para classificar e reduzir corpora de pré-treinamento, e subsequentemente comparamos LLMs treinados nesses conjuntos de dados reduzidos. Surpreendentemente, descobrimos que a técnica simples de perplexidade supera nossos métodos de pontuação mais computacionalmente caros. Melhoramos nossa linha de base sem redução enquanto treinamos com apenas 30% do conjunto de dados de treinamento original. Nosso trabalho estabelece a base para estratégias ainda não exploradas na curadoria automática de corpora de alta qualidade e sugere que a maior parte dos dados de pré-treinamento pode ser removida sem comprometer o desempenho.
Os Transformers tornaram-se o modelo dominante no aprendizado profundo, mas a razão para seu desempenho superior é pouco compreendida. Aqui, hipotetizamos que o forte desempenho dos Transformers decorre de um viés arquitetônico em direção à mesa-otimização, um processo aprendido que ocorre durante a passagem direta de um modelo e consiste nos seguintes dois passos: (i) a construção de um objetivo de aprendizado interno, e (ii) sua solução correspondente encontrada por meio de otimização. Para testar essa hipótese, realizamos uma engenharia reversa de uma série de Transformers autorregressivos treinados em tarefas simples de modelagem de sequências, revelando algoritmos subjacentes de mesa-otimização baseados em gradiente que impulsionam a geração de previsões. Além disso, mostramos que o algoritmo de otimização aprendido durante a passagem direta pode ser imediatamente reutilizado para resolver tarefas supervisionadas de poucos exemplos, sugerindo que a mesa-otimização pode estar na base das capacidades de aprendizado em contexto de grandes modelos de linguagem. Por fim, propomos uma nova camada de autoatenção, a mesa-camada, que resolve explicitamente e de forma eficiente problemas de otimização especificados em contexto. Descobrimos que essa camada pode levar a melhorias de desempenho em experimentos sintéticos e preliminares de modelagem de linguagem, reforçando nossa hipótese de que a mesa-otimização é uma operação importante oculta nos pesos dos Transformers treinados.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades excepcionais na execução de tarefas relacionadas à linguagem. No entanto, sua implantação apresenta desafios significativos devido às consideráveis exigências de memória e armazenamento. Em resposta a esse problema, a quantização apenas de pesos, particularmente a quantização de 3 e 4 bits, emergiu como uma das soluções mais viáveis. À medida que o número de bits diminui, a grade de quantização se amplia, destacando a importância do arredondamento para cima e para baixo. Embora estudos anteriores tenham demonstrado que o ajuste fino do arredondamento para cima e para baixo com a adição de perturbações pode melhorar a precisão em alguns cenários, nosso estudo é motivado pelo limite preciso e restrito dessas perturbações, onde apenas o limiar para alterar o valor de arredondamento é significativo. Consequentemente, propomos uma abordagem concisa e altamente eficaz para otimizar a tarefa de arredondamento de pesos. Nosso método, denominado SignRound, envolve o ajuste leve em blocos usando descida de gradiente com sinal, permitindo-nos alcançar resultados excepcionais em até 400 etapas. O SignRound supera a linha de base estabelecida de arredondamento para o mais próximo (RTN) e compete de forma impressionante contra métodos recentes, sem introduzir sobrecarga adicional na inferência. O código-fonte estará disponível publicamente em https://github.com/intel/neural-compressor em breve.
Modelos de áudio-linguagem aprendem conjuntamente representações multimodais de texto e áudio que permitem inferência Zero-Shot. Os modelos dependem de codificadores para criar representações poderosas da entrada e generalizar para múltiplas tarefas, desde sons, música e fala. Embora os modelos tenham alcançado desempenho notável, ainda há uma lacuna de desempenho em relação a modelos específicos para tarefas. Neste artigo, propomos um modelo de Pré-treinamento Contrastivo de Linguagem-Áudio que é pré-treinado com uma coleção diversificada de 4,6 milhões de pares áudio-texto, empregando dois codificadores inovadores para inferência Zero-Shot. Para aprender representações de áudio, treinamos um codificador de áudio em 22 tarefas de áudio, em vez do treinamento padrão de classificação de eventos sonoros. Para aprender representações de linguagem, treinamos um modelo autoregressivo apenas de decodificação, em vez dos modelos padrão apenas de codificação. Em seguida, as representações de áudio e linguagem são trazidas para um espaço multimodal conjunto usando Aprendizado Contrastivo. Utilizamos nossos codificadores para melhorar o desempenho em tarefas subsequentes por uma margem significativa. Avaliamos extensivamente a generalização de nossas representações em 26 tarefas subsequentes, a maior na literatura. Nosso modelo alcança resultados de ponta em várias tarefas, abrindo caminho para representações de áudio de propósito geral.
A incorporação de ativos de malha poligonal dentro de volumes fotorealísticos de Campos de Radiação Neural (NeRF), de modo que possam ser renderizados e suas dinâmicas simuladas de maneira fisicamente consistente com o NeRF, é um tópico pouco explorado do ponto de vista da integração do NeRF no pipeline gráfico tradicional. Este artigo propõe um acoplamento bidirecional entre malha e NeRF durante a renderização e simulação. Primeiro, revisamos as equações de transporte de luz para malha e NeRF, e então as condensamos em um algoritmo eficiente para atualizar a radiância e a taxa de transferência ao longo de um raio lançado com um número arbitrário de reflexões. Para resolver a discrepância entre o espaço de cores linear assumido pelo traçador de caminhos e o espaço de cores sRGB usado pelo NeRF padrão, treinamos o NeRF com imagens de Alto Alcance Dinâmico (HDR). Também apresentamos uma estratégia para estimar fontes de luz e projetar sombras no NeRF. Por fim, consideramos como a formulação híbrida de superfície-volumétrica pode ser integrada de forma eficiente com um simulador físico de alto desempenho que suporta tecidos, corpos rígidos e macios. O sistema completo de renderização e simulação pode ser executado em uma GPU em taxas interativas. Demonstramos que uma abordagem de sistema híbrido supera alternativas em realismo visual para inserção de malha, pois permite o transporte realista de luz de mídias volumétricas NeRF para superfícies, o que afeta a aparência de superfícies reflexivas/refrativas e a iluminação de superfícies difusas informadas pela cena dinâmica.
Os paradigmas de aprendizagem para modelos de linguagem de grande escala (LLMs) atualmente tendem a se enquadrar em duas abordagens: aprendizado em contexto (ICL) ou ajuste fino completo (fine-tuning). Cada uma dessas abordagens apresenta suas próprias compensações, dependendo de fatores como a disponibilidade de dados, o tamanho do modelo, o custo computacional, a facilidade de uso e a qualidade final, sem que nenhuma das soluções se destaque em todos os aspectos. Neste artigo, primeiro descrevemos os paradigmas de ICL e ajuste fino de forma a destacar suas conexões naturais. Com base nessas conexões, propomos um novo paradigma de aprendizagem chamado FIAT, que combina o melhor desses paradigmas, permitindo a engenharia de instruções e o raciocínio em cadeia de pensamento com os maiores modelos, ao mesmo tempo em que utiliza métodos semelhantes para realizar atualizações de parâmetros em um LLM de tamanho moderado com ajuste eficiente de parâmetros. Avaliamos a eficácia do FIAT em uma variedade de tarefas multilingues e observamos que o FIAT supera tanto o ICL quanto o ajuste fino em escalas que variam de 100 a 10.000 exemplos de treinamento. Esperamos que o FIAT ofereça uma maneira prática de aproveitar todo o potencial dos LLMs sem a necessidade de fazer uma escolha difícil entre paradigmas de aprendizagem.