Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o AudioPaLM, um grande modelo de linguagem para compreensão e geração de fala. O AudioPaLM integra modelos de linguagem baseados em texto e em fala, PaLM-2 [Anil et al., 2023] e AudioLM [Borsos et al., 2022], em uma arquitetura multimodal unificada que pode processar e gerar texto e fala, com aplicações incluindo reconhecimento de fala e tradução de fala para fala. O AudioPaLM herda a capacidade de preservar informações paralinguísticas, como identidade do falante e entonação, do AudioLM, e o conhecimento linguístico presente apenas em grandes modelos de linguagem baseados em texto, como o PaLM-2. Demonstramos que inicializar o AudioPaLM com os pesos de um grande modelo de linguagem apenas de texto melhora o processamento de fala, aproveitando com sucesso a maior quantidade de dados de treinamento de texto usados no pré-treinamento para auxiliar nas tarefas de fala. O modelo resultante supera significativamente os sistemas existentes para tarefas de tradução de fala e possui a capacidade de realizar tradução de fala para texto em modo zero-shot para muitos idiomas cujas combinações de idioma de entrada/destino não foram vistas durante o treinamento. O AudioPaLM também demonstra características de modelos de linguagem de áudio, como transferir uma voz entre idiomas com base em um prompt falado curto. Disponibilizamos exemplos do nosso método em https://google-research.github.io/seanet/audiopalm/examples.
O recentemente proposto modelo Segment Anything (SAM) causou um impacto significativo em diversas tarefas de visão computacional. Está se tornando uma etapa fundamental para muitas tarefas de alto nível, como segmentação de imagens, legendagem de imagens e edição de imagens. No entanto, seus altos custos computacionais impedem sua aplicação mais ampla em cenários industriais. A computação vem principalmente da arquitetura Transformer em entradas de alta resolução. Neste artigo, propomos um método alternativo acelerado para essa tarefa fundamental com desempenho comparável. Ao reformular a tarefa como geração de segmentos e prompting, descobrimos que um detector CNN regular com um ramo de segmentação de instâncias também pode realizar bem essa tarefa. Especificamente, convertemos essa tarefa para a bem estudada tarefa de segmentação de instâncias e treinamos diretamente o método existente de segmentação de instâncias usando apenas 1/50 do conjunto de dados SA-1B publicado pelos autores do SAM. Com nosso método, alcançamos um desempenho comparável ao método SAM com uma velocidade de execução 50 vezes maior. Apresentamos resultados experimentais suficientes para demonstrar sua eficácia. Os códigos e demonstrações serão liberados em https://github.com/CASIA-IVA-Lab/FastSAM.
Como a linguagem influencia nosso pensamento subsequente? Em particular, como os seres humanos constroem significado a partir da linguagem — e como podemos aproveitar uma teoria do significado linguístico para construir máquinas que pensam de maneiras mais humanas? Neste artigo, propomos a construção racional de significado, um framework computacional para o pensamento informado pela linguagem que combina modelos neurais de linguagem com modelos probabilísticos para inferência racional. Enquadramos o significado linguístico como um mapeamento sensível ao contexto da linguagem natural para uma linguagem de pensamento probabilística (PLoT, do inglês *Probabilistic Language of Thought*) — um substrato simbólico de propósito geral para modelagem probabilística e generativa do mundo. Nossa arquitetura integra duas ferramentas computacionais poderosas que não haviam sido combinadas anteriormente: modelamos o pensamento com programas probabilísticos, uma representação expressiva para raciocínio de senso comum flexível; e modelamos a construção de significado com grandes modelos de linguagem (LLMs, do inglês *Large Language Models*), que suportam a tradução abrangente de enunciados em linguagem natural para expressões de código em uma linguagem de programação probabilística. Ilustramos nosso framework em ação por meio de exemplos que abrangem quatro domínios centrais da ciência cognitiva: raciocínio probabilístico, raciocínio lógico e relacional, raciocínio visual e físico, e raciocínio social sobre agentes e seus planos. Em cada um, mostramos que os LLMs podem gerar traduções sensíveis ao contexto que capturam significados linguísticos pragmaticamente apropriados, enquanto a inferência bayesiana com os programas gerados suporta um raciocínio de senso comum coerente e robusto. Estendemos nosso framework para integrar módulos simbólicos motivados cognitivamente, fornecendo uma interface unificada de pensamento de senso comum a partir da linguagem. Por fim, exploramos como a linguagem pode impulsionar a construção dos próprios modelos de mundo.
Quantizar as ativações, pesos e gradientes para 4 bits é uma abordagem promissora para acelerar o treinamento de redes neurais. No entanto, os métodos existentes de treinamento em 4 bits exigem formatos numéricos personalizados que não são suportados pelo hardware contemporâneo. Neste trabalho, propomos um método de treinamento para transformadores com todas as multiplicações de matrizes implementadas usando aritmética INT4. Treinar com uma precisão ultrabaixa INT4 é desafiador. Para alcançar isso, analisamos cuidadosamente as estruturas específicas das ativações e gradientes em transformadores para propor quantizadores dedicados a eles. Para a propagação direta, identificamos o desafio dos valores discrepantes (outliers) e propomos um quantizador de Hadamard para suprimir esses valores. Para a retropropagação, aproveitamos a esparsidade estrutural dos gradientes propondo técnicas de divisão de bits e amostragem por pontuação de alavancagem para quantizar os gradientes com precisão. Nosso algoritmo alcança precisão competitiva em uma ampla gama de tarefas, incluindo compreensão de linguagem natural, tradução automática e classificação de imagens. Diferentemente dos métodos anteriores de treinamento em 4 bits, nosso algoritmo pode ser implementado na geração atual de GPUs. Nossa implementação prototípica de operador linear é até 2,2 vezes mais rápida que as contrapartes FP16 e acelera o treinamento em até 35,1%.
Nós consideramos os grandes modelos de linguagem (LLMs) como camadas estocásticas de linguagem em uma rede, onde os parâmetros aprendíveis são os prompts de linguagem natural em cada camada. Empilhamos duas dessas camadas, alimentando a saída de uma camada para a próxima. Chamamos essa arquitetura empilhada de Rede de Linguagem Profunda (Deep Language Network - DLN). Primeiro, mostramos como realizar efetivamente a otimização de prompts para uma rede de linguagem de 1 camada (DLN-1). Em seguida, mostramos como treinar DLNs de 2 camadas (DLN-2), onde dois prompts devem ser aprendidos. Consideramos a saída da primeira camada como uma variável latente a ser marginalizada e desenvolvemos um algoritmo de inferência variacional para o treinamento conjunto de prompts. Uma DLN-2 alcança desempenho superior ao de uma única camada, às vezes comparável ao GPT-4 com poucos exemplos, mesmo quando cada LLM na rede é menor e menos poderoso. O código da DLN é de código aberto: https://github.com/microsoft/deep-language-networks.
Modelos Transformer têm sido amplamente adotados em diversos domínios nos últimos anos, e especialmente os grandes modelos de linguagem avançaram significativamente o campo da IA. Devido ao seu tamanho, a capacidade dessas redes aumentou tremendamente, mas isso veio ao custo de um aumento significativo na necessidade de computação. A quantização é uma das formas mais eficazes de reduzir o tempo computacional e o consumo de memória das redes neurais. Muitos estudos mostraram, no entanto, que os modelos Transformer modernos tendem a aprender outliers fortes em suas ativações, tornando-os difíceis de quantizar. Para manter um desempenho aceitável, a existência desses outliers exige que as ativações estejam em uma largura de bits maior ou o uso de diferentes formatos numéricos, ajustes finos adicionais ou outras soluções alternativas. Mostramos que outliers fortes estão relacionados a um comportamento muito específico das heads de atenção que tentam aprender uma operação "no-op" ou apenas uma atualização parcial do residual. Para alcançar os zeros exatos necessários na matriz de atenção para uma não-atualização, a entrada da softmax é empurrada para ser cada vez maior durante o treinamento, causando outliers em outras partes da rede. Com base nessas observações, propomos duas modificações simples (e independentes) ao mecanismo de atenção - softmax com corte e atenção com portão. Demonstramos empiricamente que modelos pré-treinados usando nossos métodos aprendem outliers significativamente menores enquanto mantêm e, às vezes, até melhoram o desempenho da tarefa em ponto flutuante. Isso nos permite quantizar Transformers para uma quantização completa INT8 das ativações sem nenhum esforço adicional. Demonstramos a eficácia de nossos métodos tanto em modelos de linguagem (BERT, OPT) quanto em Transformers de visão.
Modelos de difusão texto-imagem pré-treinados em bilhões de pares imagem-texto recentemente permitiram a criação de conteúdo 3D a partir de texto, otimizando um Neural Radiance Fields (NeRF) inicializado aleatoriamente com destilação de pontuação. No entanto, os modelos 3D resultantes apresentam duas limitações: (a) problemas de qualidade, como cores saturadas e o problema de Janus; (b) diversidade extremamente baixa em comparação com a síntese de imagens guiada por texto. Neste artigo, mostramos que o conflito entre o processo de otimização do NeRF e a amostragem uniforme de timesteps na destilação de pontuação é a principal razão para essas limitações. Para resolver esse conflito, propomos priorizar a amostragem de timesteps com funções monotonicamente não crescentes, o que alinha a otimização do NeRF com o processo de amostragem do modelo de difusão. Experimentos extensivos mostram que essa simples reformulação melhora significativamente a criação de conteúdo 3D a partir de texto, com maior qualidade e diversidade.
Os recentes avanços em modelos de difusão de texto para imagem em grande escala têm possibilitado diversas aplicações na edição de imagens. No entanto, nenhum desses métodos foi capaz de editar o layout de imagens individuais existentes. Para preencher essa lacuna, propomos o primeiro framework para edição de layout de uma única imagem, preservando suas propriedades visuais, permitindo assim a edição contínua em uma única imagem. Nossa abordagem é realizada por meio de dois módulos principais. Primeiro, para preservar as características de múltiplos objetos dentro de uma imagem, separamos os conceitos de diferentes objetos e os incorporamos em tokens textuais separados, utilizando um método inovador chamado inversão textual mascarada. Em seguida, propomos um método de otimização sem treinamento para realizar o controle de layout em um modelo de difusão pré-treinado, o que nos permite regenerar imagens com os conceitos aprendidos e alinhá-las com layouts especificados pelo usuário. Como o primeiro framework capaz de editar o layout de imagens existentes, demonstramos que nosso método é eficaz e supera outras abordagens de base que foram adaptadas para suportar essa tarefa. Nosso código estará disponível gratuitamente para uso público após a aceitação.
Polis é uma plataforma que utiliza inteligência artificial para ampliar processos deliberativos. Neste artigo, exploramos as oportunidades e os riscos associados à aplicação de Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) aos desafios de facilitar, moderar e resumir os resultados das interações no Polis. Em particular, demonstramos, por meio de experimentos piloto utilizando o Claude da Anthropic, que os LLMs podem, de fato, aumentar a inteligência humana para ajudar a conduzir conversas no Polis de forma mais eficiente. Especificamente, descobrimos que as capacidades de resumo permitem métodos categoricamente novos, com grande potencial para capacitar o público em exercícios coletivos de construção de significado. E, de forma notável, as limitações de contexto dos LLMs têm um impacto significativo na profundidade e na qualidade desses resultados. No entanto, essas oportunidades vêm acompanhadas de riscos. Discutimos alguns desses riscos, bem como princípios e técnicas para caracterizá-los e mitigá-los, e as implicações para outros sistemas deliberativos ou políticos que possam empregar LLMs. Por fim, concluímos com várias direções futuras de pesquisa para aprimorar ferramentas como o Polis com o uso de LLMs.
Transformers Equivariantes, como o Equiformer, demonstraram a eficácia da aplicação de Transformers ao domínio de sistemas atomísticos 3D. No entanto, eles ainda estão limitados a pequenos graus de representações equivariantes devido à sua complexidade computacional. Neste artigo, investigamos se essas arquiteturas podem escalar bem para graus mais elevados. Partindo do Equiformer, primeiro substituímos as convoluções SO(3) por convoluções eSCN para incorporar eficientemente tensores de grau mais alto. Em seguida, para melhor aproveitar o poder de graus mais elevados, propomos três melhorias arquitetônicas: renormalização de atenção, ativação S^2 separável e normalização de camada separável. Reunindo tudo isso, propomos o EquiformerV2, que supera os métodos state-of-the-art anteriores no conjunto de dados em larga escala OC20 em até 12% nas forças, 4% nas energias, oferece melhores compensações entre velocidade e precisão, e uma redução de 2 vezes nos cálculos de DFT necessários para computar energias de adsorção.