Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o PaLM 2, um novo modelo de linguagem de última geração que possui capacidades multilingues e de raciocínio superiores, além de ser mais eficiente em termos de computação do que seu antecessor, o PaLM. O PaLM 2 é um modelo baseado em Transformer treinado com uma mistura de objetivos. Por meio de avaliações extensas em tarefas de linguagem em inglês e multilingue, e de raciocínio, demonstramos que o PaLM 2 apresenta uma qualidade significativamente melhorada em tarefas subsequentes em diferentes tamanhos de modelo, ao mesmo tempo em que exibe inferência mais rápida e eficiente em comparação com o PaLM. Essa eficiência aprimorada permite uma implantação mais ampla, além de permitir que o modelo responda mais rapidamente, proporcionando um ritmo de interação mais natural. O PaLM 2 demonstra capacidades robustas de raciocínio, exemplificadas por grandes melhorias em relação ao PaLM no BIG-Bench e em outras tarefas de raciocínio. O PaLM 2 exibe desempenho estável em uma série de avaliações de IA responsável e permite controle de toxicidade durante a inferência sem sobrecarga adicional ou impacto em outras capacidades. No geral, o PaLM 2 alcança desempenho de última geração em um conjunto diversificado de tarefas e capacidades. Ao discutir a família PaLM 2, é importante distinguir entre modelos pré-treinados (de vários tamanhos), variantes ajustadas desses modelos e os produtos voltados ao usuário que utilizam esses modelos. Em particular, os produtos voltados ao usuário geralmente incluem etapas adicionais de pré e pós-processamento. Além disso, os modelos subjacentes podem evoluir ao longo do tempo. Portanto, não se deve esperar que o desempenho dos produtos voltados ao usuário corresponda exatamente aos resultados relatados neste relatório.
A edição ou revisão de texto é uma função essencial do processo de escrita humana. Compreender as capacidades dos LLMs (Modelos de Linguagem de Grande Escala) para realizar revisões de alta qualidade e colaborar com escritores humanos é um passo crítico para a construção de assistentes de escrita eficazes. Com o sucesso anterior dos LLMs e do ajuste fino por instruções, aproveitamos LLMs ajustados por instruções para a revisão de textos, visando melhorar a qualidade dos textos gerados por usuários e aumentar a eficiência do processo. Apresentamos o CoEdIT, um modelo de edição de texto de última geração para assistência à escrita. O CoEdIT recebe instruções do usuário que especificam os atributos do texto desejado, como "Simplifique a frase" ou "Escreva em um estilo mais neutro", e gera o texto editado. Introduzimos um modelo de linguagem de grande escala ajustado fino em uma coleção diversificada de instruções específicas para tarefas de edição de texto (totalizando 82 mil instruções). Nosso modelo (1) alcança desempenho de ponta em diversos benchmarks de edição de texto, (2) é competitivo com os maiores LLMs disponíveis publicamente treinados com instruções, embora seja 60x menor, (3) é capaz de generalizar para instruções de edição não vistas anteriormente, e (4) exibe habilidades de compreensão composicional para generalizar instruções que contêm diferentes combinações de ações de edição. Por meio de análises qualitativas e quantitativas extensas, demonstramos que os escritores preferem as edições sugeridas pelo CoEdIT em comparação com outros modelos de edição de texto de última geração. Nosso código e conjunto de dados estão disponíveis publicamente.
Aprender com o feedback humano tem se mostrado eficaz para alinhar modelos de linguagem com as preferências humanas. Trabalhos anteriores frequentemente dependiam do Aprendizado por Reforço com Feedback Humano (RLHF), que otimiza o modelo de linguagem usando pontuações de recompensa atribuídas por um modelo de recompensa treinado em dados de preferência humana. Neste trabalho, mostramos como a Calibração de Probabilidade de Sequência (SLiC), recentemente introduzida, também pode ser usada para aprender efetivamente com as preferências humanas (SLiC-HF). Além disso, demonstramos que isso pode ser feito com dados de feedback humano coletados para um modelo diferente, semelhante a dados de RL offline e fora da política. Experimentos de avaliação automática e humana na tarefa de resumo TL;DR mostram que o SLiC-HF melhora significativamente as linhas de base de ajuste fino supervisionado. Adicionalmente, o SLiC-HF apresenta uma alternativa competitiva à implementação PPO RLHF usada em trabalhos anteriores, sendo muito mais simples de implementar, mais fácil de ajustar e mais eficiente computacionalmente na prática.
As proporções de mistura dos domínios de dados de pré-treinamento (por exemplo, Wikipedia, livros, texto da web) afetam significativamente o desempenho dos modelos de linguagem (LM). Neste artigo, propomos o Rebalanceamento de Domínios com Otimização Minimax (DoReMi), que primeiro treina um pequeno modelo proxy usando otimização robusta de distribuição em grupos (Group DRO) sobre domínios para produzir pesos de domínio (proporções de mistura) sem conhecimento das tarefas downstream. Em seguida, reamostramos um conjunto de dados com esses pesos de domínio e treinamos um modelo maior e de tamanho completo. Em nossos experimentos, usamos o DoReMi em um modelo proxy com 280 milhões de parâmetros para encontrar pesos de domínio para treinar um modelo com 8 bilhões de parâmetros (30 vezes maior) de forma mais eficiente. No conjunto The Pile, o DoReMi melhora a perplexidade em todos os domínios, mesmo quando reduz o peso de um domínio. O DoReMi melhora a precisão média few-shot downstream em 6,5% em relação a um modelo de linha de base treinado usando os pesos de domínio padrão do The Pile e atinge a precisão da linha de base com 2,6 vezes menos etapas de treinamento. No conjunto de dados GLaM, o DoReMi, que não tem conhecimento das tarefas downstream, chega a igualar o desempenho do uso de pesos de domínio ajustados para tarefas downstream.
Neste artigo, apresentamos a auto-distilação e o agrupamento online para aprendizado de representação de fala auto-supervisionado (DinoSR), que combina modelagem de linguagem mascarada, auto-distilação e agrupamento online. Demonstramos que esses conceitos se complementam e resultam em um modelo robusto de aprendizado de representação para fala. O DinoSR primeiro extrai embeddings contextualizados do áudio de entrada usando uma rede professora, em seguida executa um sistema de agrupamento online sobre os embeddings para gerar um inventário de fonemas descoberto pela máquina e, finalmente, utiliza os tokens discretizados para orientar uma rede estudante. Mostramos que o DinoSR supera o desempenho de métodos anteriores de ponta em várias tarefas subsequentes e fornecemos uma análise detalhada do modelo e das unidades discretas aprendidas. O código-fonte será disponibilizado após o período de anonimato.
Os sistemas de reconhecimento automático de fala em dispositivos enfrentam vários desafios em comparação com sistemas baseados em servidor. Eles precisam atender a restrições mais rigorosas em termos de velocidade, tamanho de disco e memória, mantendo a mesma precisão. Frequentemente, eles têm que atender a várias aplicações com diferentes distribuições simultaneamente, como a comunicação com um assistente virtual e a conversão de fala em texto. A solução mais simples para atender a múltiplas aplicações é construir modelos específicos para cada aplicação (modelos de linguagem), mas isso leva a um aumento no uso de memória. Portanto, exploramos diferentes abordagens de modelagem de linguagem baseadas em dados e arquitetura para construir um único modelo independente de aplicação. Propomos duas novas arquiteturas feed-forward que encontram um equilíbrio ideal entre diferentes restrições em dispositivos. Em comparação com a solução específica para cada aplicação, uma de nossas novas abordagens reduz o tamanho do disco pela metade, mantendo a velocidade e a precisão do modelo original.
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho preditivo notável em um número crescente de tarefas. No entanto, sua rápida proliferação e crescente opacidade criaram uma necessidade cada vez maior de interpretabilidade. Aqui, questionamos se podemos obter automaticamente explicações em linguagem natural para módulos de texto de caixa preta. Um "módulo de texto" é qualquer função que mapeia texto para um valor contínuo escalar, como um submódulo dentro de um LLM ou um modelo ajustado de uma região cerebral. "Caixa preta" indica que temos acesso apenas às entradas/saídas do módulo. Apresentamos o método Summarize and Score (SASC), que recebe um módulo de texto e retorna uma explicação em linguagem natural da seletividade do módulo, juntamente com uma pontuação que indica a confiabilidade da explicação. Estudamos o SASC em três contextos. Primeiro, avaliamos o SASC em módulos sintéticos e descobrimos que ele frequentemente recupera explicações de verdade fundamental. Segundo, usamos o SASC para explicar módulos encontrados dentro de um modelo BERT pré-treinado, permitindo a inspeção dos internos do modelo. Por fim, mostramos que o SASC pode gerar explicações para a resposta de voxels individuais de fMRI a estímulos linguísticos, com possíveis aplicações em mapeamento cerebral de alta resolução. Todo o código para usar o SASC e reproduzir os resultados está disponível no Github.
Melhorar o uso de palavras é uma funcionalidade desejada em ferramentas de assistência à escrita. Para avançar ainda mais as pesquisas nessa área, este artigo introduz a tarefa e o benchmark "Smart Word Suggestions" (SWS). Diferente de outros trabalhos, o SWS enfatiza a avaliação de ponta a ponta e apresenta um cenário mais realista de assistência à escrita. Essa tarefa envolve identificar palavras ou frases que precisam de aprimoramento e fornecer sugestões de substituição. O benchmark inclui dados anotados manualmente para testes, um grande conjunto de dados supervisionado de forma distante para treinamento e o framework para avaliação. Os dados de teste contêm 1.000 frases escritas por aprendizes de inglês, acompanhadas por mais de 16.000 sugestões de substituição anotadas por 10 falantes nativos. O conjunto de dados de treinamento compreende mais de 3,7 milhões de frases e 12,7 milhões de sugestões geradas por meio de regras. Nossos experimentos com sete modelos de referência demonstram que o SWS é uma tarefa desafiadora. Com base na análise experimental, sugerimos possíveis direções para pesquisas futuras sobre o SWS. O conjunto de dados e os códigos relacionados estão disponíveis em https://github.com/microsoft/SmartWordSuggestions.
Este trabalho foi apresentado no Workshop sobre Representações Espaciais Não Convencionais da Conferência Internacional de Robótica e Automação do IEEE 2023. Campos de radiação neural (NeRFs) são uma classe de representações implícitas de cenas que modelam ambientes 3D a partir de imagens coloridas. Os NeRFs são expressivos e podem modelar a geometria complexa e multiescala de ambientes do mundo real, o que potencialmente os torna uma ferramenta poderosa para aplicações em robótica. Bibliotecas modernas de treinamento de NeRFs podem gerar um NeRF foto-realístico a partir de um conjunto de dados estático em apenas alguns segundos, mas são projetadas para uso offline e exigem uma etapa de pré-computação lenta de otimização de pose. Neste trabalho, propomos o NerfBridge, uma ponte de código aberto entre o Robot Operating System (ROS) e a popular biblioteca Nerfstudio para o treinamento em tempo real e online de NeRFs a partir de um fluxo de imagens. O NerfBridge permite o desenvolvimento rápido de pesquisas sobre aplicações de NeRFs em robótica, fornecendo uma interface extensível para os pipelines de treinamento eficientes e bibliotecas de modelos oferecidos pelo Nerfstudio. Como exemplo de caso de uso, descrevemos uma configuração de hardware que pode ser usada com o NerfBridge para treinar um NeRF a partir de imagens capturadas por uma câmera montada em um quadrirrotor, tanto em ambientes internos quanto externos. Para o vídeo complementar, acesse https://youtu.be/EH0SLn-RcDg e para o código, https://github.com/javieryu/nerf_bridge.
Modelos de linguagem grandes e multilíngues exibem capacidades surpreendentemente boas de tradução automática zero-shot ou few-shot, apesar de nunca terem visto os exemplos de tradução intencionalmente incluídos fornecidos aos sistemas típicos de tradução neural. Investigamos o papel do bilinguismo incidental -- o consumo não intencional de sinais bilíngues, incluindo exemplos de tradução -- na explicação das capacidades de tradução de grandes modelos de linguagem, tomando o Pathways Language Model (PaLM) como estudo de caso. Introduzimos uma abordagem de métodos mistos para medir e compreender o bilinguismo incidental em escala. Mostramos que o PaLM é exposto a mais de 30 milhões de pares de tradução em pelo menos 44 idiomas. Além disso, a quantidade de conteúdo bilíngue incidental está altamente correlacionada com a quantidade de conteúdo monolíngue no idioma para línguas não inglesas. Relacionamos o conteúdo bilíngue incidental a prompts zero-shot e mostramos que ele pode ser usado para minerar novos prompts para melhorar a qualidade da tradução zero-shot do PaLM para fora do inglês. Finalmente, em uma série de ablações em pequena escala, mostramos que sua presença tem um impacto substancial nas capacidades de tradução, embora esse impacto diminua com a escala do modelo.
O cerne da Estereoscopia Multi-visão (MVS) é o processo de correspondência entre pixels de referência e fonte. A agregação de custo desempenha um papel significativo nesse processo, enquanto métodos anteriores se concentram em lidar com isso por meio de CNNs. Isso pode herdar a limitação natural das CNNs, que falham em discriminar correspondências repetitivas ou incorretas devido a campos receptivos locais limitados. Para lidar com essa questão, buscamos envolver o Transformer na agregação de custo. No entanto, outro problema pode surgir devido à complexidade computacional que cresce quadraticamente causada pelo Transformer, resultando em estouro de memória e latência de inferência. Neste artigo, superamos esses limites com uma rede eficiente de agregação de custo baseada em Transformer, denominada CostFormer. O Residual Depth-Aware Cost Transformer (RDACT) é proposto para agregar características de longo alcance no volume de custo por meio de mecanismos de auto-atenção ao longo das dimensões de profundidade e espacial. Além disso, o Residual Regression Transformer (RRT) é proposto para aprimorar a atenção espacial. O método proposto é um plug-in universal para melhorar métodos de MVS baseados em aprendizado.
Investigamos se múltiplos modelos de linguagem de grande escala (LLMs) podem melhorar uns aos outros de forma autônoma em um jogo de negociação, jogando, refletindo e criticando. Interessamo-nos por essa questão porque, se os LLMs fossem capazes de melhorar uns aos outros, isso implicaria a possibilidade de criar agentes de IA robustos com intervenção humana mínima. Solicitamos que dois LLMs negociem entre si, assumindo os papéis de comprador e vendedor, respectivamente. Eles visam chegar a um acordo, com o comprador buscando um preço mais baixo e o vendedor um preço mais alto. Um terceiro modelo de linguagem, atuando como crítico, fornece feedback a um dos jogadores para aprimorar suas estratégias de negociação. Permitimos que os dois agentes joguem várias rodadas, utilizando o histórico de negociações anteriores e o feedback da IA como demonstrações em contexto para melhorar iterativamente a estratégia de negociação do modelo. Utilizamos diferentes LLMs (GPT e Claude) para diferentes papéis e empregamos o preço do acordo como métrica de avaliação. Nossos experimentos revelam várias descobertas intrigantes: (1) Apenas um subconjunto dos modelos de linguagem que consideramos consegue jogar consigo mesmo e melhorar o preço do acordo com base no feedback da IA; modelos mais fracos ou não entendem as regras do jogo ou não conseguem incorporar o feedback da IA para melhorias adicionais. (2) A capacidade dos modelos de aprender com o feedback varia dependendo do papel que desempenham. Por exemplo, é mais difícil para o Claude-instant melhorar como comprador do que como vendedor. (3) Ao estender o jogo para múltiplas rodadas, agentes mais fortes conseguem melhorar consistentemente seu desempenho ao utilizar de forma significativa experiências anteriores e feedback iterativo da IA, mas correm um risco maior de romper o acordo. Esperamos que nosso trabalho forneça explorações iniciais perspicazes sobre como os modelos podem melhorar uns aos outros de forma autônoma por meio de jogos e feedback da IA.
A classificação de granularidade fina é uma tarefa desafiadora que envolve identificar diferenças sutis entre objetos dentro da mesma categoria. Essa tarefa é particularmente difícil em cenários onde os dados são escassos. Transformadores visuais (ViT) surgiram recentemente como uma ferramenta poderosa para classificação de imagens, devido à sua capacidade de aprender representações altamente expressivas de dados visuais usando mecanismos de auto-atenção. Neste trabalho, exploramos o Semi-ViT, um modelo ViT ajustado usando técnicas de aprendizado semi-supervisionado, adequado para situações em que há escassez de dados anotados. Isso é particularmente comum no comércio eletrônico, onde as imagens estão prontamente disponíveis, mas os rótulos são ruidosos, inexistentes ou caros de obter. Nossos resultados demonstram que o Semi-ViT supera as redes neurais convolucionais (CNN) tradicionais e os ViTs, mesmo quando ajustados com dados anotados limitados. Esses achados indicam que os Semi-ViTs têm um potencial significativo para aplicações que exigem classificação visual precisa e de granularidade fina.
O conteúdo multimídia, como anúncios e vídeos de histórias, apresenta uma rica combinação de criatividade e múltiplas modalidades. Ele incorpora elementos como texto, imagens, áudio e técnicas de narrativa, utilizando recursos como emoções, simbolismo e slogans para transmitir significado. Embora pesquisas anteriores em compreensão de multimídia tenham se concentrado principalmente em vídeos com ações específicas, como culinária, há uma escassez de grandes conjuntos de dados de treinamento anotados, o que dificulta o desenvolvimento de modelos de aprendizado supervisionado com desempenho satisfatório para aplicações do mundo real. No entanto, o surgimento de grandes modelos de linguagem (LLMs) tem mostrado um desempenho notável em tarefas de processamento de linguagem natural (NLP), como classificação de emoções, questionamento e classificação de tópicos. Para superar essa lacuna de desempenho na compreensão de multimídia, propomos verbalizar vídeos de histórias para gerar suas descrições em linguagem natural e, em seguida, realizar tarefas de compreensão de vídeo na história gerada, em vez de no vídeo original. Por meio de extensos experimentos em cinco tarefas de compreensão de vídeo, demonstramos que nosso método, apesar de ser zero-shot, alcança resultados significativamente melhores do que as abordagens supervisionadas de referência para compreensão de vídeo. Além disso, para suprir a falta de benchmarks de compreensão de histórias, disponibilizamos publicamente o primeiro conjunto de dados sobre uma tarefa crucial em ciência social computacional: a identificação de estratégias de persuasão.