Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o phi-1, um novo modelo de linguagem de grande escala para código, com um tamanho significativamente menor do que os modelos concorrentes: o phi-1 é um modelo baseado em Transformer com 1,3 bilhão de parâmetros, treinado por 4 dias em 8 GPUs A100, utilizando uma seleção de dados de "qualidade de livro didático" da web (6 bilhões de tokens) e livros didáticos e exercícios gerados sinteticamente com o GPT-3.5 (1 bilhão de tokens). Apesar dessa escala reduzida, o phi-1 alcança uma precisão pass@1 de 50,6% no HumanEval e 55,5% no MBPP. Ele também exibe propriedades emergentes surpreendentes em comparação com o phi-1-base, nosso modelo antes da etapa de ajuste fino em um conjunto de dados de exercícios de codificação, e o phi-1-small, um modelo menor com 350 milhões de parâmetros treinado com o mesmo pipeline do phi-1 que ainda alcança 45% no HumanEval.
A geração de movimentos humanos realistas a partir de descrições de ações específicas tem experimentado avanços significativos devido à crescente demanda por humanos digitais. Embora trabalhos recentes tenham alcançado resultados impressionantes na geração de movimentos diretamente a partir de descrições textuais de ações, eles frequentemente suportam apenas uma única modalidade de sinal de controle, o que limita sua aplicação na indústria real de humanos digitais. Este artigo apresenta um Motion General-Purpose generaTor (MotionGPT) que pode utilizar sinais de controle multimodais, como texto e poses de quadro único, para gerar movimentos humanos consecutivos, tratando sinais multimodais como tokens de entrada especiais em modelos de linguagem de grande escala (LLMs). Especificamente, primeiro quantizamos os sinais de controle multimodais em códigos discretos e, em seguida, os formulamos em uma instrução de prompt unificada para solicitar que os LLMs gerem a resposta de movimento. Nosso MotionGPT demonstra um modelo unificado de geração de movimento humano com sinais de controle multimodais, ajustando apenas 0,4% dos parâmetros do LLM. Até onde sabemos, o MotionGPT é o primeiro método a gerar movimento humano por meio de sinais de controle multimodais, o que esperamos que possa lançar luz sobre essa nova direção. Os códigos serão liberados após a aceitação.
HomeRobot (substantivo): Um robô acessível e flexível que navega em ambientes domésticos e manipula uma ampla variedade de objetos para realizar tarefas cotidianas. A Manipulação Móvel de Vocabulário Aberto (Open-Vocabulary Mobile Manipulation - OVMM) é o problema de pegar qualquer objeto em um ambiente desconhecido e colocá-lo em um local especificado. Este é um desafio fundamental para que os robôs se tornem assistentes úteis em ambientes humanos, pois envolve a resolução de subproblemas de diversas áreas da robótica: percepção, compreensão de linguagem, navegação e manipulação são todos essenciais para a OVMM. Além disso, a integração das soluções para esses subproblemas apresenta seus próprios desafios significativos. Para impulsionar a pesquisa nessa área, introduzimos o benchmark OVMM do HomeRobot, onde um agente navega por ambientes domésticos para agarrar objetos novos e colocá-los em recipientes-alvo. O HomeRobot possui dois componentes: um componente de simulação, que utiliza um conjunto grande e diversificado de objetos curados em novos ambientes domésticos de alta qualidade com vários cômodos; e um componente do mundo real, fornecendo uma pilha de software para o Hello Robot Stretch de baixo custo, incentivando a replicação de experimentos do mundo real em diferentes laboratórios. Implementamos tanto linhas de base de aprendizado por reforço quanto heurísticas (baseadas em modelos) e mostramos evidências de transferência sim-to-real. Nossas linhas de base alcançam uma taxa de sucesso de 20% no mundo real; nossos experimentos identificam maneiras pelas quais futuras pesquisas podem melhorar o desempenho. Veja os vídeos em nosso site: https://ovmm.github.io/.
Apesar do enorme sucesso dos Modelos de Linguagem de Grande Escala (LLMs) em assistentes de codificação como o GitHub Copilot, esses modelos têm dificuldade em compreender o contexto presente no repositório (por exemplo, imports, classes pai, arquivos com nomes semelhantes, etc.), resultando em sugestões de código imprecisas. Esse efeito é mais pronunciado ao usar esses assistentes para repositórios que o modelo não viu durante o treinamento, como software proprietário ou projetos de código em andamento. Trabalhos recentes mostraram o potencial de usar o contexto do repositório durante a inferência. Neste trabalho, estendemos essa ideia e propomos o RepoFusion, um framework para treinar modelos a incorporar o contexto relevante do repositório. Experimentos em conclusão de código de linha única mostram que nossos modelos treinados com contexto de repositório superam significativamente modelos de código muito maiores, como o CodeGen-16B-multi (aproximadamente 73 vezes maior), e se aproximam do desempenho do modelo StarCoderBase, que é aproximadamente 70 vezes maior e foi treinado com o objetivo Fill-in-the-Middle. Consideramos esses resultados uma demonstração nova e convincente dos ganhos que o treinamento com contexto de repositório pode trazer. Realizamos extensos estudos de ablação para investigar o impacto de escolhas de design, como tipo de contexto, número de contextos, comprimento do contexto e inicialização dentro de nosso framework. Por fim, lançamos o Stack-Repo, um conjunto de dados de 200 repositórios Java com licenças permissivas e arquivos quase deduplicados, que são aumentados com três tipos de contextos de repositório. Além disso, estamos disponibilizando o código e os checkpoints treinados para nosso trabalho. Nossos recursos lançados podem ser encontrados em https://huggingface.co/RepoFusion.
Os dados de nuvem de pontos coletados em aplicações do mundo real são frequentemente incompletos. A ausência de dados geralmente ocorre porque os objetos são observados a partir de perspectivas parciais, que capturam apenas um ângulo ou ponto de vista específico. Além disso, os dados podem ser incompletos devido a oclusões e amostragem de baixa resolução. As abordagens existentes de completamento dependem de conjuntos de dados de objetos predefinidos para guiar a completação de nuvens de pontos ruidosas e incompletas. No entanto, essas abordagens têm desempenho insatisfatório quando testadas em objetos Fora da Distribuição (Out-Of-Distribution, OOD), que são pouco representados no conjunto de dados de treinamento. Aqui, aproveitamos os avanços recentes na geração de imagens guiada por texto, que levaram a grandes avanços na geração de formas guiada por texto. Descrevemos uma abordagem chamada SDS-Complete, que utiliza um modelo de difusão pré-treinado de texto para imagem e aproveita a semântica textual de uma nuvem de pontos incompleta de um objeto para obter uma representação completa da superfície. O SDS-Complete pode completar uma variedade de objetos usando otimização em tempo de teste, sem a necessidade de coleta dispendiosa de informações 3D. Avaliamos o SDS-Complete em objetos escaneados incompletos, capturados por sensores de profundidade e scanners LiDAR do mundo real. Constatamos que ele reconstrói efetivamente objetos ausentes em conjuntos de dados comuns, reduzindo a perda de Chamfer em 50%, em média, em comparação com os métodos atuais. Página do projeto: https://sds-complete.github.io/
Aumento de memória é uma abordagem poderosa para incorporar eficientemente informações externas em modelos de linguagem, mas resulta em desempenho reduzido em comparação com a recuperação de texto. Trabalhos recentes introduziram o LUMEN, um híbrido de memória e recuperação que pré-computa parcialmente a memória e atualiza as representações de memória em tempo real com um codificador menor e dinâmico. Propomos o GLIMMER, que aprimora essa abordagem através de 1) explorar o acesso livre às poderosas representações de memória aplicando um reranker superficial sobre a memória para melhorar drasticamente a qualidade da recuperação a um custo baixo, e 2) incorporar treinamento multitarefa para aprender uma memória e um codificador dinâmico mais gerais e de maior qualidade. O GLIMMER alcança ganhos significativos de desempenho em velocidades mais rápidas em comparação com o LUMEN e o FiD no benchmark KILT de tarefas intensivas em conhecimento.
A capacidade de aproveitar experiências robóticas heterogêneas de diferentes robôs e tarefas para dominar rapidamente novas habilidades e configurações tem o potencial de transformar o aprendizado de robôs. Inspirados pelos recentes avanços em modelos de base para visão e linguagem, propomos um agente de base para manipulação robótica. Este agente, denominado RoboCat, é um transformador de decisão condicionado a metas visuais, capaz de consumir experiências visuais rotuladas com ações de múltiplas configurações. Esses dados abrangem um grande repertório de habilidades de controle motor de braços robóticos simulados e reais, com diferentes conjuntos de observações e ações. Com o RoboCat, demonstramos a capacidade de generalizar para novas tarefas e robôs, tanto de forma zero-shot quanto por meio de adaptação usando apenas 100 a 1000 exemplos para a tarefa alvo. Também mostramos como um modelo treinado pode ser usado para gerar dados para iterações subsequentes de treinamento, fornecendo assim um bloco básico para um ciclo de melhoria autônoma. Investigamos as capacidades do agente, com avaliações em grande escala tanto em simulação quanto em três diferentes configurações de robôs reais. Descobrimos que, à medida que expandimos e diversificamos seus dados de treinamento, o RoboCat não apenas mostra sinais de transferência entre tarefas, mas também se torna mais eficiente na adaptação a novas tarefas.
Modelos de linguagem de código (LMs) funcionam bem quando o código circundante na vizinhança da geração fornece contexto suficiente. Isso não é verdade quando se torna necessário usar tipos ou funcionalidades definidos em outro módulo ou biblioteca, especialmente aqueles não vistos durante o treinamento. Os LMs sofrem com uma consciência limitada desse contexto global e acabam alucinando, por exemplo, usando tipos definidos em outros arquivos de forma incorreta. Trabalhos recentes tentam superar esse problema recuperando informações globais para aumentar o contexto local. No entanto, isso incha o prompt ou requer modificações na arquitetura e treinamento adicional. Ambientes de desenvolvimento integrados (IDEs) auxiliam os desenvolvedores trazendo o contexto global ao alcance das mãos usando análise estática. Estendemos essa assistência, desfrutada pelos desenvolvedores, aos LMs. Propomos uma noção de monitores que usam análise estática em segundo plano para guiar a decodificação. Diferente da recuperação a priori, a análise estática é invocada iterativamente durante todo o processo de decodificação, fornecendo as sugestões mais relevantes sob demanda. Demonstramos a utilidade de nossa proposta monitorando o uso consistente de tipos de identificadores sempre que um LM gera código para desreferenciação de objetos. Para avaliar nossa abordagem, criamos o PragmaticCode, um conjunto de dados de projetos de código aberto com seus ambientes de desenvolvimento. Em modelos de escala variável de parâmetros, mostramos que a decodificação guiada por monitor melhora consistentemente a capacidade de um LM não apenas de gerar identificadores que correspondem à verdade fundamental, mas também melhora as taxas de compilação e a concordância com a verdade fundamental. Descobrimos que LMs com menos parâmetros, quando guiados por nosso monitor, podem superar LMs maiores. Com a decodificação guiada por monitor, o SantaCoder-1.1B alcança uma taxa de compilação e correspondência de próximo identificador melhor do que o modelo muito maior text-davinci-003. Os conjuntos de dados e o código serão liberados em https://aka.ms/monitors4codegen.
Modelos de linguagem de grande escala (LLMs) têm demonstrado habilidades notáveis em compreensão e geração de linguagem. Ao evoluir de LLMs base para LLMs que seguem instruções, o ajuste por instrução desempenha um papel vital no alinhamento desses modelos às preferências humanas. No entanto, os LLMs existentes geralmente são focados no inglês, resultando em desempenho inferior em idiomas não ingleses. Para melhorar o desempenho em idiomas não ingleses, é necessário coletar dados de treinamento específicos para LLMs base e construir instruções específicas para o ajuste por instrução, ambos sendo tarefas intensivas. Para minimizar o esforço humano, propomos transferir as capacidades de geração de linguagem e seguimento de instruções do inglês para outros idiomas por meio de uma tarefa de tradução interativa. Desenvolvemos o BayLing, um LLM que segue instruções, utilizando o LLaMA como LLM base e construindo automaticamente instruções de tradução interativa para o ajuste por instrução. Avaliações extensivas demonstram que o BayLing alcança desempenho comparável ao GPT-3.5-turbo, apesar de utilizar um número de parâmetros significativamente menor, de apenas 13 bilhões. Resultados experimentais em tarefas de tradução mostram que o BayLing alcança 95% da capacidade de tradução de turno único em comparação ao GPT-4 com avaliação automática e 96% da capacidade de tradução interativa em comparação ao GPT-3.5-turbo com avaliação humana. Para estimar o desempenho em tarefas gerais, criamos um conjunto de testes de instruções multi-turn chamado BayLing-80. Os resultados experimentais no BayLing-80 indicam que o BayLing alcança 89% do desempenho em comparação ao GPT-3.5-turbo. O BayLing também demonstra desempenho excepcional em avaliações de conhecimento do GaoKao chinês e do SAT inglês, ficando atrás apenas do GPT-3.5-turbo entre uma variedade de LLMs que seguem instruções. Demonstração, página inicial, código e modelos do BayLing estão disponíveis.
Modelos de difusão de remoção de ruído são um tipo poderoso de modelos generativos utilizados para capturar distribuições complexas de sinais do mundo real. No entanto, sua aplicabilidade é limitada a cenários em que amostras de treinamento estão prontamente disponíveis, o que nem sempre é o caso em aplicações reais. Por exemplo, em gráficos inversos, o objetivo é gerar amostras a partir de uma distribuição de cenas 3D que se alinhem com uma imagem dada, mas cenas 3D de referência não estão disponíveis e apenas imagens 2D são acessíveis. Para abordar essa limitação, propomos uma nova classe de modelos probabilísticos de difusão de remoção de ruído que aprendem a amostrar a partir de distribuições de sinais que nunca são diretamente observados. Em vez disso, esses sinais são medidos indiretamente por meio de um modelo direto diferenciável conhecido, que produz observações parciais do sinal desconhecido. Nossa abordagem envolve a integração direta do modelo direto no processo de remoção de ruído. Essa integração conecta efetivamente a modelagem generativa de observações com a modelagem generativa dos sinais subjacentes, permitindo o treinamento de ponta a ponta de um modelo generativo condicional sobre sinais. Durante a inferência, nossa abordagem possibilita a amostragem a partir da distribuição de sinais subjacentes que são consistentes com uma observação parcial dada. Demonstramos a eficácia de nosso método em três tarefas desafiadoras de visão computacional. Por exemplo, no contexto de gráficos inversos, nosso modelo permite a amostragem direta a partir da distribuição de cenas 3D que se alinham com uma única imagem 2D de entrada.
Modelos de visão e linguagem em grande escala (VLM) têm demonstrado resultados impressionantes em aplicações de busca guiada por linguagem. Embora esses modelos permitam consultas em nível de categoria, eles atualmente enfrentam dificuldades com buscas personalizadas por momentos em um vídeo onde uma instância específica de objeto, como "Meu cachorro Biscoito", aparece. Apresentamos três contribuições para abordar esse problema. Primeiro, descrevemos um método para meta-personalizar um VLM pré-treinado, ou seja, aprender como personalizar um VLM em tempo de teste para buscar em vídeos. Nosso método estende o vocabulário de tokens do VLM ao aprender novos embeddings de palavras específicos para cada instância. Para capturar apenas características específicas da instância, representamos cada embedding de instância como uma combinação de características globais compartilhadas e aprendidas da categoria. Segundo, propomos aprender essa personalização sem supervisão humana explícita. Nossa abordagem identifica automaticamente momentos de instâncias visuais nomeadas em vídeos usando transcrições e similaridade visão-linguagem no espaço de embedding do VLM. Por fim, introduzimos o This-Is-My, um benchmark de recuperação de instâncias de vídeo personalizadas. Avaliamos nossa abordagem no This-Is-My e no DeepFashion2, mostrando uma melhoria relativa de 15% em relação ao estado da arte no último conjunto de dados.
A transcrição de música multitrack visa transcrever uma entrada de áudio musical nas notas musicais de múltiplos instrumentos simultaneamente. É uma tarefa bastante desafiadora que normalmente requer um modelo mais complexo para alcançar resultados satisfatórios. Além disso, trabalhos anteriores focam principalmente na transcrição de instrumentos regulares, negligenciando, no entanto, os vocais, que geralmente são a fonte de sinal mais importante, se presentes em uma peça musical. Neste artigo, propomos uma nova arquitetura de rede neural profunda, Perceiver TF, para modelar a representação tempo-frequência da entrada de áudio para transcrição multitrack. O Perceiver TF amplia a arquitetura Perceiver ao introduzir uma expansão hierárquica com uma camada adicional de Transformer para modelar a coerência temporal. Consequentemente, nosso modelo herda os benefícios do Perceiver, que possui melhor escalabilidade, permitindo que ele lide bem com transcrições de muitos instrumentos em um único modelo. Nos experimentos, treinamos um Perceiver TF para modelar 12 classes de instrumentos, bem como vocais, de forma multitarefa. Nossos resultados demonstram que o sistema proposto supera os equivalentes state-of-the-art (por exemplo, MT3 e SpecTNT) em vários conjuntos de dados públicos.