Artigos de pesquisa em IA selecionados diariamente com traduções
A destilação de conhecimento (KD, do inglês Knowledge Distillation) é amplamente utilizada para comprimir um modelo professor, reduzindo seu custo de inferência e consumo de memória, ao treinar um modelo estudante menor. No entanto, os métodos atuais de KD para modelos de sequência autorregressivos sofrem com uma incompatibilidade de distribuição entre as sequências de saída observadas durante o treinamento e aquelas geradas pelo estudante durante a inferência. Para resolver esse problema, introduzimos a Destilação de Conhecimento Generalizada (GKD, do inglês Generalized Knowledge Distillation). Em vez de depender exclusivamente de um conjunto fixo de sequências de saída, a GKD treina o estudante em suas próprias sequências de saída geradas, aproveitando o feedback do professor sobre tais sequências. Diferente das abordagens supervisionadas de KD, a GKD também oferece a flexibilidade de empregar funções de perda alternativas entre o estudante e o professor, o que pode ser útil quando o estudante não possui a expressividade necessária para imitar a distribuição do professor. Além disso, a GKD facilita a integração contínua da destilação com o ajuste fino por RL (RLHF, do inglês Reinforcement Learning from Human Feedback). Demonstramos a eficácia da GKD para destilar modelos de linguagem autorregressivos em tarefas de sumarização, tradução e raciocínio aritmético, bem como na destilação independente de tarefas para ajuste por instruções.
Modelos de linguagem aumentados por recuperação (LMs) têm recebido muita atenção recentemente. No entanto, normalmente o recuperador não é treinado conjuntamente como um componente nativo do LM, mas adicionado a um LM já pré-treinado, o que limita a capacidade do LM e do recuperador de se adaptarem mutuamente. Neste trabalho, propomos o Transformer Pré-treinado com Recuperação (RPT), uma arquitetura e procedimento de treinamento para treinar conjuntamente um LM aumentado por recuperação desde o início para a tarefa de modelagem de textos longos. Dado um trecho de texto recentemente gerado em um documento longo, o LM calcula representações de consulta, que são então usadas para recuperar trechos anteriores do documento, localizados potencialmente dezenas de milhares de tokens antes. As informações dos trechos recuperados são fundidas nas representações do LM para prever o próximo trecho alvo. Treinamos o componente de recuperação com um objetivo semântico, onde o objetivo é recuperar trechos que aumentam a probabilidade do próximo trecho, de acordo com um LM de referência. Avaliamos o RPT em quatro tarefas de modelagem de linguagem de longo alcance, abrangendo livros, código e escrita matemática, e demonstramos que o RPT melhora a qualidade de recuperação e, consequentemente, a perplexidade em geral em comparação com bases fortes.
Neste trabalho, revisitamos o bloco fundamental mais básico do aprendizado profundo, o perceptron multicamadas (MLP), e estudamos os limites de seu desempenho em tarefas visuais. Insights empíricos sobre MLPs são importantes por múltiplas razões. (1) Dada a narrativa recente de que "menos viés indutivo é melhor", popularizada devido aos transformers superarem modelos convolucionais, é natural explorar os limites dessa hipótese. Para isso, os MLPs oferecem um campo de testes ideal, sendo completamente livres de qualquer viés indutivo. (2) Os MLPs têm sido quase exclusivamente os protagonistas principais na literatura teórica do aprendizado profundo devido à sua simplicidade matemática, servindo como um proxy para explicar fenômenos empíricos observados em arquiteturas mais complexas. Surpreendentemente, pontos de dados experimentais para MLPs são muito difíceis de encontrar na literatura, especialmente quando combinados com protocolos de pré-treinamento em larga escala. Essa discrepância entre prática e teoria é preocupante: os MLPs refletem os avanços empíricos exibidos por modelos práticos? Ou os teóricos precisam repensar o papel dos MLPs como um proxy? Fornecemos insights sobre ambos os aspectos. Mostramos que o desempenho dos MLPs melhora drasticamente com a escala (93% no CIFAR10, 79% no CIFAR100, 69% no TinyImageNet), destacando que a falta de viés indutivo pode de fato ser compensada. Observamos que os MLPs imitam fielmente o comportamento de seus equivalentes modernos, com alguns componentes no cenário de aprendizado, no entanto, exibindo comportamentos mais fortes ou inesperados. Devido à sua eficiência computacional inerente, experimentos de pré-treinamento em larga escala tornam-se mais acessíveis para pesquisadores acadêmicos. Todos os nossos experimentos foram executados em uma única GPU.
Com o surgimento dos Modelos de Linguagem de Grande Escala (LLMs) e sua implantação ubíqua em diversos domínios, medir o comportamento desses modelos em dados realistas é essencial. Por exemplo, uma empresa que implanta um chatbot voltado para clientes deve garantir que o modelo não responderá às solicitações dos clientes com linguagem ofensiva. As avaliações atuais abordam esse problema usando pequenos conjuntos de dados específicos de domínio com rótulos curados por humanos. Esses conjuntos de avaliação são frequentemente amostrados de uma distribuição estreita e simplificada, e as fontes de dados podem, sem querer, vazar para o conjunto de treinamento, o que pode levar a avaliações enganosas. Para contornar essas limitações, propomos uma estrutura para avaliação autossupervisionada de LLMs, analisando sua sensibilidade ou invariância a transformações no texto de entrada. A avaliação autossupervisionada pode monitorar diretamente o comportamento dos LLMs em conjuntos de dados coletados em cenários reais ou transmitidos durante a implantação ao vivo do modelo. Demonstramos estratégias de avaliação autossupervisionada para medir conhecimento de livro fechado, toxicidade e dependência de contexto de longo alcance, além de sensibilidade a erros de estrutura gramatical e tokenização. Quando comparações com benchmarks semelhantes rotulados por humanos estão disponíveis, encontramos fortes correlações entre avaliações autossupervisionadas e supervisionadas por humanos. O paradigma autossupervisionado complementa as estratégias de avaliação atuais que dependem de dados rotulados.
O feedback em linguagem natural (LN) contém informações valiosas sobre a experiência do usuário. Estudos existentes focam em uma abordagem em nível de instância, onde o feedback é usado para refinar exemplos específicos, desconsiderando sua aplicação em todo o sistema. Este artigo propõe um framework geral para desbloquear o uso do feedback em LN em nível de sistema. Mostramos como usar o feedback para formalizar decisões de design em nível de sistema em um processo com o humano no loop — com o objetivo de produzir modelos melhores. Isso é feito, em particular, por meio de: (i) design de métricas para tarefas; e (ii) design de prompts para modelos de linguagem, visando refinar as respostas do modelo. Realizamos dois estudos de caso dessa abordagem para melhorar a geração de consultas de busca e a geração de respostas em diálogos, demonstrando a eficácia do uso de feedback em nível de sistema. Mostramos que a combinação de feedback em nível de sistema e feedback em nível de instância traz ganhos adicionais, e que o feedback escrito por humanos em nível de instância resulta em refinamentos mais fundamentados do que aqueles escritos pelo GPT-3.5, destacando a importância do feedback humano para a construção de sistemas.
Apresentamos a tarefa de segmentação de instâncias 3D de vocabulário aberto. As abordagens tradicionais para segmentação de instâncias 3D dependem amplamente de conjuntos de dados 3D anotados existentes, que são restritos a um conjunto fechado de categorias de objetos. Essa é uma limitação importante para aplicações da vida real, onde pode ser necessário realizar tarefas guiadas por consultas de vocabulário aberto relacionadas a objetos de uma ampla variedade. Recentemente, métodos de compreensão de cenas 3D de vocabulário aberto surgiram para abordar esse problema, aprendendo características consultáveis para cada ponto da cena. Embora tal representação possa ser diretamente empregada para realizar segmentação semântica, os métodos existentes têm limitações em sua capacidade de identificar instâncias de objetos. Neste trabalho, abordamos essa limitação e propomos o OpenMask3D, uma abordagem de segmentação de instâncias 3D de vocabulário aberto sem necessidade de treinamento prévio. Guiado por máscaras de instâncias 3D agnósticas à classe previstas, nosso modelo agrega características por máscara por meio da fusão multi-visual de embeddings de imagens baseados no CLIP. Realizamos experimentos e estudos de ablação no conjunto de dados ScanNet200 para avaliar o desempenho do OpenMask3D e fornecemos insights sobre a tarefa de segmentação de instâncias 3D de vocabulário aberto. Mostramos que nossa abordagem supera outras contrapartes de vocabulário aberto, particularmente na distribuição de cauda longa. Além disso, o OpenMask3D vai além das limitações das abordagens de vocabulário fechado e permite a segmentação de instâncias de objetos com base em consultas de forma livre que descrevem propriedades dos objetos, como semântica, geometria, affordances e propriedades dos materiais.
Campos neurais têm alcançado avanços impressionantes na síntese de visões e na reconstrução de cenas. No entanto, a edição desses campos neurais permanece desafiadora devido à codificação implícita de informações de geometria e textura. Neste artigo, propomos o DreamEditor, uma nova estrutura que permite aos usuários realizar edições controladas de campos neurais usando prompts de texto. Ao representar cenas como campos neurais baseados em malhas, o DreamEditor permite edições localizadas em regiões específicas. O DreamEditor utiliza o codificador de texto de um modelo de difusão de texto para imagem pré-treinado para identificar automaticamente as regiões a serem editadas com base na semântica dos prompts de texto. Posteriormente, o DreamEditor otimiza a região de edição e alinha sua geometria e textura com os prompts de texto por meio de amostragem por destilação de pontuação [29]. Experimentos extensivos demonstraram que o DreamEditor pode editar com precisão campos neurais de cenas do mundo real de acordo com os prompts de texto fornecidos, garantindo consistência em áreas irrelevantes. O DreamEditor gera texturas e geometrias altamente realistas, superando significativamente trabalhos anteriores em avaliações quantitativas e qualitativas.