Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) se destacam em diversas tarefas, mas dependem de prompts cuidadosamente elaborados que frequentemente exigem um esforço humano considerável. Para automatizar esse processo, neste artigo, propomos um novo framework para otimização de prompts discretos, chamado EvoPrompt, que empresta a ideia de algoritmos evolutivos (EAs), pois eles apresentam bom desempenho e convergência rápida. Para permitir que os EAs funcionem com prompts discretos, que são expressões em linguagem natural que precisam ser coerentes e legíveis, conectamos os LLMs com os EAs. Essa abordagem nos permite aproveitar simultaneamente as poderosas capacidades de processamento de linguagem dos LLMs e o desempenho eficiente de otimização dos EAs. Especificamente, abstendo-se de qualquer gradiente ou parâmetro, o EvoPrompt começa com uma população de prompts e gera iterativamente novos prompts com os LLMs com base nos operadores evolutivos, melhorando a população com base no conjunto de desenvolvimento. Otimizamos prompts tanto para LLMs de código fechado quanto de código aberto, incluindo GPT-3.5 e Alpaca, em 9 conjuntos de dados que abrangem tarefas de compreensão e geração de linguagem. O EvoPrompt supera significativamente os prompts elaborados por humanos e os métodos existentes para geração automática de prompts em até 25% e 14%, respectivamente. Além disso, o EvoPrompt demonstra que a conexão entre LLMs e EAs cria sinergias, o que pode inspirar novas pesquisas sobre a combinação de LLMs e algoritmos convencionais.
Pesquisas anteriores observaram degradação na precisão ao substituir o softmax de atenção por uma ativação ponto a ponto, como a ReLU. No contexto de vision transformers, descobrimos que essa degradação é mitigada ao dividir pelo comprimento da sequência. Nossos experimentos, treinando vision transformers de pequeno a grande porte no ImageNet-21k, indicam que a atenção com ReLU pode se aproximar ou igualar o desempenho da atenção com softmax em termos de comportamento de escalonamento como uma função de computação.
Um dos obstáculos para uma melhor compreensão dos mecanismos internos das redes neurais é a polissemanticidade, onde os neurônios parecem ativar em múltiplos contextos semanticamente distintos. A polissemanticidade impede que identifiquemos explicações concisas e compreensíveis para humanos sobre o que as redes neurais estão fazendo internamente. Uma causa hipotética da polissemanticidade é a superposição, onde as redes neurais representam mais características do que o número de neurônios disponíveis, atribuindo essas características a um conjunto supercompleto de direções no espaço de ativação, em vez de a neurônios individuais. Aqui, tentamos identificar essas direções, utilizando autoencoders esparsos para reconstruir as ativações internas de um modelo de linguagem. Esses autoencoders aprendem conjuntos de características que ativam de forma esparsa e são mais interpretáveis e monossemânticas do que as direções identificadas por abordagens alternativas, onde a interpretabilidade é medida por métodos automatizados. A ablação dessas características permite uma edição precisa do modelo, por exemplo, removendo capacidades como a previsão de pronomes, enquanto causa menos perturbação no comportamento do modelo do que técnicas anteriores. Este trabalho indica que é possível resolver a superposição em modelos de linguagem usando um método escalável e não supervisionado. Nosso método pode servir como base para futuros trabalhos de interpretabilidade mecanicista, que esperamos possibilitar maior transparência e capacidade de direcionamento dos modelos.
Exploramos o impacto da esparsidade de parâmetros no comportamento de escalonamento de Transformers treinados em conjuntos de dados massivos (ou seja, "modelos de base"), tanto em domínios visuais quanto linguísticos. Nesse contexto, identificamos a primeira lei de escalonamento que descreve a relação entre a esparsidade dos pesos, o número de parâmetros não nulos e a quantidade de dados de treinamento, que validamos empiricamente em diferentes escalas de modelos e dados; em ViT/JFT-4B e T5/C4. Esses resultados nos permitem caracterizar a "esparsidade ótima", o nível de esparsidade que proporciona o melhor desempenho para um determinado tamanho efetivo de modelo e orçamento de treinamento. Para um número fixo de parâmetros não nulos, identificamos que a esparsidade ótima aumenta com a quantidade de dados utilizados no treinamento. Também estendemos nosso estudo para diferentes estruturas de esparsidade (como o padrão n:m amigável ao hardware) e estratégias (como começar a partir de um modelo denso pré-treinado). Nossas descobertas esclarecem o poder e as limitações da esparsidade de pesos em diversos cenários de parâmetros e computacionais, oferecendo tanto compreensão teórica quanto implicações práticas para o aproveitamento da esparsidade visando melhorias na eficiência computacional.
Para tomar decisões eficazes em ambientes novos com objetivos de longo prazo, é crucial engajar-se em raciocínio hierárquico através de escalas espaciais e temporais. Isso envolve planejar sequências abstratas de subobjetivos, raciocinar visualmente sobre os planos subjacentes e executar ações de acordo com o plano elaborado por meio de controle visuomotor. Propomos Modelos de Fundação Composicionais para Planejamento Hierárquico (HiP), um modelo de fundação que aproveita múltiplos modelos de fundação especializados, treinados individualmente em dados de linguagem, visão e ação, trabalhando em conjunto para resolver tarefas de longo prazo. Utilizamos um modelo de linguagem de grande escala para construir planos simbólicos que são ancorados no ambiente por meio de um modelo de difusão de vídeo de grande escala. Os planos de vídeo gerados são então ancorados ao controle visuomotor, por meio de um modelo de dinâmica inversa que infere ações a partir dos vídeos gerados. Para permitir um raciocínio eficaz dentro dessa hierarquia, impomos consistência entre os modelos por meio de refinamento iterativo. Demonstramos a eficácia e adaptabilidade de nossa abordagem em três diferentes tarefas de manipulação em mesa de longo prazo.
Apesar dos recentes avanços na geração de texto para áudio (TTA), mostramos que os modelos de última geração, como o AudioLDM, treinados em conjuntos de dados com distribuição de classes desequilibrada, como o AudioCaps, apresentam viés em seu desempenho de geração. Especificamente, eles se destacam na geração de classes de áudio comuns, mas têm desempenho inferior nas classes raras, degradando assim o desempenho geral de geração. Referimo-nos a esse problema como geração de texto para áudio de cauda longa. Para abordar essa questão, propomos uma abordagem simples de aumento por recuperação para modelos TTA. Especificamente, dado um prompt de texto de entrada, primeiro utilizamos um modelo de Pré-treinamento de Áudio e Linguagem Contrastiva (CLAP) para recuperar pares texto-áudio relevantes. As características dos dados de áudio-texto recuperados são então usadas como condições adicionais para orientar o aprendizado dos modelos TTA. Aprimoramos o AudioLDM com nossa abordagem proposta e denominamos o sistema resultante como Re-AudioLDM. No conjunto de dados AudioCaps, o Re-AudioLDM alcança uma Distância de Áudio Fréchet (FAD) de última geração de 1,37, superando as abordagens existentes por uma grande margem. Além disso, mostramos que o Re-AudioLDM pode gerar áudio realista para cenas complexas, classes de áudio raras e até mesmo tipos de áudio não vistos, indicando seu potencial em tarefas TTA.
Modelos de difusão de texto para imagem compreendem as relações espaciais entre objetos, mas eles representam a verdadeira estrutura 3D do mundo a partir de apenas supervisão 2D? Demonstramos que sim, o conhecimento 3D está codificado em modelos de difusão de imagem 2D, como o Stable Diffusion, e mostramos que essa estrutura pode ser explorada para tarefas de visão 3D. Nosso método, Inversão Textual Neural com Ponto de Vista (ViewNeTI), controla o ponto de vista 3D de objetos em imagens geradas por modelos de difusão congelados. Treinamos um pequeno mapeador neural para receber parâmetros de ponto de vista da câmera e prever latentes do codificador de texto; esses latentes então condicionam o processo de geração por difusão para produzir imagens com o ponto de vista desejado da câmera. O ViewNeTI aborda naturalmente a Síntese de Novos Pontos de Vista (NVS). Ao aproveitar o modelo de difusão congelado como um prior, podemos resolver NVS com muito poucas visualizações de entrada; podemos até realizar a síntese de novos pontos de vista com uma única visualização. Nossas previsões de NVS com uma única visualização apresentam bons detalhes semânticos e fotorrealismo em comparação com métodos anteriores. Nossa abordagem é bem adequada para modelar a incerteza inerente a problemas de visão 3D esparsa, pois pode gerar eficientemente amostras diversas. Nosso mecanismo de controle de ponto de vista é geral e pode até alterar o ponto de vista da câmera em imagens geradas por prompts definidos pelo usuário.