Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Voyager, o primeiro agente de aprendizado contínuo incorporado e alimentado por LLM no Minecraft que explora o mundo de forma contínua, adquire diversas habilidades e faz descobertas inéditas sem intervenção humana. O Voyager é composto por três componentes principais: 1) um currículo automático que maximiza a exploração, 2) uma biblioteca de habilidades em constante crescimento, contendo código executável para armazenar e recuperar comportamentos complexos, e 3) um novo mecanismo de prompt iterativo que incorpora feedback do ambiente, erros de execução e auto-verificação para aprimorar programas. O Voyager interage com o GPT-4 por meio de consultas de caixa-preta, eliminando a necessidade de ajuste fino dos parâmetros do modelo. As habilidades desenvolvidas pelo Voyager são temporalmente estendidas, interpretáveis e composicionais, o que amplia rapidamente as capacidades do agente e mitiga o esquecimento catastrófico. Empiricamente, o Voyager demonstra uma forte capacidade de aprendizado contínuo em contexto e exibe proficiência excepcional ao jogar Minecraft. Ele obtém 3,3x mais itens únicos, percorre distâncias 2,3x maiores e desbloqueia marcos importantes da árvore tecnológica até 15,3x mais rápido do que os métodos SOTA anteriores. O Voyager é capaz de utilizar a biblioteca de habilidades aprendidas em um novo mundo do Minecraft para resolver tarefas inéditas do zero, enquanto outras técnicas lutam para generalizar. Disponibilizamos nosso código completo e prompts em https://voyager.minedojo.org/.
A amostragem por destilação de pontuação (Score Distillation Sampling - SDS) tem mostrado grande potencial na geração de texto para 3D ao destilar modelos de difusão de texto para imagem em grande escala pré-treinados, mas sofre com problemas de super-saturação, super-suavização e baixa diversidade. Neste trabalho, propomos modelar o parâmetro 3D como uma variável aleatória em vez de uma constante, como no SDS, e apresentamos a destilação de pontuação variacional (Variational Score Distillation - VSD), uma estrutura variacional baseada em partículas fundamentada para explicar e abordar os problemas mencionados na geração de texto para 3D. Mostramos que o SDS é um caso especial do VSD e resulta em amostras de baixa qualidade tanto com pesos pequenos quanto grandes de CFG (Class-Free Guidance). Em comparação, o VSD funciona bem com vários pesos de CFG, como a amostragem ancestral de modelos de difusão, e simultaneamente melhora a diversidade e a qualidade das amostras com um peso comum de CFG (ou seja, 7,5). Apresentamos ainda diversas melhorias no espaço de design para texto para 3D, como o cronograma de tempo de destilação e a inicialização de densidade, que são ortogonais ao algoritmo de destilação, mas ainda não foram bem explorados. Nossa abordagem geral, chamada ProlificDreamer, pode gerar NeRF com alta resolução de renderização (ou seja, 512x512) e alta fidelidade, com estrutura rica e efeitos complexos (por exemplo, fumaça e gotas). Além disso, inicializados a partir de NeRF, malhas ajustadas pelo VSD são meticulosamente detalhadas e foto-realistas. Página do projeto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
Um método emergente para melhorar de forma econômica um modelo de linguagem mais fraco é ajustá-lo (finetune) com base em saídas de um modelo mais forte, como um sistema proprietário como o ChatGPT (por exemplo, Alpaca, Self-Instruct e outros). Essa abordagem busca imitar de forma econômica as capacidades do modelo proprietário usando um modelo de código aberto mais fraco. Neste trabalho, analisamos criticamente essa abordagem. Primeiro, ajustamos uma série de modelos de linguagem (LMs) que imitam o ChatGPT, variando tamanhos de modelos base (1,5B--13B), fontes de dados e quantidades de dados de imitação (0,3M--150M tokens). Em seguida, avaliamos os modelos usando avaliadores humanos e benchmarks canônicos de NLP. Inicialmente, ficamos surpresos com a qualidade das saídas dos nossos modelos de imitação — eles parecem muito melhores em seguir instruções, e os avaliadores humanos classificam suas saídas como competitivas com o ChatGPT. No entanto, ao realizar avaliações automáticas mais direcionadas, descobrimos que os modelos de imitação fecham pouco ou nenhum da lacuna entre o modelo base e o ChatGPT em tarefas que não são fortemente suportadas nos dados de imitação. Mostramos que essas discrepâncias de desempenho podem passar despercebidas pelos avaliadores humanos porque os modelos de imitação são hábeis em imitar o estilo do ChatGPT, mas não sua factualidade. No geral, concluímos que a imitação de modelos é uma falsa promessa: existe uma lacuna substancial de capacidades entre modelos de linguagem abertos e fechados que, com os métodos atuais, só pode ser superada usando uma quantidade impraticável de dados de imitação ou modelos base mais capazes. Por sua vez, argumentamos que a ação de maior impacto para melhorar modelos de código aberto é enfrentar o desafio difícil de desenvolver modelos base melhores, em vez de tomar o atalho de imitar sistemas proprietários.
Os resultados excepcionais de geração de texto para imagem (T2I) dos modelos Stable Diffusion (SDMs) vêm acompanhados de demandas computacionais substanciais. Para resolver esse problema, pesquisas recentes sobre SDMs eficientes priorizaram a redução do número de etapas de amostragem e a utilização de quantização de rede. De forma ortogonal a essas direções, este estudo destaca o poder da compressão arquitetônica clássica para síntese T2I de propósito geral, introduzindo SDMs com conhecimento destilado e blocos removidos (BK-SDMs). Eliminamos vários blocos residuais e de atenção da U-Net dos SDMs, obtendo uma redução de mais de 30% no número de parâmetros, MACs por etapa de amostragem e latência. Realizamos pré-treinamento baseado em destilação com apenas 0,22 milhões de pares LAION (menos de 0,1% dos pares de treinamento completos) em uma única GPU A100. Apesar de serem treinados com recursos limitados, nossos modelos compactos podem imitar o SDM original ao se beneficiar do conhecimento transferido e alcançar resultados competitivos em comparação com modelos maiores com bilhões de parâmetros no benchmark zero-shot MS-COCO. Além disso, demonstramos a aplicabilidade de nossos modelos pré-treinados leves na geração personalizada com ajuste fino do DreamBooth.
Modelos de difusão de texto para imagem podem gerar imagens diversas e de alta fidelidade com base em prompts de texto fornecidos pelo usuário. Pesquisas recentes estenderam esses modelos para suportar edição de imagens guiada por texto. Embora a orientação por texto seja uma interface de edição intuitiva para os usuários, ela frequentemente falha em garantir o conceito preciso transmitido pelos usuários. Para resolver esse problema, propomos o Custom-Edit, no qual (i) personalizamos um modelo de difusão com algumas imagens de referência e, em seguida, (ii) realizamos a edição guiada por texto. Nossa principal descoberta é que personalizar apenas os parâmetros relevantes para a linguagem com prompts aumentados melhora significativamente a similaridade com a referência, mantendo a similaridade com a fonte. Além disso, fornecemos nossa receita para cada processo de personalização e edição. Comparamos métodos populares de personalização e validamos nossas descobertas em dois métodos de edição utilizando diversos conjuntos de dados.
Os recentes avanços na geração de música foram notavelmente impulsionados pelo estado da arte do MusicLM, que compreende uma hierarquia de três modelos de linguagem (LMs), respectivamente, para modelagem semântica, acústica grosseira e acústica refinada. No entanto, a amostragem com o MusicLM requer o processamento sequencial desses LMs para obter os tokens acústicos de granularidade fina, tornando-o computacionalmente caro e proibitivo para geração em tempo real. A geração eficiente de música com qualidade comparável ao MusicLM continua sendo um desafio significativo. Neste artigo, apresentamos o MeLoDy (M para música; L para LM; D para difusão), um modelo de difusão guiado por LM que gera áudios musicais de qualidade de última geração, ao mesmo tempo em que reduz 95,7% ou 99,6% das passagens diretas no MusicLM, respectivamente, para amostrar músicas de 10s ou 30s. O MeLoDy herda o LM de nível mais alto do MusicLM para modelagem semântica e aplica um novo modelo de difusão de caminho duplo (DPD) e um VAE-GAN de áudio para decodificar eficientemente os tokens semânticos condicionantes em forma de onda. O DPD é proposto para modelar simultaneamente a acústica grosseira e fina, incorporando efetivamente a informação semântica em segmentos de latentes via atenção cruzada em cada etapa de remoção de ruído. Nossos resultados experimentais sugerem a superioridade do MeLoDy, não apenas em suas vantagens práticas na velocidade de amostragem e geração infinitamente contínua, mas também em sua musicalidade, qualidade de áudio e correlação textual de última geração. Nossas amostras estão disponíveis em https://Efficient-MeLoDy.github.io/.
Modelos de difusão texto-imagem são agora capazes de gerar imagens que muitas vezes são indistinguíveis de imagens reais. Para gerar tais imagens, esses modelos precisam compreender a semântica dos objetos que são solicitados a gerar. Neste trabalho, mostramos que, sem qualquer treinamento, é possível aproveitar esse conhecimento semântico dentro dos modelos de difusão para encontrar correspondências semânticas — locais em múltiplas imagens que possuem o mesmo significado semântico. Especificamente, dada uma imagem, otimizamos os embeddings de prompt desses modelos para maximizar a atenção nas regiões de interesse. Esses embeddings otimizados capturam informações semânticas sobre a localização, que podem então ser transferidas para outra imagem. Ao fazer isso, obtemos resultados comparáveis ao estado da arte fortemente supervisionado no conjunto de dados PF-Willow e superamos significativamente (20,9% relativo para o conjunto de dados SPair-71k) qualquer método existente fracamente supervisionado ou não supervisionado nos conjuntos de dados PF-Willow, CUB-200 e SPair-71k.
Apresentamos os Campos de Difusão em Variedades (MDF), uma abordagem para aprender modelos generativos de funções contínuas definidas sobre variedades de Riemann. Aproveitando insights da análise de geometria espectral, definimos um sistema de coordenadas intrínseco na variedade por meio das autofunções do Operador de Laplace-Beltrami. O MDF representa funções usando uma parametrização explícita formada por um conjunto de múltiplos pares entrada-saída. Nossa abordagem permite amostrar funções contínuas em variedades e é invariante em relação a transformações rígidas e isométricas da variedade. Resultados empíricos em vários conjuntos de dados e variedades mostram que o MDF pode capturar distribuições de tais funções com melhor diversidade e fidelidade do que abordagens anteriores.