Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos os Drivable 3D Gaussian Avatars (D3GA), o primeiro modelo 3D controlável para corpos humanos renderizado com splats gaussianos. Os avatares fotorealísticos controláveis atuais exigem registros 3D precisos durante o treinamento, imagens de entrada densas durante o teste, ou ambos. Aqueles baseados em campos de radiação neural também tendem a ser proibitivamente lentos para aplicações de telepresença. Este trabalho utiliza a técnica recentemente apresentada de 3D Gaussian Splatting (3DGS) para renderizar humanos realistas em taxas de quadros em tempo real, usando vídeos multi-visão calibrados e densos como entrada. Para deformar esses primitivos, nos afastamos do método comumente usado de deformação de pontos por linear blend skinning (LBS) e utilizamos um método clássico de deformação volumétrica: deformações por gaiola. Dado seu tamanho menor, conduzimos essas deformações com ângulos articulares e keypoints, que são mais adequados para aplicações de comunicação. Nossos experimentos com nove sujeitos com diferentes formas corporais, roupas e movimentos obtêm resultados de maior qualidade do que os métodos state-of-the-art ao usar os mesmos dados de treinamento e teste.
Apresentamos uma abordagem para gerar uma visão de 360 graus de uma pessoa com uma aparência consistente e de alta resolução a partir de uma única imagem de entrada. O NeRF e suas variantes geralmente exigem vídeos ou imagens de diferentes pontos de vista. A maioria das abordagens existentes que utilizam entrada monocromática depende de varreduras 3D de verdade terrestre para supervisão ou carece de consistência 3D. Embora modelos generativos 3D recentes mostrem potencial para a digitalização consistente de humanos em 3D, essas abordagens não generalizam bem para diversas aparências de roupas, e os resultados carecem de fotorrealismo. Diferentemente do trabalho existente, utilizamos modelos de difusão 2D de alta capacidade pré-treinados para tarefas gerais de síntese de imagens como um prior de aparência para humanos vestidos. Para alcançar melhor consistência 3D enquanto mantemos a identidade da entrada, sintetizamos progressivamente múltiplas visões do humano na imagem de entrada, preenchendo regiões ausentes com difusão guiada por forma condicionada em silhueta e normal de superfície. Em seguida, fundimos essas imagens sintetizadas de múltiplas visões por meio de renderização inversa para obter uma malha 3D totalmente texturizada e de alta resolução da pessoa em questão. Experimentos mostram que nossa abordagem supera métodos anteriores e alcança uma síntese fotorrealista de 360 graus de uma ampla gama de humanos vestidos com texturas complexas a partir de uma única imagem.
Propomos o DMV3D, uma nova abordagem de geração 3D que utiliza um modelo de reconstrução 3D em larga escala baseado em transformadores para remover ruído de difusão multi-visão. Nosso modelo de reconstrução incorpora uma representação NeRF em triplano e pode remover ruído de imagens multi-visão ruidosas por meio de reconstrução e renderização NeRF, alcançando geração 3D em estágio único em aproximadamente 30 segundos em uma única GPU A100. Treinamos o DMV3D em grandes conjuntos de dados de imagens multi-visão de objetos altamente diversos, utilizando apenas perdas de reconstrução de imagem, sem acesso a ativos 3D. Demonstramos resultados de ponta para o problema de reconstrução de imagem única, onde a modelagem probabilística de partes não vistas do objeto é necessária para gerar reconstruções diversas com texturas nítidas. Também mostramos resultados de alta qualidade na geração de texto para 3D, superando modelos anteriores de difusão 3D. O site do nosso projeto está em: https://justimyhxu.github.io/projects/dmv3d/.
Modelos de difusão de áudio podem sintetizar uma ampla variedade de sons. Os modelos existentes frequentemente operam no domínio latente com módulos de recuperação de fase em cascata para reconstruir a forma de onda. Isso apresenta desafios ao gerar áudio de alta fidelidade. Neste artigo, propomos o EDMSound, um modelo generativo baseado em difusão no domínio de espectrogramas sob o framework de modelos de difusão elucidados (EDM). Combinado com um amostrador determinístico eficiente, alcançamos uma pontuação de distância de Fréchet de áudio (FAD) semelhante à do melhor baseline com apenas 10 passos e atingimos desempenho de ponta com 50 passos no benchmark de geração de sons foley do DCASE2023. Também revelamos uma preocupação potencial em relação aos modelos de geração de áudio baseados em difusão, que tendem a gerar amostras com alta similaridade perceptiva aos dados de treinamento. Página do projeto: https://agentcooper2002.github.io/EDMSound/
Jogos de RPG baseados em diálogo exigem narrativas poderosas. As histórias desses jogos podem levar anos para serem escritas e geralmente envolvem uma grande equipe criativa. Neste trabalho, demonstramos o potencial dos grandes modelos generativos de texto para auxiliar esse processo. O GRIM, um sistema protótipo de visualização interativa de narrativas baseado em grafos para jogos, gera um rico grafo narrativo com ramificações de enredo que correspondem a uma descrição narrativa de alto nível e às restrições fornecidas pelo designer. Os designers de jogos podem editar o grafo de forma interativa, gerando automaticamente novos subgrafos que se encaixam nas edições dentro da narrativa e das restrições originais. Ilustramos o uso do GRIM em conjunto com o GPT-4, gerando narrativas ramificadas para quatro histórias bem conhecidas com diferentes restrições contextuais.
O potencial complementar dos Modelos de Linguagem de Grande Escala (LLM) assume que LLMs prontos para uso possuem expertise heterogênea em uma ampla gama de domínios e tarefas, de modo que um conjunto de LLMs pode alcançar desempenho consistentemente melhor. Os métodos de ensemble existentes para LLMs focam principalmente na classificação de saídas por modelos de recompensa, resultando em um custo computacional significativo. Para combater esse problema, revisitamos o potencial complementar dos LLMs e o elaboramos ainda mais, explorando expertise latente com modelos de recompensa prontos para uso. Propomos o Zooter, um método de roteamento guiado por recompensa que destila recompensas em consultas de treinamento para treinar uma função de roteamento, que pode distribuir precisamente cada consulta para o LLM com expertise sobre ela. Também integramos uma melhoria de rótulos baseada em tags para mitigar o ruído da incerteza ao usar recompensas como supervisão prateada. O Zooter demonstra eficiência computacional na inferência, pois introduz apenas um pequeno custo computacional adicional de uma função de roteamento em comparação com métodos de classificação por modelos de recompensa. Avaliamos o Zooter em uma coleção abrangente de benchmarks com 26 subconjuntos em diferentes domínios e tarefas. O Zooter supera o melhor modelo único em média e ocupa o primeiro lugar em 44% das tarefas, superando até mesmo múltiplos métodos de classificação por modelos de recompensa.
Tecnologias de linguagem que modelam com precisão a dinâmica dos eventos devem realizar raciocínio de senso comum. Trabalhos existentes que avaliam o raciocínio de senso comum concentram-se em fazer inferências sobre situações cotidianas e comuns. Para, em vez disso, investigar a capacidade de modelar situações incomuns, inesperadas e improváveis, exploramos a tarefa de raciocínio abdutivo de senso incomum. Dado um contexto com um resultado inesperado, essa tarefa exige raciocínio abdutivo para gerar uma explicação em linguagem natural que torne o resultado inesperado mais provável no contexto. Para isso, criamos e disponibilizamos um novo corpus em inglês chamado UNcommonsense. Caracterizamos as diferenças entre o desempenho de explicadores humanos e os melhores modelos de linguagem de grande escala, descobrindo que explicações escritas por humanos aprimoradas por modelos alcançam a mais alta qualidade ao equilibrar especificidade e diversidade. Por fim, experimentamos com vários algoritmos de aprendizado por imitação online para treinar modelos de linguagem abertos e acessíveis nessa tarefa. Quando comparados com a abordagem convencional de ajuste fino supervisionado, esses métodos reduzem consistentemente as taxas de perda tanto no raciocínio abdutivo comum quanto no de senso incomum, conforme avaliado por avaliadores humanos.
O ajuste eficiente de parâmetros tem sido uma abordagem proeminente para adaptar os grandes modelos de linguagem a tarefas específicas. A maioria dos trabalhos anteriores considera a adição de parâmetros treináveis densos, onde todos os parâmetros são usados para adaptar uma determinada tarefa. Empiricamente, descobrimos que isso é menos eficaz, usando o exemplo do LoRA, onde a introdução de mais parâmetros treináveis não ajuda. Motivados por isso, investigamos a importância de aproveitar a computação "esparsa" e propomos o SiRA: uma mistura esparsa de adaptação de baixo rank. O SiRA aproveita a Mistura Esparsa de Especialistas (SMoE) para impulsionar o desempenho do LoRA. Especificamente, ele aplica o roteamento dos k principais especialistas com um limite de capacidade que restringe o número máximo de tokens que cada especialista pode processar. Propomos um novo e simples método de dropout de especialistas sobre a rede de gateamento para reduzir o problema de sobreajuste. Através de extensos experimentos, verificamos que o SiRA tem um desempenho superior ao LoRA e a outras abordagens de mistura de especialistas em diferentes configurações de tarefas únicas e multitarefas.
Os recentes avanços em modelos de linguagem de grande escala baseados em Transformers têm feito grandes progressos na geração de linguagem natural. No entanto, para decodificar K tokens, um modelo autoregressivo precisa de K passos sequenciais de propagação direta, o que pode se tornar um gargalo de desempenho para modelos de linguagem de grande escala. Muitas pesquisas em modelos não autoregressivos (NAR) visam abordar esse gargalo de sequencialidade, embora muitas tenham se concentrado em arquiteturas dedicadas em benchmarks supervisionados. Neste trabalho, estudamos o pré-treinamento não supervisionado para modelos T5 não autoregressivos por meio de desruído desenrolado e demonstramos seus resultados de estado da arte em tarefas de geração subsequentes, como geração de perguntas no SQuAD e resumos no XSum.
Modelos de linguagem grandes e poderosos têm facilitado o desenvolvimento de assistentes de escrita que prometem melhorar significativamente a qualidade e a eficiência da composição e da comunicação. No entanto, uma barreira para uma assistência eficaz é a falta de personalização nas saídas dos LLMs para o estilo de comunicação e o conhecimento especializado do autor. Neste artigo, abordamos esse desafio propondo o PEARL, um assistente de escrita baseado em LLM aumentado por recuperação e personalizado com um recuperador calibrado para geração. Nosso recuperador é treinado para selecionar documentos históricos escritos pelo usuário para aumentar o prompt, de forma que sejam mais propensos a personalizar as gerações do LLM para uma solicitação do usuário. Propomos duas inovações principais para o treinamento do nosso recuperador: 1) Um método de seleção de dados de treinamento que identifica solicitações do usuário que provavelmente se beneficiarão da personalização e documentos que fornecem esse benefício; e 2) Um objetivo de divergência KL com calibração de escala que garante que nosso recuperador acompanhe de perto o benefício de um documento para a geração personalizada. Demonstramos a eficácia do PEARL na geração de posts personalizados para mídias sociais no local de trabalho e comentários no Reddit. Por fim, mostramos o potencial de um recuperador calibrado para geração de atuar também como um preditor de desempenho e melhorar ainda mais gerações de baixa qualidade por meio de encadeamento de LLMs.
Os Modelos de Linguagem de Grande Escala (LLMs) inauguraram uma era transformadora no campo do processamento de linguagem natural, destacando-se em tarefas relacionadas à compreensão e geração de texto. No entanto, eles enfrentam dificuldades quando confrontados com contextos caóticos (por exemplo, distratores em vez de contextos longos irrelevantes), levando à omissão inadvertida de certos detalhes dentro do contexto caótico. Em resposta a esses desafios, introduzimos a estratégia "Thread of Thought" (ThoT), que se inspira nos processos cognitivos humanos. O ThoT segmenta e analisa sistematicamente contextos extensos, ao mesmo tempo em que seleciona habilmente informações pertinentes. Essa estratégia serve como um módulo versátil "plug-and-play", integrando-se perfeitamente a vários LLMs e técnicas de prompting. Nos experimentos, utilizamos os conjuntos de dados PopQA e EntityQ, bem como um conjunto de dados de Resposta em Conversas Multi-Turn (MTCR) que coletamos, para demonstrar que o ThoT melhora significativamente o desempenho de raciocínio em comparação com outras técnicas de prompting.
Para manter a confiança do usuário, os grandes modelos de linguagem (LLMs) devem indicar baixa confiança em exemplos onde estão incorretos, em vez de enganar o usuário. A abordagem padrão para estimar a confiança é usar as probabilidades softmax desses modelos, mas, a partir de novembro de 2023, LLMs de ponta, como GPT-4 e Claude-v1.3, não fornecem acesso a essas probabilidades. Primeiro, estudamos a eliciação de confiança linguisticamente — perguntando a um LLM sobre sua confiança em uma resposta — o que apresenta um desempenho razoável (80,5% AUC no GPT-4, média em 12 conjuntos de dados de perguntas e respostas — 7% acima de uma linha de base aleatória), mas ainda deixa espaço para melhorias. Em seguida, exploramos o uso de um modelo de confiança substituto — utilizando um modelo onde temos probabilidades para avaliar a confiança do modelo original em uma determinada pergunta. Surpreendentemente, mesmo que essas probabilidades venham de um modelo diferente e frequentemente mais fraco, esse método resulta em uma AUC maior do que as confianças linguísticas em 9 dos 12 conjuntos de dados. Nosso melhor método, que combina confianças linguísticas e probabilidades do modelo substituto, fornece estimativas de confiança de ponta em todos os 12 conjuntos de dados (84,6% AUC média no GPT-4).
A avaliação de Modelos de Linguagem de Grande Escala (LLMs) é uma tarefa complexa, especialmente considerando as nuances do entendimento de linguagem natural e as expectativas para raciocínio de alto nível. As avaliações tradicionais geralmente se baseiam em paradigmas baseados em humanos, em modelos ou em métricas automáticas, cada um com suas próprias vantagens e limitações. Apresentamos o "Fusion-Eval", um sistema que emprega LLMs não apenas para avaliações diretas, mas para integrar habilmente insights de diversos avaliadores. Isso confere ao Fusion-Eval flexibilidade, permitindo que ele funcione de forma eficaz em diversas tarefas e faça o melhor uso de múltiplas referências. Nos testes realizados com o conjunto de dados SummEval, o Fusion-Eval alcançou uma correlação de Spearman de 0,96, superando outros avaliadores. O sucesso do Fusion-Eval destaca o potencial dos LLMs para produzir avaliações que se alinham de perto com as perspectivas humanas, estabelecendo um novo padrão no campo de avaliação de LLMs.