Artigos de pesquisa em IA selecionados diariamente com traduções
A síntese de texto para fala (TTS) zero-shot tem como objetivo gerar vozes a partir de prompts de fala nunca antes vistos. Modelos anteriores de TTS multiletores em larga escala já alcançaram esse objetivo com uma gravação de inscrição de até 10 segundos. No entanto, a maioria desses modelos foi projetada para utilizar apenas prompts de fala curtos. A informação limitada em prompts curtos prejudica significativamente o desempenho da imitação de identidade em nível granular. Neste artigo, apresentamos o Mega-TTS 2, um modelo genérico de TTS multiletores zero-shot capaz de sintetizar fala para locutores não vistos com prompts de comprimento arbitrário. Especificamente, 1) projetamos um codificador de timbre multirreferência para extrair informações de timbre de múltiplas gravações de referência; 2) treinamos um modelo de linguagem de prosódia com prompts de fala de comprimento arbitrário. Com essas abordagens, nosso modelo é adequado para prompts de diferentes comprimentos, o que eleva o limite superior da qualidade de fala para TTS zero-shot. Além de prompts de comprimento arbitrário, introduzimos prompts de fonte arbitrária, que aproveitam as probabilidades derivadas de múltiplas saídas de P-LLM para produzir prosódia expressiva e controlada. Adicionalmente, propomos um modelo de duração autoregressivo em nível de fonema para introduzir capacidades de aprendizado em contexto na modelagem de duração. Experimentos demonstram que nosso método não apenas sintetiza fala que preserva a identidade com um prompt curto de um locutor não visto, mas também alcança desempenho aprimorado com prompts de fala mais longos. Amostras de áudio podem ser encontradas em https://mega-tts.github.io/mega2_demo/.
Modelos de linguagem de grande escala (LLMs) demonstraram sua capacidade de aprender em contexto, permitindo que realizem diversas tarefas com base em alguns exemplos de entrada e saída. No entanto, a eficácia do aprendizado em contexto depende fortemente da qualidade dos exemplos selecionados. Neste artigo, propomos uma nova estrutura para treinar iterativamente recuperadores densos que podem identificar exemplos de alta qualidade para LLMs. Nossa estrutura inicialmente treina um modelo de recompensa com base no feedback do LLM para avaliar a qualidade dos exemplos candidatos, seguido por destilação de conhecimento para treinar um recuperador denso baseado em bi-encoders. Nossos experimentos em um conjunto de 30 tarefas demonstram que nossa estrutura melhora significativamente o desempenho do aprendizado em contexto. Além disso, mostramos a capacidade de generalização da nossa estrutura para tarefas não vistas durante o treinamento. Uma análise detalhada revela que nosso modelo melhora o desempenho ao recuperar exemplos com padrões semelhantes, e os ganhos são consistentes em LLMs de diferentes tamanhos.
Neste trabalho, apresentamos um framework de aprendizado de representação de características auto-supervisionado chamado DreamTeacher, que utiliza redes generativas para pré-treinamento de backbones de imagem em tarefas subsequentes. Propomos destilar conhecimento de um modelo generativo treinado em backbones de imagem padrão que foram bem projetados para tarefas específicas de percepção. Investigamos dois tipos de destilação de conhecimento: 1) destilar características generativas aprendidas em backbones de imagem alvo como uma alternativa ao pré-treinamento desses backbones em grandes conjuntos de dados rotulados, como o ImageNet, e 2) destilar rótulos obtidos de redes generativas com cabeças de tarefa nos logits dos backbones alvo. Realizamos análises extensas em múltiplos modelos generativos, benchmarks de predição densa e diversos regimes de pré-treinamento. Empiricamente, constatamos que nosso DreamTeacher supera significativamente as abordagens existentes de aprendizado de representação auto-supervisionado em todos os aspectos. O pré-treinamento não supervisionado no ImageNet com o DreamTeacher resulta em melhorias significativas em relação ao pré-treinamento de classificação no ImageNet em conjuntos de dados subsequentes, destacando modelos generativos, e especificamente modelos generativos de difusão, como uma abordagem promissora para o aprendizado de representação em grandes e diversos conjuntos de dados sem a necessidade de anotação manual.
Abordamos o problema de gerar movimentos 3D realistas de humanos interagindo com objetos em uma cena. Nossa ideia principal é criar um campo de interação neural associado a um objeto específico, que calcula a distância até o manifold de interação válido, dado uma pose humana como entrada. Esse campo de interação orienta a amostragem de um modelo de difusão de movimento humano condicionado ao objeto, de modo a promover contatos plausíveis e semântica de affordance. Para suportar interações com dados escassamente disponíveis, propomos um pipeline automatizado de dados sintéticos. Para isso, inicializamos um modelo de movimento pré-treinado, que possui prioris para os fundamentos do movimento humano, com poses âncora específicas para interação extraídas de dados limitados de captura de movimento. Usando nosso modelo de difusão guiada treinado em dados sintéticos gerados, sintetizamos movimentos realistas para ações como sentar e levantar com vários objetos, superando abordagens alternativas em termos de qualidade do movimento e conclusão bem-sucedida da ação. Chamamos nosso framework de NIFTY: Neural Interaction Fields for Trajectory sYnthesis.