Artículos de investigación en IA seleccionados diariamente con traducciones
La síntesis de voz de texto a voz (TTS) en modo zero-shot tiene como objetivo generar voces utilizando indicaciones de habla no vistas previamente. Los modelos TTS multihablante a gran escala anteriores han logrado con éxito este objetivo utilizando una grabación de inscripción de menos de 10 segundos. Sin embargo, la mayoría de estos modelos están diseñados para utilizar únicamente indicaciones de habla cortas. La información limitada en estas indicaciones cortas dificulta significativamente la imitación detallada de la identidad. En este artículo, presentamos Mega-TTS 2, un modelo TTS multihablante zero-shot genérico capaz de sintetizar habla para hablantes no vistos utilizando indicaciones de longitud arbitraria. Específicamente, 1) diseñamos un codificador de timbre multireferencia para extraer información de timbre a partir de múltiples referencias de habla; 2) entrenamos un modelo de lenguaje de prosodia con indicaciones de habla de longitud arbitraria. Con estos diseños, nuestro modelo es adecuado para indicaciones de diferentes longitudes, lo que extiende el límite superior de la calidad del habla en TTS zero-shot. Además de las indicaciones de longitud arbitraria, introducimos indicaciones de fuente arbitraria, que aprovechan las probabilidades derivadas de múltiples salidas de P-LLM para producir una prosodia expresiva y controlada. Asimismo, proponemos un modelo de duración autoregresivo a nivel de fonema para incorporar capacidades de aprendizaje en contexto en el modelado de duración. Los experimentos demuestran que nuestro método no solo puede sintetizar habla que preserva la identidad con una indicación corta de un hablante no visto, sino que también mejora su rendimiento con indicaciones de habla más largas. Las muestras de audio pueden encontrarse en https://mega-tts.github.io/mega2_demo/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado su capacidad para aprender en contexto, lo que les permite realizar diversas tareas basándose en unos pocos ejemplos de entrada-salida. Sin embargo, la efectividad del aprendizaje en contexto depende en gran medida de la calidad de los ejemplos seleccionados. En este artículo, proponemos un marco novedoso para entrenar de manera iterativa recuperadores densos que puedan identificar ejemplos de alta calidad en contexto para LLMs. Nuestro marco entrena inicialmente un modelo de recompensa basado en la retroalimentación del LLM para evaluar la calidad de los ejemplos candidatos, seguido de una destilación de conocimiento para entrenar un recuperador denso basado en un bi-codificador. Nuestros experimentos en un conjunto de 30 tareas demuestran que nuestro marco mejora significativamente el rendimiento del aprendizaje en contexto. Además, mostramos la capacidad de generalización de nuestro marco a tareas no vistas durante el entrenamiento. Un análisis en profundidad revela que nuestro modelo mejora el rendimiento al recuperar ejemplos con patrones similares, y las ganancias son consistentes en LLMs de diferentes tamaños.
En este trabajo, presentamos un marco de aprendizaje de representación de características auto-supervisado llamado DreamTeacher que utiliza redes generativas para el pre-entrenamiento de arquitecturas de procesamiento de imágenes destinadas a tareas posteriores. Proponemos destilar conocimiento de un modelo generativo entrenado en arquitecturas de procesamiento de imágenes estándar que han sido cuidadosamente diseñadas para tareas específicas de percepción. Investigamos dos tipos de destilación de conocimiento: 1) destilar características generativas aprendidas en arquitecturas de procesamiento de imágenes objetivo como una alternativa al pre-entrenamiento de estas arquitecturas en grandes conjuntos de datos etiquetados como ImageNet, y 2) destilar etiquetas obtenidas de redes generativas con cabezales de tarea en los logits de las arquitecturas objetivo. Realizamos análisis exhaustivos en múltiples modelos generativos, benchmarks de predicción densa y varios regímenes de pre-entrenamiento. Empíricamente, encontramos que nuestro DreamTeacher supera significativamente los enfoques existentes de aprendizaje de representación auto-supervisado en todos los aspectos. El pre-entrenamiento no supervisado en ImageNet con DreamTeacher conduce a mejoras significativas sobre el pre-entrenamiento de clasificación en ImageNet en conjuntos de datos posteriores, destacando a los modelos generativos, y específicamente a los modelos generativos de difusión, como un enfoque prometedor para el aprendizaje de representación en grandes y diversos conjuntos de datos sin requerir anotación manual.
Abordamos el problema de generar movimientos 3D realistas de humanos interactuando con objetos en una escena. Nuestra idea clave es crear un campo de interacción neuronal asociado a un objeto específico, que calcula la distancia al colector de interacción válido dado una pose humana como entrada. Este campo de interacción guía el muestreo de un modelo de difusión de movimiento humano condicionado por el objeto, con el fin de fomentar contactos plausibles y semánticas de affordance. Para respaldar interacciones con datos escasamente disponibles, proponemos una canalización automatizada de datos sintéticos. Para ello, inicializamos un modelo de movimiento preentrenado, que tiene conocimientos previos sobre los fundamentos del movimiento humano, con poses de anclaje específicas de interacción extraídas de datos limitados de captura de movimiento. Utilizando nuestro modelo de difusión guiado entrenado con datos sintéticos generados, sintetizamos movimientos realistas para acciones como sentarse y levantar objetos, superando enfoques alternativos en términos de calidad del movimiento y finalización exitosa de la acción. Llamamos a nuestro marco NIFTY: Neural Interaction Fields for Trajectory sYnthesis (Campos de Interacción Neuronal para Síntesis de Trayectorias).