Articles de recherche en IA sélectionnés quotidiennement avec traductions
La synthèse vocale zero-shot vise à générer des voix à partir d'invites vocales inédites. Les précédents modèles de synthèse vocale multi-locuteurs à grande échelle ont réussi à atteindre cet objectif avec un enregistrement d'inscription de moins de 10 secondes. Cependant, la plupart d'entre eux sont conçus pour n'utiliser que de courtes invites vocales. Le manque d'informations dans ces courtes invites limite considérablement la performance de l'imitation fine de l'identité. Dans cet article, nous présentons Mega-TTS 2, un modèle générique de synthèse vocale multi-locuteurs zero-shot capable de générer la parole pour des locuteurs inédits avec des invites de longueur arbitraire. Plus précisément, nous 1) concevons un encodeur de timbre multi-référence pour extraire les informations de timbre à partir de plusieurs références vocales ; 2) et entraînons un modèle de langage de prosodie avec des invites vocales de longueur arbitraire ; Grâce à ces conceptions, notre modèle est adapté à des invites de différentes longueurs, ce qui repousse la limite supérieure de la qualité vocale pour la synthèse zero-shot. En plus des invites de longueur arbitraire, nous introduisons des invites de source arbitraire, qui exploitent les probabilités dérivées de plusieurs sorties de P-LLM pour produire une prosodie expressive et contrôlée. Par ailleurs, nous proposons un modèle de durée auto-régressif au niveau phonémique pour introduire des capacités d'apprentissage en contexte dans la modélisation de la durée. Les expériences démontrent que notre méthode peut non seulement synthétiser une parole préservant l'identité avec une courte invite d'un locuteur inédit, mais aussi améliorer les performances avec des invites vocales plus longues. Des échantillons audio sont disponibles sur https://mega-tts.github.io/mega2_demo/.
Les grands modèles de langage (LLM) ont démontré leur capacité à apprendre en contexte, leur permettant d'exécuter diverses tâches à partir de quelques exemples d'entrées-sorties. Cependant, l'efficacité de l'apprentissage en contexte dépend fortement de la qualité des exemples sélectionnés. Dans cet article, nous proposons un nouveau cadre pour entraîner itérativement des récupérateurs denses capables d'identifier des exemples de haute qualité pour les LLM. Notre cadre commence par entraîner un modèle de récompense basé sur les retours des LLM pour évaluer la qualité des exemples candidats, suivi d'une distillation de connaissances pour entraîner un récupérateur dense basé sur un bi-encodeur. Nos expériences sur un ensemble de 30 tâches montrent que notre cadre améliore significativement les performances de l'apprentissage en contexte. De plus, nous démontrons la capacité de généralisation de notre cadre à des tâches non vues pendant l'entraînement. Une analyse approfondie révèle que notre modèle améliore les performances en récupérant des exemples présentant des motifs similaires, et ces gains sont cohérents pour des LLM de tailles variées.
Dans ce travail, nous présentons un cadre d'apprentissage de représentation de caractéristiques auto-supervisé, DreamTeacher, qui utilise des réseaux génératifs pour le pré-entraînement de modèles de base pour les images. Nous proposons de distiller les connaissances d'un modèle génératif entraîné vers des modèles de base d'images standard, qui ont été soigneusement conçus pour des tâches de perception spécifiques. Nous explorons deux types de distillation de connaissances : 1) la distillation des caractéristiques génératives apprises vers des modèles de base cibles comme alternative au pré-entraînement de ces modèles sur de grands ensembles de données annotées tels qu'ImageNet, et 2) la distillation des étiquettes obtenues à partir de réseaux génératifs avec des têtes de tâche vers les logits des modèles de base cibles. Nous menons des analyses approfondies sur plusieurs modèles génératifs, des benchmarks de prédiction dense, et divers régimes de pré-entraînement. Nous constatons empiriquement que notre DreamTeacher surpasse significativement les approches existantes d'apprentissage de représentation auto-supervisé dans tous les cas. Le pré-entraînement non supervisé sur ImageNet avec DreamTeacher conduit à des améliorations significatives par rapport au pré-entraînement sur la classification ImageNet pour les ensembles de données en aval, démontrant ainsi que les modèles génératifs, et en particulier les modèles génératifs de diffusion, constituent une approche prometteuse pour l'apprentissage de représentations sur de grands ensembles de données diversifiés sans nécessiter d'annotation manuelle.
Nous abordons le problème de la génération de mouvements humains réalistes en 3D interagissant avec des objets dans une scène. Notre idée clé est de créer un champ d'interaction neuronale attaché à un objet spécifique, qui calcule la distance au collecteur d'interaction valide en prenant une pose humaine comme entrée. Ce champ d'interaction guide l'échantillonnage d'un modèle de diffusion de mouvement humain conditionné par l'objet, afin de favoriser des contacts plausibles et une sémantique d'affordance. Pour prendre en charge les interactions avec des données peu disponibles, nous proposons un pipeline automatisé de données synthétiques. Pour cela, nous initialisons un modèle de mouvement pré-entraîné, qui possède des connaissances a priori sur les bases du mouvement humain, avec des poses d'ancrage spécifiques à l'interaction extraites de données limitées de capture de mouvement. En utilisant notre modèle de diffusion guidé entraîné sur des données synthétiques générées, nous synthétisons des mouvements réalistes pour s'asseoir et soulever avec plusieurs objets, surpassant les approches alternatives en termes de qualité de mouvement et de réussite de l'action. Nous appelons notre cadre NIFTY : Neural Interaction Fields for Trajectory sYnthesis.