Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Seed-TTS, une famille de modèles de synthèse vocale (TTS) autoregressifs à grande échelle capables de générer une parole pratiquement indiscernable de la parole humaine. Seed-TTS sert de modèle de base pour la génération de parole et excelle dans l'apprentissage contextuel de la parole, atteignant des performances en termes de similarité du locuteur et de naturel qui rivalisent avec la parole humaine de référence dans des évaluations objectives et subjectives. Avec un ajustement fin, nous obtenons des scores subjectifs encore plus élevés sur ces métriques. Seed-TTS offre une contrôlabilité supérieure sur divers attributs de la parole tels que l'émotion et est capable de générer une parole hautement expressive et diversifiée pour des locuteurs en conditions réelles. De plus, nous proposons une méthode d'auto-distillation pour la factorisation de la parole, ainsi qu'une approche d'apprentissage par renforcement pour améliorer la robustesse du modèle, la similarité du locuteur et la contrôlabilité. Nous présentons également une variante non autoregressive (NAR) du modèle Seed-TTS, nommée Seed-TTS_DiT, qui utilise une architecture entièrement basée sur la diffusion. Contrairement aux systèmes TTS NAR précédents, Seed-TTS_DiT ne dépend pas de durées de phonèmes pré-estimées et effectue la génération de parole via un traitement de bout en bout. Nous démontrons que cette variante atteint des performances comparables à la variante basée sur un modèle de langage et mettons en avant son efficacité dans l'édition de la parole. Nous encourageons les lecteurs à écouter les démonstrations sur https://bytedancespeech.github.io/seedtts_tech_report.
Nous explorons la quantification de l'incertitude dans les grands modèles de langage (LLMs), dans le but d'identifier quand l'incertitude dans les réponses à une requête est élevée. Nous considérons simultanément les incertitudes épistémique et aléatoire, où la première provient du manque de connaissance sur la vérité terrain (comme les faits ou la langue), et la seconde provient d'une randomisation irréductible (comme plusieurs réponses possibles). En particulier, nous dérivons une métrique informationnelle qui permet de détecter de manière fiable quand seule l'incertitude épistémique est élevée, auquel cas la sortie du modèle est peu fiable. Cette condition peut être calculée uniquement sur la base de la sortie du modèle obtenue par un simple incitatif itératif spécial basé sur les réponses précédentes. Une telle quantification, par exemple, permet de détecter les hallucinations (cas où l'incertitude épistémique est élevée) dans les réponses à une ou plusieurs réponses. Cela contraste avec de nombreuses stratégies standard de quantification de l'incertitude (comme le seuillage de la log-vraisemblance d'une réponse) où les hallucinations dans le cas multi-réponses ne peuvent pas être détectées. Nous menons une série d'expériences qui démontrent l'avantage de notre formulation. De plus, nos investigations éclairent la manière dont les probabilités assignées à une sortie donnée par un LLM peuvent être amplifiées par un incitatif itératif, ce qui pourrait présenter un intérêt indépendant.
Les méthodes de RLHF (Reinforcement Learning from Human Feedback) en ligne et hors ligne, telles que PPO et DPO, ont été extrêmement efficaces pour aligner l'IA sur les préférences humaines. Malgré leur succès, ces méthodes souffrent d'un problème fondamental : leur solution optimale est fortement dépendante de la tâche (c'est-à-dire qu'elle n'est pas robuste aux tâches hors distribution, ou OOD). Nous relevons ce défi en proposant SRPO (Self-Improving Robust Preference Optimization), un cadre pratique et mathématiquement fondé de RLHF hors ligne qui est entièrement robuste aux changements de tâche. L'idée clé de SRPO est de formuler le problème d'apprentissage à partir des préférences humaines comme un processus d'auto-amélioration, qui peut être exprimé mathématiquement par un objectif min-max visant à optimiser conjointement la politique d'auto-amélioration et la politique générative de manière antagoniste. La solution à ce problème d'optimisation est indépendante de la tâche d'entraînement et donc robuste à ses changements. Nous montrons ensuite que cet objectif peut être reformulé sous la forme d'une perte hors ligne non antagoniste, qui peut être optimisée à grande échelle à l'aide de techniques d'optimisation supervisée standard, sans nécessiter de modèle de récompense ni d'inférence en ligne. Nous démontrons l'efficacité de SRPO en termes de taux de victoire de l'IA (Win-Rate, WR) contre les complétions humaines (GOLD). En particulier, lorsque SRPO est évalué sur le jeu de données OOD XSUM, il surpasse le célèbre DPO avec une marge nette de 15 % après 5 auto-révisions, atteignant un WR de 90 %.
La génération de texte-à-vidéo a été à la traîne par rapport à la synthèse texte-à-image en termes de qualité et de diversité, en raison de la complexité de la modélisation spatio-temporelle et des ensembles de données vidéo-texte limités. Cet article présente I4VGen, un cadre d'inférence de diffusion vidéo sans apprentissage et plug-and-play, qui améliore la génération texte-à-vidéo en exploitant des techniques d'image robustes. Plus précisément, en suivant l'approche texte-à-image-à-vidéo, I4VGen décompose la génération texte-à-vidéo en deux étapes : la synthèse d'une image d'ancrage et la synthèse vidéo guidée par cette image d'ancrage. En conséquence, un pipeline de génération-sélection bien conçu est utilisé pour obtenir une image d'ancrage visuellement réaliste et sémantiquement fidèle, et une technique innovante de Noise-Invariant Video Score Distillation Sampling est intégrée pour animer l'image en une vidéo dynamique, suivie d'un processus de régénération vidéo pour affiner la vidéo. Cette stratégie d'inférence atténue efficacement le problème courant du rapport signal-sur-bruit terminal non nul. Des évaluations approfondies montrent qu'I4VGen produit non seulement des vidéos avec un réalisme visuel et une fidélité textuelle supérieurs, mais s'intègre également de manière transparente dans les modèles de diffusion image-à-vidéo existants, améliorant ainsi la qualité globale des vidéos.
Les principaux axes d'intérêt dans les modèles de diffusion générant des images sont la qualité de l'image, la variabilité des résultats et l'alignement de ces résultats avec une condition donnée, par exemple une étiquette de classe ou une consigne textuelle. L'approche populaire de guidage sans classifieur utilise un modèle non conditionnel pour guider un modèle conditionnel, conduisant à un meilleur alignement avec la consigne et à des images de plus haute qualité, au détriment d'une réduction de la variabilité. Ces effets semblent intrinsèquement liés, et donc difficiles à contrôler. Nous faisons l'observation surprenante qu'il est possible d'obtenir un contrôle découplé sur la qualité de l'image sans compromettre la variabilité en guidant la génération à l'aide d'une version plus petite et moins entraînée du modèle lui-même, plutôt qu'un modèle non conditionnel. Cela conduit à des améliorations significatives dans la génération sur ImageNet, établissant des records de FID de 1,01 pour 64x64 et 1,25 pour 512x512, en utilisant des réseaux disponibles publiquement. De plus, la méthode est également applicable aux modèles de diffusion non conditionnels, améliorant considérablement leur qualité.
Les récents progrès en Intelligence Artificielle (IA) ont été largement propulsés par la mise à l'échelle. En robotique, cette mise à l'échelle est entravée par le manque d'accès à des ensembles de données robotiques massifs. Nous préconisons l'utilisation de simulations physiques réalistes comme moyen de mettre à l'échelle les environnements, les tâches et les ensembles de données pour les méthodes d'apprentissage robotique. Nous présentons RoboCasa, un cadre de simulation à grande échelle pour l'entraînement de robots généralistes dans des environnements quotidiens. RoboCasa propose des scènes réalistes et diversifiées, en mettant l'accent sur les environnements de cuisine. Nous fournissons des milliers d'actifs 3D couvrant plus de 150 catégories d'objets ainsi que des dizaines de meubles et appareils interactifs. Nous enrichissons le réalisme et la diversité de notre simulation grâce à des outils d'IA générative, tels que des actifs d'objets issus de modèles texte-à-3D et des textures d'environnement issues de modèles texte-à-image. Nous concevons un ensemble de 100 tâches pour une évaluation systématique, incluant des tâches composites générées sous la guidance de grands modèles de langage. Pour faciliter l'apprentissage, nous fournissons des démonstrations humaines de haute qualité et intégrons des méthodes de génération automatique de trajectoires afin d'élargir considérablement nos ensembles de données avec un effort humain minimal. Nos expériences montrent une tendance claire à la mise à l'échelle dans l'utilisation de données robotiques synthétiquement générées pour l'apprentissage par imitation à grande échelle et révèlent un grand potentiel dans l'exploitation des données de simulation pour des tâches réelles. Les vidéos et le code open-source sont disponibles sur https://robocasa.ai/.
Dans le domaine de la génération de vidéos de portraits, l'utilisation d'images uniques pour produire des vidéos de portraits est devenue de plus en plus courante. Une approche commune consiste à exploiter des modèles génératifs pour améliorer les adaptateurs en vue d'une génération contrôlée. Cependant, les signaux de contrôle (par exemple, texte, audio, image de référence, pose, carte de profondeur, etc.) peuvent varier en intensité. Parmi ceux-ci, les conditions plus faibles ont souvent du mal à être efficaces en raison des interférences causées par des conditions plus fortes, ce qui pose un défi dans l'équilibrage de ces conditions. Dans notre travail sur la génération de vidéos de portraits, nous avons identifié les signaux audio comme particulièrement faibles, souvent éclipsés par des signaux plus forts tels que la pose faciale et l'image de référence. Cependant, un entraînement direct avec des signaux faibles entraîne souvent des difficultés de convergence. Pour résoudre ce problème, nous proposons V-Express, une méthode simple qui équilibre différents signaux de contrôle grâce à un entraînement progressif et à une opération de dropout conditionnel. Notre méthode permet progressivement un contrôle efficace par des conditions faibles, atteignant ainsi des capacités de génération qui prennent simultanément en compte la pose faciale, l'image de référence et l'audio. Les résultats expérimentaux démontrent que notre méthode peut générer efficacement des vidéos de portraits contrôlées par l'audio. De plus, une solution potentielle est fournie pour l'utilisation simultanée et efficace de conditions d'intensités variées.
Récemment, les modèles de diffusion vidéo sont apparus comme des outils génératifs expressifs pour la création de contenus vidéo de haute qualité, facilement accessibles aux utilisateurs grand public. Cependant, ces modèles n'offrent souvent pas un contrôle précis des poses de caméra pour la génération de vidéos, limitant ainsi l'expression du langage cinématographique et le contrôle de l'utilisateur. Pour résoudre ce problème, nous présentons CamCo, qui permet un contrôle granulaire des poses de caméra pour la génération d'images à vidéo. Nous équipons un générateur d'images à vidéo pré-entraîné avec une entrée de pose de caméra paramétrée avec précision en utilisant les coordonnées de Plücker. Pour améliorer la cohérence 3D dans les vidéos produites, nous intégrons un module d'attention épipolaire dans chaque bloc d'attention, qui impose des contraintes épipolaires aux cartes de caractéristiques. De plus, nous affinons CamCo sur des vidéos du monde réel avec des poses de caméra estimées grâce à des algorithmes de structure-from-motion pour mieux synthétiser le mouvement des objets. Nos expériences montrent que CamCo améliore significativement la cohérence 3D et les capacités de contrôle de la caméra par rapport aux modèles précédents, tout en générant efficacement des mouvements d'objets plausibles. Page du projet : https://ir1d.github.io/CamCo/