Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Drivable 3D Gaussian Avatars (D3GA), le premier modèle 3D contrôlable pour les corps humains rendu à l'aide de splats gaussiens. Les avatars photoréalistes et pilotables actuels nécessitent soit des enregistrements 3D précis pendant l'entraînement, soit des images d'entrée denses pendant les tests, ou les deux. Ceux basés sur les champs de radiance neuronaux ont également tendance à être prohibitivement lents pour les applications de téléprésence. Ce travail utilise la technique récemment présentée de 3D Gaussian Splatting (3DGS) pour rendre des humains réalistes à des fréquences d'images en temps réel, en utilisant des vidéos multi-vues calibrées et denses comme entrée. Pour déformer ces primitives, nous nous écartons de la méthode de déformation de points couramment utilisée, le skinning par mélange linéaire (LBS), et utilisons une méthode classique de déformation volumétrique : les déformations par cage. Étant donné leur taille plus réduite, nous pilotons ces déformations avec des angles articulaires et des points clés, qui sont plus adaptés aux applications de communication. Nos expériences sur neuf sujets avec des morphologies, des vêtements et des mouvements variés obtiennent des résultats de meilleure qualité que les méthodes de pointe en utilisant les mêmes données d'entraînement et de test.
Nous présentons une approche pour générer une vue à 360 degrés d'une personne avec une apparence cohérente et haute résolution à partir d'une seule image d'entrée. Les NeRF et leurs variantes nécessitent généralement des vidéos ou des images provenant de différents points de vue. La plupart des approches existantes utilisant une entrée monoculaire reposent soit sur des scans 3D de référence pour la supervision, soit manquent de cohérence 3D. Bien que les modèles génératifs 3D récents montrent un potentiel pour la numérisation cohérente en 3D de personnes, ces approches ne généralisent pas bien à des apparences vestimentaires variées, et les résultats manquent de photoréalisme. Contrairement aux travaux existants, nous utilisons des modèles de diffusion 2D à haute capacité pré-entraînés pour des tâches de synthèse d'images générales comme a priori d'apparence pour des personnes habillées. Pour obtenir une meilleure cohérence 3D tout en conservant l'identité de l'entrée, nous synthétisons progressivement plusieurs vues de la personne dans l'image d'entrée en complétant les régions manquantes avec une diffusion guidée par la forme, conditionnée par la silhouette et la normale de surface. Nous fusionnons ensuite ces images multi-vues synthétisées via un rendu inverse pour obtenir un maillage 3D entièrement texturé et haute résolution de la personne donnée. Les expériences montrent que notre approche surpasse les méthodes précédentes et réalise une synthèse photoréaliste à 360 degrés d'une large gamme de personnes habillées avec des textures complexes à partir d'une seule image.
Nous proposons DMV3D, une nouvelle approche de génération 3D qui utilise un modèle de reconstruction 3D à grande échelle basé sur des transformateurs pour débruiter une diffusion multi-vues. Notre modèle de reconstruction intègre une représentation NeRF en triplan et peut débruiter des images multi-vues bruitées via la reconstruction et le rendu NeRF, permettant une génération 3D en une seule étape en environ 30 secondes sur une seule GPU A100. Nous entraînons DMV3D sur des ensembles de données d'images multi-vues à grande échelle d'objets très diversifiés en utilisant uniquement des pertes de reconstruction d'images, sans accéder à des actifs 3D. Nous démontrons des résultats de pointe pour le problème de reconstruction à partir d'une seule image, où une modélisation probabiliste des parties invisibles des objets est nécessaire pour générer des reconstructions diversifiées avec des textures nettes. Nous montrons également des résultats de haute qualité pour la génération de texte-à-3D, surpassant les modèles de diffusion 3D précédents. Notre site web de projet est disponible à l'adresse : https://justimyhxu.github.io/projects/dmv3d/.
Les modèles de diffusion audio peuvent synthétiser une grande variété de sons. Les modèles existants opèrent souvent dans le domaine latent avec des modules de récupération de phase en cascade pour reconstruire la forme d'onde. Cela pose des défis lors de la génération d'audio haute fidélité. Dans cet article, nous proposons EDMSound, un modèle génératif basé sur la diffusion dans le domaine des spectrogrammes, sous le cadre des modèles de diffusion éclaircis (EDM). En combinant avec un échantillonneur déterministe efficace, nous avons obtenu un score de distance audio de Fréchet (FAD) similaire à celui des meilleures méthodes de référence avec seulement 10 étapes, et atteint des performances de pointe avec 50 étapes sur le benchmark de génération de sons foley DCASE2023. Nous avons également mis en lumière une préoccupation potentielle concernant les modèles de génération audio basés sur la diffusion : ils ont tendance à générer des échantillons présentant une similarité perceptuelle élevée avec les données d'entraînement. Page du projet : https://agentcooper2002.github.io/EDMSound/
Les jeux de rôle basés sur le dialogue (RPG) nécessitent une narration puissante. Les scénarios de ces jeux peuvent prendre des années à écrire et impliquent généralement une grande équipe créative. Dans ce travail, nous démontrons le potentiel des grands modèles génératifs de texte pour assister ce processus. GRIM, un prototype de système GRaphique Interactif de visualisation narrative pour les jeux, génère un graphe narratif riche avec des histoires ramifiées qui correspondent à une description narrative de haut niveau et aux contraintes fournies par le concepteur. Les concepteurs de jeux peuvent modifier interactivement le graphe en générant automatiquement de nouveaux sous-graphes qui s'intègrent aux modifications tout en respectant le récit original et les contraintes. Nous illustrons l'utilisation de GRIM en conjonction avec GPT-4, générant des narrations ramifiées pour quatre histoires bien connues avec différentes contraintes contextuelles.
Le potentiel complémentaire des modèles de langage de grande taille (LLM) repose sur l'hypothèse que les LLM prêts à l'emploi possèdent une expertise hétérogène dans un large éventail de domaines et de tâches, permettant ainsi à un ensemble de LLM d'atteindre des performances systématiquement supérieures. Les méthodes d'ensemble existantes pour les LLM se concentrent principalement sur le classement des sorties par un modèle de récompense, ce qui entraîne une surcharge de calcul importante. Pour résoudre ce problème, nous revisitons le potentiel complémentaire des LLM et l'approfondissons en exploitant l'expertise latente à l'aide de modèles de récompense prêts à l'emploi. Nous proposons Zooter, une méthode de routage guidée par les récompenses qui distille les récompenses sur les requêtes d'entraînement pour former une fonction de routage, capable de distribuer précisément chaque requête au LLM possédant l'expertise correspondante. Nous intégrons également une amélioration des étiquettes basée sur des tags pour atténuer le bruit lié à l'incertitude lors de l'utilisation des récompenses comme supervision indirecte. Zooter démontre une efficacité de calcul lors de l'inférence, car il n'introduit qu'une surcharge de calcul mineure liée à la fonction de routage par rapport aux méthodes de classement par modèle de récompense. Nous évaluons Zooter sur une collection de benchmarks exhaustive comprenant 26 sous-ensembles couvrant différents domaines et tâches. Zooter surpasse en moyenne le meilleur modèle individuel et se classe premier sur 44 % des tâches, dépassant même plusieurs méthodes de classement par modèle de récompense.
Les technologies linguistiques qui modélisent avec précision la dynamique des événements doivent intégrer un raisonnement de bon sens. Les travaux existants évaluant le raisonnement de bon sens se concentrent sur la déduction de conclusions à partir de situations courantes et quotidiennes. Pour explorer plutôt la capacité à modéliser des situations inhabituelles, inattendues et improbables, nous étudions la tâche du raisonnement abductif non conventionnel. Étant donné un contexte avec un résultat inattendu, cette tâche nécessite un raisonnement abductif pour générer une explication en langage naturel qui rende le résultat inattendu plus plausible dans ce contexte. À cette fin, nous constituons et publions un nouveau corpus en anglais appelé UNcommonsense. Nous caractérisons les différences entre les performances des explicateurs humains et celles des meilleurs modèles de langage à grande échelle, constatant que les explications humaines améliorées par les modèles atteignent la plus haute qualité en équilibrant spécificité et diversité. Enfin, nous expérimentons plusieurs algorithmes d'apprentissage par imitation en ligne pour entraîner des modèles de langage ouverts et accessibles sur cette tâche. Comparées à l'approche classique de fine-tuning supervisé, ces méthodes réduisent systématiquement les taux d'erreur dans le raisonnement abductif, qu'il soit courant ou non conventionnel, selon les évaluations humaines.
Le réglage efficace des paramètres est une approche prédominante pour adapter les grands modèles de langage aux tâches en aval. La plupart des travaux précédents envisagent l'ajout de paramètres denses entraînables, où tous les paramètres sont utilisés pour adapter une tâche spécifique. Nous avons constaté empiriquement que cette approche est moins efficace, en prenant l'exemple de LoRA, où l'introduction de davantage de paramètres entraînables ne s'avère pas utile. Motivés par cette observation, nous étudions l'importance d'exploiter le calcul "creux" et proposons SiRA : un mélange creux d'adaptation de faible rang. SiRA tire parti du Mélange Creux d'Experts (SMoE) pour améliorer les performances de LoRA. Plus précisément, il impose un routage des k meilleurs experts avec une limite de capacité restreignant le nombre maximum de jetons que chaque expert peut traiter. Nous proposons une nouvelle et simple méthode d'abandon d'experts au-dessus du réseau de gating pour réduire le problème de surajustement. À travers des expériences approfondies, nous vérifions que SiRA surpasse LoRA et d'autres approches de mélange d'experts dans différents contextes de tâches uniques et multitâches.
Les modèles de langage de grande envergure ont facilité le développement d'assistants d'écriture qui promettent d'améliorer significativement la qualité et l'efficacité de la composition et de la communication. Cependant, un obstacle à une assistance efficace est le manque de personnalisation des sorties des modèles de langage par rapport au style de communication et aux connaissances spécialisées de l'auteur. Dans cet article, nous relevons ce défi en proposant PEARL, un assistant d'écriture basé sur un modèle de langage augmenté par un système de récupération personnalisé et calibré pour la génération. Notre système de récupération est entraîné à sélectionner des documents historiques rédigés par l'utilisateur pour augmenter les prompts, de manière à ce qu'ils soient susceptibles de personnaliser au mieux les générations du modèle de langage pour une requête utilisateur. Nous proposons deux innovations clés pour l'entraînement de notre système de récupération : 1) Une méthode de sélection des données d'entraînement qui identifie les requêtes utilisateurs susceptibles de bénéficier d'une personnalisation et les documents qui fournissent cet avantage ; et 2) Un objectif de divergence KL calibré à l'échelle qui garantit que notre système de récupération suit de près l'avantage d'un document pour la génération personnalisée. Nous démontrons l'efficacité de PEARL dans la génération de publications personnalisées sur les réseaux sociaux professionnels et de commentaires Reddit. Enfin, nous mettons en évidence le potentiel d'un système de récupération calibré pour la génération à jouer un double rôle de prédicteur de performance et à améliorer davantage les générations de faible qualité via l'enchaînement de modèles de langage.
Les récents progrès des modèles de langage de grande taille basés sur les Transformers ont permis des avancées significatives dans la génération de langage naturel. Cependant, pour décoder K tokens, un modèle autorégressif nécessite K passes avant séquentielles, ce qui peut constituer un goulot d'étranglement en termes de performance pour les grands modèles de langage. De nombreuses recherches sur les modèles non autorégressifs (NAR) visent à résoudre ce problème de séquentialité, bien que beaucoup se soient concentrées sur des architectures dédiées dans des benchmarks supervisés. Dans ce travail, nous avons étudié le pré-entraînement non supervisé pour les modèles T5 non autorégressifs via un débruitage déroulé et avons démontré ses résultats de pointe dans des tâches de génération en aval telles que la génération de questions SQuAD et XSum.
Pour maintenir la confiance des utilisateurs, les grands modèles de langage (LLM) devraient signaler une faible confiance sur les exemples où ils se trompent, plutôt que d'induire les utilisateurs en erreur. L'approche standard pour estimer la confiance consiste à utiliser les probabilités softmax de ces modèles, mais en novembre 2023, les LLM de pointe tels que GPT-4 et Claude-v1.3 ne fournissent pas accès à ces probabilités. Nous étudions d'abord l'expression de la confiance de manière linguistique — en demandant à un LLM d'évaluer sa confiance dans sa réponse — ce qui donne des résultats raisonnables (80,5 % d'AUC sur GPT-4 en moyenne sur 12 ensembles de données de questions-réponses — 7 % au-dessus d'une base aléatoire) mais laisse place à l'amélioration. Nous explorons ensuite l'utilisation d'un modèle de confiance substitut — en utilisant un modèle pour lequel nous avons accès aux probabilités afin d'évaluer la confiance du modèle original sur une question donnée. Étonnamment, bien que ces probabilités proviennent d'un modèle différent et souvent moins performant, cette méthode conduit à une AUC plus élevée que les confiances linguistiques sur 9 des 12 ensembles de données. Notre meilleure méthode, combinant les confiances linguistiques et les probabilités du modèle substitut, fournit des estimations de confiance de pointe sur les 12 ensembles de données (84,6 % d'AUC moyenne sur GPT-4).
Les modèles de langage de grande taille (LLMs) ont inauguré une ère transformative dans le domaine du traitement du langage naturel, excellant dans les tâches liées à la compréhension et à la génération de texte. Néanmoins, ils rencontrent des difficultés lorsqu'ils sont confrontés à des contextes chaotiques (par exemple, des distracteurs plutôt qu'un contexte long et non pertinent), ce qui entraîne l'omission involontaire de certains détails dans ce contexte chaotique. Pour répondre à ces défis, nous introduisons la stratégie "Fil de la Pensée" (Thread of Thought, ThoT), qui s'inspire des processus cognitifs humains. ThoT segmente et analyse systématiquement les contextes étendus tout en sélectionnant habilement les informations pertinentes. Cette stratégie sert de module "plug-and-play" polyvalent, s'intégrant de manière transparente à divers LLMs et techniques d'incitation. Dans les expériences, nous utilisons les ensembles de données PopQA et EntityQ, ainsi qu'un ensemble de données de réponses conversationnelles multi-tours (MTCR) que nous avons collecté, pour démontrer que ThoT améliore significativement les performances de raisonnement par rapport à d'autres techniques d'incitation.
L'évaluation des grands modèles de langage (LLMs) constitue une tâche complexe, notamment en raison des subtilités de la compréhension du langage naturel et des attentes en matière de raisonnement de haut niveau. Les évaluations traditionnelles s'appuient généralement sur des paradigmes basés sur l'humain, sur des modèles ou sur des métriques automatiques, chacun présentant ses propres avantages et inconvénients. Nous présentons "Fusion-Eval", un système qui utilise les LLMs non seulement pour des évaluations directes, mais aussi pour intégrer habilement les insights provenant de divers évaluateurs. Cela confère à Fusion-Eval une grande flexibilité, lui permettant de fonctionner efficacement sur des tâches variées et d'exploiter au mieux plusieurs références. Lors des tests sur le jeu de données SummEval, Fusion-Eval a atteint une corrélation de Spearman de 0,96, surpassant ainsi les autres évaluateurs. Le succès de Fusion-Eval met en lumière le potentiel des LLMs à produire des évaluations qui s'alignent étroitement sur les perspectives humaines, établissant ainsi une nouvelle norme dans le domaine de l'évaluation des LLMs.