Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès significatifs ces dernières années, atteignant des performances sans précédent sur diverses tâches. Cependant, en raison d'intérêts commerciaux, les modèles les plus compétitifs comme GPT, Gemini et Claude ont été verrouillés derrière des interfaces propriétaires sans divulguer les détails de leur entraînement. Récemment, de nombreuses institutions ont rendu open-source plusieurs LLMs performants comme LLaMA-3, comparables aux LLMs propriétaires existants. Cependant, seuls les poids des modèles sont fournis, la plupart des détails (par exemple, les points de contrôle intermédiaires, le corpus de pré-entraînement et le code d'entraînement, etc.) restant non divulgués. Pour améliorer la transparence des LLMs, la communauté de recherche s'est mobilisée pour rendre open-source des LLMs véritablement ouverts (par exemple, Pythia, Amber, OLMo), où davantage de détails (comme le corpus de pré-entraînement et le code d'entraînement) sont fournis. Ces modèles ont grandement fait progresser l'étude scientifique de ces grands modèles, y compris leurs forces, faiblesses, biais et risques. Cependant, nous observons que les LLMs véritablement ouverts existants sont encore inférieurs aux LLMs de pointe actuels de taille similaire sur les tâches de raisonnement, de connaissances et de codage. À cette fin, nous rendons open-source MAP-Neo, un modèle de langage bilingue hautement performant et transparent avec 7 milliards de paramètres, entraîné à partir de zéro sur 4,5 billions de tokens de haute qualité. Notre MAP-Neo est le premier LLM bilingue entièrement open-source offrant des performances comparables aux LLMs de pointe existants. De plus, nous rendons open-source tous les détails nécessaires pour reproduire notre MAP-Neo, où le corpus de pré-entraînement nettoyé, le pipeline de nettoyage des données, les points de contrôle et le cadre d'entraînement/évaluation bien optimisé sont fournis. Enfin, nous espérons que notre MAP-Neo renforcera et dynamisera la communauté de recherche ouverte et inspirera davantage d'innovations et de créativité pour faciliter les améliorations futures des LLMs.
L'optimisation des préférences, en particulier à travers l'apprentissage par renforcement à partir de retours humains (RLHF), a obtenu un succès significatif dans l'alignement des grands modèles de langage (LLMs) pour qu'ils adhèrent aux intentions humaines. Contrairement à l'alignement hors ligne avec un ensemble de données fixe, la collecte de retours en ligne provenant d'humains ou d'IA sur les générations du modèle conduit généralement à des modèles de récompense plus performants et à des LLMs mieux alignés grâce à un processus itératif. Cependant, atteindre un modèle de récompense globalement précis nécessite une exploration systématique pour générer des réponses diversifiées couvrant l'immense espace du langage naturel. Un échantillonnage aléatoire à partir de LLMs standard maximisant la récompense est insuffisant pour répondre à cette exigence. Pour résoudre ce problème, nous proposons un objectif à deux niveaux, optimistement biaisé en faveur de réponses potentiellement à haute récompense, afin d'explorer activement les régions hors distribution. En résolvant le problème de niveau interne avec la fonction de récompense reparamétrée, l'algorithme résultant, nommé Self-Exploring Language Models (SELM), élimine le besoin d'un modèle de récompense séparé et met à jour itérativement le LLM avec un objectif simple. Comparé à l'Optimisation Directe des Préférences (DPO), l'objectif SELM réduit la faveur indiscriminée envers les extrapolations non vues et améliore l'efficacité de l'exploration. Nos résultats expérimentaux montrent que, lorsqu'il est affiné sur les modèles Zephyr-7B-SFT et Llama-3-8B-Instruct, SELM améliore significativement les performances sur des benchmarks de suivi d'instructions tels que MT-Bench et AlpacaEval 2.0, ainsi que sur divers benchmarks académiques standard dans différents contextes. Notre code et nos modèles sont disponibles à l'adresse https://github.com/shenao-zhang/SELM.
Les modèles de texte-à-vidéo (T2V) basés sur la diffusion ont connu un succès significatif, mais continuent d'être entravés par la lenteur de leur processus d'échantillonnage itératif. Pour relever ce défi, des modèles de cohérence ont été proposés pour faciliter une inférence rapide, bien qu'au détriment de la qualité des échantillons. Dans ce travail, nous visons à surmonter le goulot d'étranglement de qualité d'un modèle de cohérence vidéo (VCM) pour atteindre à la fois une génération vidéo rapide et de haute qualité. Nous présentons T2V-Turbo, qui intègre des retours d'une combinaison de modèles de récompense différentiables dans le processus de distillation de cohérence (CD) d'un modèle T2V pré-entraîné. Notamment, nous optimisons directement les récompenses associées aux générations en une seule étape qui découlent naturellement du calcul de la perte CD, contournant ainsi efficacement les contraintes de mémoire imposées par la rétropropagation des gradients à travers un processus d'échantillonnage itératif. De manière remarquable, les générations en 4 étapes de notre T2V-Turbo obtiennent le score total le plus élevé sur VBench, surpassant même Gen-2 et Pika. Nous menons en outre des évaluations humaines pour corroborer les résultats, validant que les générations en 4 étapes de notre T2V-Turbo sont préférées aux échantillons DDIM en 50 étapes de leurs modèles enseignants, représentant une accélération de plus de dix fois tout en améliorant la qualité de la génération vidéo.
Cet article examine dans quelle mesure les grands modèles de langage (LLM) ont développé une théorie de l'esprit (ToM) d'ordre supérieur ; la capacité humaine à raisonner de manière récursive sur des états mentaux et émotionnels multiples (par exemple, je pense que tu crois qu'elle sait). Cet article s'appuie sur des travaux antérieurs en introduisant une suite de tests manuscrite -- Multi-Order Theory of Mind Q&A -- et en l'utilisant pour comparer les performances de cinq LLM à un nouveau benchmark établi auprès d'adultes humains. Nous constatons que GPT-4 et Flan-PaLM atteignent respectivement un niveau équivalent et proche de celui des adultes sur les tâches de ToM en général, et que GPT-4 dépasse les performances humaines sur les inférences de 6ème ordre. Nos résultats suggèrent qu'il existe une interaction entre la taille du modèle et le fine-tuning pour la réalisation des capacités de ToM, et que les LLM les plus performants ont développé une capacité généralisée pour la ToM. Compte tenu du rôle que joue la ToM d'ordre supérieur dans un large éventail de comportements humains coopératifs et compétitifs, ces découvertes ont des implications significatives pour les applications LLM destinées aux utilisateurs.
Le cadre dominant pour l'alignement des grands modèles de langage (LLM), que ce soit par apprentissage par renforcement à partir de retours humains ou par optimisation directe des préférences, consiste à apprendre à partir de données de préférences. Cela implique la construction de jeux de données où chaque élément est un quadruplet composé d'une instruction, de deux réponses indépendantes (complétions de l'instruction) et d'une préférence humaine entre ces deux réponses indépendantes, produisant ainsi une réponse préférée et une réponse non préférée. De telles données sont généralement rares et coûteuses à collecter. D'un autre côté, les jeux de données à trajectoire unique, où chaque élément est un triplet composé d'une instruction, d'une réponse et d'un retour humain, sont naturellement plus abondants. L'élément canonique de tels jeux de données est, par exemple, la réponse d'un LLM à une instruction d'un utilisateur suivie d'un retour de l'utilisateur tel qu'un pouce levé/baissé. Par conséquent, dans ce travail, nous proposons DRO, ou Optimisation Directe de la Récompense, comme un cadre et des algorithmes associés qui ne nécessitent pas de préférences par paires. DRO utilise un objectif simple de moindres carrés qui peut être implémenté de diverses manières. Nous validons empiriquement nos résultats en utilisant des modèles de langage encodeur-décodeur T5, et montrons la performance de DRO par rapport à des références sélectionnées telles que l'Optimisation de Kahneman-Tversky (KTO). Ainsi, nous confirmons que DRO est une méthode simple et empiriquement convaincante pour l'optimisation de politiques à trajectoire unique.
Les grands modèles de langage (LLM) ont souvent tendance à halluciner et manquent de capacité à fournir des attributions pour leurs générations. Les modèles de langage semi-paramétriques, tels que kNN-LM, abordent ces limitations en affinant la sortie d'un modèle de langage pour un prompt donné en utilisant ses correspondances de plus proches voisins dans un stockage de données non paramétrique. Cependant, ces modèles présentent souvent des vitesses d'inférence lentes et produisent des textes peu fluides. Dans cet article, nous introduisons le décodage spéculatif par plus proches voisins (NEST), une nouvelle approche de modélisation de langage semi-paramétrique capable d'intégrer des segments de texte du monde réel de longueur arbitraire dans les générations du modèle de langage et de fournir des attributions à leurs sources. NEST effectue une récupération au niveau des tokens à chaque étape d'inférence pour calculer une distribution de mélange semi-paramétrique et identifier des suites de segments prometteurs dans un corpus. Il utilise ensuite une procédure de décodage spéculatif approximative qui accepte un préfixe du segment récupéré ou génère un nouveau token. NEST améliore significativement la qualité de génération et le taux d'attribution du modèle de langage de base sur une variété de tâches nécessitant des connaissances, surpassant la méthode kNN-LM conventionnelle et rivalisant avec l'augmentation par récupération en contexte. De plus, NEST améliore considérablement la vitesse de génération, obtenant une accélération de 1,8x du temps d'inférence lorsqu'il est appliqué à Llama-2-Chat 70B.
Cet article présente EasyAnimate, une méthode avancée pour la génération de vidéos qui exploite la puissance de l'architecture de transformateurs pour des résultats performants. Nous avons étendu le cadre DiT, initialement conçu pour la synthèse d'images 2D, afin de prendre en compte les complexités de la génération de vidéos 3D en intégrant un module de mouvement. Ce module est utilisé pour capturer la dynamique temporelle, garantissant ainsi la production de trames cohérentes et de transitions fluides. Le module de mouvement peut être adapté à diverses méthodes de base DiT pour générer des vidéos avec différents styles. Il permet également de générer des vidéos avec différentes fréquences d'images et résolutions, aussi bien pendant la phase d'entraînement que d'inférence, et convient à la fois pour les images et les vidéos. Par ailleurs, nous introduisons le slice VAE, une approche novatrice pour condenser l'axe temporel, facilitant ainsi la génération de vidéos de longue durée. Actuellement, EasyAnimate démontre sa capacité à générer des vidéos de 144 trames. Nous proposons un écosystème complet pour la production de vidéos basé sur DiT, englobant des aspects tels que le prétraitement des données, l'entraînement du VAE, l'entraînement des modèles DiT (à la fois le modèle de base et le modèle LoRA), ainsi que l'inférence vidéo de bout en bout. Le code est disponible à l'adresse suivante : https://github.com/aigc-apps/EasyAnimate. Nous travaillons continuellement à améliorer les performances de notre méthode.
L'intégration de multiples modèles génératifs de base, en particulier ceux entraînés sur différentes modalités, pour créer un ensemble supérieur à la somme de ses parties, présente des défis significatifs. Deux obstacles majeurs sont la disponibilité de données alignées (des concepts ayant une signification similaire mais exprimés différemment selon les modalités) et l'exploitation efficace des représentations unimodales dans des tâches génératives inter-domaines, sans compromettre leurs capacités unimodales d'origine. Nous proposons Zipper, une architecture de décodeur multi-tours qui aborde ces problématiques en utilisant l'attention croisée pour composer de manière flexible des modèles génératifs multimodaux à partir de décodeurs unimodaux pré-entraînés indépendamment. Dans nos expériences de fusion des modalités parole et texte, nous montrons que l'architecture proposée obtient des performances très compétitives dans des scénarios avec des données texte-parole alignées limitées. Nous démontrons également la flexibilité de notre modèle à maintenir sélectivement les performances de génération unimodale (par exemple, la génération texte-à-texte) en gelant la tour modale correspondante (par exemple, le texte). Dans les tâches inter-modales telles que la reconnaissance automatique de la parole (ASR) où la modalité de sortie est le texte, nous montrons que le gel du backbone textuel entraîne une dégradation négligeable des performances. Dans les tâches inter-modales telles que la génération de parole à partir de texte (TTS) où la modalité de sortie est la parole, nous montrons que l'utilisation d'un backbone vocal pré-entraîné permet d'obtenir des performances supérieures à celles de la ligne de base.
La création de versions numériques haute fidélité de têtes humaines constitue une étape importante dans le processus d'intégration accrue de composants virtuels dans notre vie quotidienne. La construction de tels avatars représente un problème de recherche complexe, en raison d'une forte demande en photoréalisme et en performances de rendu en temps réel. Dans ce travail, nous proposons les Neural Parametric Gaussian Avatars (NPGA), une approche basée sur les données pour créer des avatars haute fidélité et contrôlables à partir d'enregistrements vidéo multi-vues. Nous construisons notre méthode autour du 3D Gaussian Splatting pour son rendu hautement efficace et pour hériter de la flexibilité topologique des nuages de points. Contrairement aux travaux précédents, nous conditionnons la dynamique de nos avatars sur l'espace d'expression riche des modèles de tête neuronaux paramétriques (NPHM), plutôt que sur des modèles morphables 3D basés sur des maillages. Pour ce faire, nous distillons le champ de déformation inverse de notre NPHM sous-jacent en déformations directes compatibles avec le rendu basé sur la rasterisation. Tous les détails fins dépendants de l'expression sont appris à partir des vidéos multi-vues. Pour augmenter la capacité de représentation de nos avatars, nous enrichissons le nuage de points gaussiens canonique en utilisant des caractéristiques latentes par primitive qui gouvernent son comportement dynamique. Pour régulariser cette expressivité dynamique accrue, nous proposons des termes de Laplacien sur les caractéristiques latentes et les dynamiques prédites. Nous évaluons notre méthode sur le jeu de données public NeRSemble, démontrant que les NPGA surpassent significativement les avatars de l'état de l'art précédent sur la tâche de réincarnation personnelle avec un gain de 2,6 PSNR. De plus, nous démontrons des capacités d'animation précises à partir de vidéos monoscopiques du monde réel.
L'apprentissage par renforcement à partir de retours humains (RLHF) a démontré un grand potentiel pour aligner les grands modèles de langage (LLMs) avec les préférences humaines. Selon la disponibilité des données de préférence, les approches en ligne et hors ligne du RLHF sont des domaines de recherche actifs. Un goulot d'étranglement majeur consiste à comprendre comment intégrer l'estimation de l'incertitude dans la fonction de récompense apprise à partir des données de préférence pour le RLHF, quelle que soit la manière dont ces données sont collectées. Bien que les principes d'optimisme ou de pessimisme face à l'incertitude soient bien établis dans l'apprentissage par renforcement standard (RL), une forme praticable et théoriquement fondée adaptée aux grands modèles de langage n'est pas encore disponible, car les techniques standard pour construire des intervalles de confiance deviennent intraitables avec des paramétrisations arbitraires de la politique. Dans cet article, nous introduisons une approche unifiée pour le RLHF en ligne et hors ligne -- l'optimisation des préférences incitées par la valeur (VPO) -- qui régularise l'estimation du maximum de vraisemblance de la fonction de récompense avec la fonction de valeur correspondante, modulée par un signe indiquant si l'optimisme ou le pessimisme est choisi. VPO optimise également directement la politique avec une modélisation implicite de la récompense, et partage donc un pipeline RLHF plus simple, similaire à l'optimisation directe des préférences. Des garanties théoriques de VPO sont fournies pour les contextes en ligne et hors ligne, correspondant aux taux de leurs homologues RL standard. De plus, des expériences sur la synthèse de texte et les dialogues vérifient la praticabilité et l'efficacité de VPO.
Le son est un élément indispensable pour les œuvres multimédias telles que les jeux vidéo, la musique et les films. Les récents modèles de génération sonore basés sur la diffusion, de haute qualité, peuvent servir d'outils précieux pour les créateurs. Cependant, malgré leur capacité à produire des sons de haute qualité, ces modèles souffrent souvent de vitesses d'inférence lentes. Cet inconvénient pèse sur les créateurs, qui affinent généralement leurs sons par essais et erreurs pour les aligner avec leurs intentions artistiques. Pour résoudre ce problème, nous introduisons les Sound Consistency Trajectory Models (SoundCTM). Notre modèle permet une transition flexible entre une génération sonore en une étape de haute qualité et une qualité sonore supérieure grâce à une génération en plusieurs étapes. Cela permet aux créateurs de contrôler initialement les sons avec des échantillons en une étape avant de les affiner via une génération en plusieurs étapes. Bien que le CTM permette fondamentalement une génération flexible en une étape et en plusieurs étapes, ses performances impressionnantes dépendent fortement d'un extracteur de caractéristiques pré-entraîné supplémentaire et d'une perte adversarial, qui sont coûteux à entraîner et pas toujours disponibles dans d'autres domaines. Ainsi, nous reformulons le cadre d'entraînement du CTM et introduisons une nouvelle distance de caractéristiques en utilisant le réseau de l'enseignant pour une perte de distillation. De plus, tout en distillant les trajectoires guidées sans classifieur, nous entraînons simultanément des modèles étudiants conditionnels et inconditionnels et interpolons entre ces modèles lors de l'inférence. Nous proposons également des cadres de contrôle sans entraînement pour SoundCTM, en tirant parti de sa capacité d'échantillonnage flexible. SoundCTM réalise à la fois une génération sonore en temps réel prometteuse en une étape et en plusieurs étapes sans utiliser aucun réseau supplémentaire prêt à l'emploi. En outre, nous démontrons la capacité de SoundCTM à générer des sons de manière contrôlée sans entraînement.
Les méthodes existantes de génération de texte-à-3D basées sur la diffusion se concentrent principalement sur la production de formes et d'apparences visuellement réalistes, négligeant souvent les contraintes physiques nécessaires pour les tâches en aval. Les modèles générés échouent fréquemment à maintenir leur équilibre lorsqu'ils sont placés dans des simulations physiques ou imprimés en 3D. Cet équilibre est crucial pour satisfaire les intentions de conception des utilisateurs dans les jeux interactifs, l'IA incarnée et la robotique, où des modèles stables sont nécessaires pour des interactions fiables. De plus, les modèles stables garantissent que les objets imprimés en 3D, tels que les figurines pour la décoration intérieure, peuvent tenir debout seuls sans nécessiter de supports supplémentaires. Pour combler cette lacune, nous introduisons Atlas3D, une méthode automatique et facile à mettre en œuvre qui améliore les outils existants de texte-à-3D basés sur le Score Distillation Sampling (SDS). Atlas3D assure la génération de modèles 3D auto-porteurs qui respectent les lois physiques de stabilité sous l'effet de la gravité, du contact et de la friction. Notre approche combine une nouvelle fonction de perte basée sur une simulation différentiable avec une régularisation inspirée par la physique, servant soit de module de raffinement, soit de post-traitement pour les frameworks existants. Nous vérifions l'efficacité d'Atlas3D à travers des tâches de génération étendues et validons les modèles 3D résultants dans des environnements simulés et réels.