papers.description
La création de contenu pour une identité spécifique (ID) a suscité un intérêt significatif dans le domaine des modèles génératifs. Dans le domaine de la génération d'images à partir de texte (T2I), la génération de contenu pilotée par un sujet a réalisé des progrès considérables, avec la possibilité de contrôler l'ID dans les images. Cependant, son extension à la génération de vidéos n'a pas été bien explorée. Dans ce travail, nous proposons un cadre simple mais efficace pour la génération de vidéos avec contrôle de l'identité du sujet, appelé Video Custom Diffusion (VCD). Avec un sujet ID spécifié par quelques images, VCD renforce l'extraction des informations d'identité et injecte une corrélation inter-images au stade de l'initialisation pour produire des vidéos stables tout en préservant largement l'identité. Pour y parvenir, nous proposons trois composants novateurs essentiels pour une préservation de haute qualité de l'ID : 1) un module ID entraîné avec l'identité recadrée par segmentation basée sur des prompts, afin de dissocier les informations d'identité du bruit de fond pour un apprentissage plus précis des tokens d'identité ; 2) un module T2V (texte-à-vidéo) VCD avec un a priori de bruit gaussien 3D pour une meilleure cohérence inter-images ; et 3) des modules V2V (vidéo-à-vidéo) Face VCD et Tiled VCD pour déflouter les visages et augmenter la résolution de la vidéo. Malgré sa simplicité, nous avons mené des expériences approfondies pour vérifier que VCD est capable de générer des vidéos stables et de haute qualité avec une meilleure préservation de l'ID par rapport aux bases de référence sélectionnées. De plus, grâce à la transférabilité du module ID, VCD fonctionne également bien avec des modèles texte-à-image affinés disponibles publiquement, améliorant ainsi son utilité. Les codes sont disponibles à l'adresse https://github.com/Zhen-Dong/Magic-Me.
Les grands modèles de langage (LLMs) ont démontré des performances remarquables en matière de raisonnement dans divers domaines. Cependant, dans le domaine des tâches de raisonnement, nous découvrons une fragilité : les LLMs sont étonnamment sensibles à l'ordre des prémisses, bien que cet ordre ne modifie pas la tâche sous-jacente. En particulier, nous observons que les LLMs obtiennent les meilleures performances lorsque l'ordre des prémisses correspond au contexte requis dans les étapes intermédiaires du raisonnement. Par exemple, dans les tâches de raisonnement déductif, présenter les prémisses dans le même ordre que la preuve de référence dans l'invite (par opposition à un ordre aléatoire) augmente considérablement la précision du modèle. Nous examinons d'abord l'effet de l'ordre des prémisses sur le raisonnement déductif pour une variété de LLMs, et notre évaluation montre que la permutation de l'ordre des prémisses peut entraîner une baisse de performance de plus de 30 %. De plus, nous publions le benchmark R-GSM, basé sur GSM8K, pour étudier l'effet de l'ordre sur la résolution de problèmes mathématiques, et nous observons à nouveau une baisse significative de la précision par rapport au benchmark GSM8K original.
Les modèles de génération d'images basés sur la diffusion, tels que DALL-E 3 et Stable Diffusion-XL, démontrent des capacités remarquables pour produire des images aux compositions réalistes et uniques. Cependant, ces modèles ne sont pas robustes lorsqu'il s'agit de raisonner avec précision sur les configurations physiques et spatiales des objets, en particulier lorsqu'ils sont confrontés à des descriptions non conventionnelles, donc hors distribution, comme "une chaise à cinq pieds". Dans cet article, nous proposons un agent linguistique avec une chaîne de pensées 3D (L3GO), une approche au moment de l'inférence capable de raisonner sur la génération de maillages 3D par parties pour des objets non conventionnels avec lesquels les modèles de diffusion actuels basés sur les données peinent. Plus concrètement, nous utilisons des modèles de langage de grande taille comme agents pour composer un objet désiré par essais et erreurs dans un environnement de simulation 3D. Pour faciliter notre étude, nous développons un nouveau benchmark, les Objets Non Conventionnellement Réalisables (UFO), ainsi que SimpleBlenv, un environnement wrapper construit sur Blender où les agents linguistiques peuvent construire et assembler des blocs de construction atomiques via des appels API. Les évaluations humaines et automatiques avec GPT-4V montrent que notre approche surpasse le GPT-4 standard et d'autres agents linguistiques (par exemple, ReAct et Reflexion) pour la génération de maillages 3D sur ShapeNet. De plus, lorsqu'elle est testée sur notre benchmark UFO, notre approche surpasse d'autres modèles de pointe en génération d'images 2D et 3D à partir de texte, selon l'évaluation humaine.
La généralisation en longueur, définie comme la capacité à extrapoler à partir de séquences d'entraînement plus courtes vers des séquences de test plus longues, représente un défi majeur pour les modèles de langage. Ce problème persiste même avec des Transformers à grande échelle traitant des tâches relativement simples. Dans cet article, nous testons la capacité de généralisation en longueur du Transformer en utilisant la tâche d'addition de deux entiers. Nous montrons que le succès de la généralisation en longueur est étroitement lié au format des données et au type d'encodage de position. En utilisant la bonne combinaison de format de données et d'encodages de position, nous démontrons pour la première fois que les Transformers standards peuvent extrapoler à une longueur de séquence 2,5 fois supérieure à la longueur d'entrée. Néanmoins, contrairement à la généralisation en distribution, la généralisation en longueur reste fragile, étant significativement influencée par des facteurs tels que l'initialisation aléatoire des poids et l'ordre des données d'entraînement, ce qui entraîne de grandes variations entre différentes graines aléatoires.
La nécessité impérative de déployer les calculs sur de nombreux nœuds met en lumière l'importance d'un calcul parallèle efficace, en particulier dans le domaine de l'intégration de l'Interface de Passage de Messages (MPI). La tâche complexe de programmation parallèle consistant à générer des programmes parallèles basés sur MPI est restée inexplorée. Cette étude examine d'abord les performances des modèles de langage les plus avancés dans la génération de programmes parallèles basés sur MPI. Les résultats révèlent que des modèles largement utilisés tels que GPT-3.5 et PolyCoder (modèles de code multilingues spécialisés) présentent une dégradation notable des performances lors de la génération de programmes basés sur MPI par rapport aux programmes à usage général. En revanche, des modèles spécifiques au domaine, tels que MonoCoder, pré-entraînés sur les langages de programmation C et C++ liés au MPI, surpassent les modèles plus volumineux. Par la suite, nous introduisons une tâche dédiée en aval de génération de programmes basés sur MPI en affinant MonoCoder sur HPCorpusMPI. Nous appelons le modèle résultant MPIrigen. Nous proposons un prétraitement innovant pour la complétion uniquement après avoir observé l'intégralité du code, permettant ainsi une meilleure complétion avec un contexte plus large. Une analyse comparative par rapport aux performances en zero-shot de GPT-3.5, en utilisant une nouvelle méthode d'évaluation orientée HPC, démontre que MPIrigen excelle dans la génération de fonctions MPI précises, atteignant jusqu'à 0,8 de précision dans les prédictions de localisation et de fonction, et plus de 0,9 de précision pour les prédictions d'arguments. Le succès de cette solution sur mesure souligne l'importance de l'affinage spécifique au domaine pour optimiser les modèles de langage dans la génération de code de calcul parallèle, ouvrant la voie à une nouvelle génération d'outils d'automatisation de la parallélisation. Les sources de ce travail sont disponibles sur notre dépôt GitHub MPIrigen : https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen.
La puissance de calcul, ou « compute », est cruciale pour le développement et le déploiement des capacités d'intelligence artificielle (IA). Par conséquent, les gouvernements et les entreprises ont commencé à exploiter le compute comme un moyen de réguler l'IA. Par exemple, les gouvernements investissent dans des capacités de calcul nationales, contrôlent les flux de compute vers les pays concurrents et subventionnent l'accès au compute pour certains secteurs. Cependant, ces efforts ne font qu'effleurer la surface des possibilités d'utilisation du compute pour réguler le développement et le déploiement de l'IA. Par rapport aux autres intrants clés de l'IA (les données et les algorithmes), le compute pertinent pour l'IA constitue un point d'intervention particulièrement efficace : il est détectable, excluable et quantifiable, et est produit via une chaîne d'approvisionnement extrêmement concentrée. Ces caractéristiques, associées à l'importance cruciale du compute pour les modèles d'IA de pointe, suggèrent que la régulation du compute peut contribuer à atteindre des objectifs politiques communs, tels qu'assurer la sécurité et l'utilisation bénéfique de l'IA. Plus précisément, les décideurs politiques pourraient utiliser le compute pour faciliter la visibilité réglementaire de l'IA, allouer des ressources pour promouvoir des résultats bénéfiques et faire respecter des restrictions contre le développement et l'utilisation irresponsables ou malveillants de l'IA. Cependant, bien que les politiques et technologies basées sur le compute aient le potentiel d'aider dans ces domaines, leur état de préparation pour la mise en œuvre varie considérablement. Certaines idées sont actuellement testées, tandis que d'autres sont entravées par le besoin de recherches fondamentales. De plus, des approches naïves ou mal définies de la gouvernance du compute comportent des risques importants dans des domaines tels que la confidentialité, les impacts économiques et la centralisation du pouvoir. Nous concluons en suggérant des garde-fous pour minimiser ces risques liés à la gouvernance du compute.
Le réglage par récompense s'est imposé comme une approche prometteuse pour aligner les modèles de base avec les objectifs en aval. Des succès remarquables ont été obtenus dans le domaine du langage en utilisant l'apprentissage par renforcement (RL) pour maximiser les récompenses reflétant les préférences humaines. Cependant, dans le domaine de la vision, les méthodes existantes de réglage par récompense basées sur le RL sont limitées par leur instabilité lors de l'entraînement à grande échelle, les rendant incapables de généraliser à des prompts complexes et inédits. Dans cet article, nous proposons la Prédiction de Différence de Récompense Proximale (PRDP), permettant pour la première fois un réglage par récompense stable en boîte noire pour les modèles de diffusion sur des ensembles de données de prompts à grande échelle contenant plus de 100 000 prompts. Notre innovation clé est l'objectif de Prédiction de Différence de Récompense (RDP) qui possède la même solution optimale que l'objectif du RL tout en bénéficiant d'une meilleure stabilité d'entraînement. Concrètement, l'objectif RDP est un objectif de régression supervisée qui consiste à demander au modèle de diffusion de prédire la différence de récompense entre des paires d'images générées à partir de leurs trajectoires de débruitage. Nous prouvons théoriquement que le modèle de diffusion qui obtient une prédiction parfaite de la différence de récompense est exactement le maximiseur de l'objectif du RL. Nous développons en outre un algorithme en ligne avec des mises à jour proximales pour optimiser de manière stable l'objectif RDP. Dans les expériences, nous démontrons que PRDP peut égaler la capacité de maximisation des récompenses des méthodes bien établies basées sur le RL lors d'un entraînement à petite échelle. De plus, grâce à un entraînement à grande échelle sur des prompts textuels issus du Human Preference Dataset v2 et du dataset Pick-a-Pic v1, PRDP atteint une qualité de génération supérieure sur un ensemble diversifié de prompts complexes et inédits, alors que les méthodes basées sur le RL échouent complètement.
Les grands modèles de langage (LLM) deviennent de plus en plus répandus et trouvent une utilisation omniprésente pour fournir différentes formes d'assistance à l'écriture. Cependant, les systèmes d'écriture basés sur les LLM peuvent frustrer les utilisateurs en raison de leur personnalisation et de leur contrôle limités, ce qui peut être exacerbé lorsque les utilisateurs manquent d'expérience en ingénierie des prompts. Nous considérons le design comme un moyen de relever ces défis et présentons GhostWriter, une sonde de conception d'écriture améliorée par l'IA où les utilisateurs peuvent exercer une agence et une personnalisation accrues. GhostWriter exploite les LLM pour apprendre implicitement le style d'écriture souhaité par l'utilisateur pendant qu'il écrit, tout en permettant des moments d'enseignement explicites grâce à des modifications manuelles du style et des annotations. Nous étudions 18 participants qui utilisent GhostWriter pour deux tâches d'écriture différentes, observant que cela les aide à créer des générations de texte personnalisées et les habilite en fournissant plusieurs moyens de contrôler le style d'écriture du système. À partir de cette étude, nous présentons des insights concernant la relation des personnes avec l'écriture assistée par l'IA et offrons des recommandations de design pour les travaux futurs.
Face à la complexité croissante des modèles d'IA générative, la quantification post-entraînement (PTQ) s'est imposée comme une solution prometteuse pour déployer des modèles hyper-scalaires sur des appareils embarqués tels que les mobiles et les téléviseurs. Cependant, les schémas de PTQ existants consomment un temps et des ressources considérables, ce qui peut constituer un goulot d'étranglement dans des situations réelles où des mises à jour fréquentes du modèle et des réglages multiples d'hyperparamètres sont nécessaires. En tant qu'alternative économique, des schémas de PTQ en une seule étape ont été proposés. Néanmoins, leurs performances restent limitées car ils ne prennent pas en compte la dépendance inter-couches au sein du module d'attention, une caractéristique essentielle des Transformers. Dans cet article, nous proposons donc un nouvel algorithme de PTQ qui équilibre précision et efficacité. L'idée clé de l'algorithme proposé, appelé aespa, est d'effectuer la quantification couche par couche pour l'efficacité tout en tenant compte de la dépendance inter-couches pour préserver le score d'attention. À travers des expériences approfondies sur divers modèles de langage et une analyse de complexité, nous démontrons qu'aespa est à la fois précis et efficace pour quantifier les modèles Transformer.