papers.description
Les modèles de génération de musique à partir de texte sont désormais capables de produire des audios musicaux de haute qualité dans une grande variété de styles. Cependant, le contrôle par texte est principalement adapté à la manipulation d'attributs musicaux globaux tels que le genre, l'ambiance et le tempo, et se révèle moins approprié pour un contrôle précis des attributs variant dans le temps, comme la position des battements ou l'évolution des dynamiques musicales. Nous proposons Music ControlNet, un modèle de génération musicale basé sur la diffusion, offrant plusieurs contrôles précis et temporels sur l'audio généré. Pour doter les modèles de génération de musique à partir de texte d'un contrôle temporel, nous proposons une approche analogue au contrôle pixel par pixel de la méthode ControlNet dans le domaine de l'image. Plus précisément, nous extrayons des contrôles à partir d'audios d'entraînement pour obtenir des données appariées, et affinons un modèle génératif conditionnel basé sur la diffusion sur des spectrogrammes audio, en fonction de contrôles de mélodie, de dynamique et de rythme. Alors que la méthode Uni-ControlNet dans le domaine de l'image permet déjà la génération avec n'importe quel sous-ensemble de contrôles, nous concevons une nouvelle stratégie pour permettre aux créateurs de fournir des contrôles partiellement spécifiés dans le temps. Nous évaluons à la fois les contrôles extraits d'audio et ceux que nous attendons des créateurs, démontrant que nous pouvons générer une musique réaliste correspondant aux entrées de contrôle dans les deux cas. Bien que peu de modèles comparables de génération musicale existent, nous comparons notre modèle à MusicGen, un modèle récent acceptant des entrées de texte et de mélodie, et montrons que notre modèle génère une musique 49 % plus fidèle aux mélodies d'entrée, malgré 35 fois moins de paramètres, un entraînement sur 11 fois moins de données, et l'activation de deux formes supplémentaires de contrôle temporel. Des exemples sonores sont disponibles à l'adresse https://MusicControlNet.github.io/web/.
Dans ce rapport technique, nous visons à générer des personnages anthropomorphisés pour des agents basés sur des modèles de langage (LLM) de manière en ligne, incluant leur apparence visuelle, leur personnalité et leurs tonalités, en utilisant uniquement des descriptions textuelles. Pour y parvenir, nous exploitons d'abord la capacité d'apprentissage en contexte des LLM pour la génération de personnalités en concevant soigneusement un ensemble d'invites système. Nous proposons ensuite deux concepts novateurs : le mélange de voix (MoV) et le mélange de diffuseurs (MoD) pour générer des voix et des apparences variées. Pour le MoV, nous utilisons des algorithmes de synthèse vocale (TTS) avec une gamme de tonalités prédéfinies et sélectionnons automatiquement celle qui correspond le mieux à la description textuelle fournie par l'utilisateur. Pour le MoD, nous combinons les techniques récentes de génération d'images à partir de texte et les algorithmes de tête parlante pour rationaliser le processus de création d'objets parlants. Nous avons baptisé ce cadre complet "ChatAnything". Grâce à lui, les utilisateurs peuvent animer n'importe quoi avec n'importe quelle personnalité anthropomorphique en utilisant simplement quelques entrées textuelles. Cependant, nous avons observé que les objets anthropomorphiques produits par les modèles génératifs actuels sont souvent indétectables par les détecteurs de points de repère faciaux pré-entraînés, ce qui entraîne l'échec de la génération des mouvements faciaux, même si ces visages ont des apparences humaines, car ces images sont rarement vues pendant l'entraînement (par exemple, des échantillons hors distribution). Pour résoudre ce problème, nous intégrons un guidage au niveau des pixels pour infuser des points de repère faciaux humains pendant la phase de génération d'images. Pour évaluer ces métriques, nous avons construit un jeu de données d'évaluation. Sur cette base, nous vérifions que le taux de détection des points de repère faciaux est significativement augmenté de 57,0 % à 92,5 %, permettant ainsi une animation faciale automatique basée sur le contenu vocal généré. Le code et d'autres résultats sont disponibles à l'adresse suivante : https://chatanything.github.io/.
La génération de mouvements humains naturels à partir d'une histoire a le potentiel de transformer le paysage des industries de l'animation, du jeu vidéo et du cinéma. Une nouvelle tâche complexe, appelée Story-to-Motion, émerge lorsque les personnages doivent se déplacer vers divers lieux et effectuer des mouvements spécifiques en fonction d'une longue description textuelle. Cette tâche nécessite une fusion entre un contrôle de bas niveau (trajectoires) et un contrôle de haut niveau (sémantique des mouvements). Les travaux précédents sur le contrôle des personnages et la génération de mouvements à partir de texte ont abordé des aspects connexes, mais une solution complète reste insaisissable : les méthodes de contrôle des personnages ne gèrent pas les descriptions textuelles, tandis que les méthodes de génération de mouvements à partir de texte manquent de contraintes de position et produisent souvent des mouvements instables. Face à ces limitations, nous proposons un système novateur qui génère des mouvements et des trajectoires contrôlables, de longueur infinie, alignés sur le texte d'entrée. (1) Nous exploitons les modèles de langage de grande envergure contemporains pour agir comme un planificateur de mouvements piloté par le texte, extraire une série de triplets (texte, position, durée) à partir de longs textes. (2) Nous développons un schéma de récupération de mouvements piloté par le texte, intégrant un appariement de mouvements avec des contraintes sémantiques et de trajectoire. (3) Nous concevons un transformateur à masque progressif qui traite les artefacts courants dans les transitions de mouvements, tels que les poses non naturelles et le glissement des pieds. Au-delà de son rôle pionnier en tant que première solution complète pour Story-to-Motion, notre système est évalué sur trois sous-tâches distinctes : le suivi de trajectoire, la composition temporelle d'actions et le mélange de mouvements, où il surpasse les méthodes de synthèse de mouvements de pointe précédentes dans tous les domaines. Page d'accueil : https://story2motion.github.io/.
Les modèles de fondation multi-modaux, représentés par GPT-4V, ont introduit un nouveau paradigme pour les tâches de perception et de compréhension visuelle de bas niveau, permettant de répondre à un large éventail d'instructions humaines naturelles dans un modèle. Bien que les modèles de fondation existants aient montré des potentialités prometteuses pour les tâches visuelles de bas niveau, leurs capacités connexes restent préliminaires et nécessitent d'être améliorées. Afin d'améliorer ces modèles, nous avons mené une expérience subjective à grande échelle, recueillant un grand nombre de retours humains réels sur la vision de bas niveau. Chaque retour suit un parcours qui commence par une description détaillée de l'apparence visuelle de bas niveau (*par exemple, la clarté, la couleur, la luminosité* d'une image) et se termine par une conclusion globale, avec une longueur moyenne de 45 mots. Le jeu de données **Q-Pathway** construit comprend 58 000 retours humains détaillés sur 18 973 images présentant des apparences de bas niveau variées. De plus, pour permettre aux modèles de fondation de répondre de manière robuste à divers types de questions, nous avons conçu une conversion impliquant GPT pour transformer ces retours en 200 000 paires instruction-réponse de formats variés. Les résultats expérimentaux indiquent que **Q-Instruct** améliore de manière constante les capacités de perception et de compréhension de bas niveau à travers plusieurs modèles de fondation. Nous anticipons que nos jeux de données peuvent ouvrir la voie à un avenir où l'intelligence générale pourra percevoir, comprendre l'apparence visuelle de bas niveau et évaluer la qualité visuelle comme un humain. Notre jeu de données, zoo de modèles et démonstration sont publiés à l'adresse : https://q-future.github.io/Q-Instruct.
Les méthodes existantes de réglage d'instructions visuelles incitent généralement les grands modèles de langage avec des descriptions textuelles pour générer des données d'instructions. Malgré les performances prometteuses obtenues, ces descriptions sont dérivées d'annotations d'images, qui sont souvent grossières. De plus, les instructions peuvent même contredire le contenu visuel sans observer l'ensemble du contexte visuel. Pour relever ce défi, nous introduisons un ensemble de données d'instructions visuelles fines, LVIS-Instruct4V, qui contient 220K instructions alignées visuellement et conscientes du contexte, produites en incitant le puissant GPT-4V avec des images de LVIS. Grâce à une validation expérimentale et à des études de cas, nous démontrons que des données d'instructions visuelles de haute qualité pourraient améliorer les performances de LLaVA-1.5, un modèle multimodal de pointe, sur un large éventail de benchmarks avec des marges claires. Notamment, en remplaçant simplement LLaVA-Instruct par notre LVIS-Instruct4V, nous obtenons de meilleurs résultats que LLaVA sur la plupart des benchmarks LMM les plus difficiles, par exemple, LLaVA^w (76.7 contre 70.7) et MM-Vet (40.2 contre 35.4). Nous publions nos données et notre modèle à l'adresse https://github.com/X2FD/LVIS-INSTRUCT4V.
Dans des scénarios de déploiement tels que les maisons et les entrepôts, les robots mobiles sont censés naviguer de manière autonome pendant de longues périodes, exécutant de manière fluide des tâches formulées en termes intuitivement compréhensibles par les opérateurs humains. Nous présentons GO To Any Thing (GOAT), un système de navigation universel capable de répondre à ces exigences grâce à trois caractéristiques clés : a) Multimodal : il peut traiter des objectifs spécifiés via des étiquettes de catégorie, des images cibles et des descriptions langagières, b) Lifelong : il tire parti de son expérience passée dans le même environnement, et c) Indépendant de la plateforme : il peut être rapidement déployé sur des robots avec différentes configurations. GOAT est rendu possible grâce à une conception modulaire du système et à une mémoire sémantique consciente des instances, continuellement enrichie, qui suit l'apparence des objets sous différents angles en plus de la sémantique au niveau de la catégorie. Cela permet à GOAT de distinguer différentes instances d'une même catégorie pour permettre la navigation vers des cibles spécifiées par des images et des descriptions langagières. Dans des comparaisons expérimentales couvrant plus de 90 heures dans 9 maisons différentes, comprenant 675 objectifs sélectionnés parmi plus de 200 instances d'objets, nous constatons que GOAT atteint un taux de réussite global de 83 %, surpassant les méthodes précédentes et les ablations de 32 % (amélioration absolue). GOAT s'améliore avec l'expérience dans l'environnement, passant d'un taux de réussite de 60 % pour le premier objectif à 90 % après exploration. De plus, nous démontrons que GOAT peut être facilement appliqué à des tâches en aval telles que la prise et le dépôt d'objets et la navigation sociale.
Nous présentons SPHINX, un modèle de langage multimodal polyvalent (MLLM) qui combine de manière conjointe les poids du modèle, les tâches de réglage et les embeddings visuels. Tout d'abord, pour renforcer l'alignement vision-langage, nous déverrouillons le grand modèle de langage (LLM) pendant le pré-entraînement et introduisons une stratégie de mélange de poids entre des LLM entraînés sur des données réelles et synthétiques. En intégrant directement les poids des deux domaines, le LLM mixte peut incorporer efficacement des sémantiques variées avec une robustesse favorable. Ensuite, pour permettre des capacités polyvalentes, nous mélangeons une variété de tâches pour un réglage conjoint d'instructions visuelles, et concevons des instructions spécifiques à chaque tâche pour éviter les conflits inter-tâches. En plus de la réponse à des questions visuelles de base, nous incluons des tâches plus complexes telles que la compréhension au niveau des régions, l'ancrage de légendes, la détection de la disposition de documents et l'estimation de la pose humaine, contribuant à une amélioration mutuelle dans différents scénarios. De plus, nous proposons d'extraire des embeddings visuels complets à partir de diverses architectures de réseaux, paradigmes de pré-entraînement et granularités d'information, fournissant ainsi aux modèles de langage des représentations d'images plus robustes. Grâce à notre proposition de mélange conjoint, SPHINX démontre des capacités supérieures de compréhension multimodale dans un large éventail d'applications. Par ailleurs, nous proposons une stratégie efficace visant à mieux capturer les apparences fines des images haute résolution. Avec un mélange de différentes échelles et de sous-images haute résolution, SPHINX atteint des performances exceptionnelles en analyse visuelle et en raisonnement sur les benchmarks d'évaluation existants. Nous espérons que notre travail pourra éclairer l'exploration du mélange conjoint dans les futures recherches sur les MLLM. Le code est disponible à l'adresse suivante : https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Nous présentons MM-Navigator, un agent basé sur GPT-4V pour la tâche de navigation dans l’interface graphique (GUI) des smartphones. MM-Navigator peut interagir avec l’écran d’un smartphone comme le feraient des utilisateurs humains, et déterminer les actions ultérieures nécessaires pour accomplir des instructions données. Nos résultats démontrent que les grands modèles multimodaux (LMMs), en particulier GPT-4V, excellent dans la navigation zéro-shot des GUI grâce à leurs capacités avancées d’interprétation d’écran, de raisonnement sur les actions et de localisation précise des actions. Nous avons d’abord évalué MM-Navigator sur notre ensemble de données d’écrans iOS collecté. Selon les évaluations humaines, le système a atteint un taux de précision de 91 % dans la génération de descriptions d’actions raisonnables et de 75 % dans l’exécution des actions correctes pour des instructions à une étape sur iOS. De plus, nous avons évalué le modèle sur un sous-ensemble d’un ensemble de données de navigation sur écran Android, où le modèle surpasse les navigateurs GUI précédents en mode zéro-shot. Notre benchmark et nos analyses détaillées visent à établir une base solide pour les recherches futures sur la tâche de navigation dans les GUI. La page du projet est disponible à l’adresse suivante : https://github.com/zzxslp/MM-Navigator.
Récemment, il y a eu une avancée rapide dans la recherche sur les modèles de langage de grande taille (LLMs), entraînant des progrès significatifs dans plusieurs tâches de traitement du langage naturel (NLP). Par conséquent, il y a eu une augmentation des recherches sur l'évaluation des LLMs afin de comprendre leurs capacités et leurs limites. Cependant, une grande partie de ces recherches s'est limitée à la langue anglaise, laissant la construction et l'évaluation des LLMs pour les langues non anglaises relativement inexplorées. Plusieurs nouveaux LLMs ont été introduits, nécessitant leur évaluation sur des langues non anglaises. Cette étude vise à étendre notre suite de référence MEGA en incluant six nouveaux ensembles de données pour former le benchmark MEGAVERSE. Le benchmark comprend 22 ensembles de données couvrant 81 langues, y compris des langues africaines à faible ressource. Nous évaluons plusieurs LLMs de pointe comme GPT-3.5-Turbo, GPT4, PaLM2 et Llama2 sur les ensembles de données MEGAVERSE. De plus, nous incluons deux ensembles de données multimodales dans le benchmark et évaluons les performances du modèle LLaVa-v1.5. Nos expériences suggèrent que GPT4 et PaLM2 surpassent les modèles Llama sur diverses tâches, notamment sur les langues à faible ressource, avec GPT4 surpassant PaLM2 sur plus d'ensembles de données que l'inverse. Cependant, des problèmes tels que la contamination des données doivent être résolus pour obtenir une évaluation précise des performances des LLMs sur les langues non anglaises.
Ces dernières années, des avancées révolutionnaires dans le traitement du langage naturel ont conduit à l'émergence de modèles de langage de grande taille (LLMs) puissants, qui ont démontré des capacités remarquables dans un vaste éventail de domaines, notamment la compréhension, la génération et la traduction du langage naturel, ainsi que des tâches dépassant le cadre du traitement linguistique. Dans ce rapport, nous explorons les performances des LLMs dans le contexte de la découverte scientifique, en nous concentrant sur GPT-4, le modèle de langage le plus avancé à ce jour. Notre investigation couvre une diversité de domaines scientifiques, incluant la découverte de médicaments, la biologie, la chimie computationnelle (théorie de la fonctionnelle de la densité (DFT) et dynamique moléculaire (MD)), la conception de matériaux, et les équations aux dérivées partielles (PDE). Évaluer GPT-4 sur des tâches scientifiques est essentiel pour révéler son potentiel dans divers domaines de recherche, valider son expertise spécifique, accélérer le progrès scientifique, optimiser l'allocation des ressources, guider le développement futur des modèles, et favoriser la recherche interdisciplinaire. Notre méthodologie d'exploration repose principalement sur des évaluations de cas pilotées par des experts, qui offrent des insights qualitatifs sur la compréhension par le modèle de concepts et relations scientifiques complexes, et occasionnellement sur des tests de référence, qui évaluent quantitativement la capacité du modèle à résoudre des problèmes bien définis dans des domaines spécifiques. Notre exploration préliminaire indique que GPT-4 montre un potentiel prometteur pour diverses applications scientifiques, démontrant son aptitude à gérer des tâches complexes de résolution de problèmes et d'intégration de connaissances. De manière générale, nous évaluons la base de connaissances de GPT-4, sa compréhension scientifique, ses capacités de calcul numérique scientifique, et diverses capacités de prédiction scientifique.
Les grands modèles de langage (LLM) sont entraînés sur des corpus à l'échelle du web qui incluent inévitablement des informations factuelles contradictoires provenant de sources de fiabilité variable. Dans cet article, nous proposons de mesurer une propriété des LLM appelée alignement avec les sources fiables (TSA) : la propension du modèle à s'aligner sur le contenu produit par des éditeurs de confiance face à l'incertitude ou à la controverse. Nous présentons FactCheckQA, un ensemble de données d'évaluation de la TSA basé sur un corpus d'articles de vérification des faits. Nous décrivons un protocole simple pour évaluer la TSA et offrons une analyse détaillée des considérations de conception, y compris l'extraction des réponses, la contextualisation des affirmations et les biais dans la formulation des prompts. En appliquant ce protocole à PaLM-2, nous constatons qu'à mesure que nous augmentons la taille du modèle, la performance sur FactCheckQA s'améliore, passant d'une précision équilibrée proche du hasard à jusqu'à 80 % dans l'alignement avec les sources fiables.
La génération conditionnelle de mise en page graphique, qui mappe automatiquement les contraintes de l'utilisateur vers des mises en page de haute qualité, a suscité une attention considérable aujourd'hui. Bien que les travaux récents aient obtenu des performances prometteuses, le manque de polyvalence et d'efficacité des données entrave leurs applications pratiques. Dans ce travail, nous proposons LayoutPrompter, qui exploite les grands modèles de langage (LLMs) pour résoudre ces problèmes grâce à l'apprentissage en contexte. LayoutPrompter est composé de trois éléments clés, à savoir la sérialisation entrée-sortie, la sélection dynamique d'exemples et le classement des mises en page. Plus précisément, le composant de sérialisation entrée-sortie conçoit méticuleusement les formats d'entrée et de sortie pour chaque tâche de génération de mise en page. La sélection dynamique d'exemples est chargée de choisir les exemples de prompt les plus utiles pour une entrée donnée. Et un classificateur de mises en page est utilisé pour sélectionner la mise en page de la plus haute qualité parmi les multiples sorties des LLMs. Nous menons des expériences sur toutes les tâches existantes de génération de mise en page en utilisant quatre ensembles de données publics. Malgré la simplicité de notre approche, les résultats expérimentaux montrent que LayoutPrompter peut rivaliser avec, voire surpasser, les approches de pointe sur ces tâches sans aucun entraînement ou ajustement de modèle. Cela démontre l'efficacité de cette approche polyvalente et sans entraînement. De plus, les études d'ablation montrent que LayoutPrompter est nettement supérieur à la base de référence basée sur l'entraînement dans un régime de faible quantité de données, indiquant davantage l'efficacité des données de LayoutPrompter. Notre projet est disponible à l'adresse https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
Les grands modèles de langage (LLM) tels que T0, FLAN et OPT-IML excellent dans le multitâche sous un paradigme unifié de suivi d'instructions, où ils démontrent également des capacités de généralisation remarquables pour des tâches non vues. Malgré leurs performances impressionnantes, ces LLM, dont la taille varie de plusieurs milliards à des centaines de milliards de paramètres, nécessitent des ressources computationnelles substantielles, rendant leur entraînement et leur inférence coûteux et inefficaces. De plus, l'adaptation de ces modèles à des applications en aval, en particulier pour des tâches complexes, est souvent impossible en raison des exigences matérielles importantes pour le réglage fin, même en utilisant des approches économes en paramètres comme le réglage par prompt. Par ailleurs, les LLM multitâches les plus puissants, tels qu'OPT-IML-175B et FLAN-PaLM-540B, ne sont pas accessibles au public, limitant fortement leur potentiel de personnalisation. Pour relever ces défis, nous introduisons un petit modèle pré-entraîné, Cappy, conçu pour améliorer les performances et l'efficacité des LLM multitâches. Avec seulement 360 millions de paramètres, Cappy fonctionne soit de manière indépendante sur des tâches de classification, soit comme un composant auxiliaire pour les LLM, en boostant leurs performances. De plus, Cappy permet d'intégrer efficacement une supervision en aval sans nécessiter de réglage fin des LLM ni l'accès à leurs paramètres. Nos expériences montrent que, lorsqu'il fonctionne de manière indépendante sur 11 tâches de compréhension du langage issues de PromptSource, Cappy surpasse des LLM plusieurs ordres de grandeur plus grands. Par ailleurs, sur 45 tâches complexes de BIG-Bench, Cappy améliore considérablement les performances du LLM multitâche avancé, FLAN-T5. En outre, Cappy est flexible pour coopérer avec d'autres adaptations de LLM, y compris le réglage fin et l'apprentissage en contexte, offrant une amélioration supplémentaire des performances.
Dans ce travail, nous étendons le modèle Llama-2 ajusté par instructions avec des capacités de traitement et de raisonnement de la parole polyvalentes de bout en bout, tout en conservant la large gamme de capacités des LLM, sans utiliser de données appariées soigneusement sélectionnées. Le modèle proposé peut utiliser des invites audio en remplacement du texte et maintenir une conversation. Un tel modèle possède également des capacités intermodales étendues, telles que la capacité à effectuer des réponses à des questions basées sur la parole, la traduction de la parole et la synthèse audio, parmi de nombreuses autres tâches en domaine fermé ou ouvert. Cela diffère des approches antérieures dans le domaine de la parole, où les LLM sont étendus pour gérer l'audio pour un nombre limité de tâches prédéfinies. Les expériences montrent que notre approche de bout en bout est équivalente ou supérieure à un système en cascade (reconnaissance vocale + LLM) en termes de modélisation de la réponse à une invite. De plus, contrairement à une cascade, notre approche montre la capacité d'interchanger les modalités texte et audio et d'utiliser le contexte précédent dans une conversation pour fournir de meilleurs résultats.
Nous introduisons et étudions le problème de l'arithmétique adversarial, qui offre un cadre simple mais stimulant pour tester l'alignement des modèles de langage. Ce problème consiste en des questions arithmétiques formulées en langage naturel, avec une chaîne de caractères adversarial arbitraire insérée avant que la question ne soit complète. Même dans le cadre simple des additions à un chiffre, il est facile de trouver des prompts adversariaux qui font dysfonctionner tous les modèles testés (y compris PaLM2, GPT4, Claude2), et même de diriger les modèles vers une mauvaise réponse spécifique. Nous proposons également un algorithme simple pour trouver des attaques réussies en interrogeant ces mêmes modèles, que nous nommons "échantillonnage par rejet d'inversion de prompt" (PIRS). Nous montrons enfin que les modèles peuvent être partiellement renforcés contre ces attaques via l'apprentissage par renforcement et via des boucles constitutionnelles agentiques. Cependant, nous n'avons pas réussi à rendre un modèle de langage entièrement robuste contre les attaques d'arithmétique adversarial.