Articles de recherche en IA sélectionnés quotidiennement avec traductions
Bien que les modèles récents de synthèse vocale (TTS) à grande échelle aient réalisé des progrès significatifs, ils restent encore limités en termes de qualité vocale, de similarité et de prosodie. Considérant que la parole englobe de manière complexe divers attributs (par exemple, le contenu, la prosodie, le timbre et les détails acoustiques) qui posent des défis majeurs pour la génération, une idée naturelle est de factoriser la parole en sous-espaces individuels représentant différents attributs et de les générer séparément. Motivés par cette approche, nous proposons NaturalSpeech 3, un système TTS utilisant des modèles de diffusion factorisés novateurs pour générer une parole naturelle de manière zero-shot. Plus précisément, 1) nous concevons un codec neuronal avec quantification vectorielle factorisée (FVQ) pour décomposer la forme d'onde vocale en sous-espaces de contenu, prosodie, timbre et détails acoustiques ; 2) nous proposons un modèle de diffusion factorisé pour générer les attributs dans chaque sous-espace en suivant son prompt correspondant. Grâce à cette conception factorisée, NaturalSpeech 3 peut modéliser efficacement et de manière efficiente la parole complexe avec des sous-espaces décomposés, suivant une approche de type "diviser pour régner". Les expériences montrent que NaturalSpeech 3 surpasse les systèmes TTS de pointe en termes de qualité, similarité, prosodie et intelligibilité. De plus, nous obtenons de meilleures performances en augmentant l'échelle à 1 milliard de paramètres et 200 000 heures de données d'entraînement.
Nous proposons un nouveau cadre pour le filtrage des données image-texte en exploitant des modèles de langage multimodaux (MLM) affinés. Notre approche surpasse les méthodes de filtrage prédominantes (par exemple, CLIPScore) en intégrant les avancées récentes dans les MLM. Nous concevons quatre métriques distinctes mais complémentaires pour mesurer de manière holistique la qualité des données image-texte. Un nouveau pipeline est établi pour construire des données d'instruction de haute qualité afin d'affiner les MLM en tant que filtres de données. Comparé à CLIPScore, nos filtres MLM produisent des scores plus précis et complets qui améliorent directement la qualité des données filtrées et boostent les performances des modèles pré-entraînés. Nous obtenons des améliorations significatives par rapport à CLIPScore sur des modèles de base populaires (c'est-à-dire CLIP et BLIP2) et diverses tâches en aval. Notre filtre MLM peut se généraliser à différents modèles et tâches, et être utilisé comme un remplacement direct de CLIPScore. Une étude d'ablation supplémentaire est fournie pour vérifier nos choix de conception pour le filtre MLM.
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en résolution de problèmes. Cependant, leur compétence dans la résolution de problèmes mathématiques reste insuffisante. Nous proposons MathScale, une méthode simple et évolutive pour créer des données de raisonnement mathématique de haute qualité en utilisant des LLMs de pointe (par exemple, {\tt GPT-3.5}). Inspiré par le mécanisme cognitif de l'apprentissage mathématique humain, il extrait d'abord des sujets et des points de connaissance à partir de questions mathématiques de base, puis construit un graphe de concepts, qui est ensuite utilisé pour générer de nouvelles questions mathématiques. MathScale montre une scalabilité efficace le long de l'axe de taille du jeu de données mathématiques que nous générons. En conséquence, nous créons un jeu de données de raisonnement mathématique (MathScaleQA) contenant deux millions de paires question-réponse mathématiques. Pour évaluer de manière exhaustive les capacités de raisonnement mathématique des LLMs, nous construisons {\sc MwpBench}, un benchmark de problèmes mathématiques en langage naturel, qui est une collection de dix jeux de données (y compris GSM8K et MATH) couvrant des problèmes mathématiques de niveau primaire, secondaire, universitaire et de compétition. Nous appliquons MathScaleQA pour affiner des LLMs open-source (par exemple, LLaMA-2 et Mistral), ce qui entraîne une amélioration significative des capacités en raisonnement mathématique. Évalué sur {\sc MwpBench}, MathScale-7B atteint des performances de pointe sur tous les jeux de données, surpassant ses meilleurs pairs de taille équivalente de 42,9 % en précision moyenne micro et de 43,7 % en précision moyenne macro, respectivement.
Les lois d'échelle jouent un rôle crucial dans l'amélioration durable de la qualité des modèles. Malheureusement, les modèles de recommandation actuels ne présentent pas de telles lois, similaires à celles observées dans le domaine des grands modèles de langage, en raison de l'inefficacité de leurs mécanismes de mise à l'échelle. Cette limitation pose des défis importants pour l'adaptation de ces modèles à des ensembles de données réels de plus en plus complexes. Dans cet article, nous proposons une architecture de réseau efficace basée uniquement sur des machines de factorisation empilées, ainsi qu'une stratégie de mise à l'échelle synergétique, collectivement appelée Wukong, pour établir une loi d'échelle dans le domaine de la recommandation. La conception unique de Wukong permet de capturer des interactions diverses et d'ordre quelconque simplement par des couches plus hautes et plus larges. Nous avons mené des évaluations approfondies sur six ensembles de données publics, et nos résultats montrent que Wukong surpasse systématiquement les modèles de pointe en termes de qualité. De plus, nous avons évalué l'évolutivité de Wukong sur un ensemble de données interne à grande échelle. Les résultats montrent que Wukong conserve sa supériorité en qualité par rapport aux modèles de pointe, tout en respectant la loi d'échelle sur deux ordres de grandeur de complexité du modèle, s'étendant au-delà de 100 Gflop ou équivalemment jusqu'à l'échelle de calcul d'entraînement totale de GPT-3/LLaMa-2, là où les approches précédentes échouent.
Le développement de systèmes interactifs multimodaux est entravé par le manque de données conversationnelles riches et multimodales (texte, images), nécessaires en grande quantité pour les modèles de langage de grande taille (LLM). Les approches précédentes enrichissent les dialogues textuels avec des images récupérées, ce qui pose des contraintes en matière de confidentialité, de diversité et de qualité. Dans ce travail, nous introduisons Multimodal Augmented Generative Images Dialogues (MAGID), un cadre pour enrichir les dialogues textuels avec des images diversifiées et de haute qualité. Par la suite, un modèle de diffusion est appliqué pour créer des images correspondantes, en veillant à leur alignement avec le texte identifié. Enfin, MAGID intègre une boucle de rétroaction innovante entre un module de génération de descriptions d'images (LLM textuel) et des modules de qualité d'image (abordant l'esthétique, la correspondance image-texte et la sécurité), qui travaillent en tandem pour générer des dialogues multimodaux de haute qualité. Nous comparons MAGID à d'autres approches de pointe sur trois ensembles de données de dialogue, en utilisant des évaluations automatisées et humaines. Nos résultats montrent que MAGID est comparable ou supérieur aux approches de référence, avec des améliorations significatives dans l'évaluation humaine, en particulier contre les approches de récupération où la base de données d'images est limitée.
Les grands modèles de langage (LLMs) se sont avérés nettement supérieurs aux méthodes conventionnelles pour diverses tâches. Cependant, leurs calculs coûteux et leurs exigences élevées en mémoire rendent leur déploiement prohibitif. La quantification des modèles est une méthode efficace pour réduire cette surcharge. Le problème est que dans la plupart des travaux précédents, le modèle quantifié était calibré en utilisant peu d'échantillons des données d'entraînement, ce qui pourrait affecter la généralisation des LLMs quantifiés à des cas et tâches inconnus. Par conséquent, dans ce travail, nous explorons une question importante : pouvons-nous concevoir une méthode de quantification indépendante des données pour les LLMs afin de garantir leurs performances de généralisation ? Dans ce travail, nous proposons EasyQuant, un algorithme de quantification uniquement des poids, sans entraînement et indépendant des données, pour les LLMs. Notre observation indique que deux facteurs : les valeurs aberrantes dans les poids et les plages de quantification, sont essentiels pour réduire l'erreur de quantification. Par conséquent, dans EasyQuant, nous laissons les valeurs aberrantes (moins de 1%) inchangées et optimisons la plage de quantification pour réduire l'erreur de reconstruction. Avec ces méthodes, nous constatons, de manière surprenante, qu'EasyQuant atteint des performances comparables à celles du modèle original. Comme EasyQuant ne dépend d'aucune donnée d'entraînement, la performance de généralisation des LLMs quantifiés est assurée de manière sûre. De plus, EasyQuant peut être implémenté en parallèle, de sorte que le modèle quantifié peut être obtenu en quelques minutes, même pour des LLMs de plus de 100 milliards de paramètres. À notre connaissance, nous sommes les premiers à atteindre une performance de quantification quasi sans perte pour les LLMs dans un cadre indépendant des données, et notre algorithme fonctionne plus de 10 fois plus vite que les méthodes dépendantes des données.
Malgré des progrès remarquables, les modèles de langage multimodaux à grande échelle (MLLMs) existants restent inférieurs en matière de reconnaissance visuelle granulaire. Contrairement aux travaux précédents, nous étudions ce problème sous l'angle de la résolution d'image et révélons qu'une combinaison de caractéristiques visuelles à basse et haute résolution peut efficacement atténuer cette lacune. Sur la base de cette observation, nous proposons une méthode novatrice et efficace pour les MLLMs, appelée Adaptation de Mélange de Résolutions (MRA). En particulier, MRA adopte deux voies visuelles pour les images de différentes résolutions, où les informations visuelles à haute résolution sont intégrées dans la voie à basse résolution via les nouveaux adaptateurs de mélange de résolutions (MR-Adapters). Cette conception réduit également considérablement la longueur de la séquence d'entrée des MLLMs. Pour valider MRA, nous l'appliquons à un MLLM récent appelé LLaVA, et nommons le nouveau modèle LLaVA-HR. Nous menons des expériences approfondies sur 11 tâches de vision-langage (VL), qui montrent que LLaVA-HR surpasse les MLLMs existants sur 8 tâches VL, par exemple, +9,4% sur TextVQA. Plus important encore, l'entraînement et l'inférence de LLaVA-HR restent efficaces avec MRA, par exemple, 20 heures d'entraînement et une vitesse d'inférence 3 fois supérieure à celle de LLaVA-1.5. Les codes sources sont disponibles à l'adresse suivante : https://github.com/luogen1996/LLaVA-HR.
De la modération de contenu à la conservation de la faune, le nombre d'applications nécessitant des modèles capables de reconnaître des concepts visuels nuancés ou subjectifs est en pleine croissance. Traditionnellement, le développement de classificateurs pour de tels concepts requiert un effort manuel substantiel, mesuré en heures, jours, voire mois, pour identifier et annoter les données nécessaires à l'entraînement. Même avec les techniques récemment proposées de Modélisation Agile, qui permettent un amorçage rapide de classificateurs d'images, les utilisateurs doivent encore consacrer 30 minutes ou plus à un étiquetage de données monotone et répétitif pour entraîner un seul classificateur. En nous appuyant sur la théorie du Miser Cognitif de Fiske, nous proposons un nouveau cadre qui réduit l'effort manuel en remplaçant l'étiquetage humain par des interactions en langage naturel, diminuant ainsi l'effort total nécessaire pour définir un concept d'un ordre de grandeur : de l'étiquetage de 2 000 images à seulement 100 images plus quelques interactions en langage naturel. Notre cadre tire parti des avancées récentes dans les modèles de base, à la fois les grands modèles de langage et les modèles vision-langage, pour délimiter l'espace conceptuel à travers la conversation et en étiquetant automatiquement les points de données d'entraînement. Plus important encore, notre cadre élimine le besoin d'annotations issues du crowdsourcing. De plus, notre cadre produit finalement des modèles de classification légers qui peuvent être déployés dans des scénarios sensibles aux coûts. Sur 15 concepts subjectifs et à travers 2 ensembles de données publics de classification d'images, nos modèles entraînés surpassent la Modélisation Agile traditionnelle ainsi que les modèles de classification zero-shot de pointe comme ALIGN, CLIP, CuPL, et les grands modèles de question-réponse visuelle comme PaLI-X.
Le langage naturel et les images sont couramment utilisés comme représentations d'objectifs dans l'apprentissage par imitation conditionné par un objectif (IL). Cependant, le langage naturel peut être ambigu et les images peuvent être trop spécifiques. Dans ce travail, nous proposons les croquis dessinés à la main comme modalité pour la spécification d'objectifs dans l'apprentissage par imitation visuelle. Les croquis sont faciles à fournir par les utilisateurs à la volée, comme le langage, mais, à l'instar des images, ils peuvent également aider une politique en aval à être spatialement consciente et même aller au-delà des images pour lever les ambiguïtés entre les objets pertinents et non pertinents pour la tâche. Nous présentons RT-Sketch, une politique conditionnée par un objectif pour la manipulation qui prend en entrée un croquis dessiné à la main de la scène souhaitée et produit des actions en sortie. Nous entraînons RT-Sketch sur un ensemble de données de trajectoires appariées et de croquis d'objectifs générés de manière synthétique. Nous évaluons cette approche sur six compétences de manipulation impliquant des réarrangements d'objets sur une surface de travail articulée. Expérimentalement, nous constatons que RT-Sketch est capable de performer à un niveau similaire à celui des agents conditionnés par des images ou du langage dans des contextes simples, tout en atteignant une plus grande robustesse lorsque les objectifs langagiers sont ambigus ou que des distracteurs visuels sont présents. De plus, nous montrons que RT-Sketch a la capacité d'interpréter et d'agir sur des croquis avec des niveaux de spécificité variés, allant de dessins minimalistes à des dessins détaillés et colorés. Pour le matériel supplémentaire et les vidéos, veuillez consulter notre site web : http://rt-sketch.github.io.
Les récents développements dans le domaine des champs neuronaux ont apporté des capacités phénoménales à la génération de formes, mais ils manquent de propriétés cruciales, telles que le contrôle incrémental - une exigence fondamentale pour le travail artistique. Les maillages triangulaires, en revanche, sont la représentation privilégiée pour la plupart des tâches liées à la géométrie, offrant efficacité et contrôle intuitif, mais ne se prêtent pas à l'optimisation neuronale. Pour soutenir les tâches en aval, les travaux précédents proposent généralement une approche en deux étapes, où une forme est d'abord générée à l'aide de champs neuronaux, puis un maillage est extrait pour un traitement ultérieur. À la place, dans cet article, nous introduisons une approche hybride qui maintient à la fois un maillage et une représentation de champ de distance signée (SDF) de manière cohérente. En utilisant cette représentation, nous présentons MagicClay - un outil convivial pour les artistes permettant de sculpter des régions d'un maillage selon des instructions textuelles tout en laissant d'autres régions intactes. Notre cadre équilibre soigneusement et efficacement la cohérence entre les représentations et les régularisations à chaque étape de l'optimisation de la forme ; En nous appuyant sur la représentation du maillage, nous montrons comment rendre le SDF à des résolutions plus élevées et plus rapidement. De plus, nous utilisons des travaux récents en reconstruction de maillage différentiable pour allouer de manière adaptative les triangles dans le maillage là où cela est nécessaire, tel qu'indiqué par le SDF. À l'aide d'un prototype implémenté, nous démontrons une géométrie générée supérieure à l'état de l'art, ainsi qu'un contrôle cohérent inédit, permettant pour la première fois des modifications séquentielles basées sur des instructions textuelles sur le même maillage.