Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles probabilistes de diffusion avec débruitage (DDPM) ont démontré des performances prometteuses pour la synthèse vocale. Cependant, un grand nombre d'étapes itératives sont nécessaires pour atteindre une qualité d'échantillon élevée, ce qui limite la vitesse d'inférence. Maintenir la qualité des échantillons tout en augmentant la vitesse d'échantillonnage est devenu une tâche complexe. Dans cet article, nous proposons une méthode de synthèse vocale basée sur un modèle de "Co"hérence "Mo"dèle, appelée CoMoSpeech, qui réalise la synthèse vocale en une seule étape de diffusion tout en atteignant une qualité audio élevée. La contrainte de cohérence est appliquée pour distiller un modèle de cohérence à partir d'un modèle enseignant basé sur la diffusion bien conçu, ce qui aboutit à des performances supérieures dans le CoMoSpeech distillé. Nos expériences montrent qu'en générant des enregistrements audio en une seule étape d'échantillonnage, le CoMoSpeech atteint une vitesse d'inférence plus de 150 fois supérieure au temps réel sur une seule GPU NVIDIA A100, ce qui est comparable à FastSpeech2, rendant ainsi la synthèse vocale basée sur la diffusion véritablement pratique. Par ailleurs, les évaluations objectives et subjectives sur la synthèse vocale et la synthèse de voix chantée montrent que les modèles enseignants proposés produisent la meilleure qualité audio, et que le CoMoSpeech basé sur l'échantillonnage en une étape atteint la meilleure vitesse d'inférence avec une qualité audio égale ou supérieure à celle des autres modèles de diffusion multi-étapes conventionnels. Des échantillons audio sont disponibles à l'adresse https://comospeech.github.io/.
Nous présentons Region-aware Open-vocabulary Vision Transformers (RO-ViT) - une méthode de pré-entraînement contrastif image-texte visant à combler l'écart entre le pré-entraînement au niveau de l'image et la détection d'objets à vocabulaire ouvert. Lors de la phase de pré-entraînement, nous proposons de recadrer et redimensionner aléatoirement des régions des embeddings positionnels au lieu d'utiliser les embeddings positionnels de l'image entière. Cela correspond mieux à l'utilisation des embeddings positionnels au niveau des régions lors de la phase de fine-tuning pour la détection. De plus, nous remplaçons la perte d'entropie croisée softmax couramment utilisée dans l'apprentissage contrastif par une perte focale, afin de mieux apprendre les exemples informatifs mais difficiles. Enfin, nous exploitons les avancées récentes en matière de propositions d'objets nouveaux pour améliorer le fine-tuning de la détection à vocabulaire ouvert. Nous évaluons notre modèle complet sur les benchmarks de détection à vocabulaire ouvert LVIS et COCO ainsi que sur le transfert zero-shot. RO-ViT atteint un état de l'art de 32,1 AP_r sur LVIS, surpassant la meilleure approche existante de +5,8 points, en plus d'obtenir des performances compétitives en détection par transfert zero-shot. Étonnamment, RO-ViT améliore également la représentation au niveau de l'image et atteint l'état de l'art sur 9 des 12 métriques des benchmarks de recherche image-texte COCO et Flickr, surpassant des approches concurrentes utilisant des modèles plus grands.
Les modèles de langage à usage général capables de résoudre diverses tâches dans le domaine du langage ont émergé grâce au pipeline de pré-entraînement et de réglage par instructions. Cependant, la construction de modèles vision-langage à usage général est plus complexe en raison de la divergence accrue des tâches introduite par l'ajout d'une entrée visuelle. Bien que le pré-entraînement vision-langage ait été largement étudié, le réglage par instructions vision-langage reste relativement peu exploré. Dans cet article, nous menons une étude systématique et approfondie sur le réglage par instructions vision-langage en nous appuyant sur les modèles pré-entraînés BLIP-2. Nous rassemblons une grande variété de 26 ensembles de données publics, les transformons en format de réglage par instructions et les catégorisons en deux groupes pour le réglage par instructions sur données connues et l'évaluation en zéro-shot sur données inconnues. De plus, nous introduisons l'extraction de caractéristiques visuelles sensibles aux instructions, une méthode cruciale qui permet au modèle d'extraire des caractéristiques informatives adaptées à l'instruction donnée. Les modèles InstructBLIP qui en résultent atteignent des performances de pointe en zéro-shot sur les 13 ensembles de données inconnus, surpassant largement BLIP-2 et le modèle plus grand Flamingo. Nos modèles obtiennent également des performances de pointe lorsqu'ils sont affinés sur des tâches en aval individuelles (par exemple, 90,7 % de précision sur ScienceQA IMG). Par ailleurs, nous démontrons qualitativement les avantages d'InstructBLIP par rapport aux modèles multimodaux concurrents. Tous les modèles InstructBLIP ont été rendus open-source à l'adresse suivante : https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
Nous présentons une nouvelle approche pour exploiter les connaissances préalables encapsulées dans des modèles de diffusion texte-image pré-entraînés pour la super-résolution (SR) aveugle. Plus précisément, en utilisant notre encodeur temporel, nous pouvons obtenir des résultats de restauration prometteurs sans modifier le modèle de synthèse pré-entraîné, préservant ainsi le prior génératif et minimisant les coûts d'entraînement. Pour remédier à la perte de fidélité causée par la stochasticité inhérente des modèles de diffusion, nous introduisons un module d'enveloppement de caractéristiques contrôlable qui permet aux utilisateurs d'équilibrer qualité et fidélité en ajustant simplement une valeur scalaire pendant le processus d'inférence. De plus, nous développons une stratégie d'échantillonnage par agrégation progressive pour surmonter les contraintes de taille fixe des modèles de diffusion pré-entraînés, permettant une adaptation à des résolutions de toute taille. Une évaluation approfondie de notre méthode à l'aide de benchmarks synthétiques et réels démontre sa supériorité par rapport aux approches actuelles de pointe.
Les transformeurs visuels ont montré un grand succès grâce à leurs capacités modélisatrices élevées. Cependant, leurs performances remarquables s'accompagnent de coûts de calcul importants, ce qui les rend inadaptés aux applications en temps réel. Dans cet article, nous proposons une famille de transformeurs visuels à haute vitesse nommée EfficientViT. Nous constatons que la vitesse des modèles de transformeurs existants est généralement limitée par des opérations inefficaces en termes de mémoire, en particulier le remodelage des tenseurs et les fonctions élément par élément dans le MHSA. Par conséquent, nous concevons un nouveau bloc de construction avec une disposition en sandwich, c'est-à-dire en utilisant un seul MHSA lié à la mémoire entre des couches FFN efficaces, ce qui améliore l'efficacité de la mémoire tout en renforçant la communication entre les canaux. De plus, nous découvrons que les cartes d'attention partagent une grande similarité entre les têtes, ce qui entraîne une redondance computationnelle. Pour résoudre ce problème, nous présentons un module d'attention en groupe en cascade qui alimente les têtes d'attention avec différentes partitions de la caractéristique complète, ce qui non seulement réduit les coûts de calcul mais améliore également la diversité de l'attention. Des expériences approfondies démontrent qu'EfficientViT surpasse les modèles efficaces existants, offrant un bon compromis entre vitesse et précision. Par exemple, notre EfficientViT-M5 dépasse MobileNetV3-Large de 1,9 % en précision, tout en obtenant un débit 40,4 % et 45,2 % plus élevé sur les GPU Nvidia V100 et CPU Intel Xeon, respectivement. Comparé au récent modèle efficace MobileViT-XXS, EfficientViT-M2 atteint une précision supérieure de 1,8 %, tout en étant 5,8x/3,7x plus rapide sur le GPU/CPU, et 7,4x plus rapide lorsqu'il est converti au format ONNX. Le code et les modèles sont disponibles à l'adresse https://github.com/microsoft/Cream/tree/main/EfficientViT.
CLIP, le premier modèle de base à connecter images et texte, a permis de nombreuses avancées récentes en vision par ordinateur. Cependant, son coût d'entraînement est prohibitivement élevé, constituant un obstacle majeur à son exploration généralisée. Dans cet article, nous présentons une découverte surprenante : il existe une loi d'échelle inverse pour l'entraînement de CLIP, selon laquelle plus les encodeurs d'images/texte utilisés sont grands, plus la longueur de séquence des tokens d'images/texte pouvant être appliquée lors de l'entraînement est courte. De plus, nous démontrons que la stratégie de réduction de la longueur des tokens d'images/texte joue un rôle crucial dans la qualité de cette loi d'échelle. Grâce à cette découverte, nous avons pu entraîner CLIP avec succès en utilisant uniquement des ressources académiques. Par exemple, sur un serveur équipé de huit GPU A100, nos modèles CLIP atteignent des précisions top-1 ImageNet en zero-shot de 63,2 % en ~2 jours, 67,8 % en ~3 jours et 69,3 % en ~4 jours. En réduisant la barrière computationnelle associée à CLIP, nous espérons inspirer davantage de recherches dans ce domaine, en particulier de la part des universitaires. Notre code est disponible à l'adresse suivante : https://github.com/UCSC-VLAA/CLIPA.
Les grands modèles de langage (LLMs) ont démontré des performances étonnamment bonnes en traduction neuronale multilingue (MNMT), même lorsqu'ils sont entraînés sans données parallèles. Cependant, malgré la quantité gigantesque de données d'entraînement, ils éprouvent encore des difficultés à traduire des mots rares, en particulier pour les langues à faibles ressources. Pire encore, il est généralement irréaliste de récupérer des démonstrations pertinentes pour l'apprentissage en contexte avec des langues à faibles ressources sur les LLMs, ce qui limite l'utilisation pratique des LLMs pour la traduction — comment devrions-nous atténuer ce problème ? À cette fin, nous présentons une nouvelle méthode, CoD, qui enrichit les LLMs avec des connaissances préalables en utilisant des chaînes de dictionnaires multilingues pour un sous-ensemble de mots d'entrée afin de susciter des capacités de traduction chez les LLMs. Des expériences approfondies indiquent que l'enrichissement de ChatGPT avec CoD suscite des gains importants, allant jusqu'à 13 points ChrF++ pour la MNMT (de 3,08 à 42,63 pour l'anglais vers le serbe écrit en alphabet cyrillique) sur l'ensemble complet de devtest de FLORES-200. Nous démontrons en outre l'importance de chaîner les dictionnaires multilingues, ainsi que la supériorité de CoD par rapport à la démonstration en few-shot pour les langues à faibles ressources.
La capacité à juger si une légende décrit correctement une image est un aspect crucial de la compréhension vision-langage. Cependant, les modèles de pointe interprètent souvent de manière erronée la justesse des détails fins, ce qui entraîne des erreurs dans les sorties, telles que la génération d'objets hallucinés dans les légendes ou un raisonnement compositionnel médiocre. Dans ce travail, nous explorons la Confiance au Niveau des Tokens (Token-Level Confidence, ou TLC) comme une méthode simple mais étonnamment efficace pour évaluer la justesse des légendes. Plus précisément, nous affinons un modèle vision-langage sur la génération de légendes d'images, nous fournissons une image et une légende proposée au modèle, et nous agrégeons soit des confiances algébriques, soit des confiances apprises au niveau des mots ou des séquences pour estimer la cohérence image-légende. Par rapport aux scores au niveau des séquences issus de modèles pré-entraînés, la TLC avec des mesures de confiance algébriques permet une amélioration relative de 10 % en précision sur la compréhension des verbes dans SVO-Probes et surpasse les performances antérieures de l'état de l'art en scores d'images et de groupes pour le raisonnement compositionnel dans Winoground, avec des améliorations relatives de 37 % et 9 %, respectivement. Lorsque des données d'entraînement sont disponibles, un estimateur de confiance appris offre des performances encore améliorées, réduisant les taux d'hallucination d'objets dans MS COCO Captions de 30 % par rapport au modèle original et établissant un nouvel état de l'art.
Les grands modèles de langage (LLM) démontrent une capacité multilingue impressionnante, mais leurs performances varient considérablement selon les langues. Dans ce travail, nous introduisons une méthode simple mais efficace, appelée incitation à la pensée translinguale (XLT), pour améliorer systématiquement la capacité multilingue des LLM. Plus précisément, XLT est un modèle d'incitation générique qui stimule les compétences de raisonnement translingual et logique afin d'améliorer les performances des tâches à travers les langues. Nous menons des évaluations approfondies sur 7 benchmarks typiques liés aux tâches de raisonnement, de compréhension et de génération, couvrant à la fois les langues à ressources élevées et celles à ressources limitées. Les résultats expérimentaux montrent que XLT améliore non seulement de manière remarquable les performances de diverses tâches multilingues, mais réduit également de manière significative l'écart entre la performance moyenne et la meilleure performance de chaque tâche dans différentes langues. Notamment, XLT apporte une amélioration moyenne de plus de 10 points dans les tâches de raisonnement arithmétique et de réponse à des questions en domaine ouvert.
La génération de musique de haute qualité qui complète le contenu visuel d'une vidéo est une tâche complexe. La plupart des systèmes existants de génération de musique conditionnée par le visuel produisent des données musicales symboliques, telles que des fichiers MIDI, plutôt que des formes d'onde audio brutes. Étant donné la disponibilité limitée de données musicales symboliques, ces méthodes ne peuvent générer de la musique que pour quelques instruments ou pour des types spécifiques de contenu visuel. Dans cet article, nous proposons une nouvelle approche appelée V2Meow, capable de générer de la musique audio de haute qualité qui s'aligne bien avec la sémantique visuelle d'une large gamme de types de vidéos. Plus précisément, le système de génération de musique proposé est un modèle autorégressif multi-étapes, entraîné avec un grand nombre (de l'ordre de 100 000) de clips audio musicaux associés à des images vidéo, extraits de vidéos musicales disponibles en ligne, sans aucune donnée musicale symbolique parallèle. V2Meow est capable de synthétiser des formes d'onde audio musicales haute fidélité uniquement conditionnées par des caractéristiques visuelles pré-entraînées extraites d'un clip vidéo silencieux arbitraire, et il permet également un contrôle de haut niveau sur le style musical des exemples générés en supportant des invites textuelles en plus du conditionnement par les images vidéo. Grâce à des évaluations qualitatives et quantitatives, nous démontrons que notre modèle surpasse plusieurs systèmes de génération de musique existants en termes de correspondance visuel-audio et de qualité audio.
L'apprentissage continu (Lifelong Learning, LL) est une capacité essentielle pour les modèles de traitement du langage naturel (NLP) afin d'apprendre de nouvelles tâches de manière continue. Les approches basées sur l'architecture sont reconnues comme des implémentations efficaces pour les modèles LL. Cependant, il est complexe d'étendre les approches précédentes aux scénarios d'apprentissage continu incrémental par domaine, car elles nécessitent soit l'accès aux identités des tâches lors de la phase de test, soit ne parviennent pas à gérer les échantillons provenant de tâches inconnues. Dans cet article, nous proposons Diana : un modèle d'apprentissage continu basé sur une architecture dynamique qui vise à apprendre une séquence de tâches à l'aide d'un modèle de langage enrichi par des prompts. Quatre types de prompts organisés hiérarchiquement sont utilisés dans Diana pour capturer des connaissances à différents niveaux de granularité. Plus précisément, nous dédions des prompts au niveau des tâches pour capturer les connaissances spécifiques à chaque tâche, afin de maintenir des performances élevées en LL, et des prompts au niveau des instances pour apprendre les connaissances partagées entre les échantillons d'entrée, afin d'améliorer la performance de généralisation du modèle. De plus, nous attribuons des prompts distincts pour modéliser explicitement les tâches inconnues et introduisons un ensemble de vecteurs clés de prompts pour faciliter le partage des connaissances entre les tâches. Des expériences approfondies démontrent que Diana surpasse les modèles LL de pointe, en particulier dans la gestion des tâches inconnues. Nous mettons à disposition le code et les données à l'adresse suivante : https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités exceptionnelles à généraliser à de nouvelles tâches de manière zero-shot ou few-shot. Cependant, la mesure dans laquelle les LLMs peuvent comprendre les préférences des utilisateurs en fonction de leur comportement antérieur reste une question de recherche émergente et encore peu claire. Traditionnellement, le filtrage collaboratif (CF) a été la méthode la plus efficace pour ces tâches, reposant principalement sur un volume important de données de notation. En revanche, les LLMs nécessitent généralement beaucoup moins de données tout en conservant une connaissance exhaustive du monde pour chaque élément, comme les films ou les produits. Dans cet article, nous menons un examen approfondi à la fois du CF et des LLMs dans le cadre de la tâche classique de prédiction des notations des utilisateurs, qui consiste à prédire la notation d'un utilisateur pour un élément candidat en fonction de ses notations passées. Nous étudions divers LLMs de différentes tailles, allant de 250 millions à 540 milliards de paramètres, et évaluons leurs performances dans des scénarios zero-shot, few-shot et de fine-tuning. Nous effectuons une analyse approfondie pour comparer les LLMs aux méthodes de CF robustes, et constatons que les LLMs en mode zero-shot sont à la traîne par rapport aux modèles de recommandation traditionnels qui ont accès aux données d'interaction des utilisateurs, ce qui souligne l'importance des données d'interaction utilisateur. Cependant, grâce au fine-tuning, les LLMs atteignent des performances comparables, voire supérieures, avec seulement une petite fraction des données d'entraînement, démontrant ainsi leur potentiel en termes d'efficacité des données.
Nous présentons un contrôleur humanoïde basé sur la physique qui permet une imitation de mouvement de haute fidélité et un comportement tolérant aux défauts en présence d'entrées bruitées (par exemple, des estimations de pose à partir de vidéo ou générées à partir de langage) et de chutes inattendues. Notre contrôleur est capable de gérer jusqu'à dix mille clips de mouvement sans utiliser de forces stabilisatrices externes et apprend à se rétablir naturellement après un état d'échec. Étant donné un mouvement de référence, notre contrôleur peut contrôler de manière continue des avatars simulés sans nécessiter de réinitialisations. Au cœur de notre approche, nous proposons la politique de contrôle multiplicative progressive (PMCP), qui alloue dynamiquement de nouvelles capacités réseau pour apprendre des séquences de mouvements de plus en plus complexes. La PMCP permet une mise à l'échelle efficace pour l'apprentissage à partir de bases de données de mouvements à grande échelle et l'ajout de nouvelles tâches, telles que la récupération après un état d'échec, sans oubli catastrophique. Nous démontrons l'efficacité de notre contrôleur en l'utilisant pour imiter des poses bruitées provenant d'estimateurs de pose basés sur la vidéo et de générateurs de mouvements basés sur le langage dans un cas d'utilisation en temps réel et en direct impliquant plusieurs avatars.
Les grands modèles de langage comme ChatGPT ont récemment démontré des capacités impressionnantes en compréhension et génération du langage naturel, permettant diverses applications telles que la traduction, la rédaction d'essais et les conversations informelles. Cependant, il existe une préoccupation quant à leur possible utilisation à des fins malveillantes, comme la fraude ou les attaques par déni de service. Il est donc crucial de développer des méthodes pour détecter si l'interlocuteur dans une conversation est un bot ou un humain. Dans cet article, nous proposons un cadre nommé FLAIR (Finding Large language model Authenticity via a single Inquiry and Response) pour détecter les bots conversationnels en ligne. Plus précisément, nous ciblons un scénario à question unique qui peut efficacement différencier les utilisateurs humains des bots. Les questions sont divisées en deux catégories : celles qui sont faciles pour les humains mais difficiles pour les bots (par exemple, le comptage, la substitution, le positionnement, le filtrage de bruit et l'art ASCII), et celles qui sont faciles pour les bots mais difficiles pour les humains (par exemple, la mémorisation et le calcul). Notre approche montre les différentes forces de ces questions en termes d'efficacité, offrant une nouvelle manière pour les fournisseurs de services en ligne de se protéger contre les activités néfastes et de s'assurer qu'ils servent de vrais utilisateurs. Nous avons ouvert notre jeu de données sur https://github.com/hongwang600/FLAIR et accueillons les contributions de la communauté pour enrichir ces ensembles de données de détection.
Les embeddings de texte sont des caractéristiques utiles pour plusieurs applications de TAL, telles que la similarité de phrases, le clustering de texte et la recherche sémantique. Dans cet article, nous présentons une adaptation de faible rang avec un objectif contrastif sur un modèle Siamese-BLOOM 8 bits, un grand modèle de langage multilingue optimisé pour produire des embeddings de mots sémantiquement significatifs. L'innovation est triple. Premièrement, nous convertissons les poids de BLOOM en valeurs 8 bits. Deuxièmement, nous affinons BLOOM avec un adaptateur évolutif (LoRA) et un optimiseur Adam 8 bits pour la classification de similarité de phrases. Troisièmement, nous appliquons une architecture Siamese sur le modèle BLOOM avec un objectif contrastif pour atténuer la pénurie de données étiquetées multilingues. Les résultats expérimentaux montrent que la qualité des embeddings appris par LACoS-BLOOM est proportionnelle au nombre de paramètres du modèle et à la quantité de données d'entraînement non étiquetées. Grâce à la conception efficace en paramètres de l'affinage, nous pouvons exécuter BLOOM avec 7,1 milliards de paramètres de bout en bout sur une seule machine GPU avec 32 Go de mémoire. Par rapport à la solution précédente Sentence-BERT, nous obtenons une amélioration significative sur les tâches STS en anglais et multilingues.