Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que les modèles de langage de grande taille (LLM) prennent une importance croissante dans divers domaines, plusieurs défis restent non résolus pour accélérer l'inférence des LLM : (1) Mise à jour synchronisée du softmax partiel. L'opération de softmax nécessite une mise à jour synchronisée entre chaque résultat partiel de softmax, entraînant une surcharge d'environ 20 % pour le calcul de l'attention dans les LLM. (2) Sous-utilisation du calcul de GEMM plat. La forme des matrices utilisées pour le GEMM dans l'inférence des LLM est plate, ce qui entraîne une sous-utilisation des calculs et une perte de performance de plus de 50 % après le remplissage par des zéros dans les conceptions précédentes. (3) Perte de performance due au flux de données statique. La performance des noyaux dans les LLM dépend de diverses caractéristiques des données d'entrée, des configurations matérielles, etc. Un flux de données unique et statique peut entraîner une perte de performance de 50,25 % pour les GEMM de formes différentes dans l'inférence des LLM. Nous présentons FlashDecoding++, un moteur d'inférence rapide pour les LLM prenant en charge les LLM grand public et les architectures matérielles. Pour relever ces défis, FlashDecoding++ propose de manière créative : (1) Softmax asynchronisé avec une valeur maximale unifiée. FlashDecoding++ introduit une technique de valeur maximale unifiée pour les différents calculs partiels de softmax afin d'éviter la synchronisation. (2) Optimisation du GEMM plat avec double tamponnage. FlashDecoding++ souligne que les GEMM plats de formes différentes rencontrent des goulots d'étranglement variés. Des techniques comme le double tamponnage sont alors introduites. (3) Flux de données heuristique avec adaptation aux ressources matérielles. FlashDecoding++ optimise heuristiquement le flux de données en utilisant différentes ressources matérielles en tenant compte de la dynamique des entrées. Grâce à la polyvalence des optimisations de FlashDecoding++, ce dernier peut atteindre des accélérations allant jusqu'à 4,86x et 2,18x sur les GPU NVIDIA et AMD par rapport aux implémentations de Hugging Face. FlashDecoding++ obtient également une accélération moyenne de 1,37x par rapport aux moteurs d'inférence LLM de pointe sur les LLM grand public.
Nous présentons RoboGen, un agent robotique génératif qui apprend automatiquement une diversité de compétences robotiques à grande échelle via une simulation générative. RoboGen exploite les avancées les plus récentes en matière de modèles de base et génératifs. Plutôt que d'utiliser ou d'adapter directement ces modèles pour produire des politiques ou des actions de bas niveau, nous préconisons un schéma génératif qui utilise ces modèles pour générer automatiquement des tâches, des scènes et des supervisions d'entraînement diversifiées, permettant ainsi de mettre à l'échelle l'apprentissage de compétences robotiques avec un minimum de supervision humaine. Notre approche dote un agent robotique d'un cycle auto-guidé de proposition-génération-apprentissage : l'agent propose d'abord des tâches et des compétences intéressantes à développer, puis génère des environnements de simulation correspondants en peuplant des objets et des ressources pertinents avec des configurations spatiales appropriées. Ensuite, l'agent décompose la tâche de haut niveau proposée en sous-tâches, sélectionne l'approche d'apprentissage optimale (apprentissage par renforcement, planification de mouvement ou optimisation de trajectoire), génère les supervisions d'entraînement nécessaires, puis apprend des politiques pour acquérir la compétence proposée. Notre travail tente d'extraire les connaissances étendues et polyvalentes intégrées dans les modèles à grande échelle et de les transférer au domaine de la robotique. Notre pipeline entièrement génératif peut être interrogé de manière répétée, produisant un flux ininterrompu de démonstrations de compétences associées à des tâches et des environnements variés.
Nous proposons une nouvelle approche pour la modélisation générative basée sur l'entraînement d'un réseau de neurones à être idempotent. Un opérateur idempotent est un opérateur qui peut être appliqué séquentiellement sans modifier le résultat au-delà de l'application initiale, c'est-à-dire f(f(z))=f(z). Le modèle proposé f est entraîné à mapper une distribution source (par exemple, un bruit gaussien) vers une distribution cible (par exemple, des images réalistes) en utilisant les objectifs suivants : (1) Les instances de la distribution cible doivent se mapper sur elles-mêmes, c'est-à-dire f(x)=x. Nous définissons la variété cible comme l'ensemble de toutes les instances que f mappe sur elles-mêmes. (2) Les instances qui forment la distribution source doivent être mappées sur la variété cible définie. Cela est réalisé en optimisant le terme d'idempotence, f(f(z))=f(z), qui encourage l'étendue de f(z) à se situer sur la variété cible. Sous des hypothèses idéales, un tel processus converge de manière prouvée vers la distribution cible. Cette stratégie aboutit à un modèle capable de générer une sortie en une seule étape, tout en maintenant un espace latent cohérent, et en permettant également des applications séquentielles pour un raffinement. De plus, nous constatons qu'en traitant des entrées provenant à la fois des distributions cible et source, le modèle projette habilement des données corrompues ou modifiées vers la variété cible. Ce travail constitue une première étape vers un « projecteur global » qui permet de projeter toute entrée dans une distribution de données cible.
Nous proposons Easy End-to-End Diffusion-based Text to Speech (E3 TTS), un modèle simple et efficace de synthèse vocale de bout en bout basé sur la diffusion. E3 TTS prend directement du texte brut en entrée et génère une forme d'onde audio à travers un processus de raffinement itératif. Contrairement à de nombreux travaux antérieurs, E3 TTS ne repose sur aucune représentation intermédiaire telle que des caractéristiques de spectrogramme ou des informations d'alignement. Au lieu de cela, E3 TTS modélise la structure temporelle de la forme d'onde via le processus de diffusion. Sans dépendre d'informations de conditionnement supplémentaires, E3 TTS peut supporter une structure latente flexible au sein de l'audio donné. Cela permet à E3 TTS de s'adapter facilement à des tâches zero-shot, telles que l'édition, sans nécessiter d'entraînement supplémentaire. Les expériences montrent qu'E3 TTS peut générer un audio de haute fidélité, approchant les performances d'un système de synthèse vocale neuronale de pointe. Des échantillons audio sont disponibles à l'adresse https://e3tts.github.io.
Le décalage distributionnel constitue un défi majeur dans le déploiement des modèles d'apprentissage automatique, car ceux-ci peuvent être mal adaptés aux données du monde réel. Ce phénomène est particulièrement visible dans la génération texte-audio, où les représentations encodées sont facilement compromises par des invites inédites, entraînant une dégradation de l'audio généré. L'ensemble limité de paires texte-audio reste insuffisant pour la génération audio conditionnelle dans des contextes réels, car les invites des utilisateurs sont souvent sous-spécifiées. En particulier, nous observons une dégradation constante de la qualité audio dans les échantillons générés à partir d'invites utilisateurs, par opposition aux invites du jeu d'entraînement. Pour remédier à cela, nous proposons un cadre d'édition contextuelle d'invites basé sur la récupération, qui exploite les légendes d'entraînement comme exemples démonstratifs pour revisiter les invites des utilisateurs. Nous montrons que ce cadre améliore la qualité audio sur l'ensemble des invites utilisateurs collectées, qui ont été éditées en référence aux légendes d'entraînement utilisées comme exemples.
Nous présentons un schéma de collecte de données évolutif, ascendant et intrinsèquement diversifié, qui peut être utilisé pour un raisonnement de haut niveau avec des horizons temporels longs et moyens, et qui offre un débit 2,2 fois supérieur par rapport aux méthodes traditionnelles de collecte descendante et séquentielle. Nous collectons des données réalistes en exécutant toutes les requêtes des utilisateurs dans l'ensemble de trois bâtiments de bureaux, en utilisant plusieurs incarnations de robots et d'humains. Avec ces données, nous montrons que les modèles entraînés sur toutes les incarnations surpassent ceux entraînés uniquement sur les données robotiques, même lorsqu'ils sont évalués uniquement sur des épisodes impliquant des robots. Nous constatons que, pour un budget de collecte fixe, il est avantageux de tirer parti de la collecte humaine, moins coûteuse, en complément de la collecte robotique. Nous publions un vaste ensemble de données hautement diversifié (29 520 instructions uniques) nommé RoboVQA, contenant 829 502 paires (vidéo, texte) pour des tâches de question-réponse visuelle centrées sur la robotique. Nous démontrons également comment l'évaluation d'expériences sur des robots réels avec un mécanisme d'intervention permet d'accomplir des tâches jusqu'à leur terme, rendant le système déployable avec une supervision humaine même s'il est imparfait, tout en fournissant une métrique de performance unique. Nous présentons un modèle unique conditionné par la vidéo, nommé RoboVQA-VideoCoCa, entraîné sur notre ensemble de données, capable d'exécuter une variété de tâches de raisonnement de haut niveau ancrées dans des environnements réalistes étendus, avec un taux d'intervention cognitive 46 % inférieur à celui du modèle de langage visuel (VLM) de référence en zero-shot, et capable de guider des robots réels à travers des tâches à long terme. L'écart de performance avec les modèles de pointe en zero-shot indique qu'il reste beaucoup de données ancrées à collecter pour un déploiement dans le monde réel, soulignant le besoin crucial d'approches de collecte de données évolutives. Enfin, nous montrons que les VLM basés sur la vidéo surpassent significativement les VLM basés sur une seule image, avec une réduction moyenne du taux d'erreur de 19 % sur toutes les tâches de question-réponse visuelle. Les données et les vidéos sont disponibles à l'adresse https://robovqa.github.io.