Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'essor des grands modèles de langage (LLMs) et du réglage par instructions a conduit à la tendance actuelle des grands modèles de langage et de vision réglés par instructions (LLVMs). Cette tendance implique soit la curation minutieuse de nombreux ensembles de données de réglage par instructions adaptés à des objectifs spécifiques, soit l'agrandissement des LLVMs pour gérer de vastes quantités de données de langage visuel (VL). Cependant, les LLVMs actuels ont négligé la compréhension détaillée et complète des scènes du monde réel disponible à partir de modèles spécialisés de vision par ordinateur (CV) dans des tâches de perception visuelle telles que la segmentation, la détection, la génération de graphes de scènes (SGG) et la reconnaissance optique de caractères (OCR). Au lieu de cela, les LLVMs existants reposent principalement sur la grande capacité et les capacités émergentes de leurs backbones LLM. Par conséquent, nous présentons un nouveau LLVM, Mixture of All Intelligence (MoAI), qui exploite les informations visuelles auxiliaires obtenues à partir des sorties de modèles externes de segmentation, détection, SGG et OCR. MoAI fonctionne grâce à deux nouveaux modules introduits : MoAI-Compressor et MoAI-Mixer. Après avoir verbalisé les sorties des modèles CV externes, le MoAI-Compressor les aligne et les condense pour utiliser efficacement les informations visuelles auxiliaires pertinentes pour les tâches VL. MoAI-Mixer mélange ensuite trois types d'intelligence : (1) les caractéristiques visuelles, (2) les caractéristiques auxiliaires des modèles CV externes, et (3) les caractéristiques linguistiques en utilisant le concept de Mixture of Experts. Grâce à cette intégration, MoAI surpasse significativement les LLVMs open-source et propriétaires dans de nombreuses tâches VL en zero-shot, en particulier celles liées à la compréhension des scènes du monde réel telles que l'existence d'objets, leurs positions, leurs relations et l'OCR, sans agrandir la taille du modèle ou curer des ensembles de données supplémentaires de réglage par instructions visuelles.
Nous présentons Chronos, un cadre simple mais efficace pour les modèles probabilistes de séries temporelles pré-entraînés. Chronos tokenise les valeurs des séries temporelles en utilisant une mise à l'échelle et une quantification dans un vocabulaire fixe, et entraîne des architectures de modèles de langage basées sur les transformateurs sur ces séries temporelles tokenisées via la perte d'entropie croisée. Nous avons pré-entraîné des modèles Chronos basés sur la famille T5 (allant de 20M à 710M de paramètres) sur une vaste collection de jeux de données publiquement disponibles, complétés par un jeu de données synthétiques que nous avons généré via des processus gaussiens pour améliorer la généralisation. Dans un benchmark complet comprenant 42 jeux de données, et incluant à la fois des modèles locaux classiques et des méthodes d'apprentissage profond, nous montrons que les modèles Chronos : (a) surpassent significativement d'autres méthodes sur les jeux de données qui faisaient partie du corpus d'entraînement ; et (b) ont une performance en zero-shot comparable et parfois supérieure sur de nouveaux jeux de données, par rapport aux méthodes qui ont été spécifiquement entraînées sur eux. Nos résultats démontrent que les modèles Chronos peuvent exploiter des données de séries temporelles provenant de domaines divers pour améliorer la précision en zero-shot sur des tâches de prévision inédites, positionnant ainsi les modèles pré-entraînés comme un outil viable pour simplifier grandement les pipelines de prévision.
Nous étudions des méthodes efficaces pour entraîner des modèles de langage de grande taille (LLMs) afin qu'ils acquièrent des compétences dans plusieurs domaines spécialisés, tels que le codage, le raisonnement mathématique et les connaissances générales. Notre méthode, appelée Branch-Train-MiX (BTX), commence avec un modèle de base, qui est divisé pour entraîner des experts de manière embarrassément parallèle, avec un débit élevé et des coûts de communication réduits. Une fois que les experts individuels sont entraînés de manière asynchrone, BTX regroupe leurs paramètres de propagation avant en tant qu'experts dans des couches de Mélange d'Experts (MoE) et moyenne les paramètres restants, suivis d'une étape de réglage fin MoE pour apprendre le routage au niveau des tokens. BTX généralise deux cas particuliers : la méthode Branch-Train-Merge, qui ne comprend pas l'étape de réglage fin MoE pour apprendre le routage, et le recyclage parcimonieux, qui omet l'étape d'entraînement asynchrone des experts. Par rapport aux approches alternatives, BTX offre le meilleur compromis entre précision et efficacité.
La création de jeux de données d'images-légendes de haute qualité annotés manuellement constitue un goulot d'étranglement majeur dans le développement des modèles visio-linguistiques (VLMs). Nous proposons une approche novatrice qui exploite les atouts des grands modèles de langage (LLMs) et des modèles de génération d'images pour créer des paires image-texte synthétiques, permettant un entraînement efficace et efficient des VLMs. Notre méthode consiste à pré-entraîner un modèle texte-à-image pour synthétiser des embeddings d'images à partir de légendes générées par un LLM. Ces paires synthétiques sont ensuite utilisées pour entraîner un VLM. Des expériences approfondies démontrent que le VLM entraîné avec des données synthétiques présente des performances comparables en génération de légendes d'images, tout en nécessitant une fraction des données utilisées par les modèles entraînés uniquement sur des annotations humaines. En particulier, nous surpassons la référence de 17 % grâce à l'augmentation avec un jeu de données synthétique. De plus, nous montrons que la synthèse dans l'espace des embeddings d'images est 25 % plus rapide que dans l'espace des pixels. Cette recherche introduit une technique prometteuse pour générer des jeux de données d'images à grande échelle et personnalisables, conduisant à une amélioration des performances des VLMs et à une applicabilité plus large dans divers domaines, le tout avec une meilleure efficacité des données et une utilisation optimisée des ressources.
La génération de mouvements humains constitue un enjeu majeur dans le domaine de la vision par ordinateur générative, tandis que la réalisation de séquences longues et efficaces reste un défi. Les récents progrès des modèles à espace d'états (SSMs), notamment Mamba, ont montré un potentiel considérable dans la modélisation de longues séquences grâce à une conception matérielle efficace, ce qui semble être une voie prometteuse pour construire un modèle de génération de mouvements. Cependant, l'adaptation des SSMs à la génération de mouvements rencontre des obstacles en raison de l'absence d'une architecture spécialement conçue pour modéliser les séquences de mouvements. Pour relever ces défis, nous proposons Motion Mamba, une approche simple et efficace qui présente le premier modèle de génération de mouvements utilisant des SSMs. Plus précisément, nous concevons un bloc Hiérarchique Temporel Mamba (HTM) pour traiter les données temporelles en assemblant un nombre variable de modules SSM isolés au sein d'une architecture symétrique en U-Net, visant à préserver la cohérence des mouvements entre les images. Nous concevons également un bloc Mamba Spatial Bidirectionnel (BSM) pour traiter bidirectionnellement les poses latentes, afin d'améliorer la précision de la génération de mouvements dans un cadre temporel. Notre méthode proposée atteint une amélioration allant jusqu'à 50 % sur l'indice FID et une vitesse jusqu'à 4 fois supérieure sur les ensembles de données HumanML3D et KIT-ML par rapport à la meilleure méthode basée sur la diffusion précédente, démontrant ainsi de solides capacités de modélisation de longues séquences de mouvements de haute qualité et de génération en temps réel de mouvements humains. Consultez le site du projet : https://steve-zeyu-zhang.github.io/MotionMamba/
Nous présentons DragAnything, qui utilise une représentation d'entité pour réaliser le contrôle du mouvement de n'importe quel objet dans la génération de vidéos contrôlables. Comparé aux méthodes existantes de contrôle du mouvement, DragAnything offre plusieurs avantages. Premièrement, l'approche basée sur les trajectoires est plus conviviale pour l'interaction, car l'acquisition d'autres signaux de guidage (par exemple, masques, cartes de profondeur) est laborieuse. Les utilisateurs n'ont qu'à tracer une ligne (trajectoire) lors de l'interaction. Deuxièmement, notre représentation d'entité sert d'embedding ouvert, capable de représenter n'importe quel objet, permettant ainsi le contrôle du mouvement pour des entités diverses, y compris l'arrière-plan. Enfin, notre représentation d'entité permet un contrôle simultané et distinct du mouvement pour plusieurs objets. Des expériences approfondies démontrent que DragAnything atteint des performances de pointe pour les métriques FVD, FID et les études utilisateurs, en particulier en termes de contrôle du mouvement des objets, où notre méthode surpasse les méthodes précédentes (par exemple, DragNUWA) de 26 % dans les votes humains.
Nous présentons FAX, une bibliothèque basée sur JAX conçue pour supporter des calculs distribués et fédérés à grande échelle, aussi bien dans les centres de données que dans les applications inter-appareils. FAX exploite les mécanismes de partitionnement de JAX pour cibler nativement les TPUs et les environnements d'exécution de pointe de JAX, y compris Pathways. FAX intègre des blocs de construction pour les calculs fédérés en tant que primitives dans JAX. Cela offre trois avantages clés. Premièrement, les calculs FAX peuvent être traduits en XLA HLO. Deuxièmement, FAX fournit une implémentation complète de la différenciation automatique fédérée, simplifiant grandement l'expression des calculs fédérés. Enfin, les calculs FAX peuvent être interprétés pour fonctionner avec les systèmes de calcul fédéré inter-appareils existants en production. Nous démontrons que FAX offre un cadre facilement programmable, performant et évolutif pour les calculs fédérés dans les centres de données. FAX est disponible à l'adresse suivante : https://github.com/google-research/google-research/tree/master/fax.
Un problème ouvert en manipulation mobile est de savoir comment représenter les objets et les scènes de manière unifiée, afin que les robots puissent l'utiliser à la fois pour naviguer dans l'environnement et manipuler des objets. Ce dernier nécessite de capturer une géométrie complexe tout en comprenant une sémantique fine, tandis que le premier implique de saisir la complexité inhérente à une échelle physique étendue. Dans ce travail, nous présentons GeFF (Generalizable Feature Fields), un champ de caractéristiques neural généralisable au niveau de la scène qui sert de représentation unifiée pour la navigation et la manipulation en temps réel. Pour ce faire, nous traitons la synthèse générative de nouvelles vues comme une tâche de pré-entraînement, puis alignons les riches a priori de scène résultants avec le langage naturel via une distillation de caractéristiques CLIP. Nous démontrons l'efficacité de cette approche en déployant GeFF sur un robot quadrupède équipé d'un manipulateur. Nous évaluons la capacité de GeFF à généraliser à des objets hors ensemble ainsi que son temps d'exécution, lors de la manipulation mobile à vocabulaire ouvert dans des scènes dynamiques.