Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans ce travail, nous proposons Retentive Network (RetNet) comme architecture de base pour les grands modèles de langage, permettant simultanément un parallélisme d'entraînement, une inférence à faible coût et de bonnes performances. Nous dérivons théoriquement le lien entre la récurrence et l'attention. Ensuite, nous proposons le mécanisme de rétention pour la modélisation de séquences, qui prend en charge trois paradigmes de calcul, à savoir parallèle, récurrent et récurrent par morceaux. Plus précisément, la représentation parallèle permet un entraînement parallèle. La représentation récurrente permet une inférence à faible coût en O(1), ce qui améliore le débit de décodage, la latence et l'utilisation de la mémoire GPU sans sacrifier les performances. La représentation récurrente par morceaux facilite une modélisation efficace des longues séquences avec une complexité linéaire, où chaque morceau est encodé en parallèle tout en résumant récursivement les morceaux. Les résultats expérimentaux sur la modélisation du langage montrent que RetNet obtient des résultats de mise à l'échelle favorables, un entraînement parallèle, un déploiement à faible coût et une inférence efficace. Ces propriétés intrigantes font de RetNet un successeur prometteur du Transformer pour les grands modèles de langage. Le code sera disponible à l'adresse https://aka.ms/retnet.
Les tableaux sont omniprésents dans les bases de données du monde réel, nécessitant un temps et un effort considérables pour les humains afin de les analyser et de les manipuler. Les avancées des grands modèles de langage (LLMs) ont rendu possible l'interaction avec les tableaux en utilisant des entrées en langage naturel, rapprochant cette capacité de la réalité. Dans cet article, nous présentons TableGPT, un framework unifié et affiné qui permet aux LLMs de comprendre et d'opérer sur des tableaux en utilisant des commandes fonctionnelles externes. Il introduit la capacité d'interagir de manière transparente avec les tableaux, permettant une large gamme de fonctionnalités telles que la réponse aux questions, la manipulation des données (par exemple, les opérations d'insertion, de suppression, de requête et de modification), la visualisation des données, la génération de rapports d'analyse et la prédiction automatisée. TableGPT vise à offrir commodité et accessibilité aux utilisateurs en leur permettant d'exploiter facilement les données tabulaires. Au cœur de TableGPT se trouve le concept novateur de représentations tabulaires globales, qui permet aux LLMs d'acquérir une compréhension complète de l'ensemble du tableau au-delà des méta-informations. En entraînant conjointement les LLMs sur les modalités de tableau et de texte, TableGPT atteint une compréhension approfondie des données tabulaires et la capacité d'effectuer des opérations complexes sur les tableaux via des instructions en chaîne de commandes. Il est important de noter que TableGPT offre l'avantage d'être un système autonome plutôt que de dépendre d'interfaces API externes. De plus, il prend en charge un flux de traitement de données efficace, le rejet de requêtes (lorsque cela est approprié) et le déploiement privé, permettant un affinage plus rapide des données de domaine et garantissant la confidentialité des données, ce qui améliore l'adaptabilité du framework à des cas d'utilisation spécifiques.
Les LLM (modèles de langage de grande taille) ont démontré des capacités remarquables pour interagir avec les humains par le biais du langage, en particulier grâce à l'utilisation de données d'instruction. Les avancées récentes dans les LLM, telles que MiniGPT-4, LLaVA et X-LLM, élargissent encore leurs capacités en intégrant des entrées multimodales, incluant des images, des vidéos et de la parole. Bien qu'ils soient efficaces pour générer une compréhension précise et détaillée du signal modal donné, ces LLM renoncent à la capacité d'ancrer des parties spécifiques des entrées, ne construisant ainsi qu'une cartographie grossière. Cependant, une correspondance explicite et informative entre le texte et les autres modalités améliorera non seulement l'expérience utilisateur, mais contribuera également à élargir les scénarios d'application des LLM multimodaux. Par conséquent, nous proposons BuboGPT, un LLM multimodal avec ancrage visuel capable d'effectuer une interaction intermodale entre la vision, l'audio et le langage, offrant une compréhension fine des objets visuels et des autres modalités données. En conséquence, BuboGPT est capable de pointer l'emplacement spécifique d'un objet dans l'image lorsqu'il génère une réponse ou une description pour cet objet. Nos contributions sont doubles : 1) Un module d'ancrage visuel prêt à l'emploi basé sur SAM qui extrait les entités dans une phrase et trouve les masques correspondants dans l'image. 2) Un schéma d'entraînement en deux étapes et un jeu de données d'instruction pour doter le modèle d'une compréhension conjointe texte-image-audio. Nos expériences montrent que BuboGPT atteint une compréhension multimodale et des capacités d'ancrage visuel impressionnantes lors de l'interaction avec l'humain. Il performe de manière constante lorsqu'il est alimenté par des combinaisons de modalités arbitraires (alignées ou non alignées). Notre code, modèle et jeu de données sont disponibles à l'adresse https://bubo-gpt.github.io.
Les grands modèles de langage (LLMs) acquièrent la capacité à suivre des instructions grâce au fine-tuning sur instructions (IFT) à partir de données supervisées instruction/réponse. Cependant, les ensembles de données IFT couramment utilisés (par exemple, les 52k données d'Alpaca) contiennent étonnamment de nombreux exemples de faible qualité avec des réponses incorrectes ou non pertinentes, ce qui est trompeur et préjudiciable à l'IFT. Dans cet article, nous proposons une stratégie simple et efficace de sélection des données qui identifie et supprime automatiquement les données de faible qualité en utilisant un LLM puissant (par exemple, ChatGPT). À cette fin, nous introduisons AlpaGasus, qui est fine-tuné sur seulement 9k données de haute qualité filtrées à partir des 52k données d'Alpaca. AlpaGasus surpasse significativement l'Alpaca original, tel qu'évalué par GPT-4 sur plusieurs ensembles de test, et sa variante 13B atteint plus de 90 % des performances de son LLM enseignant (c'est-à-dire Text-Davinci-003) sur les tâches de test. Il offre également un entraînement 5,7 fois plus rapide, réduisant le temps d'entraînement pour une variante 7B de 80 minutes (pour Alpaca) à 14 minutes. Nous appliquons l'IFT pour le même nombre d'époques qu'Alpaca(7B) mais sur moins de données, en utilisant 4x NVIDIA A100 (80GB) GPU et en suivant les paramètres et hyperparamètres originaux d'Alpaca. Globalement, AlpaGasus démontre un nouveau paradigme IFT centré sur les données qui peut être généralement appliqué aux données de fine-tuning sur instructions, conduisant à un entraînement plus rapide et à de meilleurs modèles de suivi d'instructions. Notre page de projet est disponible à l'adresse suivante : https://lichang-chen.github.io/AlpaGasus/.
Alors que de nombreux modèles d'apprentissage non supervisé se concentrent sur une seule famille de tâches, qu'elles soient génératives ou discriminatives, nous explorons la possibilité d'un apprenant de représentation unifié : un modèle qui utilise une seule étape de pré-entraînement pour aborder simultanément les deux familles de tâches. Nous identifions les modèles de diffusion comme un candidat de premier choix. Les modèles de diffusion ont gagné en notoriété en tant que méthode de pointe pour la génération d'images, le débruitage, l'inpainting, la super-résolution, la manipulation, etc. Ces modèles impliquent l'entraînement d'un U-Net pour prédire et supprimer itérativement le bruit, et le modèle résultant peut synthétiser des images nouvelles, diversifiées et de haute fidélité. L'architecture U-Net, en tant qu'architecture basée sur des convolutions, génère un ensemble diversifié de représentations de caractéristiques sous forme de cartes de caractéristiques intermédiaires. Nous présentons nos découvertes selon lesquelles ces embeddings sont utiles au-delà de la tâche de prédiction du bruit, car ils contiennent des informations discriminatives et peuvent également être exploités pour la classification. Nous explorons des méthodes optimales pour extraire et utiliser ces embeddings pour des tâches de classification, démontrant des résultats prometteurs sur la tâche de classification ImageNet. Nous constatons qu'avec une sélection et un regroupement minutieux des caractéristiques, les modèles de diffusion surpassent des méthodes génératives-discriminatives comparables telles que BigBiGAN pour les tâches de classification. Nous étudions les modèles de diffusion dans le cadre de l'apprentissage par transfert, en examinant leurs performances sur plusieurs ensembles de données de classification visuelle fine. Nous comparons ces embeddings à ceux générés par des architectures et des pré-entraînements concurrents pour les tâches de classification.
Les méthodes de prédiction du mouvement dans les vidéos estiment soit conjointement le mouvement instantané de tous les points dans une image vidéo donnée en utilisant le flux optique, soit suivent indépendamment le mouvement de points individuels tout au long de la vidéo. Ce dernier cas est vrai même pour les méthodes puissantes basées sur l'apprentissage profond qui peuvent suivre des points à travers des occlusions. Suivre les points individuellement ignore la forte corrélation qui peut exister entre les points, par exemple parce qu'ils appartiennent au même objet physique, ce qui peut nuire aux performances. Dans cet article, nous proposons donc CoTracker, une architecture qui suit conjointement plusieurs points tout au long d'une vidéo entière. Cette architecture combine plusieurs idées issues de la littérature sur le flux optique et le suivi dans une conception nouvelle, flexible et puissante. Elle repose sur un réseau de type transformer qui modélise la corrélation entre différents points dans le temps via des couches d'attention spécialisées. Le transformer met à jour itérativement une estimation de plusieurs trajectoires. Il peut être appliqué de manière glissante à des vidéos très longues, pour lesquelles nous concevons une boucle d'entraînement déroulée. Il peut suivre conjointement d'un à plusieurs points et permet d'ajouter de nouveaux points à suivre à tout moment. Le résultat est un algorithme de suivi flexible et puissant qui surpasse les méthodes de pointe dans presque tous les benchmarks.
Nous présentons SEED, un tokenizer d'images élaboré qui confère aux grands modèles de langage (LLMs) la capacité émergente de VOIR et de DESSINER simultanément. Les recherches sur les tokenizers d'images avaient précédemment atteint une impasse, car les frameworks utilisant des tokens visuels quantifiés ont perdu en popularité en raison de performances et de convergences médiocres dans la compréhension multimodale (comparé à BLIP-2, etc.) ou dans la génération (comparé à Stable Diffusion, etc.). Malgré ces limitations, nous restons convaincus de leur capacité naturelle à unifier les représentations visuelles et textuelles, facilitant un entraînement multimodal scalable avec la recette originale des LLMs. Dans cette étude, nous identifions deux principes cruciaux pour l'architecture et l'entraînement de SEED qui facilitent efficacement l'alignement ultérieur avec les LLMs. (1) Les tokens d'images doivent être indépendants des positions physiques 2D des patches et être produits avec une dépendance causale 1D, présentant une interdépendance intrinsèque qui s'aligne avec le mécanisme de prédiction autoregressive de gauche à droite dans les LLMs. (2) Les tokens d'images doivent capturer des sémantiques de haut niveau cohérentes avec le degré d'abstraction sémantique des mots, et être optimisés à la fois pour la discriminativité et la reconstruction pendant la phase d'entraînement du tokenizer. En conséquence, le LLM prêt à l'emploi est capable de réaliser à la fois la génération d'image-à-texte et de texte-à-image en intégrant notre SEED grâce à un réglage efficace via LoRA. Un pré-entraînement multimodal complet et un réglage par instruction, qui pourraient donner de meilleurs résultats, sont réservés pour de futures investigations. Cette version de SEED a été entraînée en 5,7 jours en utilisant seulement 64 GPU V100 et 5 millions de paires image-texte disponibles publiquement. Notre étude préliminaire met en avant le grand potentiel des tokens visuels discrets dans les LLMs multimodaux polyvalents et l'importance des tokenizers d'images appropriés dans des recherches plus vastes.
Nous présentons Interactive Neural Video Editing (INVE), une solution d'édition vidéo en temps réel, capable d'assister le processus d'édition en propageant de manière cohérente des modifications éparses sur l'ensemble d'un clip vidéo. Notre méthode s'inspire des travaux récents sur le Layered Neural Atlas (LNA). Cependant, le LNA présente deux inconvénients majeurs : (1) la méthode est trop lente pour une édition interactive, et (2) elle offre un support insuffisant pour certains cas d'utilisation, notamment l'édition directe des images et le suivi rigide des textures. Pour résoudre ces problèmes, nous exploitons et adoptons des architectures de réseau hautement efficaces, alimentées par un encodage par grilles de hachage, afin d'améliorer considérablement la vitesse de traitement. De plus, nous apprenons des fonctions bidirectionnelles entre l'image et l'atlas et introduisons l'édition vectorisée, ce qui permet ensemble une bien plus grande variété de modifications, à la fois dans l'atlas et directement dans les images. Par rapport au LNA, notre INVE réduit le temps d'apprentissage et d'inférence d'un facteur 5 et prend en charge diverses opérations d'édition vidéo que le LNA ne peut pas réaliser. Nous démontrons la supériorité de l'INVE par rapport au LNA dans l'édition vidéo interactive à travers une analyse quantitative et qualitative approfondie, mettant en avant ses nombreux avantages et ses performances améliorées. Pour voir les résultats vidéo, veuillez consulter https://gabriel-huang.github.io/inve/.
Nous cherchons à déterminer si l'apprentissage de bout en bout du raisonnement visuel peut être réalisé avec des réseaux de neurones à usage général, grâce à un prétraitement visuel. Un résultat positif remettrait en question l'idée commune selon laquelle une abstraction visuelle explicite (par exemple, la détection d'objets) est essentielle pour la généralisation compositionnelle dans le raisonnement visuel, et confirmerait la faisabilité d'un réseau de neurones "généraliste" capable de résoudre des tâches de reconnaissance et de raisonnement visuels. Nous proposons un cadre simple et général d'apprentissage auto-supervisé qui "compresse" chaque image vidéo en un petit ensemble de tokens à l'aide d'un réseau de type transformer, puis reconstruit les images suivantes en se basant sur le contexte temporel compressé. Pour minimiser la perte de reconstruction, le réseau doit apprendre une représentation compacte de chaque image, tout en capturant la dynamique temporelle et la permanence des objets à partir du contexte temporel. Nous évaluons notre approche sur deux benchmarks de raisonnement visuel, CATER et ACRE. Nous observons que le prétraitement est essentiel pour atteindre une généralisation compositionnelle dans le raisonnement visuel de bout en bout. Notre cadre proposé surpasse largement les méthodes traditionnelles de prétraitement supervisé, y compris la classification d'images et la détection explicite d'objets.
Cet article présente un nouveau Transformer visuel, le Scale-Aware Modulation Transformer (SMT), capable de gérer efficacement diverses tâches en aval en combinant le réseau convolutif et le Transformer visuel. La modulation Scale-Aware (SAM) proposée dans le SMT inclut deux conceptions novatrices principales. Premièrement, nous introduisons le module Multi-Head Mixed Convolution (MHMC), qui peut capturer des caractéristiques multi-échelles et étendre le champ réceptif. Deuxièmement, nous proposons le module Scale-Aware Aggregation (SAA), léger mais efficace, permettant la fusion d'informations entre différentes têtes. En exploitant ces deux modules, la modulation convolutive est encore améliorée. De plus, contrairement aux travaux antérieurs qui utilisaient des modulations à toutes les étapes pour construire un réseau sans attention, nous proposons un réseau hybride évolutif (EHN), qui peut simuler efficacement le passage de la capture de dépendances locales à globales à mesure que le réseau s'approfondit, aboutissant à des performances supérieures. Des expériences approfondies démontrent que le SMT surpasse significativement les modèles de pointe existants sur une large gamme de tâches visuelles. Plus précisément, le SMT avec 11,5M / 2,4GFLOPs et 32M / 7,7GFLOPs peut atteindre respectivement 82,2% et 84,3% de précision top-1 sur ImageNet-1K. Après un pré-entraînement sur ImageNet-22K en résolution 224^2, il atteint 87,1% et 88,1% de précision top-1 lors d'un réglage fin avec des résolutions de 224^2 et 384^2, respectivement. Pour la détection d'objets avec Mask R-CNN, le SMT base entraîné avec des plannings 1x et 3x surpasse le Swin Transformer de 4,2 et 1,3 mAP sur COCO, respectivement. Pour la segmentation sémantique avec UPerNet, le SMT base testé en mono-échelle et multi-échelle dépasse Swin de 2,0 et 1,1 mIoU respectivement sur ADE20K.
La simulation constitue l'épine dorsale du développement moderne des véhicules autonomes. Les simulateurs permettent de concevoir, tester et améliorer les systèmes de conduite sans mettre en danger les humains, les véhicules ou leur environnement. Cependant, les simulateurs font face à un défi majeur : ils dépendent de contenus réalistes, évolutifs et intéressants. Bien que les récentes avancées en rendu et reconstruction de scènes aient permis des progrès significatifs dans la création d'éléments de scène statiques, la modélisation de leur agencement, de leur dynamique et de leurs comportements reste complexe. Dans ce travail, nous utilisons le langage comme source de supervision pour la génération de scènes de trafic dynamiques. Notre modèle, LCTGen, combine un grand modèle de langage avec une architecture de décodeur basée sur des transformateurs, qui sélectionne des emplacements probables sur une carte à partir d'un ensemble de données cartographiques, et produit une distribution initiale du trafic ainsi que la dynamique de chaque véhicule. LCTGen surpasse les travaux antérieurs en termes de réalisme et de fidélité, que ce soit pour la génération de scènes de trafic inconditionnelle ou conditionnelle. Le code et les vidéos seront disponibles à l'adresse https://ariostgx.github.io/lctgen.