Articles de recherche en IA sélectionnés quotidiennement avec traductions
Large Language Models for Code (Code LLM) are flourishing. New and powerful models are released on a weekly basis, demonstrating remarkable performance on the code generation task. Various approaches have been proposed to boost the code generation performance of pre-trained Code LLMs, such as supervised fine-tuning, instruction tuning, reinforcement learning, etc. In this paper, we propose a novel RRTF (Rank Responses to align Test&Teacher Feedback) framework, which can effectively and efficiently boost pre-trained large language models for code generation. Under this framework, we present PanGu-Coder2, which achieves 62.20% pass@1 on the OpenAI HumanEval benchmark. Furthermore, through an extensive evaluation on CoderEval and LeetCode benchmarks, we show that PanGu-Coder2 consistently outperforms all previous Code LLMs.
Nous présentons TransNormerLLM, le premier modèle de langage de grande taille (LLM) basé sur une attention linéaire qui surpasse les modèles conventionnels utilisant l'attention softmax, tant en termes de précision que d'efficacité. TransNormerLLM évolue à partir de l'architecture d'attention linéaire précédente, TransNormer, en apportant des modifications avancées incluant l'incorporation positionnelle, l'accélération de l'attention linéaire, un mécanisme de gating, la normalisation tensorielle, l'accélération et la stabilisation de l'inférence. Plus précisément, nous utilisons LRPE conjointement avec une décroissance exponentielle pour éviter les problèmes de dilution de l'attention tout en permettant au modèle de conserver les interactions globales entre les tokens. De plus, nous proposons Lightning Attention, une technique de pointe qui accélère l'attention linéaire de plus de deux fois en temps d'exécution et réduit l'utilisation de la mémoire par un facteur remarquable de quatre. Pour améliorer davantage les performances de TransNormer, nous exploitons un mécanisme de gating pour fluidifier l'entraînement et un nouveau schéma de normalisation tensorielle pour accélérer le modèle, résultant en une accélération impressionnante de plus de 20%. Par ailleurs, nous avons développé un algorithme d'inférence robuste qui assure la stabilité numérique et une vitesse d'inférence constante, indépendamment de la longueur de la séquence, démontrant une efficacité supérieure tant pendant l'entraînement que lors de l'inférence. La scalabilité est au cœur de la conception de notre modèle, permettant un déploiement fluide sur des clusters à grande échelle et facilitant l'expansion vers des modèles encore plus vastes, tout en maintenant des performances exceptionnelles. Une validation rigoureuse de notre conception de modèle est réalisée à travers une série d'expériences exhaustives sur notre corpus auto-collectionné, qui dépasse 6TB de taille et contient plus de 2 trillions de tokens. Pour garantir la qualité et la pertinence des données, nous mettons en œuvre une nouvelle stratégie d'auto-nettoyage pour filtrer les données collectées. Nos modèles pré-entraînés seront publiés pour favoriser les avancées communautaires dans le domaine des LLM efficaces.
Nous présentons un cadre pour l'acquisition de compétences robotiques, qui 1) permet de générer efficacement des données étiquetées par le langage à grande échelle et 2) distille efficacement ces données en une politique visuo-motrice robuste et conditionnée par le langage pour des tâches multiples. Pour (1), nous utilisons un modèle de langage de grande taille (LLM) pour guider la planification de haut niveau, ainsi que des planificateurs robotiques basés sur l'échantillonnage (par exemple, des échantillonneurs de mouvement ou de préhension) pour générer des trajectoires de manipulation diverses et riches. Pour renforcer ce processus de collecte de données, le LLM infère également un extrait de code pour la condition de réussite de chaque tâche, permettant ainsi de détecter les échecs, de réessayer et d'étiqueter automatiquement les trajectoires avec succès/échec. Pour (2), nous étendons l'approche de clonage comportemental mono-tâche basée sur la politique de diffusion à des contextes multi-tâches avec conditionnement par le langage. Enfin, nous proposons un nouveau benchmark multi-tâches comprenant 18 tâches réparties dans cinq domaines pour tester les comportements à long terme, le raisonnement de bon sens, l'utilisation d'outils et la physique intuitive. Nous constatons que notre politique distillée a appris avec succès le comportement robuste de réessai de sa politique de collecte de données, tout en améliorant les taux de réussite absolus de 34,8 % en moyenne sur les cinq domaines. Le benchmark, le code et les résultats qualitatifs sont disponibles sur notre site web : https://www.cs.columbia.edu/~huy/scalingup/
Le suivi visuel d'objets est une tâche vidéo fondamentale en vision par ordinateur. Récemment, la puissance notablement accrue des algorithmes de perception permet l'unification du suivi mono/multi-objets et basé sur des boîtes/masques. Parmi eux, le Segment Anything Model (SAM) attire beaucoup d'attention. Dans ce rapport, nous proposons HQTrack, un cadre pour le suivi de haute qualité de n'importe quel objet dans les vidéos. HQTrack se compose principalement d'un segmenteur multi-objets vidéo (VMOS) et d'un raffineur de masques (MR). Étant donné l'objet à suivre dans l'image initiale d'une vidéo, VMOS propage les masques de l'objet à l'image courante. Les résultats de masque à ce stade ne sont pas suffisamment précis car VMOS est entraîné sur plusieurs ensembles de données de segmentation d'objets vidéo (VOS) fermés, ce qui limite sa capacité à généraliser à des scènes complexes et marginales. Pour améliorer davantage la qualité des masques de suivi, un modèle MR pré-entraîné est utilisé pour raffiner les résultats de suivi. Comme témoignage convaincant de l'efficacité de notre paradigme, sans utiliser de techniques telles que l'augmentation de données au moment du test et l'assemblage de modèles, HQTrack se classe à la 2e place du défi Visual Object Tracking and Segmentation (VOTS2023). Le code et les modèles sont disponibles à l'adresse https://github.com/jiawen-zhu/HQTrack.
La médecine est intrinsèquement multimodale, avec des données riches couvrant le texte, l'imagerie, la génomique et bien plus encore. Les systèmes d'intelligence artificielle (IA) biomédicale généralistes capables d'encoder, d'intégrer et d'interpréter ces données à grande échelle de manière flexible pourraient potentiellement permettre des applications impactantes, allant de la découverte scientifique à la prestation de soins. Pour faciliter le développement de ces modèles, nous avons d'abord constitué MultiMedBench, un nouveau benchmark biomédical multimodal. MultiMedBench englobe 14 tâches variées telles que la réponse à des questions médicales, l'interprétation d'images de mammographie et de dermatologie, la génération et la synthèse de rapports radiologiques, ainsi que l'appel de variants génomiques. Nous présentons ensuite Med-PaLM Multimodal (Med-PaLM M), notre preuve de concept pour un système d'IA biomédicale généraliste. Med-PaLM M est un grand modèle génératif multimodal qui encode et interprète de manière flexible les données biomédicales, y compris le langage clinique, l'imagerie et la génomique, en utilisant le même ensemble de poids de modèle. Med-PaLM M atteint des performances compétitives ou supérieures à l'état de l'art sur toutes les tâches de MultiMedBench, surpassant souvent les modèles spécialisés par une large marge. Nous rapportons également des exemples de généralisation zero-shot à de nouveaux concepts et tâches médicaux, de transfert d'apprentissage positif entre tâches, et de raisonnement médical zero-shot émergent. Pour approfondir les capacités et les limites de Med-PaLM M, nous avons mené une évaluation par des radiologues des rapports de radiographies thoraciques générés par le modèle (et par des humains), observant des performances encourageantes à différentes échelles de modèles. Dans un classement côte à côte sur 246 radiographies thoraciques rétrospectives, les cliniciens ont exprimé une préférence par paire pour les rapports de Med-PaLM M par rapport à ceux produits par des radiologues dans jusqu'à 40,50 % des cas, suggérant une utilité clinique potentielle. Bien qu'un travail considérable soit nécessaire pour valider ces modèles dans des cas d'utilisation réels, nos résultats représentent une étape importante vers le développement de systèmes d'IA biomédicale généralistes.
La génération de texte-à-3D a récemment suscité un intérêt considérable, stimulée par les modèles de diffusion 2D entraînés sur des milliards de paires image-texte. Les méthodes existantes reposent principalement sur la distillation de scores pour exploiter les a priori de diffusion 2D afin de superviser la génération de modèles 3D, tels que NeRF. Cependant, la distillation de scores est sujette au problème d'incohérence de vue, et la modélisation implicite de NeRF peut également conduire à des formes arbitraires, ce qui entraîne une génération 3D moins réaliste et difficile à contrôler. Dans ce travail, nous proposons un cadre flexible appelé Points-to-3D pour combler le fossé entre des points 3D épars mais facilement disponibles et une génération 3D réaliste et contrôlable en forme, en distillant les connaissances des modèles de diffusion 2D et 3D. L'idée centrale de Points-to-3D est d'introduire des points 3D épars contrôlables pour guider la génération de texte-à-3D. Plus précisément, nous utilisons le nuage de points épars généré par le modèle de diffusion 3D, Point-E, comme a priori géométrique, conditionné par une seule image de référence. Pour mieux exploiter les points 3D épars, nous proposons une fonction de perte guidée par le nuage de points pour adapter de manière adaptative la géométrie de NeRF afin de l'aligner sur la forme des points 3D épars. En plus de contrôler la géométrie, nous proposons d'optimiser NeRF pour une apparence plus cohérente en vue. Plus précisément, nous effectuons une distillation de scores sur le modèle de diffusion d'images 2D publiquement disponible, ControlNet, conditionné par le texte ainsi que par la carte de profondeur de la géométrie compacte apprise. Les comparaisons qualitatives et quantitatives démontrent que Points-to-3D améliore la cohérence de vue et atteint une bonne contrôlabilité de forme pour la génération de texte-à-3D. Points-to-3D offre aux utilisateurs une nouvelle manière d'améliorer et de contrôler la génération de texte-à-3D.
Pour un artiste ou un graphiste, la disposition spatiale d'une scène constitue un choix de conception crucial. Cependant, les modèles de diffusion texte-image existants offrent un soutien limité pour l'intégration d'informations spatiales. Cet article présente la Diffusion Composite comme un moyen pour les artistes de générer des images de haute qualité en composant à partir de sous-scènes. Les artistes peuvent spécifier l'agencement de ces sous-scènes grâce à une disposition segmentée libre et flexible. Ils peuvent décrire le contenu de chaque sous-scène principalement en utilisant du texte naturel, et en complément, en recourant à des images de référence ou à des entrées de contrôle telles que des dessins au trait, des gribouillis, des poses humaines, des contours de canny, et plus encore. Nous proposons une méthode complète et modulaire pour la Diffusion Composite, permettant des alternatives pour générer, composer et harmoniser les sous-scènes. De plus, nous souhaitons évaluer l'image composite en termes d'efficacité, tant sur la qualité de l'image que sur la réalisation de l'intention artistique. Nous soutenons que les métriques de qualité d'image existantes manquent d'une évaluation holistique des images composites. Pour remédier à cela, nous proposons de nouveaux critères de qualité particulièrement pertinents pour la génération composite. Nous croyons que notre approche offre une méthode intuitive de création artistique. Grâce à des enquêtes utilisateurs approfondies, ainsi qu'à des analyses quantitatives et qualitatives, nous montrons comment elle permet un meilleur contrôle spatial, sémantique et créatif sur la génération d'images. De plus, nos méthodes ne nécessitent pas de réentraîner ou de modifier l'architecture des modèles de diffusion de base et peuvent fonctionner de manière plug-and-play avec les modèles affinés.
Nous étudions l'amélioration des agents conversationnels sociaux en apprenant à partir de dialogues naturels entre les utilisateurs et un modèle déployé, sans annotations supplémentaires. Pour mesurer implicitement la qualité d'un énoncé généré par la machine, nous exploitons des signaux tels que la longueur de la réponse de l'utilisateur, le sentiment et la réaction des énoncés humains futurs dans les épisodes de dialogue collectés. Nos expériences utilisent les données de déploiement publiquement disponibles de BlenderBot (Xu et al., 2023). L'évaluation humaine indique des améliorations dans nos nouveaux modèles par rapport aux réponses de référence ; cependant, nous constatons que certains signaux proxy peuvent également conduire à davantage de générations présentant des propriétés indésirables. Par exemple, optimiser pour la longueur de la conversation peut entraîner des générations plus controversées ou moins amicales par rapport à la référence, tandis qu'optimiser pour un sentiment ou une réaction positive peut réduire ces comportements.
Les récents transformeurs visuels, CNN à grands noyaux et MLP ont obtenu des succès remarquables dans un large éventail de tâches visuelles grâce à leur fusion efficace d'informations à l'échelle globale. Cependant, leur déploiement efficace, en particulier sur les appareils mobiles, reste confronté à des défis notables en raison des coûts de calcul élevés des mécanismes d'auto-attention, des grands noyaux ou des couches entièrement connectées. Dans ce travail, nous appliquons le théorème de convolution conventionnel à l'apprentissage profond pour résoudre ce problème et révélons que les filtres de fréquence adaptatifs peuvent servir de mélangeurs globaux de tokens efficaces. Avec cette intuition, nous proposons le mélangeur de tokens par filtrage de fréquence adaptatif (AFF). Cet opérateur neuronal transfère une représentation latente dans le domaine fréquentiel via une transformée de Fourier et effectue un filtrage de fréquence sémantique-adaptatif via une multiplication élément par élément, ce qui équivaut mathématiquement à une opération de mélange de tokens dans l'espace latent original avec un noyau de convolution dynamique aussi grand que la résolution spatiale de cette représentation latente. Nous utilisons les mélangeurs de tokens AFF comme opérateurs neuronaux principaux pour construire un réseau neuronal léger, baptisé AFFNet. Des expériences approfondies démontrent l'efficacité de notre mélangeur de tokens AFF proposé et montrent qu'AFFNet atteint un équilibre supérieur entre précision et efficacité par rapport à d'autres conceptions de réseaux légers sur un large éventail de tâches visuelles, y compris les tâches de reconnaissance visuelle et de prédiction dense.
Le domaine de la prévision de trajectoires a connu une croissance significative ces dernières années, en partie grâce à la publication de nombreux ensembles de données à grande échelle et en conditions réelles pour les véhicules autonomes (VA) et le suivi des mouvements piétons. Bien que ces ensembles de données aient été une aubaine pour la communauté, chacun utilise des formats de données et des API personnalisés et uniques, rendant fastidieux pour les chercheurs l'entraînement et l'évaluation des méthodes sur plusieurs ensembles de données. Pour remédier à cela, nous présentons trajdata : une interface unifiée pour plusieurs ensembles de données de trajectoires humaines. Au cœur de trajdata se trouve une représentation et une API simples, uniformes et efficaces pour les données de trajectoires et de cartes. Pour démontrer ses capacités, nous menons dans ce travail une évaluation empirique complète des ensembles de trajectoires existants, offrant aux utilisateurs une compréhension approfondie des données sous-jacentes à une grande partie des recherches actuelles sur la prévision des mouvements piétons et des VA, et proposant des suggestions pour les futurs ensembles de données à partir de ces insights. trajdata est sous licence permissive (Apache 2.0) et peut être consulté en ligne à l'adresse https://github.com/NVlabs/trajdata.