Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons TinyLlama, un modèle de langage compact de 1,1 milliard de paramètres pré-entraîné sur environ 1 trillion de tokens pour approximativement 3 époques. S'appuyant sur l'architecture et le tokenizer de Llama 2, TinyLlama tire parti de diverses avancées contribuées par la communauté open-source (par exemple, FlashAttention), atteignant ainsi une meilleure efficacité computationnelle. Malgré sa taille relativement réduite, TinyLlama démontre des performances remarquables dans une série de tâches en aval. Il surpasse significativement les modèles de langage open-source existants de tailles comparables. Nos points de contrôle de modèle et notre code sont disponibles publiquement sur GitHub à l'adresse suivante : https://github.com/jzhang38/TinyLlama.
L'introduction de ChatGPT a entraîné une augmentation significative de l'utilisation des modèles de langage de grande taille (LLMs) pour résoudre des tâches en aval. Dans ce contexte, l'accent est de plus en plus mis sur l'entraînement et le déploiement à moindre coût. L'entraînement et le déploiement économiques des LLMs représentent la tendance future de développement. Cet article passe en revue l'évolution des techniques d'entraînement des modèles de langage de grande taille et des technologies de déploiement d'inférence alignées sur cette tendance émergente. La discussion sur l'entraînement inclut divers aspects, tels que le prétraitement des données, l'architecture d'entraînement, les tâches de pré-entraînement, l'entraînement parallèle et le contenu pertinent lié au réglage fin des modèles. Du côté de l'inférence, l'article aborde des sujets tels que la compression de modèles, le calcul parallèle, la planification de la mémoire et l'optimisation structurelle. Il explore également l'utilisation des LLMs et offre des perspectives sur leur développement futur.
Les humains acquièrent généralement de nouvelles compétences sans compromettre les anciennes ; cependant, l'inverse est vrai pour les modèles de langage de grande taille (LLMs), par exemple, de LLaMA à CodeLLaMA. À cette fin, nous proposons une nouvelle méthode de post-prétraitement pour les LLMs avec une expansion des blocs Transformer. Nous ajustons les blocs élargis en utilisant uniquement un nouveau corpus, améliorant ainsi de manière efficace et efficiente les connaissances du modèle sans oubli catastrophique. Dans cet article, nous expérimentons sur des corpus de code et de mathématiques, produisant LLaMA Pro-8.3B, un modèle de base polyvalent initialisé à partir de LLaMA2-7B, excellant dans les tâches générales, la programmation et les mathématiques. LLaMA Pro et sa version adaptée au suivi d'instructions (LLaMA Pro-Instruct) obtiennent des performances avancées dans divers benchmarks, démontrant une supériorité par rapport aux modèles ouverts existants de la famille LLaMA et le potentiel immense de raisonnement et de traitement de tâches variées en tant qu'agent intelligent. Nos résultats fournissent des insights précieux sur l'intégration des langages naturels et de programmation, posant une base solide pour le développement d'agents linguistiques avancés opérant efficacement dans divers environnements.
Les modèles fondateurs comportant des milliards de paramètres, entraînés sur de vastes corpus de données, ont démontré des compétences non triviales dans divers domaines. Cependant, en raison de leur structure monolithique, il est difficile et coûteux de les enrichir ou de leur conférer de nouvelles compétences. D'un autre côté, grâce à leurs capacités d'adaptation, plusieurs nouvelles instances de ces modèles sont entraînées pour de nouveaux domaines et tâches. Dans ce travail, nous étudions le problème de la composition efficace et pratique de modèles fondateurs existants avec des modèles plus spécifiques afin d'activer de nouvelles capacités. À cette fin, nous proposons CALM -- Composition pour Augmenter les Modèles de Langage -- qui introduit une attention croisée entre les modèles pour composer leurs représentations et activer de nouvelles capacités. Les caractéristiques saillantes de CALM sont : (i) Il permet de mettre à l'échelle les LLM pour de nouvelles tâches en "réutilisant" des LLM existants avec quelques paramètres et données supplémentaires, (ii) Les poids des modèles existants restent intacts, préservant ainsi leurs capacités actuelles, et (iii) Il s'applique à divers domaines et contextes. Nous montrons qu'en enrichissant PaLM2-S avec un modèle plus petit entraîné sur des langues à faibles ressources, on obtient une amélioration absolue allant jusqu'à 13 % pour des tâches comme la traduction vers l'anglais et le raisonnement arithmétique pour les langues à faibles ressources. De même, lorsque PaLM2-S est enrichi avec un modèle spécifique au code, nous observons une amélioration relative de 40 % par rapport au modèle de base pour les tâches de génération et d'explication de code -- à égalité avec les modèles entièrement affinés.
L'apprentissage par imitation à partir de démonstrations humaines a démontré des performances impressionnantes en robotique. Cependant, la plupart des résultats se concentrent sur la manipulation sur table, manquant de mobilité et de dextérité nécessaires pour des tâches généralement utiles. Dans ce travail, nous développons un système pour imiter des tâches de manipulation mobile qui sont bimanuelles et nécessitent un contrôle du corps entier. Nous présentons d'abord Mobile ALOHA, un système de téléopération à faible coût et à contrôle du corps entier pour la collecte de données. Il enrichit le système ALOHA avec une base mobile et une interface de téléopération pour le corps entier. En utilisant les données collectées avec Mobile ALOHA, nous effectuons ensuite un clonage comportemental supervisé et constatons que l'entraînement conjoint avec les ensembles de données statiques existants d'ALOHA améliore les performances sur les tâches de manipulation mobile. Avec 50 démonstrations pour chaque tâche, l'entraînement conjoint peut augmenter les taux de réussite jusqu'à 90 %, permettant à Mobile ALOHA d'accomplir de manière autonome des tâches complexes de manipulation mobile telles que faire sauter et servir une crevette, ouvrir un placard mural à deux portes pour ranger des casseroles lourdes, appeler et entrer dans un ascenseur, et rincer légèrement une poêle utilisée à l'aide d'un robinet de cuisine. Site web du projet : https://mobile-aloha.github.io
Cet article présente instruct-imagen, un modèle qui aborde des tâches hétérogènes de génération d'images et généralise à des tâches non vues auparavant. Nous introduisons *l'instruction multimodale* pour la génération d'images, une représentation de tâche qui articule avec précision une variété d'intentions de génération. Elle utilise le langage naturel pour amalgamer des modalités disparates (par exemple, texte, contour, style, sujet, etc.), de sorte que de nombreuses intentions de génération peuvent être standardisées dans un format uniforme. Nous construisons ensuite instruct-imagen en affinant un modèle de diffusion texte-à-image pré-entraîné avec un cadre en deux étapes. Tout d'abord, nous adaptons le modèle en utilisant un entraînement enrichi par récupération, afin d'améliorer sa capacité à ancrer sa génération dans un contexte multimodal externe. Ensuite, nous affinons le modèle adapté sur diverses tâches de génération d'images nécessitant une compréhension vision-langage (par exemple, génération pilotée par un sujet, etc.), chacune étant associée à une instruction multimodale encapsulant l'essence de la tâche. Une évaluation humaine sur divers ensembles de données de génération d'images révèle qu'instruct-imagen égale ou dépasse les modèles spécifiques à une tâche précédents dans leur domaine et démontre une généralisation prometteuse à des tâches non vues et plus complexes.
Dans cet article, nous présentons LLaVA-phi (LLaVA-Phi), un assistant multimodal efficace qui exploite la puissance du petit modèle de langage récemment amélioré, Phi-2, pour faciliter les dialogues multimodaux. LLaVA-Phi représente une avancée notable dans le domaine des modèles multimodaux compacts. Il démontre que même des modèles de langage plus petits, avec seulement 2,7 milliards de paramètres, peuvent participer efficacement à des dialogues complexes intégrant à la fois des éléments textuels et visuels, à condition qu'ils soient entraînés avec des corpus de haute qualité. Notre modèle offre une performance remarquable sur des benchmarks publics couvrant la compréhension visuelle, le raisonnement et la perception basée sur les connaissances. Au-delà de ses performances exceptionnelles dans les tâches de dialogue multimodal, notre modèle ouvre de nouvelles perspectives pour des applications dans des environnements sensibles au temps et des systèmes nécessitant une interaction en temps réel, tels que les agents incarnés. Il met en lumière le potentiel des modèles de langage plus petits pour atteindre des niveaux sophistiqués de compréhension et d'interaction, tout en maintenant une meilleure efficacité des ressources. Le projet est disponible à l'adresse suivante : {https://github.com/zhuyiche/llava-phi}.
Les réseaux antagonistes génératifs (GANs) 3D ont montré des progrès remarquables dans l'apprentissage de la génération d'images cohérentes en multi-vues et de géométries 3D de scènes à partir de collections d'images 2D via le rendu volumique neuronal. Cependant, les coûts importants en mémoire et en calcul de l'échantillonnage dense dans le rendu volumique ont contraint les GANs 3D à adopter un entraînement par patchs ou à utiliser un rendu à basse résolution avec un post-traitement de super-résolution 2D, ce qui sacrifie la cohérence multi-vues et la qualité de la géométrie résolue. Par conséquent, les GANs 3D n'ont pas encore été en mesure de résoudre pleinement la riche géométrie 3D présente dans les images 2D. Dans ce travail, nous proposons des techniques pour étendre le rendu volumique neuronal à la résolution beaucoup plus élevée des images 2D natives, permettant ainsi de résoudre une géométrie 3D fine avec un niveau de détail sans précédent. Notre approche utilise des échantillonneurs basés sur l'apprentissage pour accélérer le rendu neuronal pour l'entraînement des GANs 3D en utilisant jusqu'à 5 fois moins d'échantillons de profondeur. Cela nous permet de "rendre chaque pixel" de l'image en pleine résolution pendant l'entraînement et l'inférence sans post-traitement de super-résolution en 2D. Associée à notre stratégie pour apprendre une géométrie de surface de haute qualité, notre méthode synthétise une géométrie 3D haute résolution et des images strictement cohérentes en vue tout en maintenant une qualité d'image comparable aux méthodes de référence reposant sur un post-traitement de super-résolution. Nous démontrons une qualité géométrique 3D de pointe sur FFHQ et AFHQ, établissant une nouvelle norme pour l'apprentissage non supervisé de formes 3D dans les GANs 3D.
Les modèles de pointe sur les benchmarks contemporains de perception 3D comme ScanNet consomment et étiquettent des nuages de points 3D fournis par les jeux de données, obtenus par post-traitement d'images RGB-D multivues capturées. Ils sont généralement entraînés en domaine spécifique, renoncent à un pré-entraînement 2D à grande échelle et surpassent les alternatives qui caractérisent les images RGB-D multivues posées à la place. L'écart de performance entre les méthodes qui consomment des images posées et celles utilisant des nuages de points 3D post-traités a renforcé la croyance que la perception 2D et 3D nécessitent des architectures de modèles distinctes. Dans cet article, nous remettons en cause cette vision et proposons ODIN (Omni-Dimensional INstance segmentation), un modèle capable de segmenter et d'étiqueter à la fois des images RGB 2D et des nuages de points 3D, en utilisant une architecture de transformateur qui alterne entre la fusion d'informations 2D intra-vue et 3D inter-vues. Notre modèle différencie les opérations de caractéristiques 2D et 3D à travers les encodages positionnels des tokens impliqués, qui capturent les coordonnées de pixels pour les tokens de patchs 2D et les coordonnées 3D pour les tokens de caractéristiques 3D. ODIN atteint des performances de pointe sur les benchmarks de segmentation d'instances 3D ScanNet200, Matterport3D et AI2THOR, et des performances compétitives sur ScanNet, S3DIS et COCO. Il surpasse tous les travaux précédents par une large marge lorsque le nuage de points 3D capturé est utilisé à la place du nuage de points échantillonné à partir d'un maillage 3D. Lorsqu'il est utilisé comme moteur de perception 3D dans une architecture d'agent incarné instructable, il établit un nouvel état de l'art sur le benchmark TEACh d'action à partir de dialogue. Notre code et nos points de contrôle peuvent être trouvés sur le site du projet : https://odin-seg.github.io.
L'apprentissage de modèles 3D pour tous les animaux de la Terre nécessite une mise à l'échelle massive des solutions existantes. Dans cette optique, nous développons 3D-Fauna, une approche qui apprend un modèle 3D déformable pan-catégorie pour plus de 100 espèces animales conjointement. Un goulot d'étranglement crucial dans la modélisation des animaux est la disponibilité limitée des données d'entraînement, que nous surmontons en apprenant simplement à partir d'images 2D disponibles sur Internet. Nous montrons que les tentatives antérieures spécifiques à une catégorie échouent à généraliser aux espèces rares avec un nombre limité d'images d'entraînement. Nous relevons ce défi en introduisant la Banque Sémantique de Modèles Articulés (SBSM), qui découvre automatiquement un petit ensemble de formes animales de base en combinant des préconceptions géométriques inductives avec des connaissances sémantiques implicitement capturées par un extracteur de caractéristiques auto-supervisé prêt à l'emploi. Pour entraîner un tel modèle, nous contribuons également à un nouveau jeu de données à grande échelle comprenant diverses espèces animales. Au moment de l'inférence, étant donnée une seule image de n'importe quel animal quadrupède, notre modèle reconstruit un maillage 3D articulé de manière directe en quelques secondes.
L'émergence des modèles de langage de grande taille (LLMs) tels que ChatGPT et LLaMA rencontre des limites dans les tâches spécifiques à un domaine, ces modèles manquant souvent de profondeur et de précision dans les domaines spécialisés, et montrant une diminution de leurs capacités générales lorsqu'ils sont affinés, en particulier la capacité d'analyse dans les modèles de petite taille. Pour combler ces lacunes, nous introduisons ICE-GRT, utilisant l'apprentissage par renforcement à partir de retours humains (RLHF) basé sur l'optimisation de politique proximale (PPO), démontrant une capacité remarquable dans les scénarios intra-domaines sans compromettre la performance des tâches générales. Notre exploration d'ICE-GRT met en évidence sa capacité de compréhension et de raisonnement à non seulement générer des réponses robustes mais aussi à fournir des analyses détaillées des raisons derrière la réponse. Cette capacité marque une progression significative au-delà de la portée des modèles d'affinage supervisé. Le succès d'ICE-GRT dépend de plusieurs facteurs cruciaux, incluant des Données Appropriées, la Mise à l'échelle de la Récompense, le Contrôle KL, la Normalisation de l'Avantage, etc. Le modèle ICE-GRT présente des performances de pointe dans les tâches spécifiques à un domaine et à travers 12 tâches générales de langage contre des LLMs de taille équivalente et même plus grande, soulignant l'efficacité de notre approche. Nous fournissons une analyse complète d'ICE-GRT, mettant en avant les avancées significatives qu'il apporte au domaine des LLM.
Les modèles de diffusion constituent une nouvelle classe de modèles génératifs et ont considérablement amélioré la génération d'images avec une qualité et une diversité sans précédent. Les modèles de diffusion existants tentent principalement de reconstruire une image d'entrée à partir d'une version corrompue en utilisant une contrainte pixel par pixel ou basée sur les caractéristiques le long des axes spatiaux. Cependant, une telle reconstruction basée sur des points peut échouer à préserver pleinement le contexte local de chaque pixel/caractéristique prédit, ce qui nuit à la synthèse d'images basée sur la diffusion. En tant que source puissante de signal de supervision automatique, le contexte a été largement étudié pour l'apprentissage de représentations. Inspirés par cela, nous proposons pour la première fois ConPreDiff pour améliorer la synthèse d'images basée sur la diffusion grâce à la prédiction de contexte. Nous renforçons explicitement chaque point pour prédire son contexte local (c'est-à-dire des caractéristiques/jetons/pixels à pas multiples) à l'aide d'un décodeur de contexte à la fin des blocs de débruitage de diffusion lors de la phase d'entraînement, et supprimons ce décodeur lors de l'inférence. De cette manière, chaque point peut mieux se reconstruire en préservant ses connexions sémantiques avec le contexte local. Ce nouveau paradigme de ConPreDiff peut être généralisé à des architectures de diffusion discrètes et continues sans introduire de paramètres supplémentaires lors de la procédure d'échantillonnage. Des expériences approfondies sont menées sur des tâches de génération d'images non conditionnée, de génération d'images à partir de texte et de réparation d'images. Notre ConPreDiff surpasse systématiquement les méthodes précédentes et établit un nouveau record en génération d'images à partir de texte sur MS-COCO, avec un score FID en zero-shot de 6,21.
La perception précise des propriétés géométriques et sémantiques des objets 3D du monde réel est cruciale pour l'évolution continue des applications de réalité augmentée et de robotique. À cette fin, nous présentons (), qui intègre des embeddings vision-langage de modèles de fond dans le 3D Gaussian Splatting (GS). La contribution principale de ce travail est une méthode efficace pour reconstruire et représenter des modèles 3D vision-langage. Cela est réalisé en distillant des cartes de caractéristiques générées à partir de modèles de fond basés sur l'image dans celles rendues par notre modèle 3D. Pour assurer un rendu de haute qualité et un entraînement rapide, nous introduisons une nouvelle représentation de scène en intégrant les forces du GS et des encodages de hachage multi-résolution (MHE). Notre procédure d'entraînement efficace introduit également une perte d'alignement de pixels qui rapproche la distance des caractéristiques rendues des entités sémantiques identiques, en suivant les limites sémantiques au niveau des pixels. Nos résultats démontrent une remarquable cohérence sémantique multi-vues, facilitant diverses tâches en aval, surpassant les méthodes de pointe de 10,2 % sur la détection d'objets basée sur le langage à vocabulaire ouvert, malgré une inférence 851 fois plus rapide. Cette recherche explore l'intersection de la vision, du langage et de la représentation de scènes 3D, ouvrant la voie à une meilleure compréhension des scènes dans des environnements réels non contrôlés. Nous prévoyons de publier le code dès l'acceptation de l'article.
Le raisonnement visuel est dominé par des réseaux de neurones de bout en bout mis à l'échelle avec des milliards de paramètres et d'exemples d'entraînement. Cependant, même les plus grands modèles peinent avec le raisonnement compositionnel, la généralisation, le raisonnement spatial et temporel fin, ainsi que le dénombrement. Le raisonnement visuel utilisant des modèles de langage de grande taille (LLMs) comme contrôleurs peut, en principe, surmonter ces limitations en décomposant la tâche et en résolvant des sous-tâches en orchestrant un ensemble d'outils (visuels). Récemment, ces modèles ont obtenu d'excellentes performances sur des tâches telles que la réponse à des questions visuelles compositionnelles, l'ancrage visuel et le raisonnement temporel sur des vidéos. Néanmoins, dans leur forme actuelle, ces modèles dépendent fortement de l'ingénierie humaine pour créer des exemples contextuels dans l'invite, qui sont souvent spécifiques à un ensemble de données et à une tâche, et nécessitent un travail important de la part de programmeurs hautement qualifiés. Dans ce travail, nous présentons un cadre qui atténue ces problèmes en introduisant des routines spatialement et temporellement abstraites, et en exploitant un petit nombre d'exemples étiquetés pour générer automatiquement des exemples contextuels, évitant ainsi les exemples contextuels créés par l'homme. Sur plusieurs tâches de raisonnement visuel, nous montrons que notre cadre conduit à des gains de performance constants, rend la configuration des LLMs comme contrôleurs plus robuste, et supprime le besoin d'ingénierie humaine pour les exemples contextuels.