Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce travail présente une méthode efficace pour adapter les modèles de langage de grande taille (LLMs) basés sur les Transformers à des entrées de longueur infinie avec une mémoire et un calcul limités. Un élément clé de notre approche proposée est une nouvelle technique d'attention appelée Infini-attention. L'Infini-attention intègre une mémoire compressive dans le mécanisme d'attention classique et combine à la fois une attention locale masquée et des mécanismes d'attention linéaire à long terme dans un seul bloc Transformer. Nous démontrons l'efficacité de notre approche sur des benchmarks de modélisation de langage à contexte long, notamment la récupération de blocs contextuels de séquences de 1 million de tokens et la tâche de résumé de livres de 500 000 tokens avec des LLMs de 1 milliard et 8 milliards de paramètres. Notre approche introduit un nombre minimal de paramètres de mémoire limitée et permet une inférence en flux rapide pour les LLMs.
Les modèles de langage de grande taille (LLMs) ont obtenu des résultats remarquables, mais leur demande croissante en ressources est devenue un obstacle majeur au développement d'une intelligence surhumaine puissante et accessible. Ce rapport présente JetMoE-8B, un nouveau LLM entraîné pour moins de 0,1 million de dollars, utilisant 1,25 trillion de tokens provenant de corpus open-source soigneusement mélangés et 30 000 heures de GPU H100. Malgré son faible coût, JetMoE-8B démontre des performances impressionnantes, surpassant le modèle Llama2-7B, et JetMoE-8B-Chat surpassant le modèle Llama2-13B-Chat. Ces résultats suggèrent que l'entraînement des LLMs peut être bien plus rentable qu'on ne le pense généralement. JetMoE-8B est basé sur une architecture efficace de Mixture-of-Experts à portes éparses (SMoE), composée d'experts d'attention et de feedforward. Les deux couches sont activées de manière éparse, permettant à JetMoE-8B d'avoir 8 milliards de paramètres tout en n'en activant que 2 milliards pour chaque token d'entrée, réduisant ainsi le calcul d'inférence d'environ 70 % par rapport à Llama2-7B. De plus, JetMoE-8B est très ouvert et adapté au milieu académique, utilisant uniquement des datasets publics et du code d'entraînement. Tous les paramètres d'entraînement et les mélanges de données ont été détaillés dans ce rapport pour faciliter les efforts futurs dans le développement de modèles de base ouverts. Cette transparence vise à encourager la collaboration et les avancées dans le domaine des LLMs accessibles et efficaces. Les poids du modèle sont disponibles publiquement à l'adresse https://github.com/myshell-ai/JetMoE.
Le test de l'aiguille dans une botte de foin (NIAH), qui examine la capacité à retrouver une information spécifique (l'"aiguille") parmi de longs textes distracteurs (la "botte de foin"), a été largement adopté pour évaluer les modèles de langage à contexte étendu (LMs). Cependant, ce simple test basé sur la récupération ne reflète qu'une compréhension superficielle des contextes longs. Pour fournir une évaluation plus complète des LMs à contexte étendu, nous avons créé un nouveau benchmark synthétique, RULER, avec des configurations flexibles permettant de personnaliser la longueur des séquences et la complexité des tâches. RULER étend le test NIAH de base pour inclure des variations avec différents types et quantités d'aiguilles. De plus, RULER introduit de nouvelles catégories de tâches, telles que le traçage multi-sauts et l'agrégation, pour tester des comportements allant au-delà de la simple recherche dans le contexte. Nous avons évalué dix LMs à contexte étendu avec 13 tâches représentatives dans RULER. Malgré une précision quasi parfaite dans le test NIAH de base, tous les modèles montrent une baisse significative de performance à mesure que la longueur du contexte augmente. Bien que ces modèles prétendent tous supporter des contextes de 32K tokens ou plus, seuls quatre modèles (GPT-4, Command-R, Yi-34B et Mixtral) parviennent à maintenir une performance satisfaisante à la longueur de 32K. Notre analyse de Yi-34B, qui supporte une longueur de contexte de 200K, révèle un grand potentiel d'amélioration à mesure que nous augmentons la longueur de l'entrée et la complexité des tâches. Nous mettons RULER en open source pour encourager une évaluation complète des LMs à contexte étendu.
Nous présentons RealmDreamer, une technique pour la génération de scènes 3D générales orientées vers l'avant à partir de descriptions textuelles. Notre technique optimise une représentation par projection de Gaussiennes 3D pour correspondre à des prompts textuels complexes. Nous initialisons ces projections en utilisant des générateurs d'images à partir de texte de pointe, en transformant leurs échantillons en 3D et en calculant le volume d'occlusion. Nous optimisons ensuite cette représentation à travers plusieurs vues comme une tâche de remplissage 3D avec des modèles de diffusion conditionnés par l'image. Pour apprendre une structure géométrique correcte, nous intégrons un modèle de diffusion de profondeur en le conditionnant sur les échantillons du modèle de remplissage, ce qui fournit une structure géométrique riche. Enfin, nous affinons le modèle en utilisant des échantillons affinés provenant des générateurs d'images. Il est à noter que notre technique ne nécessite pas de vidéo ou de données multi-vues et peut synthétiser une variété de scènes 3D de haute qualité dans différents styles, composées de plusieurs objets. Sa généralité permet également la synthèse 3D à partir d'une seule image.
Nous analysons dans quelle mesure les grands modèles de langage pré-entraînés (par exemple, Llama2, GPT-4, Claude 3, etc.) peuvent effectuer des régressions linéaires et non linéaires lorsqu'ils reçoivent des exemples en contexte, sans aucun entraînement supplémentaire ni mise à jour de gradient. Nos résultats révèlent que plusieurs grands modèles de langage (par exemple, GPT-4, Claude 3) sont capables d'exécuter des tâches de régression avec une performance rivalisant (voire surpassant) celle des méthodes supervisées traditionnelles telles que les forêts aléatoires (Random Forest), le bagging ou le boosting de gradient. Par exemple, sur le jeu de données de régression complexe Friedman #2, Claude 3 surpasse de nombreuses méthodes supervisées telles qu'AdaBoost, les machines à vecteurs de support (SVM), les forêts aléatoires, les K plus proches voisins (KNN) ou le boosting de gradient. Nous étudions ensuite comment la performance des grands modèles de langage évolue avec le nombre d'exemples en contexte. Nous nous inspirons de la notion de regret issue de l'apprentissage en ligne et montrons empiriquement que les grands modèles de langage sont capables d'atteindre un regret sous-linéaire.
Les modèles vision-langage (VLMs) sont généralement composés d'un encodeur visuel, par exemple CLIP, et d'un modèle de langage (LM) qui interprète les caractéristiques encodées pour résoudre des tâches en aval. Malgré des progrès remarquables, les VLMs présentent plusieurs lacunes dues aux capacités limitées des encodeurs visuels, comme une "cécité" à certaines caractéristiques d'images, des hallucinations visuelles, etc. Pour résoudre ces problèmes, nous étudions l'élargissement des capacités d'encodage visuel des VLMs. Nous commençons par évaluer de manière exhaustive plusieurs encodeurs visuels avec différents biais inductifs pour résoudre des tâches de VLM. Nous observons qu'il n'existe pas une seule configuration d'encodage qui obtient systématiquement les meilleures performances sur différentes tâches, et que des encodeurs avec des biais différents peuvent avoir des performances étonnamment similaires. Motivés par cela, nous introduisons une méthode, nommée BRAVE, qui consolide les caractéristiques de plusieurs encodeurs figés en une représentation plus polyvalente qui peut être directement utilisée comme entrée d'un LM figé. BRAVE atteint des performances de pointe sur un large éventail de benchmarks de légendage et de VQA, et réduit significativement les problèmes mentionnés des VLMs, tout en nécessitant un nombre moindre de paramètres entraînables par rapport aux méthodes existantes et en ayant une représentation plus compressée. Nos résultats mettent en évidence le potentiel de l'intégration de différents biais visuels pour une compréhension visuelle plus large et contextualisée des VLMs.
La demande croissante d'applications de réalité virtuelle a mis en lumière l'importance de créer des ressources 3D immersives. Nous présentons un pipeline de génération de scènes 360^{circ} à partir de texte, qui facilite la création de scènes 360^{circ} complètes pour des environnements réels en quelques minutes. Notre approche exploite la puissance générative d'un modèle de diffusion 2D et un raffinement automatique des prompts pour créer une image panoramique de haute qualité et globalement cohérente. Cette image sert de représentation initiale "plate" (2D) de la scène. Elle est ensuite transformée en Gaussiennes 3D, en utilisant des techniques de splatting pour permettre une exploration en temps réel. Pour produire une géométrie 3D cohérente, notre pipeline construit une structure spatialement cohérente en alignant la profondeur monoculaire 2D dans un nuage de points globalement optimisé. Ce nuage de points sert d'état initial pour les centroïdes des Gaussiennes 3D. Afin de résoudre les problèmes d'invisibilité inhérents aux entrées à vue unique, nous imposons des contraintes sémantiques et géométriques sur les vues synthétisées et les vues d'entrée de la caméra comme régularisations. Ces contraintes guident l'optimisation des Gaussiennes, aidant à la reconstruction des régions non visibles. En résumé, notre méthode offre une scène 3D globalement cohérente dans une perspective 360^{circ}, fournissant une expérience immersive améliorée par rapport aux techniques existantes. Site du projet : http://dreamscene360.github.io/
Ce travail examine si les Transformers à décodeur uniquement, tels que LLaMA, initialement conçus pour les grands modèles de langage (LLMs), peuvent être adaptés au domaine de la vision par ordinateur. Nous commençons par "LLaMAfier" un ViT standard étape par étape pour l'aligner sur l'architecture de LLaMA, et constatons que l'application directe d'un masque causal à l'auto-attention entraîne un problème d'effondrement de l'attention, ce qui fait échouer l'entraînement du réseau. Nous proposons de repositionner le token de classe derrière les tokens d'image grâce à une technique de token de classe post-séquence pour surmonter ce défi, permettant à l'auto-attention causale de capturer efficacement l'ensemble des informations de l'image. De plus, nous développons une stratégie de masque doux qui introduit progressivement un masque causal à l'auto-attention au début de l'entraînement pour faciliter le comportement d'optimisation. Le modèle adapté, baptisé image LLaMA (iLLaMA), est similaire à LLaMA en architecture et permet un apprentissage supervisé direct. Son auto-attention causale améliore l'efficacité computationnelle et apprend des représentations complexes en augmentant les rangs des cartes d'attention. iLLaMA rivalise avec ses homologues à encodeur uniquement, atteignant une précision top-1 de 75,1% sur ImageNet avec seulement 5,7M de paramètres. Le passage à une échelle de ~310M de paramètres et un pré-entraînement sur ImageNet-21K améliore encore la précision à 86,0%. Des expériences approfondies démontrent les propriétés fiables d'iLLaMA : calibration, biais forme-texture, compatibilité avec la quantification, segmentation ADE20K et apprentissage par transfert sur CIFAR. Nous espérons que notre étude pourra inspirer de nouvelles perspectives dans la conception de modèles visuels à l'ère des LLMs. Les modèles pré-entraînés et les codes sont disponibles ici.
Les ensembles de données existants pour la compréhension audio se concentrent principalement sur des interactions à tour unique (c'est-à-dire la description audio, la réponse à des questions sur l'audio) pour décrire l'audio en langage naturel, limitant ainsi la compréhension de l'audio via un dialogue interactif. Pour combler cette lacune, nous introduisons Audio Dialogues : un ensemble de données de dialogues multi-tours contenant 163,8k échantillons pour des sons audio généraux et de la musique. En plus des dialogues, Audio Dialogues comprend également des paires de questions-réponses pour comprendre et comparer plusieurs entrées audio ensemble. Audio Dialogues utilise une approche basée sur des invites et des annotations de description provenant d'ensembles de données existants pour générer des dialogues multi-tours à l'aide d'un modèle de langage de grande taille (LLM). Nous évaluons les modèles de langage de grande taille augmentés pour l'audio sur notre ensemble de données proposé pour démontrer la complexité et l'applicabilité d'Audio Dialogues. Notre code pour générer l'ensemble de données sera rendu public. Les invites détaillées et les dialogues générés peuvent être consultés sur le site de démonstration https://audiodialogues.github.io/.
Le récent succès des modèles de base pré-entraînés en vision et langage a rendu possible la segmentation à vocabulaire ouvert (Open-Vocabulary Segmentation, OVS). Malgré des performances prometteuses, cette approche introduit des surcharges computationnelles importantes dues à deux défis majeurs : 1) la taille importante des modèles de base ; 2) les coûts élevés lors du fine-tuning. Ces défis limitent l'applicabilité et l'accessibilité de cette stratégie OVS dans des scénarios réels. Bien que les méthodes traditionnelles telles que la compression de modèles et le fine-tuning efficace puissent répondre à ces défis, elles reposent souvent sur des heuristiques. Cela signifie que leurs solutions ne peuvent pas être facilement transférées et nécessitent un ré-entraînement pour différents modèles, ce qui engendre des coûts supplémentaires. Dans le contexte d'une OVS efficace, nous visons à atteindre des performances comparables, voire supérieures, aux travaux précédents basés sur de grands modèles de base en vision et langage, en utilisant des modèles plus petits qui réduisent les coûts d'entraînement. La stratégie centrale consiste à rendre notre efficacité fondée sur des principes, permettant ainsi un transfert fluide d'un cadre OVS à un autre sans nécessiter de personnalisation supplémentaire. Des expériences approfondies sur divers benchmarks OVS démontrent notre meilleur compromis entre précision de segmentation et coûts computationnels par rapport aux travaux précédents. Notre code est disponible sur https://github.com/Xujxyang/OpenTrans.