Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'année dernière, les architectures multimodales ont révolutionné les approches et solutions basées sur l'IA, étendant les capacités des grands modèles de langage (LLM). Nous proposons un modèle OmniFusion basé sur un LLM pré-entraîné et des adaptateurs pour la modalité visuelle. Nous avons évalué et comparé plusieurs principes de conception architecturale pour un meilleur couplage des données textuelles et visuelles : adaptateurs MLP et transformeurs, divers encodeurs basés sur CLIP ViT (SigLIP, InternVIT, etc.), leur approche de fusion, la méthode d'encodage d'images (encodage de l'image entière ou par tuiles) et deux LLM de 7B (un modèle propriétaire et le modèle open-source Mistral). Les expériences sur 8 benchmarks visuels-linguistiques montrent le score le plus élevé pour la meilleure configuration d'OmniFusion en termes de différentes tâches de VQA par rapport aux solutions open-source de type LLaVA : VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. Nous proposons également une variété de situations où OmniFusion fournit des réponses très détaillées dans différents domaines : gestion domestique, tourisme, culture, médecine, reconnaissance d'équations manuscrites et scannées, etc. Le modèle OmniFusion basé sur Mistral est une solution open-source avec les poids, les scripts d'entraînement et d'inférence disponibles à l'adresse https://github.com/AIRI-Institute/OmniFusion.
Les grands modèles de langage à décodeur unique (LLMs) constituent l'état de l'art pour la plupart des tâches et benchmarks actuels en traitement du langage naturel (NLP). Cependant, la communauté adopte lentement ces modèles pour les tâches d'incorporation de texte, qui nécessitent des représentations contextuelles riches. Dans ce travail, nous présentons LLM2Vec, une approche simple et non supervisée capable de transformer n'importe quel LLM à décodeur unique en un puissant encodeur de texte. LLM2Vec se compose de trois étapes simples : 1) activation de l'attention bidirectionnelle, 2) prédiction masquée du token suivant, et 3) apprentissage contrastif non supervisé. Nous démontrons l'efficacité de LLM2Vec en l'appliquant à trois LLMs populaires, allant de 1,3 à 7 milliards de paramètres, et en évaluant les modèles transformés sur des tâches anglaises au niveau des mots et des séquences. Nous surpassons largement les modèles à encodeur unique sur les tâches au niveau des mots et atteignons une nouvelle performance de pointe non supervisée sur le benchmark d'incorporation de texte massif (MTEB). De plus, en combinant LLM2Vec avec un apprentissage contrastif supervisé, nous obtenons une performance de pointe sur MTEB parmi les modèles qui s'entraînent uniquement sur des données publiquement disponibles. Nos résultats empiriques solides et notre analyse approfondie démontrent que les LLMs peuvent être efficacement transformés en encodeurs de texte universels de manière économe en paramètres, sans nécessiter d'adaptation coûteuse ou de données synthétiques générées par GPT-4.
Nous présentons Eagle (RWKV-5) et Finch (RWKV-6), des modèles de séquence qui améliorent l'architecture RWKV (RWKV-4). Nos avancées en matière de conception architecturale incluent des états matriciels multi-têtes et un mécanisme de récurrence dynamique qui améliorent l'expressivité tout en conservant les caractéristiques d'efficacité en inférence des RNN. Nous introduisons un nouveau corpus multilingue contenant 1,12 trillion de tokens ainsi qu'un tokeniseur rapide basé sur l'appariement glouton pour une meilleure prise en charge du multilinguisme. Nous avons entraîné quatre modèles Eagle, allant de 0,46 à 7,5 milliards de paramètres, et deux modèles Finch avec 1,6 et 3,1 milliards de paramètres, et constatons qu'ils atteignent des performances compétitives sur une large variété de benchmarks. Nous publions tous nos modèles sur HuggingFace sous licence Apache 2.0. Les modèles sont disponibles à l'adresse : https://huggingface.co/RWKV Le code d'entraînement est disponible à l'adresse : https://github.com/RWKV/RWKV-LM Le code d'inférence est disponible à l'adresse : https://github.com/RWKV/ChatRWKV Le code d'entraînement parallèle dans le temps est disponible à l'adresse : https://github.com/RWKV/RWKV-infctx-trainer
Le domaine des grands modèles vision-langage (Large Vision-Language Models, LVLM) a connu des avancées significatives, mais sa progression a été entravée par des difficultés à comprendre le contenu visuel fin en raison d'une résolution limitée. Des efforts récents ont visé à améliorer les capacités de compréhension en haute résolution des LVLM, mais celles-ci restent limitées à environ 1500 x 1500 pixels et contraintes à une plage de résolution relativement étroite. Ce document présente InternLM-XComposer2-4KHD, une exploration novatrice visant à élever les capacités de résolution des LVLM jusqu'à la 4K HD (3840 x 1600) et au-delà. Parallèlement, considérant que la résolution ultra-haute n'est pas nécessaire dans tous les scénarios, il prend en charge une large gamme de résolutions variées, de 336 pixels à la norme 4K, élargissant ainsi considérablement son champ d'applicabilité. Plus précisément, cette recherche fait progresser le paradigme de division en patchs en introduisant une nouvelle extension : la résolution dynamique avec configuration automatique des patchs. Elle maintient les ratios d'aspect des images d'entraînement tout en faisant varier automatiquement le nombre de patchs et en configurant les dispositions basées sur un Vision Transformer (ViT) pré-entraîné (336 x 336), conduisant à une résolution d'entraînement dynamique allant de 336 pixels à la norme 4K. Nos recherches démontrent que l'augmentation de la résolution d'entraînement jusqu'à la 4K HD entraîne des améliorations de performance constantes sans atteindre un plafond de potentiel d'amélioration. InternLM-XComposer2-4KHD montre une capacité exceptionnelle qui rivalise ou dépasse même GPT-4V et Gemini Pro dans 10 des 16 benchmarks. La série de modèles InternLM-XComposer2-4KHD avec 7 milliards de paramètres est disponible publiquement à l'adresse https://github.com/InternLM/InternLM-XComposer.
L'engouement croissant pour le développement de modèles de langage de grande taille (LLMs) comptant jusqu'à des milliers de milliards de paramètres a suscité des préoccupations concernant l'efficacité des ressources et les coûts pratiques, en particulier compte tenu du coût exorbitant des expérimentations. Ce contexte souligne l'importance d'explorer le potentiel des modèles de langage de petite taille (SLMs) comme alternative économe en ressources. Dans ce cadre, nous présentons MiniCPM, notamment les variantes de 1,2 milliard et 2,4 milliards de paramètres hors plongement, qui non seulement excellent dans leurs catégories respectives, mais démontrent également des capacités comparables à celles des LLMs de 7 à 13 milliards de paramètres. Tout en nous concentrant sur les SLMs, notre approche montre une scalabilité à la fois en termes de modèle et de données pour les futures recherches sur les LLMs. Concernant la scalabilité des modèles, nous utilisons des expériences approfondies en soufflerie pour un dimensionnement stable et optimal. Pour la scalabilité des données, nous introduisons un planificateur de taux d'apprentissage (LRS) Warmup-Stable-Decay (WSD), propice à l'entraînement continu et à l'adaptation de domaine. Nous présentons une analyse approfondie des dynamiques d'entraînement intrigantes survenues avec le LRS WSD. Grâce au LRS WSD, nous sommes désormais en mesure d'étudier efficacement la loi de scalabilité données-modèle sans avoir besoin de mener des expériences de réentraînement intensives sur les deux axes du modèle et des données, ce qui nous permet de dériver un ratio optimal données-modèle bien supérieur à celui de Chinchilla Optimal. Par ailleurs, nous introduisons la famille MiniCPM, comprenant MiniCPM-DPO, MiniCPM-MoE et MiniCPM-128K, dont les performances exceptionnelles renforcent encore la position de MiniCPM dans diverses applications SLM. Les modèles MiniCPM sont disponibles publiquement à l'adresse https://github.com/OpenBMB/MiniCPM.
Le réglage par instructions est devenu un élément clé pour aligner les grands modèles de langage (LLMs) avec des instructions de tâches spécifiques, atténuant ainsi l'écart entre l'objectif de prédiction du prochain jeton et les objectifs réels des utilisateurs. Pour réduire les coûts en main-d'œuvre et en temps liés à la collecte ou à l'annotation de données par des humains, les chercheurs ont commencé à explorer l'utilisation des LLMs pour générer des données synthétiques alignées sur les instructions. Les travaux récents se concentrent sur la génération d'instructions diversifiées et sur l'application des LLMs pour augmenter la complexité des instructions, souvent en négligeant les cas d'utilisation en aval. Il reste incertain comment adapter des données de haute qualité pour susciter de meilleures capacités de suivi d'instructions dans différentes distributions d'instructions cibles et LLMs. À cette fin, nous introduisons CodecLM, un cadre général pour générer de manière adaptative des données synthétiques de haute qualité pour l'alignement des LLMs avec différentes distributions d'instructions en aval et LLMs. En nous appuyant sur les principes Encode-Decode, nous utilisons les LLMs comme codecs pour guider le processus de génération de données. Nous encodons d'abord les instructions de départ en métadonnées, qui sont des mots-clés concis générés à la volée pour capturer la distribution d'instructions cible, puis nous décodons les métadonnées pour créer des instructions adaptées. Nous introduisons également Self-Rubrics et le filtrage contrastif lors du décodage pour adapter des échantillons de données efficaces. Des expériences approfondies sur quatre benchmarks de suivi d'instructions en domaine ouvert valident l'efficacité de CodecLM par rapport aux méthodes actuelles de pointe.
Dans cet article, nous explorons l'application des modèles de langage à grande échelle (LLMs) au pré-entraînement pour la musique. Bien que l'utilisation prédominante du MIDI dans la modélisation musicale soit bien établie, nos résultats suggèrent que les LLMs sont intrinsèquement plus compatibles avec la notation ABC, qui s'aligne davantage avec leur conception et leurs forces, améliorant ainsi les performances du modèle en composition musicale. Pour répondre aux défis liés à la désynchronisation des mesures entre différentes pistes lors de la génération, nous proposons le développement d'une notation ABC multi-pistes synchronisée (SMT-ABC Notation), visant à préserver la cohérence entre plusieurs pistes musicales. Nos contributions incluent une série de modèles capables de gérer jusqu'à 8192 tokens, couvrant 90 % des données de musique symbolique dans notre ensemble d'entraînement. De plus, nous explorons les implications de la loi d'échelle de la musique symbolique (SMS Law) sur les performances du modèle. Les résultats indiquent une direction prometteuse pour les recherches futures en génération musicale, offrant des ressources étendues pour la recherche communautaire grâce à nos contributions open-source.
L'évolution de la modélisation générative 3D a été notablement propulsée par l'adoption des modèles de diffusion 2D. Malgré ces avancées, le processus d'optimisation fastidieux en lui-même représente un obstacle critique à l'efficacité. Dans cet article, nous présentons Hash3D, une accélération universelle pour la génération 3D sans entraînement de modèle. Au cœur de Hash3D se trouve l'observation que la redondance des cartes de caractéristiques est omniprésente dans les images rendues à partir de positions de caméra et d'étapes de diffusion proches. En hachant et en réutilisant efficacement ces cartes de caractéristiques à travers les étapes temporelles et les angles de caméra voisins, Hash3D prévient substantiellement les calculs redondants, accélérant ainsi l'inférence du modèle de diffusion dans les tâches de génération 3D. Nous y parvenons grâce à un hachage adaptatif basé sur une grille. Étonnamment, ce mécanisme de partage de caractéristiques non seulement accélère la génération, mais améliore également la fluidité et la cohérence visuelle des objets 3D synthétisés. Nos expériences couvrant 5 modèles de texte-à-3D et 3 modèles d'image-à-3D démontrent la polyvalence de Hash3D à accélérer l'optimisation, améliorant l'efficacité de 1,3 à 4 fois. De plus, l'intégration de Hash3D avec le splatting 3D Gaussien accélère considérablement la création de modèles 3D, réduisant le traitement texte-à-3D à environ 10 minutes et la conversion image-à-3D à environ 30 secondes. La page du projet se trouve à l'adresse https://adamdad.github.io/hash3D/.
Malgré la disponibilité généralisée des LLM (modèles de langage de grande taille), il subsiste un écart important dans leurs capacités et leur accessibilité à travers diverses langues. Une approche pour résoudre ces problèmes consiste à prendre un LLM pré-entraîné existant et à poursuivre son entraînement sur de nouvelles langues. Bien que des travaux antérieurs aient expérimenté l'adaptation linguistique, de nombreuses questions concernant les meilleures pratiques et la méthodologie restent sans réponse. Dans cet article, nous présentons une investigation approfondie de l'adaptation des LLM à de nouvelles langues. Notre étude couvre les composants clés de ce processus, notamment l'extension du vocabulaire, l'optimisation directe des préférences et le problème de la rareté des données pour l'alignement humain dans les langues à ressources limitées. Nous menons ces expériences à l'échelle de 9 langues et 2 tailles de paramètres (7B et 70B). Nous comparons nos modèles à Llama 2, Aya-101, XGLM, BLOOM et aux experts linguistiques existants, surpassant toutes les références publiées précédemment. De plus, tout le code d'évaluation et les points de contrôle sont rendus publics pour faciliter les recherches futures.
La génération de texte-à-3D a connu un succès remarquable grâce aux modèles de diffusion à grande échelle de texte-à-image. Néanmoins, il n'existe pas de paradigme pour étendre cette méthodologie à l'échelle urbaine. Les scènes urbaines, caractérisées par de nombreux éléments, des relations d'arrangement complexes et une échelle vaste, représentent un obstacle redoutable à l'interprétabilité des descriptions textuelles ambiguës pour une optimisation efficace des modèles. Dans ce travail, nous surmontons ces limitations en introduisant une représentation compositionnelle de mise en page 3D dans le paradigme texte-à-3D, servant de prior supplémentaire. Elle comprend un ensemble de primitives sémantiques avec des structures géométriques simples et des relations d'arrangement explicites, complétant les descriptions textuelles et permettant une génération pilotable. Sur cette base, nous proposons deux modifications : (1) Nous introduisons la Distillation de Score Variationnelle Guidée par la Mise en Page pour remédier aux insuffisances d'optimisation des modèles. Elle conditionne le processus d'échantillonnage de distillation de score avec des contraintes géométriques et sémantiques des mises en page 3D. (2) Pour gérer la nature illimitée des scènes urbaines, nous représentons la scène 3D avec une structure de Grille de Hachage Évolutive, s'adaptant progressivement à l'échelle croissante des scènes urbaines. Des expériences approfondies confirment la capacité de notre cadre à étendre la génération texte-à-3D à des scènes urbaines à grande échelle couvrant une distance de conduite de plus de 1000 mètres pour la première fois. Nous présentons également diverses démonstrations d'édition de scènes, montrant les capacités de la génération pilotable de scènes urbaines. Site web : https://urbanarchitect.github.io.
Dans cet article, nous abordons les limitations du contrôle adaptatif de densité (ADC) dans le cadre du lissage gaussien 3D (3DGS), une méthode de représentation de scène permettant d'obtenir des résultats photoréalistes de haute qualité pour la synthèse de nouvelles vues. L'ADC a été introduit pour gérer automatiquement les primitives de points 3D, en contrôlant la densification et l'élagage, mais présente certaines limites dans sa logique de densification. Notre principale contribution est une formulation plus rigoureuse, basée sur l'erreur par pixel, pour le contrôle de densité dans le 3DGS, en exploitant une fonction d'erreur auxiliaire par pixel comme critère de densification. Nous introduisons également un mécanisme pour contrôler le nombre total de primitives générées par scène et corrigeons un biais dans la stratégie actuelle de gestion de l'opacité de l'ADC lors des opérations de clonage. Notre approche permet des améliorations qualitatives cohérentes sur une variété de scènes de référence, sans sacrifier l'efficacité de la méthode.
Profitant du développement rapide des modèles de diffusion 2D, la création de contenu 3D a récemment réalisé des progrès significatifs. Une solution prometteuse consiste à affiner des modèles de diffusion 2D pré-entraînés pour exploiter leur capacité à produire des images multi-vues, qui sont ensuite transformées en modèles 3D précis via des méthodes comme les fast-NeRFs ou les grands modèles de reconstruction. Cependant, en raison de l'incohérence persistante et de la résolution générée limitée, les résultats de génération de ces méthodes manquent encore de textures complexes et de géométries détaillées. Pour résoudre ce problème, nous proposons Magic-Boost, un modèle de diffusion conditionné multi-vues qui affine significativement les résultats génératifs bruts grâce à une courte période d'optimisation SDS (sim15min). Comparé aux précédents modèles de diffusion basés sur du texte ou une seule image, Magic-Boost démontre une capacité robuste à générer des images hautement cohérentes à partir d'images multi-vues pseudo-synthétisées. Il fournit un guidage SDS précis qui s'aligne bien avec l'identité des images d'entrée, enrichissant les détails locaux tant en géométrie qu'en texture des résultats génératifs initiaux. Des expériences approfondies montrent que Magic-Boost améliore grandement les entrées brutes et génère des actifs 3D de haute qualité avec des détails géométriques et texturaux riches. (Page du projet : https://magic-research.github.io/magic-boost/)
Les objets manipulés par la main (c'est-à-dire les manipulanda) sont particulièrement difficiles à reconstruire à partir d'images ou de vidéos RGB capturées en conditions réelles. Non seulement la main occulte une grande partie de l'objet, mais celui-ci est souvent visible dans un nombre limité de pixels de l'image. Parallèlement, deux ancrages forts émergent dans ce contexte : (1) les mains 3D estimées aident à désambiguïser la localisation et l'échelle de l'objet, et (2) l'ensemble des manipulanda est restreint par rapport à tous les objets possibles. Forts de ces observations, nous proposons un paradigme évolutif pour la reconstruction d'objets tenus en main, s'appuyant sur les récentes avancées des grands modèles de langage/vision et des ensembles de données d'objets 3D. Notre modèle, MCC-Hand-Object (MCC-HO), reconstruit conjointement la géométrie de la main et de l'objet à partir d'une seule image RGB et d'une main 3D inférée en entrée. Ensuite, nous utilisons GPT-4(V) pour récupérer un modèle 3D d'objet correspondant à celui de l'image et l'aligner rigidement avec la géométrie inférée par le réseau ; nous appelons cet alignement Reconstruction Augmentée par Récupération (Retrieval-Augmented Reconstruction, RAR). Les expériences montrent que MCC-HO atteint des performances de pointe sur des ensembles de données de laboratoire et d'Internet, et nous démontrons comment RAR peut être utilisé pour obtenir automatiquement des étiquettes 3D pour des images en conditions réelles d'interactions main-objet.
Alors que de nombreux travaux ont démontré comment les modèles de langage de grande taille (LLMs) peuvent être appliqués à un ensemble diversifié de tâches, les problèmes critiques de contamination des données et de mémorisation sont souvent négligés. Dans ce travail, nous abordons cette préoccupation pour les données tabulaires. Plus précisément, nous introduisons une variété de techniques différentes pour évaluer si un modèle de langage a été exposé à un ensemble de données tabulaires pendant son entraînement. Cette investigation révèle que les LLMs ont mémorisé de nombreux ensembles de données tabulaires populaires mot pour mot. Nous comparons ensuite les performances d'apprentissage en few-shot des LLMs sur des ensembles de données vus pendant l'entraînement à celles sur des ensembles de données publiés après l'entraînement. Nous constatons que les LLMs performent mieux sur les ensembles de données vus pendant l'entraînement, indiquant que la mémorisation conduit à un surajustement. Parallèlement, les LLMs montrent des performances non négligeables sur des ensembles de données nouveaux et sont étonnamment robustes aux transformations de données. Nous étudions ensuite les capacités d'apprentissage statistique en contexte des LLMs. Sans fine-tuning, nous constatons qu'elles sont limitées. Cela suggère qu'une grande partie des performances en few-shot sur des ensembles de données nouveaux est due aux connaissances générales du LLM. Dans l'ensemble, nos résultats soulignent l'importance de tester si un LLM a été exposé à un ensemble de données d'évaluation pendant le pré-entraînement. Nous mettons à disposition les tests d'exposition que nous avons développés sous la forme du package Python tabmemcheck à l'adresse https://github.com/interpretml/LLM-Tabular-Memorization-Checker.