Articles de recherche en IA sélectionnés quotidiennement avec traductions
La capacité d'interpréter avec précision des informations visuelles complexes est un sujet crucial des grands modèles de langage multimodaux (MLLM). Des travaux récents indiquent que l'amélioration de la perception visuelle réduit significativement les hallucinations et améliore les performances sur des tâches sensibles à la résolution, telles que la reconnaissance optique de caractères et l'analyse de documents. Plusieurs MLLMs récents atteignent cet objectif en utilisant un mélange de codeurs visuels. Malgré leur succès, il existe un manque de comparaisons systématiques et d'études d'ablation détaillées abordant des aspects critiques, tels que la sélection d'experts et l'intégration de plusieurs experts en vision. Cette étude propose une exploration approfondie de l'espace de conception des MLLMs en utilisant un mélange de codeurs visuels et de résolutions. Nos résultats révèlent plusieurs principes sous-jacents communs à diverses stratégies existantes, conduisant à une approche de conception simplifiée mais efficace. Nous découvrons que simplement concaténer des jetons visuels issus d'un ensemble de codeurs visuels complémentaires est aussi efficace que des architectures ou stratégies de mélange plus complexes. Nous introduisons également la Pré-Alignement pour combler le fossé entre les codeurs axés sur la vision et les jetons de langage, améliorant la cohérence du modèle. La famille de MLLMs résultante, Eagle, surpasse d'autres modèles open-source de premier plan sur les principaux bancs d'essai de MLLM. Modèles et code : https://github.com/NVlabs/Eagle
Les capacités générales des Grands Modèles de Langage (GML) dépendent fortement de la composition et de la sélection de vastes ensembles de données de pré-entraînement, traités comme des secrets commerciaux par plusieurs institutions. Pour atténuer ce problème, nous rendons publics les détails d'un pipeline de traitement de données universellement applicable et validons son efficacité et son potentiel en introduisant une ligne de base compétitive de GML. Plus précisément, le pipeline de traitement des données comprend une collecte large pour augmenter l'échelle et un rééquilibrage pour améliorer la qualité. Nous pré-entraînons ensuite un modèle 7B BaichuanSEED avec 3T de jetons traités par notre pipeline sans aucune optimisation délibérée liée à des tâches en aval, suivi d'une étape de fine-tuning supervisée simple mais efficace. BaichuanSEED démontre une cohérence et une prévisibilité tout au long de l'entraînement et atteint des performances comparables sur des référentiels complets avec plusieurs grands modèles de langage commerciaux avancés, tels que Qwen1.5 et Llama3. Nous menons également plusieurs expériences heuristiques pour discuter du potentiel d'optimisation supplémentaire des tâches en aval, telles que les mathématiques et la programmation.
Cet article présente Dolphin, une architecture novatrice de décodeur-décodeur pour le traitement économe en énergie de longs contextes dans les modèles de langage. Notre approche aborde les importants défis de consommation d'énergie et de latence inhérents aux modèles embarqués. Dolphin utilise un décodeur compact de 0,5 milliard de paramètres pour condenser de vastes informations contextuelles dans un encodage en mémoire, réduisant considérablement la longueur d'entrée pour le modèle de décodeur principal de 7 milliards de paramètres. Inspirés par les modèles vision-langage, nous réutilisons le projecteur d'encodage d'image pour encoder de longs contextes textuels, traitant efficacement le contexte étendu comme une modalité distincte. Cette méthode innovante permet de traiter des contextes nettement plus longs sans la surcharge computationnelle habituelle associée aux séquences d'entrée étendues. Les évaluations empiriques montrent une amélioration de 10 fois de l'efficacité énergétique et une réduction de 5 fois de la latence par rapport aux méthodes conventionnelles de traitement de contexte complet sans perte de qualité de la réponse. Notre travail contribue au développement de modèles de langage plus durables et évolutifs pour les applications embarquées, répondant au besoin critique de technologies d'IA économes en énergie et réactives dans des environnements aux ressources limitées tout en maintenant la précision pour comprendre de longs contextes. Cette recherche a des implications pour le domaine plus large du traitement du langage naturel, en particulier dans le domaine de la conception efficace de modèles pour des paramètres limités. En permettant des capacités d'IA plus sophistiquées sur les appareils périphériques, Dolphin ouvre la voie au traitement de langage avancé dans un large éventail d'applications où les ressources computationnelles sont rares. Le modèle Dolphin est disponible publiquement sur https://huggingface.co/NexaAIDev/Dolphin.
Nous présentons LLaVA-MoD, un nouveau cadre conçu pour permettre l'entraînement efficace de petits Modèles de Langage Multimodaux (s-MLLM) en distillant les connaissances des grands MLLM (l-MLLM). Notre approche aborde deux défis fondamentaux de la distillation des MLLM. Tout d'abord, nous optimisons la structure du réseau des s-MLLM en intégrant une architecture de Mélange d'Experts (MoE) clairsemés dans le modèle de langage, trouvant un équilibre entre l'efficacité computationnelle et l'expressivité du modèle. Ensuite, nous proposons une stratégie progressive de transfert de connaissances pour garantir une migration complète des connaissances. Cette stratégie commence par la distillation par mimétisme, où nous minimisons la divergence de Kullback-Leibler (KL) entre les distributions de sortie pour permettre au modèle étudiant d'imiter la compréhension du réseau enseignant. Ensuite, nous introduisons la distillation des préférences via l'Optimisation Directe des Préférences (DPO), où la clé réside dans le traitement du l-MLLM comme modèle de référence. Au cours de cette phase, la capacité du s-MLLM à discriminer entre des exemples supérieurs et inférieurs est considérablement améliorée par rapport au l-MLLM, conduisant à un meilleur étudiant qui dépasse son enseignant, en particulier dans les évaluations de l'hallucination. Des expériences approfondies démontrent que LLaVA-MoD surpasse les modèles existants sur diverses évaluations multimodales tout en maintenant un nombre minimal de paramètres activés et des coûts computationnels bas. Remarquablement, LLaVA-MoD, avec seulement 2 milliards de paramètres activés, surpasse Qwen-VL-Chat-7B en moyenne de 8,8 % sur les évaluations, en utilisant seulement 0,3 % des données d'entraînement et 23 % des paramètres entraînables. Ces résultats soulignent la capacité de LLaVA-MoD à distiller efficacement des connaissances complètes de son modèle enseignant, ouvrant la voie au développement de MLLM plus efficaces. Le code sera disponible sur : https://github.com/shufangxun/LLaVA-MoD.
Dans l'inférence de grands modèles de langage (LLM), la longueur de sortie d'une requête LLM est généralement considérée comme inconnue a priori. Par conséquent, la plupart des systèmes de traitement LLM utilisent une stratégie de planification simple de type premier arrivé, premier servi (FCFS), entraînant un blocage de tête de ligne (HOL) et une réduction du débit et de la qualité de service. Dans cet article, nous réexaminons cette hypothèse -- nous montrons que, bien qu'il soit impossible de prédire la longueur exacte de génération de chaque requête, il est possible de prédire les rangs relatifs des longueurs de sortie dans un lot de requêtes, en utilisant l'apprentissage pour le classement. Les informations de classement offrent des orientations précieuses pour la planification des requêtes. En nous appuyant sur cette observation, nous développons un nouveau planificateur pour l'inférence et le traitement LLM qui peut mieux approximer le calendrier du plus court travail d'abord (SJF) que les approches existantes. Nous intégrons ce planificateur avec le système de traitement LLM de pointe et montrons une amélioration significative des performances dans plusieurs applications importantes : une réduction de 2,8 fois de la latence dans le traitement des chatbots et une augmentation de 6,5 fois du débit dans la génération de données synthétiques. Notre code est disponible sur https://github.com/hao-ai-lab/vllm-ltr.git
La cultivation de l'expertise pour les grands modèles de langage (GML) afin de résoudre des tâches spécifiques nécessite souvent un réglage spécialisé avec des comportements calibrés sur les sorties stables attendues. Pour éviter les coûts énormes liés à la préparation manuelle de jeux de données d'instructions et de ressources de formation pouvant atteindre des centaines d'heures, l'exploitation des connaissances ouvertes, y compris une multitude de modèles d'adaptation de faible rang (LoRA) et de jeux de données d'instructions, sert de bon point de départ. Cependant, les méthodes existantes de sélection de modèles et de données se concentrent sur les performances des capacités polyvalentes tout en négligeant l'écart de connaissances exposé dans le déploiement spécifique au domaine. Dans la présente étude, nous proposons de combler cet écart en introduisant quelques échantillons annotés par des humains (c'est-à-dire, K-shot) pour faire progresser l'expertise des GML avec des connaissances ouvertes. Plus précisément, nous développons un pipeline efficace et évolutif pour produire de manière rentable des experts en tâches où les données K-shot interviennent dans la sélection des candidats experts les plus prometteurs et des instructions pertinentes pour la tâche. Un système de mélange d'experts (MoE) est construit pour tirer le meilleur parti des connaissances individuelles mais complémentaires entre plusieurs experts. Nous révélons les deux clés du succès d'un système MoE, 1) le respect de K-shot, et 2) l'insistance sur la diversité. Pour le premier point, nous nous assurons que les modèles qui possèdent réellement des capacités de résolution de problèmes sur K-shot sont sélectionnés plutôt que les devineurs aveugles. De plus, lors de la sélection des données, les instructions partageant des contextes pertinents pour la tâche avec K-shot sont priorisées. Pour le second point, nous mettons en avant la diversité des experts constitutifs et celle des instructions de peaufinage tout au long du processus de sélection de modèles et de données. Des résultats expérimentaux approfondis confirment la supériorité de notre approche par rapport aux méthodes existantes sur l'utilisation des connaissances ouvertes dans diverses tâches. Les codes et les modèles seront publiés ultérieurement.
Accélérer la vitesse d'échantillonnage des modèles de diffusion reste un défi significatif. Les récents méthodes de distillation de score distillent un modèle enseignant lourd en un générateur étudiant à une étape, qui est optimisé en calculant la différence entre les deux fonctions de score sur les échantillons générés par le modèle étudiant. Cependant, il existe un problème de désaccord de score au début du processus de distillation, car les méthodes existantes se concentrent principalement sur l'utilisation du point final des modèles de diffusion pré-entraînés en tant que modèles enseignants, en négligeant l'importance de la trajectoire de convergence entre le générateur étudiant et le modèle enseignant. Pour résoudre ce problème, nous étendons le processus de distillation de score en introduisant l'ensemble de la trajectoire de convergence des modèles enseignants et proposons la Distillation avec Retour sur Distribution (DisBack) pour distiller les générateurs étudiants. DisBack se compose de deux étapes : Enregistrement de la Détérioration et Retour sur Distribution. L'Enregistrement de la Détérioration est conçu pour obtenir la trajectoire de convergence des modèles enseignants, qui enregistre le chemin de détérioration du modèle enseignant entraîné au générateur étudiant initial non entraîné. Le chemin de détérioration représente implicitement les distributions intermédiaires des modèles enseignants. Ensuite, le Retour sur Distribution entraîne un générateur étudiant à revenir sur les distributions intermédiaires pour approximer la trajectoire de convergence des modèles enseignants. Des expériences approfondies montrent que DisBack atteint une convergence plus rapide et meilleure que la méthode de distillation existante et réalise des performances de génération comparables. Notamment, DisBack est facile à implémenter et peut être généralisé aux méthodes de distillation existantes pour améliorer les performances. Notre code est publiquement disponible sur https://github.com/SYZhang0805/DisBack.
La croissance exponentielle de la littérature scientifique nécessite des outils avancés pour une exploration efficace des connaissances. Nous présentons Knowledge Navigator, un système conçu pour améliorer les capacités de recherche exploratoire en organisant et structurant les documents récupérés à partir de requêtes thématiques larges en une hiérarchie navigable à deux niveaux de sujets scientifiques nommés et descriptifs ainsi que de sous-sujets. Cette organisation structurée offre une vue d'ensemble des thèmes de recherche dans un domaine, tout en permettant une recherche itérative et une découverte de connaissances approfondie au sein de sous-sujets spécifiques en permettant aux utilisateurs d'affiner leur focus et de récupérer des documents pertinents supplémentaires. Knowledge Navigator combine les capacités de LLM avec des méthodes basées sur des clusters pour permettre une méthode de navigation efficace. Nous démontrons l'efficacité de notre approche à travers des évaluations automatiques et manuelles sur deux nouveaux bancs d'essai, CLUSTREC-COVID et SCITOC. Notre code, nos invites et nos bancs d'essai sont rendus publiquement disponibles.
Pour les modèles de Mixture-of-Experts (MoE), une charge d'experts déséquilibrée entraînera un effondrement du routage ou une augmentation des coûts de calcul. Les méthodes existantes utilisent couramment une perte auxiliaire pour encourager l'équilibre de charge, mais une grande perte auxiliaire introduira des gradients d'interférence non négligeables dans l'entraînement et nuira ainsi aux performances du modèle. Afin de contrôler l'équilibre de charge sans produire de gradients indésirables pendant l'entraînement, nous proposons l'Équilibrage sans Perte, caractérisé par une stratégie d'équilibrage de charge sans perte auxiliaire. Plus précisément, avant la décision de routage top-K, l'Équilibrage sans Perte appliquera d'abord un biais spécifique à chaque expert aux scores de routage de chaque expert. En mettant à jour dynamiquement le biais de chaque expert en fonction de sa charge récente, l'Équilibrage sans Perte peut maintenir de manière constante une distribution équilibrée de la charge des experts. De plus, étant donné que l'Équilibrage sans Perte ne produit aucun gradient d'interférence, il élève également la limite supérieure des performances du modèle obtenues à partir de l'entraînement MoE. Nous validons les performances de l'Équilibrage sans Perte sur des modèles MoE avec jusqu'à 3 milliards de paramètres entraînés sur jusqu'à 200 milliards de jetons. Les résultats expérimentaux montrent que l'Équilibrage sans Perte atteint à la fois de meilleures performances et un meilleur équilibre de charge par rapport aux stratégies traditionnelles d'équilibrage de charge contrôlées par perte auxiliaire.
Alors que l'architecture Mamba démontre une efficacité d'inférence supérieure et des performances compétitives sur des tâches de traitement automatique du langage naturel (TALN) à court contexte, des preuves empiriques suggèrent que sa capacité à comprendre de longs contextes est limitée par rapport aux modèles basés sur les transformers. Dans cette étude, nous examinons les problèmes d'efficacité des longs contextes des modèles Mamba et proposons ReMamba, qui améliore la capacité de Mamba à comprendre de longs contextes. ReMamba intègre des techniques de compression sélective et d'adaptation dans un processus de réacheminement en deux étapes, entraînant des coûts d'inférence supplémentaires minimes. Les résultats expérimentaux sur les bancs d'essai LongBench et L-Eval démontrent l'efficacité de ReMamba, améliorant respectivement les références de 3,2 et 1,6 points, et atteignant des performances presque équivalentes à celles des modèles transformers de même taille.
Nous explorons comment améliorer les modèles de prédiction du prochain jeton pour réaliser un apprentissage par imitation en contexte sur un vrai robot, où le robot exécute de nouvelles tâches en interprétant les informations contextuelles fournies lors de la phase d'entrée, sans mettre à jour ses paramètres de politique sous-jacents. Nous proposons l'In-Context Robot Transformer (ICRT), un transformateur causal qui effectue des prédictions autorégressives sur les trajectoires sensorimotrices sans se fier à des données linguistiques ou à une fonction de récompense. Cette formulation permet une exécution flexible et sans entraînement de nouvelles tâches au moment du test, réalisée en incitant le modèle avec des trajectoires sensorimotrices de la nouvelle tâche composées d'observations d'images, d'actions et de tuples d'états, collectées via une téléopération humaine. Des expériences avec un robot Franka Emika démontrent que l'ICRT peut s'adapter à de nouvelles tâches spécifiées par des incitations, même dans des configurations d'environnement différentes à la fois de l'incitation et des données d'entraînement. Dans un environnement multitâche, l'ICRT surpasse significativement les modèles actuels de prédiction du prochain jeton de pointe en robotique en généralisant à des tâches non vues. Le code, les points de contrôle et les données sont disponibles sur https://icrt.dev/
L'utilisation de parties de modèles existants pour reconstruire de nouveaux modèles, communément appelée modélisation par l'exemple, est une méthodologie classique dans le domaine de la graphique par ordinateur. Les travaux précédents se concentrent principalement sur la composition des formes, ce qui les rend très difficiles à utiliser pour la composition réaliste d'objets 3D capturés à partir de scènes du monde réel. Cela conduit à combiner plusieurs NeRFs dans une seule scène 3D pour obtenir un mélange d'apparence homogène. Cependant, la méthode actuelle SeamlessNeRF a du mal à atteindre l'édition interactive et l'assemblage harmonieux pour les scènes du monde réel en raison de sa stratégie basée sur les gradients et de sa représentation basée sur une grille. À cette fin, nous présentons une méthode de modélisation par l'exemple qui combine plusieurs champs gaussiens dans une représentation basée sur des points en utilisant une synthèse guidée par des échantillons. Plus précisément, en ce qui concerne la composition, nous créons une interface graphique utilisateur (GUI) pour segmenter et transformer plusieurs champs en temps réel, obtenant facilement une composition sémantiquement significative de modèles représentés par un Étalement Gaussien 3D (3DGS). Pour le mélange de textures, en raison de la nature discrète et irrégulière du 3DGS, l'application directe de la propagation de gradient comme dans SeamlessNeRF n'est pas prise en charge. Ainsi, une nouvelle méthode de clonage basée sur des échantillons est proposée pour harmoniser le mélange tout en préservant la texture et le contenu originaux riches. Notre flux de travail se compose de trois étapes : 1) segmentation et transformation en temps réel d'un modèle gaussien à l'aide d'une GUI bien conçue, 2) analyse KNN pour identifier les points de frontière dans la zone d'intersection entre les modèles source et cible, et 3) optimisation en deux phases du modèle cible en utilisant le clonage basé sur des échantillons et des contraintes de gradient. Des résultats expérimentaux approfondis valident que notre approche surpasse significativement les travaux précédents en termes de synthèse réaliste, démontrant sa praticité. Plus de démonstrations sont disponibles sur https://ingra14m.github.io/gs_stitching_website.
Au cours des dernières années, des progrès significatifs ont été réalisés dans la création d'avatars 3D photoréalistes et conduisables uniquement à partir de vidéos de vrais humains. Cependant, un défi central persistant est l'édition fine et conviviale des styles vestimentaires au moyen de descriptions textuelles. À cette fin, nous présentons TEDRA, la première méthode permettant des modifications basées sur du texte d'un avatar, qui maintient la fidélité élevée de l'avatar, la cohérence spatio-temporelle, ainsi que la dynamique, et permet le contrôle de la pose squelettique et de la vue. Nous commençons par entraîner un modèle pour créer une réplique numérique contrôlable et haute fidélité de l'acteur réel. Ensuite, nous personnalisons un modèle de diffusion générative pré-entraîné en le peaufinant sur diverses images du personnage réel capturées sous différents angles de caméra, garantissant que la représentation numérique capture fidèlement la dynamique et les mouvements de la personne réelle. Ce processus en deux étapes pose les bases de notre approche de l'édition dynamique d'avatars humains. En utilisant ce modèle de diffusion personnalisé, nous modifions l'avatar dynamique en fonction d'une instruction textuelle fournie en utilisant notre Échantillonnage de Distillation de Score Aligné Normal Personnalisé (PNA-SDS) dans un cadre de guidage basé sur le modèle. De plus, nous proposons une stratégie d'annulation des étapes temporelles pour garantir des modifications de haute qualité. Nos résultats démontrent une nette amélioration par rapport aux travaux antérieurs en termes de fonctionnalité et de qualité visuelle.