Articles de recherche en IA sélectionnés quotidiennement avec traductions
La récente montée en puissance des Modèles de Langage Multimodaux de Grande Taille (MLLMs) a fondamentalement redéfini le paysage de la recherche et de l'industrie en IA, ouvrant une voie prometteuse vers le prochain jalon de l'intelligence artificielle. Cependant, des défis majeurs persistent, empêchant les MLLMs d'être pratiques dans des applications réelles. Le défi le plus notable réside dans le coût élevé d'exécution d'un MLLM avec un nombre massif de paramètres et des calculs extensifs. En conséquence, la plupart des MLLMs doivent être déployés sur des serveurs cloud hautes performances, ce qui limite grandement leurs domaines d'application, tels que les scénarios mobiles, hors ligne, sensibles à l'énergie et protecteurs de la vie privée. Dans ce travail, nous présentons MiniCPM-V, une série de MLLMs efficaces déployables sur des appareils terminaux. En intégrant les dernières techniques de MLLM en matière d'architecture, de pré-entraînement et d'alignement, le dernier MiniCPM-Llama3-V 2.5 présente plusieurs caractéristiques notables : (1) Des performances solides, surpassant GPT-4V-1106, Gemini Pro et Claude 3 sur OpenCompass, une évaluation complète sur 11 benchmarks populaires, (2) une forte capacité OCR et une perception d'images haute résolution de 1,8M pixels à n'importe quel ratio d'aspect, (3) un comportement fiable avec des taux d'hallucination faibles, (4) un support multilingue pour plus de 30 langues, et (5) un déploiement efficace sur les téléphones mobiles. Plus important encore, MiniCPM-V peut être considéré comme un exemple représentatif d'une tendance prometteuse : les tailles de modèles nécessaires pour atteindre des performances utilisables (par exemple, GPT-4V) diminuent rapidement, parallèlement à la croissance rapide de la capacité de calcul côté terminal. Cela montre conjointement que les MLLMs de niveau GPT-4V déployés sur des appareils terminaux deviennent de plus en plus possibles, débloquant un spectre plus large d'applications réelles de l'IA dans un avenir proche.
Le dialogue constitue la forme la plus naturelle d'interaction homme-machine (IHM). Les récents progrès des modèles de langage vocal (SLM) ont considérablement amélioré l'intelligence conversationnelle basée sur la parole. Cependant, ces modèles se limitent à des conversations alternées, sans capacité à interagir avec les humains en temps réel dans des scénarios parlés, par exemple en étant interrompus lorsque le contenu généré n'est pas satisfaisant. Pour surmonter ces limites, nous explorons la modélisation en duplex intégral (FDM) dans les modèles de langage vocal interactifs (iSLM), en nous concentrant sur l'amélioration de l'interaction en temps réel et, plus explicitement, sur l'exploration de la capacité essentielle d'interruption. Nous introduisons une conception de modèle novatrice, appelée modèle de langage écoute-parole (LSLM), un système end-to-end équipé de canaux d'écoute et de parole. Notre LSLM utilise un décodeur TTS basé sur les tokens pour la génération de parole et un encodeur d'apprentissage auto-supervisé (SSL) en streaming pour l'entrée audio en temps réel. Le LSLM fusionne les deux canaux pour une génération autoregressive et détecte les prises de parole en temps réel. Trois stratégies de fusion -- fusion précoce, fusion intermédiaire et fusion tardive -- sont explorées, la fusion intermédiaire offrant un équilibre optimal entre génération de parole et interaction en temps réel. Deux configurations expérimentales, FDM basé sur des commandes et FDM basé sur la voix, démontrent la robustesse du LSLM face au bruit et sa sensibilité à des instructions variées. Nos résultats mettent en évidence la capacité du LSLM à réaliser une communication duplex avec un impact minimal sur les systèmes existants. Cette étude vise à faire progresser le développement des systèmes de dialogue vocal interactifs, en améliorant leur applicabilité dans des contextes réels.
La mise en œuvre de systèmes de Génération Augmentée par Récupération (RAG) est intrinsèquement complexe, nécessitant une compréhension approfondie des données, des cas d'utilisation et des décisions de conception complexes. De plus, l'évaluation de ces systèmes présente des défis significatifs, exigeant une évaluation à la fois de la précision de la récupération et de la qualité générative à travers une approche multidimensionnelle. Nous présentons RAG Foundry, un framework open-source conçu pour augmenter les modèles de langage de grande taille dans des cas d'utilisation RAG. RAG Foundry intègre la création de données, l'entraînement, l'inférence et l'évaluation dans un seul flux de travail, facilitant la création de jeux de données augmentés pour l'entraînement et l'évaluation de modèles de langage de grande taille dans des contextes RAG. Cette intégration permet un prototypage rapide et l'expérimentation de diverses techniques RAG, permettant aux utilisateurs de générer facilement des jeux de données et d'entraîner des modèles RAG en utilisant des sources de connaissances internes ou spécialisées. Nous démontrons l'efficacité du framework en augmentant et en affinant les modèles Llama-3 et Phi-3 avec diverses configurations RAG, montrant des améliorations constantes sur trois jeux de données intensifs en connaissances. Le code est publié en open-source sur https://github.com/IntelLabs/RAGFoundry.
Nous présentons Lumina-mGPT, une famille de modèles autorégressifs multimodaux capables de réaliser diverses tâches visuelles et linguistiques, excellant particulièrement dans la génération d'images photoréalistes flexibles à partir de descriptions textuelles. Contrairement aux approches existantes de génération d'images autorégressives, Lumina-mGPT utilise un transformeur décodeur uniquement préentraîné comme cadre unifié pour modéliser des séquences de tokens multimodaux. Notre idée clé est qu'un simple transformeur décodeur uniquement avec un préentraînement génératif multimodal (mGPT), utilisant l'objectif de prédiction du token suivant sur des séquences massives entrelacées de texte et d'images, peut acquérir des capacités multimodales étendues et générales, éclairant ainsi la génération photoréaliste de texte à image. En nous appuyant sur ces modèles préentraînés, nous proposons un Fine-Tuning Supervisé Progressif Flexible (FP-SFT) sur des paires image-texte de haute qualité pour débloquer pleinement leur potentiel de synthèse d'images à haute esthétique à n'importe quelle résolution, tout en conservant leurs capacités multimodales générales. De plus, nous introduisons le Fine-Tuning Supervisé Omnipotent (Omni-SFT), transformant Lumina-mGPT en un modèle fondateur qui réalise de manière fluide l'unification omnipotente des tâches. Le modèle résultant démontre des capacités multimodales polyvalentes, incluant des tâches de génération visuelle comme la génération flexible de texte à image et la génération contrôlée, des tâches de reconnaissance visuelle comme la segmentation et l'estimation de profondeur, et des tâches vision-langage comme le question-réponse visuel multitour. Par ailleurs, nous analysons les différences et similitudes entre les méthodes basées sur la diffusion et les méthodes autorégressives dans une comparaison directe.
Nous présentons MeshAnything V2, un transformeur autorégressif qui génère des maillages créés par des artistes (AM) alignés sur des formes données. Il peut être intégré à divers pipelines de production d'actifs 3D pour réaliser une génération d'AM de haute qualité et hautement contrôlable. MeshAnything V2 surpasse les méthodes précédentes à la fois en efficacité et en performance en utilisant des modèles de même taille. Ces améliorations sont dues à notre nouvelle méthode de tokenisation de maillage : la tokenisation de maillage adjacente (AMT). Contrairement aux méthodes précédentes qui représentent chaque face avec trois sommets, AMT utilise un seul sommet chaque fois que possible. Par rapport aux méthodes précédentes, AMT nécessite environ la moitié de la longueur de séquence de tokens pour représenter le même maillage en moyenne. De plus, les séquences de tokens issues d'AMT sont plus compactes et bien structurées, ce qui profite fondamentalement à la génération d'AM. Nos expériences approfondies montrent qu'AMT améliore significativement l'efficacité et la performance de la génération d'AM. Page du projet : https://buaacyw.github.io/meshanything-v2/
L'évaluation basée sur modèle est au cœur du développement réussi des modèles -- en tant que modèle de récompense pour l'entraînement, et en tant que remplacement de l'évaluation humaine. Pour entraîner de tels évaluateurs, l'approche standard consiste à collecter un grand nombre de jugements de préférence humaine sur les réponses des modèles, ce qui est coûteux et les données deviennent obsolètes à mesure que les modèles s'améliorent. Dans ce travail, nous présentons une approche visant à améliorer les évaluateurs sans annotations humaines, en utilisant uniquement des données d'entraînement synthétiques. Partant d'instructions non étiquetées, notre schéma d'auto-amélioration itératif génère des sorties de modèles contrastées et entraîne un LLM-comme-Juge pour produire des traces de raisonnement et des jugements finaux, répétant cet entraînement à chaque nouvelle itération en utilisant les prédictions améliorées. Sans aucune donnée de préférence étiquetée, notre Évaluateur Auto-Enseigné peut améliorer un LLM performant (Llama3-70B-Instruct) de 75,4 à 88,3 (88,7 avec un vote majoritaire) sur RewardBench. Cela surpasse les juges LLM couramment utilisés comme GPT-4 et correspond à la performance des meilleurs modèles de récompense entraînés avec des exemples étiquetés.
Le réglage par instruction joue un rôle crucial dans l'alignement des grands modèles de langage (LLMs) avec les préférences humaines. Malgré la quantité considérable de jeux de données d'instructions disponibles, entraîner naïvement un LLM sur toutes les instructions existantes peut ne pas être optimal ni pratique. Pour identifier les points de données les plus bénéfiques, des méthodes d'évaluation et de sélection des données ont été proposées dans les domaines du traitement du langage naturel (NLP) et de l'apprentissage profond. Cependant, dans le contexte du réglage par instruction, il existe encore un manque de connaissances sur les types de métriques d'évaluation des données pouvant être utilisées et sur la manière dont elles peuvent être intégrées dans le mécanisme de sélection. Pour combler cette lacune, nous présentons une revue exhaustive de la littérature existante sur l'évaluation et la sélection des données, en particulier pour le réglage par instruction des LLMs. Nous catégorisons systématiquement toutes les méthodes applicables en méthodes basées sur la qualité, la diversité et l'importance, en structurant une taxonomie unifiée et fine. Pour chaque catégorie, les méthodes représentatives sont détaillées pour décrire le paysage de la recherche pertinente. De plus, une comparaison entre les dernières méthodes est effectuée sur la base de leurs résultats officiellement rapportés, afin de fournir des discussions approfondies sur leurs limites. Enfin, nous résumons les défis ouverts et proposons des pistes prometteuses pour les études futures. Tous les contenus associés sont disponibles à l'adresse https://github.com/yuleiqin/fantastic-data-engineering.
La qualité des paires vidéo-texte détermine fondamentalement la limite supérieure des modèles de génération de texte à vidéo. Actuellement, les ensembles de données utilisés pour entraîner ces modèles présentent des lacunes importantes, notamment une faible cohérence temporelle, des légendes de mauvaise qualité, une qualité vidéo médiocre et une distribution déséquilibrée des données. Le processus de curation vidéo dominant, qui repose sur des modèles d'image pour l'étiquetage et une curation manuelle basée sur des règles, entraîne une charge de calcul élevée et laisse des données non nettoyées. Par conséquent, il manque des ensembles de données d'entraînement appropriés pour les modèles de génération de texte à vidéo. Pour résoudre ce problème, nous présentons VidGen-1M, un ensemble de données d'entraînement supérieur pour les modèles de génération de texte à vidéo. Produit grâce à une stratégie de curation allant du grossier au fin, cet ensemble de données garantit des vidéos de haute qualité et des légendes détaillées avec une excellente cohérence temporelle. Lorsqu'il est utilisé pour entraîner le modèle de génération vidéo, cet ensemble de données a conduit à des résultats expérimentaux surpassant ceux obtenus avec d'autres modèles.
Dans cet article, nous proposons ProCreate, une méthode simple et facile à mettre en œuvre pour améliorer la diversité des échantillons et la créativité des modèles génératifs d'images basés sur la diffusion, tout en empêchant la reproduction des données d'entraînement. ProCreate opère sur un ensemble d'images de référence et pousse activement l'embedding de l'image générée à s'éloigner des embeddings de référence pendant le processus de génération. Nous proposons FSCG-8 (Few-Shot Creative Generation 8), un ensemble de données de génération créative en few-shot couvrant huit catégories différentes — englobant divers concepts, styles et contextes — dans lequel ProCreate atteint la plus grande diversité d'échantillons et fidélité. De plus, nous montrons que ProCreate est efficace pour empêcher la réplication des données d'entraînement dans une évaluation à grande échelle utilisant des prompts textuels d'entraînement. Le code et FSCG-8 sont disponibles à l'adresse https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. La page du projet est accessible à l'adresse https://procreate-diffusion.github.io.
Le progrès du traitement automatique du langage naturel (TALN) en biologie repose sur la capacité des modèles à interpréter la littérature biomédicale complexe. Les modèles traditionnels peinent souvent à traiter le langage spécifique et complexe de ce domaine. Dans cet article, nous présentons BioMamba, un modèle pré-entraîné spécialement conçu pour l'exploration de textes biomédicaux. BioMamba s'appuie sur l'architecture Mamba et est pré-entraîné sur un vaste corpus de littérature biomédicale. Nos études empiriques montrent que BioMamba surpasse significativement des modèles comme BioBERT et Mamba généraliste sur diverses tâches biomédicales. Par exemple, BioMamba atteint une réduction de 100 fois de la perplexité et une réduction de 4 fois de la perte d'entropie croisée sur l'ensemble de test BioASQ. Nous fournissons un aperçu de l'architecture du modèle, du processus de pré-entraînement et des techniques de fine-tuning. De plus, nous publions le code et le modèle entraîné pour favoriser des recherches ultérieures.
Les algorithmes d'apprentissage multi-agents ont réussi à générer des capacités de planification surhumaines dans une grande variété de jeux, mais ont eu peu d'impact sur la conception de planificateurs multi-agents déployés. Un goulot d'étranglement majeur dans l'application de ces techniques à la planification multi-agents est qu'elles nécessitent des milliards d'étapes d'expérience. Pour permettre l'étude de la planification multi-agents à cette échelle, nous présentons GPUDrive, un simulateur multi-agents accéléré par GPU, construit sur le moteur de jeu Madrona, capable de générer plus d'un million d'étapes d'expérience par seconde. Les fonctions d'observation, de récompense et de dynamique sont écrites directement en C++, permettant aux utilisateurs de définir des comportements d'agents complexes et hétérogènes qui sont ensuite traduits en CUDA haute performance. Nous montrons qu'en utilisant GPUDrive, nous pouvons entraîner efficacement des agents d'apprentissage par renforcement sur de nombreuses scènes du jeu de données Waymo Motion, produisant des agents hautement efficaces pour atteindre des objectifs en quelques minutes pour des scènes individuelles, et des agents généralement compétents en quelques heures. Nous livrons ces agents entraînés dans le cadre du code source disponible à l'adresse https://github.com/Emerge-Lab/gpudrive.
Les méthodes de raisonnement visuel compositionnel, qui traduisent une requête complexe en une composition structurée de tâches visuelles réalisables, ont démontré un fort potentiel dans les tâches multimodales complexes. Grâce aux récents progrès des grands modèles de langage (LLMs), ce défi multimodal a atteint un nouveau stade en utilisant les LLMs comme planificateurs en few-shot/zero-shot, c'est-à-dire en programmation vision-langage (VL). Bien que ces méthodes présentent de nombreux avantages, elles sont confrontées à des défis liés aux erreurs de planification des LLMs ou à l'imprécision des modules d'exécution visuelle, les laissant à la traîne des modèles non compositionnels. Dans ce travail, nous concevons une méthode "plug-and-play", ExoViP, pour corriger les erreurs à la fois lors des étapes de planification et d'exécution grâce à une vérification introspective. Nous utilisons des modules de vérification comme des "exosquelettes" pour améliorer les schémas actuels de programmation VL. Plus précisément, notre module de vérification proposé utilise un mélange de trois sous-vérificateurs pour valider les prédictions après chaque étape de raisonnement, calibrant ainsi les prédictions du module visuel et affinant la trace de raisonnement planifiée par les LLMs. Les résultats expérimentaux sur deux méthodes représentatives de programmation VL montrent des améliorations constantes sur cinq tâches de raisonnement compositionnel sur des benchmarks standards. À la lumière de ces résultats, nous croyons qu'ExoViP peut favoriser de meilleures performances et une meilleure généralisation sur les défis multimodaux en domaine ouvert.
La récente montée en puissance des grands modèles de langage (LLM) open-source permet aux développeurs de créer des solutions basées sur l'IA tout en conservant le contrôle sur des aspects tels que la confidentialité et la conformité, offrant ainsi une gouvernance et une maîtrise du processus de déploiement des modèles. Pour utiliser ces LLM, des moteurs d'inférence sont nécessaires. Ces moteurs chargent les poids du modèle sur les ressources disponibles, telles que les GPU, et traitent les requêtes pour générer des réponses. La vitesse d'inférence, ou performance, du LLM est cruciale pour les applications en temps réel, car elle implique le calcul de millions ou de milliards d'opérations en virgule flottante par inférence. Récemment, des moteurs d'inférence avancés comme vLLM ont émergé, intégrant des mécanismes innovants tels qu'une gestion efficace de la mémoire pour atteindre des performances de pointe. Dans cet article, nous analysons la performance, en particulier le débit (tokens générés par unité de temps), de 20 LLM en utilisant deux bibliothèques d'inférence : vLLM et les pipelines de HuggingFace. Nous étudions comment divers hyperparamètres, que les développeurs doivent configurer, influencent la performance de l'inférence. Nos résultats révèlent que les paysages de débit sont irréguliers, avec des pics distincts, soulignant l'importance de l'optimisation des hyperparamètres pour atteindre une performance maximale. Nous montrons également que l'application de l'optimisation des hyperparamètres lors de la mise à niveau ou de la rétrogradation du modèle de GPU utilisé pour l'inférence peut améliorer le débit des pipelines de HuggingFace en moyenne de 9,16 % et 13,7 %, respectivement.
Les assistants IA avancés combinent des modèles de langage de pointe (LLM) et l'accès à des outils pour accomplir de manière autonome des tâches complexes au nom des utilisateurs. Bien que l'utilité de ces assistants puisse augmenter considérablement avec l'accès aux informations des utilisateurs, y compris les e-mails et les documents, cela soulève des préoccupations en matière de confidentialité concernant le partage d'informations inappropriées avec des tiers sans supervision de l'utilisateur. Pour guider les assistants partageant des informations à se comporter conformément aux attentes en matière de confidentialité, nous proposons d'opérationnaliser l'intégrité contextuelle (CI), un cadre qui assimile la confidentialité à un flux d'informations approprié dans un contexte donné. En particulier, nous concevons et évaluons plusieurs stratégies pour orienter les actions de partage d'informations des assistants afin qu'elles soient conformes à l'intégrité contextuelle. Notre évaluation repose sur un nouveau benchmark de remplissage de formulaires composé de données synthétiques et d'annotations humaines, et elle révèle que l'incitation des LLM de pointe à effectuer un raisonnement basé sur l'intégrité contextuelle donne des résultats solides.