Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les Modèles de Récompense de Processus (PRMs) émergent comme une approche prometteuse pour la supervision des processus dans le raisonnement mathématique des Grands Modèles de Langage (LLMs), qui visent à identifier et à atténuer les erreurs intermédiaires dans les processus de raisonnement. Cependant, le développement de PRMs efficaces est confronté à des défis importants, notamment dans l'annotation des données et les méthodologies d'évaluation. Dans cet article, à travers des expériences approfondies, nous démontrons que la synthèse de données basée sur l'estimation Monte Carlo (MC) couramment utilisée pour les PRMs entraîne généralement des performances et une généralisation inférieures par rapport aux méthodes LLM-comme-juge et à l'annotation humaine. L'estimation MC repose sur des modèles de complétion pour évaluer la correction de l'étape actuelle, ce qui conduit à une vérification inexacte des étapes. De plus, nous identifions des biais potentiels dans les stratégies d'évaluation Best-of-N (BoN) conventionnelles pour les PRMs : (1) Les modèles de politique peu fiables génèrent des réponses avec des réponses correctes mais des processus défectueux, entraînant un désalignement entre les critères d'évaluation de BoN et les objectifs des PRMs de vérification des processus. (2) La tolérance des PRMs à de telles réponses conduit à des scores BoN gonflés. (3) Les PRMs existants ont une proportion significative de scores minimum concentrés sur les étapes de réponse finales, révélant le passage de l'évaluation basée sur le processus à celle basée sur le résultat dans les PRMs Optimisés BoN. Pour relever ces défis, nous développons un mécanisme de filtrage de consensus qui intègre efficacement l'estimation MC avec LLM-comme-juge et préconisons un cadre d'évaluation plus complet qui combine des métriques au niveau de la réponse et de l'étape. Sur la base de ces mécanismes, nous améliorons significativement à la fois les performances du modèle et l'efficacité des données dans l'évaluation BoN et la tâche d'identification des erreurs étape par étape. Enfin, nous publions un nouveau PRM de pointe qui surpasse les alternatives open-source existantes et fournit des lignes directrices pratiques pour les futures recherches dans la construction de modèles de supervision de processus.
L'adaptation des modèles de langage pour traiter des séquences d'entrée plus longues nécessite généralement de grandes caches clé-valeur (KV), entraînant une surcharge mémoire importante lors de l'inférence. Dans cet article, nous proposons l'Attention par Produit de Tenseurs (TPA), un nouveau mécanisme d'attention qui utilise des décompositions tensorielles pour représenter de manière compacte les requêtes, les clés et les valeurs, réduisant significativement la taille de la cache KV au moment de l'inférence. En factorisant ces représentations en composantes de rang faible contextuelles (factorisation contextuelle) et en les intégrant de manière transparente avec RoPE, TPA permet d'améliorer la qualité du modèle tout en étant efficace en termes de mémoire. Basé sur TPA, nous introduisons le Transformateur d'Attention par Produit de Tenseurs (T6), une nouvelle architecture de modèle pour la modélisation de séquences. À travers une évaluation empirique approfondie des tâches de modélisation de langage, nous démontrons que T6 dépasse les performances des modèles Transformer standards, y compris MHA, MQA, GQA et MLA, sur diverses mesures, y compris la perplexité et une gamme de benchmarks d'évaluation renommés. Notamment, l'efficacité mémoire de TPA permet le traitement de séquences significativement plus longues dans le cadre de contraintes de ressources fixes, répondant à un défi critique de scalabilité dans les modèles de langage modernes. Le code est disponible sur https://github.com/tensorgi/T6.
Le développement des modèles vision-langage (VLM) est stimulé par des ensembles de données multimodaux à grande échelle et diversifiés. Cependant, les progrès vers des VLM biomédicaux généralistes sont limités par le manque d'ensembles de données annotés et accessibles au public dans les domaines de la biologie et de la médecine. Les efforts existants sont restreints à des domaines spécifiques, ne couvrant pas toute la diversité des connaissances biomédicales encodées dans la littérature scientifique. Pour combler cette lacune, nous présentons BIOMEDICA, un cadre extensible et open source pour extraire, annoter et sérialiser l'intégralité du sous-ensemble PubMed Central Open Access en un ensemble de données facilement accessible au public. Notre cadre produit une archive complète avec plus de 24 millions de paires texte-image uniques issues de plus de 6 millions d'articles. Des métadonnées et des annotations guidées par des experts sont également fournies. Nous démontrons l'utilité et l'accessibilité de notre ressource en publiant BMCA-CLIP, un ensemble de modèles de style CLIP pré-entraînés en continu sur l'ensemble de données BIOMEDICA via un flux, éliminant ainsi le besoin de télécharger 27 To de données localement. En moyenne, nos modèles atteignent des performances de pointe sur 40 tâches - couvrant la pathologie, la radiologie, l'ophtalmologie, la dermatologie, la chirurgie, la biologie moléculaire, la parasitologie et la biologie cellulaire - se démarquant dans la classification sans étiquette avec une amélioration moyenne de 6,56% (atteignant jusqu'à 29,8% et 17,5% respectivement en dermatologie et en ophtalmologie), et offrant une meilleure récupération texte-image, le tout en utilisant 10 fois moins de calcul. Pour favoriser la reproductibilité et la collaboration, nous mettons à disposition notre code source et notre ensemble de données pour la communauté de recherche élargie.
Les grands modèles de langage auto-adaptatifs (LLM) visent à résoudre les défis posés par les méthodes traditionnelles de fine-tuning, qui sont souvent intensives en termes de calcul et statiques dans leur capacité à gérer diverses tâches. Nous présentons \implname, un nouveau cadre d'auto-adaptation qui adapte les LLM pour des tâches inconnues en temps réel en ajustant sélectivement uniquement les composants singuliers de leurs matrices de poids. Lors de l'inférence, \implname utilise un mécanisme à deux passes : d'abord, un système de répartition identifie les propriétés de la tâche, puis des vecteurs "experts" spécifiques à la tâche, entraînés à l'aide de l'apprentissage par renforcement, sont dynamiquement mélangés pour obtenir un comportement ciblé pour la requête entrante. Notre méthode surpasse des approches omniprésentes telles que LoRA, avec moins de paramètres et une plus grande efficacité. \implname démontre sa polyvalence à travers différentes architectures de LLM et modalités, y compris les tâches vision-langage. \implname représente un bond en avant significatif, offrant une solution évolutive et efficace pour améliorer l'adaptabilité et les performances spécifiques à la tâche des LLM, ouvrant la voie à des systèmes IA vraiment dynamiques et auto-organisateurs.
Les récents progrès réalisés dans les grands modèles de langage (LLM) et les modèles multimodaux de parole-texte ont jeté les bases pour des interactions vocales fluides, permettant des conversations en temps réel, naturelles et semblables à celles entre humains. Les modèles précédents pour les interactions vocales sont catégorisés comme natifs et alignés. Les modèles natifs intègrent le traitement de la parole et du texte dans un seul cadre mais rencontrent des problèmes tels que des longueurs de séquence différentes et un pré-entraînement insuffisant. Les modèles alignés conservent les capacités des LLM de texte mais sont souvent limités par de petits ensembles de données et un focus étroit sur les tâches de parole. Dans ce travail, nous présentons MinMo, un Grand Modèle de Langage Multimodal avec environ 8 milliards de paramètres pour des interactions vocales fluides. Nous abordons les principales limitations des modèles multimodaux alignés précédents. Nous entraînons MinMo à travers plusieurs étapes d'alignement de la parole au texte, du texte à la parole, de la parole à la parole, et de l'interaction duplex, sur 1,4 million d'heures de données vocales diverses et une large gamme de tâches de parole. Après l'entraînement en plusieurs étapes, MinMo atteint des performances de pointe sur divers benchmarks pour la compréhension et la génération vocales tout en conservant les capacités des LLM de texte, et facilite également la conversation full-duplex, c'est-à-dire une communication bidirectionnelle simultanée entre l'utilisateur et le système. De plus, nous proposons un décodeur vocal novateur et simple qui surpasse les modèles précédents en termes de génération vocale. Les capacités améliorées de suivi des instructions de MinMo permettent de contrôler la génération de parole en fonction des instructions de l'utilisateur, avec diverses nuances incluant les émotions, les dialectes et les vitesses de parole, et l'imitation de voix spécifiques. Pour MinMo, la latence de la parole au texte est d'environ 100ms, la latence full-duplex est d'environ 600ms en théorie et 800ms en pratique. La page web du projet MinMo est https://funaudiollm.github.io/minmo, et le code et les modèles seront bientôt publiés.
Les modèles récents de génération de vidéos ont montré des résultats prometteurs dans la production de clips vidéo de haute qualité d'une durée de plusieurs secondes. Cependant, ces modèles sont confrontés à des défis pour générer de longues séquences qui transmettent des événements clairs et informatifs, limitant leur capacité à soutenir des narrations cohérentes. Dans cet article, nous présentons un ensemble de données vidéo de cuisine à grande échelle conçu pour faire progresser la génération de récits de longue durée dans le domaine de la cuisine. Nous validons la qualité de notre ensemble de données proposé en termes de fidélité visuelle et d'exactitude des légendes textuelles en utilisant respectivement des Modèles Vision-Langage de pointe (VLM) et des modèles de génération de vidéos. Nous introduisons en outre un Directeur Vidéo Narratif Long pour améliorer à la fois la cohérence visuelle et sémantique dans les vidéos générées et souligner le rôle de l'alignement des plongements visuels pour obtenir une qualité vidéo globale améliorée. Notre méthode démontre des améliorations substantielles dans la génération de keyframes visuellement détaillés et sémantiquement alignés, soutenue par des techniques de fine-tuning qui intègrent des plongements textuels et d'image dans le processus de génération de vidéos. Page du projet : https://videoauteur.github.io/
S'appuyant sur nos recherches antérieures sur la réplication O1 (Partie 1 : Apprentissage du Voyage [Qin et al., 2024] et Partie 2 : Distillation [Huang et al., 2024]), ce travail explore le potentiel de l'échelle de temps d'inférence dans les grands modèles de langage (LLM) pour les tâches de raisonnement médical, allant de la prise de décision diagnostique à la planification du traitement. À travers des expériences approfondies sur des référentiels médicaux de complexité variable (MedQA, Medbullets et JAMA Clinical Challenges), notre enquête révèle plusieurs idées clés : (1) Augmenter le temps d'inférence conduit à une amélioration des performances. Avec un ensemble d'entraînement modeste de 500 échantillons, notre modèle produit des améliorations de performances substantielles de 6 % à 11 %. (2) La complexité de la tâche est directement liée à la longueur requise des chaînes de raisonnement, confirmant la nécessité de processus de réflexion étendus pour les problèmes difficiles. (3) Les diagnostics différentiels générés par notre modèle respectent les principes de la méthode hypothético-déductive, produisant une liste de conditions potentielles pouvant expliquer les symptômes d'un patient et réduisant systématiquement ces possibilités en évaluant les preuves. Ces résultats démontrent la synergie prometteuse entre l'échelle de temps d'inférence et l'apprentissage du voyage dans le développement des capacités de raisonnement clinique en monde réel des LLM.
La génération augmentée par recherche (RAG) démontre des performances remarquables à travers diverses tâches en réponse à des questions en domaine ouvert. Cependant, les moteurs de recherche traditionnels peuvent récupérer des contenus superficiels, limitant la capacité des LLM à traiter des informations complexes et multi-niveaux. Pour y remédier, nous introduisons WebWalkerQA, un banc d'essai conçu pour évaluer la capacité des LLM à effectuer une traversée du web. Il évalue la capacité des LLM à parcourir les sous-pages d'un site web pour extraire des données de haute qualité de manière systématique. Nous proposons WebWalker, qui est un cadre multi-agent imitant la navigation web de manière similaire à l'humain à travers un paradigme d'exploration-critique. De vastes résultats expérimentaux montrent que WebWalkerQA est un défi et démontre l'efficacité de la combinaison de RAG avec WebWalker, à travers l'intégration horizontale et verticale dans des scénarios réels.
Les grands modèles de langage (LLMs) ont démontré des performances exceptionnelles dans diverses tâches, mais leur entraînement reste très gourmand en ressources et sujet à des défis critiques tels que l'instabilité de l'entraînement. Une source prédominante de cette instabilité provient des pics de gradient et de perte, qui perturbent le processus d'apprentissage, entraînant souvent des interventions coûteuses telles que la récupération de points de contrôle et le redémarrage des expériences, amplifiant ainsi les inefficacités. Cet article présente une enquête approfondie sur les pics de gradient observés lors de l'entraînement des LLM, révélant leur prévalence à travers plusieurs architectures et ensembles de données. Notre analyse montre que ces pics peuvent être jusqu'à 1000 fois plus grands que les gradients typiques, détériorant considérablement les performances du modèle. Pour résoudre ce problème, nous proposons Spike-Aware Adam avec Momentum Reset SPAM, un nouvel optimiseur conçu pour contrer les pics de gradient grâce à une réinitialisation de la quantité de mouvement et un rognage de gradient conscient des pics. Des expériences approfondies, comprenant à la fois la pré-formation et le fine-tuning, démontrent que SPAM surpasse de manière constante Adam et ses variantes dans diverses tâches, y compris (1) la pré-formation des LLM de 60M à 1B, (2) la pré-formation des LLM sur 4 bits, (3) l'apprentissage par renforcement et (4) la prévision de séries temporelles. De plus, SPAM facilite l'entraînement efficace en mémoire en permettant un moment clairsemé, où seul un sous-ensemble de termes de moment est conservé et mis à jour. Lorsqu'il fonctionne sous contraintes de mémoire, SPAM surpasse les optimiseurs efficaces en mémoire de pointe tels que GaLore et Adam-Mini. Notre travail souligne l'importance d'atténuer les pics de gradient dans l'entraînement des LLM et introduit une stratégie d'optimisation efficace qui améliore à la fois la stabilité de l'entraînement et l'efficacité des ressources à grande échelle. Le code est disponible sur https://github.com/TianjinYellow/SPAM-Optimizer.git
Nous présentons Objets Insolites en 3D (uCO3D), un nouveau jeu de données centré sur les objets pour l'apprentissage profond en 3D et l'IA générative en 3D. uCO3D est la plus grande collection publiquement disponible de vidéos haute résolution d'objets avec des annotations en 3D garantissant une couverture complète à 360 degrés. uCO3D est significativement plus diversifié que MVImgNet et CO3Dv2, couvrant plus de 1 000 catégories d'objets. Il est également de meilleure qualité, grâce à des contrôles de qualité approfondis des vidéos collectées et des annotations en 3D. Tout comme des jeux de données analogues, uCO3D contient des annotations pour les poses de caméra en 3D, les cartes de profondeur et des nuages de points épars. De plus, chaque objet est accompagné d'une légende et d'une reconstruction en éclaboussures gaussiennes en 3D. Nous entraînons plusieurs grands modèles 3D sur MVImgNet, CO3Dv2 et uCO3D et obtenons des résultats supérieurs avec ce dernier, démontrant que uCO3D est plus adapté aux applications d'apprentissage.
Le raisonnement chimique implique généralement des processus complexes et multi-étapes qui exigent des calculs précis, où même de légères erreurs peuvent entraîner des échecs en cascade. De plus, les grands modèles de langage (LLMs) rencontrent des difficultés à traiter les formules spécifiques au domaine, à exécuter les étapes de raisonnement avec précision et à intégrer efficacement du code lors de la résolution de tâches de raisonnement chimique. Pour relever ces défis, nous présentons ChemAgent, un nouveau cadre conçu pour améliorer les performances des LLMs grâce à une bibliothèque dynamique et auto-actualisée. Cette bibliothèque est développée en décomposant les tâches chimiques en sous-tâches et en compilant ces sous-tâches dans une collection structurée pouvant être référencée pour des requêtes futures. Ensuite, lorsqu'un nouveau problème est présenté, ChemAgent extrait et affine les informations pertinentes de la bibliothèque, que nous appelons mémoire, facilitant la décomposition efficace des tâches et la génération de solutions. Notre méthode conçoit trois types de mémoire et un composant de raisonnement amélioré par la bibliothèque, permettant aux LLMs de s'améliorer avec le temps grâce à l'expérience. Les résultats expérimentaux sur quatre ensembles de données de raisonnement chimique de SciBench montrent que ChemAgent obtient des gains de performance allant jusqu'à 46% (GPT-4), surpassant significativement les méthodes existantes. Nos résultats suggèrent un potentiel substantiel pour des applications futures, notamment dans des tâches telles que la découverte de médicaments et la science des matériaux. Notre code est disponible sur https://github.com/gersteinlab/chemagent
Les modèles fondamentaux reposent sur des ensembles de données collectés à grande échelle sur le web, qui contiennent fréquemment des données bruitées, des biais et du contenu non pertinent. Les techniques existantes de sélection de données utilisent généralement des heuristiques humaines, des ensembles de données d'évaluation en aval, ou des modèles de notation spécialisés, et peuvent négliger l'utilité des échantillons dans le processus d'entraînement. Au lieu de cela, nous proposons une nouvelle approche, le Score Mimic, une métrique de qualité des données qui utilise un modèle de référence pré-entraîné comme guide pour évaluer l'utilité des échantillons de données pour l'entraînement d'un nouveau modèle. Il repose sur l'alignement entre le gradient des nouveaux paramètres du modèle et le vecteur pointant vers le modèle de référence dans l'espace des poids. Les échantillons qui ne s'alignent pas dans cette direction sont considérés comme ayant une faible valeur et peuvent être filtrés. Inspiré par le score Mimic, nous développons Grad-Mimic, un cadre de sélection de données qui identifie et priorise les échantillons utiles, automatisant le processus de sélection pour créer des filtres efficaces. Empiriquement, l'utilisation des scores Mimic pour guider l'entraînement du modèle entraîne des gains de performance cohérents sur six ensembles de données d'images et améliore les performances des modèles CLIP. De plus, les scores Mimic et leurs filtres associés améliorent les méthodes de filtrage existantes et offrent une estimation précise de la qualité de l'ensemble de données.