Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'augmentation des ressources de calcul au moment de l'inférence pour les grands modèles de langage a démontré des performances impressionnantes sur les benchmarks de raisonnement. Cependant, les évaluations existantes de cette mise à l'échelle reposent sur l'hypothèse forte qu'un système de raisonnement devrait toujours fournir une réponse à toute question posée. Cela néglige les préoccupations concernant la confiance du modèle dans sa réponse et la pertinence de toujours fournir une réponse. Pour aborder ces questions, nous extrayons des scores de confiance pendant le raisonnement afin de filtrer les réponses du modèle. Nous constatons qu'augmenter le budget de calcul au moment de l'inférence aide non seulement les modèles à répondre correctement à plus de questions, mais augmente également leur confiance dans les réponses correctes. Nous étendons ensuite le paradigme actuel des réponses à risque zéro lors de l'évaluation en considérant des contextes avec des niveaux de risque de réponse non nuls, et proposons une méthode pour rapporter les évaluations dans ces contextes.
Les modèles de langage de grande taille (LLM) end-to-end existants pour la parole reposent généralement sur des données annotées à grande échelle pour leur entraînement, tandis que l'entraînement efficace en termes de données n'a pas été approfondi. Nous nous concentrons sur deux problèmes fondamentaux entre la parole et le texte : l'écart dans l'espace de représentation et l'incohérence de la longueur des séquences. Nous proposons Soundwave, qui utilise une stratégie d'entraînement efficace et une architecture novatrice pour résoudre ces problèmes. Les résultats montrent que Soundwave surpasse le modèle avancé Qwen2-Audio en traduction de la parole et dans les tâches de parole d'AIR-Bench, en utilisant seulement un cinquantième des données d'entraînement. Une analyse plus approfondie révèle que Soundwave conserve son intelligence lors des conversations. Le projet est disponible à l'adresse https://github.com/FreedomIntelligence/Soundwave.
Une série de travaux récents aborde le problème de la compression de séquences de tokens en une séquence plus courte de vecteurs à valeurs réelles, utilisés comme entrées à la place des embeddings de tokens ou du cache clé-valeur. Ces approches permettent de réduire la quantité de calcul dans les modèles de langage existants. Bien qu'elles s'appuient sur des modèles puissants comme encodeurs, le taux de compression maximal sans perte atteignable ne dépasse généralement pas x10. Ce fait est particulièrement intriguant car, en théorie, la capacité d'information maximale des grands vecteurs à valeurs réelles est bien supérieure aux taux présentés, même pour une précision de 16 bits et une taille de vecteur modeste. Dans ce travail, nous explorons les limites de la compression en remplaçant l'encodeur par une procédure d'optimisation par échantillon. Nous montrons que des vecteurs avec des taux de compression allant jusqu'à x1500 existent, ce qui met en évidence un écart de deux ordres de grandeur entre les solutions existantes et celles pratiquement réalisables. De plus, nous démontrons empiriquement que les limites de compression ne sont pas déterminées par la longueur de l'entrée, mais par la quantité d'incertitude à réduire, à savoir la perte d'entropie croisée sur cette séquence sans aucun conditionnement. Les limites obtenues soulignent l'écart substantiel entre la capacité théorique des embeddings d'entrée et leur utilisation pratique, suggérant un potentiel d'optimisation significatif dans la conception des modèles.
Le développement continu des modèles de base pour la génération de vidéos évolue vers diverses applications, avec la génération de vidéos cohérentes par sujet encore au stade exploratoire. Nous désignons cela par le terme Subject-to-Video, qui extrait les éléments du sujet à partir d'images de référence et génère des vidéos cohérentes par sujet grâce à des instructions textuelles. Nous pensons que l'essence du Subject-to-Video réside dans l'équilibre des prompts bimodaux de texte et d'image, permettant ainsi un alignement profond et simultané du contenu textuel et visuel. À cette fin, nous proposons Phantom, un cadre unifié de génération de vidéos pour des références à un seul ou à plusieurs sujets. En nous appuyant sur les architectures existantes de text-to-video et d'image-to-video, nous repensons le modèle d'injection conjointe texte-image et le poussons à apprendre l'alignement intermodal via des données triplets texte-image-vidéo. En particulier, nous mettons l'accent sur la cohérence du sujet dans la génération humaine, couvrant la génération de vidéos préservant l'identité tout en offrant des avantages améliorés. La page d'accueil du projet est disponible ici : https://phantom-video.github.io/Phantom/.
Nous présentons Magma, un modèle fondationnel qui accomplit des tâches d'agents IA multimodales dans les mondes numérique et physique. Magma constitue une extension significative des modèles vision-langage (VL) en ce qu'il conserve non seulement la capacité de compréhension VL (intelligence verbale) de ces derniers, mais est également doté de la capacité à planifier et agir dans le monde visuo-spatial (intelligence spatio-temporelle) et à accomplir des tâches agentiques allant de la navigation d'interface utilisateur à la manipulation robotique. Pour doter Magma de ces capacités agentiques, il est pré-entraîné sur de vastes ensembles de données hétérogènes couvrant des images, des vidéos et des données robotiques, où les objets visuels actionnables (par exemple, des boutons cliquables dans une interface graphique) dans les images sont annotés par Set-of-Mark (SoM) pour l'ancrage des actions, et les mouvements d'objets (par exemple, la trajectoire des mains humaines ou des bras robotiques) dans les vidéos sont annotés par Trace-of-Mark (ToM) pour la planification des actions. Des expériences approfondies montrent que SoM et ToM atteignent une grande synergie et facilitent l'acquisition de l'intelligence spatio-temporelle pour notre modèle Magma, qui est fondamentale pour une large gamme de tâches, comme illustré dans la Fig.1. En particulier, Magma établit de nouveaux records sur les tâches de navigation d'interface utilisateur et de manipulation robotique, surpassant les modèles précédents spécialement conçus pour ces tâches. Sur les tâches multimodales liées aux images et aux vidéos, Magma se compare également favorablement aux grands modèles multimodaux populaires entraînés sur des ensembles de données bien plus vastes. Nous rendons notre modèle et notre code publics pour assurer la reproductibilité à l'adresse https://microsoft.github.io/Magma.
Les modèles de diffusion sont apparus comme une alternative prometteuse aux modèles autorégressifs pour la modélisation de données catégorielles discrètes. Cependant, les modèles de diffusion opérant directement sur un espace de données discret n'exploitent pas pleinement la puissance du raffinement itératif, car les signaux sont perdus lors des transitions entre états discrets. Les modèles de diffusion continus existants pour les données discrètes offrent des performances limitées par rapport aux approches discrètes, et le lien flou entre eux freine le développement des modèles de diffusion pour les données discrètes. Dans ce travail, nous proposons un modèle de diffusion continu pour la modélisation du langage qui intègre la géométrie de la distribution catégorique sous-jacente. Nous établissons un lien entre la diffusion discrète et le flux continu sur la variété statistique, et en nous appuyant sur cette analogie, nous introduisons une conception simple du processus de diffusion qui généralise les modèles de diffusion discrets précédents. Nous proposons en outre un cadre d'entraînement sans simulation basé sur la symétrie radiale et une technique simple pour aborder la haute dimensionnalité de la variété. Des expériences approfondies sur des benchmarks de modélisation du langage et d'autres modalités montrent que notre méthode surpasse les modèles de diffusion discrets existants et s'approche des performances des modèles autorégressifs. Les codes sont disponibles à l'adresse https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
Les récents modèles de langage multimodaux de grande taille (MLLMs) ont atteint des performances remarquables, mais rencontrent des difficultés de déploiement en raison de leur complexité computationnelle quadratique, de l'augmentation des besoins en mémoire cache pour les paires clé-valeur, et de leur dépendance à des encodeurs visuels séparés. Nous proposons mmMamba, un cadre pour développer des modèles d'espace d'état multimodaux natifs à complexité linéaire, grâce à une distillation progressive à partir de MLLMs existants en utilisant des ressources computationnelles académiques modérées. Notre approche permet la conversion directe de MLLMs entraînés en mode décodeur uniquement en architectures à complexité linéaire, sans nécessiter de modèles de langage pré-entraînés basés sur RNN ou d'encodeurs visuels. Nous proposons une stratégie d'initialisation pour sculpter Mamba à partir d'un Transformer entraîné et une recette de distillation en trois étapes, qui peut transférer efficacement les connaissances du Transformer vers Mamba tout en préservant les capacités multimodales. Notre méthode prend également en charge des architectures hybrides flexibles combinant des couches Transformer et Mamba pour des compromis personnalisables entre efficacité et performance. Distillé à partir du HoVLE basé sur Transformer en mode décodeur uniquement, mmMamba-linéaire atteint des performances compétitives par rapport aux VLMs existants à complexité linéaire et quadratique, tandis que mmMamba-hybride améliore encore significativement les performances, se rapprochant des capacités de HoVLE. À 103K tokens, mmMamba-linéaire démontre une accélération de 20,6 fois et une réduction de 75,8 % de la mémoire GPU par rapport à HoVLE, tandis que mmMamba-hybride atteint une accélération de 13,5 fois et une économie de mémoire de 60,2 %. Le code et les modèles sont disponibles à l'adresse https://github.com/hustvl/mmMamba.
Comprendre les préférences humaines est crucial pour améliorer les modèles de base et construire des systèmes d'IA personnalisés. Cependant, les préférences sont intrinsèquement diverses et complexes, ce qui rend difficile pour les modèles de récompense traditionnels de capturer toute leur étendue. Bien que des données de préférences granulaires puissent aider, leur collecte est coûteuse et difficile à mettre à l'échelle. Dans cet article, nous introduisons les Modèles de Récompense Décomposés (DRMs), une approche novatrice qui extrait des préférences humaines diverses à partir de comparaisons binaires sans nécessiter d'annotations granulaires. Notre idée clé est de représenter les préférences humaines sous forme de vecteurs et de les analyser en utilisant l'Analyse en Composantes Principales (PCA). En construisant un ensemble de données de différences d'embeddings entre les réponses préférées et rejetées, les DRMs identifient des vecteurs de base orthogonaux qui capturent des aspects distincts des préférences. Ces récompenses décomposées peuvent être combinées de manière flexible pour s'aligner sur différents besoins des utilisateurs, offrant une alternative interprétable et scalable aux modèles de récompense traditionnels. Nous démontrons que les DRMs extraient efficacement des dimensions de préférences significatives (par exemple, l'utilité, la sécurité, l'humour) et s'adaptent à de nouveaux utilisateurs sans entraînement supplémentaire. Nos résultats mettent en évidence les DRMs comme un cadre puissant pour l'alignement personnalisé et interprétable des modèles de langage de grande taille (LLM).
Contrairement aux RNN, qui compriment les tokens précédents en un seul état caché, les Transformers peuvent accéder directement à tous les tokens antérieurs. Cependant, les Transformers standard n'utilisent que les représentations provenant de la couche immédiatement précédente. Dans cet article, nous montrons que ce choix de conception entraîne un effondrement des représentations et conduit à des performances sous-optimales. Pour résoudre ce problème, nous introduisons Layer-Integrated Memory (LIMe), une approche simple mais puissante qui préserve l'empreinte mémoire globale du modèle tout en augmentant sa capacité de représentation en permettant l'accès aux états cachés des couches antérieures. Grâce à des expériences approfondies sur diverses architectures et différents mécanismes de recherche, nous démontrons des améliorations de performances constantes sur un large éventail de tâches. De plus, notre analyse de la dynamique des représentations apprises et notre exploration des circuits en profondeur révèlent comment LIMe intègre l'information à travers les couches, ouvrant des perspectives prometteuses pour de futures recherches.
Les grands modèles de langage (LLM) affinés sur des données financières multimodales ont démontré des capacités de raisonnement impressionnantes dans diverses tâches financières. Cependant, ils rencontrent souvent des difficultés dans des scénarios interactifs et orientés objectifs sur les marchés financiers, tels que le trading, où des approches agentiques complexes sont nécessaires pour améliorer la prise de décision. Pour remédier à cela, nous proposons FLAG-Trader, une architecture unifiée intégrant le traitement linguistique (via les LLM) avec l'optimisation de politiques d'apprentissage par renforcement (RL) basée sur les gradients, dans laquelle un LLM partiellement affiné agit comme le réseau de politique, exploitant les connaissances pré-entraînées tout en s'adaptant au domaine financier grâce à un affinage paramétrique efficace. Grâce à l'optimisation par gradient de politique guidée par les récompenses de trading, notre cadre améliore non seulement les performances des LLM en trading, mais aussi les résultats sur d'autres tâches du domaine financier. Nous présentons des preuves empiriques approfondies pour valider ces améliorations.
L'intelligence spatiale est un composant essentiel de l'IA incarnée, permettant aux robots de comprendre et d'interagir avec leur environnement. Bien que les progrès récents aient amélioré la capacité des modèles de vision et langage (VLMs) à percevoir les positions des objets et leurs relations spatiales, ils manquent encore de précision dans la compréhension des orientations des objets - une exigence clé pour les tâches impliquant des manipulations fines. Surmonter cette limitation nécessite non seulement un raisonnement géométrique, mais aussi une manière expressive et intuitive de représenter l'orientation. Dans ce contexte, nous proposons que le langage naturel offre un espace de représentation plus flexible que les cadres de référence canoniques, le rendant particulièrement adapté aux systèmes robotiques suivant des instructions. Dans cet article, nous introduisons le concept d'orientation sémantique, qui définit les orientations des objets en utilisant le langage naturel de manière indépendante d'un cadre de référence (par exemple, la direction "d'insertion" d'une clé USB ou la direction "de la poignée" d'un couteau). Pour soutenir cela, nous construisons OrienText300K, un ensemble de données à grande échelle de modèles 3D annotés avec des orientations sémantiques qui relient la compréhension géométrique à la sémantique fonctionnelle. En intégrant l'orientation sémantique dans un système VLM, nous permettons aux robots de générer des actions de manipulation avec des contraintes à la fois positionnelles et orientationnelles. Des expériences approfondies en simulation et dans le monde réel démontrent que notre approche améliore significativement les capacités de manipulation robotique, par exemple, avec une précision de 48,7% sur Open6DOR et de 74,9% sur SIMPLER.
Le déploiement de grands modèles de langage (LLMs) dans des applications réelles nécessite des modèles de sécurité robustes pour détecter et bloquer les requêtes utilisateurs nuisibles. Bien que les grands modèles de sécurité offrent des performances solides, leur coût computationnel est considérable. Pour atténuer cela, des modèles plus petits et distillés sont utilisés, mais ils sous-performent souvent sur les exemples "difficiles" où le modèle plus grand fournit des prédictions précises. Nous observons que de nombreuses entrées peuvent être traitées de manière fiable par le modèle plus petit, tandis qu'une petite fraction nécessite la capacité du modèle plus grand. Motivés par cette observation, nous proposons SafeRoute, un routeur binaire qui distingue les exemples difficiles des exemples faciles. Notre méthode applique sélectivement le modèle de sécurité plus grand aux données que le routeur considère comme difficiles, améliorant ainsi l'efficacité tout en maintenant la précision par rapport à l'utilisation exclusive du modèle de sécurité plus grand. Les résultats expérimentaux sur plusieurs ensembles de données de référence démontrent que notre sélection de modèle adaptative améliore significativement le compromis entre le coût computationnel et les performances de sécurité, surpassant les bases de référence pertinentes.
Les grands modèles de langage (LLMs) atteignent des performances supérieures grâce à une mise à l'échelle lors de l'entraînement, et une mise à l'échelle au moment du test améliore encore leurs capacités en permettant un raisonnement efficace lors de l'inférence. Cependant, à mesure que l'échelle du raisonnement augmente, les méthodes existantes de mise à l'échelle au moment du test souffrent d'une accumulation d'informations historiques, ce qui non seulement gaspille des ressources computationnelles mais perturbe également un raisonnement efficace. Pour résoudre ce problème, nous observons que les progrès dans le raisonnement complexe sont souvent réalisés en résolvant une séquence de sous-questions indépendantes, chacune étant autonome et vérifiable. Ces sous-questions sont essentiellement des questions atomiques, reposant principalement sur leur état actuel plutôt que sur l'historique accumulé, similairement aux transitions sans mémoire dans un processus de Markov. Sur la base de cette observation, nous proposons Atom of Thoughts (AoT), où chaque transition d'état dans le processus de raisonnement consiste à décomposer la question actuelle en un graphe acyclique orienté basé sur les dépendances et à contracter ses sous-questions, formant ainsi un nouvel état de question atomique. Ce processus itératif de décomposition-contraction se poursuit jusqu'à atteindre des questions atomiques directement résolubles, réalisant naturellement des transitions de Markov entre les états de questions. De plus, ces questions atomiques peuvent être intégrées de manière transparente dans les méthodes existantes de mise à l'échelle au moment du test, permettant à AoT de servir d'amélioration plug-in pour améliorer les capacités de raisonnement. Les expériences sur six benchmarks démontrent l'efficacité d'AoT à la fois en tant que cadre autonome et en tant qu'amélioration plug-in. Notamment, sur HotpotQA, lorsqu'il est appliqué à gpt-4o-mini, AoT atteint un score F1 de 80,6%, surpassant o3-mini de 3,4% et DeepSeek-R1 de 10,6%. Le code sera disponible à l'adresse https://github.com/qixucen/atom.
La résolution de tâches de raisonnement complexes peut impliquer la compréhension visuelle, la récupération de connaissances spécifiques à un domaine, le calcul numérique et le raisonnement en plusieurs étapes. Les méthodes existantes améliorent les grands modèles de langage (LLMs) avec des outils externes, mais elles sont limitées à des domaines spécialisés, à des types d'outils restreints, ou nécessitent des données d'entraînement supplémentaires. Dans cet article, nous présentons OctoTools, un cadre agentique open-source, sans nécessité d'entraînement, convivial et facilement extensible, conçu pour aborder le raisonnement complexe dans divers domaines. OctoTools introduit des cartes d'outils standardisées pour encapsuler la fonctionnalité des outils, un planificateur pour la planification à haut et bas niveau, et un exécuteur pour mettre en œuvre l'utilisation des outils. Nous validons la généralité d'OctoTools sur 16 tâches variées (incluant MathVista, MMLU-Pro, MedQA et GAIA-Text), obtenant des gains de précision moyens substantiels de 9,3 % par rapport à GPT-4o. De plus, OctoTools surpasse AutoGen, GPT-Functions et LangChain jusqu'à 10,6 % lorsqu'il est doté du même ensemble d'outils. Grâce à une analyse et des ablations approfondies, OctoTools démontre des avantages dans la planification des tâches, l'utilisation efficace des outils et la résolution de problèmes en plusieurs étapes.
Après un pré-entraînement sur un vaste ensemble de paires image-texte, le modèle Contrastive Language-Image Pre-training (CLIP) démontre des performances prometteuses sur une grande variété de benchmarks. Cependant, un volume important de données non appariées, telles que des documents multimodaux entrelacés, reste sous-utilisé pour l'apprentissage de représentations vision-langage. Pour exploiter pleinement ces documents non appariés, nous établissons d'abord un pipeline d'extraction de données du monde réel afin d'extraire des images et des textes de haute qualité. Ensuite, nous concevons une méthode de récupération hiérarchique pour associer efficacement chaque image à plusieurs textes réalistes sémantiquement pertinents. Pour renforcer davantage les informations visuelles fines, nous proposons un module de génération augmentée sémantique d'images pour la production de textes synthétiques. De plus, nous utilisons une stratégie d'échantillonnage équilibré sémantique pour améliorer la diversité du jeu de données, permettant un meilleur apprentissage des concepts de longue traîne. Sur la base de ces innovations, nous construisons RealSyn, un jeu de données combinant des textes réalistes et synthétiques, disponible en trois échelles : 15M, 30M et 100M. Des expériences approfondies démontrent que RealSyn fait progresser efficacement l'apprentissage de représentations vision-langage et présente une forte scalabilité. Les modèles pré-entraînés sur RealSyn atteignent des performances de pointe sur plusieurs tâches en aval. Pour faciliter les recherches futures, le jeu de données RealSyn et les poids des modèles pré-entraînés sont disponibles à l'adresse https://github.com/deepglint/RealSyn.
L'avènement de la mise à l'échelle au moment du test dans les grands modèles de langage (LLMs), illustré par la série o1 d'OpenAI, a amélioré les capacités de raisonnement en ajustant l'allocation des ressources computationnelles lors de l'inférence. Bien que des successeurs comme QwQ, Deepseek-R1 (R1) et LIMO reproduisent ces avancées, la question de savoir si ces modèles possèdent véritablement des capacités de mise à l'échelle au moment du test reste peu explorée. Cette étude a révélé que des chaînes de pensée (CoTs) plus longues de ces modèles de type o1 n'améliorent pas systématiquement la précision ; en fait, les solutions correctes sont souvent plus courtes que les solutions incorrectes pour les mêmes questions. Une investigation plus approfondie montre que ce phénomène est étroitement lié aux capacités d'autorévision des modèles - les CoTs plus longues contiennent plus d'autorévisions, ce qui entraîne souvent une dégradation des performances. Nous comparons ensuite les stratégies de mise à l'échelle séquentielle et parallèle sur QwQ, R1 et LIMO, constatant que la mise à l'échelle parallèle offre une meilleure couverture et évolutivité. Sur la base de ces observations, nous proposons le vote majoritaire le plus court, une méthode qui combine des stratégies de mise à l'échelle parallèle avec les caractéristiques de longueur des CoTs, améliorant significativement l'évolutivité des modèles au moment du test par rapport aux approches de vote majoritaire conventionnelles.
Bien que les grands modèles de langage (LLM) s'adaptent bien aux tâches en aval après un ajustement fin, cette adaptabilité compromet souvent la robustesse des prompts, car même des variations mineures peuvent considérablement dégrader les performances. Pour remédier à cela, nous proposons l'Ajustement Fin Prompt-Agnostique (PAFT), une approche simple mais efficace qui ajuste dynamiquement les prompts pendant l'ajustement fin. Cela encourage le modèle à apprendre les principes sous-jacents de la tâche plutôt que de surajuster à des formulations de prompts spécifiques. PAFT fonctionne en deux étapes : premièrement, un ensemble diversifié de prompts candidats synthétiques et significatifs est construit. Deuxièmement, pendant l'ajustement fin, les prompts sont échantillonnés aléatoirement dans cet ensemble pour créer des entrées d'entraînement dynamiques. Des expériences approfondies sur divers ensembles de données et LLM démontrent que les modèles entraînés avec PAFT présentent une forte robustesse et généralisation sur une large gamme de prompts, y compris ceux non vus auparavant. Cette robustesse améliorée accroît à la fois les performances du modèle et la vitesse d'inférence tout en maintenant l'efficacité de l'entraînement. Des études d'ablation confirment en outre l'efficacité de PAFT.
Récemment, un intérêt croissant s'est porté sur l'utilisation des grands modèles de langage (LLMs) pour générer des modèles symboliques du monde à partir de descriptions textuelles. Bien que les LLMs aient été largement explorés dans le contexte de la modélisation du monde, les études précédentes ont rencontré plusieurs défis, notamment l'aléa dans l'évaluation, la dépendance à des métriques indirectes et une portée limitée des domaines. Pour pallier ces limitations, nous introduisons un nouveau benchmark, Text2World, basé sur le langage de définition de domaines de planification (PDDL), comprenant des centaines de domaines variés et utilisant des métriques d'évaluation multicritères basées sur l'exécution pour une évaluation plus robuste. Nous évaluons les LLMs actuels avec Text2World et constatons que les modèles de raisonnement entraînés avec un apprentissage par renforcement à grande échelle surpassent les autres. Cependant, même le modèle le plus performant montre des capacités limitées en modélisation du monde. Sur la base de ces observations, nous examinons plusieurs stratégies prometteuses pour améliorer les capacités de modélisation du monde des LLMs, notamment la mise à l'échelle au moment du test, l'entraînement d'agents, et plus encore. Nous espérons que Text2World pourra servir de ressource cruciale, jetant les bases pour des recherches futures sur l'utilisation des LLMs comme modèles du monde. La page du projet est disponible à l'adresse https://text-to-world.github.io/.
Les grands modèles de langage (LLMs) basés sur l'architecture Transformer démontrent des performances impressionnantes dans la génération de contextes longs. L'extension de la longueur du contexte a déplacé de manière disproportionnée l'empreinte mémoire des LLMs lors de l'inférence vers le cache clé-valeur (KV cache). Dans cet article, nous proposons HEADINFER, qui décharge le KV cache vers la mémoire RAM du CPU tout en évitant la nécessité de stocker entièrement le KV cache pour toute couche Transformer sur le GPU. HEADINFER utilise une stratégie de décharge fine et par tête, ne conservant sur le GPU que le KV cache des têtes d'attention sélectionnées tout en calculant dynamiquement la sortie de l'attention. Grâce à une analyse roofline, nous démontrons que HEADINFER maintient une efficacité computationnelle tout en réduisant significativement l'empreinte mémoire. Nous évaluons HEADINFER sur le modèle Llama-3-8B avec une séquence de 1 million de tokens, réduisant l'empreinte mémoire GPU du KV cache de 128 Go à 1 Go et l'utilisation totale de la mémoire GPU de 207 Go à 17 Go, atteignant ainsi une réduction de 92 % par rapport à l'inférence de référence en BF16. Notamment, HEADINFER permet une inférence sur 4 millions de tokens avec un modèle de 8B sur un seul GPU grand public de 24 Go de mémoire (par exemple, le NVIDIA RTX 4090) sans recourir à des méthodes d'approximation.
Nous proposons les connexions MUltiway Dynamic Dense (MUDD), une méthode simple mais efficace pour pallier les limitations des connexions résiduelles et améliorer le flux d'information inter-couches dans les Transformers. Contrairement aux approches existantes de connexions denses avec des poids de connexion statiques et partagés, MUDD génère des poids de connexion de manière dynamique en fonction des états cachés à chaque position de la séquence et pour chaque flux d'entrée découplé (la requête, la clé, la valeur ou le résiduel) d'un bloc Transformer. Les connexions MUDD peuvent être intégrées de manière transparente dans toute architecture Transformer pour créer le MUDDFormer. Des expériences approfondies montrent que le MUDDFormer surpasse significativement les Transformers sur diverses architectures et échelles de modèles en modélisation du langage, atteignant les performances de Transformers entraînés avec 1,8X à 2,4X plus de calcul. Notamment, le MUDDPythia-2.8B égalise le Pythia-6.9B en perplexité de pré-entraînement et en tâches en aval, et rivalise même avec le Pythia-12B dans des configurations à cinq essais, tout en ajoutant seulement 0,23 % de paramètres et 0,4 % de calcul. Le code en JAX et PyTorch ainsi que les modèles pré-entraînés sont disponibles à l'adresse https://github.com/Caiyun-AI/MUDDFormer.
Nous présentons HealthGPT, un puissant modèle médical de vision et langage à grande échelle (Med-LVLM) qui intègre des capacités de compréhension et de génération visuelles médicales dans un paradigme autorégressif unifié. Notre philosophie de démarrage consiste à adapter progressivement des connaissances hétérogènes de compréhension et de génération à des modèles de langage pré-entraînés (LLMs). Cela est réalisé grâce à une technique innovante d'adaptation hétérogène à faible rang (H-LoRA), complétée par une approche de perception visuelle hiérarchique sur mesure et une stratégie d'apprentissage en trois étapes. Pour entraîner efficacement HealthGPT, nous avons conçu un ensemble de données complet spécifique au domaine médical pour la compréhension et la génération, appelé VL-Health. Les résultats expérimentaux démontrent des performances exceptionnelles et une grande évolutivité de HealthGPT dans des tâches unifiées de vision médicale. Notre projet est accessible à l'adresse suivante : https://github.com/DCDmllm/HealthGPT.
L'amélioration de l'architecture réseau du cadre YOLO a longtemps été cruciale, mais s'est concentrée sur des améliorations basées sur les CNN, malgré la supériorité avérée des mécanismes d'attention en termes de capacités de modélisation. Cela s'explique par le fait que les modèles basés sur l'attention ne peuvent égaler la vitesse des modèles basés sur les CNN. Cet article propose un cadre YOLO centré sur l'attention, nommé YOLOv12, qui correspond à la vitesse des précédents modèles basés sur les CNN tout en exploitant les avantages de performance des mécanismes d'attention. YOLOv12 surpasse tous les détecteurs d'objets en temps réel populaires en termes de précision, tout en offrant une vitesse compétitive. Par exemple, YOLOv12-N atteint 40,6 % de mAP avec une latence d'inférence de 1,64 ms sur un GPU T4, surpassant les modèles avancés YOLOv10-N / YOLOv11-N de 2,1 % / 1,2 % de mAP tout en conservant une vitesse comparable. Cet avantage s'étend à d'autres échelles de modèles. YOLOv12 surpasse également les détecteurs en temps réel de bout en bout qui améliorent DETR, tels que RT-DETR / RT-DETRv2 : YOLOv12-S surpasse RT-DETR-R18 / RT-DETRv2-R18 tout en étant 42 % plus rapide, utilisant seulement 36 % des calculs et 45 % des paramètres. D'autres comparaisons sont présentées dans la Figure 1.
Les méthodes d'optimisation distribuée telles que DiLoCo se sont avérées efficaces pour entraîner des modèles de très grande taille sur plusieurs nœuds de calcul distribués, tels que des datacenters. Ces méthodes divisent les mises à jour en deux parties : une phase d'optimisation interne, où les nœuds exécutent de manière indépendante plusieurs étapes d'optimisation sur leurs données locales, et une étape d'optimisation externe, où les mises à jour internes sont synchronisées. Bien que ces approches nécessitent des ordres de grandeur moins de communication que l'entraînement parallèle standard basé sur les données, dans des configurations où les nœuds sont des datacenters, même les exigences de communication limitées de ces approches peuvent encore entraîner des ralentissements significatifs en raison du blocage nécessaire à chaque étape d'optimisation externe. Dans cet article, nous explorons des techniques pour atténuer ce problème en chevauchant la communication avec le calcul de manière à permettre à l'étape d'optimisation externe de se superposer entièrement à la phase d'optimisation interne. Nous montrons qu'une variante particulière, appelée mises à jour anticipées, offre des performances compétitives par rapport à DiLoCo standard dans des configurations où la bande passante entre les nœuds est faible.
Nous présentons une nouvelle approche de raisonnement appelée Flow-of-Options (FoO), conçue pour traiter les biais intrinsèques des modèles de langage à grande échelle (LLMs). FoO permet aux LLMs d'explorer systématiquement une diversité de possibilités dans leur raisonnement, comme le démontre un système agentique basé sur FoO pour résoudre de manière autonome des tâches d'apprentissage automatique (AutoML). Notre cadre surpasse les meilleures méthodes de référence, obtenant des améliorations de 38,2 % à 69,2 % sur des tâches standards de science des données, et de 37,4 % à 47,9 % sur des tâches de chimie thérapeutique. Avec un coût d'opération global inférieur à 1 dollar par tâche, notre cadre est bien adapté aux applications sensibles aux coûts. Au-delà de la classification et de la régression, nous illustrons l'applicabilité plus large de notre système agentique basé sur FoO à des tâches telles que l'apprentissage par renforcement et la génération d'images. Notre cadre représente des avancées significatives par rapport aux systèmes agentiques actuels pour l'AutoML, grâce aux avantages de FoO dans l'imposition de la diversité des solutions des LLMs à travers des représentations compressées et explicables, qui soutiennent également la mémoire à long terme lorsqu'elles sont combinées avec un raisonnement basé sur les cas.
Le développement rapide des grands modèles de raisonnement, tels qu'OpenAI-o3 et DeepSeek-R1, a conduit à des améliorations significatives dans le raisonnement complexe par rapport aux grands modèles de langage (LLMs) non spécialisés dans le raisonnement. Cependant, leurs capacités accrues, combinées à l'accès open-source de modèles comme DeepSeek-R1, soulèvent de sérieuses préoccupations en matière de sécurité, notamment en ce qui concerne leur potentiel de mauvaise utilisation. Dans ce travail, nous présentons une évaluation complète de la sécurité de ces modèles de raisonnement, en exploitant des benchmarks de sécurité établis pour évaluer leur conformité aux réglementations de sécurité. De plus, nous étudions leur vulnérabilité aux attaques adverses, telles que le jailbreaking et l'injection de prompts, afin d'évaluer leur robustesse dans des applications réelles. Grâce à notre analyse multidimensionnelle, nous dégageons quatre conclusions clés : (1) Il existe un écart de sécurité significatif entre les modèles R1 open-source et le modèle o3-mini, tant sur les benchmarks de sécurité que sur les attaques, suggérant qu'un effort supplémentaire en matière de sécurité est nécessaire pour R1. (2) Le modèle de raisonnement distillé montre une performance de sécurité inférieure à celle de ses modèles de base alignés sur la sécurité. (3) Plus la capacité de raisonnement du modèle est forte, plus le potentiel de dommage est grand lorsqu'il répond à des questions non sécurisées. (4) Le processus de pensée dans les modèles R1 pose des préoccupations de sécurité plus importantes que leurs réponses finales. Notre étude fournit des insights sur les implications en matière de sécurité des modèles de raisonnement et met en lumière la nécessité de progrès supplémentaires dans la sécurité des modèles R1 pour combler cet écart.
Les modèles de base pré-entraînés sur d'immenses ensembles de données non annotées ont révolutionné le traitement du langage naturel et la vision par ordinateur, démontrant des capacités de généralisation remarquables, soulignant ainsi l'importance du pré-entraînement. Cependant, les efforts dans le domaine de la robotique peinent à atteindre un succès similaire, limités soit par le besoin d'annotations robotiques coûteuses, soit par l'absence de représentations qui modélisent efficacement le monde physique. Dans cet article, nous présentons ARM4R, un modèle robotique auto-régressif qui exploite des représentations 4D de bas niveau apprises à partir de vidéos humaines pour produire un meilleur modèle robotique pré-entraîné. Plus précisément, nous nous concentrons sur l'utilisation de représentations de suivi de points 3D issues de vidéos, obtenues en projetant des représentations 2D dans l'espace 3D via l'estimation de profondeur monoculaire au fil du temps. Ces représentations 4D maintiennent une structure géométrique commune entre les points et les représentations de l'état du robot jusqu'à une transformation linéaire, permettant un transfert d'apprentissage efficace des vidéos humaines vers le contrôle robotique de bas niveau. Nos expériences montrent qu'ARM4R peut transférer efficacement les connaissances des vidéos humaines à la robotique et améliore de manière constante les performances sur des tâches dans divers environnements et configurations robotiques.
LLM-as-a-Judge, qui génère des jugements en chaîne de raisonnement (CoT), est devenu une méthode d'auto-évaluation largement adoptée. Cependant, sa fiabilité est compromise par l'incapacité du raisonnement CoT à capturer des détails complets et approfondis, conduisant souvent à des résultats incomplets. Les méthodes existantes reposent principalement sur le vote majoritaire ou l'expansion des critères, ce qui est insuffisant pour pallier les limites du CoT. Nous proposons l'Évaluation Comparative Basée sur la Foule, qui introduit des réponses supplémentaires provenant de la foule pour les comparer aux réponses candidates, exposant ainsi des détails plus profonds et plus complets dans les réponses candidates. Ce processus guide efficacement LLM-as-a-Judge pour fournir un jugement CoT plus détaillé. Des expériences approfondies démontrent que notre approche améliore la fiabilité de l'évaluation, obtenant un gain de précision moyen de 6,7 % sur cinq benchmarks. De plus, notre méthode produit des CoT de meilleure qualité qui facilitent la distillation des juges et montrent une performance supérieure dans l'échantillonnage par rejet pour le fine-tuning supervisé (SFT), appelé échantillonnage par rejet de foule, permettant ainsi un SFT plus efficace. Notre analyse confirme que les CoT générés par notre méthode sont plus complets et de meilleure qualité, et que la précision de l'évaluation s'améliore avec l'augmentation des échelles d'inférence.
Les modèles de langage de grande taille (LLMs) ont démontré un succès remarquable dans diverses tâches telles que la compréhension du langage naturel, la synthèse de texte et la traduction automatique. Cependant, leur nature généraliste limite souvent leur efficacité dans des applications spécifiques à un domaine nécessitant des connaissances spécialisées, comme la santé, la chimie ou l'analyse juridique. Pour remédier à cela, les chercheurs ont exploré diverses méthodes pour améliorer les LLMs en intégrant des connaissances spécifiques à un domaine. Dans cette étude, nous proposons un aperçu complet de ces méthodes, que nous catégorisons en quatre approches clés : l'injection dynamique de connaissances, l'intégration statique de connaissances, les adaptateurs modulaires et l'optimisation des prompts. Chaque approche offre des mécanismes uniques pour doter les LLMs d'une expertise dans un domaine, en équilibrant les compromis entre flexibilité, évolutivité et efficacité. Nous discutons de la manière dont ces méthodes permettent aux LLMs de s'attaquer à des tâches spécialisées, comparons leurs avantages et inconvénients, évaluons les LLMs spécifiques à un domaine par rapport aux LLMs généralistes, et mettons en lumière les défis et opportunités dans ce domaine émergent. Pour ceux qui souhaitent approfondir ce sujet, nous résumons également les ensembles de données et benchmarks couramment utilisés. Pour tenir les chercheurs informés des dernières études, nous maintenons une ressource open-source à l'adresse suivante : https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, dédiée à la documentation des recherches dans le domaine des LLMs spécialisés.
Les modèles d'embedding jouent un rôle crucial dans la représentation et la récupération d'informations à travers diverses applications de traitement du langage naturel (NLP). Les récents progrès des grands modèles de langage (LLMs) ont encore amélioré les performances des modèles d'embedding. Bien que ces modèles soient souvent évalués sur des ensembles de données généralistes, les applications réelles nécessitent une évaluation spécifique au domaine. Dans ce travail, nous introduisons le Finance Massive Text Embedding Benchmark (FinMTEB), une version spécialisée de MTEB conçue pour le domaine financier. FinMTEB comprend 64 ensembles de données d'embedding spécifiques au domaine financier répartis sur 7 tâches qui couvrent divers types de textes en chinois et en anglais, tels que des articles de presse financière, des rapports annuels d'entreprises, des rapports ESG, des documents réglementaires et des transcriptions d'appels sur les résultats. Nous développons également un modèle adapté à la finance, FinPersona-E5, en utilisant une méthode de synthèse de données basée sur des personas pour couvrir diverses tâches d'embedding financier pour l'entraînement. À travers une évaluation approfondie de 15 modèles d'embedding, y compris FinPersona-E5, nous montrons trois résultats clés : (1) la performance sur les benchmarks généralistes montre une corrélation limitée avec les tâches du domaine financier ; (2) les modèles adaptés au domaine surpassent systématiquement leurs homologues généralistes ; et (3) de manière surprenante, une simple approche de sac de mots (BoW) surpasse les embeddings denses sophistiqués dans les tâches de similarité sémantique textuelle (STS) financières, soulignant les limites actuelles des techniques d'embedding dense. Notre travail établit un cadre d'évaluation robuste pour les applications NLP financières et fournit des insights cruciaux pour le développement de modèles d'embedding spécifiques au domaine.
L'avancée rapide des cellules solaires à pérovskite (PSCs) a entraîné une croissance exponentielle des publications de recherche, créant un besoin urgent de systèmes efficaces de gestion des connaissances et de raisonnement dans ce domaine. Nous présentons un système complet de connaissances enrichies pour les PSCs qui intègre trois composants clés. Premièrement, nous développons Perovskite-KG, un graphe de connaissances spécifique au domaine construit à partir de 1 517 articles de recherche, contenant 23 789 entités et 22 272 relations. Deuxièmement, nous créons deux ensembles de données complémentaires : Perovskite-Chat, comprenant 55 101 paires de questions-réponses de haute qualité générées grâce à un nouveau cadre multi-agent, et Perovskite-Reasoning, contenant 2 217 problèmes de science des matériaux soigneusement sélectionnés. Troisièmement, nous introduisons deux modèles de langage spécialisés : Perovskite-Chat-LLM pour l'assistance en connaissances spécifiques au domaine et Perovskite-Reasoning-LLM pour les tâches de raisonnement scientifique. Les résultats expérimentaux démontrent que notre système surpasse significativement les modèles existants à la fois en matière de récupération de connaissances spécifiques au domaine et en tâches de raisonnement scientifique, offrant aux chercheurs des outils efficaces pour la revue de littérature, la conception expérimentale et la résolution de problèmes complexes dans la recherche sur les PSCs.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans une variété de tâches de génération de texte. Cependant, les LLM peinent encore à résoudre des problèmes nécessitant une prise de décision multi-étapes et un retour d'information environnemental, tels que les achats en ligne, le raisonnement scientifique et la résolution de problèmes mathématiques. Contrairement aux données textuelles pures, la collecte de données de prise de décision à grande échelle est complexe. De plus, de nombreux LLM puissants ne sont accessibles que via des API, ce qui entrave leur fine-tuning pour des tâches d'agents en raison des coûts et de la complexité. Pour pallier les limitations des agents LLM, nous proposons un cadre capable d'apprendre automatiquement un modèle de récompense à partir de l'environnement sans annotations humaines. Ce modèle peut être utilisé pour évaluer les trajectoires d'actions des agents LLM et fournir des heuristiques pour la planification des tâches. Concrètement, notre approche consiste à employer un agent basé sur un LLM pour naviguer aléatoirement dans un environnement, générant ainsi des trajectoires d'actions variées. Ensuite, un autre LLM est utilisé pour attribuer une intention de tâche et synthétiser une réponse négative ainsi que la réponse correcte pour chaque trajectoire. Ces triplets (intention de tâche, réponse positive et réponse négative) sont ensuite utilisés comme données d'entraînement pour optimiser un modèle de récompense capable de noter les trajectoires d'actions. L'efficacité et la généralisabilité de notre cadre sont démontrées par des évaluations menées sur différents benchmarks d'agents. En conclusion, notre cadre proposé représente une avancée significative dans l'amélioration des capacités de prise de décision des agents LLM. En automatisant l'apprentissage des modèles de récompense, nous surmontons les défis de la rareté des données et des limitations des API, révolutionnant potentiellement l'application des LLM dans des environnements complexes et interactifs. Cette recherche ouvre la voie à des agents IA plus sophistiqués capables de s'attaquer à une large gamme de problèmes réels nécessitant une prise de décision multi-étapes.
Bien que les modèles de langage multilingues comme XLM-R aient fait progresser le multilinguisme en TAL, leurs performances restent médiocres pour les langues extrêmement peu dotées. Cette situation est exacerbée par le fait que les modèles de langage modernes tels que LLaMA et Qwen prennent en charge bien moins de langues que XLM-R, rendant les modèles de génération de texte inexistants pour de nombreuses langues dans le monde. Pour relever ce défi, nous proposons un nouveau cadre d'adaptation des encodeurs multilingues à la génération de texte pour les langues extrêmement peu dotées. En réutilisant les poids entre l'encodeur et le décodeur, notre cadre permet au modèle d'exploiter l'espace sémantique appris par l'encodeur, favorisant un apprentissage efficace et une généralisation performante pour les langues peu dotées. En appliquant ce cadre à quatre langues minoritaires chinoises, nous présentons XLM-SWCM et démontrons ses performances supérieures sur diverses tâches en aval, même comparé à des modèles beaucoup plus volumineux.
L'analyse des séries temporelles a connu un développement inspirant, passant des modèles autorégressifs traditionnels aux modèles d'apprentissage profond, puis aux récents Transformers et aux grands modèles de langage (LLMs). Des efforts ont également été déployés pour exploiter les modèles de vision dans l'analyse des séries temporelles, mais ils sont restés moins visibles pour la communauté en raison de la prédominance des recherches sur la modélisation des séquences dans ce domaine. Cependant, l'écart entre les séries temporelles continues et l'espace discret des tokens des LLMs, ainsi que les défis liés à la modélisation explicite des corrélations entre les variables dans les séries temporelles multivariées, ont redirigé une partie de l'attention de la recherche vers les modèles de vision de grande envergure (LVMs) et les modèles de vision et langage (VLMs), tout aussi performants. Pour combler le vide dans la littérature existante, cette étude explore les avantages des modèles de vision par rapport aux LLMs dans l'analyse des séries temporelles. Elle propose un aperçu complet et approfondi des méthodes existantes, avec une double perspective de taxonomie détaillée qui répond aux questions de recherche clés, notamment comment encoder les séries temporelles sous forme d'images et comment modéliser ces séries temporelles imagées pour diverses tâches. De plus, nous abordons les défis liés aux étapes de pré- et post-traitement impliquées dans ce cadre et esquissons des directions futures pour faire progresser davantage l'analyse des séries temporelles avec les modèles de vision.