Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans cet article, nous proposons un nouveau paradigme d'apprentissage, appelé Chaîne-de-Modèles (Chain-of-Model, CoM), qui intègre la relation causale dans les états cachés de chaque couche sous forme de chaîne, introduisant ainsi une grande efficacité de mise à l'échelle lors de l'entraînement du modèle et une flexibilité accrue lors de l'inférence. Nous introduisons le concept de Chaîne-de-Représentation (Chain-of-Representation, CoR), qui formule les états cachés de chaque couche comme une combinaison de plusieurs sous-représentations (c'est-à-dire des chaînes) au niveau de la dimension cachée. Dans chaque couche, chaque chaîne des représentations de sortie ne peut visualiser que toutes les chaînes qui la précèdent dans les représentations d'entrée. Par conséquent, le modèle construit sur le cadre CoM peut progressivement augmenter sa taille en ajoutant des chaînes basées sur les modèles précédents (c'est-à-dire les chaînes), et offrir plusieurs sous-modèles de tailles variables pour une inférence élastique en utilisant un nombre différent de chaînes. Sur la base de ce principe, nous concevons la Chaîne-de-Modèle-de-Langage (Chain-of-Language-Model, CoLM), qui intègre l'idée de CoM dans chaque couche de l'architecture Transformer. Sur la base de CoLM, nous introduisons en outre CoLM-Air en intégrant un mécanisme de partage de clés et de valeurs (KV), qui calcule toutes les clés et valeurs dans la première chaîne puis les partage à travers toutes les chaînes. Cette conception démontre une extensibilité supplémentaire, permettant par exemple un changement transparent de modèle de langage, une accélération du pré-remplissage, etc. Les résultats expérimentaux montrent que notre famille CoLM peut atteindre des performances comparables à celles du Transformer standard, tout en offrant une plus grande flexibilité, comme une mise à l'échelle progressive pour améliorer l'efficacité de l'entraînement et fournir plusieurs tailles de modèles pour une inférence élastique, ouvrant ainsi une nouvelle voie pour la construction de modèles de langage. Notre code sera publié ultérieurement à l'adresse suivante : https://github.com/microsoft/CoLM.
Récemment, les grands modèles de raisonnement ont obtenu des performances impressionnantes sur diverses tâches en employant une réflexion profonde similaire à celle des humains. Cependant, ce processus de pensée prolongé augmente considérablement les coûts d'inférence, faisant de l'efficacité un goulot d'étranglement critique. Dans ce travail, nous démontrons d'abord que le NoThinking, qui incite le modèle de raisonnement à sauter la phase de réflexion et à générer directement la solution finale, est un meilleur choix pour les tâches relativement simples en termes de performance et d'efficacité. Motivés par cela, nous proposons AdaptThink, un nouvel algorithme d'apprentissage par renforcement (RL) pour enseigner aux modèles de raisonnement à choisir de manière adaptative le mode de pensée optimal en fonction de la difficulté du problème. Plus précisément, AdaptThink se distingue par deux composants clés : (1) un objectif d'optimisation contraint qui encourage le modèle à choisir le NoThinking tout en maintenant la performance globale ; (2) une stratégie d'échantillonnage par importance qui équilibre les échantillons de Thinking et de NoThinking pendant l'entraînement on-policy, permettant ainsi un démarrage à froid et autorisant le modèle à explorer et exploiter les deux modes de pensée tout au long du processus d'entraînement. Nos expériences montrent qu'AdaptThink réduit significativement les coûts d'inférence tout en améliorant encore les performances. Notamment, sur trois ensembles de données mathématiques, AdaptThink réduit la longueur moyenne des réponses de DeepSeek-R1-Distill-Qwen-1.5B de 53 % et améliore sa précision de 2,4 %, mettant en évidence le potentiel de la sélection adaptative des modes de pensée pour optimiser l'équilibre entre la qualité du raisonnement et l'efficacité. Nos codes et modèles sont disponibles à l'adresse https://github.com/THU-KEG/AdaptThink.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables, mais ils rencontrent souvent des difficultés avec les tâches nécessitant un raisonnement sophistiqué. Bien que l'incitation en chaîne de pensée (Chain-of-Thought, CoT) améliore significativement le raisonnement, elle génère de manière indiscriminée des étapes de raisonnement longues pour toutes les requêtes, entraînant des coûts de calcul substantiels et une inefficacité, en particulier pour les entrées plus simples. Pour résoudre ce problème critique, nous introduisons AdaCoT (Adaptive Chain-of-Thought), un cadre novateur permettant aux LLMs de décider de manière adaptative quand invoquer la CoT. AdaCoT formule le raisonnement adaptatif comme un problème d'optimisation de Pareto visant à équilibrer la performance du modèle avec les coûts associés à l'invocation de la CoT (à la fois la fréquence et la surcharge de calcul). Nous proposons une méthode basée sur l'apprentissage par renforcement (Reinforcement Learning, RL), utilisant spécifiquement l'Optimisation de Politique Proximale (Proximal Policy Optimization, PPO), pour contrôler dynamiquement la frontière de décision de déclenchement de la CoT en ajustant les coefficients de pénalité, permettant ainsi au modèle de déterminer la nécessité de la CoT en fonction de la complexité implicite de la requête. Une contribution technique clé est le Masquage Sélectif des Pertes (Selective Loss Masking, SLM), conçu pour contrer l'effondrement de la frontière de décision pendant l'entraînement RL multi-étapes, assurant un déclenchement adaptatif robuste et stable. Les résultats expérimentaux montrent qu'AdaCoT navigue avec succès sur la frontière de Pareto, obtenant des réductions substantielles de l'utilisation de la CoT pour les requêtes ne nécessitant pas un raisonnement élaboré. Par exemple, sur notre ensemble de test de trafic de production, AdaCoT a réduit les taux de déclenchement de la CoT à seulement 3,18 % et a diminué le nombre moyen de tokens de réponse de 69,06 %, tout en maintenant une performance élevée sur les tâches complexes.
Les modèles de langage à raisonnement, capables de raisonnements en chaîne de pensée étendus, ont démontré des performances remarquables sur des tâches nécessitant une inférence logique complexe. Cependant, l'application d'un raisonnement élaboré pour toutes les requêtes entraîne souvent des inefficacités computationnelles substantielles, en particulier lorsque de nombreux problèmes admettent des solutions simples. Cela soulève une question ouverte : Les LLM peuvent-ils apprendre quand réfléchir ? Pour y répondre, nous proposons Thinkless, un cadre apprenable qui permet à un LLM de choisir de manière adaptative entre un raisonnement court et un raisonnement long, en fonction de la complexité de la tâche et des capacités du modèle. Thinkless est entraîné selon un paradigme d'apprentissage par renforcement et utilise deux jetons de contrôle, <short> pour des réponses concises et <think> pour un raisonnement détaillé. Au cœur de notre méthode se trouve un algorithme d'Optimisation de Politique Relative par Groupes Découplés (DeGRPO), qui décompose l'objectif d'apprentissage du raisonnement hybride en deux composantes : (1) une perte sur les jetons de contrôle qui régit la sélection du mode de raisonnement, et (2) une perte sur la réponse qui améliore la précision des réponses générées. Cette formulation découplée permet un contrôle fin des contributions de chaque objectif, stabilisant l'entraînement et prévenant efficacement l'effondrement observé dans le GRPO classique. Empiriquement, sur plusieurs benchmarks tels que Minerva Algebra, MATH-500 et GSM8K, Thinkless est capable de réduire l'utilisation de la pensée en chaîne longue de 50% à 90%, améliorant significativement l'efficacité des modèles de langage à raisonnement. Le code est disponible à l'adresse https://github.com/VainF/Thinkless.
Le mécanisme d'attention d'un transformateur présente une complexité quadratique, entraînant des coûts d'inférence élevés et une latence importante pour les longues séquences. Cependant, les matrices d'attention sont majoritairement creuses, ce qui implique que de nombreuses entrées peuvent être omises du calcul pour une inférence efficace. Les méthodes d'inférence par attention creuse visent à réduire cette charge de calcul, mais elles s'accompagnent également d'une dégradation problématique des performances. Nous découvrons qu'une raison de cette dégradation est que le calcul creux induit un décalage distributionnel dans les sorties de l'attention. Ce décalage distributionnel entraîne un mauvais alignement des requêtes au moment du décodage avec les clés appropriées de l'étape de préremplissage, ce qui se traduit par une baisse de performance. Nous proposons une procédure simple, novatrice et efficace pour corriger ce décalage distributionnel, rapprochant ainsi la distribution des sorties de l'attention creuse de celle de l'attention quadratique. Notre méthode peut être appliquée par-dessus toute méthode d'attention creuse et entraîne une augmentation moyenne de 36 points de pourcentage des performances, récupérant 88 % de la précision de l'attention quadratique sur le benchmark RULER de 131K lorsqu'elle est appliquée par-dessus l'attention par fenêtre glissante avec des tokens de puits, tout en n'ajoutant qu'une faible surcharge. Notre méthode peut maintenir environ 98,5 % de creux par rapport à l'attention quadratique complète, rendant notre modèle 32 fois plus rapide que Flash Attention 2 lors du traitement de préremplissages de 1 million de tokens.
L'ancrage des interfaces graphiques (GUI), c'est-à-dire la capacité à associer des instructions en langage naturel à des actions spécifiques sur des interfaces graphiques, reste un goulot d'étranglement critique dans le développement d'agents informatiques. Les benchmarks actuels simplifient excessivement les tâches d'ancrage en les réduisant à de courtes expressions référentielles, ne parvenant pas à capturer la complexité des interactions réelles qui nécessitent un sens commun logiciel, une compréhension de la disposition et des capacités de manipulation fine. Pour répondre à ces limites, nous introduisons OSWorld-G, un benchmark complet comprenant 564 échantillons finement annotés couvrant divers types de tâches, notamment la correspondance de texte, la reconnaissance d'éléments, la compréhension de la disposition et la manipulation précise. De plus, nous synthétisons et publions le plus grand ensemble de données d'ancrage informatique, Jedi, qui contient 4 millions d'exemples grâce à un découplage multi-perspectives des tâches. Nos modèles multi-échelles entraînés sur Jedi démontrent leur efficacité en surpassant les approches existantes sur ScreenSpot-v2, ScreenSpot-Pro et notre OSWorld-G. Par ailleurs, nous montrons qu'une amélioration de l'ancrage avec Jedi améliore directement les capacités agentielles des modèles de fondation généraux sur des tâches informatiques complexes, passant de 5 % à 27 % sur OSWorld. Grâce à des études d'ablation détaillées, nous identifions les facteurs clés contribuant à la performance d'ancrage et vérifions que la combinaison de données spécialisées pour différents éléments d'interface permet une généralisation compositionnelle à de nouvelles interfaces. Tous les benchmarks, données, points de contrôle et codes sont open-source et disponibles à l'adresse https://osworld-grounding.github.io.
La fusion de modèles s'est imposée comme une technique prometteuse pour améliorer les grands modèles de langage, bien que son application dans le pré-entraînement à grande échelle reste relativement inexplorée. Dans cet article, nous présentons une étude approfondie des techniques de fusion de modèles pendant le processus de pré-entraînement. Grâce à des expériences approfondies avec des architectures denses et Mixture-of-Experts (MoE) allant de millions à plus de 100 milliards de paramètres, nous démontrons que la fusion de points de contrôle entraînés avec des taux d'apprentissage constants permet non seulement d'obtenir des améliorations significatives des performances, mais aussi de prédire avec précision le comportement de recuit. Ces améliorations conduisent à un développement de modèles plus efficace et à des coûts d'entraînement significativement réduits. Nos études d'ablation détaillées sur les stratégies de fusion et les hyperparamètres apportent de nouvelles perspectives sur les mécanismes sous-jacents tout en révélant de nouvelles applications. À travers une analyse expérimentale complète, nous offrons à la communauté open-source des directives pratiques de pré-entraînement pour une fusion de modèles efficace.
La mise à l'échelle des transformateurs de diffusion vidéo (DiTs) est limitée par leur attention 3D quadratique, bien que la majeure partie de la masse attentionnelle se concentre sur un petit sous-ensemble de positions. Nous transformons cette observation en VSA, une attention sparse entraînable et efficace en termes de matériel, qui remplace l'attention complète à la fois pendant l'entraînement et l'inférence. Dans VSA, une étape grossière légère regroupe les tokens en tuiles et identifie les tokens critiques à fort poids ; une étape fine calcule l'attention au niveau des tokens uniquement à l'intérieur de ces tuiles, en respectant une disposition de calcul par blocs pour garantir une efficacité matérielle. Cela conduit à un noyau différentiable unique qui s'entraîne de bout en bout, ne nécessite aucun profilage post-hoc et maintient 85\% de l'MFU de FlashAttention3. Nous effectuons une large série d'études d'ablation et d'expériences de lois d'échelle en pré-entraînant des DiTs de 60M à 1,4B paramètres. VSA atteint un point de Pareto qui réduit les FLOPS d'entraînement par 2,53 fois sans perte de qualité de diffusion. L'adaptation du modèle open-source Wan-2.1 accélère le temps d'attention par 6 fois et réduit le temps de génération de bout en bout de 31s à 18s avec une qualité comparable. Ces résultats établissent l'attention sparse entraînable comme une alternative pratique à l'attention complète et un catalyseur clé pour la mise à l'échelle ultérieure des modèles de diffusion vidéo.
Mesurer le réalisme des images est une tâche complexe dans la recherche en intelligence artificielle. Par exemple, une image d'un garçon avec un aspirateur dans un désert va à l'encontre du bon sens. Nous introduisons une nouvelle méthode, que nous appelons Through the Looking Glass (TLG), pour évaluer la cohérence des images par rapport au bon sens en utilisant des modèles de vision-langage de grande taille (LVLMs) et un encodeur basé sur des Transformers. En exploitant les LVLMs pour extraire des faits atomiques de ces images, nous obtenons un mélange de faits précis. Nous procédons ensuite au fine-tuning d'un classifieur compact avec mécanisme d'attention sur les faits atomiques encodés. Notre méthode TLG a atteint une performance de pointe sur les ensembles de données WHOOPS! et WEIRD tout en utilisant un composant de fine-tuning compact.
Les récents progrès dans la reconstruction dynamique de scènes 3D ont montré des résultats prometteurs, permettant une synthèse de nouvelles vues 3D de haute fidélité avec une meilleure cohérence temporelle. Parmi ces avancées, la méthode de *4D Gaussian Splatting* (4DGS) s'est imposée comme une approche attrayante grâce à sa capacité à modéliser des variations spatiales et temporelles de haute fidélité. Cependant, les méthodes existantes souffrent d'un surcoût computationnel et mémoire important dû à l'allocation redondante de Gaussiennes 4D dans les régions statiques, ce qui peut également dégrader la qualité de l'image. Dans ce travail, nous introduisons le *hybrid 3D-4D Gaussian Splatting* (3D-4DGS), un nouveau cadre qui représente de manière adaptative les régions statiques avec des Gaussiennes 3D tout en réservant les Gaussiennes 4D pour les éléments dynamiques. Notre méthode commence par une représentation entièrement en Gaussiennes 4D et convertit itérativement les Gaussiennes invariantes dans le temps en 3D, réduisant ainsi significativement le nombre de paramètres et améliorant l'efficacité computationnelle. Parallèlement, les Gaussiennes dynamiques conservent leur représentation 4D complète, capturant des mouvements complexes avec une haute fidélité. Notre approche permet des temps d'entraînement nettement plus rapides par rapport aux méthodes de référence en 4D Gaussian Splatting, tout en maintenant ou en améliorant la qualité visuelle.
La capacité de raisonnement, composante essentielle de l'intelligence humaine, continue de représenter un défi majeur pour les modèles de langage à grande échelle (LLMs) dans la quête de l'intelligence artificielle générale (AGI). Bien que les performances des modèles se soient améliorées grâce à la loi d'échelle de l'entraînement, des défis importants subsistent, notamment en ce qui concerne les algorithmes d'entraînement, tels que l'oubli catastrophique, et la disponibilité limitée de nouvelles données d'entraînement. Comme alternative, l'échelle au moment du test améliore les performances de raisonnement en augmentant le calcul au moment du test sans mise à jour des paramètres. Contrairement aux méthodes précédentes dans ce paradigme axées sur l'espace des tokens, nous proposons d'exploiter l'espace latent pour un raisonnement plus efficace et une meilleure adhérence à la loi d'échelle au moment du test. Nous introduisons LatentSeek, un nouveau cadre qui améliore le raisonnement des LLMs grâce à l'Adaptation au Niveau de l'Instance au Moment du Test (TTIA) dans l'espace latent du modèle. Plus précisément, LatentSeek utilise le gradient de politique pour mettre à jour itérativement les représentations latentes, guidé par des signaux de récompense auto-générés. LatentSeek est évalué sur une série de benchmarks de raisonnement, notamment GSM8K, MATH-500 et AIME2024, à travers plusieurs architectures de LLMs. Les résultats montrent que LatentSeek surpasse systématiquement des bases de référence solides, telles que l'incitation en chaîne de pensée et les méthodes basées sur le fine-tuning. De plus, notre analyse démontre que LatentSeek est très efficace, convergeant généralement en quelques itérations pour des problèmes de complexité moyenne, tout en bénéficiant d'itérations supplémentaires, mettant ainsi en lumière le potentiel de l'échelle au moment du test dans l'espace latent. Ces résultats positionnent LatentSeek comme une solution légère, évolutive et efficace pour améliorer les capacités de raisonnement des LLMs.
Bien que les modèles de langage multimodaux de grande taille (MLLMs) aient réalisé des progrès impressionnants dans la compréhension vision-langage, ils peinent encore avec les raisonnements complexes en plusieurs étapes, produisant souvent des solutions logiquement incohérentes ou partiellement correctes. Une limitation majeure réside dans l'absence de supervision fine des étapes intermédiaires du raisonnement. Pour y remédier, nous proposons MM-PRM, un modèle de récompense de processus entraîné dans un cadre entièrement automatisé et évolutif. Nous construisons d'abord MM-Policy, un modèle multimodal robuste entraîné sur des données variées de raisonnement mathématique. Ensuite, nous créons MM-K12, un ensemble de données soigneusement sélectionné de 10 000 problèmes mathématiques multimodaux avec des réponses vérifiables, qui sert de données de départ. En exploitant un pipeline basé sur la recherche arborescente Monte Carlo (MCTS), nous générons plus de 700 000 annotations au niveau des étapes sans étiquetage humain. Le PRM résultant est utilisé pour évaluer les chemins de raisonnement candidats dans le cadre d'inférence Best-of-N et obtient des améliorations significatives à la fois sur des benchmarks en domaine (ensemble de test MM-K12) et hors domaine (OlympiadBench, MathVista, etc.). Une analyse approfondie confirme l'efficacité des étiquettes douces, des taux d'apprentissage plus faibles et de la diversité des chemins pour optimiser les performances du PRM. MM-PRM démontre que la supervision de processus est un outil puissant pour renforcer la robustesse logique des systèmes de raisonnement multimodaux. Nous publions tous nos codes et données sur https://github.com/ModalMinds/MM-PRM.
Les avancées récentes dans l'apprentissage par renforcement basé sur des règles (RL) ont considérablement amélioré la capacité de raisonnement des modèles de langage (LMs) grâce à des récompenses basées sur des règles. Cependant, les méthodes de RL existantes — telles que GRPO, REINFORCE++ et RLOO — souffrent souvent d'une instabilité lors de l'entraînement, où des mises à jour de politique trop importantes et un écrêtage inapproprié peuvent entraîner un effondrement de l'entraînement. Pour résoudre ce problème, nous proposons l'Optimisation du Gradient de Politique Écrêtée avec Dérive de Politique (CPGD), un nouvel algorithme conçu pour stabiliser l'apprentissage des politiques dans les LMs. CPGD introduit une contrainte de dérive de politique basée sur la divergence de KL pour régulariser dynamiquement les mises à jour de politique, et utilise un mécanisme d'écrêtage sur le logarithme du ratio pour éviter des mises à jour excessives de la politique. Nous fournissons une justification théorique pour CPGD et démontrons par une analyse empirique qu'il atténue l'instabilité observée dans les approches précédentes. De plus, nous montrons que CPGD améliore significativement les performances tout en maintenant la stabilité de l'entraînement. Notre implémentation équilibre la rigueur théorique avec l'utilisabilité pratique, offrant une alternative robuste pour le RL dans le post-entraînement des LMs. Nous mettons notre code à disposition à l'adresse suivante : https://github.com/ModalMinds/MM-EUREKA.
Les grands modèles de langage (LLMs) ont permis des avancées significatives, mais l'augmentation de leurs paramètres et de leurs fenêtres contextuelles entraîne des coûts de calcul, d'énergie et monétaires prohibitifs. Nous présentons EfficientLLM, un nouveau benchmark et la première étude empirique complète évaluant les techniques d'efficacité pour les LLMs à grande échelle. Menée sur un cluster de classe production (48xGH200, 8xH200 GPU), notre étude explore systématiquement trois axes clés : (1) le pré-entraînement architectural (variantes d'attention efficaces : MQA, GQA, MLA, NSA ; MoE épars), (2) le fine-tuning (méthodes paramétriquement efficaces : LoRA, RSLoRA, DoRA), et (3) l'inférence (méthodes de quantification : int4, float16). Nous définissons six métriques fines (Utilisation de la mémoire, Utilisation du calcul, Latence, Débit, Consommation d'énergie, Taux de compression) pour capturer la saturation matérielle, l'équilibre latence-débit et le coût carbone. En évaluant plus de 100 paires modèle-technique (0,5B-72B paramètres), nous tirons trois conclusions principales : (i) L'efficacité implique des compromis quantifiables : aucune méthode n'est universellement optimale ; par exemple, MoE réduit les FLOPs et améliore la précision mais augmente la VRAM de 40 %, tandis que la quantification int4 réduit la mémoire/l'énergie jusqu'à 3,9x pour une baisse de précision de 3-5 %. (ii) Les optima dépendent de la tâche et de l'échelle : MQA offre les meilleurs compromis mémoire-latence pour les appareils contraints, MLA atteint la perplexité la plus basse pour les tâches critiques en qualité, et RSLoRA dépasse l'efficacité de LoRA uniquement au-delà de 14B paramètres. (iii) Les techniques se généralisent à travers les modalités : nous étendons les évaluations aux grands modèles de vision (Stable Diffusion 3.5, Wan 2.1) et aux modèles vision-langage (Qwen2.5-VL), confirmant une transférabilité efficace. En ouvrant les jeux de données, les pipelines d'évaluation et les classements, EfficientLLM fournit des orientations essentielles pour les chercheurs et ingénieurs naviguant dans le paysage efficacité-performance des modèles de base de nouvelle génération.
L'adaptation à faible rang (LoRA), qui introduit un produit de deux matrices de faible rang entraînables dans des poids pré-entraînés figés, est largement utilisée pour le réglage fin efficace des modèles de langage en apprentissage fédéré (FL). Cependant, lorsqu'elle est combinée à la descente de gradient stochastique à confidentialité différentielle (DP-SGD), LoRA est confrontée à une amplification substantielle du bruit : DP-SGD perturbe les gradients par échantillon, et la multiplication matricielle de la mise à jour LoRA (BA) intensifie cet effet. Le gel d'une matrice (par exemple, A) réduit le bruit mais limite l'expressivité du modèle, entraînant souvent une adaptation sous-optimale. Pour résoudre ce problème, nous proposons FedSVD, une méthode simple mais efficace qui introduit une reparamétrisation globale basée sur la décomposition en valeurs singulières (SVD). Dans notre approche, chaque client optimise uniquement la matrice B et la transmet au serveur. Le serveur agrège les matrices B, calcule le produit BA en utilisant le A précédent, et refactorise le résultat via SVD. Cela produit un nouveau A adaptatif composé des vecteurs singuliers droits orthonormaux de BA, et un B mis à jour contenant les composantes SVD restantes. Cette reparamétrisation évite l'amplification quadratique du bruit, tout en permettant à A de mieux capturer les directions principales des mises à jour agrégées. De plus, la structure orthonormale de A borne les normes de gradient de B et préserve davantage de signal sous DP-SGD, comme le confirme notre analyse théorique. En conséquence, FedSVD améliore de manière constante la stabilité et les performances dans une variété de paramètres de confidentialité et de benchmarks, surpassant les bases de référence pertinentes dans des régimes privés et non privés.
Les techniques de mise à l'échelle au moment de l'inférence ont considérablement renforcé les capacités de raisonnement des grands modèles de langage (LLM) en exploitant un effort computationnel supplémentaire lors de l'inférence sans nécessiter de réentraînement. De même, l'incitation par chaîne de pensée (Chain-of-Thought, CoT) et son extension, Long CoT, améliorent la précision en générant des trajectoires de raisonnement intermédiaires riches, mais ces approches entraînent des coûts en tokens substantiels qui entravent leur déploiement dans des contextes sensibles à la latence. Dans ce travail, nous montrons d'abord que la CoT tronquée, qui interrompt le raisonnement avant son achèvement et génère directement la réponse finale, correspond souvent à l'échantillonnage complet de la CoT tout en utilisant nettement moins de tokens. En nous appuyant sur cette observation, nous introduisons l'échantillonnage fracturé (Fractured Sampling), une stratégie unifiée au moment de l'inférence qui interpole entre la CoT complète et l'échantillonnage de solutions uniquement selon trois axes orthogonaux : (1) le nombre de trajectoires de raisonnement, (2) le nombre de solutions finales par trajectoire, et (3) la profondeur à laquelle les traces de raisonnement sont tronquées. À travers des expériences approfondies sur cinq benchmarks de raisonnement diversifiés et plusieurs échelles de modèles, nous démontrons que l'échantillonnage fracturé atteint systématiquement des compromis précision-coût supérieurs, offrant des gains d'échelle log-linéaires marqués en Pass@k par rapport au budget en tokens. Notre analyse révèle comment allouer la computation à travers ces dimensions pour maximiser les performances, ouvrant la voie à un raisonnement LLM plus efficace et évolutif.
Les grands modèles de langage (LLM) présentent des niveaux de confiance variables selon les invites d'entrée (questions) : certaines conduisent à des réponses cohérentes et sémantiquement similaires, tandis que d'autres produisent des sorties diversifiées ou contradictoires. Cette variation reflète l'incertitude du LLM vis-à-vis de l'invite d'entrée, un signal indiquant à quel point le modèle comprend un problème donné. Cependant, l'optimisation de politique relative par groupe standard (GRPO) traite toutes les invites de manière égale lors des mises à jour de politique, ignorant cette information cruciale sur les limites de connaissance du modèle. Pour remédier à cette limitation, nous proposons SEED-GRPO (GRPO enrichi par l'entropie sémantique), qui mesure explicitement l'incertitude des LLM vis-à-vis de l'entropie sémantique des invites d'entrée. L'entropie sémantique quantifie la diversité de sens dans plusieurs réponses générées pour une invite donnée et utilise cette mesure pour moduler l'amplitude des mises à jour de politique. Ce mécanisme d'entraînement prenant en compte l'incertitude permet un ajustement dynamique de l'amplitude des mises à jour de politique en fonction de l'incertitude de la question. Il permet des mises à jour plus conservatrices pour les questions à forte incertitude tout en conservant le signal d'apprentissage original pour les questions où le modèle est confiant. Les résultats expérimentaux sur cinq benchmarks de raisonnement mathématique (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2 et OlympiadBench 48.0) démontrent que SEED-GRPO atteint de nouvelles performances de pointe en termes de précision moyenne, validant ainsi l'efficacité de l'optimisation de politique prenant en compte l'incertitude.
Les grands modèles vision-langage démontrent des capacités intrinsèques à traiter diverses tâches de perception visuelle. Dans cet article, nous présentons VisionReasoner, un cadre unifié capable de raisonner et de résoudre plusieurs tâches de perception visuelle au sein d'un même modèle. Plus précisément, en concevant de nouvelles stratégies d'apprentissage cognitif multi-objectifs et une reformulation systématique des tâches, VisionReasoner améliore ses capacités de raisonnement pour analyser les entrées visuelles et aborde diverses tâches de perception dans un cadre unifié. Le modèle génère un processus de raisonnement structuré avant de fournir les résultats souhaités en réponse aux requêtes des utilisateurs. Pour évaluer rigoureusement les capacités unifiées de perception visuelle, nous testons VisionReasoner sur dix tâches variées couvrant trois domaines critiques : la détection, la segmentation et le décompte. Les résultats expérimentaux montrent que VisionReasoner obtient des performances supérieures en tant que modèle unifié, surpassant Qwen2.5VL avec des marges relatives de 29,1 % sur COCO (détection), 22,1 % sur ReasonSeg (segmentation) et 15,3 % sur CountBench (décompte).
La compréhension des graphiques représente un défi unique pour les grands modèles vision-langage (LVLMs), car elle nécessite l'intégration de capacités sophistiquées de raisonnement textuel et visuel. Cependant, les LVLMs actuels présentent un déséquilibre notable entre ces compétences, montrant des lacunes dans le raisonnement visuel qui est difficile à réaliser en texte. Nous menons une étude de cas en utilisant un ensemble de données synthétique résoluble uniquement par raisonnement visuel et montrons que les performances des modèles se dégradent significativement avec l'augmentation de la complexité visuelle, tandis que les performances humaines restent robustes. Nous introduisons ensuite ChartMuseum, un nouveau benchmark de Question-Réponse (QA) sur les graphiques contenant 1 162 questions annotées par des experts, couvrant plusieurs types de raisonnement, issues de graphiques réels provenant de 184 sources, spécifiquement conçu pour évaluer le raisonnement visuel et textuel complexe. Contrairement aux benchmarks précédents de compréhension des graphiques -- où les modèles de pointe performaient de manière similaire et proche de la saturation -- notre benchmark révèle un écart substantiel entre les performances des modèles et des humains, tout en différenciant efficacement les capacités des modèles : bien que les humains atteignent une précision de 93 %, le meilleur modèle, Gemini-2.5-Pro, n'atteint que 63,0 %, et le meilleur LVLM open-source, Qwen2.5-VL-72B-Instruct, n'atteint que 38,5 %. De plus, sur les questions nécessitant principalement un raisonnement visuel, tous les modèles subissent une baisse de performance de 35 % à 55 % par rapport aux questions axées sur le raisonnement textuel. Enfin, notre analyse qualitative des erreurs révèle des catégories spécifiques de raisonnement visuel qui sont difficiles pour les LVLMs actuels.
La reconnaissance précise de l'intention de recherche dans les systèmes de Génération Augmentée par Récupération (RAG) reste un objectif difficile à atteindre, en particulier dans des conditions de ressources limitées et pour des requêtes complexes comportant des structures imbriquées et des dépendances. Cet article présente QCompiler, un cadre neuro-symbolique inspiré des règles de grammaire linguistique et de la conception de compilateurs, visant à combler cette lacune. Il conçoit théoriquement une grammaire minimale mais suffisante sous forme de Backus-Naur (BNF) G[q] pour formaliser les requêtes complexes. Contrairement aux méthodes précédentes, cette grammaire maintient l'exhaustivité tout en minimisant la redondance. Sur cette base, QCompiler intègre un Traducteur d'Expressions de Requêtes, un Analyseur Syntaxique Lexical et un Processeur de Descente Récursive pour compiler les requêtes en Arbres Syntaxiques Abstraits (AST) en vue de leur exécution. L'atomicité des sous-requêtes dans les nœuds feuilles garantit une récupération de documents et une génération de réponses plus précises, améliorant ainsi significativement la capacité du système RAG à traiter des requêtes complexes.
L'intégration des modèles de langage de grande taille avec des planificateurs symboliques représente une direction prometteuse pour obtenir des plans vérifiables et ancrés, par rapport à la planification en langage naturel, avec des travaux récents étendant cette idée aux domaines visuels en utilisant des modèles vision-langage (VLMs). Cependant, une comparaison rigoureuse entre les approches symboliques ancrées dans les VLMs et les méthodes planifiant directement avec un VLM a été entravée par un manque d'environnements communs, de protocoles d'évaluation et de couverture de modèles. Nous présentons ViPlan, le premier benchmark open-source pour la planification visuelle avec des prédicats symboliques et des VLMs. ViPlan propose une série de tâches de difficulté croissante dans deux domaines : une variante visuelle du problème classique de planification Blocksworld et un environnement simulé de robotique domestique. Nous évaluons neuf familles de VLMs open-source de différentes tailles, ainsi que des modèles fermés sélectionnés, en comparant à la fois la planification symbolique ancrée dans les VLMs et l'utilisation directe des modèles pour proposer des actions. Nous constatons que la planification symbolique surpasse la planification directe avec les VLMs dans Blocksworld, où un ancrage précis des images est crucial, tandis que l'inverse est vrai dans les tâches de robotique domestique, où les connaissances de bon sens et la capacité à se remettre des erreurs sont bénéfiques. Enfin, nous montrons que, pour la plupart des modèles et des méthodes, il n'y a pas d'avantage significatif à utiliser l'incitation en chaîne de pensée (Chain-of-Thought), suggérant que les VLMs actuels éprouvent encore des difficultés avec le raisonnement visuel.
Les modèles de récompense sont essentiels pour aligner les sorties des modèles de langage sur les préférences humaines, mais les approches existantes manquent souvent à la fois de contrôlabilité et d'interprétabilité. Ces modèles sont généralement optimisés pour des objectifs étroits, limitant ainsi leur généralisabilité à des tâches en aval plus vastes. De plus, leurs sorties scalaires sont difficiles à interpréter sans raisonnement contextuel. Pour remédier à ces limitations, nous introduisons R3, un nouveau cadre de modélisation de récompense qui est indépendant des rubriques, généralisable à travers différentes dimensions d'évaluation, et qui fournit des attributions de scores interprétables et raisonnées. R3 permet une évaluation plus transparente et flexible des modèles de langage, soutenant un alignement robuste avec des valeurs humaines et des cas d'utilisation diversifiés. Nos modèles, données et code sont disponibles en open source à l'adresse suivante : https://github.com/rubricreward/r3.
Nous présentons SLED, une approche alternative pour la modélisation du langage parlé en encodant les formes d'onde vocales en séquences de représentations latentes continues et en les modélisant de manière autorégressive à l'aide d'un objectif de distance énergétique. La distance énergétique offre une mesure analytique de l'écart distributionnel en comparant des échantillons simulés et cibles, permettant un entraînement efficace pour capturer la distribution autorégressive continue sous-jacente. En évitant la dépendance à la quantification vectorielle résiduelle, SLED contourne les erreurs de discrétisation et élimine le besoin d'architectures hiérarchiques complexes couramment utilisées dans les modèles de langage parlé existants. Il simplifie le pipeline de modélisation tout en préservant la richesse des informations vocales et en maintenant l'efficacité de l'inférence. Les résultats empiriques démontrent que SLED obtient des performances solides à la fois en synthèse vocale zero-shot et en streaming, montrant son potentiel pour des applications plus larges dans les modèles de langage parlé à usage général.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont alimenté la vision d'une découverte scientifique automatisée, souvent appelée Co-Scientifiques IA. À ce jour, les travaux antérieurs présentent ces systèmes comme des co-auteurs génératifs responsables de formuler des hypothèses, de synthétiser du code ou de rédiger des manuscrits. Dans ce travail, nous explorons une application complémentaire : l'utilisation des LLMs comme vérificateurs pour automatiser la vérification académique des manuscrits scientifiques. À cette fin, nous introduisons SPOT, un ensemble de données composé de 83 articles publiés associés à 91 erreurs suffisamment significatives pour justifier des errata ou des rétractations, validées en croisé avec les auteurs réels et des annotateurs humains. En évaluant les LLMs de pointe sur SPOT, nous constatons qu'aucun ne dépasse 21,1 % de rappel ou 6,1 % de précision (o3 obtient les meilleurs scores, tous les autres étant proches de zéro). De plus, les estimations de confiance sont uniformément faibles, et sur huit exécutions indépendantes, les modèles redécouvrent rarement les mêmes erreurs, ce qui compromet leur fiabilité. Enfin, une analyse qualitative avec des experts du domaine révèle que même les modèles les plus performants commettent des erreurs ressemblant à des idées fausses de niveau étudiant, issues de malentendus. Ces résultats mettent en évidence l'écart substantiel entre les capacités actuelles des LLMs et les exigences pour une vérification académique assistée par IA fiable.
L'animation d'images humaines a suscité une attention croissante et s'est développée rapidement en raison de ses applications étendues dans les humains numériques. Cependant, les méthodes existantes reposent largement sur des images de pose rendues en 2D pour guider le mouvement, ce qui limite la généralisation et néglige les informations 3D essentielles pour l'animation dans des environnements ouverts. Pour résoudre ce problème, nous proposons MTVCrafter (Motion Tokenization Video Crafter), le premier cadre de modélisation directe de séquences de mouvement 3D brutes (c'est-à-dire le mouvement 4D) pour l'animation d'images humaines. Plus précisément, nous introduisons 4DMoT (4D motion tokenizer) pour quantifier les séquences de mouvement 3D en tokens de mouvement 4D. Comparés aux images de pose rendues en 2D, les tokens de mouvement 4D offrent des indices spatio-temporels plus robustes et évitent un alignement strict au niveau des pixels entre l'image de pose et le personnage, permettant un contrôle plus flexible et dissocié. Ensuite, nous introduisons MV-DiT (Motion-aware Video DiT). En concevant une attention au mouvement unique avec des encodages positionnels 4D, MV-DiT peut exploiter efficacement les tokens de mouvement comme contexte 4D compact mais expressif pour l'animation d'images humaines dans le monde complexe en 3D. Ainsi, cela représente une avancée significative dans ce domaine et ouvre une nouvelle direction pour la génération de vidéos humaines guidées par la pose. Les expériences montrent que notre MTVCrafter atteint des résultats de pointe avec un FID-VID de 6,98, surpassant le deuxième meilleur résultat de 65%. Grâce à des tokens de mouvement robustes, MTVCrafter généralise également bien à divers personnages dans des environnements ouverts (uniques/multiples, corps entier/demi-corps) à travers différents styles et scénarios. Nos démonstrations vidéo et notre code sont disponibles sur : https://github.com/DINGYANB/MTVCrafter.
Les modèles de génération d'images ont connu des applications généralisées. Par exemple, le modèle TarFlow combine l'architecture Transformer avec les modèles de Normalizing Flow, obtenant des résultats de pointe sur plusieurs benchmarks. Cependant, en raison de la forme causale de l'attention qui nécessite un calcul séquentiel, le processus d'échantillonnage de TarFlow est extrêmement lent. Dans cet article, nous démontrons qu'à travers une série de stratégies d'optimisation, l'échantillonnage de TarFlow peut être grandement accéléré en utilisant la méthode d'itération de Gauss-Seidel-Jacobi (abrégée en GS-Jacobi). Plus précisément, nous constatons que les blocs du modèle TarFlow ont une importance variable : un petit nombre de blocs jouent un rôle majeur dans les tâches de génération d'images, tandis que d'autres blocs contribuent relativement peu ; certains blocs sont sensibles aux valeurs initiales et sujets à des débordements numériques, tandis que d'autres sont relativement robustes. Sur la base de ces deux caractéristiques, nous proposons la Convergence Ranking Metric (CRM) et l'Initial Guessing Metric (IGM) : la CRM est utilisée pour identifier si un bloc TarFlow est "simple" (converge en peu d'itérations) ou "difficile" (nécessite plus d'itérations) ; l'IGM est utilisée pour évaluer si la valeur initiale de l'itération est bonne. Les expériences sur quatre modèles TarFlow démontrent que l'échantillonnage GS-Jacobi peut significativement améliorer l'efficacité de l'échantillonnage tout en maintenant la qualité des images générées (mesurée par le FID), atteignant des accélérations de 4,53x pour Img128cond, 5,32x pour AFHQ, 2,96x pour Img64uncond et 2,51x pour Img64cond sans dégrader les scores FID ou la qualité des échantillons. Le code et les points de contrôle sont accessibles sur https://github.com/encoreus/GS-Jacobi_for_TarFlow.
Tiny QA Benchmark++ (TQB++) propose une suite de tests ultra-légère et multilingue conçue pour offrir aux pipelines de grands modèles de langage (LLM) un ensemble de données de sécurité de type test unitaire, exécutable en quelques secondes à un coût minimal. Né des exigences de boucles de rétroaction rapides lors du développement du SDK d'optimisation de prompts Comet Opik, où l'attente de benchmarks lourds perturbe le flux de travail des développeurs, TQB++ associe un ensemble de référence de 52 éléments en anglais (moins de 20 kB) à un petit package PyPI générateur de données synthétiques basé sur LiteLLM, indépendant des fournisseurs. Ce générateur permet aux praticiens de créer leurs propres mini-packs dans n'importe quelle langue, domaine ou niveau de difficulté, tandis que dix packs prêts à l'emploi couvrent déjà l'arabe, le chinois, le français, l'allemand, le japonais, le coréen, le portugais, le russe, l'espagnol et le turc. Chaque ensemble de données est livré avec des métadonnées Croissant et des fichiers plug-and-play pour OpenAI-Evals, LangChain et les outils CI standards, permettant aux équipes d'intégrer directement des micro-benchmarks déterministes dans les portes de validation des pull requests, les boucles d'ingénierie de prompts et les tableaux de bord de production, sans impacter les budgets GPU. Une exécution complète de TQB++ n'ajoute que quelques secondes à la latence du pipeline, tout en signalant de manière fiable les erreurs de modèles de prompts, les dérives de tokeniseur et les effets secondaires du fine-tuning bien avant que des suites complètes comme MMLU ou BIG-Bench ne terminent leur configuration. L'ensemble du framework est publié pour accélérer l'assurance qualité continue et économe en ressources à travers l'écosystème de l'IA générative.
Les médecins et les patients utilisent de plus en plus les modèles de langage de grande envergure (LLMs) pour diagnostiquer des cas cliniques. Cependant, contrairement à des domaines tels que les mathématiques ou la programmation, où la justesse peut être objectivement définie par la réponse finale, le diagnostic médical nécessite à la fois que le résultat et le processus de raisonnement soient précis. Actuellement, les benchmarks médicaux largement utilisés, comme MedQA et MMLU, évaluent uniquement l'exactitude de la réponse finale, négligeant la qualité et la fidélité du processus de raisonnement clinique. Pour remédier à cette limitation, nous introduisons MedCaseReasoning, le premier ensemble de données en libre accès pour évaluer les LLMs sur leur capacité à s'aligner avec le raisonnement diagnostique rédigé par des cliniciens. L'ensemble de données comprend 14 489 cas de questions et réponses diagnostiques, chacun accompagné de déclarations de raisonnement détaillées issues de rapports de cas médicaux en libre accès. Nous évaluons les LLMs de raisonnement les plus avancés sur MedCaseReasoning et identifions des lacunes significatives dans leurs diagnostics et leur raisonnement : par exemple, le modèle open-source le plus performant, DeepSeek-R1, n'atteint qu'une précision diagnostique de 48 % en 10 essais et ne mentionne que 64 % des déclarations de raisonnement des cliniciens (rappel). Cependant, nous démontrons que l'affinage des LLMs sur les traces de raisonnement issues de MedCaseReasoning améliore significativement la précision diagnostique et le rappel du raisonnement clinique, avec des gains relatifs moyens de 29 % et 41 %, respectivement. L'ensemble de données en libre accès, le code et les modèles sont disponibles à l'adresse suivante : https://github.com/kevinwu23/Stanford-MedCaseReasoning.
Malgré des avancées significatives dans la génération de vidéos, la synthèse d'actions humaines physiquement plausibles reste un défi persistant, en particulier dans la modélisation de la sémantique fine et des dynamiques temporelles complexes. Par exemple, générer des routines de gymnastique telles que le "saut de changement avec demi-tour" pose des difficultés substantielles pour les méthodes actuelles, produisant souvent des résultats insatisfaisants. Pour combler cette lacune, nous proposons FinePhys, un cadre de génération d'actions humaines à granularité fine qui intègre la physique pour obtenir un guidage squelettique efficace. Plus précisément, FinePhys estime d'abord les poses 2D en temps réel, puis effectue une élévation de dimension 2D à 3D via un apprentissage contextuel. Pour atténuer l'instabilité et la faible interprétabilité des poses 3D purement basées sur les données, nous introduisons en outre un module de réestimation du mouvement basé sur la physique, gouverné par les équations d'Euler-Lagrange, calculant les accélérations articulaires via une mise à jour temporelle bidirectionnelle. Les poses 3D prédites physiquement sont ensuite fusionnées avec celles basées sur les données, offrant un guidage multi-échelle de cartes thermiques 2D pour le processus de diffusion. Évalué sur trois sous-ensembles d'actions à granularité fine de FineGym (FX-JUMP, FX-TURN et FX-SALTO), FinePhys surpasse significativement les bases de référence concurrentes. Les résultats qualitatifs complets démontrent en outre la capacité de FinePhys à générer des actions humaines à granularité fine plus naturelles et plausibles.
Le Test-Time Scaling (TTS) désigne des approches qui améliorent les performances de raisonnement en allouant des calculs supplémentaires lors de l'inférence, sans modifier les paramètres du modèle. Alors que les méthodes TTS existantes opèrent dans un espace de tokens discrets en générant davantage d'étapes intermédiaires, des études récentes dans Coconut et SoftCoT ont démontré que penser dans l'espace latent continu peut encore améliorer les performances de raisonnement. Ces pensées latentes encodent une réflexion informative sans la perte d'information associée à la génération de tokens autorégressive, suscitant un intérêt accru pour le raisonnement dans l'espace continu. Contrairement au décodage discret, où un échantillonnage répété permet d'explorer des chemins de raisonnement diversifiés, les représentations latentes dans l'espace continu sont fixes pour une entrée donnée, ce qui limite l'exploration diversifiée, car tous les chemins décodés proviennent de la même pensée latente. Pour surmonter cette limitation, nous introduisons SoftCoT++ pour étendre SoftCoT au paradigme du Test-Time Scaling en permettant une exploration diversifiée des chemins de pensée. Plus précisément, nous perturbons les pensées latentes via plusieurs tokens initiaux spécialisés et appliquons un apprentissage contrastif pour promouvoir la diversité parmi les représentations de pensées douces. Des expériences sur cinq benchmarks de raisonnement et deux architectures distinctes de LLM démontrent que SoftCoT++ améliore significativement SoftCoT et surpasse également SoftCoT avec un scaling de cohérence interne. De plus, il montre une forte compatibilité avec les techniques de scaling conventionnelles telles que la cohérence interne. Le code source est disponible à l'adresse https://github.com/xuyige/SoftCoT.
Les modèles de diffusion vidéo (DMs) ont permis une synthèse vidéo de haute qualité. Cependant, leurs exigences substantielles en termes de calcul et de mémoire posent de sérieux défis pour leur déploiement dans le monde réel, même sur des GPU haut de gamme. En tant que solution couramment adoptée, la quantification a démontré un succès notable dans la réduction des coûts pour les DMs d'images, tandis que son application directe aux DMs vidéo reste inefficace. Dans cet article, nous présentons QVGen, un cadre de formation consciente de la quantification (QAT) novateur, conçu pour des DMs vidéo à haute performance et efficaces en inférence sous une quantification à très faible bit (par exemple, 4 bits ou moins). Nous commençons par une analyse théorique démontrant que la réduction de la norme du gradient est essentielle pour faciliter la convergence pour la QAT. À cette fin, nous introduisons des modules auxiliaires (Phi) pour atténuer les erreurs de quantification importantes, conduisant à une convergence significativement améliorée. Pour éliminer la surcharge d'inférence de Phi, nous proposons une stratégie de décroissance de rang qui élimine progressivement Phi. Plus précisément, nous utilisons de manière répétée la décomposition en valeurs singulières (SVD) et une régularisation basée sur le rang proposée, gamma, pour identifier et décroître les composants à faible contribution. Cette stratégie maintient les performances tout en annulant la surcharge d'inférence. Des expériences approfondies sur 4 DMs vidéo de pointe (SOTA), avec des tailles de paramètres allant de 1,3B à 14B, montrent que QVGen est le premier à atteindre une qualité comparable à la précision complète sous des paramètres de 4 bits. De plus, il surpasse significativement les méthodes existantes. Par exemple, notre CogVideoX-2B à 3 bits réalise des améliorations de +25,28 en Degré Dynamique et +8,43 en Cohérence de Scène sur VBench.
Ces dernières années, l'émergence de modèles de raisonnement à grande échelle (LRMs), tels qu'OpenAI-o1 et DeepSeek-R1, a démontré des capacités impressionnantes dans la résolution de problèmes complexes, par exemple en mathématiques et en programmation. Certaines études pionnières tentent de transposer le succès des LRMs à la traduction automatique neuronale (MT). Elles cherchent à construire des LRMs dotés d'une capacité de traduction approfondie via l'apprentissage par renforcement (RL). Malgré certains progrès réalisés, ces tentatives se concentrent généralement sur plusieurs langues à ressources élevées, comme l'anglais et le chinois, laissant la performance sur d'autres langues incertaine. De plus, les méthodes de modélisation des récompenses dans les travaux précédents ne libèrent pas pleinement le potentiel de l'apprentissage par renforcement en MT. Dans ce travail, nous concevons d'abord une nouvelle méthode de modélisation des récompenses qui compare les résultats de traduction du modèle de politique MT avec un LRM puissant (c'est-à-dire DeepSeek-R1-671B), et quantifie ces comparaisons pour fournir des récompenses. Les résultats expérimentaux démontrent la supériorité de cette méthode de modélisation des récompenses. En utilisant Qwen2.5-7B-Instruct comme base, le modèle entraîné atteint une nouvelle performance de pointe en traduction littéraire et surpasse les LRM puissants, y compris OpenAI-o1 et DeepSeek-R1. De plus, nous étendons notre méthode à des configurations multilingues avec 11 langues. Grâce à une modélisation des récompenses légère et soigneusement conçue dans le RL, nous pouvons simplement transférer la forte capacité de MT d'une seule direction vers plusieurs (c'est-à-dire 90) directions de traduction et obtenir une performance impressionnante en MT multilingue.
Les récentes avancées en Pathologie Numérique (PN), notamment grâce à l'intelligence artificielle et aux Modèles Fondamentaux, ont mis en lumière l'importance de jeux de données à grande échelle, diversifiés et richement annotés. Malgré leur rôle crucial, les ensembles de données publiques d'Images de Lames Entières (WSI) manquent souvent d'échelle suffisante, de diversité tissulaire et de métadonnées cliniques complètes, limitant ainsi la robustesse et la généralisabilité des modèles d'IA. En réponse, nous présentons le jeu de données HISTAI, une collection WSI multimodale et en libre accès comprenant plus de 60 000 lames provenant de divers types de tissus. Chaque cas du jeu de données HISTAI est accompagné de métadonnées cliniques détaillées, incluant le diagnostic, des informations démographiques, des annotations pathologiques approfondies et des codes de diagnostic standardisés. Ce jeu de données vise à combler les lacunes identifiées dans les ressources existantes, en favorisant l'innovation, la reproductibilité et le développement de solutions de pathologie computationnelle pertinentes sur le plan clinique. Le jeu de données peut être consulté à l'adresse suivante : https://github.com/HistAI/HISTAI.
Les ensembles de données de préférences sont essentiels pour entraîner des modèles de langage généralistes et capables de suivre des instructions grâce à l'apprentissage par renforcement à partir de retours humains (RLHF). Chaque nouvelle publication de données accroît les attentes pour les futures collectes, ce qui signifie qu'il existe un besoin constant d'améliorer la qualité et la diversité des données de préférences ouvertement disponibles. Pour répondre à ce besoin, nous présentons HelpSteer3-Preference, un ensemble de données de préférences de haute qualité, annoté par des humains et sous licence permissive (CC-BY-4.0), comprenant plus de 40 000 échantillons. Ces échantillons couvrent diverses applications réelles des grands modèles de langage (LLMs), y compris des tâches liées aux STEM, à la programmation et à des scénarios multilingues. En utilisant HelpSteer3-Preference, nous entraînons des modèles de récompense (RMs) qui atteignent des performances de pointe sur RM-Bench (82,4 %) et JudgeBench (73,7 %). Cela représente une amélioration substantielle (~10 % en valeur absolue) par rapport aux meilleurs résultats précédemment rapportés par les RMs existants. Nous démontrons que HelpSteer3-Preference peut également être appliqué pour entraîner des modèles de récompense génératifs et comment les modèles de politique peuvent être alignés avec RLHF en utilisant nos RMs. Ensemble de données (CC-BY-4.0) : https://huggingface.co/datasets/nvidia/HelpSteer3#preference
L'interaction homme-machine a longtemps imaginé des technologies capables de nous comprendre – de nos préférences et habitudes, au timing et à la finalité de nos actions quotidiennes. Pourtant, les modèles d'utilisateurs actuels restent fragmentés, étroitement adaptés à des applications spécifiques, et incapables du raisonnement flexible nécessaire pour réaliser ces visions. Cet article présente une architecture pour un modèle d'utilisateur général (GUM, General User Model) qui apprend à vous connaître en observant toute interaction que vous avez avec votre ordinateur. Le GUM prend comme entrée toute observation non structurée d'un utilisateur (par exemple, des captures d'écran de l'appareil) et construit des propositions pondérées par la confiance qui capturent les connaissances et préférences de cet utilisateur. Les GUMs peuvent déduire qu'un utilisateur se prépare pour un mariage auquel il participe à partir de messages échangés avec un ami. Ou reconnaître qu'un utilisateur a du mal à intégrer les commentaires d'un collaborateur sur un brouillon en observant plusieurs modifications bloquées et un passage à la lecture de travaux connexes. Les GUMs introduisent une architecture qui infère de nouvelles propositions sur un utilisateur à partir d'observations multimodales, récupère des propositions connexes pour le contexte, et révise continuellement les propositions existantes. Pour illustrer l'étendue des applications que les GUMs permettent, nous démontrons comment ils enrichissent les assistants basés sur le chat avec du contexte, gèrent les notifications du système d'exploitation pour mettre en avant sélectivement des informations importantes, et permettent à des agents interactifs de s'adapter aux préférences à travers les applications. Nous instancions également des assistants proactifs (GUMBOs) qui découvrent et exécutent des suggestions utiles au nom d'un utilisateur en utilisant leur GUM. Dans nos évaluations, nous constatons que les GUMs font des inférences calibrées et précises sur les utilisateurs, et que les assistants construits sur les GUMs identifient et exécutent de manière proactive des actions que les utilisateurs ne penseraient pas à demander explicitement. En somme, les GUMs introduisent des méthodes qui exploitent des modèles multimodaux pour comprendre le contexte non structuré, permettant de réaliser des visions de longue date de l'HCI et de créer de nouveaux systèmes interactifs qui anticipent les besoins des utilisateurs.
La désambiguïsation des homographes reste un défi majeur dans la conversion graphème-phonème (G2P), en particulier pour les langues à ressources limitées. Ce défi est double : (1) la création de jeux de données homographes équilibrés et complets est laborieuse et coûteuse, et (2) les stratégies spécifiques de désambiguïsation introduisent une latence supplémentaire, les rendant inadaptées aux applications en temps réel telles que les lecteurs d’écran et autres outils d’accessibilité. Dans cet article, nous abordons ces deux problèmes. Tout d’abord, nous proposons un pipeline semi-automatisé pour la construction de jeux de données centrés sur les homographes, présentons le jeu de données HomoRich généré grâce à ce pipeline, et démontrons son efficacité en l’appliquant pour améliorer un système G2P basé sur l’apprentissage profond de pointe pour le persan. Ensuite, nous plaidons pour un changement de paradigme : utiliser des jeux de données riches hors ligne pour guider le développement de méthodes rapides basées sur des règles, adaptées aux applications d’accessibilité sensibles à la latence comme les lecteurs d’écran. À cette fin, nous améliorons l’un des systèmes G2P basés sur des règles les plus connus, eSpeak, en une version rapide et consciente des homographes, HomoFast eSpeak. Nos résultats montrent une amélioration d’environ 30 % de la précision de désambiguïsation des homographes pour les systèmes basés sur l’apprentissage profond et eSpeak.
Les premiers hommes des cavernes s'appuyaient sur des gestes, des vocalisations et des signaux simples pour se coordonner, planifier, éviter les prédateurs et partager les ressources. Aujourd'hui, les humains collaborent en utilisant des langages complexes pour obtenir des résultats remarquables. Qu'est-ce qui motive cette évolution de la communication ? Comment le langage émerge-t-il, s'adapte-t-il et devient-il essentiel pour le travail d'équipe ? Comprendre les origines du langage reste un défi. Une hypothèse majeure en linguistique et en anthropologie suggère que le langage a évolué pour répondre aux exigences écologiques et sociales de la coopération humaine primitive. Le langage n'est pas apparu de manière isolée, mais à travers des objectifs de survie partagés. Inspirés par cette perspective, nous étudions l'émergence du langage dans des jeux de recherche de nourriture multi-agents. Ces environnements sont conçus pour refléter les contraintes cognitives et écologiques qui auraient influencé l'évolution de la communication. Les agents opèrent dans un monde en grille partagé avec une connaissance partielle des autres agents et de l'environnement, et doivent se coordonner pour accomplir des tâches comme collecter des cibles de haute valeur ou exécuter des actions temporellement ordonnées. En utilisant l'apprentissage par renforcement profond de bout en bout, les agents apprennent à la fois les actions et les stratégies de communication à partir de zéro. Nous constatons que les agents développent des protocoles de communication présentant des caractéristiques clés du langage naturel : l'arbitraire, l'interchangeabilité, la délocalisation, la transmission culturelle et la compositionnalité. Nous quantifions chaque propriété et analysons comment différents facteurs, tels que la taille de la population et les dépendances temporelles, façonnent des aspects spécifiques du langage émergent. Notre cadre sert de plateforme pour étudier comment le langage peut évoluer à partir de l'observabilité partielle, du raisonnement temporel et des objectifs coopératifs dans des environnements multi-agents incarnés. Nous rendrons publics toutes les données, le code et les modèles.
L'entraînement de petits modèles de langage (SLMs) performants reste coûteux, même avec l'utilisation de la distillation de connaissances et de l'élagage à partir de modèles enseignants plus grands. Les travaux existants se heurtent souvent à trois défis majeurs : (1) la perte d'information due à l'élagage brutal, (2) l'alignement inefficace des représentations, et (3) la sous-utilisation des activations informatives, en particulier celles provenant des réseaux feed-forward (FFN). Pour relever ces défis, nous introduisons Low-Rank Clone (LRC), une méthode d'entraînement préalable efficace qui construit des SLMs visant une équivalence comportementale avec des modèles enseignants puissants. LRC entraîne un ensemble de matrices de projection de faible rang qui permettent conjointement un élagage doux en compressant les poids du modèle enseignant, et un clonage des activations en alignant les activations de l'élève, y compris les signaux FFN, avec celles du modèle enseignant. Cette conception unifiée maximise le transfert de connaissances tout en éliminant le besoin de modules d'alignement explicites. Des expériences approfondies avec des modèles enseignants open-source (par exemple, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) montrent que LRC égale ou dépasse les modèles de pointe entraînés sur des milliers de milliards de tokens—tout en utilisant seulement 20 milliards de tokens, atteignant une efficacité d'entraînement supérieure à 1000x. Nos codes et points de contrôle de modèle sont disponibles à l'adresse https://github.com/CURRENTF/LowRankClone et https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
L'identification précise des techniques adverses dans les textes de sécurité est cruciale pour une cyberdéfense efficace. Cependant, les méthodes existantes sont confrontées à un compromis fondamental : elles reposent soit sur des modèles génériques avec une précision limitée dans le domaine, soit sur des pipelines gourmands en ressources nécessitant de grands ensembles de données étiquetées et des optimisations spécifiques à la tâche, telles que l'extraction de négatifs difficiles personnalisés et le débruitage, des ressources rarement disponibles dans des domaines spécialisés. Nous proposons TechniqueRAG, un cadre de génération augmentée par récupération (RAG) spécifique au domaine, qui comble cette lacune en intégrant des récupérateurs prêts à l'emploi, des modèles de langage à grande échelle (LLM) ajustés par instruction et un nombre minimal de paires texte-technique. Notre approche résout le problème de la rareté des données en affinant uniquement le composant de génération sur un nombre limité d'exemples intra-domaines, évitant ainsi le besoin d'un entraînement de récupération intensif en ressources. Bien que le RAG conventionnel atténue les hallucinations en couplant récupération et génération, sa dépendance à des récupérateurs génériques introduit souvent des candidats bruyants, limitant la précision spécifique au domaine. Pour remédier à cela, nous améliorons la qualité de la récupération et la spécificité du domaine grâce à un reclassement zero-shot par LLM, qui aligne explicitement les candidats récupérés avec les techniques adverses. Les expériences sur plusieurs benchmarks de sécurité démontrent que TechniqueRAG atteint des performances de pointe sans nécessiter d'optimisations spécifiques à la tâche ou de données étiquetées étendues, tandis qu'une analyse approfondie fournit des insights supplémentaires.
Le processeur de signal d'image (ISP) est un composant fondamental des appareils photo des smartphones modernes, responsable de la conversion des données d'image RAW du capteur en images RGB avec un accent marqué sur la qualité perceptuelle. Des travaux récents mettent en lumière le potentiel des approches d'apprentissage profond et leur capacité à capturer des détails avec une qualité de plus en plus proche de celle des appareils photo professionnels. Une étape difficile et coûteuse lors du développement d'un ISP appris est l'acquisition de données appariées alignées au niveau des pixels, qui établissent une correspondance entre les images brutes capturées par un capteur d'appareil photo de smartphone et des images de référence de haute qualité. Dans ce travail, nous relevons ce défi en proposant une nouvelle méthode d'entraînement pour un ISP apprenable, éliminant le besoin de correspondances directes entre les images brutes et les données de référence avec un contenu correspondant. Notre approche non appariée utilise une fonction de perte multi-termes guidée par un entraînement adversarial avec plusieurs discriminateurs traitant des cartes de caractéristiques issues de réseaux pré-entraînés, afin de préserver la structure du contenu tout en apprenant les caractéristiques de couleur et de texture à partir du jeu de données RGB cible. En utilisant des architectures de réseaux de neurones légères adaptées aux appareils mobiles comme backbones, nous avons évalué notre méthode sur les jeux de données Zurich RAW to RGB et Fujifilm UltraISP. Par rapport aux méthodes d'entraînement appariées, notre stratégie d'apprentissage non appariée montre un fort potentiel et atteint une haute fidélité selon plusieurs métriques d'évaluation. Le code et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.
L'identification d'erreurs techniques subtiles dans des documents scientifiques et techniques complexes, en particulier ceux nécessitant une interprétation multimodale (par exemple, des formules dans des images), représente un défi majeur pour les modèles de langage de grande envergure (LLMs), dont les tendances inhérentes à la correction d'erreurs peuvent masquer les inexactitudes. Cette étude exploratoire de preuve de concept (PoC) examine le conditionnement structuré du contexte des LLMs, inspiré des principes du *Persistent Workflow Prompting* (PWP), comme stratégie méthodologique pour moduler ce comportement des LLMs au moment de l'inférence. Cette approche vise à améliorer la fiabilité des LLMs polyvalents facilement accessibles (notamment Gemini 2.5 Pro et ChatGPT Plus o3) pour des tâches de validation précises, en s'appuyant uniquement sur leurs interfaces de chat standard, sans accès à l'API ni modifications du modèle. Pour explorer cette méthodologie, nous nous sommes concentrés sur la validation de formules chimiques dans un seul document de test complexe contenant des erreurs textuelles et basées sur des images. Plusieurs stratégies d'invite ont été évaluées : si les invites de base se sont révélées peu fiables, une approche adaptant les structures PWP pour conditionner rigoureusement l'état d'esprit analytique des LLMs a semblé améliorer l'identification des erreurs textuelles avec les deux modèles. Fait notable, cette méthode a également permis à Gemini 2.5 Pro d'identifier à plusieurs reprises une erreur subtile de formule basée sur une image, précédemment négligée lors de la revue manuelle, une tâche où ChatGPT Plus o3 a échoué dans nos tests. Ces résultats préliminaires mettent en lumière des modes opératoires spécifiques des LLMs qui entravent la validation axée sur les détails et suggèrent que le conditionnement du contexte inspiré par le PWP offre une technique prometteuse et hautement accessible pour développer des workflows analytiques plus robustes pilotés par les LLMs, en particulier pour les tâches nécessitant une détection méticuleuse des erreurs dans les documents scientifiques et techniques. Une validation approfondie au-delà de cette PoC limitée est nécessaire pour confirmer une applicabilité plus large.
Cette étude explore les modèles de langage à grande échelle (LLMs) en tant qu'agents autonomes pour des tâches du monde réel, incluant le développement logiciel en freelance. Ce travail présente un nouveau benchmark qui évalue les LLMs sur des tâches de programmation et d'analyse de données freelance dérivées de données économiques. Nous construisons ce benchmark en utilisant des tâches synthétiques créées à partir d'un ensemble de données Kaggle Freelancer d'offres d'emploi, avec tous les prix des projets standardisés en USD (prix médian de projet fixe autour de 250, et une moyenne de 306). Chaque tâche est accompagnée de cas de test structurés en entrée-sortie et d'une estimation de prix, permettant une vérification automatisée de la correction et une évaluation monétaire de la performance. Cette approche s'inspire du récent benchmark SWE-Lancer d'OpenAI (1 400 tâches réelles Upwork valant 1M au total). Cependant, notre framework simplifie l'évaluation en utilisant des tâches testables programmatiquement et des valeurs de prix prédites, le rendant hautement scalable et reproductible. Sur ce benchmark, nous évaluons quatre LLMs modernes - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 et Mistral. Nous rapportons la précision de chaque modèle (taux de réussite des tâches et taux de réussite des cas de test) et le total des "gains freelance" qu'il réalise (somme des prix des tâches résolues). Nos résultats montrent que Claude 3.5 Haiku performe le mieux, gagnant environ 1,52 million USD, suivi de près par GPT-4o-mini à 1,49 million, puis Qwen 2.5 (1,33M) et Mistral (0,70M). Nous analysons la distribution des erreurs par tâche et observons que les modèles les plus forts résolvent le plus de tâches et échouent rarement complètement sur un projet. Nous discutons des implications de ces résultats pour la faisabilité de l'IA en tant que développeur freelance, des avantages et limites de notre approche de benchmark automatisé, et de l'écart entre la performance sur des tâches structurées et la complexité réelle des emplois freelance.
L'examen critique par les pairs des manuscrits scientifiques représente un défi majeur pour les modèles de langage de grande envergure (LLMs), en partie en raison des limitations des données et de la complexité du raisonnement expert. Ce rapport présente le *Persistent Workflow Prompting* (PWP), une méthodologie de conception d'invites potentiellement largement applicable, conçue pour combler cette lacune en utilisant des interfaces de chat standard pour les LLMs (sans code, sans API). Nous présentons une preuve de concept d'une invite PWP pour l'analyse critique de manuscrits de chimie expérimentale, mettant en avant une architecture hiérarchique et modulaire (structurée via Markdown) qui définit des workflows d'analyse détaillés. Nous développons cette invite PWP grâce à une application itérative de techniques de méta-invites et de méta-raisonnement visant à systématiser les workflows d'examen expert, y compris les connaissances tacites. Soumise une seule fois au début d'une session, cette invite PWP équipe le LLM de workflows persistants déclenchés par des requêtes ultérieures, guidant les LLM modernes à travers des évaluations systématiques et multimodales. Les démonstrations montrent que le LLM guidé par PWP identifie des lacunes méthodologiques majeures dans un cas test tout en atténuant les biais d'entrée du LLM et en accomplissant des tâches complexes, notamment distinguer les affirmations des preuves, intégrer l'analyse de texte/photo/figure pour déduire des paramètres, exécuter des vérifications de faisabilité quantitative, comparer les estimations aux affirmations et évaluer la plausibilité a priori. Pour garantir la transparence et faciliter la réplication, nous fournissons les invites complètes, des analyses détaillées des démonstrations et des journaux de chats interactifs en tant que ressources supplémentaires. Au-delà de l'application spécifique, ce travail offre des insights sur le processus de méta-développement lui-même, mettant en lumière le potentiel du PWP, informé par une formalisation détaillée des workflows, pour permettre des analyses sophistiquées à l'aide de LLM facilement accessibles pour des tâches scientifiques complexes.