Articles de recherche IA sélectionnés quotidiennement avec traductions
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) repose généralement sur l'échantillonnage par groupe pour estimer les avantages et stabiliser les mises à jour de la politique. En pratique, de grandes tailles de groupe ne sont pas réalisables en raison des limites de calcul, ce qui biaise l'apprentissage vers les trajectoires déjà probables. Les petits groupes manquent souvent les trajectoires correctes rares tout en contenant des récompenses mixtes, concentrant la probabilité sur les solutions communes. Nous dérivons la probabilité que les mises à jour manquent les modes corrects rares en fonction de la taille du groupe, montrant un comportement non monotone, et caractérisons comment les mises à jour redistribuent la masse au sein de l'ensemble correct, révélant que la masse correcte non échantillonnée peut diminuer même lorsque la masse correcte totale augmente. Motivés par cette analyse, nous proposons un coefficient d'échelle d'avantage adapté à la difficulté, inspiré par la perte focale (Focal loss), qui pondère à la baisse les mises à jour sur les prompts à haut succès. Cette modification légère peut être intégrée directement dans tout algorithme RLVR relatif au groupe tel que GRPO, DAPO et CISPO. Sur Qwen2.5-7B à travers des benchmarks en domaine et hors domaine, notre méthode améliore le pass@256 de 64,1 → 70,3 (GRPO), 69,3 → 72,5 (DAPO) et 73,2 → 76,8 (CISPO), tout en préservant ou en améliorant le pass@1, sans augmenter la taille du groupe ou le coût computationnel.
Les autoencodeurs épars (SAE) sont des outils puissants pour interpréter les représentations neuronales, mais leur utilisation dans le domaine audio reste peu explorée. Nous entraînons des SAE sur toutes les couches encodeurs de Whisper et HuBERT, fournissons une évaluation approfondie de leur stabilité et interprétabilité, et démontrons leur utilité pratique. Plus de 50 % des caractéristiques restent cohérentes entre différentes initialisations aléatoires, et la qualité de la reconstruction est préservée. Les caractéristiques des SAE capturent à la fois des informations acoustiques et sémantiques générales ainsi que des événements spécifiques, incluant les bruits environnementaux et les sons paralangagiers (par exemple, les rires, les chuchotements), et les désentremêlent efficacement, ne nécessitant l'élimination que de 19 à 27 % des caractéristiques pour effacer un concept. Le guidage par caractéristiques réduit de 70 % les détections erronées de parole par Whisper avec une augmentation négligeable du taux d'erreur de mots, démontrant une applicabilité concrète. Enfin, nous constatons que les caractéristiques des SAE sont corrélées avec l'activité EEG humaine pendant la perception de la parole, indiquant un alignement avec le traitement neuronal humain. Le code et les points de contrôle sont disponibles à l'adresse https://github.com/audiosae/audiosae_demo.
Nous présentons Baichuan-M3, un grand modèle de langage médical renforcé conçu pour faire évoluer le paradigme du simple système de questions-réponses vers un outil d'aide à la décision clinique active et de niveau professionnel. Pour pallier les limitations des systèmes existants dans les consultations ouvertes, Baichuan-M3 utilise un pipeline d'entraînement spécialisé pour modéliser le processus systématique de raisonnement d'un médecin. Ses capacités clés incluent : (i) l'acquisition proactive d'informations pour résoudre les ambiguïtés ; (ii) un raisonnement à long terme qui unifie des éléments de preuve épars en diagnostics cohérents ; et (iii) une suppression adaptative des hallucinations pour garantir la fiabilité factuelle. Les évaluations empiriques démontrent que Baichuan-M3 obtient des résultats à la pointe de l'état de l'art sur HealthBench, le nouveau HealthBench-Hallu et ScanBench, surpassant significativement GPT-5.2 dans les domaines de l'investigation clinique, du conseil et de la sécurité. Les modèles sont disponibles publiquement à l'adresse https://huggingface.co/collections/baichuan-inc/baichuan-m3.
L'avancée rapide des modèles de langage de grande taille (LLM) a catalysé le développement d'agents autonomes capables de naviguer dans des environnements complexes. Cependant, les évaluations existantes adoptent principalement un paradigme déductif, où les agents exécutent des tâches basées sur des règles explicitement fournies et des objectifs statiques, souvent dans des horizons de planification limités. De manière cruciale, cela néglige la nécessité inductive pour les agents de découvrir de manière autonome des lois de transition latentes à partir de l'expérience, ce qui est la pierre angulaire pour permettre une anticipation agentique et maintenir une cohérence stratégique. Pour combler cette lacune, nous présentons OdysseyArena, qui recentre l'évaluation des agents sur des interactions de long terme, actives et inductives. Nous formalisons et instancions quatre primitives, traduisant les dynamiques de transition abstraites en environnements interactifs concrets. Sur cette base, nous établissons OdysseyArena-Lite pour l'évaluation comparative standardisée, fournissant un ensemble de 120 tâches pour mesurer l'efficacité inductive et la découverte à long terme d'un agent. Poursuivant plus loin, nous introduisons OdysseyArena-Challenge pour tester la stabilité des agents dans des horizons d'interaction extrêmes (par exemple, > 200 étapes). Des expériences approfondies sur plus de 15 LLM leaders révèlent que même les modèles les plus performants présentent des lacunes dans les scénarios inductifs, identifiant un goulot d'étranglement critique dans la quête de la découverte autonome dans des environnements complexes. Notre code et nos données sont disponibles à l'adresse https://github.com/xufangzhi/Odyssey-Arena.
L'entropie constitue une métrique essentielle pour mesurer la diversité des sorties générées par les grands modèles de langage (LLM), offrant un éclairage précieux sur leurs capacités d'exploration. Si les études récentes se concentrent davantage sur le suivi et l'ajustement de l'entropie pour mieux équilibrer exploration et exploitation lors du réglage fin par renforcement (RFT), une compréhension théorique des dynamiques entropiques durant ce processus reste à approfondir. Dans cet article, nous établissons un cadre théorique pour analyser les dynamiques de l'entropie durant le processus RFT, en commençant par une expression discriminante qui quantifie la variation d'entropie sous une mise à jour unique des logits. Cette fondation permet de dériver une expression du premier ordre pour la variation d'entropie, qui peut être étendue à la formule de mise à jour de l'optimisation de politique relative par groupe (GRPO). Les corollaires et perspectives issues de l'analyse théorique inspirent la conception de méthodes de contrôle de l'entropie, et offrent également une grille d'interprétation unifiée pour diverses méthodes basées sur l'entropie dans les études existantes. Nous fournissons des preuves empiriques étayant les principales conclusions de notre analyse et démontrons l'efficacité des méthodes dérivées de seuillage discriminant par l'entropie. Cette étude apporte de nouveaux éclairages sur les dynamiques d'apprentissage du RFT, fournissant un support théorique et des stratégies pratiques pour optimiser l'équilibre exploration-exploitation lors du réglage fin des LLM.
La capacité de simuler les résultats d'actions dans des environnements variés révolutionnera le développement d'agents généralistes à grande échelle. Cependant, la modélisation de ces dynamiques du monde, en particulier pour les tâches de robotique dextre, présente des défis significatifs en raison d'une couverture de données limitée et d'une rareté des étiquettes d'action. Dans cette optique, nous présentons DreamDojo, un modèle du monde de base qui apprend des interactions diverses et des commandes dextres à partir de 44 000 heures de vidéos humaines égocentriques. Notre mélange de données constitue le plus grand ensemble de vidéos à ce jour pour le pré-entraînement de modèles du monde, couvrant un large éventail de scénarios quotidiens avec des objets et des compétences variés. Pour pallier la rareté des étiquettes d'action, nous introduisons des actions latentes continues comme actions proxy unifiées, améliorant le transfert de connaissances interactionnelles à partir de vidéos non étiquetées. Après un post-entraînement sur des données robotiques cibles à petite échelle, DreamDojo démontre une compréhension solide de la physique et une contrôlabilité d'action précise. Nous concevons également un pipeline de distillation qui accélère DreamDojo à une vitesse en temps réel de 10,81 IPS et améliore encore la cohérence contextuelle. Notre travail permet plusieurs applications importantes basées sur des modèles du monde génératifs, incluant la téléopération en direct, l'évaluation de politiques et la planification basée sur le modèle. Une évaluation systématique sur plusieurs benchmarks difficiles hors distribution (OOD) vérifie l'importance de notre méthode pour simuler des tâches riches en contacts dans un monde ouvert, ouvrant la voie à des modèles du monde robotiques à usage général.
Ce travail présente un système de reconnaissance vocale « Pisets » destiné aux scientifiques et journalistes, reposant sur une architecture à trois composantes visant à améliorer la précision de la reconnaissance tout en minimisant les erreurs et les hallucinations associées au modèle Whisper. L'architecture comprend une reconnaissance primaire via Wav2Vec2, un filtrage des faux positifs par le biais de l’Audio Spectrogram Transformer (AST), et une reconnaissance vocale finale par Whisper. La mise en œuvre de méthodes d'apprentissage curriculaire et l'utilisation de divers corpus de parole russophone ont significativement accru l'efficacité du système. De plus, des techniques avancées de modélisation de l'incertitude ont été introduites, contribuant à des améliorations supplémentaires de la qualité de la transcription. Les approches proposées garantissent une transcription robuste de données audio longues dans diverses conditions acoustiques, comparativement à WhisperX et au modèle Whisper standard. Le code source du système « Pisets » est accessible publiquement sur GitHub : https://github.com/bond005/pisets.
L'instabilité de l'entraînement demeure un défi critique dans le pré-entraînement des grands modèles de langage (LLM), se manifestant souvent par des explosions soudaines du gradient qui gaspillent d'importantes ressources computationnelles. Nous étudions les échecs d'entraînement dans un modèle NanoGPT de 5M de paramètres mis à l'échelle via μP, en identifiant deux phénomènes clés précédant l'effondrement : (1) un déclin rapide du rang stable des matrices de poids (rapport de la norme de Frobenius au carré sur la norme spectrale au carré), et (2) un alignement croissant entre les jacobiens des couches adjacentes. Nous démontrons théoriquement que ces deux conditions provoquent conjointement une croissance exponentielle de la norme du gradient avec la profondeur du réseau. Pour rompre ce mécanisme d'instabilité, nous proposons MSign, un nouvel optimiseur qui applique périodiquement des opérations de signe matriciel pour restaurer le rang stable. Des expériences sur des modèles de 5M à 3B de paramètres démontrent que MSign prévient efficacement les échecs d'entraînement avec une surcharge computationnelle inférieure à 7,0 %.
La modélisation interne du monde — prédire les transitions entre les états antérieurs X et les états suivants Y sous des actions Z — est essentielle au raisonnement et à la planification pour les LLM et les VLM. L'apprentissage de tels modèles nécessite généralement des trajectoires coûteuses étiquetées par actions. Nous proposons SWIRL, un cadre d'auto-amélioration qui apprend à partir de séquences d'états seuls en traitant les actions comme une variable latente et en alternant entre la Modélisation Directe du Monde (FWM) P_θ(Y|X,Z) et une Modélisation de la Dynamique Inverse (IDM) Q_φ(Z|X,Y). SWIRL itère deux phases : (1) la Maximisation Variationnelle de l'Information, qui met à jour la FWM pour générer des états suivants maximisant l'information mutuelle conditionnelle avec les actions latentes étant donné les états antérieurs, favorisant une cohérence identifiable ; et (2) la Maximisation de l'ELBO, qui met à jour l'IDM pour expliquer les transitions observées, effectuant ainsi une montée de coordonnées. Les deux modèles sont entraînés par apprentissage par renforcement (spécifiquement GRPO) avec la log-probabilité du modèle opposé gelé comme signal de récompense. Nous fournissons des garanties théoriques d'apprenabilité pour les deux mises à jour, et évaluons SWIRL sur des LLM et VLM dans plusieurs environnements : dynamiques visuelles en monde ouvert à tour unique et multi-tours, et environnements textuels synthétiques pour la physique, le web et l'appel d'outils. SWIRL obtient des gains de 16 % sur AURORABench, 28 % sur ByteMorph, 16 % sur WorldPredictionBench et 14 % sur StableToolBench.
Les progrès récents des modèles de raisonnement suggèrent que la génération de tentatives plausibles pour des problèmes mathématiques de niveau recherche pourrait être à portée, mais la vérification reste un goulot d'étranglement, consommant un temps expert précieux. Nous faisons l'hypothèse qu'une solution significative devrait contenir suffisamment d'informations au niveau méthodologique pour que, lorsqu'elle est appliquée à un ensemble de questions connexes, elle produise de meilleures performances en aval que des solutions incorrectes. En nous appuyant sur cette idée, nous proposons l'Utilité Basée sur les Conséquences, un évaluateur sans oracle qui note chaque candidat en testant sa valeur en tant qu'exemple en contexte pour résoudre des questions connexes mais vérifiables. Notre approche est évaluée sur un ensemble original de problèmes mathématiques de niveau recherche, chacun étant associé à une solution rédigée par un expert et à neuf solutions générées par des LLM. Notamment, l'Utilité Basée sur les Conséquences surpasse systématiquement les modèles de récompense, les modèles de récompense génératifs et les juges LLM en termes de qualité de classement. Plus précisément, pour GPT-OSS-120B, elle améliore l'Acc@1 de 67,2 à 76,3 et l'AUC de 71,4 à 79,6, avec des gains d'AUC tout aussi importants sur GPT-OSS-20B (69,0 à 79,2). De plus, par rapport aux juges LLM, elle présente également un écart plus important entre le solveur et l'évaluateur, maintenant une séparation correct/incorrect plus forte même sur les instances où le solveur sous-jacent échoue souvent à résoudre le problème.
Les modèles de raisonnement long rencontrent souvent des difficultés en contexte multilingue : ils ont tendance à raisonner en anglais pour des questions non anglaises ; lorsqu'ils sont contraints de raisonner dans la langue de la question, leur précision chute considérablement. Cette difficulté est causée par des capacités limitées à la fois en compréhension multilingue des questions et en raisonnement multilingue. Pour résoudre ces deux problèmes, nous proposons TRIT (Translation-Reasoning Integrated Training), un cadre d'auto-amélioration qui intègre l'entraînement à la traduction dans le raisonnement multilingue. Sans rétroaction externe ni données multilingues supplémentaires, notre méthode améliore conjointement la compréhension multilingue des questions et la génération de réponses. Sur MMATH, notre méthode surpasse plusieurs modèles de référence par une moyenne de 7 points de pourcentage, améliorant à la fois l'exactitude des réponses et la cohérence linguistique. Une analyse plus poussée révèle que l'intégration de l'entraînement à la traduction améliore l'alignement translingual des questions de plus de 10 points de pourcentage et améliore la qualité de traduction pour les questions mathématiques comme pour les textes du domaine général, avec des gains allant jusqu'à 8,4 points COMET sur FLORES-200.
L'avancée rapide des modèles vision-langage a catalysé l'émergence d'agents d'interface graphique, qui présentent un potentiel immense pour automatiser des tâches complexes, des achats en ligne à la réservation de vols, soulageant ainsi la charge des workflows numériques répétitifs. En tant que capacité fondamentale, l'ancrage dans l'interface graphique est généralement établi comme un prérequis pour l'exécution de tâches de bout en bout. Il permet aux modèles de localiser avec précision les éléments d'interface, tels que le texte et les icônes, pour effectuer des opérations précises comme des clics et de la saisie. Contrairement aux travaux antérieurs qui mettent au point des modèles possédant déjà une forte conscience spatiale (par exemple, Qwen3-VL), nous visons à maîtriser l'intégralité de la chaîne technique en partant d'un modèle de base avec une capacité d'ancrage minimale, tel que POINTS-1.5. Nous présentons POINTS-GUI-G-8B, qui atteint des performances de pointe avec des scores de 59,9 sur ScreenSpot-Pro, 66,0 sur OSWorld-G, 95,7 sur ScreenSpot-v2 et 49,9 sur UI-Vision. Le succès de notre modèle est porté par trois facteurs clés : (1) l'Ingénierie de Données Raffinée, impliquant l'unification du format de divers ensembles de données open source ainsi que des stratégies sophistiquées d'augmentation, de filtrage et de classement par difficulté ; (2) les Stratégies d'Entraînement Améliorées, incluant un réglage fin continu de l'encodeur visuel pour améliorer la précision perceptuelle et le maintien de la cohérence de résolution entre l'entraînement et l'inférence ; et (3) l'Apprentissage par Renforcement avec Récompenses Vérifiables. Bien que l'apprentissage par renforcement soit traditionnellement utilisé pour renforcer le raisonnement, nous démontrons qu'il améliore significativement la précision dans la tâche d'ancrage d'interface graphique, pourtant exigeante en perception. De plus, l'ancrage d'interface graphique offre un avantage naturel pour l'apprentissage par renforcement, car les récompenses sont facilement vérifiables et très précises.
L'essor des modèles de langage à grande échelle (LLM) suscite un intérêt croissant pour les optimiseurs matriciels (tels que Shampoo, Muon, SOAP) en raison de leur efficacité de convergence. Cependant, leur nécessité de mettre à jour les paramètres de manière holistique entre en conflit avec la fragmentation des tenseurs dans les cadres distribués comme Megatron. Les solutions existantes sont sous-optimales : les approches synchrones souffrent de redondance computationnelle, tandis que le partitionnement par couches échoue à résoudre ce conflit sans violer les contraintes géométriques des primitives de communication efficaces. Pour combler cette lacune, nous proposons Canzona, un cadre unifié, asynchrone et équilibré qui dissocie l'attribution logique de l'optimiseur de la distribution physique des paramètres. Pour le parallélisme de données, nous introduisons une stratégie de Partitionnement Statique Alpha-Équilibré qui respecte l'atomicité tout en neutralisant le déséquilibre de charge. Pour le parallélisme de tenseurs, nous concevons un pipeline de Calcul Asynchrone utilisant un Ordonnancement par Micro-Groupes pour regrouper les mises à jour fragmentées et masquer la surcharge de reconstruction. Des évaluations approfondies sur la famille de modèles Qwen3 (jusqu'à 32 milliards de paramètres) sur 256 GPU démontrent que notre approche préserve l'efficacité des architectures parallèles établies, obtenant une accélération de 1,57x du temps d'itération de bout en bout et réduisant la latence des étapes de l'optimiseur de 5,8x par rapport à la référence.
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) est devenu un paradigme indispensable pour améliorer les capacités de raisonnement des Grands Modèles de Langage (LLM). Cependant, les méthodes d'optimisation de politique standard, telles que l'Optimisation de Politique Relative par Groupe (GRPO), convergent souvent vers des politiques à faible entropie, entraînant un effondrement modal sévère et une diversité de sortie limitée. Nous analysons ce problème sous l'angle de la dynamique des probabilités d'échantillonnage, en identifiant que l'objectif standard renforce de manière disproportionnée les chemins de plus haute vraisemblance, supprimant ainsi les chaînes de raisonnement alternatives valides. Pour y remédier, nous proposons un nouveau Mécanisme de Repondération de l'Avantage (ARM) conçu pour équilibrer les niveaux de confiance entre toutes les réponses correctes. En intégrant la Perplexité de l'Invite et la Confiance de la Réponse dans l'estimation de l'avantage, notre méthode remodèle dynamiquement le signal de récompense pour atténuer les mises à jour du gradient des chemins de raisonnement sur-confidents, tout en redistribuant la masse de probabilité vers les solutions correctes sous-explorées. Les résultats empiriques démontrent que notre approche améliore significativement la diversité générative et l'entropie des réponses tout en maintenant une précision compétitive, réalisant efficacement un compromis supérieur entre exploration et exploitation dans les tâches de raisonnement. Les résultats empiriques sur les modèles Qwen2.5 et DeepSeek, sur des benchmarks mathématiques et de codage, montrent que ProGRPO atténue significativement l'effondrement de l'entropie. Plus précisément, sur Qwen2.5-7B, notre méthode surpasse GRPO de 5,7 % en Pass@1 et, notablement, de 13,9 % en Pass@32, soulignant sa capacité supérieure à générer des chemins de raisonnement corrects et diversifiés.
Les grands modèles de raisonnement obtiennent des performances élevées grâce à la mise à l'échelle des chaînes de pensée lors de l'inférence, mais ce paradigme souffre d'un coût quadratique, de limites de longueur de contexte et d'une dégradation du raisonnement due aux effets de perte au milieu. Le raisonnement itératif atténue ces problèmes en résumant périodiquement les pensées intermédiaires, mais les méthodes existantes reposent sur de l'apprentissage supervisé ou des heuristiques fixes et échouent à optimiser le moment de résumer, les éléments à préserver et la manière de reprendre le raisonnement. Nous proposons InftyThink+, un cadre d'apprentissage par renforcement de bout en bout qui optimise l'ensemble de la trajectoire de raisonnement itératif, en s'appuyant sur des limites d'itération contrôlées par le modèle et une sommarisation explicite. InftyThink+ adopte un schéma d'entraînement en deux étapes avec un démarrage à froid supervisé suivi d'un apprentissage par renforcement au niveau de la trajectoire, permettant au modèle d'apprendre des décisions stratégiques de sommarisation et de continuation. Les expériences sur DeepSeek-R1-Distill-Qwen-1.5B montrent qu'InftyThink+ amène une amélioration de 21% sur AIME24 et surpasse l'apprentissage par renforcement conventionnel avec de longues chaînes de pensée par une marge significative, tout en généralisant mieux à des benchmarks hors distribution. De plus, InftyThink+ réduit considérablement la latence d'inférence et accélère l'entraînement par renforcement, démontrant une efficacité de raisonnement améliorée parallèlement à de meilleures performances.
Les benchmarks actuels pour agents mobiles d'interface graphique échouent systématiquement à évaluer les capacités mémorielles, avec seulement 5,2 à 11,8 % de tâches liées à la mémoire et aucune évaluation de l'apprentissage intersession. Nous présentons MemGUI-Bench, un benchmark complet centré sur la mémoire avec une évaluation pass@k et une évaluation échelonnée par LLM-comme-juge. Nos contributions incluent : (1) une taxonomie mémorielle systématique analysant 11 agents sur 5 architectures ; (2) 128 tâches réparties sur 26 applications où 89,8 % sollicitent la mémoire via la rétention trans-temporelle et trans-spatiale ; (3) MemGUI-Eval, un pipeline automatisé avec vérification progressive et 7 métriques hiérarchiques ; et (4) une évaluation basée sur des questions de recherche de 11 agents state-of-the-art. Nos expériences révèlent des déficits mémoriels significatifs dans tous les systèmes évalués, identifient 5 modes de défaillance distincts et synthétisent 5 implications de conception actionnables. Toutes les ressources, y compris le code, le benchmark et les résultats d'évaluation, seront \textit{entièrement open-source et continuellement maintenues} sur https://lgy0404.github.io/MemGUI-Bench/.
La compréhension des vidéos égocentriques joue un rôle essentiel pour l'intelligence incarnée. Les modèles linguistiques multimodaux de grande taille (MLLMs) récents peuvent accepter des entrées visuelles et auditives. Cependant, en raison de la difficulté d'obtenir des annotations textuelles avec des informations conjointes cohérentes entre modalités, la capacité des MLLMs à comprendre conjointement les deux modalités dans les vidéos égocentriques reste peu explorée. Pour résoudre ce problème, nous présentons EgoAVU, un moteur de données évolutif générant automatiquement des narrations, questions et réponses audio-visuelles égocentriques. EgoAVU enrichit les narrations humaines avec un contexte multimodal et génère des narrations audio-visuelles par modélisation de corrélations cross-modales. Un filtrage vidéo par tokens et une curation modulaire basée sur des graphes garantissent à la fois la diversité et la qualité des données. En tirant parti d'EgoAVU, nous construisons EgoAVU-Instruct, un jeu de données d'entraînement à grande échelle de 3 millions d'échantillons, et EgoAVU-Bench, un ensemble d'évaluation vérifié manuellement couvrant diverses tâches. EgoAVU-Bench révèle clairement les limitations des MLLMs existants : ils présentent un biais important vers les signaux visuels, négligeant souvent les indices audio ou échouant à faire correspondre l'audio avec sa source visuelle. Le fine-tuning des MLLMs sur EgoAVU-Instruct résout efficacement ce problème, permettant une amélioration des performances allant jusqu'à 113% sur EgoAVU-Bench. Ces bénéfices se transfèrent également à d'autres benchmarks comme EgoTempo et EgoIllusion, atteignant jusqu'à 28% de gain de performance relatif. Le code sera mis à disposition de la communauté.
Les modèles génératifs de récompense (GenRM) et les approches LLM-comme-juge présentent un alignement trompeur en produisant des jugements corrects pour des raisons incorrectes, car ils sont entraînés et évalués pour privilégier la précision du résultat, ce qui compromet leur capacité à généraliser durant le processus RLHF. Nous introduisons la cohérence des justifications, une métrique fine qui quantifie l'alignement entre le processus de raisonnement du modèle et le jugement humain. Notre évaluation des modèles de pointe révèle que la cohérence des justifications discrimine efficacement les modèles les plus avancés et détecte l'alignement trompeur, tandis que la précision du résultat échoue sur ces deux aspects. Pour combler cette lacune, nous introduisons un signal hybride combinant la cohérence des justifications et la précision du résultat pour l'entraînement des GenRM. Notre méthode d'entraînement atteint des performances de pointe sur RM-Bench (87,1 %) et JudgeBench (82 %), dépassant les modèles de référence basés uniquement sur le résultat de 5 % en moyenne. Utilisé comme modèle de récompense durant le RLHF, notre méthode améliore efficacement les performances, comme démontré sur Arena Hard v2, avec notamment une amélioration de 7 % sur les tâches d'écriture créative. Une analyse approfondie confirme que notre méthode échappe au piège de l'alignement trompeur, inversant efficacement le déclin de la cohérence des justifications observé avec l'entraînement basé uniquement sur le résultat.
Les architectures Mixture-of-Experts (MoE) évoluent vers une granularité plus fine pour améliorer l'efficacité des paramètres. Cependant, les conceptions MoE existantes sont confrontées à un compromis inhérent entre la granularité de la spécialisation des experts et l'efficacité d'exécution matérielle. Nous proposons OmniMoE, un framework co-conçu système-algorithme qui pousse la granularité des experts à son extrême logique. OmniMoE introduit des Experts Atomiques au niveau vectoriel, permettant un routage et une exécution évolutifs au sein d'une seule couche MoE, tout en conservant une branche MLP dense partagée pour le traitement généraliste. Bien que cette conception atomique maximise la capacité, elle pose de sérieux défis pour la complexité du routage et l'accès mémoire. Pour y remédier, OmniMoE adopte une co-conception système-algorithme : (i) un Routeur à Produit Cartésien qui décompose l'espace massif d'indices pour réduire la complexité du routage de O(N) à O(√N) ; et (ii) un Ordonnancement Centré sur les Experts qui inverse l'ordre d'exécution pour transformer des recherches dispersées et limitées par la mémoire en opérations matricielles denses efficaces. Validé sur sept benchmarks, OmniMoE (avec 1,7 milliard de paramètres actifs) atteint une précision zero-shot de 50,9 % sur sept benchmarks, surpassant les approches à granularité grossière (ex. DeepSeekMoE) et fine (ex. PEER). Fait crucial, OmniMoE réduit la latence d'inférence de 73 ms à 6,7 ms (une accélération de 10,9 fois) par rapport à PEER, démontrant qu'un MoE à granularité fine à grande échelle peut être rapide et précis. Notre code est open-source à l'adresse https://github.com/flash-algo/omni-moe.
Si les humains perçoivent le monde à travers des modalités diverses qui opèrent de manière synergique pour soutenir une compréhension holistique de leur environnement, les modèles omnividéo existants rencontrent encore des défis substantiels dans les tâches de compréhension audio-visuelle. Dans cet article, nous proposons OmniVideo-R1, un nouveau cadre renforcé qui améliore le raisonnement multimodal. OmniVideo-R1 permet aux modèles de « raisonner avec des indices omnimodaux » grâce à deux stratégies clés : (1) un ancrage intensif par requêtes basé sur des paradigmes d'apprentissage auto-supervisé ; et (2) une fusion attentive aux modalités construite sur des paradigmes d'apprentissage contrastif. Des expériences approfondies sur plusieurs benchmarks démontrent qu'OmniVideo-R1 surpasse systématiquement des bases de référence solides, soulignant son efficacité et ses capacités de généralisation robustes.
Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables, obtenant des résultats impressionnants sur un large éventail de tâches. Malgré ces avancées, des échecs de raisonnement significatifs persistent, survenant même dans des scénarios apparemment simples. Pour comprendre et résoudre systématiquement ces lacunes, nous présentons la première étude complète consacrée aux échecs de raisonnement des LLM. Nous introduisons un nouveau cadre de catégorisation qui distingue le raisonnement en types incarné et non-incarné, ce dernier étant subdivisé en raisonnement informel (intuitif) et formel (logique). En parallèle, nous classifions les échecs de raisonnement selon un axe complémentaire en trois types : les échecs fondamentaux, intrinsèques aux architectures des LLM, qui affectent largement les tâches en aval ; les limitations spécifiques aux applications qui se manifestent dans des domaines particuliers ; et les problèmes de robustesse caractérisés par des performances incohérentes face à de légères variations. Pour chaque échec de raisonnement, nous fournissons une définition claire, analysons les études existantes, explorons les causes profondes et présentons des stratégies d'atténuation. En unifiant des efforts de recherche fragmentés, notre étude offre une perspective structurée sur les faiblesses systémiques du raisonnement des LLM, fournissant des insights précieux et orientant les recherches futures vers la construction de capacités de raisonnement plus solides, fiables et robustes. Nous mettons également à disposition une collection complète de travaux de recherche sur les échecs de raisonnement des LLM, sous forme de dépôt GitHub à l'adresse https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, pour offrir un point d'entrée facile dans ce domaine.
Les agents auto-améliorants ouverts peuvent modifier de manière autonome leurs propres conceptions structurelles pour faire progresser leurs capacités et dépasser les limites des architectures prédéfinies, réduisant ainsi la dépendance à l'intervention humaine. Nous présentons les Agents à Évolution Collective (AEC), un nouveau paradigme pour l'auto-amélioration ouverte, qui considère un groupe d'agents comme l'unité évolutive fondamentale, permettant un partage et une réutilisation explicites de l'expérience au sein du groupe tout au long de l'évolution. Contrairement aux paradigmes existants d'auto-évolution ouverte qui adoptent une évolution arborescente, les AEC surmontent la limitation d'une utilisation inefficace de la diversité exploratoire causée par des branches évolutives isolées. Nous évaluons les AEC sur des benchmarks de codage exigeants, où ils surpassent significativement les méthodes d'auto-évolution les plus avancées (71,0 % contre 56,7 % sur SWE-bench Verified, 88,3 % contre 68,3 % sur Polyglot) et égalent ou dépassent les meilleurs frameworks d'agents conçus par l'homme (71,8 % et 52,0 % sur deux benchmarks respectivement). L'analyse révèle que les AEC convertissent plus efficacement la diversité exploratoire initiale en une progression soutenue à long terme, obtenant des performances supérieures avec un nombre équivalent d'agents évolués. De plus, les AEC présentent une transférabilité constante entre différents modèles de codage et une plus grande robustesse, corrigeant les boges au niveau du framework en 1,4 itération en moyenne, contre 5 pour les méthodes d'auto-évolution.
La quantification par poids uniquement est essentielle pour la compression des grands modèles de langage (LLM). Inspirés par l'esprit de l'élagage classique par magnitude, nous étudions si l'amplitude des mises à jour des poids pendant le fine-tuning incitatif au raisonnement peut fournir des signaux précieux pour la quantification des grands modèles de raisonnement (LRM). Nous émettons l'hypothèse que les plus petites et les plus grandes mises à jour des poids pendant le fine-tuning sont plus importantes que celles de magnitude intermédiaire, un phénomène que nous nommons « protection des deux extrémités ». Après validation de l'hypothèse, nous introduisons QuantLRM, qui désigne la quantification par poids des LRM via les signaux de fine-tuning. Nous ajustons des fonctions quadratiques restreintes simples sur les mises à jour des poids pour protéger les deux extrémités. En multipliant les valeurs quadratiques moyennes par le nombre de mises à jour de poids nulles des canaux, nous calculons une importance de canal plus efficace que l'utilisation d'informations d'activation ou de second ordre. Nous exécutons QuantLRM pour quantifier divers modèles fine-tunés (incluant le fine-tuning supervisé, par optimisation directe des préférences et par apprentissage par renforcement) sur quatre benchmarks de raisonnement (AIME-120, FOLIO, séquences temporelles et GPQA-Diamond) et constatons empiriquement que QuantLRM apporte une amélioration constante pour la quantification des LRM, avec une amélioration moyenne de 6,55 % sur un modèle fine-tuné par apprentissage par renforcement. Prenant également en charge les LRM non fine-tunés, QuantLRM recueille des signaux efficaces via un pseudo-fine-tuning, ce qui améliore considérablement son applicabilité.
Le déploiement efficace de grands modèles de langage (LLM) nécessite une quantification extrême, imposant un compromis crucial entre l'efficacité en bas débit et les performances. La binarisation résiduelle permet une inférence sans produit matriciel et adaptée au matériel en empilant des couches binaires (±1), mais elle est entravée par une co-adaptation pathologique des caractéristiques. Nous identifions un mode de défaillance clé, que nous nommons adaptation inter-chemins : pendant l'entraînement avec quantification (QAT), les chemins résiduels binaires parallèles apprennent des caractéristiques redondantes, dégradant la structure de compensation d'erreur et limitant la capacité expressive du modèle. Alors que les travaux antérieurs reposent sur des solutions heuristiques (par exemple, le gel de chemins) qui restreignent l'espace des solutions, nous proposons RaBiT, un nouveau cadre de quantification qui résout la co-adaptation en imposant algorithmiquement une hiérarchie résiduelle. Son mécanisme central dérive séquentiellement chaque chemin binaire à partir d'un unique poids en pleine précision partagé, garantissant que chaque chemin corrige l'erreur du précédent. Ce processus est stabilisé par une initialisation robuste qui privilégie la préservation fonctionnelle plutôt qu'une simple approximation des poids. RaBiT redéfinit la frontière précision-efficacité à 2 bits : il atteint des performances à l'état de l'art, rivalise même avec les méthodes de quantification vectorielle (VQ) gourmandes en matériel, et offre une accélération de l'inférence de 4,49 fois par rapport aux modèles en pleine précision sur une RTX 4090.
Les grands modèles de langage (LLM) présentent souvent des performances réduites, un alignement culturel et une robustesse sécuritaire moindres dans les langues non anglophones, en partie parce que l'anglais domine à la fois les données de pré-entraînement et les ensembles de données pour l'alignement sur les préférences humaines. Les méthodes d'entraînement comme l'apprentissage par renforcement à partir de retours humains (RLHF) et l'optimisation directe des préférences (DPO) nécessitent des données de préférences humaines, qui restent rares et largement non publiques pour de nombreuses langues autres que l'anglais. Pour combler cette lacune, nous présentons compar:IA, un service public numérique open-source développé au sein du gouvernement français et conçu pour collecter des données de préférences humaines à grande éprise auprès d'un public majoritairement francophone. La plateforme utilise une interface de comparaison par paires en aveugle pour capturer des prompts non contraints issus du monde réel et les jugements des utilisateurs sur un ensemble diversifié de modèles de langage, tout en maintenant une faible friction de participation et un filtrage automatisé respectueux de la vie privée. Au 07-02-2026, compar:IA a collecté plus de 600 000 prompts librement formulés et 250 000 votes de préférence, environ 89 % des données étant en français. Nous publions trois ensembles de données complémentaires — conversations, votes et réactions — sous licences libres, et présentons des analyses initiales, incluant un classement de modèles pour la langue française et les schémas d'interaction des utilisateurs. Au-delà du contexte français, compar:IA évolue vers un bien public numérique international, offrant une infrastructure réutilisable pour l'entraînement multilingue de modèles, l'évaluation et l'étude de l'interaction humain-IA.
Nous étudions un mode d'échec persistant dans l'alignement multi-objectif des grands modèles de langage (LLM) : l'entraînement améliore les performances sur seulement un sous-ensemble d'objectifs tout en dégradant les autres. Nous formalisons ce phénomène sous le nom d'**interférence inter-objectifs** et menons la première étude systématique sur les algorithmes classiques de scalarisation, montrant que cette interférence est omniprésente et présente une forte dépendance au modèle. Pour expliquer ce phénomène, nous dérivons une **loi de covariance locale** montrant qu'un objectif s'améliore au premier ordre lorsque sa récompense présente une covariance positive avec le score scalarisé. Nous étendons cette analyse aux objectifs substituts tronqués utilisés dans l'alignement moderne, démontrant que la loi de covariance reste valable sous des conditions légères malgré la troncation. En nous appuyant sur cette analyse, nous proposons l'**Adaptation de Poids Ciblée par la Covariance (CTWA)**, une méthode plug-and-play qui maintient une covariance positive entre les récompenses des objectifs et le signal d'entraînement pour atténuer efficacement l'interférence inter-objectifs. Enfin, nous complétons ces conditions d'amélioration locale par une **analyse de convergence globale** sous la condition de Polyak–Łojasiewicz, établissant quand l'optimisation scalarisée non convexe atteint une convergence globale et comment l'interférence inter-objectifs dépend de propriétés géométriques spécifiques du modèle.
Les jailbreaks multi-tours capturent le modèle de menace réel pour les chatbots alignés en sécurité, les attaques à tour unique n'étant qu'un cas particulier. Pourtant, les approches existantes échouent face à la complexité de l'exploration et à la dérive d'intention. Nous proposons SEMA, un cadre simple mais efficace qui entraîne un attaquant multi-tours sans s'appuyer sur des stratégies existantes ou des données externes. SEMA comprend deux étapes. L'auto-ajustement par préremplissage permet des déploiements utilisables en effectuant un fine-tuning sur des invites adverses multi-tours auto-générées avec un préfixe minimal, non réfutées et bien structurées, stabilisant ainsi l'apprentissage ultérieur. L'apprentissage par renforcement avec récompense sensible à la dérive d'intention entraîne l'attaquant à produire des invites adverses multi-tours valides tout en maintenant le même objectif nuisible. Nous ancrons l'intention nuisible dans les jailbreaks multi-tours via une récompense combinant l'alignement de l'intention, le risque de conformité et le niveau de détail. Notre régime d'attaque en boucle ouverte évite la dépendance aux retours de la victime, unifie les configurations à tour unique et multi-tours, et réduit la complexité de l'exploration. Sur plusieurs jeux de données, modèles victimes et évaluateurs de jailbreak, notre méthode atteint des taux de réussite d'attaque (ASR) à l'état de l'art, surpassant toutes les bases de référence à tour unique, les bases multi-tours manuelles et basées sur des modèles, ainsi que nos variantes SFT (Supervised Fine-Tuning) et DPO (Direct Preference Optimization). Par exemple, SEMA obtient un ASR@1 moyen de 80,1% sur trois modèles victimes open source et propriétaires avec AdvBench, soit 33,9% de plus que l'état de l'art. L'approche est compacte, reproductible et transférable entre cibles, fournissant un test de stress plus robuste et réaliste pour la sécurité des grands modèles de langage (LLM) et permettant un redteamning automatique pour exposer et localiser les modes de défaillance. Notre code est disponible à l'adresse : https://github.com/fmmarkmq/SEMA.
L'apprentissage par renforcement (RL) est devenu le paradigme dominant pour entraîner les agents IA basés sur de grands modèles de langage (LLM). Cependant, les algorithmes de RL fondamentaux existants ne disposent pas de garanties de convergence vérifiées dans les scénarios agentiques, en particulier dans les cadres multi-tours, ce qui peut entraîner une instabilité de l'entraînement et un échec de convergence vers des politiques optimales. Dans cet article, nous analysons systématiquement comment différentes combinaisons de mécanismes de mise à jour de politique et de méthodes d'estimation de l'avantage affectent les propriétés de convergence dans les scénarios à tour unique/multi-tours. Nous constatons que REINFORCE avec l'estimation d'avantage relatif par groupe (GRAE) peut converger vers l'optimum global dans des conditions non actualisées, mais que la combinaison PPO et GRAE rompt la propriété d'amélioration monotone originale du PPO. De plus, nous démontrons que les principaux algorithmes de RL fondamentaux ne peuvent pas simultanément atteindre à la fois l'absence de critique (critic-free) et des garanties de convergence dans les scénarios multi-tours. Pour résoudre ce problème, nous proposons SeeUPO (Sequence-level Sequential Update Policy Optimization), une approche sans critique offrant des garanties de convergence pour les interactions multi-tours. SeeUPO modélise l'interaction multi-tour comme une série de problèmes de bandits multi-agents exécutés séquentiellement. Grâce à des mises à jour de politique séquentielles tour par tour dans l'ordre d'exécution inverse, il assure une amélioration monotone et une convergence vers la solution optimale globale via une induction arrière. Les expériences sur AppWorld et BFCL v4 démontrent les améliorations substantielles de SeeUPO par rapport aux algorithmes fondamentaux existants : des gains relatifs de 43,3 % à 54,6 % sur Qwen3-14B et de 24,1 % à 41,9 % sur Qwen2.5-14B (moyenne sur les benchmarks), ainsi qu'une stabilité d'entraînement supérieure.
Les pipelines d'entraînement standard pour les grands modèles de langage (LLM) sont généralement unidirectionnels, progressant du pré-entraînement au post-entraînement. Cependant, le potentiel d'un processus bidirectionnel – où les enseignements du post-entraînement améliorent rétroactivement le modèle de base pré-entraîné – reste inexploré. Notre objectif est d'établir un effet flywheel auto-renforçant : un cycle dans lequel un modèle ajusté par apprentissage par renforcement (RL) renforce le modèle de base, qui améliore à son tour les performances ultérieures du post-entraînement, sans nécessiter de modèle enseignant ou de référence spécialement entraîné. Pour concrétiser cela, nous analysons la dynamique d'entraînement et identifions la phase de mi-entraînement (recuit) comme un point de basculement critique pour les capacités du modèle. Cette phase se produit typiquement à la fin du pré-entraînement, utilisant des corpus de haute qualité sous un taux d'apprentissage à décroissance rapide. En nous appuyant sur cette observation, nous introduisons ReMiT (Reinforcement Learning-Guided Mid-Training). Concrètement, ReMiT exploite les prérequis de raisonnement des modèles ajustés par RL pour repondérer dynamiquement les tokens durant la phase de mi-entraînement, en priorisant ceux qui sont déterminants pour le raisonnement. Empiriquement, ReMiT obtient une amélioration moyenne de 3 % sur 10 benchmarks de pré-entraînement, couvrant les domaines mathématiques, la programmation et le raisonnement général, et maintient ces gains à plus de 2 % tout au long du pipeline de post-entraînement. Ces résultats valident une boucle de rétroaction itérative, permettant une évolution continue et auto-renforçante des LLM.
Les modèles multimodaux unifiés (UMM) ont démontré des capacités impressionnantes pour générer des images naturelles et soutenir le raisonnement multimodal. Cependant, leur potentiel pour soutenir les tâches de planification de l'utilisation informatique, qui sont étroitement liées à notre vie quotidienne, reste sous-exploré. La génération et l'édition d'images dans les tâches informatiques nécessitent des capacités telles que le raisonnement spatial et la compréhension procédurale, et on ignore encore si les UMM possèdent ces capacités pour accomplir ces tâches. Par conséquent, nous proposons PlanViz, un nouveau benchmark conçu pour évaluer la génération et l'édition d'images pour les tâches informatiques. Pour atteindre l'objectif de notre évaluation, nous nous concentrons sur des sous-tâches fréquemment rencontrées dans la vie quotidienne et nécessitant des étapes de planification. Plus précisément, trois nouvelles sous-tâches sont conçues : la planification d'itinéraire, la création de diagrammes de travail et l'affichage web & interface utilisateur. Nous relevons les défis liés à la qualité des données en créant des questions annotées manuellement et des images de référence, ainsi qu'un processus de contrôle qualité. Pour les défis d'une évaluation complète et précise, un score adaptatif aux tâches, PlanScore, est proposé. Ce score aide à comprendre l'exactitude, la qualité visuelle et l'efficacité des images générées. Par des expériences, nous mettons en évidence les limitations clés et les opportunités pour les recherches futures sur ce sujet.
La régularité de l'architecture transformer a été largement étudiée dans le contexte de la généralisation, de la stabilité de l'apprentissage et de la robustesse adversarial. Cependant, son rôle dans l'apprentissage par transfert reste mal compris. Dans cet article, nous analysons la capacité des composants du vision transformer à adapter leurs sorties aux changements des entrées, ou en d'autres termes, leur plasticité. Définie comme un taux de changement moyen, elle capture la sensibilité aux perturbations des entrées ; en particulier, une plasticité élevée implique une faible régularité. Nous démontrons par une analyse théorique et des expériences approfondies que cette perspective fournit des orientations fondées pour choisir les composants à privilégier lors de l'adaptation. Un enseignement clé pour les praticiens est que la plasticité élevée des modules d'attention et des couches feedforward conduit systématiquement à de meilleures performances de fine-tuning. Nos résultats s'écartent de l'hypothèse dominante selon laquelle la régularité est souhaitable, offrant une perspective novatrice sur les propriétés fonctionnelles des transformers. Le code est disponible à l'adresse https://github.com/ambroiseodt/vit-plasticity.
Les modèles de langage Transformer denses ont largement adhéré à une architecture constante : chaque couche est constituée d'un module d'attention suivi d'un réseau feed-forward (FFN) avec un MLP de forme étroit-large-étroit, allouant la majorité des paramètres au MLP avec des taux d'expansion entre 2 et 4. Motivés par des résultats récents montrant que les MLPs résiduels large-étroit-large (en sablier) offrent de meilleures capacités d'approximation de fonctions, nous revisitons la convention de forme MLP de longue date dans les Transformers, en remettant en question la nécessité de la conception étroit-large-étroit. Pour étudier cela, nous développons une variante de Transformer qui remplace le FFN conventionnel par un FFN plus profond en forme de sablier, comprenant une pile de sous-MLPs en sablier connectés par des voies résiduelles. Nous postulons qu'un FFN en sablier plus profond mais plus léger peut constituer une alternative compétitive au FFN conventionnel, et que les paramètres économisés en utilisant un FFN en sablier plus léger peuvent être utilisés plus efficacement, par exemple en augmentant les dimensions cachées du modèle sous des budgets fixes. Nous confirmons cela par des validations empiriques à différentes échelles de modèles : les FFNs en sablier surpassent les FFNs conventionnels jusqu'à 400M de paramètres et obtiennent des performances comparables à des échelles plus grandes jusqu'à 1B de paramètres ; les variantes de FFN en sablier avec des paramètres FFN réduits et des paramètres d'attention augmentés montrent des améliorations constantes par rapport aux configurations conventionnelles à budgets égaux. Ensemble, ces résultats apportent un nouvel éclairage sur les travaux récents et incitent à reconsidérer la convention du MLP étroit-large-étroit et l'équilibre entre l'attention et le FFN pour des modèles de langage modernes à la fois efficaces et expressifs.
Le prétraitement des images de lames entières (WSI), comprenant généralement la détection des tissus suivie de l'extraction de patches, est fondamental pour les flux de travail en pathologie computationnelle pilotée par l'IA. Cela reste un goulot d'étranglement informatique majeur car les outils existants reposent soit sur un seuillage heuristique imprécis pour la détection des tissus, soit adoptent des approches basées sur l'IA entraînées sur des données à diversité limitée qui opèrent au niveau du patch, entraînant une complexité computationnelle substantielle. Nous présentons AtlasPatch, un cadre de prétraitement de lames efficace et évolutif pour une détection précise des tissus et une extraction de patches à haut débit avec une surcharge computationnelle minime. Le module de détection des tissus d'AtlasPatch est entraîné sur un ensemble de données hétérogène et semi-manuellement annoté d'environ 30 000 miniatures de WSI, en utilisant un réglage fin efficace du modèle Segment-Anything. L'outil extrapole les masques tissulaires des miniatures aux lames en pleine résolution pour extraire les coordonnées des patches aux grossissements spécifiés par l'utilisateur, avec des options pour diffuser les patches directement dans des encodeurs d'images courants pour l'incorporation ou stocker les images de patches, le tout étant efficacement parallélisé sur les CPU et les GPU. Nous évaluons AtlasPatch sur la précision de la segmentation, la complexité computationnelle et l'apprentissage multi-instances en aval, égalant les performances de l'état de l'art tout en fonctionnant à une fraction de leur coût computationnel. AtlasPatch est open-source et disponible à l'adresse https://github.com/AtlasAnalyticsLab/AtlasPatch.
Les grands modèles de langage ont démontré des capacités remarquables dans les dialogues en domaine ouvert. Cependant, les méthodes actuelles présentent des performances sous-optimales dans les dialogues de service, car elles reposent sur des données de conversation humaine bruyantes et de faible qualité. Cette limitation provient de la rareté des données et de la difficulté à simuler des comportements utilisateurs authentiques et orientés objectifs. Pour résoudre ces problèmes, nous proposons SEAD (Self-Evolving Agent for Service Dialogue), un cadre permettant aux agents d'apprendre des stratégies efficaces sans annotations humaines à grande échelle. SEAD découple la modélisation utilisateur en deux composants : un Contrôleur de Profil qui génère des états utilisateurs diversifiés pour gérer le curriculum d'apprentissage, et un Modèle de Jeu de Rôle Utilisateur qui se concentre sur un jeu de rôle réaliste. Cette conception garantit que l'environnement fournit des scénarios d'entraînement adaptatifs plutôt que d'agir comme un adversaire injuste. Les expériences démontrent que SEAD surpasse significativement les modèles de base open-source et les modèles commerciaux fermés, améliorant le taux de réalisation des tâches de 17,6% et l'efficacité du dialogue de 11,1%. Le code est disponible à l'adresse : https://github.com/Da1yuqin/SEAD.
Malgré des avancées récentes, l'ajustement à l'inférence - c'est-à-dire l'expansion dynamique du budget de tokens pendant l'inférence selon les besoins - reste fragile pour les modèles vision-langage (VLM) : les chaînes de raisonnement non structurées sur les images entremêlent perception et raisonnement, conduisant à des contextes longs et désorganisés où de petites erreurs perceptives peuvent s'amplifier en réponses complètement erronées. De plus, un apprentissage par renforcement coûteux avec des récompenses conçues manuellement est nécessaire pour obtenir de bonnes performances. Nous présentons ici SPARC (Separating Perception And Reasoning Circuits), un cadre modulaire qui découple explicitement la perception visuelle du raisonnement. Inspiré par le traitement séquentiel sensoriel-cognitif dans le cerveau, SPARC met en œuvre un pipeline en deux étapes où le modèle effectue d'abord une recherche visuelle explicite pour localiser les régions pertinentes pour la question, puis conditionne son raisonnement sur ces régions pour produire la réponse finale. Cette séparation permet un ajustement à l'inférence indépendant avec une allocation de calcul asymétrique (par exemple, prioriser le traitement perceptuel sous un décalage de distribution), prend en charge une optimisation sélective (par exemple, améliorer uniquement l'étape perceptuelle lorsqu'elle est le goulot d'étranglement pour les performances end-to-end), et permet des contextes compressés en exécutant une recherche globale à des résolutions d'image plus faibles et en allouant un traitement haute résolution uniquement aux régions sélectionnées, réduisant ainsi le nombre total de tokens visuels et le calcul requis. Sur des benchmarks exigeants de raisonnement visuel, SPARC surpasse les approches monolithiques de référence et les approches solides d'ancrage visuel. Par exemple, SPARC améliore la précision de Qwen3VL-4B sur le benchmark VQA V^* de 6,7 points de pourcentage, et il surpasse la méthode "thinking with images" de 4,6 points sur une tâche OOD difficile, et ce malgré un budget de tokens 200 fois inférieur.
Les approches existantes pour analyser les activations des réseaux neuronaux, telles que l'ACP et les autoencodeurs parcimonieux, reposent sur des hypothèses structurelles fortes. Les modèles génératifs offrent une alternative : ils peuvent découvrir des structures sans de telles hypothèses et agir comme des a priori qui améliorent la fidélité des interventions. Nous explorons cette direction en entraînant des modèles de diffusion sur un milliard d'activations du flux résiduel, créant des « méta-modèles » qui apprennent la distribution des états internes d'un réseau. Nous constatons que la perte de diffusion diminue régulièrement avec le calcul et prédit de manière fiable l'utilité en aval. En particulier, l'application de l'a priori appris par le méta-modèle aux interventions de pilotage améliore la fluidité, avec des gains plus importants à mesure que la perte diminue. De plus, les neurones du méta-modèle isolent progressivement les concepts dans des unités individuelles, avec des scores de sondage parcimonieux qui évoluent avec la diminution de la perte. Ces résultats suggèrent que les méta-modèles génératifs offrent une voie évolutive vers l'interprétabilité sans hypothèses structurelles restrictives. Page du projet : https://generative-latent-prior.github.io.
Les agents actuels de recherche d'information (InfoSeeking) peinent à maintenir leur concentration et leur cohérence lors d'explorations à long terme, car le suivi des états de recherche – incluant la procédure de planification et les résultats massifs – dans un contexte de texte brut est intrinsèquement fragile. Pour résoudre ce problème, nous présentons Table-as-Search (TaS), un cadre de planification structuré qui reformule la tâche InfoSeeking comme une tâche de complétion de tableau. TaS transforme chaque requête en un schéma de tableau structuré maintenu dans une base de données externe, où les lignes représentent des candidats de recherche et les colonnes désignent des contraintes ou des informations requises. Ce tableau gère précisément les états de recherche : les cellules remplies enregistrent strictement l'historique et les résultats, tandis que les cellules vides servent de plan de recherche explicite. Surtout, TaS unifie trois tâches InfoSeeking distinctes : la recherche approfondie (Deep Search), la recherche étendue (Wide Search) et la recherche mixte difficile (DeepWide Search). Des expériences approfondies démontrent que TaS surpasse significativement de nombreuses méthodes de référence de pointe sur trois types de benchmarks, incluant des frameworks multi-agents et des systèmes commerciaux. De plus, notre analyse valide la robustesse supérieure de TaS dans les tâches InfoSeeking à long terme, ainsi que son efficacité, son extensibilité et sa flexibilité. Le code et les jeux de données sont publiquement disponibles à l'adresse https://github.com/AIDC-AI/Marco-Search-Agent.
La segmentation basée sur le langage est un sujet populaire en vision par ordinateur. Si les récents progrès des modèles de langage multimodaux (MLLM) ont doté les systèmes de segmentation de capacités de raisonnement, ces efforts restent limités par les connaissances internes figées des MLLM, ce qui restreint leur potentiel pour les scénarios réels impliquant des informations actualisées ou des concepts spécifiques à un domaine. Dans ce travail, nous proposons Seg-ReSearch, un nouveau paradigme de segmentation qui surmonte le goulot d'étranglement des connaissances des approches existantes. En permettant un raisonnement entrelacé avec une recherche externe, Seg-ReSearch permet aux systèmes de segmentation de traiter des requêtes dynamiques et ouvertes qui dépassent le cadre des connaissances figées des MLLM. Pour entraîner efficacement cette capacité, nous introduisons une conception de récompense hiérarchique qui harmonise un guidage initial avec des incitations progressives, atténuant le dilemme entre les signaux de résultat épars et une supervision rigide étape par étape. Pour l'évaluation, nous construisons OK-VOS, un benchmark exigeant qui nécessite explicitement des connaissances externes pour la segmentation d'objets en vidéo. Les expériences sur OK-VOS et deux benchmarks existants de segmentation raisonnée démontrent que notre Seg-ReSearch améliore significativement les approches de l'état de l'art. Le code et les données seront disponibles à l'adresse https://github.com/iSEE-Laboratory/Seg-ReSearch.
La distillation des connaissances est devenue une technique essentielle pour transférer le savoir des grands modèles de langage (LLM) plus performants vers des modèles plus petits et efficaces. Cependant, les approches traditionnelles de distillation rencontrent des défis liés aux conflits de connaissances et aux exigences élevées en ressources, particulièrement lorsqu’elles exploitent plusieurs modèles enseignants. Dans cet article, nous introduisons le concept de Purification des Connaissances, qui consolide les raisonnements de plusieurs LLM enseignants en un raisonnement unique, atténuant ainsi les conflits et améliorant l’efficacité. Pour étudier l’efficacité de la purification des connaissances, nous proposons en outre cinq méthodes de purification sous différents angles. Nos expériences démontrent que ces méthodes améliorent non seulement les performances du modèle distillé, mais atténuent aussi efficacement les conflits de connaissances. De plus, les méthodes basées sur un routeur présentent des capacités de généralisation robustes, soulignant le potentiel des techniques innovantes de purification pour optimiser la distillation multi-enseignants et faciliter le déploiement pratique de modèles puissants mais légers.
Une véritable auto-évolution nécessite que les agents agissent comme des apprenants permanents qui internalisent de nouvelles expériences pour résoudre des problèmes futurs. Cependant, la mesure rigoureuse de cette capacité fondamentale est entravée par deux obstacles : l’intrication des connaissances préalables, où les connaissances « nouvelles » peuvent apparaître dans les données de pré-entraînement, et l’intrication de la complexité du raisonnement, où les échecs peuvent provenir de la difficulté du problème plutôt que d’une incapacité à rappeler les connaissances acquises. Nous présentons SE-Bench, un environnement de diagnostic qui obscurcit la bibliothèque NumPy et sa documentation API en un package pseudo-nouveau avec des identifiants randomisés. Les agents sont entraînés à internaliser ce package et évalués sur des tâches de codage simples sans accès à la documentation, créant un cadre épuré où les tâches sont triviales avec la nouvelle documentation API mais impossibles pour les modèles de base sans celle-ci. Notre investigation révèle trois insights : (1) le Paradoxe du Livre Ouvert, où l’entraînement avec une documentation de référence inhibe la rétention, nécessitant un « Entraînement Livre Fermé » pour forcer la compression des connaissances dans les poids ; (2) l’Écart du RL, où l’apprentissage par renforcement standard échoue à internaliser complètement de nouvelles connaissances en raison du clipping PPO et des gradients négatifs ; et (3) la viabilité du Jeu Auto-supervisé pour l’internalisation, prouvant que les modèles peuvent apprendre à partir de tâches bruitées auto-générées lorsqu’elles sont couplées au SFT, mais pas au RL. Globalement, SE-Bench établit une plateforme de diagnostic rigoureuse pour l’auto-évolution avec internalisation des connaissances. Notre code et notre jeu de données sont disponibles à l’adresse https://github.com/thunlp/SE-Bench.
Les couches d'appariement différentiables et les paradigmes de connexion résiduelle, souvent implémentés via le Transport Optimal (TO) régularisé par entropie, constituent des mécanismes critiques pour la prédiction structurelle et la mise à l'échelle architecturale. Cependant, la récupération de permutations discrètes ou le maintien de mappages d'identité via un recuit de ε vers 0 sont notoirement instables. Dans ce travail, nous identifions un mécanisme fondamental à l'origine de cet échec : l'effondrement prématuré des modes. En analysant la dynamique non normale de l'application à point fixe de Sinkhorn, nous révélons une limite de vitesse thermodynamique théorique : le refroidissement exponentiel standard dépasse le taux de contraction de l'opérateur d'inférence, qui se dégrade en O(1/ε). Pour résoudre ce problème, nous proposons le Contrôle Adaptatif de Stabilité Hybride Par Morceaux Efficace (EPH-ASC), un algorithme d'ordonnancement adaptatif qui surveille la stabilité du processus d'inférence. Nous démontrons que l'EPH-ASC est essentiel pour stabiliser les Hyper-Connexions à Contrainte de Variété (mHC) lors de l'entraînement à grande échelle sur le jeu de données FineWeb-Edu, empêchant efficacement les explosions de gradient en phase finale en imposant une loi de stabilité linéaire.
Les aléas climatiques perturbent de plus en plus les transports urbains et les opérations de secours en endommageant le parc immobilier, en dégradant les infrastructures et en réduisant l'accessibilité du réseau. Cet article présente Skjold-DiT, un cadre de type transformeur à diffusion qui intègre des données urbaines spatio-temporelles hétérogènes pour prévoir des indicateurs de risque climatique au niveau du bâti, tout en incorporant explicitement la structure du réseau de transport et les signaux d'accessibilité pertinents pour les véhicules intelligents (par exemple, l'accessibilité pour les secours et les contraintes des routes d'évacuation). Concrètement, Skjold-DiT permet de définir des contraintes de routage conditionnées aux aléas en produisant des couches d'accessibilité étalonnées et tenant compte de l'incertitude (accessibilité, inflation du temps de trajet et redondance des itinéraires) qui peuvent être utilisées par les systèmes de routage pour véhicules intelligents et de dispatch d'urgence. Skjold-DiT combine : (1) Fjell-Prompt, une interface de conditionnement par prompt conçue pour supporter le transfert interurbain ; (2) Norrland-Fusion, un mécanisme d'attention cross-modal unifiant les cartes d'aléas/imagerie, les attributs du bâti, les données démographiques et les infrastructures de transport en une représentation latente partagée ; et (3) Valkyrie-Forecast, un simulateur contrefactuel pour générer des trajectoires de risque probabilistes sous l'effet de prompts d'intervention. Nous présentons le jeu de données Baltic-Caspian Urban Resilience (BCUR) contenant 847 392 observations au niveau du bâti réparties sur six villes, incluant des annotations multi-aléas (par exemple, des indicateurs d'inondation et de chaleur) et des caractéristiques d'accessibilité des transports. Les expérimentations évaluent la qualité de la prédiction, la généralisation interurbaine, l'étalonnage et les résultats pertinents pour les transports en aval, y compris l'accessibilité et les temps de trajet conditionnés aux aléas dans des scénarios contrefactuels d'intervention.
La quantification post-entraînement réduit le coût computationnel des grands modèles de langage mais modifie fondamentalement leurs biais sociaux d'une manière que les métriques agrégées ne parviennent pas à capturer. Nous présentons la première étude à grande échelle de 50 modèles quantifiés évalués sur PostTrainingBiasBench, un benchmark unifié de 13 ensembles de données de biais ouverts et fermés. Nous identifions un phénomène que nous appelons le retournement masqué des biais induit par la quantification, dans lequel jusqu'à 21 % des réponses basculent entre des états biaisés et non biaisés après quantification, malgré l'absence de changement dans les scores de biais agrégés. Ces basculements sont fortement influencés par l'incertitude du modèle, les réponses présentant une forte incertitude étant 3 à 11 fois plus susceptibles de changer que les réponses confiantes. L'intensité de la quantification amplifie cet effet, les modèles quantifiés en 4 bits présentant 4 à 6 fois plus de changements comportementaux que les modèles quantifiés en 8 bits. Fait crucial, ces changements créent des impacts asymétriques entre les groupes démographiques, où le biais peut s'aggraver jusqu'à 18,6 % pour certains groupes tout en s'améliorant de 14,1 % pour d'autres, produisant des résultats agrégés faussement neutres. Les modèles plus grands ne montrent aucun avantage de robustesse cohérent, et les changements spécifiques aux groupes varient de manière imprévisible selon les familles de modèles. Nos résultats démontrent que la compression altère fondamentalement les schémas de biais, nécessitant une évaluation et des interventions cruciales post-quantification pour garantir la fiabilité en pratique.