papers.description
Reinforcement Learning with Verifiable Rewards (RLVR) is commonly based on group sampling to estimate advantages and stabilize policy updates. In practice, large group sizes are not feasible due to computational limits, which biases learning toward trajectories that are already likely. Smaller groups often miss rare-correct trajectories while still containing mixed rewards, concentrating probability on common solutions. We derive the probability that updates miss rare-correct modes as a function of group size, showing non-monotonic behavior, and characterize how updates redistribute mass within the correct set, revealing that unsampled-correct mass can shrink even as total correct mass grows. Motivated by this analysis, we propose a difficulty-aware advantage scaling coefficient, inspired by Focal loss, that down-weights updates on high-success prompts. The lightweight modification can be directly integrated into any group-relative RLVR algorithm such as GRPO, DAPO, and CISPO. On Qwen2.5-7B across in-domain and out-of-domain benchmarks, our method improves pass@256 from 64.1 rightarrow 70.3 (GRPO), 69.3 rightarrow 72.5 (DAPO), and 73.2 rightarrow 76.8 (CISPO), while preserving or improving pass@1, without increasing group size or computational cost.
Nous présentons Baichuan-M3, un grand modèle de langage médical renforcé conçu pour faire évoluer le paradigme du simple système de questions-réponses vers un outil d'aide à la décision clinique active et de niveau professionnel. Pour pallier les limitations des systèmes existants dans les consultations ouvertes, Baichuan-M3 utilise un pipeline d'entraînement spécialisé pour modéliser le processus systématique de raisonnement d'un médecin. Ses capacités clés incluent : (i) l'acquisition proactive d'informations pour résoudre les ambiguïtés ; (ii) un raisonnement à long terme qui unifie des éléments de preuve épars en diagnostics cohérents ; et (iii) une suppression adaptative des hallucinations pour garantir la fiabilité factuelle. Les évaluations empiriques démontrent que Baichuan-M3 obtient des résultats à la pointe de l'état de l'art sur HealthBench, le nouveau HealthBench-Hallu et ScanBench, surpassant significativement GPT-5.2 dans les domaines de l'investigation clinique, du conseil et de la sécurité. Les modèles sont disponibles publiquement à l'adresse https://huggingface.co/collections/baichuan-inc/baichuan-m3.
L'avancée rapide des modèles de langage de grande taille (LLM) a catalysé le développement d'agents autonomes capables de naviguer dans des environnements complexes. Cependant, les évaluations existantes adoptent principalement un paradigme déductif, où les agents exécutent des tâches basées sur des règles explicitement fournies et des objectifs statiques, souvent dans des horizons de planification limités. De manière cruciale, cela néglige la nécessité inductive pour les agents de découvrir de manière autonome des lois de transition latentes à partir de l'expérience, ce qui est la pierre angulaire pour permettre une anticipation agentique et maintenir une cohérence stratégique. Pour combler cette lacune, nous présentons OdysseyArena, qui recentre l'évaluation des agents sur des interactions de long terme, actives et inductives. Nous formalisons et instancions quatre primitives, traduisant les dynamiques de transition abstraites en environnements interactifs concrets. Sur cette base, nous établissons OdysseyArena-Lite pour l'évaluation comparative standardisée, fournissant un ensemble de 120 tâches pour mesurer l'efficacité inductive et la découverte à long terme d'un agent. Poursuivant plus loin, nous introduisons OdysseyArena-Challenge pour tester la stabilité des agents dans des horizons d'interaction extrêmes (par exemple, > 200 étapes). Des expériences approfondies sur plus de 15 LLM leaders révèlent que même les modèles les plus performants présentent des lacunes dans les scénarios inductifs, identifiant un goulot d'étranglement critique dans la quête de la découverte autonome dans des environnements complexes. Notre code et nos données sont disponibles à l'adresse https://github.com/xufangzhi/Odyssey-Arena.
Les autoencodeurs épars (SAE) sont des outils puissants pour interpréter les représentations neuronales, mais leur utilisation dans le domaine audio reste peu explorée. Nous entraînons des SAE sur toutes les couches encodeurs de Whisper et HuBERT, fournissons une évaluation approfondie de leur stabilité et interprétabilité, et démontrons leur utilité pratique. Plus de 50 % des caractéristiques restent cohérentes entre différentes initialisations aléatoires, et la qualité de la reconstruction est préservée. Les caractéristiques des SAE capturent à la fois des informations acoustiques et sémantiques générales ainsi que des événements spécifiques, incluant les bruits environnementaux et les sons paralangagiers (par exemple, les rires, les chuchotements), et les désentremêlent efficacement, ne nécessitant l'élimination que de 19 à 27 % des caractéristiques pour effacer un concept. Le guidage par caractéristiques réduit de 70 % les détections erronées de parole par Whisper avec une augmentation négligeable du taux d'erreur de mots, démontrant une applicabilité concrète. Enfin, nous constatons que les caractéristiques des SAE sont corrélées avec l'activité EEG humaine pendant la perception de la parole, indiquant un alignement avec le traitement neuronal humain. Le code et les points de contrôle sont disponibles à l'adresse https://github.com/audiosae/audiosae_demo.
L'entropie constitue une métrique essentielle pour mesurer la diversité des sorties générées par les grands modèles de langage (LLM), offrant un éclairage précieux sur leurs capacités d'exploration. Si les études récentes se concentrent davantage sur le suivi et l'ajustement de l'entropie pour mieux équilibrer exploration et exploitation lors du réglage fin par renforcement (RFT), une compréhension théorique des dynamiques entropiques durant ce processus reste à approfondir. Dans cet article, nous établissons un cadre théorique pour analyser les dynamiques de l'entropie durant le processus RFT, en commençant par une expression discriminante qui quantifie la variation d'entropie sous une mise à jour unique des logits. Cette fondation permet de dériver une expression du premier ordre pour la variation d'entropie, qui peut être étendue à la formule de mise à jour de l'optimisation de politique relative par groupe (GRPO). Les corollaires et perspectives issues de l'analyse théorique inspirent la conception de méthodes de contrôle de l'entropie, et offrent également une grille d'interprétation unifiée pour diverses méthodes basées sur l'entropie dans les études existantes. Nous fournissons des preuves empiriques étayant les principales conclusions de notre analyse et démontrons l'efficacité des méthodes dérivées de seuillage discriminant par l'entropie. Cette étude apporte de nouveaux éclairages sur les dynamiques d'apprentissage du RFT, fournissant un support théorique et des stratégies pratiques pour optimiser l'équilibre exploration-exploitation lors du réglage fin des LLM.
Ce travail présente un système de reconnaissance vocale « Pisets » destiné aux scientifiques et journalistes, reposant sur une architecture à trois composantes visant à améliorer la précision de la reconnaissance tout en minimisant les erreurs et les hallucinations associées au modèle Whisper. L'architecture comprend une reconnaissance primaire via Wav2Vec2, un filtrage des faux positifs par le biais de l’Audio Spectrogram Transformer (AST), et une reconnaissance vocale finale par Whisper. La mise en œuvre de méthodes d'apprentissage curriculaire et l'utilisation de divers corpus de parole russophone ont significativement accru l'efficacité du système. De plus, des techniques avancées de modélisation de l'incertitude ont été introduites, contribuant à des améliorations supplémentaires de la qualité de la transcription. Les approches proposées garantissent une transcription robuste de données audio longues dans diverses conditions acoustiques, comparativement à WhisperX et au modèle Whisper standard. Le code source du système « Pisets » est accessible publiquement sur GitHub : https://github.com/bond005/pisets.
L'instabilité de l'entraînement demeure un défi critique dans le pré-entraînement des grands modèles de langage (LLM), se manifestant souvent par des explosions soudaines du gradient qui gaspillent d'importantes ressources computationnelles. Nous étudions les échecs d'entraînement dans un modèle NanoGPT de 5M de paramètres mis à l'échelle via μP, en identifiant deux phénomènes clés précédant l'effondrement : (1) un déclin rapide du rang stable des matrices de poids (rapport de la norme de Frobenius au carré sur la norme spectrale au carré), et (2) un alignement croissant entre les jacobiens des couches adjacentes. Nous démontrons théoriquement que ces deux conditions provoquent conjointement une croissance exponentielle de la norme du gradient avec la profondeur du réseau. Pour rompre ce mécanisme d'instabilité, nous proposons MSign, un nouvel optimiseur qui applique périodiquement des opérations de signe matriciel pour restaurer le rang stable. Des expériences sur des modèles de 5M à 3B de paramètres démontrent que MSign prévient efficacement les échecs d'entraînement avec une surcharge computationnelle inférieure à 7,0 %.
La capacité de simuler les résultats d'actions dans des environnements variés révolutionnera le développement d'agents généralistes à grande échelle. Cependant, la modélisation de ces dynamiques du monde, en particulier pour les tâches de robotique dextre, présente des défis significatifs en raison d'une couverture de données limitée et d'une rareté des étiquettes d'action. Dans cette optique, nous présentons DreamDojo, un modèle du monde de base qui apprend des interactions diverses et des commandes dextres à partir de 44 000 heures de vidéos humaines égocentriques. Notre mélange de données constitue le plus grand ensemble de vidéos à ce jour pour le pré-entraînement de modèles du monde, couvrant un large éventail de scénarios quotidiens avec des objets et des compétences variés. Pour pallier la rareté des étiquettes d'action, nous introduisons des actions latentes continues comme actions proxy unifiées, améliorant le transfert de connaissances interactionnelles à partir de vidéos non étiquetées. Après un post-entraînement sur des données robotiques cibles à petite échelle, DreamDojo démontre une compréhension solide de la physique et une contrôlabilité d'action précise. Nous concevons également un pipeline de distillation qui accélère DreamDojo à une vitesse en temps réel de 10,81 IPS et améliore encore la cohérence contextuelle. Notre travail permet plusieurs applications importantes basées sur des modèles du monde génératifs, incluant la téléopération en direct, l'évaluation de politiques et la planification basée sur le modèle. Une évaluation systématique sur plusieurs benchmarks difficiles hors distribution (OOD) vérifie l'importance de notre méthode pour simuler des tâches riches en contacts dans un monde ouvert, ouvrant la voie à des modèles du monde robotiques à usage général.
La modélisation interne du monde — prédire les transitions entre les états antérieurs X et les états suivants Y sous des actions Z — est essentielle au raisonnement et à la planification pour les LLM et les VLM. L'apprentissage de tels modèles nécessite généralement des trajectoires coûteuses étiquetées par actions. Nous proposons SWIRL, un cadre d'auto-amélioration qui apprend à partir de séquences d'états seuls en traitant les actions comme une variable latente et en alternant entre la Modélisation Directe du Monde (FWM) P_θ(Y|X,Z) et une Modélisation de la Dynamique Inverse (IDM) Q_φ(Z|X,Y). SWIRL itère deux phases : (1) la Maximisation Variationnelle de l'Information, qui met à jour la FWM pour générer des états suivants maximisant l'information mutuelle conditionnelle avec les actions latentes étant donné les états antérieurs, favorisant une cohérence identifiable ; et (2) la Maximisation de l'ELBO, qui met à jour l'IDM pour expliquer les transitions observées, effectuant ainsi une montée de coordonnées. Les deux modèles sont entraînés par apprentissage par renforcement (spécifiquement GRPO) avec la log-probabilité du modèle opposé gelé comme signal de récompense. Nous fournissons des garanties théoriques d'apprenabilité pour les deux mises à jour, et évaluons SWIRL sur des LLM et VLM dans plusieurs environnements : dynamiques visuelles en monde ouvert à tour unique et multi-tours, et environnements textuels synthétiques pour la physique, le web et l'appel d'outils. SWIRL obtient des gains de 16 % sur AURORABench, 28 % sur ByteMorph, 16 % sur WorldPredictionBench et 14 % sur StableToolBench.
Les progrès récents des modèles de raisonnement suggèrent que la génération de tentatives plausibles pour des problèmes mathématiques de niveau recherche pourrait être à portée, mais la vérification reste un goulot d'étranglement, consommant un temps expert précieux. Nous faisons l'hypothèse qu'une solution significative devrait contenir suffisamment d'informations au niveau méthodologique pour que, lorsqu'elle est appliquée à un ensemble de questions connexes, elle produise de meilleures performances en aval que des solutions incorrectes. En nous appuyant sur cette idée, nous proposons l'Utilité Basée sur les Conséquences, un évaluateur sans oracle qui note chaque candidat en testant sa valeur en tant qu'exemple en contexte pour résoudre des questions connexes mais vérifiables. Notre approche est évaluée sur un ensemble original de problèmes mathématiques de niveau recherche, chacun étant associé à une solution rédigée par un expert et à neuf solutions générées par des LLM. Notamment, l'Utilité Basée sur les Conséquences surpasse systématiquement les modèles de récompense, les modèles de récompense génératifs et les juges LLM en termes de qualité de classement. Plus précisément, pour GPT-OSS-120B, elle améliore l'Acc@1 de 67,2 à 76,3 et l'AUC de 71,4 à 79,6, avec des gains d'AUC tout aussi importants sur GPT-OSS-20B (69,0 à 79,2). De plus, par rapport aux juges LLM, elle présente également un écart plus important entre le solveur et l'évaluateur, maintenant une séparation correct/incorrect plus forte même sur les instances où le solveur sous-jacent échoue souvent à résoudre le problème.
Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.
The rapid advancement of vision-language models has catalyzed the emergence of GUI agents, which hold immense potential for automating complex tasks, from online shopping to flight booking, thereby alleviating the burden of repetitive digital workflows. As a foundational capability, GUI grounding is typically established as a prerequisite for end-to-end task execution. It enables models to precisely locate interface elements, such as text and icons, to perform accurate operations like clicking and typing. Unlike prior works that fine-tune models already possessing strong spatial awareness (e.g., Qwen3-VL), we aim to master the full technical pipeline by starting from a base model with minimal grounding ability, such as POINTS-1.5. We introduce POINTS-GUI-G-8B, which achieves state-of-the-art performance with scores of 59.9 on ScreenSpot-Pro, 66.0 on OSWorld-G, 95.7 on ScreenSpot-v2, and 49.9 on UI-Vision. Our model's success is driven by three key factors: (1) Refined Data Engineering, involving the unification of diverse open-source datasets format alongside sophisticated strategies for augmentation, filtering, and difficulty grading; (2) Improved Training Strategies, including continuous fine-tuning of the vision encoder to enhance perceptual accuracy and maintaining resolution consistency between training and inference; and (3) Reinforcement Learning (RL) with Verifiable Rewards. While RL is traditionally used to bolster reasoning, we demonstrate that it significantly improves precision in the perception-intensive GUI grounding task. Furthermore, GUI grounding provides a natural advantage for RL, as rewards are easily verifiable and highly accurate.
Les benchmarks actuels pour agents mobiles d'interface graphique échouent systématiquement à évaluer les capacités mémorielles, avec seulement 5,2 à 11,8 % de tâches liées à la mémoire et aucune évaluation de l'apprentissage intersession. Nous présentons MemGUI-Bench, un benchmark complet centré sur la mémoire avec une évaluation pass@k et une évaluation échelonnée par LLM-comme-juge. Nos contributions incluent : (1) une taxonomie mémorielle systématique analysant 11 agents sur 5 architectures ; (2) 128 tâches réparties sur 26 applications où 89,8 % sollicitent la mémoire via la rétention trans-temporelle et trans-spatiale ; (3) MemGUI-Eval, un pipeline automatisé avec vérification progressive et 7 métriques hiérarchiques ; et (4) une évaluation basée sur des questions de recherche de 11 agents state-of-the-art. Nos expériences révèlent des déficits mémoriels significatifs dans tous les systèmes évalués, identifient 5 modes de défaillance distincts et synthétisent 5 implications de conception actionnables. Toutes les ressources, y compris le code, le benchmark et les résultats d'évaluation, seront \textit{entièrement open-source et continuellement maintenues} sur https://lgy0404.github.io/MemGUI-Bench/.
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) est devenu un paradigme indispensable pour améliorer les capacités de raisonnement des Grands Modèles de Langage (LLM). Cependant, les méthodes d'optimisation de politique standard, telles que l'Optimisation de Politique Relative par Groupe (GRPO), convergent souvent vers des politiques à faible entropie, entraînant un effondrement modal sévère et une diversité de sortie limitée. Nous analysons ce problème sous l'angle de la dynamique des probabilités d'échantillonnage, en identifiant que l'objectif standard renforce de manière disproportionnée les chemins de plus haute vraisemblance, supprimant ainsi les chaînes de raisonnement alternatives valides. Pour y remédier, nous proposons un nouveau Mécanisme de Repondération de l'Avantage (ARM) conçu pour équilibrer les niveaux de confiance entre toutes les réponses correctes. En intégrant la Perplexité de l'Invite et la Confiance de la Réponse dans l'estimation de l'avantage, notre méthode remodèle dynamiquement le signal de récompense pour atténuer les mises à jour du gradient des chemins de raisonnement sur-confidents, tout en redistribuant la masse de probabilité vers les solutions correctes sous-explorées. Les résultats empiriques démontrent que notre approche améliore significativement la diversité générative et l'entropie des réponses tout en maintenant une précision compétitive, réalisant efficacement un compromis supérieur entre exploration et exploitation dans les tâches de raisonnement. Les résultats empiriques sur les modèles Qwen2.5 et DeepSeek, sur des benchmarks mathématiques et de codage, montrent que ProGRPO atténue significativement l'effondrement de l'entropie. Plus précisément, sur Qwen2.5-7B, notre méthode surpasse GRPO de 5,7 % en Pass@1 et, notablement, de 13,9 % en Pass@32, soulignant sa capacité supérieure à générer des chemins de raisonnement corrects et diversifiés.
L'essor des modèles de langage à grande échelle (LLM) suscite un intérêt croissant pour les optimiseurs matriciels (tels que Shampoo, Muon, SOAP) en raison de leur efficacité de convergence. Cependant, leur nécessité de mettre à jour les paramètres de manière holistique entre en conflit avec la fragmentation des tenseurs dans les cadres distribués comme Megatron. Les solutions existantes sont sous-optimales : les approches synchrones souffrent de redondance computationnelle, tandis que le partitionnement par couches échoue à résoudre ce conflit sans violer les contraintes géométriques des primitives de communication efficaces. Pour combler cette lacune, nous proposons Canzona, un cadre unifié, asynchrone et équilibré qui dissocie l'attribution logique de l'optimiseur de la distribution physique des paramètres. Pour le parallélisme de données, nous introduisons une stratégie de Partitionnement Statique Alpha-Équilibré qui respecte l'atomicité tout en neutralisant le déséquilibre de charge. Pour le parallélisme de tenseurs, nous concevons un pipeline de Calcul Asynchrone utilisant un Ordonnancement par Micro-Groupes pour regrouper les mises à jour fragmentées et masquer la surcharge de reconstruction. Des évaluations approfondies sur la famille de modèles Qwen3 (jusqu'à 32 milliards de paramètres) sur 256 GPU démontrent que notre approche préserve l'efficacité des architectures parallèles établies, obtenant une accélération de 1,57x du temps d'itération de bout en bout et réduisant la latence des étapes de l'optimiseur de 5,8x par rapport à la référence.
La compréhension des vidéos égocentriques joue un rôle essentiel pour l'intelligence incarnée. Les modèles linguistiques multimodaux de grande taille (MLLMs) récents peuvent accepter des entrées visuelles et auditives. Cependant, en raison de la difficulté d'obtenir des annotations textuelles avec des informations conjointes cohérentes entre modalités, la capacité des MLLMs à comprendre conjointement les deux modalités dans les vidéos égocentriques reste peu explorée. Pour résoudre ce problème, nous présentons EgoAVU, un moteur de données évolutif générant automatiquement des narrations, questions et réponses audio-visuelles égocentriques. EgoAVU enrichit les narrations humaines avec un contexte multimodal et génère des narrations audio-visuelles par modélisation de corrélations cross-modales. Un filtrage vidéo par tokens et une curation modulaire basée sur des graphes garantissent à la fois la diversité et la qualité des données. En tirant parti d'EgoAVU, nous construisons EgoAVU-Instruct, un jeu de données d'entraînement à grande échelle de 3 millions d'échantillons, et EgoAVU-Bench, un ensemble d'évaluation vérifié manuellement couvrant diverses tâches. EgoAVU-Bench révèle clairement les limitations des MLLMs existants : ils présentent un biais important vers les signaux visuels, négligeant souvent les indices audio ou échouant à faire correspondre l'audio avec sa source visuelle. Le fine-tuning des MLLMs sur EgoAVU-Instruct résout efficacement ce problème, permettant une amélioration des performances allant jusqu'à 113% sur EgoAVU-Bench. Ces bénéfices se transfèrent également à d'autres benchmarks comme EgoTempo et EgoIllusion, atteignant jusqu'à 28% de gain de performance relatif. Le code sera mis à disposition de la communauté.
Le déploiement efficace de grands modèles de langage (LLM) nécessite une quantification extrême, imposant un compromis crucial entre l'efficacité en bas débit et les performances. La binarisation résiduelle permet une inférence sans produit matriciel et adaptée au matériel en empilant des couches binaires (±1), mais elle est entravée par une co-adaptation pathologique des caractéristiques. Nous identifions un mode de défaillance clé, que nous nommons adaptation inter-chemins : pendant l'entraînement avec quantification (QAT), les chemins résiduels binaires parallèles apprennent des caractéristiques redondantes, dégradant la structure de compensation d'erreur et limitant la capacité expressive du modèle. Alors que les travaux antérieurs reposent sur des solutions heuristiques (par exemple, le gel de chemins) qui restreignent l'espace des solutions, nous proposons RaBiT, un nouveau cadre de quantification qui résout la co-adaptation en imposant algorithmiquement une hiérarchie résiduelle. Son mécanisme central dérive séquentiellement chaque chemin binaire à partir d'un unique poids en pleine précision partagé, garantissant que chaque chemin corrige l'erreur du précédent. Ce processus est stabilisé par une initialisation robuste qui privilégie la préservation fonctionnelle plutôt qu'une simple approximation des poids. RaBiT redéfinit la frontière précision-efficacité à 2 bits : il atteint des performances à l'état de l'art, rivalise même avec les méthodes de quantification vectorielle (VQ) gourmandes en matériel, et offre une accélération de l'inférence de 4,49 fois par rapport aux modèles en pleine précision sur une RTX 4090.
Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.
Nous étudions un mode d'échec persistant dans l'alignement multi-objectif des grands modèles de langage (LLM) : l'entraînement améliore les performances sur seulement un sous-ensemble d'objectifs tout en dégradant les autres. Nous formalisons ce phénomène sous le nom d'**interférence inter-objectifs** et menons la première étude systématique sur les algorithmes classiques de scalarisation, montrant que cette interférence est omniprésente et présente une forte dépendance au modèle. Pour expliquer ce phénomène, nous dérivons une **loi de covariance locale** montrant qu'un objectif s'améliore au premier ordre lorsque sa récompense présente une covariance positive avec le score scalarisé. Nous étendons cette analyse aux objectifs substituts tronqués utilisés dans l'alignement moderne, démontrant que la loi de covariance reste valable sous des conditions légères malgré la troncation. En nous appuyant sur cette analyse, nous proposons l'**Adaptation de Poids Ciblée par la Covariance (CTWA)**, une méthode plug-and-play qui maintient une covariance positive entre les récompenses des objectifs et le signal d'entraînement pour atténuer efficacement l'interférence inter-objectifs. Enfin, nous complétons ces conditions d'amélioration locale par une **analyse de convergence globale** sous la condition de Polyak–Łojasiewicz, établissant quand l'optimisation scalarisée non convexe atteint une convergence globale et comment l'interférence inter-objectifs dépend de propriétés géométriques spécifiques du modèle.
Les modèles multimodaux unifiés (UMM) ont démontré des capacités impressionnantes pour générer des images naturelles et soutenir le raisonnement multimodal. Cependant, leur potentiel pour soutenir les tâches de planification de l'utilisation informatique, qui sont étroitement liées à notre vie quotidienne, reste sous-exploré. La génération et l'édition d'images dans les tâches informatiques nécessitent des capacités telles que le raisonnement spatial et la compréhension procédurale, et on ignore encore si les UMM possèdent ces capacités pour accomplir ces tâches. Par conséquent, nous proposons PlanViz, un nouveau benchmark conçu pour évaluer la génération et l'édition d'images pour les tâches informatiques. Pour atteindre l'objectif de notre évaluation, nous nous concentrons sur des sous-tâches fréquemment rencontrées dans la vie quotidienne et nécessitant des étapes de planification. Plus précisément, trois nouvelles sous-tâches sont conçues : la planification d'itinéraire, la création de diagrammes de travail et l'affichage web & interface utilisateur. Nous relevons les défis liés à la qualité des données en créant des questions annotées manuellement et des images de référence, ainsi qu'un processus de contrôle qualité. Pour les défis d'une évaluation complète et précise, un score adaptatif aux tâches, PlanScore, est proposé. Ce score aide à comprendre l'exactitude, la qualité visuelle et l'efficacité des images générées. Par des expériences, nous mettons en évidence les limitations clés et les opportunités pour les recherches futures sur ce sujet.
Weight-only quantization is important for compressing Large Language Models (LLMs). Inspired by the spirit of classical magnitude pruning, we study whether the magnitude of weight updates during reasoning-incentivized fine-tuning can provide valuable signals for quantizing Large Reasoning Models (LRMs). We hypothesize that the smallest and largest weight updates during fine-tuning are more important than those of intermediate magnitude, a phenomenon we term "protecting both ends". Upon hypothesis validation, we introduce QuantLRM, which stands for weight quantization of LRMs via fine-tuning signals. We fit simple restricted quadratic functions on weight updates to protect both ends. By multiplying the average quadratic values with the count of zero weight updates of channels, we compute channel importance that is more effective than using activation or second-order information. We run QuantLRM to quantize various fine-tuned models (including supervised, direct preference optimization, and reinforcement learning fine-tuning) over four reasoning benchmarks (AIME-120, FOLIO, temporal sequences, and GPQA-Diamond) and empirically find that QuantLRM delivers a consistent improvement for LRMs quantization, with an average improvement of 6.55% on a reinforcement learning fine-tuned model. Also supporting non-fine-tuned LRMs, QuantLRM gathers effective signals via pseudo-fine-tuning, which greatly enhances its applicability.
Les agents auto-améliorants ouverts peuvent modifier de manière autonome leurs propres conceptions structurelles pour faire progresser leurs capacités et dépasser les limites des architectures prédéfinies, réduisant ainsi la dépendance à l'intervention humaine. Nous présentons les Agents à Évolution Collective (AEC), un nouveau paradigme pour l'auto-amélioration ouverte, qui considère un groupe d'agents comme l'unité évolutive fondamentale, permettant un partage et une réutilisation explicites de l'expérience au sein du groupe tout au long de l'évolution. Contrairement aux paradigmes existants d'auto-évolution ouverte qui adoptent une évolution arborescente, les AEC surmontent la limitation d'une utilisation inefficace de la diversité exploratoire causée par des branches évolutives isolées. Nous évaluons les AEC sur des benchmarks de codage exigeants, où ils surpassent significativement les méthodes d'auto-évolution les plus avancées (71,0 % contre 56,7 % sur SWE-bench Verified, 88,3 % contre 68,3 % sur Polyglot) et égalent ou dépassent les meilleurs frameworks d'agents conçus par l'homme (71,8 % et 52,0 % sur deux benchmarks respectivement). L'analyse révèle que les AEC convertissent plus efficacement la diversité exploratoire initiale en une progression soutenue à long terme, obtenant des performances supérieures avec un nombre équivalent d'agents évolués. De plus, les AEC présentent une transférabilité constante entre différents modèles de codage et une plus grande robustesse, corrigeant les boges au niveau du framework en 1,4 itération en moyenne, contre 5 pour les méthodes d'auto-évolution.
Les grands modèles de langage (LLM) présentent souvent des performances réduites, un alignement culturel et une robustesse sécuritaire moindres dans les langues non anglophones, en partie parce que l'anglais domine à la fois les données de pré-entraînement et les ensembles de données pour l'alignement sur les préférences humaines. Les méthodes d'entraînement comme l'apprentissage par renforcement à partir de retours humains (RLHF) et l'optimisation directe des préférences (DPO) nécessitent des données de préférences humaines, qui restent rares et largement non publiques pour de nombreuses langues autres que l'anglais. Pour combler cette lacune, nous présentons compar:IA, un service public numérique open-source développé au sein du gouvernement français et conçu pour collecter des données de préférences humaines à grande éprise auprès d'un public majoritairement francophone. La plateforme utilise une interface de comparaison par paires en aveugle pour capturer des prompts non contraints issus du monde réel et les jugements des utilisateurs sur un ensemble diversifié de modèles de langage, tout en maintenant une faible friction de participation et un filtrage automatisé respectueux de la vie privée. Au 07-02-2026, compar:IA a collecté plus de 600 000 prompts librement formulés et 250 000 votes de préférence, environ 89 % des données étant en français. Nous publions trois ensembles de données complémentaires — conversations, votes et réactions — sous licences libres, et présentons des analyses initiales, incluant un classement de modèles pour la langue française et les schémas d'interaction des utilisateurs. Au-delà du contexte français, compar:IA évolue vers un bien public numérique international, offrant une infrastructure réutilisable pour l'entraînement multilingue de modèles, l'évaluation et l'étude de l'interaction humain-IA.
Si les humains perçoivent le monde à travers des modalités diverses qui opèrent de manière synergique pour soutenir une compréhension holistique de leur environnement, les modèles omnividéo existants rencontrent encore des défis substantiels dans les tâches de compréhension audio-visuelle. Dans cet article, nous proposons OmniVideo-R1, un nouveau cadre renforcé qui améliore le raisonnement multimodal. OmniVideo-R1 permet aux modèles de « raisonner avec des indices omnimodaux » grâce à deux stratégies clés : (1) un ancrage intensif par requêtes basé sur des paradigmes d'apprentissage auto-supervisé ; et (2) une fusion attentive aux modalités construite sur des paradigmes d'apprentissage contrastif. Des expériences approfondies sur plusieurs benchmarks démontrent qu'OmniVideo-R1 surpasse systématiquement des bases de référence solides, soulignant son efficacité et ses capacités de généralisation robustes.
Les jailbreaks multi-tours capturent le modèle de menace réel pour les chatbots alignés en sécurité, les attaques à tour unique n'étant qu'un cas particulier. Pourtant, les approches existantes échouent face à la complexité de l'exploration et à la dérive d'intention. Nous proposons SEMA, un cadre simple mais efficace qui entraîne un attaquant multi-tours sans s'appuyer sur des stratégies existantes ou des données externes. SEMA comprend deux étapes. L'auto-ajustement par préremplissage permet des déploiements utilisables en effectuant un fine-tuning sur des invites adverses multi-tours auto-générées avec un préfixe minimal, non réfutées et bien structurées, stabilisant ainsi l'apprentissage ultérieur. L'apprentissage par renforcement avec récompense sensible à la dérive d'intention entraîne l'attaquant à produire des invites adverses multi-tours valides tout en maintenant le même objectif nuisible. Nous ancrons l'intention nuisible dans les jailbreaks multi-tours via une récompense combinant l'alignement de l'intention, le risque de conformité et le niveau de détail. Notre régime d'attaque en boucle ouverte évite la dépendance aux retours de la victime, unifie les configurations à tour unique et multi-tours, et réduit la complexité de l'exploration. Sur plusieurs jeux de données, modèles victimes et évaluateurs de jailbreak, notre méthode atteint des taux de réussite d'attaque (ASR) à l'état de l'art, surpassant toutes les bases de référence à tour unique, les bases multi-tours manuelles et basées sur des modèles, ainsi que nos variantes SFT (Supervised Fine-Tuning) et DPO (Direct Preference Optimization). Par exemple, SEMA obtient un ASR@1 moyen de 80,1% sur trois modèles victimes open source et propriétaires avec AdvBench, soit 33,9% de plus que l'état de l'art. L'approche est compacte, reproductible et transférable entre cibles, fournissant un test de stress plus robuste et réaliste pour la sécurité des grands modèles de langage (LLM) et permettant un redteamning automatique pour exposer et localiser les modes de défaillance. Notre code est disponible à l'adresse : https://github.com/fmmarkmq/SEMA.
Les grands modèles de langage (LLM) ont démontré des capacités de raisonnement remarquables, obtenant des résultats impressionnants sur un large éventail de tâches. Malgré ces avancées, des échecs de raisonnement significatifs persistent, survenant même dans des scénarios apparemment simples. Pour comprendre et résoudre systématiquement ces lacunes, nous présentons la première étude complète consacrée aux échecs de raisonnement des LLM. Nous introduisons un nouveau cadre de catégorisation qui distingue le raisonnement en types incarné et non-incarné, ce dernier étant subdivisé en raisonnement informel (intuitif) et formel (logique). En parallèle, nous classifions les échecs de raisonnement selon un axe complémentaire en trois types : les échecs fondamentaux, intrinsèques aux architectures des LLM, qui affectent largement les tâches en aval ; les limitations spécifiques aux applications qui se manifestent dans des domaines particuliers ; et les problèmes de robustesse caractérisés par des performances incohérentes face à de légères variations. Pour chaque échec de raisonnement, nous fournissons une définition claire, analysons les études existantes, explorons les causes profondes et présentons des stratégies d'atténuation. En unifiant des efforts de recherche fragmentés, notre étude offre une perspective structurée sur les faiblesses systémiques du raisonnement des LLM, fournissant des insights précieux et orientant les recherches futures vers la construction de capacités de raisonnement plus solides, fiables et robustes. Nous mettons également à disposition une collection complète de travaux de recherche sur les échecs de raisonnement des LLM, sous forme de dépôt GitHub à l'adresse https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, pour offrir un point d'entrée facile dans ce domaine.
Les architectures Mixture-of-Experts (MoE) évoluent vers une granularité plus fine pour améliorer l'efficacité des paramètres. Cependant, les conceptions MoE existantes sont confrontées à un compromis inhérent entre la granularité de la spécialisation des experts et l'efficacité d'exécution matérielle. Nous proposons OmniMoE, un framework co-conçu système-algorithme qui pousse la granularité des experts à son extrême logique. OmniMoE introduit des Experts Atomiques au niveau vectoriel, permettant un routage et une exécution évolutifs au sein d'une seule couche MoE, tout en conservant une branche MLP dense partagée pour le traitement généraliste. Bien que cette conception atomique maximise la capacité, elle pose de sérieux défis pour la complexité du routage et l'accès mémoire. Pour y remédier, OmniMoE adopte une co-conception système-algorithme : (i) un Routeur à Produit Cartésien qui décompose l'espace massif d'indices pour réduire la complexité du routage de O(N) à O(√N) ; et (ii) un Ordonnancement Centré sur les Experts qui inverse l'ordre d'exécution pour transformer des recherches dispersées et limitées par la mémoire en opérations matricielles denses efficaces. Validé sur sept benchmarks, OmniMoE (avec 1,7 milliard de paramètres actifs) atteint une précision zero-shot de 50,9 % sur sept benchmarks, surpassant les approches à granularité grossière (ex. DeepSeekMoE) et fine (ex. PEER). Fait crucial, OmniMoE réduit la latence d'inférence de 73 ms à 6,7 ms (une accélération de 10,9 fois) par rapport à PEER, démontrant qu'un MoE à granularité fine à grande échelle peut être rapide et précis. Notre code est open-source à l'adresse https://github.com/flash-algo/omni-moe.
Les modèles de langage Transformer denses ont largement adhéré à une architecture constante : chaque couche est constituée d'un module d'attention suivi d'un réseau feed-forward (FFN) avec un MLP de forme étroit-large-étroit, allouant la majorité des paramètres au MLP avec des taux d'expansion entre 2 et 4. Motivés par des résultats récents montrant que les MLPs résiduels large-étroit-large (en sablier) offrent de meilleures capacités d'approximation de fonctions, nous revisitons la convention de forme MLP de longue date dans les Transformers, en remettant en question la nécessité de la conception étroit-large-étroit. Pour étudier cela, nous développons une variante de Transformer qui remplace le FFN conventionnel par un FFN plus profond en forme de sablier, comprenant une pile de sous-MLPs en sablier connectés par des voies résiduelles. Nous postulons qu'un FFN en sablier plus profond mais plus léger peut constituer une alternative compétitive au FFN conventionnel, et que les paramètres économisés en utilisant un FFN en sablier plus léger peuvent être utilisés plus efficacement, par exemple en augmentant les dimensions cachées du modèle sous des budgets fixes. Nous confirmons cela par des validations empiriques à différentes échelles de modèles : les FFNs en sablier surpassent les FFNs conventionnels jusqu'à 400M de paramètres et obtiennent des performances comparables à des échelles plus grandes jusqu'à 1B de paramètres ; les variantes de FFN en sablier avec des paramètres FFN réduits et des paramètres d'attention augmentés montrent des améliorations constantes par rapport aux configurations conventionnelles à budgets égaux. Ensemble, ces résultats apportent un nouvel éclairage sur les travaux récents et incitent à reconsidérer la convention du MLP étroit-large-étroit et l'équilibre entre l'attention et le FFN pour des modèles de langage modernes à la fois efficaces et expressifs.
Les pipelines d'entraînement standard pour les grands modèles de langage (LLM) sont généralement unidirectionnels, progressant du pré-entraînement au post-entraînement. Cependant, le potentiel d'un processus bidirectionnel – où les enseignements du post-entraînement améliorent rétroactivement le modèle de base pré-entraîné – reste inexploré. Notre objectif est d'établir un effet flywheel auto-renforçant : un cycle dans lequel un modèle ajusté par apprentissage par renforcement (RL) renforce le modèle de base, qui améliore à son tour les performances ultérieures du post-entraînement, sans nécessiter de modèle enseignant ou de référence spécialement entraîné. Pour concrétiser cela, nous analysons la dynamique d'entraînement et identifions la phase de mi-entraînement (recuit) comme un point de basculement critique pour les capacités du modèle. Cette phase se produit typiquement à la fin du pré-entraînement, utilisant des corpus de haute qualité sous un taux d'apprentissage à décroissance rapide. En nous appuyant sur cette observation, nous introduisons ReMiT (Reinforcement Learning-Guided Mid-Training). Concrètement, ReMiT exploite les prérequis de raisonnement des modèles ajustés par RL pour repondérer dynamiquement les tokens durant la phase de mi-entraînement, en priorisant ceux qui sont déterminants pour le raisonnement. Empiriquement, ReMiT obtient une amélioration moyenne de 3 % sur 10 benchmarks de pré-entraînement, couvrant les domaines mathématiques, la programmation et le raisonnement général, et maintient ces gains à plus de 2 % tout au long du pipeline de post-entraînement. Ces résultats valident une boucle de rétroaction itérative, permettant une évolution continue et auto-renforçante des LLM.
L'apprentissage par renforcement (RL) est devenu le paradigme dominant pour entraîner les agents IA basés sur de grands modèles de langage (LLM). Cependant, les algorithmes de RL fondamentaux existants ne disposent pas de garanties de convergence vérifiées dans les scénarios agentiques, en particulier dans les cadres multi-tours, ce qui peut entraîner une instabilité de l'entraînement et un échec de convergence vers des politiques optimales. Dans cet article, nous analysons systématiquement comment différentes combinaisons de mécanismes de mise à jour de politique et de méthodes d'estimation de l'avantage affectent les propriétés de convergence dans les scénarios à tour unique/multi-tours. Nous constatons que REINFORCE avec l'estimation d'avantage relatif par groupe (GRAE) peut converger vers l'optimum global dans des conditions non actualisées, mais que la combinaison PPO et GRAE rompt la propriété d'amélioration monotone originale du PPO. De plus, nous démontrons que les principaux algorithmes de RL fondamentaux ne peuvent pas simultanément atteindre à la fois l'absence de critique (critic-free) et des garanties de convergence dans les scénarios multi-tours. Pour résoudre ce problème, nous proposons SeeUPO (Sequence-level Sequential Update Policy Optimization), une approche sans critique offrant des garanties de convergence pour les interactions multi-tours. SeeUPO modélise l'interaction multi-tour comme une série de problèmes de bandits multi-agents exécutés séquentiellement. Grâce à des mises à jour de politique séquentielles tour par tour dans l'ordre d'exécution inverse, il assure une amélioration monotone et une convergence vers la solution optimale globale via une induction arrière. Les expériences sur AppWorld et BFCL v4 démontrent les améliorations substantielles de SeeUPO par rapport aux algorithmes fondamentaux existants : des gains relatifs de 43,3 % à 54,6 % sur Qwen3-14B et de 24,1 % à 41,9 % sur Qwen2.5-14B (moyenne sur les benchmarks), ainsi qu'une stabilité d'entraînement supérieure.
La régularité de l'architecture transformer a été largement étudiée dans le contexte de la généralisation, de la stabilité de l'apprentissage et de la robustesse adversarial. Cependant, son rôle dans l'apprentissage par transfert reste mal compris. Dans cet article, nous analysons la capacité des composants du vision transformer à adapter leurs sorties aux changements des entrées, ou en d'autres termes, leur plasticité. Définie comme un taux de changement moyen, elle capture la sensibilité aux perturbations des entrées ; en particulier, une plasticité élevée implique une faible régularité. Nous démontrons par une analyse théorique et des expériences approfondies que cette perspective fournit des orientations fondées pour choisir les composants à privilégier lors de l'adaptation. Un enseignement clé pour les praticiens est que la plasticité élevée des modules d'attention et des couches feedforward conduit systématiquement à de meilleures performances de fine-tuning. Nos résultats s'écartent de l'hypothèse dominante selon laquelle la régularité est souhaitable, offrant une perspective novatrice sur les propriétés fonctionnelles des transformers. Le code est disponible à l'adresse https://github.com/ambroiseodt/vit-plasticity.
Les grands modèles de langage ont démontré des capacités remarquables dans les dialogues en domaine ouvert. Cependant, les méthodes actuelles présentent des performances sous-optimales dans les dialogues de service, car elles reposent sur des données de conversation humaine bruyantes et de faible qualité. Cette limitation provient de la rareté des données et de la difficulté à simuler des comportements utilisateurs authentiques et orientés objectifs. Pour résoudre ces problèmes, nous proposons SEAD (Self-Evolving Agent for Service Dialogue), un cadre permettant aux agents d'apprendre des stratégies efficaces sans annotations humaines à grande échelle. SEAD découple la modélisation utilisateur en deux composants : un Contrôleur de Profil qui génère des états utilisateurs diversifiés pour gérer le curriculum d'apprentissage, et un Modèle de Jeu de Rôle Utilisateur qui se concentre sur un jeu de rôle réaliste. Cette conception garantit que l'environnement fournit des scénarios d'entraînement adaptatifs plutôt que d'agir comme un adversaire injuste. Les expériences démontrent que SEAD surpasse significativement les modèles de base open-source et les modèles commerciaux fermés, améliorant le taux de réalisation des tâches de 17,6% et l'efficacité du dialogue de 11,1%. Le code est disponible à l'adresse : https://github.com/Da1yuqin/SEAD.
Current Information Seeking (InfoSeeking) agents struggle to maintain focus and coherence during long-horizon exploration, as tracking search states, including planning procedure and massive search results, within one plain-text context is inherently fragile. To address this, we introduce Table-as-Search (TaS), a structured planning framework that reformulates the InfoSeeking task as a Table Completion task. TaS maps each query into a structured table schema maintained in an external database, where rows represent search candidates and columns denote constraints or required information. This table precisely manages the search states: filled cells strictly record the history and search results, while empty cells serve as an explicit search plan. Crucially, TaS unifies three distinct InfoSeeking tasks: Deep Search, Wide Search, and the challenging DeepWide Search. Extensive experiments demonstrate that TaS significantly outperforms numerous state-of-the-art baselines across three kinds of benchmarks, including multi-agent framework and commercial systems. Furthermore, our analysis validates the TaS's superior robustness in long-horizon InfoSeeking, alongside its efficiency, scalability and flexibility. Code and datasets are publicly released at https://github.com/AIDC-AI/Marco-Search-Agent.
Les couches d'appariement différentiables et les paradigmes de connexion résiduelle, souvent implémentés via le Transport Optimal (TO) régularisé par entropie, constituent des mécanismes critiques pour la prédiction structurelle et la mise à l'échelle architecturale. Cependant, la récupération de permutations discrètes ou le maintien de mappages d'identité via un recuit de ε vers 0 sont notoirement instables. Dans ce travail, nous identifions un mécanisme fondamental à l'origine de cet échec : l'effondrement prématuré des modes. En analysant la dynamique non normale de l'application à point fixe de Sinkhorn, nous révélons une limite de vitesse thermodynamique théorique : le refroidissement exponentiel standard dépasse le taux de contraction de l'opérateur d'inférence, qui se dégrade en O(1/ε). Pour résoudre ce problème, nous proposons le Contrôle Adaptatif de Stabilité Hybride Par Morceaux Efficace (EPH-ASC), un algorithme d'ordonnancement adaptatif qui surveille la stabilité du processus d'inférence. Nous démontrons que l'EPH-ASC est essentiel pour stabiliser les Hyper-Connexions à Contrainte de Variété (mHC) lors de l'entraînement à grande échelle sur le jeu de données FineWeb-Edu, empêchant efficacement les explosions de gradient en phase finale en imposant une loi de stabilité linéaire.
Malgré des avancées récentes, l'ajustement à l'inférence - c'est-à-dire l'expansion dynamique du budget de tokens pendant l'inférence selon les besoins - reste fragile pour les modèles vision-langage (VLM) : les chaînes de raisonnement non structurées sur les images entremêlent perception et raisonnement, conduisant à des contextes longs et désorganisés où de petites erreurs perceptives peuvent s'amplifier en réponses complètement erronées. De plus, un apprentissage par renforcement coûteux avec des récompenses conçues manuellement est nécessaire pour obtenir de bonnes performances. Nous présentons ici SPARC (Separating Perception And Reasoning Circuits), un cadre modulaire qui découple explicitement la perception visuelle du raisonnement. Inspiré par le traitement séquentiel sensoriel-cognitif dans le cerveau, SPARC met en œuvre un pipeline en deux étapes où le modèle effectue d'abord une recherche visuelle explicite pour localiser les régions pertinentes pour la question, puis conditionne son raisonnement sur ces régions pour produire la réponse finale. Cette séparation permet un ajustement à l'inférence indépendant avec une allocation de calcul asymétrique (par exemple, prioriser le traitement perceptuel sous un décalage de distribution), prend en charge une optimisation sélective (par exemple, améliorer uniquement l'étape perceptuelle lorsqu'elle est le goulot d'étranglement pour les performances end-to-end), et permet des contextes compressés en exécutant une recherche globale à des résolutions d'image plus faibles et en allouant un traitement haute résolution uniquement aux régions sélectionnées, réduisant ainsi le nombre total de tokens visuels et le calcul requis. Sur des benchmarks exigeants de raisonnement visuel, SPARC surpasse les approches monolithiques de référence et les approches solides d'ancrage visuel. Par exemple, SPARC améliore la précision de Qwen3VL-4B sur le benchmark VQA V^* de 6,7 points de pourcentage, et il surpasse la méthode "thinking with images" de 4,6 points sur une tâche OOD difficile, et ce malgré un budget de tokens 200 fois inférieur.
Les aléas climatiques perturbent de plus en plus les transports urbains et les opérations de secours en endommageant le parc immobilier, en dégradant les infrastructures et en réduisant l'accessibilité du réseau. Cet article présente Skjold-DiT, un cadre de type transformeur à diffusion qui intègre des données urbaines spatio-temporelles hétérogènes pour prévoir des indicateurs de risque climatique au niveau du bâti, tout en incorporant explicitement la structure du réseau de transport et les signaux d'accessibilité pertinents pour les véhicules intelligents (par exemple, l'accessibilité pour les secours et les contraintes des routes d'évacuation). Concrètement, Skjold-DiT permet de définir des contraintes de routage conditionnées aux aléas en produisant des couches d'accessibilité étalonnées et tenant compte de l'incertitude (accessibilité, inflation du temps de trajet et redondance des itinéraires) qui peuvent être utilisées par les systèmes de routage pour véhicules intelligents et de dispatch d'urgence. Skjold-DiT combine : (1) Fjell-Prompt, une interface de conditionnement par prompt conçue pour supporter le transfert interurbain ; (2) Norrland-Fusion, un mécanisme d'attention cross-modal unifiant les cartes d'aléas/imagerie, les attributs du bâti, les données démographiques et les infrastructures de transport en une représentation latente partagée ; et (3) Valkyrie-Forecast, un simulateur contrefactuel pour générer des trajectoires de risque probabilistes sous l'effet de prompts d'intervention. Nous présentons le jeu de données Baltic-Caspian Urban Resilience (BCUR) contenant 847 392 observations au niveau du bâti réparties sur six villes, incluant des annotations multi-aléas (par exemple, des indicateurs d'inondation et de chaleur) et des caractéristiques d'accessibilité des transports. Les expérimentations évaluent la qualité de la prédiction, la généralisation interurbaine, l'étalonnage et les résultats pertinents pour les transports en aval, y compris l'accessibilité et les temps de trajet conditionnés aux aléas dans des scénarios contrefactuels d'intervention.
La segmentation basée sur le langage est un sujet populaire en vision par ordinateur. Si les récents progrès des modèles de langage multimodaux (MLLM) ont doté les systèmes de segmentation de capacités de raisonnement, ces efforts restent limités par les connaissances internes figées des MLLM, ce qui restreint leur potentiel pour les scénarios réels impliquant des informations actualisées ou des concepts spécifiques à un domaine. Dans ce travail, nous proposons Seg-ReSearch, un nouveau paradigme de segmentation qui surmonte le goulot d'étranglement des connaissances des approches existantes. En permettant un raisonnement entrelacé avec une recherche externe, Seg-ReSearch permet aux systèmes de segmentation de traiter des requêtes dynamiques et ouvertes qui dépassent le cadre des connaissances figées des MLLM. Pour entraîner efficacement cette capacité, nous introduisons une conception de récompense hiérarchique qui harmonise un guidage initial avec des incitations progressives, atténuant le dilemme entre les signaux de résultat épars et une supervision rigide étape par étape. Pour l'évaluation, nous construisons OK-VOS, un benchmark exigeant qui nécessite explicitement des connaissances externes pour la segmentation d'objets en vidéo. Les expériences sur OK-VOS et deux benchmarks existants de segmentation raisonnée démontrent que notre Seg-ReSearch améliore significativement les approches de l'état de l'art. Le code et les données seront disponibles à l'adresse https://github.com/iSEE-Laboratory/Seg-ReSearch.
Le prétraitement des images de lames entières (WSI), comprenant généralement la détection des tissus suivie de l'extraction de patches, est fondamental pour les flux de travail en pathologie computationnelle pilotée par l'IA. Cela reste un goulot d'étranglement informatique majeur car les outils existants reposent soit sur un seuillage heuristique imprécis pour la détection des tissus, soit adoptent des approches basées sur l'IA entraînées sur des données à diversité limitée qui opèrent au niveau du patch, entraînant une complexité computationnelle substantielle. Nous présentons AtlasPatch, un cadre de prétraitement de lames efficace et évolutif pour une détection précise des tissus et une extraction de patches à haut débit avec une surcharge computationnelle minime. Le module de détection des tissus d'AtlasPatch est entraîné sur un ensemble de données hétérogène et semi-manuellement annoté d'environ 30 000 miniatures de WSI, en utilisant un réglage fin efficace du modèle Segment-Anything. L'outil extrapole les masques tissulaires des miniatures aux lames en pleine résolution pour extraire les coordonnées des patches aux grossissements spécifiés par l'utilisateur, avec des options pour diffuser les patches directement dans des encodeurs d'images courants pour l'incorporation ou stocker les images de patches, le tout étant efficacement parallélisé sur les CPU et les GPU. Nous évaluons AtlasPatch sur la précision de la segmentation, la complexité computationnelle et l'apprentissage multi-instances en aval, égalant les performances de l'état de l'art tout en fonctionnant à une fraction de leur coût computationnel. AtlasPatch est open-source et disponible à l'adresse https://github.com/AtlasAnalyticsLab/AtlasPatch.
La distillation des connaissances est devenue une technique essentielle pour transférer le savoir des grands modèles de langage (LLM) plus performants vers des modèles plus petits et efficaces. Cependant, les approches traditionnelles de distillation rencontrent des défis liés aux conflits de connaissances et aux exigences élevées en ressources, particulièrement lorsqu’elles exploitent plusieurs modèles enseignants. Dans cet article, nous introduisons le concept de Purification des Connaissances, qui consolide les raisonnements de plusieurs LLM enseignants en un raisonnement unique, atténuant ainsi les conflits et améliorant l’efficacité. Pour étudier l’efficacité de la purification des connaissances, nous proposons en outre cinq méthodes de purification sous différents angles. Nos expériences démontrent que ces méthodes améliorent non seulement les performances du modèle distillé, mais atténuent aussi efficacement les conflits de connaissances. De plus, les méthodes basées sur un routeur présentent des capacités de généralisation robustes, soulignant le potentiel des techniques innovantes de purification pour optimiser la distillation multi-enseignants et faciliter le déploiement pratique de modèles puissants mais légers.
Les approches existantes pour analyser les activations des réseaux neuronaux, telles que l'ACP et les autoencodeurs parcimonieux, reposent sur des hypothèses structurelles fortes. Les modèles génératifs offrent une alternative : ils peuvent découvrir des structures sans de telles hypothèses et agir comme des a priori qui améliorent la fidélité des interventions. Nous explorons cette direction en entraînant des modèles de diffusion sur un milliard d'activations du flux résiduel, créant des « méta-modèles » qui apprennent la distribution des états internes d'un réseau. Nous constatons que la perte de diffusion diminue régulièrement avec le calcul et prédit de manière fiable l'utilité en aval. En particulier, l'application de l'a priori appris par le méta-modèle aux interventions de pilotage améliore la fluidité, avec des gains plus importants à mesure que la perte diminue. De plus, les neurones du méta-modèle isolent progressivement les concepts dans des unités individuelles, avec des scores de sondage parcimonieux qui évoluent avec la diminution de la perte. Ces résultats suggèrent que les méta-modèles génératifs offrent une voie évolutive vers l'interprétabilité sans hypothèses structurelles restrictives. Page du projet : https://generative-latent-prior.github.io.
Une véritable auto-évolution nécessite que les agents agissent comme des apprenants permanents qui internalisent de nouvelles expériences pour résoudre des problèmes futurs. Cependant, la mesure rigoureuse de cette capacité fondamentale est entravée par deux obstacles : l’intrication des connaissances préalables, où les connaissances « nouvelles » peuvent apparaître dans les données de pré-entraînement, et l’intrication de la complexité du raisonnement, où les échecs peuvent provenir de la difficulté du problème plutôt que d’une incapacité à rappeler les connaissances acquises. Nous présentons SE-Bench, un environnement de diagnostic qui obscurcit la bibliothèque NumPy et sa documentation API en un package pseudo-nouveau avec des identifiants randomisés. Les agents sont entraînés à internaliser ce package et évalués sur des tâches de codage simples sans accès à la documentation, créant un cadre épuré où les tâches sont triviales avec la nouvelle documentation API mais impossibles pour les modèles de base sans celle-ci. Notre investigation révèle trois insights : (1) le Paradoxe du Livre Ouvert, où l’entraînement avec une documentation de référence inhibe la rétention, nécessitant un « Entraînement Livre Fermé » pour forcer la compression des connaissances dans les poids ; (2) l’Écart du RL, où l’apprentissage par renforcement standard échoue à internaliser complètement de nouvelles connaissances en raison du clipping PPO et des gradients négatifs ; et (3) la viabilité du Jeu Auto-supervisé pour l’internalisation, prouvant que les modèles peuvent apprendre à partir de tâches bruitées auto-générées lorsqu’elles sont couplées au SFT, mais pas au RL. Globalement, SE-Bench établit une plateforme de diagnostic rigoureuse pour l’auto-évolution avec internalisation des connaissances. Notre code et notre jeu de données sont disponibles à l’adresse https://github.com/thunlp/SE-Bench.