Articles de recherche IA sélectionnés quotidiennement avec traductions
Les progrès récents dans le développement des modèles de langage ont été marqués par l'échelle, chaque génération absorbant une part croissante des connaissances mondiales dans ses poids. Cependant, de nombreuses applications pratiques bénéficient davantage d’un raisonnement robuste que d’une connaissance paramétrique extensive. Dans ce contexte, les petits modèles de langage spécialisés dans une tâche (SLMs) constituent un choix de conception pertinent. Nous introduisons le Noyau Cognitif Optimal (Optimal Cognitive Core, OCC), une famille de SLMs construite autour de ce principe. Sous une variante de l’OCC, nous présentons OCC-RAG, optimisé pour répondre fidèlement aux questions en s’appuyant sur le contexte fourni. Cette tâche s’aligne directement avec l’approche de conception d’OCC, nécessitant un raisonnement multi-étapes sur des passages donnés tout en ignorant les connaissances mémorisées. Pour entraîner OCC-RAG, nous mettons en œuvre un nouveau pipeline de synthèse de données de questions-réponses multi-étapes et multi-contextes à grande échelle, produisant un corpus de plus de trois millions d’exemples ciblant le raisonnement multi-étapes, la fidélité stricte au contexte et une abstention calibrée. Nous publions OCC-RAG-0.6B et OCC-RAG-1.7B, tous deux pré-entraînés sur ce corpus. Les modèles génèrent des traces de raisonnement structurées avec des citations de sources ancrées dans des citations littérales du contexte. À travers OCC-RAG, nous démontrons que des petits modèles de langage compacts et spécialisés peuvent égaler ou surpasser des modèles à usage général de taille 2 à 6 fois supérieure sur des benchmarks de raisonnement multi-étapes (HotpotQA, MuSiQue, TAT-QA), de fidélité (ConFiQA) et de refus (MuSiQue-Un).
Identifier quelles régions du cerveau humain représentent un concept visuel constitue un défi majeur en neurosciences. Les approches existantes ont permis de localiser des régions fonctionnelles grossières (par exemple, les visages, les lieux) par maximisation d’activation, en identifiant les régions qui s’activent fortement pour un concept cible par rapport à d’autres concepts. Cependant, une forte activation seule ne prouve pas qu’une région représente le concept lui-même, car les réponses pourraient être induites par des indices visuels ou sémantiques corrélés. Nous introduisons BrainCause, un cadre automatisé qui combine des modèles génératifs et des modèles cérébraux pour synthétiser des stimuli contrôlés et valider les représentations neuronales par des tests causaux ciblés. Étant donné une requête spécifiant un concept d’intérêt, notre cadre construit des ensembles de stimuli ciblés comprenant des images du concept, des modifications contrefactuelles qui suppriment le concept cible tout en préservant le reste du contenu de l’image, et des images avec des distracteurs corrélés candidats. Il utilise ensuite un modèle de codage image-vers-IRMf pour prédire les réponses cérébrales et recherche des représentations qui répondent spécifiquement au concept cible par rapport aux alternatives corrélées. BrainCause renvoie des représentations candidates validées et propose des expériences d’IRMf de suivi pour tester ou étendre ses découvertes. Notre approche retrouve avec succès des localisations fonctionnelles connues et identifie de nouvelles représentations candidates pour des dizaines de concepts, validées à la fois sur des données d’IRMf prédites et mesurées. Fait crucial, nous montrons que sans validation causale, une grande partie des localisations seraient des faux positifs, confirmant que la seule activation ne suffit pas comme preuve de représentation.
La distillation sur politique (On-Policy Distillation, OPD) est une technique fondamentale pour le post-entraînement efficace des grands modèles de langage (LLMs), avec des applications étendues dans l'apprentissage d'agents, l'amélioration multi-tâches et la compression de modèles. Cependant, l'entraînement OPD devient instable lorsque les distributions de l'enseignant et de l'élève divergent considérablement, car la supervision de l'enseignant sur les tokens générés par l'élève peut produire des gradients de politique non fiables et même provoquer un échec d'optimisation. Ce travail aborde la supervision fiable au niveau des tokens sur politique via des stratégies d'attribution de crédit, et propose la distillation sur politique avec région de confiance, TrOPD. Elle présente les caractéristiques suivantes : 1) Apprentissage sur politique avec région de confiance : TrOPD effectue l'OPD uniquement dans les régions où l'enseignant fournit une supervision fiable, atténuant la difficulté d'optimisation de l'estimateur K1 de KL inverse en cas de décalage de distribution. 2) Estimation des outliers : Pour les régions aberrantes, nous explorons l'écrêtage des gradients, le masquage et l'estimation par KL directe afin de réduire les effets négatifs d'une supervision non fiable. 3) Guidage hors politique : L'élève poursuit la génération à partir des préfixes de l'enseignant et utilise la KL directe pour imiter le guidage hors politique, encourageant l'exploration sur politique vers des régions fiables. Les expériences montrent que TrOPD surpasse systématiquement les bases OPD de l'état de l'art, notamment OPD, EOPD et REOPOLD, dans les benchmarks de raisonnement mathématique, de génération de code et de domaine général.
Nous présentons Humanoid-GPT, un Transformer de type GPT avec attention causale entraîné sur un corpus de mouvement à l’échelle du milliard pour le contrôle du corps entier. Contrairement aux précédents trackers MLP peu profonds contraints par des données rares et un compromis agilité-généralisation, Humanoid-GPT est pré-entraîné sur un corpus retargeté de 2 milliards de trames qui unifie tous les principaux ensembles de données de capture de mouvement avec des enregistrements internes à grande échelle. L’augmentation de l’échelle des données et de la capacité du modèle produit un seul Transformer génératif qui suit des comportements très dynamiques tout en réalisant une généralisation zéro-shot sans précédent à des mouvements et des tâches de contrôle inédits. Des expériences approfondies et des analyses de mise à l’échelle montrent que notre modèle établit une nouvelle frontière de performance, démontrant une généralisation zéro-shot robuste à des tâches inédites tout en suivant simultanément des mouvements très dynamiques et complexes.
Le scaling au moment du test est une approche puissante pour obtenir un meilleur raisonnement dans les grands modèles de langage, mais il devient limité par la mémoire lors du décodage à long horizon, car le cache KV croît. La quantification du cache KV peut aider à améliorer cela, mais les méthodes actuelles sont évaluées dans des configurations de type pré-remplissage et les erreurs se comportent différemment sous un décodage autorégressif. Nous montrons que dans ce dernier régime, les erreurs de quantification s'accumulent au fil des pas de temps, principalement en raison d'échelles de token incorrectes. Nous introduisons KVarN, un quantifieur de cache KV sans calibration qui applique une rotation de Hadamard suivie d'une normalisation de variance à double échelle sur les deux axes des matrices K et V. Nous constatons que cette combinaison corrige les erreurs d'échelle de token aberrantes et réduit substantiellement l'accumulation d'erreurs par rapport aux bases existantes. KVarN établit un nouvel état de l'art pour la quantification du cache KV sur des benchmarks génératifs, notamment MATH500, AIME24 et HumanEval, à une précision de 2 bits. Une implémentation vLLM de la méthode KVarN est disponible sur https://github.com/huawei-csl/KVarN.
L'apprentissage par renforcement (AR) post-entraînement améliore les grands modèles de langage (GML) sur des domaines individuels tels que le raisonnement mathématique, la génération de code, la réponse aux questions et l'écriture créative (ÉC), mais l'entraînement sur un domaine dégrade souvent les performances sur d'autres. Les explications existantes basées sur l'oubli catastrophique ou le conflit global de gradient sont incomplètes : des interférences substantielles peuvent se produire même lorsque les gradients du modèle entier sont presque orthogonaux. Nous montrons que l'AR sur un seul domaine produit des modifications de paramètres clairsemées et de faible amplitude avec un faible chevauchement entre les neurones les plus modifiés, tandis que différents domaines partagent encore des voies de calcul actives substantielles sur lesquelles les directions de mise à jour déterminent si elles agissent de manière synergique ou conflictuelle. Guidés par cette observation, nous prouvons sous un modèle de perturbation locale de l'AR multi-domaine que l'entraînement sur un domaine ultérieur nuit à un domaine antérieur principalement via un terme de dommage du second ordre, qui, sous la structure de voie clairsemée observée, se concentre dans un sous-espace de conflit partagé de faible dimension. De plus, un court rafraîchissement de domaine contracte la composante nuisible sur ce sous-espace, permettant une récupération sélective avec des dommages collatéraux limités. Conformément à la théorie, un bref rafraîchissement Re-Math après Code → Math → QA → CW récupère Math de 57,66 à 66,04 tout en préservant largement les performances sur les autres domaines, obtenant le meilleur score moyen de 66,39. Au-delà du rafraîchissement, un retour en arrière sans entraînement sur un ensemble clairsemé de coordonnées de conflit proxy pour la paire Math-QA restaure partiellement Math, fournissant une preuve directe au niveau proxy de dommages localisés. Ces résultats fournissent un compte rendu mécaniste localisé de l'interférence et de la récupération dans l'AR multi-domaine.
Les modèles du monde et les grands modèles de langage multimodaux (MLLM) offrent des capacités complémentaires pour prédire les résultats futurs à partir d'observations visuelles statiques. Les modèles du monde peuvent générer des déploiements visuels concrets de futurs possibles, tandis que les MLLM peuvent raisonner de manière abstraite sur des questions, des objectifs et des règles. Cependant, les déploiements générés sont stochastiques et peuvent être visuellement plausibles mais incorrects par rapport à la tâche, ce qui nécessite de déterminer quand la simulation visuelle est utile, si un déploiement est crédible et comment il doit influencer la réponse finale. Nous formulons ce problème comme un raisonnement concret contrôlé, où un modèle apprend à invoquer, vérifier et intégrer la simulation visuelle future en parallèle du raisonnement abstrait. Pour étudier ce cadre, nous construisons deux bancs d'essai vérifiés par des humains, VRQABench pour l'anticipation spatiale contrôlable et OpenWorldQA pour la prédiction physique en domaine ouvert, et proposons l'auto-distillation sur politique avec futur privilégié (PF-OPSD). Pendant l'entraînement, PF-OPSD utilise les vidéos futures et les réponses de vérité terrain uniquement comme contexte privilégié du côté enseignant pour évaluer les trajectoires de raisonnement concret sur politique, tandis que l'étudiant déployable n'observe jamais les vrais futurs au moment du test. Les résultats expérimentaux montrent que PF-OPSD surpasse la référence de 10,6 % et 10,9 % sur VRQABench et OpenWorldQA respectivement, tout en augmentant la robustesse face aux déploiements bruyants ou contradictoires. Notre code et notre ensemble de données sont disponibles à l'adresse https://github.com/yczhou001/PF-OPSD.
Les agents autonomes sont de plus en plus appelés à soutenir des flux de travail de recherche en IA médicale de bout en bout, dépassant les tâches de prédiction isolées ou les réponses à des questions cliniques courtes. Cependant, les benchmarks existants pour les agents médicaux évaluent principalement les résultats finaux, offrant une visibilité limitée sur le comportement des agents au sein du processus de recherche. Pour combler cette lacune, nous présentons AutoMedBench, un benchmark conscient du flux de travail pour la recherche autonome en IA médicale couvrant diverses tâches d’imagerie médicale et d’inférence multimodale, organisant l’exécution des agents en un flux de travail unifié en cinq étapes (S1 à S5) : Planifier, Configurer, Valider, Inférer et Soumettre. Il comprend des tâches à long horizon, chaque exécution comptant en moyenne 33 tours d’agent, et s’étend sur cinq axes de recherche : segmentation, amélioration d’image, réponse à des questions visuelles (VQA), génération de rapports et détection de lésions. Chaque tâche est évaluée selon deux niveaux de difficulté, Lite et Standard, qui utilisent les mêmes données et métriques mais diffèrent par la quantité d’échafaudage dans le briefing de la tâche, et chaque exécution est notée à la fois sur la performance finale de la tâche et sur des scores par étape S1–S5, permettant une analyse au niveau des étapes depuis le briefing initial jusqu’à l’artefact final soumis. À travers des milliers d’exécutions enregistrées, la notation par étape révèle que Valider est en moyenne l’étape la plus faible du flux de travail, tandis que Configurer est la plus forte, suggérant que les agents actuels sont meilleurs pour rendre les pipelines exécutables que pour vérifier leur fiabilité. L’analyse des erreurs après exécution montre en outre que les échecs de vérification et de soumission dominent les erreurs étiquetées, représentant respectivement 37,7 % et 38,1 % des codes déclenchés, tandis que les erreurs de compréhension de la tâche sont rares, à 0,9 %, et que les exécutions avec un seul code d’erreur déclenché obtiennent en moyenne un score global inférieur de 48 % à celles sans aucun code d’erreur.
L’entraînement intermédiaire est devenu une étape importante dans le développement moderne des LLM, utilisant des mélanges organisés à grande échelle pour renforcer les capacités avant le post-entraînement final. Le problème de sélection des données qui lui est propre est le suivant : les données sont optimisées selon un objectif de type pré-entraînement, à une échelle proche de celle du pré-entraînement, mais sont organisées en fonction des capacités en aval et proviennent de sources hétérogènes aux formats et rôles d’entraînement différents. Par conséquent, une sélection efficace nécessite à la fois l’évolutivité et des critères sémantiques adaptés aux sources. Les méthodes existantes basées sur des modèles passent bien à l’échelle, mais ne fournissent que des signaux de qualité implicites. Les méthodes de sélection sémantique offrent des jugements plus solides, mais supposent généralement des rubriques fixes ou des formats de données standardisés. Pour remédier à ce décalage, nous proposons MIRA, un cadre de filtrage tenant compte des sources, fondé sur la découverte de rubriques auto-anchorées. L’idée clé est d’intégrer la construction de rubriques à la sélection des données : MIRA découvre d’abord ce qui doit être évalué pour chaque groupe de sources, puis distille ces jugements en scoreurs étudiants évolutifs pour le filtrage de l’ensemble du corpus. Sur un entraînement intermédiaire orienté code avec 21 sources et 5 groupes de sources, MIRA surpasse les bases de référence de sélection sur neuf benchmarks de code et égale l’exécution sur l’ensemble du corpus tout en n’utilisant que la moitié des tokens.
L'apprentissage par renforcement (RL) pour le raisonnement visuel nécessite des signaux d'entraînement évolutifs, vérifiables et contrôlables. Le post-entraînement RL visuel existant s'entraîne sur des ensembles de données statiques organisés, avec des échantillons fixes image-question-réponse limités par leur budget de collecte. Dans ce travail, nous introduisons TRON (Targeted, Rule-verifiable Online eNvironments), un substrat d'environnement en ligne : un déroulement d'entraînement est généré à la demande par un programme générateur-vérificateur contrôlable qui échantillonne un état visuel latent frais, génère une image, pose une question et vérifie exactement la réponse. Une seule exécution peut ainsi produire un flux illimité de nouvelles instances au niveau de difficulté requis par le programme d'apprentissage en cours. La suite TRON actuelle contient 520 environnements organisés en cinq catégories de compétences (spatiales, mathématiques, diagrammes, motifs/logique et comptage) ; le même substrat prend en charge à la fois un modèle complet unique entraîné sur toutes les catégories et des modèles spécialisés par catégorie de compétence, sans collecte de données supplémentaire. Nous introduisons également une analyse du substrat couvrant la fiabilité de génération, la diversité des instances et des niveaux, les quasi-doublons entre environnements, et le taux de réussite du modèle de base par niveau de difficulté. Le post-entraînement RL avec METHOD améliore constamment les performances sur dix benchmarks externes de raisonnement multimodal pour Qwen3-VL-4B, Qwen2.5-VL-7B et MiMo-VL-7B-SFT.
Comprendre une vidéo nécessite davantage que la reconnaissance d'instants isolés, car les humains suivent en continu des entités, des états et des événements dans le temps. Cette capacité de suivi visuel des états est fondamentale pour la compréhension vidéo, mais reste sous-explorée dans les évaluations actuelles des modèles de langage multimodaux à grande échelle (MLLMs). Nous présentons le référentiel VSTAT (Visual STAte Tracking benchmark), un référentiel basé sur des vidéos conçu pour diagnostiquer le suivi visuel des états dans les MLLMs. VSTAT se compose de 834 extraits issus de vidéos synthétiques et réelles, associés à 1 500 questions qui ne peuvent être répondues à partir d'une seule image ou d'un court segment, exigeant une perception continue et une intégration des événements sur l'ensemble du flux vidéo. Malgré leurs performances élevées sur les référentiels vidéo existants, nous constatons que les MLLMs les plus avancés obtiennent des résultats bien inférieurs à ceux des humains, et seulement légèrement supérieurs à ceux des modèles de base exploitant les probabilités a priori des réponses. Pour analyser cet écart, nous comparons les traces de raisonnement des MLLMs avec le flux vidéo sous-jacent afin de comprendre pourquoi et quand les MLLMs échouent sur VSTAT. Nous observons que les MLLMs raisonnent et effectuent le suivi correctement dans le texte, mais échouent à percevoir visuellement les événements qu'ils doivent suivre. Enfin, notre évaluation préliminaire suggère que les approches agentiques récentes, y compris les agents vidéo basés sur des MLLMs et les agents de codage, ne résolvent pas facilement ces échecs, restant encore en deçà des performances sur VSTAT.
Les dernières décennies ont été marquées par des avancées significatives dans la conception d'algorithmes d'apprentissage automatique, passant des premières études sur des modèles peu profonds spécifiques à une tâche à des Grands Modèles de Langage (LLMs) profonds et plus généraux. Bien qu'ils montrent des résultats prometteurs dans des tâches nécessitant une prédiction instantanée ou un apprentissage en contexte, les modèles existants ne possèdent pas la capacité d'apprendre en continu et de transférer efficacement leurs connaissances temporelles contextuelles vers leurs paramètres à long terme. Inspirés par le processus d'apprentissage humain, nous introduisons un paradigme de « Sommeil » qui permet aux modèles d'apprendre en continu, de distiller leurs mémoires fragiles à court terme en connaissances stables à long terme via le rejeu, et de s'améliorer de manière récursive grâce à un processus de « Rêve ». Plus en détail, le sommeil comprend deux étapes : (1) la Consolidation de la Mémoire : un processus de distillation ascendante, appelé Ensemencement de Connaissances, où les mémoires d'un soi plus petit sont distillées dans un réseau plus vaste pour offrir une capacité accrue tout en préservant les connaissances. À titre de preuve de concept, nous présentons un nouveau processus de Distillation Généralisée pour l'Ensemencement de Connaissances (c'est-à-dire la combinaison de la distillation sur politique avec l'apprentissage par imitation basé sur l'Apprentissage par Renforcement (RL)) ; (2) le Rêve : une phase d'auto-amélioration, où le modèle utilise le RL pour générer un programme de données synthétiques afin de répéter de nouvelles connaissances et d'affiner les capacités existantes sans supervision humaine. Nos expériences sur des tâches d'horizon long, d'apprentissage continu, d'incorporation de connaissances et de généralisation en few-shot soutiennent l'importance de la phase de sommeil.
Alors que les capacités des véhicules autonomes progressent, l'évaluation sécurisée des politiques de conduite dans les scénarios de longue traîne reste un goulot d'étranglement critique. Dans la simulation en boucle fermée, le modèle de politique de conduite interagit activement avec l'environnement, où ses actions mettent à jour dynamiquement l'état du simulateur et influencent directement l'ensemble suivant d'observations de capteurs générées. Bien que les simulateurs neuronaux récents basés sur la reconstruction offrent un photoréalisme, ils sont fondamentalement limités par leurs données initiales capturées et peinent à généraliser à des scènes hautement dynamiques ou inédites. Pour surmonter ces limitations, nous introduisons OmniDreams, un modèle de monde génératif fondation pré-entraîné et post-entraîné à partir du modèle de diffusion Cosmos, afin de générer de manière autorégressive des vidéos conditionnées par les actions en temps réel. En exploitant les riches a priori visuels de Cosmos et un pré- et post-entraînement sur 21 000 heures de scénarios de conduite, OmniDreams synthétise des phénomènes complexes et non observés que les simulateurs traditionnels peinent à capturer, tels que les conditions météorologiques extrêmes et les comportements imprévisibles d'agents dynamiques. Crucialement, il conditionne de manière autorégressive sa génération photoréaliste de capteurs sur les images passées, l'état actuel du simulateur et les actions de conduite immédiates. Déployé dans un système en boucle fermée avec le modèle de politique Alpamayo 1 et l'orchestrateur AlpaSim, OmniDreams agit comme un environnement hautement réactif et réactif, offrant une solution évolutive et complète pour l'entraînement et l'évaluation des politiques de conduite autonome de nouvelle génération. Nous présentons également des résultats préliminaires indiquant qu'un modèle monde-action (WAM) post-entraîné à partir d'OmniDreams atteint des performances solides sur l'ensemble de données NuRec pour l'IA physique des véhicules autonomes, surpassant le modèle de politique de recherche Alpamayo 1.5 basé sur VLA tout en n'utilisant qu'1/5 des paramètres totaux. Ces résultats soulignent le potentiel d'un modèle de monde en temps réel comme OmniDreams à servir également de colonne vertébrale pour les architectures de politique.
Les modèles génératifs modernes possèdent une compréhension profonde du contenu visuel, mais leur entraînement pour l'édition d'images nécessite généralement des ensembles de données massifs d'exemples appariés. Cela limite la scalabilité, en particulier pour l'édition vidéo où la collecte de données appariées est excessivement coûteuse. Nous proposons Bootstrap Your Generator (ByG), un cadre général pour l'entraînement non apparié de modèles d'édition par appariement de flots. Il exploite les connaissances du modèle de base sans aucun signal externe. Notre approche associe des indices de suivi d'instructions extraits du modèle gelé avec une cohérence cyclique pour la préservation de la structure. Pour rendre cela réalisable, nous proposons d'acheminer les gradients des pertes en aval sur les prédictions propres vers les états d'entraînement bruités. Nous démontrons des résultats de pointe sur des scénarios difficiles d'édition d'images et de vidéos avec des données rares. Des évaluations approfondies et des études utilisateurs montrent que notre méthode généralise efficacement à des domaines non vus et surpasse les références supervisées entraînées sur des millions d'échantillons. L'analyse révèle que notre acheminement de gradients comble l'écart entre l'entraînement et l'inférence, et que l'extraction d'indices sémantiques d'un modèle de base fournit un signal d'entraînement robuste qui évite le besoin de modèles de récompense externes.
Nous proposons les modèles de diffusion résiduelle découplée (Decoupled Residual Denoising Diffusion, DRDD) pour la traduction image-à-image (I2I) unifiée et efficace en termes de données. Bien que les modèles de diffusion aient fait progresser la traduction I2I en termes de qualité et de diversité, nous mettons en lumière une propriété jusqu'alors peu explorée dans ces modèles. De manière cruciale, au-delà de son rôle conventionnel de rehaussement de variété (c'est-à-dire déplacer les données hors des variétés de faible dimension), l'injection de bruit gaussien facilite l'harmonisation des domaines en alignant implicitement les distributions de caractéristiques entre eux, une propriété particulièrement avantageuse pour la traduction I2I unifiée. Cependant, les modèles de diffusion existants érodent prématurément cet effet d'harmonisation, car le bruit et les résidus sont simultanément éliminés dans un seul processus de diffusion couplé. Pour y remédier, DRDD découple le processus de diffusion en deux étapes séquentielles et indépendantes : (1) une diffusion de bruit stochastique pour l'harmonisation des domaines et le rehaussement de variété, et (2) une diffusion résiduelle déterministe qui apprend le mappage sémantique principal entièrement dans le domaine à bruit fixe. Ce découplage préserve les effets d'harmonisation et de rehaussement de variété tout au long de la transformation, simplifiant considérablement l'apprentissage de mappages unifiés dans diverses tâches et domaines. Notamment, l'étape de diffusion de bruit est entraînée exclusivement sur des images abondantes et non appariées du domaine cible, améliorant ainsi considérablement l'efficacité des données. Une analyse théorique et empirique complète montre que DRDD est largement compatible avec les modèles de diffusion courants et produit de manière constante une traduction I2I robuste et unifiée, même avec des données appariées limitées. Notre code est disponible à l'adresse https://github.com/HKU-HealthAI/DRDD.
La personnalisation est une capacité cruciale des agents linguistiques modernes. Cependant, la recherche actuelle positionne principalement les agents personnalisés comme des répondeurs passifs aux préférences des utilisateurs, limitant leur capacité à interagir avec eux et à fournir des suggestions ou des conseils de manière proactive. Pour évaluer systématiquement une telle personnalisation proactive dans des interactions réalistes, nous proposons Ψ-Bench, un banc d'essai pour évaluer la capacité des LLM à influencer des utilisateurs réalistes via la conversation. Nous concevons trois scénarios d'interaction réelle impliquant la persuasion dans Ψ-Bench, et dotons les clients simulés de caractéristiques personnelles via des profils utilisateur explicites dérivés d'historiques de dialogue. Nous évaluons 10 LLM de pointe sur Ψ-Bench et constatons que, bien que la plupart des modèles puissent produire des arguments cohérents et raisonnables, même les modèles les plus avancés laissent encore une marge d'amélioration considérable en matière de persuasion. Nous observons également que l'accès aux profils des clients entraîne un gain de performance moyen de 18,24 %, soulignant l'importance des informations spécifiques à l'utilisateur pour une persuasion efficace. Dans l'ensemble, notre travail met en évidence l'influence sensible au profil comme une direction difficile mais pratique pour évaluer et développer des agents LLM personnalisés plus proactifs. Les codes sont disponibles à l'adresse : https://github.com/Hanpx20/Psi-Bench.
La mise à l'échelle au moment du test améliore la performance de raisonnement des grands modèles de langage, mais engendre un coût substantiel en termes de calcul total et de latence. Les méthodes existantes d'échantillonnage adaptatif atténuent partiellement ce problème en décidant dynamiquement quand arrêter l'échantillonnage, mais elles reposent généralement sur des règles heuristiques ou des hypothèses de distribution. Dans ce travail, nous formulons l'échantillonnage adaptatif comme un processus de décision markovien (PDM). Nous entraînons un contrôleur d'échantillonnage léger par apprentissage par renforcement (RL) pour équilibrer conjointement l'exactitude des réponses, la latence et le coût de calcul. À chaque tour, le contrôleur décide d'arrêter l'échantillonnage ou d'acquérir des échantillons supplémentaires. Notre méthode est légère : elle ne repose que sur les statistiques des réponses finales et peut être entraînée et déployée sur CPU. Nous montrons en outre que le cadre résultant admet une interprétation comme la relaxation lagrangienne d'un problème d'optimisation sous contraintes avec des contraintes budgétaires explicites. Des expériences menées face à des références solides telles que ASC et ESC montrent que notre méthode atteint des compromis améliorés entre l'exactitude des réponses, le nombre de tours d'échantillonnage et le nombre total d'échantillons requis.
Les systèmes de harnais automatique tels que A-Evolve, GEPA et Meta-Harness améliorent les agents LLM en optimisant les invites, les compétences, les outils, les mémoires et l'infrastructure de support à partir du retour d'exécution, mais ils sont généralement évalués sur des benchmarks hors ligne fixes. Les déploiements réels présentent plutôt des flux de tâches ouverts : les historiques s'allongent sans point final fixe, des tâches hétérogènes nécessitent différents harnais, et les distributions de problèmes évoluent au fil du temps. Ces défis rendent un harnais unique mis à jour de manière répétée et dense fragile, entraînant une dégradation des performances alors que la précision atteint un pic précoce puis décline. Cela motive une construction de harnais soutenue avec une adaptation par tâche. Nous introduisons Adaptive Auto-Harness, un cadre et un système pour de tels flux. Le cadre décompose l'écart par rapport à un harnais oracle en perte d'évolution et perte d'adaptation. Le système répond à ces pertes avec un évolueur multi-agent avec état, un arbre de harnais avec routage au moment de la résolution, et des crochets d'orientation humaine pour les cas où l'historique manque du signal nécessaire. Sur des flux de marchés prédictifs, de compétitions de sécurité et de prévisions d'événements, Adaptive Auto-Harness surpasse cinq harnais automatiques de base existants, et les ablations attribuent les gains à une meilleure construction, un meilleur routage ou une orientation humaine ciblée. Le code est disponible sur https://github.com/A-EVO-Lab/AdaptiveHarness .
Nous présentons PaddleOCR-VL-1.6, un modèle compact amélioré d'analyse de documents, construit à partir de PaddleOCR-VL-1.5. Bien que PaddleOCR-VL-1.5 établisse une baseline solide de 0,9B, les erreurs résiduelles se concentrent dans des régions sous-optimisées où le comportement du modèle est instable, la couverture des données est clairsemée ou la supervision n'est pas fiable. Plutôt que d'élargir le corpus d'entraînement de manière indiscriminée, PaddleOCR-VL-1.6 introduit un cadre d'optimisation des données sensible aux régions, qui identifie les régions faibles du modèle précédent, applique une amélioration ciblée à ces régions et améliore la fiabilité des signaux de supervision. Il adopte en outre une recette progressive de post-entraînement basée sur une sélection de données organisée et un apprentissage par renforcement, poussant la performance du modèle à un niveau supérieur grâce à une optimisation par étapes. PaddleOCR-VL-1.6 obtient un nouveau score de pointe de 96,33 % sur OmniDocBench v1.6, démontre une forte compétitivité face aux VLMs de premier plan, et fournit une recette pratique de post-entraînement pour la série PaddleOCR-VL.
Le réglage par instructions aligne les grands modèles de langage, y compris les modèles multimodaux, sur diverses intentions des utilisateurs, mais le passage à l'échelle de mélanges hétérogènes est entravé par l'interférence des gradients et la synchronisation lourde en bande passante. Nous nous demandons si ces deux goulots d'étranglement peuvent être traités conjointement en entraînant indépendamment des parties du mélange et en les conciliant une fois dans l'espace des paramètres. Nous développons une théorie quadratique locale à l'intérieur d'un bassin plat partagé qui donne trois résultats : la fusion des poids produit une réduction de variance pondérée par la courbure ; la division des conflits alignée sur l'ACP maximise ce gain le long des directions à forte courbure ; et la fusion agit en outre comme un filtrage spectral avec régularisation implicite de la norme. Ces résultats motivent directement MERIT, un pipeline décentralisé prêt pour la fusion de réglage par instructions qui estime les conflits de gradient au niveau du jeu de données, partitionne le mélange le long des premiers axes de conflit de l'ACP, ajuste finement chaque partition indépendamment sans communication entre partitions, et fusionne une fois via une moyenne pondérée par les jetons. Sur Qwen2.5-VL-3B avec 136 tâches Vision-FLAN, MERIT améliore la moyenne de 8 benchmarks de 54,3 (entraînement conjoint) à 57,0. La même recette s'adapte à un modèle 7B sur un mélange de 1,6 million d'exemples et 176 sources – égalant ou surpassant l'entraînement conjoint centralisé avec un surcoût minimal – et se transfère à FLAN en texte uniquement. Notre code est disponible à l'adresse https://github.com/naver-ai/merit.
La navigation visuelle incarnée, où un agent perçoit un environnement complexe et agit pour atteindre un objectif à partir d'entrées sensorielles brutes, sous-tend un large éventail d'applications telles que la robotique de service domestique, la robotique d'assistance et l'exploration autonome à grande échelle. Cependant, les tentatives récentes d'unifier la navigation vision-langage (VLN) et la navigation vers un objet-cible (ObjNav) restent au niveau de la fusion architecturale, de l'entraînement sur tâches mixtes et du pré-entraînement vision-langage à grande échelle, sans examiner si des encodeurs visuels et linguistiques entraînés indépendamment partagent déjà une structure sémantique commune. De plus, même les cartes topologiques centrées sur les objets ancrent encore les objectifs langagiers via une supervision cross-modale explicite, comme CLIP ou les grands modèles vision-langage, laissant en suspens la question de savoir si un tel ancrage est possible à partir d'une carte purement construite par la vision. Pour relever ces défis, nous étendons l'hypothèse de représentation platonicienne à la navigation incarnée et reformulons l'ObjNav uniquement visuelle, l'ObjNav cross-modale et la VLN comme trois interfaces différentes vers la même variété sémantique centrée sur les objets. Nous introduisons ensuite PlatonicNav, un cadre sans entraînement dont la carte topologique platonicienne fusionne les distances géométriques et sémantiques des nœuds à partir d'un encodeur visuel auto-supervisé, et ancre les objectifs langagiers via un appariement aveugle sans aucune donnée appariée vision-langage. Des expériences approfondies sur des bancs d'essai de simulation incluant HM3D-IIN, OVON et R2R-CE sur MP3D, ainsi que le déploiement sur Unitree Go2, démontrent que PlatonicNav généralise à travers les tâches, les modalités et les incarnations sans entraînement cross-modal explicite. Code : https://github.com/AIGeeksGroup/PlatonicNav. Site web : https://aigeeksgroup.github.io/PlatonicNav.
Les longues traces de chaîne de pensée (CoT) sont largement utilisées comme supervision pour le SFT des LLM orienté raisonnement, pourtant des traces avec réponse correcte peuvent conduire à des résultats de fine-tuning sensiblement différents. Nous étudions la continuation post-conclusion dans les données longues CoT avec réponse correcte : une continuation où la réponse apparaît suffisamment étayée, mais où la trace se poursuit avec un raisonnement supplémentaire qui reste dans la cible supervisée. Pour tester son effet sur l'entraînement, nous utilisons un éditeur de suppression uniquement afin de construire une suppression de suffixe préservant la réponse, et nous comparons le SFT basé sur CoT sur les traces originales et traitées. Nous observons une amélioration des résultats du SFT après suppression de la continuation post-conclusion identifiée par l'éditeur, ce qui suggère que cette continuation est nuisible à l'entraînement dans notre cadre. Nous désignons donc ce phénomène empiriquement documenté comme la continuation nuisible. Au-delà de cette intervention, nous caractérisons plus avant la continuation post-conclusion supprimée par le biais de l'incertitude et de la progression de l'état caché. Nous observons une incertitude locale persistante associée à une progression directionnelle terminale affaiblie, formant un décalage incertitude–géométrie. Enfin, nous instancions le Harmful Continuation Cut (HCC), un proxy de frontière léger qui approxime la frontière de continuation post-conclusion identifiée par l'éditeur.
La Distillation sur Politique (OPD) entraîne un modèle étudiant sur ses propres trajectoires génératives sous un retour dense au niveau des tokens fourni par un enseignant plus fort, atténuant à la fois le décalage de distribution hors politique du Supervised Fine-Tuning (SFT) et l'attribution de crédit éparse de l'Apprentissage par Renforcement (RL). Cependant, l'OPD standard présente deux limitations couplées. Premièrement, elle exige un accès direct aux logits de l'enseignant au niveau des tokens, excluant ainsi une large classe de modèles propriétaires performants du rôle d'enseignant. Deuxièmement, le signal de logit au niveau du token est lui-même fragile, dépendant d'un chevauchement étroit des tokens suivants plausibles entre l'enseignant et l'étudiant, et enclin à amplifier des motifs dégénérés tels que les boucles de répétition. Dans cet article, nous introduisons OmniOPD, un nouveau cadre qui répond à ces deux limitations grâce à un signal de supervision sans logits et au niveau des chunks. OmniOPD remplace l'appariement déterministe des logits par des simulations de Monte Carlo qui approximent les préférences locales de l'enseignant via une métrique continue de similarité sémantique sur des chunks multi-tokens, et concentre cette supervision via un planificateur d'entropie maximale qui n'audite l'étudiant qu'à ses bifurcations de raisonnement à haute incertitude. Un a priori bayésien de Dirichlet-Multinomiale et une ancre KL du modèle de base bornent davantage la variance de l'échantillonnage discret et empêchent l'effondrement de la politique sur les tokens non audités. Sur des benchmarks compétitifs, OmniOPD surpasse l'approche OPD standard de jusqu'à +28,64% en mathématiques, confirmant que la vérification sémantique au niveau des chunks extrait un signal d'apprentissage plus fiable que l'appariement des logits au niveau des tokens, dont la haute densité d'information est compensée par un bruit et une fragilité significatifs. De plus, lorsqu'il est associé à des enseignants boîte noire plus forts tels que Claude-4.5-Haiku et Gemini-2.5-Flash, OmniOPD atteint un gain relatif supplémentaire de +9,54% en mathématiques par rapport à son homologue enseignant à poids ouverts, faisant progresser l'étudiant au-delà des performances du RL auto-exploratoire.
Les modèles actuels de similarité musicale calculent généralement un score unique et monolithique, entremêlant des dimensions musicales distinctes telles que la mélodie, le rythme et le timbre. Cela limite le contrôle de l'utilisateur et l'interprétabilité, rendant impossible l'exécution de requêtes nuancées. Nous présentons MERIT, un cadre d'apprentissage de représentations musicales désintriquées et spécifiques à chaque facteur, adapté à ces trois dimensions fondamentales. Pour pallier l'absence de variations musicales isolées dans l'audio réel, nous utilisons une stratégie d'entraînement innovante qui recourt à la génération audio conditionnelle et à des pistes séparées par source afin de favoriser fortement les variations à facteur unique dans les données d'entraînement. Nos évaluations démontrent un fort désintrication par facteur. Chaque tête répond fortement à sa dimension perceptive prévue tout en restant proche du hasard pour les autres, une propriété représentationnelle qui se maintient à la fois dans le domaine d'entraînement synthétique et dans l'audio réel indépendant.
Les modèles de raisonnement améliorent leur précision grâce à des chaînes de pensée étendues, mais leurs longues sorties créent un goulot d'étranglement en termes de mémoire et de calcul. Les méthodes d'éviction du cache KV réduisent ce coût en évacuant du cache les paires clé-valeur peu importantes, mais elles donnent souvent une précision inférieure à celle des alternatives d'attention sparse basées sur la sélection, qui conservent l'intégralité du cache KV. Nous identifions des facteurs clés cruciaux pour la précision de l'éviction du cache KV. Premièrement, une petite fraction des états de valeur présente des magnitudes anormalement élevées, et leur éviction provoque une défaillance catastrophique où les modèles entrent dans des boucles de raisonnement répétitives. Deuxièmement, l'introduction de stochasticité lors de l'éviction améliore la précision en augmentant la diversité du cache. Sur la base de ces constatations, nous proposons l'Éviction Stochastique du Cache KV Sensible à la Valeur (VaSE), une recette sans entraînement qui protège les états de valeur de grande magnitude et favorise des décisions d'éviction diversifiées. Sur six tâches de raisonnement, les modèles Qwen3 utilisant VaSE avec une compression 4x du cache KV atteignent des précisions moyennes plus élevées que la méthode de sélection de pointe à la même rareté, tout en surpassant la méthode d'éviction la plus performante de plus de 4 %. Globalement, VaSE comble le fossé entre efficacité et précision, prend en charge FlashAttention2 et permet une empreinte mémoire statique pour les modèles de raisonnement.
L'analyse par éléments finis (AEF) constitue l'approche numérique la plus importante en mécanique des solides. Les défis de l'AEF incluent une courbe d'apprentissage abrupte pour les utilisateurs débutants et des simulations potentiellement erronées dues à une définition incorrecte des composants clés de la simulation, telles que les conditions aux limites, les cas de charge et les variables de solution. Des années d'expérience en ingénierie sont généralement nécessaires pour résoudre des problèmes concrets. Pour répondre à ces enjeux, nous présentons AbaqusAgent, un cadre multi-agents fondé sur les grands modèles de langage (LLM) pour les analyses en mécanique des solides. AbaqusAgent est développé pour faciliter la génération et l'exécution de cas d'analyse à l'aide d'Abaqus, l'un des logiciels d'AEF les plus utilisés, en transformant les instructions en langage naturel des utilisateurs en analyses AEF exécutées et en visualisation des résultats. AbaqusAgent se compose de six agents — interprète, architecte, rédacteur d'entrée, exécuteur, réviseur et visualiseur — couvrant toutes les étapes essentielles de pré-traitement et de post-traitement des analyses AEF standard. Une grande variété de 50 problèmes de mécanique des solides a été validée avec succès, atteignant un taux de réussite global de 86 %. Au-delà de l'amélioration de l'efficacité de l'AEF pour les problèmes de mécanique des solides et de la réduction des barrières à l'éducation en mécanique numérique, AbaqusAgent fait progresser le paradigme d'interaction humain-simulation et permet l'intégration avec des flux de travail d'optimisation et de caractérisation des matériaux assistés par IA. Le code est disponible sur https://github.com/LIRAM-LIN/AbaqusAgent.
Les grands modèles de langage ont démontré des progrès remarquables dans les capacités à usage général et peuvent atteindre de bonnes performances dans des domaines spécifiques grâce à un ajustement fin sur des données propres au domaine. Cependant, l'acquisition de données de haute qualité pour les domaines cibles reste un défi majeur. Les approches existantes de synthèse de données suivent un paradigme déductif, reposant fortement sur des descriptions explicites du domaine exprimées en langage naturel et sur une ingénierie minutieuse des consignes, ce qui limite leur applicabilité dans des scénarios réels où les domaines sont difficiles à décrire ou à formuler formellement. Dans ce travail, nous abordons le problème peu exploré de la synthèse de données spécifiques à un domaine via un paradigme inductif, où le domaine cible est défini uniquement par un ensemble d'exemples de référence, en particulier lorsque les caractéristiques du domaine sont difficiles à exprimer en langage naturel. Nous proposons une nouvelle architecture, DOMINO, qui apprend une représentation minimale suffisante du domaine à partir d'échantillons de référence et l'exploite pour guider la génération de données synthétiques alignées sur le domaine. DOMINO intègre un ajustement des consignes avec un objectif de désintrication contrastive afin de séparer les motifs propres au domaine du bruit spécifique aux échantillons, atténuant le surapprentissage tout en conservant les caractéristiques centrales du domaine. Théoriquement, nous prouvons que DOMINO étend le support de la distribution des données synthétiques, garantissant une plus grande diversité. Empiriquement, sur des bancs d'essai de codage exigeants où les définitions de domaine sont implicites, l'ajustement fin sur les données synthétisées par DOMINO améliore la précision Pass@1 jusqu'à 4,63% par rapport à des architectures de base solides ajustées par instructions, démontrant ainsi son efficacité et sa robustesse. Ce travail établit un nouveau paradigme pour la synthèse de données spécifiques à un domaine, permettant une adaptation de domaine pratique et évolutive sans conception manuelle de consignes ni spécifications de domaine en langage naturel.
Un objectif central de la science sociale computationnelle est de découvrir des différences interprétables dans la manière dont le langage varie selon des résultats d'intérêt, tels que l'affiliation politique ou la qualité de l'enseignement. Les méthodes récentes de génération d'hypothèses basées sur les LLM décrivent ces différences en langage naturel, mais sélectionnent des motifs globalement discriminants sans tenir compte des covariables qui façonnent les données en fonction des connaissances du domaine des chercheurs. Lorsque les covariables sont ignorées, les motifs sélectionnés peuvent refléter des facteurs de confusion plutôt que des différences d'intérêt substantiel. Nous introduisons la génération conditionnelle d'hypothèses, un cadre qui intègre des covariables spécifiées par le chercheur pour orienter la découverte d'hypothèses vers des différences qui tiennent au sein de sous-groupes pertinents. Deux défis se posent : le sous-groupe cible peut être sous-représenté (déséquilibre des strates) et la direction d'une différence peut s'inverser entre les sous-groupes (inversion de signe). Nous proposons deux méthodes inspirées de l'économétrie : l'une introduit des interactions caractéristique-covariable pour détecter les inversions de signe, et l'autre applique un centrage intra-strate et une repondération par fréquence inverse pour équilibrer les strates sous-représentées. Des expériences synthétiques montrent que chaque méthode surpasse les références globales dans son contexte ciblé, et une évaluation par des experts sur deux ensembles de données réelles confirme que la génération tenant compte des covariables fait émerger des hypothèses plus utiles au sein de sous-groupes pertinents.
Modéliser avec précision les limites douces, par exemple les cheveux et le flou de défocalisation, constitue un défi fondamental en conversion stéréoscopique en raison du mélange ambigu entre le premier plan et l'arrière-plan. Les modèles de profondeur existants prédisent principalement une profondeur monocouche, ce qui entraîne une ambiguïté dans la correspondance de profondeur au niveau des limites douces. Bien que les techniques d'incrustation puissent capturer l'opacité pour une modélisation en couches, elles rencontrent souvent des difficultés dans les scènes complexes comportant plusieurs cibles et nécessitent généralement une intervention de l'utilisateur. Cet article présente αDepth, une représentation en couches qui décompose les limites douces pour une conversion stéréoscopique haute-fidélité. Plus précisément, nous résolvons d'abord l'ambiguïté des couleurs et de la profondeur mélangées en estimant les valeurs de couleur et de profondeur en couches au niveau des limites douces. En tenant compte des scènes complexes multi-cibles, nous concevons une représentation alpha circulaire (CAR) qui déplace le paradigme de l'extraction globale des cibles vers la décomposition locale des limites. Contrairement aux méthodes d'incrustation antérieures limitées à un seul premier plan/arrière-plan, CAR permet une inférence efficace au niveau de la scène sans guidance manuelle. Des évaluations approfondies démontrent qu'αDepth atteint des performances de pointe en conversion stéréoscopique, éliminant les débordements d'arrière-plan et les distorsions structurelles au niveau des limites douces.
La vision en temps réel exige des modèles précis, efficaces et simples à déployer sur diverses architectures matérielles. La famille YOLO s'est largement imposée pour cette raison, mais la plupart des détecteurs YOLO reposent encore sur la suppression non-maximale lors de l'inférence, portent des têtes de détection lourdes à cause de la Distribution Focal Loss, nécessitent de longs cycles d'entraînement et peuvent laisser les plus petits objets sans affectation positive d'étiquettes. Nous présentons Ultralytics YOLO26, une famille de modèles unifiés de vision en temps réel qui résout ces limitations grâce à des avancées coordonnées en architecture et en entraînement. YOLO26 utilise une conception à double tête pour une inférence de bout en bout native sans NMS et élimine complètement la DFL, produisant une tête plus légère avec une plage de régression non contrainte. Son pipeline d'entraînement combine MuSGD, un optimiseur hybride Muon-SGD adapté de l'entraînement des grands modèles de langage ; Progressive Loss, qui déplace la supervision vers la tête d'inférence ; et STAL, une stratégie d'affectation d'étiquettes garantissant une couverture positive pour les petits objets. Au-delà de la détection, YOLO26 introduit des conceptions de tête et de perte spécifiques à la tâche pour la segmentation d'instances, l'estimation de poses et la détection orientée, générant des gains constants à travers les tâches et les échelles. La famille couvre cinq échelles (n/s/m/l/x) et prend en charge la détection, la segmentation d'instances, l'estimation de poses, la classification et la détection orientée dans un pipeline unique, avec une extension à vocabulaire ouvert, YOLOE-26, pour une inférence sans texte, sans visuel et sans incitation. À toutes les échelles, YOLO26 atteint 40,9-57,5 mAP sur COCO avec une latence de 1,7-11,8 ms sur T4 TensorRT, repoussant le front de Pareto précision-latence par rapport aux détecteurs temps réel antérieurs, tandis que YOLOE-26x atteint 40,6 AP sur LVIS minival avec incitation textuelle. Le code et les modèles sont disponibles à l'adresse https://github.com/ultralytics/ultralytics.
Les compétences d'agent étendent les agents d'IA avec des instructions, outils, scripts, références et flux de travail réutilisables, établissant une frontière de sécurité distincte à la fois de la sécurité des modèles et de la détection traditionnelle de logiciels malveillants par paquets. ClawHub Security Signals est un ensemble de données nettoyé de 67 453 dernières versions publiques de compétences OpenClaw. Chaque ligne associe le contenu expurgé de SKILL.md et les fichiers groupés nettoyés lorsqu'ils sont présents, avec un verdict final du registre ClawScan et des preuves provenant de trois familles d'analyseurs : VirusTotal, l'analyse heuristique statique et NVIDIA SkillSpector. Plutôt que d'estimer la prévalence des compétences malveillantes, nous étudions le désaccord entre les analyseurs. Les trois analyseurs signalent rarement les mêmes compétences : toute paire se chevauche sur au plus 10,4 % de leurs positifs combinés, seulement 0,69 % des compétences sont signalées par les trois, et 81,9 % des compétences signalées le sont par un seul analyseur. Le désaccord est structuré par la surface d'attaque. SkillSpector, qui émet des avis sémantiques sur les risques agentiques plutôt que des signaux de réputation de malwares, est positif pour 19 209 des 25 504 lignes suspectes (75,3 %) mais seulement pour 14 des 206 lignes malveillantes (6,8 %). La zone des verdicts malveillants montre le profil inverse : 150 des 206 lignes malveillantes (72,8 %) sont positives à VirusTotal, cohérent avec des preuves de code malveillant intégré. Ces résultats montrent que la sécurité des compétences d'agent nécessite une gouvernance en couches, et non des décisions d'autorisation/blocage basées sur un seul analyseur. Le corpus est publié en tant qu'ensemble de données nettoyé de référence argentée : les étiquettes sont les verdicts automatisés du registre, et non une vérité terrain annotée par des humains, et la publication représente un instantané précoce et versionné destiné à soutenir la communauté en attendant le développement d'un sous-ensemble annoté par des humains. Des recherches supplémentaires sont encouragées, y compris des modèles adaptés au tri des compétences pour la sécurité.
Le cache KV est la mémoire adaptée aux centres de données mais la mémoire inadaptée aux robots. L'inférence en centre de données traite par lots de nombreuses requêtes courtes et les réinitialise, amortissant un cache d'attention sur une foule. Les agents incarnés exécutent quant à eux un long épisode non réinitialisé sur du matériel de périphérie à bande passante limitée, où la mémoire à large bande passante et la mémoire flash sont rares, la mémoire flash a une endurance d'écriture finie, et les écritures mémoire plutôt que le calcul peuvent devenir la contrainte contraignante. AURA-Mem (Action-Utility Recurrent Adaptive Memory – Mémoire Adaptative Récurrente basée sur l'Utilité de l'Action) cible ce régime. Elle enveloppe un backbone figé vision-langage-action avec une mémoire récurrente de taille constante et une porte apprise qui n'écrit que lorsque l'observation courante changerait la prochaine action : une mémoire qui sait quand rester silencieuse. Contrairement à une mémoire basée sur la reconstruction, la porte est entraînée directement contre un signal d'erreur d'action en boucle fermée. Son état d'inférence est fixé à 4 224 octets quelle que soit l'horizon, alors qu'un cache KV croît jusqu'à 6 061 fois plus grand à 100 000 pas. Sur un benchmark synthétique contrôlé, AURA-Mem égalise la meilleure baseline O(1) en précision tout en utilisant 5,19 à 6,13 fois moins d'écritures, et jusqu'à 9,19 fois moins d'écritures sur des configurations plus faciles. Des échéanciers aléatoires et périodiques appariés en budget ne récupèrent pas ce gain, isolant le bénéfice au signal de surprise de l'action. Sur un panel entraîné en boucle fermée OpenVLA-OFT 7B sur LIBERO-Long (n = 60 épisodes par bras), la porte ne nuit pas au succès : AURA-Mem correspond à la politique de base non portée (0,233) et dépasse légèrement un bras KV qui écrit toujours (0,217), tout en utilisant 7,0 fois moins d'écritures et une mémoire constante. Nous instancions également une borne de perte de valeur d'état d'information approximatif comme démonstration méthodologique ; à cette échelle, la borne est triviale plutôt qu'une garantie.
La simulation vers le réel (sim-to-real) en vision industrielle est souvent décrite comme un transfert d’images synthétiques vers des images réelles, mais le déploiement industriel implique généralement un décalage plus large entre les preuves disponibles et les décisions requises. Un système peut être construit à partir de rendus CAO, d’observations RVB-D simulées, d’images de référence normales, de défauts synthétiques, d’espaces de caractéristiques pré-entraînés ou de prompts langagiers, tout en étant déployé sous différents capteurs, éclairages, matériaux, montages, calibrages, variations de production et modes de défauts rares. Cette revue reformule le sim-to-real visuel industriel comme un problème d’écart de domaine (domain-gap) organisé selon la disponibilité préalable. Nous distinguons les configurations avec CAO disponible, où la géométrie explicite de l’objet peut soutenir le rendu, le calibrage, l’estimation de pose, la segmentation, et la vérification géométrique en temps de test ; les configurations sans CAO, où la géométrie est remplacée par l’apparence de référence normale, les distributions de caractéristiques, les résidus enseignant-élève, les hypothèses de défauts synthétiques, les caractéristiques fondamentales, ou les priors vision-langage ; et les configurations avec prior de contour, où des modèles approximatifs, des gabarits, des vues de référence, ou des correspondances sémantiques ne préservent qu’une partie du rôle de la CAO. Ce cadrage relie la littérature sur la détection et l’estimation de pose 6D basée CAO avec celle sur l’inspection industrielle des anomalies et des surfaces, habituellement examinée séparément. Pour rendre la taxonomie concrète, nous utilisons des ancrages empiriques sur T-LESS/BOP, MVTec AD et VisA. Ces ancrages montrent que le nombre de rendus CAO seul ne suffit pas à combler le transfert ; la conception de la distribution source, la capacité du détecteur et un petit calibrage réel peuvent être plus importants. Ils montrent également que la CAO en temps de test crée un canal de vérification distinct via la cohérence du masque, de la pose et de la profondeur, tandis que l’inspection sans CAO repose sur une normalité calibrée et un écart de caractéristique. La revue plaide donc contre un classement unique entre tâches et demande plutôt quel fondement (prior) sous-tend la décision de déploiement.
Les modèles feed-forward pour la reconstruction 3D ont obtenu des performances élevées en exploitant une attention profonde inter-vues pour échanger des informations entre les images. Cependant, ces approches dépendent souvent de lourds empilements de décodeurs et manquent d'un mécanisme structuré pour le raffinement géométrique, ce qui entraîne une faible cohérence multi-vue. Nous répondons à ce problème en nous inspirant de l'ajustement de faisceaux (bundle adjustment, BA) classique, qui peut être vu comme un processus itératif de propagation d'informations entre les poses et la géométrie locale. Inspiré par le BA, nous proposons BA-T, un transformateur itératif qui implémente des mises à jour structurées de type BA sous forme de couche répétable dans un espace de tokens implicite. Au lieu de reposer sur de profonds empilements d'attention, BA-T affine les prédictions en se basant sur un résidu latent via une seule couche légère. Les expériences montrent que BA-T améliore progressivement la précision des poses et de la reconstruction au fil des itérations, atteint une meilleure cohérence inter-vues que les décodeurs conventionnels, et égale ou surpasse des modèles nettement plus grands tout en n'utilisant que 16 % de leurs paramètres de décodeur. BA-T constitue une alternative compacte, efficace et structurée à l'attention profonde, permettant une reconstruction 3D précise au sein d'une architecture légère. Le code sera rendu public à l'adresse https://github.com/zhangganlin/BA-T.
Des sondes linéaires entraînées sur les activations de LLM sont de plus en plus proposées comme métriques de détection de la tromperie, mais elles rapportent un AUROC supérieur à 0,96 sur des benchmarks propres tout en s'effondrant sous un décalage distributionnel. Cet article soumet systématiquement les métriques basées sur les sondes à des tests de contrainte à travers la famille de modèles Gemma 3 (1B-27B paramètres), en diagnostiquant pourquoi elles échouent plutôt qu'en se contentant de documenter cet échec. Nous testons quatre hypothèses sur le codage de la tromperie : (1) direction linéaire unique, (2) sous-espace multidimensionnel, (3) enveloppe conique convexe, (4) proxy d'entropie. Notre conception inclut des matrices de transfert inter-domaines, une analyse multidimensionnelle des sondes avec des références nulles par permutation, des tests de résidualisation d'entropie, et des évaluations de distracteurs sur 8 changements stylistiques. Nous constatons que : (a) les sondes atteignent un AUROC quasi parfait (>=0,998) sur des données propres mais s'effondrent sous des changements stylistiques ; les sondes augmentées par le style retrouvent une détection quasi parfaite (AUROC moyen 0,979-0,983) sur des styles non vus ; (b) l'hypothèse de la direction unique est rejetée (k=1 ne capture qu'un AUROC de 0,61-0,80), l'échec du transfert inter-domaines étant confirmé comme géométrique plutôt que dû à un décalage de couches ; (c) l'hypothèse du proxy d'entropie est rejetée (|rho| max=0,454, Delta-AUROC max après résidualisation=0,004) ; et (d) la tromperie ne forme pas un sous-espace linéaire significatif (k*=0 par domaine), mais les sondes multidimensionnelles (k>=5) récupèrent le signal grâce à des caractéristiques distribuées sous le seuil. La fragilité des sondes reflète une étroitesse distributionnelle plutôt qu'une limitation architecturale : les sondes augmentées par le style retrouvent une détection quasi parfaite à la fois à 4B et à 27B, établissant que le motif d'échelle inverse est un artéfact de distribution d'entraînement plutôt qu'un phénomène véritablement dépendant de l'échelle.
Les récents modèles de langage multimodaux de grande taille ont démontré de solides capacités de raisonnement, mais leur fiabilité en tant qu'évaluateurs automatisés reste limitée par une faiblesse cruciale : lorsque les preuves visuelles entrent en conflit avec les indices textuels, les juges MLLM tendent à privilégier les récits plausibles plutôt que les réponses correctes sur le plan perceptuel. Nous identifions et analysons systématiquement ce phénomène, que nous appelons le biais de jugement perceptuel. À travers des perturbations visuelles contrôlées, les juges multimodaux existants s'ancrent fréquemment sur le texte de réponse plutôt que sur leur propre perception visuelle, ce qui conduit à des évaluations incohérentes et non vérifiables. Pour remédier à ce problème, nous introduisons l'ensemble de données de jugement perturbé perceptuellement, qui construit des réponses contrefactuelles minimalement éditées isolant les erreurs perceptuelles et permettant une supervision vérifiable. En nous appuyant sur cet ensemble de données, nous développons un cadre d'entraînement unifié combinant une récompense structurée basée sur GRPO avec un objectif de classement par lots, atteignant un ordre global cohérent sans étiquettes explicites par paires. Des expériences menées sur divers benchmarks MLLM-as-a-Judge montrent que notre approche améliore considérablement la fidélité perceptuelle, la cohérence du classement et l'alignement avec l'évaluation humaine. Nos résultats établissent une voie scalable et généralisable pour entraîner des juges multimodaux ancrés perceptuellement, interprétables et robustes face aux conflits visuo-rationnels.
WALL-WM est un Modèle d'Action Mondial (WAM) qui fait passer l'apprentissage vidéo-action d'une optimisation centrée sur les chunks à un pré-apprentissage Vision-Langage-Action (VLA) ancré sur les événements, en utilisant des événements d'action sémantiquement cohérents comme unité atomique d'apprentissage. Les WAM existants s'initialisent généralement à partir de modèles de base multimodaux ou vidéo, puis optimisent des chunks d'action de longueur fixe conditionnés directement sur l'observation et l'instruction courantes. Bien que pratique, cette formulation centrée sur les chunks crée un décalage fondamental de granularité. Le langage décrit des objectifs et événements sémantiques, la vision évolue à travers des dynamiques de scène continues, et les actions opèrent à des échelles de temps de contrôle ; forcer ces trois modalités dans la même fenêtre de prédiction de longueur fixe transforme l'entraînement VLA en un ajustement de corrélations à courte portée. WALL-WM remédie à ce décalage en organisant à la fois la supervision et les données autour d'événements sémantiques. Plus précisément, il associe un pré-apprentissage VLA ancré sur les événements à un écosystème de données construit à partir de légendes au niveau des événements et d'un échantillonnage équilibré par clusters, permettant un apprentissage scalable sur divers comportements, scènes et structures de tâches. À partir de la même architecture de base pré-entraînée sur les événements, WALL-WM prend en charge deux modes d'inférence complémentaires. Le mode événement consomme les descriptions du prochain événement et permet des chunks d'exécution de longueur variable, tandis que le mode unifié utilise un VLM avec Staircase Decoding pour conditionner l'inférence conventionnelle de chunks de longueur fixe tout en préservant un chemin VLA continu en gradient. En conjonction avec une infrastructure de pré-apprentissage à grande échelle basée sur l'optimiseur Muon, WALL-WM fournit une recette pratique de passage à l'échelle pour les WAM à usage général. Les expériences montrent que WALL-WM généralise largement à travers le langage, les scènes et les tâches, atteignant des performances de pointe dans une évaluation de généralisation à grande échelle en conditions réelles.