Articles de recherche IA sélectionnés quotidiennement avec traductions
Les agents modernes en environnement ouvert tels qu'OpenClaw présentent de puissantes capacités d'exécution inter-environnements, mais introduisent de larges sources de risques de sécurité inédites. Parallèlement, les modèles d'IA avancés de pointe abaissent considérablement les barrières d'attaque, rendant les cadres d'alignement des agents actuels inadéquats pour un déploiement en conditions réelles. Pour faire face à ces menaces émergentes, nous proposons un cadre d'alignement de sécurité des agents léger et évolutif. Plus précisément, nous mettons à jour la taxonomie de sécurité des agents pour prendre en compte les risques émergents des scénarios d'exécution de Codex et OpenClaw. Nous construisons en outre un moteur de données guidé par la taxonomie avec purification par fonction d'influence pour entraîner des variantes légères d'AgentDoG 1.5 (0,8B, 2B, 4B et 8B paramètres) en utilisant seulement environ 1 000 échantillons, atteignant des performances comparables aux modèles propriétaires leaders (par exemple, GPT-5.4). Sur la base d'AgentDoG 1.5, nous construisons un environnement d'entraînement SFT et RL pour la sécurité agentique hautement efficace, qui réduit le surcoût de déploiement dans les environnements de niveau Docker de deux ordres de grandeur. Enfin, nous déployons AgentDoG 1.5 comme garde-fou en ligne sans entraînement pour la modération de sécurité en temps réel. Des résultats expérimentaux approfondis indiquent qu'AgentDoG 1.5 atteint des performances de pointe dans des scénarios agentiques interactifs diversifiés et complexes. Tous les modèles et ensembles de données sont publiés ouvertement.
L'intelligence incarnée est souvent étudiée à travers des modèles spécialisés pour des tâches individuelles telles que la manipulation ou la navigation, ce qui conduit à des capacités fragmentées et à une généralisation limitée entre les tâches, les environnements et les incarnations robotiques. Dans ce travail, nous étudions la possibilité d'unifier des problèmes hétérogènes de prise de décision incarnée au sein d'un unique modèle vision-langage-action. Nous présentons Qwen-VLA, un modèle fondamental incarné unifié qui étend la pile de modélisation vision-langage de Qwen, allant de la perception, la compréhension et le raisonnement, à la génération continue d'actions et de trajectoires via un décodeur d'actions basé sur DiT. Qwen-VLA est entraîné selon une recette de pré-entraînement conjointe à grande échelle sur diverses sources de données, incluant des trajectoires de manipulation robotique, des démonstrations égocentriques humaines, des données de simulation synthétiques, des données de navigation vision-langage, une supervision centrée sur les trajectoires, et des données auxiliaires vision-langage. Pour prendre en charge plusieurs plateformes robotiques, nous introduisons un conditionnement des prompts tenant compte de l'incarnation, où des descriptions textuelles spécifiques au robot précisent l'incarnation courante et la convention de contrôle. Nous reformulons en outre la manipulation, la navigation et la prédiction de trajectoire dans un cadre unifié de prédiction d'actions et de trajectoires, permettant un ancrage visuel transférable, un raisonnement spatial et une génération continue d'actions à travers différentes morphologies robotiques, familles de tâches et environnements. Les expériences sur des benchmarks centrés sur la manipulation, la navigation et les trajectoires montrent des performances multitâches cohérentes et une généralisation hors distribution face à des variations de disposition de scène, d'arrière-plan, d'éclairage, de configuration des objets et d'incarnation robotique. Qwen-VLA-Instruct atteint 97,9% sur LIBERO, 73,7% sur Simpler-WidowX, 86,1%/87,2% sur RoboTwin-Easy/Hard, 69,0% OSR sur R2R, 59,6% SR sur RxR, 76,9% de succès moyen OOD dans des expériences ALOHA réelles, et 26,6% de succès zero-shot sur la manipulation dynamique DOMINO.
Les besoins informationnels réels exigent un accès à des sources de connaissances structurellement diverses, allant du texte non structuré et des tables relationnelles aux graphes de connaissances et aux graphes de propriétés. Pourtant, les systèmes de recherche existants opèrent sur une seule source à la fois avec un langage de requête fixe, laissant le paysage plus large des sources disponibles fragmenté derrière des interfaces incompatibles. Une tentative naturelle d'unification consisterait à réduire ces sources à un espace commun, mais cela efface les apports structurels (tels que schémas, ontologies, opérateurs compositionnels) qui confèrent à chaque source sa puissance expressive. Une recherche efficace sur des connaissances diverses nécessite donc non pas une homogénéisation, mais une couche englobante qui s'adapte à chaque source dans son propre langage. Pour y parvenir, nous présentons OmniRetrieval, un cadre qui prend toute requête en langage naturel, identifie les sources de connaissances appropriées et envoie des requêtes natives à leurs moteurs d'exécution respectifs. Sur un vaste banc d'essai couvrant 13 ensembles de données et 309 bases de connaissances distinctes, allant de sources textuelles, relationnelles et structurées en graphes, OmniRetrieval surpasse les références mono-source, démontrant qu'il peut servir d'interface polyvalente aux sources hétérogènes tout en préservant les distinctions structurelles qui font la valeur de chaque source.
L'édition d'image personnalisée vise à doter les modèles de diffusion pré-entraînés d'effets visuels spécifiques en utilisant des données appariées limitées, généralement via l'adaptation de bas rang (LoRA). À mesure que le nombre d'effets souhaités augmente, le stockage et le chargement dynamique de nombreux LoRA d'effets augmentent considérablement les frais généraux de déploiement. De plus, les pipelines actuels mettent généralement en cascade ces LoRA d'effets avec des modules d'accélération pour une génération rapide, ce qui déclenche une grave interférence de paramètres et entraîne un mélange de concepts (concept bleeding) ainsi qu'une dégradation de style. Nous proposons CollectionLoRA, un cadre de distillation sur politique (on-policy) multi-enseignant capable de distiller les concepts de jusqu'à 50 LoRA d'effets différents, ainsi que les capacités de génération en quelques étapes, en un seul LoRA. Cela résout fondamentalement le problème d'interférence de caractéristiques et réduit considérablement les coûts de déploiement. Plus précisément, la méthode introduit (i) un mécanisme de routage probabiliste à double flux qui permet au modèle de basculer aléatoirement entre les sources de données pendant l'entraînement, améliorant efficacement sa généralisation dans des scénarios non vus ; (ii) une stratégie de prompting orthogonal asymétrique pour réaliser l'isolation des concepts dans l'espace des prompts ; (iii) un objectif de distillation grossier à fin (coarse-to-fine) pour atténuer l'écart de distribution entre les modèles enseignant et étudiant. Des évaluations approfondies montrent que CollectionLoRA distille tous les effets personnalisés et la génération en quelques étapes en un seul LoRA, réduisant les frais de déploiement tout en atteignant une fidélité conceptuelle comparable ou supérieure à celle des modèles enseignants entraînés indépendamment.
Les modèles de base récents de diffusion vidéo ont réalisé des progrès remarquables dans la génération de vidéos de haute qualité, mais les transformer en modèles de monde vidéo interactifs en temps réel reste un défi. Les modèles de monde interactifs nécessitent un déploiement contrôlable, causal et à faible latence, ce qui en pratique exige un pipeline complet couvrant la construction de données, le réglage fin contrôlable, l'entraînement autorégressif, la distillation en quelques étapes et l'inférence en continu. Dans ce travail, nous présentons minWM, un cadre open-source complet pour construire des modèles de monde vidéo interactifs en temps réel. minWM fournit un pipeline de bout en bout qui convertit les modèles de base vidéo bidirectionnels T2V/TI2V existants en modèles de monde autorégressifs en quelques étapes contrôlables par caméra. Plus précisément, minWM effectue d'abord un réglage fin d'un modèle de diffusion vidéo bidirectionnel avec contrôle de caméra, puis applique le pipeline Causal Forcing / Causal Forcing++, incluant l'entraînement à diffusion AR, la distillation ODE causale ou de cohérence causale, et la DMD asymétrique, pour le distiller en un générateur autorégressif en quelques étapes pour un déploiement à faible latence. Le cadre est modulaire et extensible en termes d'architecture : nous l'instancions sur des backbones ouverts représentatifs, notamment Wan2.1-T2V-1.3B et HY1.5-TI2V-8B, couvrant à la fois l'injection de condition basée sur l'attention croisée et les architectures de style MMDiT. minWM prend également en charge l'adaptation de modèles de monde vidéo existants, tels que HY-WorldPlay, à de nouvelles distributions de données, recettes d'entraînement et objectifs de latence. Au-delà de la publication de scripts exécutables, de points de contrôle, de documentation et de code d'inférence, nous fournissons des ablations pratiques sur la qualité de la trajectoire de la caméra, les étapes d'entraînement à la contrôlabilité et les exigences minimales de taille de lot. Nous espérons que minWM servira de recette reproductible et extensible pour construire et adapter des modèles de monde vidéo interactifs en temps réel. Page du projet : [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
Alors que les modèles de diffusion vidéo (VDM) progressent vers des modèles du monde, une question clé se pose : comprennent-ils véritablement la causalité, ou se contentent-ils de surajuster les motifs statistiques temporels ? Les bancs d'essai existants reposent principalement sur des données synthétiques, ce qui limite la généralisation au monde réel en raison du fossé simulation-réalité. Nous présentons YoCausal, un banc d'essai à deux niveaux inspiré du paradigme de la Violation de l'Attente (VoE) issu des sciences cognitives. En inversant temporellement des vidéos du monde réel à coût nul pour obtenir des échantillons contre-factuels naturels, YoCausal établit un protocole d'évaluation arbitrairement extensible. Le niveau 1 introduit l'Indice de Surprise Inverse (RSI), qui quantifie la perception de la flèche du temps via la perte de débruitage. Le niveau 2 introduit l'Indice de Cognition Causale (CCI), qui exploite un VLM pour stratifier les ensembles de données en sous-ensembles causaux et non causaux, dissociant le raisonnement causal authentique du biais temporel. L'évaluation de 13 VDM de pointe révèle que percevoir la flèche du temps n'implique pas de comprendre la causalité, et qu'un écart significatif persiste par rapport à la cognition causale de niveau humain.
Les modèles de génération d'images ont évolué, passant d'une synthèse de pixels conditionnée par du texte à des agents multimodaux dotés de capacités de compréhension visuelle et d'invocation d'outils. Pourtant, les agents existants restent à la merci des modèles d'images en boîte noire sous-jacents. Leur workflow est piégé dans un cycle répétitif de réécriture de prompts pour affiner la génération, sans mécanisme leur permettant de manipuler directement le canevas. En substance, le potentiel des LLM à servir de véritable « pinceau » pour une construction visuelle précise reste largement inexploité. Dans cet article, nous proposons GenClaw, un paradigme de génération d'images agentif piloté par le code, qui permet à l'agent de créer comme un artiste humain : d'abord conceptualiser, puis esquisser, et enfin coloriser. Plus précisément, l'agent construit d'abord la connaissance conceptuelle et le contexte par la recherche et le raisonnement. Il utilise ensuite du code (par exemple, SVG, HTML, Three.js) pour produire des esquisses visuelles exécutables. Enfin, il emploie un modèle de génération d'images pour ajouter textures, matériaux et photoréalisme. Dans ce workflow, le code sert de canevas intermédiaire contrôlable, faisant le pont entre le raisonnement linguistique et la synthèse de pixels, intégrant de manière fluide la logique programmatique et l'expressivité visuelle des modèles génératifs. En transformant la génération d'images d'un paradigme en boîte noire en un processus par étapes semblable à la création humaine authentique, GenClaw franchit une étape vers des systèmes de génération visuelle hautement contrôlables et interprétables.
Les modèles de langage vidéo de grande taille (Video-LLMs) ont démontré des capacités remarquables dans les tâches de compréhension vidéo. Cependant, leur déploiement pratique reste entravé par l'inefficacité induite par le traitement d'un nombre massif de jetons visuels. Bien que des approches récentes parviennent à des taux de rétention de jetons extrêmement faibles tout en maintenant une précision comparable aux références utilisant tous les jetons, la plupart d'entre elles effectuent la compression uniquement à un stade tardif du préremplissage, laissant l'efficacité de l'encodeur visuel inoptimisée. Dans cet article, nous montrons d'abord que l'encodage visuel contribue pour une large part au temps jusqu'au premier jeton (TTFT). Par conséquent, plutôt que de compresser les jetons visuels uniquement après l'encodeur visuel, effectuer une compression à l'intérieur même de l'encodeur laisse encore une marge d'exploration substantielle. Forts de cette observation, nous proposons EarlyTom, un cadre de compression de jetons sans entraînement qui réalise une compression précoce des jetons visuels au sein de l'encodeur visuel, permettant ainsi une réduction nettement plus marquée du TTFT et un débit accru. De plus, nous introduisons une stratégie de sélection découplée de jetons spatiaux qui améliore l'efficacité globale de la compression. EarlyTom réduit le TTFT jusqu'à 2,65 fois et les FLOPs jusqu'à 61 % sur un seul GPU NVIDIA A100 pour le modèle LLaVA-OneVision-7B, tout en maintenant une précision comparable à celle de la référence utilisant tous les jetons. Ces améliorations renforcent considérablement l'aspect pratique du déploiement des Video-LLMs dans des scénarios de production réels.
Les Grands Modèles de Langage (GMLs) doivent apprendre et mettre à jour leurs connaissances en continu pour rester efficaces dans des environnements dynamiques réels. Bien que l’Adaptation de Bas Rang (LoRA) soit largement utilisée pour ces mises à jour mémoire, les études existantes s’appuient principalement sur des évaluations qualitatives en aval, laissant largement inexplorées les limites quantitatives de capacité et la dynamique sous-jacente de la mémoire paramétrique exacte. Pour combler cette lacune, nous utilisons LoRA comme une sonde contrôlée de capacité mémoire dans l’espace latent afin de quantifier systématiquement la mémoire paramétrique exacte. Nous introduisons la Loi de Mémoire Paramétrique, une loi de puissance robuste reliant la réduction de perte Delta L aux paramètres effectifs et à la longueur de séquence. Au niveau des tokens, une analyse fine révèle une transition de phase déterministe, démontrant qu’une probabilité de prédiction p > 0,5 constitue une condition suffisante pour un rappel textuel exact sous décodage glouton. Guidés par ces observations, nous proposons MemFT, une stratégie d’optimisation guidée par un seuil qui redistribue dynamiquement le budget d’entraînement vers les tokens sous le seuil. Les évaluations empiriques montrent que MemFT peut améliorer la fidélité et l’efficacité de la mémoire. Le code sera publié à l’adresse https://github.com/zjunlp/ParametricMemoryLaw.
Le contrôle basé sur l'activation oriente les modèles de langage de grande taille (LLMs) en intervenant sur leurs représentations internes lors de l'inférence, et est devenu un paradigme efficace pour contrôler des comportements tels que la personnalité et le style. Cependant, les méthodes existantes reposent souvent sur des directions de guidage fixes ou des modules d'intervention spécifiques à une tâche, ce qui les rend difficiles à adapter à des concepts fins et à des contraintes compositionnelles. Nous proposons UniSteer, un modèle d'ajustement des flux d'activation guidé par du texte qui apprend une distribution conditionnelle sur les activations du flux résiduel à partir de conditions en langage naturel. Au lieu d'ajuster une intervention distincte pour chaque comportement cible, UniSteer apprend un champ de vélocité conditionnel universel dans l'espace d'activation. Lors de l'inférence, UniSteer effectue une inversion de flux en transportant partiellement une activation source vers un état latent et en la régénérant sous une condition textuelle cible avant de la réinjecter dans le LLM gelé. Ce même modèle conditionnel prend en charge la classification dans l'espace d'activation en sélectionnant l'étiquette textuelle ayant l'énergie de reconstruction la plus faible. Les expériences sur trois LLMs cibles montrent qu'UniSteer fournit une interface unifiée pour le contrôle comportemental, le guidage de véracité, le guidage de concepts fins, le suivi d'instructions multi-contraintes et la classification dans l'espace d'activation.
Les modèles vision-langage (VLMs) obtiennent de bonnes performances sur les benchmarks de raisonnement spatial, mais il n'est pas clair si cela reflète une compréhension structurée en 3D ou un recours à des raccourcis statistiques présents dans les images naturelles. Nous introduisons un cadre d'analyse au niveau des représentations qui construit des paires contrastives minimales pour mesurer comment les axes spatiaux sont organisés et désenchevêtrés dans les plongements des VLMs. Notre analyse sur plusieurs familles de modèles révèle un enchevêtrement vertical-distance systématique : les modèles confondent la position verticale dans l'image avec la distance, reproduisant le biais de perspective des photographies naturelles. Ce biais produit un écart de précision significatif entre les exemples cohérents avec la perspective et ceux qui contreviennent à cette heuristique, et s'intensifie avec le passage à l'échelle des données, même si la précision globale sur les benchmarks s'améliore. Nous montrons en outre que des modèles ayant des scores de benchmark similaires peuvent présenter des représentations internes différentes, et que ces différences prédisent la précision et la robustesse sur divers benchmarks de raisonnement spatial. Pour isoler ce biais du déséquilibre des jeux d'évaluation, nous introduisons SpatialTunnel, un benchmark synthétique conçu pour exposer les biais de raccourci spatiaux en supprimant les corrélations courantes présentes dans les images naturelles. Les expériences confirment que l'enchevêtrement est intrinsèque au modèle, et que les modèles dont les axes spatiaux sont bien séparés présentent une plus grande robustesse, ce qui suggère que des représentations spatiales bien structurées conduisent à un raisonnement spatial plus fiable sur divers benchmarks. Le code et le benchmark sont disponibles sur la page du projet : https://cheolhong0916.github.io/whyfarlooksup.github.io/.
La génération conjointe audio-vidéo vise à synthétiser un contenu visuo-acoustique temporellement synchronisé et sémantiquement cohérent. Cependant, les méthodes open-source existantes reposent principalement soit sur des architectures à double tour avec alignement a posteriori, soit sur des conceptions tri-modales entièrement unifiées qui mêlent contexte textuel, audio et vidéo dans un espace partagé. La première approche affaiblit la co-évolution fine audio-vidéo, tandis que la seconde couple le conditionnement sémantique avec une synchronisation de bas niveau. Pour remédier à ces limites, nous proposons NAVA, un cadre d'alignement natif audio-visuel pour la génération conjointe audio-vidéo. NAVA repose sur un alignement natif audio-visuel conditionné par le contexte : il établit d'abord une correspondance audio-vidéo dans un espace d'interaction dédié, puis utilise un contexte externe pour conditionner le processus de débruitage conjoint. Concrètement, NAVA est implémenté via une architecture MMDiT Align-then-Fuse, qui passe d'un alignement audio-vidéo conscient des modalités à un débruitage conjoint partagé entre modalités. De plus, nous introduisons le Conditionnement par Timbre en Contexte pour associer des indices de timbre de référence aux intervalles de parole correspondants, afin d'obtenir un timbre de parole contrôlable. Les expériences menées sur Verse-Bench et Seed-TTS, ainsi qu'une étude utilisateur, montrent que NAVA atteint une qualité vidéo supérieure, une synchronisation audio-visuelle précise, une qualité audio compétitive et une meilleure contrôlabilité du timbre de référence avec seulement 6,3 milliards de paramètres.
Les Modèles Vision-Langage (VLM) ont réalisé des progrès substantiels dans un large éventail de tâches de compréhension et de raisonnement, grâce à un entraînement à grande échelle sur des paires image-texte visant à la fusion multimodale. Idéalement, remplacer une question textuelle par son équivalent sous forme d'image rendue ne devrait pas affecter les performances du modèle. En pratique, cependant, une telle substitution de modalité entraîne une dégradation spectaculaire des performances. Nous attribuons ce problème de « sensibilité au support » à un biais inhérent dans les corpus d'entraînement actuels. Dans les jeux de données courants tels que le sous-titrage d'images, la VQA, l'OCR et les données entrelacées issues du web, le texte et les images sont généralement organisés en rôles distincts et asymétriques, le texte servant de requêtes linguistiques et les images de références visuelles. Ce biais de données conduit les VLM à présenter des préférences distinctes pour l'acquisition d'informations selon les différentes modalités. Par conséquent, les VLM ne parviennent pas à aligner les représentations de contenu sémantiquement équivalent entre les supports textuels et visuels, rendant le raisonnement du modèle fragile face à la substitution de modalité. Pour y remédier, nous proposons la Substitution Locale de Modalité (LoMo), un paradigme de curation de données léger et indépendant de l'architecture, conçu pour superviser l'invariance représentationnelle inter-modale entre des supports textuels et imagés sémantiquement équivalents. LoMo y parvient en reformulant des invites unimodales en séquences multimodales parfaitement entrelacées. Il sélectionne dynamiquement des segments de texte cibles et les reformule en images rendues, préservant ainsi la même sémantique à travers les supports « texte, visuel, texte ». Des expériences approfondies sur 13 benchmarks multimodaux diversifiés démontrent que LoMo améliore considérablement le raisonnement multimodal global et permet une fusion inter-modale plus profonde. Plus précisément, il apporte des gains constants sur les modèles fondamentaux, améliorant le SFT standard de 2,67 points sur LLaVA-OneVision-1.5-8B et de 2,82 points sur Qwen3.5-9B.
Le post-entraînement par apprentissage par renforcement (AR) a démontré sa capacité à améliorer le raisonnement dans les grands modèles de langage (GML). Cependant, le problème de la contamination des données lors du post-entraînement par AR a été peu exploré, ce qui peut compromettre la généralisation et la fiabilité de l'évaluation du processus d'entraînement lui-même. Les méthodes de détection existantes reposent principalement sur des signaux au niveau des sorties, tels que la vraisemblance ou l'entropie, qui deviennent peu fiables pour les modèles entraînés par AR, car l'AR façonne le comportement via des récompenses au niveau des trajectoires plutôt que par les vraisemblances des tokens. Nous proposons LaRA, un cadre d'analyse des représentations par couche pour détecter la contamination dans les GML post-entraînés par AR. LaRA introduit trois métriques complémentaires, mesurant la sensibilité aux perturbations, l'effondrement directionnel et la rigidité locale des représentations sous des perturbations contrôlées. Nous constatons que la contamination produit des déviations géométriques progressives à travers les couches, notamment une sensibilité accrue aux perturbations, un effondrement directionnel plus marqué et une rigidité locale renforcée. Sur la base de nos résultats, nous développons également un protocole de détection de la contamination qui agrège les déviations au niveau des représentations à travers les couches et les métriques. Des expériences sur des modèles de raisonnement entraînés par AR montrent que notre protocole surpasse les méthodes de référence existantes basées sur les signaux de sortie pour la détection de la contamination.
Équiper les grands modèles de langage de compétences explicites est devenu un paradigme prometteur pour permettre aux agents autonomes de résoudre des tâches complexes. Les compétences des agents peuvent intrinsèquement se diviser en compétences générales pour un transfert cognitif large et en compétences spécifiques aux tâches pour une exécution dynamique. Cependant, les méthodes existantes d'apprentissage par renforcement (RL) basé sur les compétences imposent généralement un choix rigide entre l'externalisation complète, qui entraîne une surcharge contextuelle prohibitive, et l'internalisation complète, qui risque le surapprentissage et les conflits de connaissances. Pour résoudre ce dilemme, nous proposons Skill0.5, un nouveau cadre d'apprentissage par renforcement agentique qui différencie explicitement les traitements des compétences en combinant l'internalisation des compétences générales avec l'utilisation de compétences spécifiques aux tâches. Piloté par un routeur dynamique et sensible à la difficulté, Skill0.5 répartit les tâches en différents niveaux de maîtrise afin d'appliquer des stratégies d'optimisation sur mesure : il internalise les compétences générales via une distillation privilégiée pour construire une base cognitive pour les tâches difficiles, tout en utilisant un sondage diagnostique sur les tâches faciles pour pénaliser les raccourcis et imposer l'utilisation de compétences spécifiques. Les expériences menées sur ALFWorld et WebShop montrent que Skill0.5 surpasse à la fois les références RL basées sur la mémoire et celles basées sur les compétences, obtenant des améliorations de performance dans les scénarios intra-distribution et hors distribution.
Expliquer pourquoi les modèles de recherche dense attribuent des scores de pertinence élevés reste difficile, car les décisions de recherche sont prises via des plongements de haute dimension opaques. Les explications existantes se concentrent souvent sur des signaux de surface, tels que les correspondances lexicales, les alignements de tokens ou les justifications textuelles a posteriori, et offrent ainsi un aperçu limité des facteurs latents qui façonnent le comportement de la recherche dense au niveau des plongements. Nous proposons Xetrieval, un cadre mécaniste au niveau des plongements pour expliquer la recherche dense. Xetrieval introduit d'abord un internalisateur de raisonnement léger qui approxime le raisonnement en chaîne de pensée directement dans l'espace des plongements avec une seule passe avant, enrichissant les plongements de phrases avec des informations orientées vers le raisonnement tout en évitant une génération autorégressive coûteuse. Il décompose ensuite ces plongements enrichis par le raisonnement en caractéristiques éparses et interprétables par l'humain, chacune associée à une description cohérente en langage naturel. En agrégeant les chevauchements de caractéristiques éparses à travers plusieurs vues du côté document, Xetrieval fournit des explications au niveau des caractéristiques pour les décisions de recherche individuelles. Des expériences sur divers modèles de recherche et benchmarks montrent que Xetrieval découvre des caractéristiques interprétables cohérentes, produit des effets d'intervention au niveau des paires plus forts et soutient l'orientation des caractéristiques au niveau de la tâche. La page du projet et le code source sont disponibles à l'adresse https://hihiczx.github.io/Xetrieval.
Les interactions à long horizon nécessitent que les modèles de langage gèrent l'accumulation d'informations : quand mettre à jour leur état, quand le préserver, et quoi ignorer. Nous étudions ce défi sous l'angle de la Gestion de Croyances Contextuelles (CBM) : maintenir un état de croyance prédit aligné sur les preuves formelles tout en isolant le bruit non pertinent pour la tâche. Pour rendre la CBM mesurable, nous introduisons BeliefTrack, un benchmark en monde clos couvrant la Découverte de Règles et le Diagnostic de Circuits, où un espace de croyance fini et des vérificateurs symboliques permettent une évaluation exacte à chaque tour. BeliefTrack identifie trois échecs : Échec de Maintien, Échec de Mise à Jour et Échec d'Isolement. Sur plusieurs LLM, les modèles bruts présentent de graves échecs de CBM, tandis que les invites explicites de suivi de croyance apportent des gains limités. En revanche, l'apprentissage par renforcement avec des récompenses basées sur l'état de croyance réduit les taux d'échec de 70,9 % en moyenne. Des sondages supplémentaires révèlent une dynamique latente de l'état de croyance derrière ces échecs, et un guidage au niveau des représentations réduit les taux d'échec de 46,1 % sur deux tâches\footnote{Le code sera bientôt disponible sur https://github.com/zjunlp/CBM.}
Les modèles de diffusion atteignent une synthèse d'images de pointe, leurs trajectoires génératives présentant fondamentalement un biais spectral, résolvant les structures globales basse fréquence tôt et les détails fins haute fréquence plus tard. Les solveurs conventionnels d'équations différentielles stochastiques (SDE) ne tiennent pas compte de cette dynamique, injectant naïvement un bruit blanc uniforme tout au long du processus et gaspillant le budget d'énergie fini. Dans ce travail, nous établissons un cadre mathématique qui reconsidère l'inférence SDE comme un transfert d'énergie ciblé et découplé en fréquence. En exploitant ce cadre, nous introduisons l'Échantillonnage par Bruit Coloré (CNS), un nouveau solveur stochastique sans entraînement. Plutôt que d'injecter un bruit blanc uniforme, CNS utilise un programme dynamique dépendant du pas de temps et de la fréquence qui alloue plus efficacement l'énergie injectée vers les bandes de fréquence structurellement non résolues. En exploitant activement le biais spectral inhérent du modèle, CNS oriente systématiquement la distribution générée vers la variété de données réelle. Des expériences approfondies montrent que CNS surpasse significativement les références standard ODE et SDE en tant que substitution de sampler strictement plug-and-play en temps d'inférence, sur diverses architectures (SiT, JiT, FLUX). Comparé à l'échantillonnage standard sur ImageNet-256, CNS obtient des réductions substantielles de FID non guidé, passant de 8,26 à 6,27 sur SiT-XL/2, de 32,39 à 26,69 sur JiT-B/16 et de 11,88 à 8,31 sur JiT-H/16, tout en produisant des améliorations relatives cohérentes du FID avec le Guidage sans Classifieur. La page du projet est disponible à l'adresse https://hadardavidson.github.io/CNS/.
Les retrieveurs denses présentent un biais de position, favorisant les documents dont l'information pertinente à la requête apparaît au début et dégradant les performances de recherche lorsque cette information apparaît plus tard. Alors que les travaux antérieurs sur le biais de position dans les retrieveurs denses se sont principalement concentrés sur des explications architecturales, nous étudions comment la distribution positionnelle des preuves dans les données d'entraînement influence la direction du biais au niveau de la recherche. Pour tester cela, nous construisons des ensembles d'entraînement synthétiques ciblés sur la position dans lesquels les preuves pertinentes aux requêtes apparaissent au début, au milieu ou à la fin des documents, et nous affinons huit modèles pré-entraînés architecturalement divers sous des distributions d'entraînement déséquilibrées en termes de position et équilibrées. Au niveau du classement, nous observons un fort motif directionnel parmi les modèles examinés : les distributions d'entraînement déséquilibrées favorisent les preuves aux positions correspondantes. L'entraînement équilibré en position réduit la sensibilité positionnelle de 57 à 87 % sur les benchmarks conscients de la position, avec des performances de recherche moyenne compétitives dans notre cadre contrôlé. Les analyses au niveau des représentations suggèrent en outre que l'affinage remodèle souvent les préférences positionnelles apprises, bien que des tendances architecturales ou spécifiques au pré-entraînement préexistantes persistent dans certains modèles. Ces résultats identifient la distribution de la position d'entraînement comme un facteur majeur contrôlable dans le biais de position au niveau de la recherche et suggèrent une curation équilibrée des données comme stratégie d'atténuation pratique.
Nous présentons CausaLab, un environnement évolutif pour évaluer la découverte causale interactive par des agents LLM. Contrairement aux évaluations précédentes, CausaLab évalue à la fois la capacité d'un agent à résoudre un problème à l'aide de preuves causales et le fondement de sa réponse sur un mécanisme causal fidèlement reconstitué. Chaque épisode place un agent dans un laboratoire synthétique : il reçoit des enregistrements de mesures préalables, intervient sur un cristal manipulateur, et prédit la fréquence de résonance d'un cristal réacteur exclu, gouverné par le même mécanisme. Le processus générateur de données caché est un modèle causal structurel (SCM) échantillonné aléatoirement, de sorte que la réussite exige de reconstituer à la fois un graphe causal et des équations structurelles, plutôt que de recourir à des connaissances antérieures. Les expériences révèlent un écart persistant entre prédiction et reconstitution du mécanisme : dans le cadre purement observationnel à 6 nœuds, GPT-5.2-high atteint une précision de tâche de 92 % mais seulement un F_1 tous-arcs de 0,471. Les stratégies mixtes observation-intervention améliorent la fidélité structurelle, tandis que l'intervention pure reste difficile, même pour des agents robustes. Nous identifions l'arrêt prématuré comme une faiblesse majeure et montrons que la vérification de cohérence l'atténue. CausaLab sépare donc le succès prédictif de la compréhension causale et expose les limites des agents LLM actuels en tant que raisonneurs causaux expérimentaux.
Les agents basés sur les grands modèles de langage (LLM) ont montré des capacités solides pour utiliser des outils externes afin de résoudre des tâches complexes. Cependant, les évaluations existantes négligent souvent la dimension temporelle de l'utilisation des outils, en particulier l'impact de la latence de réponse des outils, et se limitent généralement à des contextes de tâche unique. Dans les applications réelles, de multiples tâches doivent souvent être exécutées simultanément, et l'efficacité globale dépend de la capacité d'un agent à utiliser les temps d'inactivité pendant l'attente des réponses des outils. Nous appelons cette capacité l'appel d'outils asynchrone. Pour l'évaluer, nous proposons AsyncTool, un référentiel destiné à évaluer les agents basés sur les LLM dans des environnements interactifs d'utilisation d'outils multitâches avec un retour différé des outils. AsyncTool présente simultanément plusieurs tâches hétérogènes et simule une latence réaliste de réponse des outils pendant l'exécution. En utilisant une stratégie hybride d'évolution des données, nous construisons un ensemble de données asynchrones multitâches diversifié couvrant plusieurs scénarios et modèles d'utilisation d'outils. Nous évaluons les modèles aux niveaux de l'étape, de la sous-tâche et de la tâche, et introduisons des métriques orientées efficacité pour mesurer la coordination des tâches et l'efficacité d'achèvement. Des expériences approfondies montrent que le retour différé des outils pose des défis considérables aux agents actuels et entraîne une nette dégradation des performances. Les modèles qui coordonnent mieux le changement de tâche, le suivi des dépendances et la maintenance de l'état obtiennent de meilleures performances sur AsyncTool. Notre analyse identifie les principaux modes de défaillance des agents utilisant des outils actuels et fournit des perspectives pratiques pour concevoir de futurs systèmes dotés de capacités de raisonnement temporel et de coordination plus fortes.
L'espace de conception de l'inférence d'IA agentique s'étend entre deux extrêmes : les modèles de langage de grande taille (LLM) de pointe, généralement hébergés dans le cloud et offrant de solides performances sur un large éventail de tâches à un coût substantiellement élevé, et les petits modèles de langage (SLM) plus économiques, adaptés à l'inférence sur appareil. Les systèmes multi-agents (MAS) hybrides combinant des modèles sur appareil et dans le cloud offrent un compromis prometteur, mais ils introduisent également un espace de conception complexe et mal compris dans lequel la précision des tâches, le coût monétaire et la consommation d'énergie sur la périphérie sont étroitement liés ; en l'absence de principes de conception généraux, les composants hybrides, bien qu'ils ne soient pas le choix le plus répandu, sont généralement introduits par des décisions ad hoc adaptées à des domaines spécifiques. Dans ce travail, nous examinons cet espace de conception de manière plus systématique. Nous adaptons deux architectures MAS représentatives pour prendre en charge l'inférence hybride et étudions comment les choix de conception individuels déplacent le point de fonctionnement le long de la frontière de Pareto de la puissance, du coût et des performances. Nos résultats dressent un portrait nuancé de la conception des MAS hybrides : bien que les SLM puissent bénéficier efficacement de l'assistance des LLM, l'architecture optimale dépend fortement de la tâche, et une puissance de calcul accrue au niveau de la frontière ne se traduit pas systématiquement par de meilleures performances.
Les grands modèles de langage (LLMs) ont fait évoluer les agents autonomes du deep search, qui récupère des réponses factuelles concises, au deep research, qui synthétise des preuves éparses en rapports longs. Cependant, le deep research multimodal vérifiable reste difficile en raison de la synthèse ouverte sans vérité terrain déterministe et de la nécessité d'entrelacer des arguments textuels avec des preuves visuelles. Nous proposons Ptah, un harnais multi-agents pour la génération de rapports entrelacés. Ptah orchestre le cycle de vie depuis la requête utilisateur jusqu'au rapport web rendu à travers les étapes de planification, de recherche et de rédaction, où des agents spécialisés construisent des plans tenant compte des visuels, collectent des preuves fondées sur les affirmations, maintiennent des images alignées sur les sources dans une mémoire de travail visuelle (Visual Working Memory), et composent des rapports via l'utilisation déclarative d'outils multimodaux. Un agent vérificateur sert de fonction d'acceptation du harnais, garantissant l'ancrage factuel, la fidélité des citations et la cohérence intermodale tout au long du flux de travail. Nous introduisons en outre PtahEval, un protocole d'évaluation qui enrichit les benchmarks existants avec des évaluations au niveau des images et au niveau de la présentation. Les expériences sur les benchmarks de deep research montrent que Ptah produit des rapports multimodaux destinés aux humains plus fiables, plus informatifs visuellement et plus utilisables que les bases de référence fortes.
Les récentes avancées dans les agents GUI mobiles ont montré un fort potentiel pour automatiser les tâches mobiles, mais la plupart des systèmes efficaces dépendent encore de grands modèles vision-langage pour la compréhension des captures d'écran et la planification à long terme. Les petits agents GUI, déployables directement sur les appareils mobiles, sont plus attractifs pour une utilisation pratique, offrant un coût d'inférence moindre et une meilleure protection des informations sensibles sur l'appareil. Cependant, en raison de leur capacité limitée, ces agents légers restent peu fiables lorsqu'il s'agit de planifier et d'exécuter des tâches GUI de bout en bout à partir de simples captures d'écran. Nous proposons UI-KOBE (Knowledge-Oriented Behavior Exploration), un cadre qui améliore les agents GUI mobiles légers en exploitant des connaissances graphiques réutilisables propres à chaque application. UI-KOBE explore d'abord une application mobile de manière autonome et construit un graphe de connaissances de l'application, dont les nœuds représentent des états d'interface distincts et les arêtes des transitions exécutables. Au moment de l'exécution, un agent GUI léger utilise le graphe comme guide externe : étant donnés une tâche utilisateur et la capture d'écran courante, il identifie le nœud actuel du graphe et sélectionne parmi les actions de boucle, les transitions voisines, l'achèvement de la tâche ou les actions libres de repli associées à ce nœud. En soutenant les décisions en temps réel par un guidage graphique propre à l'application, UI-KOBE réduit la charge de la planification GUI de bout en bout et aide les modèles légers à réaliser plus efficacement des tâches GUI mobiles, constituant une avancée pratique vers des agents GUI embarqués efficaces, interprétables et respectueux de la vie privée.
Maîtriser les environnements de terminal nécessite des agents linguistiques capables de planification multi-étapes, d'exécution basée sur le feedback et d'adaptation dynamique de l'état. Cependant, l'entraînement de tels agents est actuellement limité par une dépendance à des dépôts externes collectés par extraction, ce qui restreint la diversité des domaines, la contrôlabilité des environnements et le ciblage de déficits de capacités spécifiques. Nous présentons LiteCoder-Terminal-Gen, un pipeline de synthèse sans dépendance qui génère de manière autonome des environnements d'entraînement de terminal exécutables et vérifiables directement à partir de spécifications de domaine. À l'aide de ce cadre, nous construisons deux ressources à grande échelle : LiteCoder-Terminal-SFT, comprenant 11 255 trajectoires expertes couvrant 10 domaines, et LiteCoder-Terminal-RL, proposant 602 environnements vérifiables pour l'optimisation des préférences au niveau des trajectoires. Le réglage fin supervisé des modèles de la famille Qwen sur notre jeu de données SFT produit des agents qui surpassent significativement leurs homologues de base. Notamment, notre variante 32B atteint un taux pass@1 de 29,06 %, 18,54 % et 34,00 % sur Terminal Bench 1.0, 2.0 et Pro, respectivement. De plus, l'application de l'Optimisation Directe des Préférences Multi-Tours (DMPO) sur nos environnements RL génère des gains de performance supplémentaires. Ces résultats démontrent systématiquement que des environnements d'exécution entièrement synthétiques offrent un signal de supervision vérifiable et évolutif pour maîtriser des workflows complexes en ligne de commande dans des conditions réelles.
Nous abordons la tâche de génération d'interactions humain-objet (IHO) 4D physiquement précises et visuellement fidèles. Étant donné un humain 3D statique et un objet cible représentés sous forme de Splats gaussiens 3D (3DGS), notre objectif est de synthétiser des scènes dynamiques où l'humain interagit activement avec l'objet à travers des actions, comme donner un coup de poing ou un coup de pied, conformément à un texte d'entrée donné. Pour cela, nous introduisons PhyGenHOI, un nouveau cadre qui couple le mouvement humain génératif à une simulation physique explicite de l'objet. Nous modélisons l'humain comme un agent sémantique piloté par un modèle de diffusion de mouvement (MDM) et l'objet comme un agent physique simulé via la méthode des points matériels (MPM), en utilisant les gaussiens 3D comme une représentation unifiée et différentiable. Nous supervisons leur interaction via trois mécanismes couplés : (1) une perte d'attraction fenêtrée qui synchronise temporellement le mouvement génératif pour intercepter l'objet ; (2) une étape de re-simulation pilotée par le contact qui déclenche un transfert de quantité de mouvement physiquement cohérent lors de l'impact ; et (3) un objectif SDS vidéo masqué qui injecte des a priori vidéo pour améliorer la fidélité du contact. Les expériences montrent que PhyGenHOI génère des IHO 4D physiquement cohérentes pour diverses actions, humains et objets, surpassant les références. Page du projet et vidéos : https://omerbenishu.github.io/PhyGenHOI/
La croissance rapide du nombre de soumissions dans les conférences en apprentissage automatique a mis sous tension le système d'évaluation par les pairs et intensifié l'intérêt pour les examinateurs automatiques basés sur les LLM. Cependant, la qualité réelle de ces systèmes, en particulier par rapport aux examinateurs humains pour détecter les lacunes scientifiques, reste mal comprise. Dans ce travail, nous présentons PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), un cadre de référence qui évalue la qualité des révisions selon quatre dimensions : profondeur de l'analyse, évaluation de la nouveauté, identification des défauts et priorisation des problèmes majeurs, et constructivité multidimensionnelle. Contrairement à la plupart des évaluations existantes reposant sur des métriques de surface comme ROUGE et BLEU, ou sur des incitations non contraintes de LLM en tant que juge qui confondent fluidité et rigueur, PRISM ancre chaque dimension dans l'extraction d'arguments, la vérification augmentée par recherche et la notation basée sur le consensus. Nous appliquons PRISM pour comparer cinq systèmes d'examen automatique de premier plan et des examinateurs humains sur un corpus stratifié de critiques issues d'ICLR, ICML et NeurIPS. Les résultats révèlent que les LLM peuvent égaler ou surpasser les examinateurs humains sur des dimensions individuelles : une profondeur d'analyse comparable, une vérification de la nouveauté plus robuste, et une priorisation des critiques très précise. Cependant, aucun système unique n'atteint systématiquement la performance équilibrée de la référence humaine sur l'ensemble des dimensions à la fois. Chacun présente un profil de spécialisation distinct avec des angles morts caractéristiques – des modes d'échec que les métriques agrégées ne détectent pas du tout. La conclusion est que les examinateurs LLM sont mieux compris comme des compléments ciblés à l'examen humain, efficaces dans des dimensions spécifiques, mais peu fiables en tant que remplacements autonomes. Notre démonstration et nos résultats clés sont disponibles à l'adresse https://khanhthanhdev.github.io/prism-page/.
La modélisation ponctuelle des récompenses fournit des signaux critiques pour le post-entraînement des LLM, mais peine à évaluer de manière absolue dans des contextes subjectifs et non vérifiables. Les méthodes basées sur des grilles d'évaluation répondent à cela en décomposant l'évaluation en critères explicites, mais les approches existantes dépendent généralement de LLM de pointe et souffrent d'égalités causées par une agrégation booléenne stricte. Nous présentons RUBRIC-ARROW, un cadre alterné qui entraîne conjointement un générateur de grilles et un juge conditionné par ces grilles, dont l'étape d'apprentissage par renforcement n'utilise que des données de préférence par paires. Notre méthode associe une règle de score probabiliste qui réduit les égalités avec des récompenses basées sur la préférence propres à chaque phase, et un schéma GRPO alterné qui entraînent ensemble l'évaluateur ponctuel. Des expériences approfondies montrent que RUBRIC-ARROW atteint une précision compétitive de modélisation des récompenses et produit des gains constants pour le post-entraînement aval des politiques.
La manipulation robotique dépend essentiellement d'une perception qui préserve les aspects d'une scène pertinents pour l'action. Pourtant, la plupart des pipelines d'apprentissage robotique reposent sur des encodeurs visuels pré-entraînés pour la reconnaissance statique ou l'alignement vision-langage, laissant la compréhension du mouvement aux politiques aval. Nous présentons DynaFLIP, un cadre de pré-entraînement multimodal sensible à la dynamique qui remonte la compréhension du mouvement en amont dans la perception. Nous construisons des triplets image-langage-flux 3D à partir de vidéos hétérogènes d'humains et de robots, et utilisons ces triplets comme supervision pendant l'entraînement pour façonner un encodeur basé uniquement sur les images. Notre idée clé est d'encourager les trois modalités à couvrir un petit volume de simplexe dans l'espace hypersphérique partagé — un volume de simplexe plus petit indiquant un alignement plus fort. Pour éviter l'ambiguïté géométrique et l'effondrement trivial d'une minimisation naïve du volume, nous combinons la minimisation du volume du simplexe avec un régularisateur cosinus et un objectif contrastif. Nos analyses montrent que DynaFLIP se concentre sur les régions pertinentes pour le contrôle, essentielles à la manipulation. Les représentations résultantes, sensibles à la dynamique, servent de backbones visuels réutilisables et surpassent systématiquement les références dans diverses politiques aval, y compris les VLAs. Nous validons cela dans divers environnements simulés et réels, avec des gains atteignant +22,5 % dans des scénarios hors distribution. Nos résultats suggèrent que la généralisation des robots s'améliore lorsque les représentations visuelles sont entraînées à encoder non seulement ce qui est présent, mais aussi comment le monde change sous l'effet des actions.
L'application de l'apprentissage par renforcement pour améliorer la précision factuelle dans les systèmes de question-réponse à forte intensité de connaissances se heurte à un dilemme de conception des récompenses. Les récompenses au niveau de la réponse ne fournissent qu'une supervision grossière et ne permettent pas de distinguer les affirmations correctes des incorrectes au sein d'une trace de raisonnement. Les alternatives au niveau de la phrase offrent un retour plus fin, mais reposent généralement sur des vérificateurs NLI, des juges LLM ou des pipelines de vérification des connaissances, qui sont coûteux à déployer à l'échelle de l'apprentissage par renforcement et souvent peu fiables pour les faits concernant des entités rares, où des signaux de récompense précis sont particulièrement importants. Nous proposons CorVer (Corpus Verify), une récompense de processus légère et prête à être intégrée, qui remplace les vérificateurs neuronaux par un signal ancré dans un corpus, dérivé des statistiques de co-occurrence de Wikipédia. CorVer attribue un crédit au niveau de la phrase et le convertit en avantages au niveau des tokens grâce à un alignement simple, ne nécessitant qu'un extracteur de 0,5 milliard de paramètres et une unique recherche dans le corpus par phrase. Sur 30 cellules (modèle, benchmark) couvrant six modèles ajustés par instructions (de 3 à 14 milliards de paramètres) et cinq benchmarks de Q/R, CorVer améliore la référence brute pour chaque cellule, avec un gain moyen de +4,1 points de pourcentage sur TriviaQA. Il surpasse également quatre références basées sur des vérificateurs neuronaux dans 18 des 20 cellules dans leurs configurations réalisables, tout en étant 4,8 à 8,4 fois plus rapide à l'entraînement.
Nous présentons ChildVox, un nouveau référentiel conçu pour caractériser la diversité des signaux acoustiques par lesquels les enfants communiquent. Plus précisément, ChildVox suit l'intégralité de la trajectoire développementale, de la naissance à l'âge scolaire, en couvrant les sons physiologiques, les vocalisations non linguistiques, les syllabes canoniques et le langage parlé. ChildVox intègre plus de 20 sous-tâches issues de 17 ensembles de données audio et de parole centrés sur l'enfant, permettant une comparaison systématique inter-corpus et inter-domaines. Nous évaluons un éventail représentatif de modèles fondamentaux audio et de parole, incluant des modèles auto-supervisés, orientés vers la reconnaissance automatique de la parole (ASR) et de grands modèles audio-langage, sur des tâches comprenant la classification des sons physiologiques, la modélisation des vocalisations et des syllabes canoniques, ainsi que l'évaluation et la reconnaissance de la qualité de la parole. Les résultats du référentiel montrent que ChildVox fournit un ensemble de modèles haute performance pour la reconnaissance d'une large gamme de signaux acoustiques émis par les enfants, soutenant des applications en aval telles que la caractérisation des niveaux de langage des enfants et le suivi de la production de la parole en fonction de l'âge.
Les grands modèles de langage multimodaux sont de plus en plus déployés en tant qu'agents à long terme, où la mémoire ne doit pas seulement restituer des informations, mais aussi suivre un monde en évolution, réviser ce qui est devenu obsolète et faire remonter les preuves appropriées au moment de la prise de décision. Les bancs d'essai existants mesurent la restitution sur des dialogues statiques, réduisent la mémoire à une simple exactitude en fin de tâche et transforment les observations visuelles en légendes, ce qui nous empêche de localiser les défaillances au niveau de l'écriture, de la maintenance, du rappel ou de l'utilisation. L'essor de systèmes d'orchestration d'agents qui génèrent leur propre mémoire accentue cette lacune, car nous ne disposons d'aucun moyen méthodique pour comparer les pipelines conçus manuellement avec les alternatives auto-gérées. Pour combler ces lacunes, nous formulons la mémoire d'agent multimodal comme une boucle d'interaction action-monde avec un cycle de vie observable en quatre étapes, et nous l'instancions dans WorldMemArena : 400 tâches multimodales multi-sessions couvrant l'évolution permanente (états personnels et de tâche en évolution) et l'exécution agentique (mémoire issue d'observations, d'actions et de retours réels), annotées avec des points de mémoire de référence, des mises à jour, des distracteurs et des chaînes de preuves pour un diagnostic par étape. Cela permet la première comparaison directe entre agents à contexte long, agents à conception manuelle (RAG et systèmes de mémoire externes) et agents mémoire basés sur des harnais. Les résultats montrent que : (1) une meilleure écriture et un meilleur stockage en mémoire ne garantissent pas de meilleures performances ; (2) la mémoire multimodale peine encore à utiliser pleinement les preuves visuelles ; (3) les systèmes sont instables d'un domaine à l'autre et se dégradent sur des trajectoires agentiques réalistes ; (4) la mémoire par harnais est plus flexible mais reste coûteuse et moins fiable.
La méthode Program-of-Thought (PoT) en un seul appel génère un programme Python qui affiche un plan d'actions primitives ; une seule action invalide invalide silencieusement la trajectoire. Nous introduisons RePoT (Recoverable PoT) : une relecture vérifiée déterministe qui parcourt le plan dans l'environnement jusqu'à sa première transition invalide, puis un unique appel LLM qui reprend à partir du préfixe vérifié. RePoT coûte au plus un appel LLM supplémentaire sur les ~14 % de problèmes où PoT échoue. RePoT surpasse PoT de +3 à +11 points de pourcentage sur quatre configurations de modèles fermés avec PuzzleZoo-775, et atteint un pic de 96,9 % contre 86,3 % avec gpt-5.4-mini-medium ; par rapport à la référence PoT-retry à budget égal, RePoT gagne nettement sur Gemini (+3,8 pp, IC à 95 % [+2,2 ; +5,4]), se situe dans le bruit d'échantillonnage sur GPT-medium et Claude, et perd sur GPT-mini — un schéma de mise à l'échelle des capacités que nous commençons à traiter avec Adaptive RePoT, un dispatcheur basé sur des règles qui oriente entre la réparation du suffixe et une nouvelle tentative PoT complète en fonction de la longueur du préfixe vérifié (résultats préliminaires). Nous reproduisons ces résultats sur PlanBench Blocksworld (+1,1 à +11,4 pp) et sur quatre modèles à poids ouverts (+3,3 à +20,0 pp sur trois des quatre). Sur Derail-550, notre benchmark de récupération contrôlée, toutes les conditions ayant accès aux informations de point de contrôle atteignent >=30 % sur GPT-medium et >=70 % sur Gemini, contre <=3,1 % pour le retour d'erreur seul — ce qui montre que l'information de point de contrôle, et non la spécificité du suffixe du préfixe vérifié, est le signal de récupération déterminant.
Les modèles plus grands apprennent des tâches que les modèles plus petits n'apprennent pas. Qu'est-ce qui motive ce phénomène ? Nous développons un argument phénoménologique simple selon lequel la loi d'échelle en puissance suggère déjà qu'un modèle plus grand sera capable d'apprendre une partie de la distribution des données qu'un modèle plus petit ne parvient pas à apprendre, même avec des données d'entraînement infinies. Pour valider cette affirmation et identifier ses causes, nous étudions les effets de la mise à l'échelle des modèles sur un dispositif synthétique composé d'un mélange de tâches présentant des courbes d'échelle monotones. Les résultats indiquent une compétition induite par les données pour les ressources (neurones). Plus précisément, les modèles plus petits allouent leurs neurones à des tâches à haute fréquence ou de faible complexité, et apprennent ainsi des solutions qui performent mal sur les tâches rares et complexes. De plus, cela se produit même lorsque des solutions capables d'exprimer la tâche souhaitée existent. Nous évaluons ensuite comment un modèle plus grand contourne ce goulot d'étranglement centré sur les données, et constatons que cela découle d'un mécanisme d'interférence réduit : les modèles plus grands peuvent allouer suffisamment de ressources aux tâches courantes pour que les mises à jour de gradient pour ces tâches deviennent faibles, ce qui signifie qu'elles n'écrasent pas les caractéristiques des tâches rares au fur et à mesure qu'elles s'accumulent lentement. Enfin, pour valider davantage ces affirmations, nous pré-entraînons des modèles OLMo (de 4M à 4B paramètres) sur de nouvelles tâches de fréquence et complexité variables. Les résultats reflètent ceux de nos expériences sur données synthétiques : seuls les modèles OLMo plus grands apprennent les tâches peu fréquentes et complexes, et ces modèles plus grands intègrent davantage de caractéristiques de tâches dans leurs représentations et montrent moins d'interférence de gradient entre les tâches. Dans l'ensemble, nous proposons une analyse centrée sur les données expliquant pourquoi les modèles plus grands apprennent des tâches que les modèles plus petits ne parviennent pas à apprendre. Cela aide à comprendre pourquoi les modèles plus grands sont meilleurs en pratique, et peut éclairer des questions pratiques concernant le dimensionnement des modèles et les mélanges de données d'entraînement.
Les approches basées sur les données ont révolutionné la vision 3D, permettant aux transformateurs de reconstruire et générer efficacement des objets 3D statiques. Cependant, la génération de dynamiques 4D simulatives — des déformations temporelles réalistes d'objets statiques sous diverses conditions physiques — reste difficile et souvent ad hoc, malgré son importance pour la construction de modèles complets du monde en 3D. La plupart des méthodes existantes supposent un modèle physique prédéfini et utilisent l'identification de systèmes pour estimer les paramètres, ce qui limite ces méthodes à des catégories spécifiques et à des jeux de données à petite échelle. Nous proposons que ces restrictions peuvent être surmontées en apprenant une paramétrisation d'état cinématique basée sur les données pour des systèmes physiques centrés sur les objets. Plus précisément, nous apprenons à la fois un espace latent représentant tous les états possibles de l'objet et un décodeur qui mappe tout latent échantillonné à une forme plausiblement déformée de l'objet. Nous appelons cette paramétrisation Neural Object Kinematics (NeuROK), et nous apprenons un modèle encodeur-décodeur basé sur des transformateurs sur un jeu de données 4D à grande échelle et soigneusement constitué. Cette formulation et le modèle appris simplifient considérablement la génération de dynamiques simulatives, car nous n'avons besoin de considérer la dynamique que dans un espace latent de faible dimension, du point de vue de la mécanique lagrangienne en physique classique. Nous démontrons l'efficacité et la généralité de ce cadre de simulation neuronale sur divers types d'objets dynamiques, montrant des avantages clairs par rapport aux travaux antérieurs. Page du projet : https://chen-geng.com/neurok
Les modèles de diffusion vidéo autorégressifs génèrent une vidéo en continu en produisant des images séquentiellement, conditionnant chaque segment sur le contenu généré précédemment. Ces modèles sont structurellement ancrés à la première image : sa représentation clé-valeur occupe une position privilégiée dans le cache d'attention et sert de référence principale de la scène tout au long de la génération. En tant que position la plus propre et la plus exempte d'erreurs dans le cache, cet ancrage attire une attention disproportionnée, supprimant la dynamique vidéo et verrouillant la composition de la scène sur le point de vue initial, même lorsque la scène évolue naturellement. Le résultat est une vidéo temporellement plate dans laquelle le mouvement, le déplacement de la caméra et la progression de la scène sont atténués au profit d'une cohérence statique. Pour remédier à cela, nous remplaçons l'ancrage statique par un état adaptatif, un latent caché que le modèle débruit en même temps que le contenu à chaque segment mais qu'il ne rend jamais. Plutôt que de référencer une première image figée, le modèle génère son propre ancrage de scène à chaque étape en prêtant attention à la fois à l'état précédent et au contenu actuel, produisant une référence qui évolue avec le contenu généré. Contrairement à la génération vidéo standard, qui encode une notion absolue du temps, notre formulation traite le temps comme relatif : chaque étape de génération voit la même structure positionnelle, quelle que soit la distance parcourue dans la génération, et la transition d'état est identique à chaque segment. Ensemble, ces propriétés introduisent une récurrence dans le processus de génération, où le débruitage sert de fonction de transition et le cache KV sert de support, ne nécessitant aucun module externe. Les expériences démontrent que l'état adaptatif améliore considérablement la dynamique vidéo, permettant un mouvement plus riche et une progression naturelle de la scène dans les vidéos générées.
La génération naturelle permet aux grands modèles de langage (LLM) de produire des réponses libres avec un raisonnement riche, mais l'absence de structure rend les sorties difficiles à vérifier. À l'inverse, le décodage contraint garantit des formats standardisés mais peut restreindre par inadvertance les capacités de raisonnement en imposant des contraintes trop tôt dans le processus de génération. Nous proposons une approche hybride, nommée In-Writing, qui combine le raisonnement libre et la génération structurée en un seul appel. Le modèle effectue d'abord un raisonnement non contraint et n'applique le décodage structuré qu'après la génération d'un jeton déclencheur, découplant explicitement le raisonnement du formatage. Nous établissons que nos stratégies de jetons déclencheurs sont capables d'éradiquer virtuellement le déclenchement prématuré, un mode de défaillance dans lequel le décodage contraint interrompt le raisonnement en cours. Les évaluations sur divers ensembles de données couvrant des tâches de classification et de raisonnement démontrent que notre approche surpasse l'état de l'art en réalisant des gains de précision allant jusqu'à 27 % par rapport à la génération naturelle. Notre code est disponible à l'adresse suivante : https://github.com/Nokia-Bell-Labs/InWriting.
La qualité narrative d'une vidéo détermine fondamentalement sa valeur perceptuelle. Bien que les méthodes existantes de génération vidéo puissent produire un contenu visuellement attrayant, elles reposent principalement sur des signaux de conditionnement épars tels que des invites textuelles ou les première/dernière images, ce qui limite un contrôle précis sur la structure narrative et le rythme temporel. Dans cet article, nous proposons SmartDirector, un cadre qui améliore la capacité narrative des modèles de génération vidéo grâce à plusieurs images clés. SmartDirector prend en charge des scénarios de génération flexibles, notamment la génération en plan unique, la synthèse narrative multi-plans et l'extension vidéo. Le cadre fonctionne en deux étapes : Director-Gen génère une vidéo basse résolution conditionnée par les images clés fournies, et Director-SR affine la sortie en exploitant les images clés haute résolution comme ancres sémantiques pour récupérer les détails fins. Pour permettre un apprentissage robuste avec plusieurs images clés, nous construisons un pipeline de données qui sélectionne des séquences en plan unique et multi-plans à partir de films. Des expériences approfondies montrent que SmartDirector surpasse considérablement les approches de pointe existantes. Nous publierons le code pour faciliter les recherches futures.
La prédiction tenant compte des occlusions reste un défi majeur pour la conduite autonome en raison de l'incertitude inhérente aux zones non observées. Les approches existantes soit surestiment le risque à partir des états accessibles, soit peinent à prédire des trajectoires précises sous une forte incertitude d'occlusion. Pour surmonter ces limitations, nous proposons un cadre unifié de modélisation et d'apprentissage de carte de risques pour les environnements partiellement observables. Notre méthode intègre le risque de flux de trafic et le risque de collision via une modélisation spatiotemporelle, permettant une évaluation fine des dangers induits par les occlusions. Afin de pallier la rareté des scénarios impliquant des interactions sous occlusion, nous introduisons un cadre de génération de scénarios basé sur la diffusion, produisant des scénarios réalistes et adverses. Nous intégrons la modélisation et l'apprentissage d'une carte de risques unifiée dans un cadre soutenant une planification consciente des risques en situation d'observabilité partielle. Les expériences menées sur le jeu de données Waymo Open Motion Dataset montrent que notre méthode surpasse significativement la référence de l'état de l'art en prédiction d'occlusion, avec une amélioration de 0,78 fois du temps minimal avant collision et de 1,67 fois du temps moyen avant collision. Le cadre proposé offre une solution complète et pratique pour la planification consciente des risques dans les environnements partiellement observables.
Les caractéristiques fondamentales issues des modèles de vision auto-supervisés et des modèles de diffusion texte-image se sont révélées efficaces pour l'estimation de correspondances sémantiques. Cependant, comme ces caractéristiques sont principalement apprises à partir d'objectifs d'image 2D, elles manquent de conscience 3D explicite et confondent souvent les côtés symétriques des objets, les parties répétées et les structures visuellement similaires qui sont pourtant distinctes en 3D. Nous introduisons un cadre de post-entraînement conscient de la 3D qui va au-delà des caractéristiques fondamentales 2D disponibles en intégrant les a priori issus de modèles fondamentaux 3D. À partir d'une image donnée, notre méthode utilise SAM3D pour estimer la géométrie et la pose de l'objet, puis affine la pose par une optimisation par rendu et comparaison. Ensuite, nous projetons les descripteurs PartField de la géométrie reconstruite dans le plan image en fonction de la pose estimée de l'objet. Les cartes de caractéristiques géométriques résultantes complètent les caractéristiques de DINO et de Stable Diffusion, tandis que les distances géodésiques sur les formes reconstruites permettent un filtrage fiable des correspondances candidates. Nous utilisons les correspondances filtrées comme supervision pour entraîner un adaptateur léger au-dessus de DINO et de Stable Diffusion pour la correspondance sémantique. Contrairement aux approches de post-entraînement antérieures qui nécessitent des annotations de pose et reposent sur une géométrie sphérique grossière, notre méthode obtient automatiquement une structure 3D propre à l'instance et l'utilise pour guider l'apprentissage des correspondances. Les expériences montrent que notre approche améliore la correspondance sémantique par rapport aux méthodes précédentes tout en réduisant la supervision géométrique manuelle. Le code et le modèle sont disponibles à l'adresse https://github.com/GenIntel/3D-SC.
Les avancées récentes dans les agents web multimodaux reposent souvent sur un accroissement du calcul au moment de l’inférence, notamment la recherche par déploiement, les passages de vérificateur, la découverte de compétences hors ligne et les piles de modèles spécialisés. Cela soulève une question centrale : un agent web peut-il devenir plus efficace à mesure qu’il accumule de l’expérience, plutôt que plus coûteux ? Nous analysons d’abord des trajectoires issues de VisualWebArena et identifions trois sources récurrentes d’inefficacité : les boucles d’actions répétées, les coûts de découverte cachés et la faible réutilisation du cache de prompt. Nous introduisons ensuite PANDO, un cadre de distillation de compétences en ligne à déploiement unique qui maintient une Bibliothèque de Compétences structurée et combine réflexion sur la progression, rétrogradation de compétence basée sur la confiance, routage hiérarchique, compression visuelle et génération de prompts adaptée au cache. Sur l’ensemble des 910 tâches de VisualWebArena, PANDO atteint un taux de réussite de 58,3 %, surpassant SGV (54,0 %) et notre reproduction WALT (45,2 %), tout en utilisant 58 % de tokens de moins que SGV et 61 % de tokens de moins que WALT, sans aucun budget de découverte avant évaluation. Une ablation sur 300 tâches montre en outre que les règles et routines fournissent l’essentiel des gains en réussite, tandis que le routage, la compression et la génération de prompts adaptée au cache convertissent la bibliothèque de compétences plus vaste en un coût marginal en tokens plus faible. Enfin, nous introduisons trois métriques d’efficacité au niveau de la trajectoire — le Taux de Répétition d’Action, le Ratio de Surcharge par Étape et l’Utilisation du Cache de Prompt — afin de rendre l’efficacité visible au-delà du seul succès terminal.
L'inférence des LLM à long horizon transforme le cache clé-valeur (KV) en principal consommateur de mémoire GPU et rend l'attention par jeton de plus en plus coûteuse. De nombreuses politiques d'éviction courantes utilisent des fenêtres de récence statiques ou l'attention historique, laissant inexploité un signal calculé à chaque étape de décodage : l'incertitude actuelle du modèle. Nous présentons CONF-KV, un gestionnaire de cache KV qui convertit la distribution du jeton suivant en un score de confiance scalaire et l'utilise pour choisir le budget de cache par étape, en retenant plus de contexte lorsque le modèle est incertain et en élaguant de manière agressive lorsqu'il est confiant. Dans chaque budget, les jetons sont classés selon une combinaison de la masse d'attention accumulée et de la récence, tandis qu'une fenêtre récente protégée préserve la cohérence locale. Nous associons cette politique à une attention softmax en ligne par blocs, un stockage mixte FP16/INT8 et une variante de budget pyramidal par couche. Sur quatre familles de modèles et des longueurs de génération allant jusqu'à 4K, CONF-KV reste proche de l'empreinte d'une fenêtre glissante fixe de 512 jetons, tout en se maintenant à 1,5–2,1 points de perplexité du cache KV complet. Sur le test Needle-in-a-Haystack jusqu'à 32K jetons, CONF-KV atteint 91,4 % de précision de récupération contre 53,8 % pour les fenêtres glissantes et 80,6 % pour H2O ; sur 75 tâches VisualWebArena, il conserve 95,3 % du succès du KV complet avec une mémoire maximale 2,8 fois inférieure.
Les grands modèles de langage (LLMs) sont devenus de plus en plus capables de suivre des instructions et de raisonner de manière complexe, faisant du prompting une interface flexible pour adapter les modèles sans mettre à jour leurs paramètres. Cependant, la conception de prompts reste intensive en main-d'œuvre et très sensible au formatage, à la formulation et à l'ordre des instructions, ce qui motive le développement de méthodes d'optimisation automatisée des prompts réduisant l'effort manuel tout en préservant la flexibilité au moment de l'inférence. Néanmoins, les méthodes existantes explorent souvent des candidats de prompts ou utilisent des pipelines fixes de critique et de raffinement pilotés par des exemples individuels ou de petits lots, ce qui limite leur capacité à capturer des motifs d'erreur systématiques et à effectuer des modifications ciblées fondées sur l'historique des échecs. Nous proposons le Reflective Prompt Tuning (RPT), un cadre qui utilise l'appel de fonctions des LLMs pour simuler le processus itératif des ingénieurs humains spécialistes des prompts. Un optimiseur LLM appelle une fonction de diagnostic qui évalue le modèle cible sur l'ensemble d'optimisation complet, résume les modes d'échec récurrents et renvoie un rapport de diagnostic structuré. L'optimiseur utilise ce rapport, ainsi qu'une mémoire cumulative des rapports précédents, pour réviser le prompt en vue de l'itération suivante. RPT prend également en charge une optimisation sensible à la confiance en utilisant des signaux de calibration dans le retour de diagnostic et la sélection finale du prompt. Sur trois tâches de raisonnement, RPT améliore les prompts initiaux jusqu'à 12,9 points, reste compétitif avec l'état de l'art et améliore la calibration de la confiance. Nos analyses montrent que RPT est particulièrement efficace pour le raisonnement multi-sauts et mathématique, produisant des révisions ciblées du prompt qui s'alignent sur les motifs d'échec diagnostiqués et conduisent à des gains en performance de tâche et en calibration.
Les grands modèles de langage (LLM) sont devenus le paradigme central de l'intelligence artificielle, mais la primitive computationnelle fondamentale qu'est l'attention est restée structurellement inchangée. L'Attention Linéaire Locale (Local Linear Attention, LLA) est un mécanisme d'attention issu des statistiques non paramétriques dans le cadre de la régression au moment du test. Contrairement aux recherches antérieures sur les variantes d'attention efficaces, la LLA améliore l'estimation constante locale de l'attention softmax en une estimation linéaire locale, offrant des compromis biais-variance prouvés supérieurs pour la mémoire associative. Cependant, la LLA n'a pas été mise à l'échelle dans le pré-entraînement des LLM en raison de problèmes de stabilité numérique et computationnelle. Nous présentons Parallax, une Attention Linéaire Locale paramétrée, évolutive pour les LLM. Parallax élimine le solveur numérique présent dans la LLA et apprend un projecteur supplémentaire de type requête qui sonde la covariance des clés-valeurs (KV). Nous positionnons Parallax au sein d'une famille de mécanismes d'attention reliés par la largeur de bande, la construction de la sonde et la structure affine. Nous proposons un algorithme tenant compte du matériel qui augmente l'intensité arithmétique par rapport à FlashAttention, faisant basculer l'attention vers un régime plus limité par le calcul. Notre noyau de décodage prototype égale ou surpasse FlashAttention 2/3 pour diverses tailles de lot et longueurs de contexte. Nous pré-entraînons Parallax aux échelles de 0,6B et 1,7B paramètres et observons des améliorations constantes de la perplexité tout au long du pré-entraînement, avec des gains qui se transfèrent aux benchmarks aval. L'avantage persiste sous des contrôles appariés à la fois en nombre de paramètres et en charge de calcul, démontrant une amélioration de Pareto. Nous effectuons des ablations minutieuses du pré-entraînement et identifions un phénomène inédit par lequel Muon déverrouille la capacité de Parallax. À notre connaissance, il s'agit de la première démonstration empirique d'une co-conception forte entre architecture et optimiseur pour les mécanismes d'attention dans la littérature de recherche en architecture.
L'apprentissage par renforcement à partir du retour humain (RLHF) est la méthode standard pour aligner les grands modèles de langage (LLMs) sur les préférences humaines. Dans ce travail, nous introduisons la manipulation de l'alignement, une vulnérabilité potentielle où le LLM en cours d'alignement influence le jeu de données de préférences, amenant le RLHF à amplifier des comportements indésirables. Cela provient de limitations fondamentales du RLHF : (1) les jeux de données de préférences sont construits à partir des propres sorties du LLM, ce qui lui permet de les influencer, et (2) les comparaisons par paires indiquent uniquement quelle réponse est meilleure, non pas pourquoi. Ces limitations peuvent être exploitées pour provoquer une manipulation de l'alignement. Par exemple, si un LLM génère des réponses biaisées avec une qualité supérieure, les annotateurs leur accorderont une préférence en fonction de cette qualité. Cependant, les étiquettes de préférence ne distinguent pas la qualité du biais, et le modèle de récompense hérite de cette limitation. Optimiser de telles récompenses via l'apprentissage par renforcement ou l'échantillonnage best-of-N peut amplifier des biais non alignés. Nos expériences démontrent cette amplification à travers divers biais : du biais lexical à la propagande (ex. sexisme), en passant par la promotion de marque et la poursuite d'objectifs instrumentaux. L'atténuation reste difficile, car les techniques existantes pour un RLHF robuste ne parviennent pas à résoudre entièrement la manipulation de l'alignement sans sacrifier la qualité des réponses. Ces résultats révèlent des vulnérabilités structurelles du RLHF actuel et soulignent la nécessité de prévenir cette vulnérabilité. Page du projet : https://alignment-tampering.github.io/
La récupération d'outils dans de vastes catalogues d'API constitue un goulot d'étranglement central pour les agents LLM : les requêtes des utilisateurs arrivent dans un langage familier, souvent sous-spécifié, tandis que le catalogue utilise un vocabulaire technique d'API qu'aucun encodeur fixe ne peut combler à lui seul. Les deux approches d'entraînement dominantes — l'ajustement fin contrastif de l'encodeur et l'expansion de requête de type HyDE avec un LLM gelé — abordent ce problème depuis des directions opposées et échouent de manière complémentaire : l'encodeur ajusté excelle lorsque la forme de surface de la requête correspond déjà au catalogue, mais s'effondre dans le cas contraire, tandis que HyDE en zéro-shot est plus robuste aux requêtes sous-spécifiées mais génère des descriptions hypothétiques ignorantes du catalogue qui dégradent la récupération lorsque les requêtes sont bien formées. Nous introduisons CoHyDE, une procédure itérative qui entraîne l'encodeur dense et le réécriveur LLM comme un système unique co-évolutif : l'encodeur est ré-entraîné avec InfoNCE sur des descriptions hypothétiques de style catalogue produites par le réécriveur, et le réécriveur est aligné par préférence via DPO contre les scores de récupération de l'encodeur, les deux côtés étant initialisés à chaud sur le catalogue d'outils avant le début de la boucle. Sur un sous-ensemble d'environ 10 000 outils du catalogue ToolBench, trois tours de CoHyDE améliorent la meilleure baseline à composant unique de +2,5 points de NDCG@5 sur les requêtes standard et de +6,3 points sur les requêtes vagues exclues de l'entraînement, avec des gains allant jusqu'à +8 points sur le niveau de requêtes vagues le plus difficile. Les ablations confirment que le co-entraînement est l'ingrédient clé : l'utilisation de l'un ou l'autre composant isolément ne parvient pas à égaler CoHyDE sur les requêtes bien formées comme sur les requêtes vagues, avec des pertes allant jusqu'à -8 points sur les requêtes vagues.
Nous montrons que les adaptateurs LoRA, le format de distribution dominant pour les LLMs affinés, peuvent être fiabilisés par l’introduction d’une porte dérobée via un empoisonnement des données d’entraînement tout en préservant les performances de la tâche de base. Sur un classifieur d’injection de prompt Qwen 2.5 1.5B, une petite fraction d’exemples empoisonnés conduit à la saturation d’une porte dérobée préservant la précision propre. La porte dérobée résultante généralise au niveau des caractéristiques des tokens plutôt qu’au niveau des motifs structurels : un modèle entraîné sur une référence RFC s’active sur toute référence RFC mais ne se transfère pas à des citations ISO, OWASP, CWE ou NIST structurellement identiques. Cette asymétrie favorise l’attaquant, car un défenseur ne peut pas sonder génériquement les « citations structurées ». Nous caractérisons l’attaque à travers l’échelle et la famille du modèle de base, le rang LoRA et la chaîne de déclenchement, et évaluons deux voies de détection complémentaires sur une cohorte d’adaptateurs multi-graines. Un détecteur comportemental construit à partir de deux statistiques issues d’une batterie de sondes, outlier_gap et mean_attack_rate, sépare parfaitement les adaptateurs empoisonnés des adaptateurs propres lorsque la batterie chevauche le voisinage du token déclencheur, et avec un rappel élevé sans faux positifs dans le cas contraire. Une statistique au niveau des poids, l’écart-type inter-module des normes de Frobenius normalisées par dimension, sépare également parfaitement la cohorte sans exécuter le modèle. Combinées, les deux voies sont robustes à la composition des sondes. Le patching causal localise la porte dérobée dans le bloc MLP aux couches intermédiaires à tardives, avec down_proj comme la cause de projection unique la plus forte. Les réplications à travers l’échelle, la famille et le rang montrent que le détecteur comportemental se transfère sans réglage, tandis que le détecteur au niveau des poids dépend de la calibration du modèle de base. L’attaque évolue de façon monotone avec le rang, et le jeton d’ancrage du déclencheur choisi dépend à la fois du déclencheur et du modèle de base. La détection comportementale constitue le résultat portable sur le plan opérationnel pour le scan de la chaîne d’approvisionnement des adaptateurs.
Les Modèles Vision-Langage (MVL) éprouvent souvent des difficultés à effectuer un raisonnement spatial 3D robuste. Les méthodes courantes, qui reposent sur un réglage fin avec des ensembles de données de question-réponse visuelle (VQA) 3D, peuvent surapprendre les biais spécifiques à ces ensembles, tandis que l'intégration d'encodeurs visuels 3D spécialisés s'avère souvent rigide et encombrante. Dans cet article, nous soutenons qu'une véritable compréhension spatiale devrait émerger de l'apprentissage de prérequis géométriques fondamentaux, et non uniquement d'une supervision de haut niveau par VQA. Nous proposons GASP (Geometric-Aware Spatial Priors), un cadre qui injecte ces prérequis directement dans les couches du transformateur du LLM. GASP utilise une petite tête de correspondance, appliquée comme un signal de supervision profonde sur toutes les couches, et est entraîné avec un double objectif exploitant la géométrie réelle issue de scènes vidéo à grande échelle : une perte contrastive sur les correspondances de points réelles impose une invariance de vue 2D, tandis qu'une supervision par cohérence de profondeur résout les ambiguïtés géométriques 3D. Notre analyse propose d'abord un diagnostic montrant que la précision de mise en correspondance interne des MVL standard est très faible (souvent inférieure à 5 %). Nous démontrons ensuite que notre entraînement améliore considérablement ce comportement, portant la correspondance maximale par couche à plus de 70 % et maintenant une robustesse temporelle de plus de 85 %, alors que les lignes de base restent en dessous de 5 %. Ces améliorations internes se traduisent par des gains significatifs sur des benchmarks spatiaux aval, notamment +18,2 % sur All-Angles Bench et +29,0 % sur VSI-Bench, le tout sans entraînement sur aucune donnée de VQA 3D. Nos résultats indiquent que l'apprentissage à partir de prérequis géométriques fondamentaux constitue une voie prometteuse et généralisable vers des MVL dotés d'un raisonnement spatial 3D plus fiable.
Nous étudions l'auto-recherche à deux niveaux pour la coopération : un agent IA en boucle externe reconçoit de manière autonome la pipeline en boucle interne d'un système de synthèse de politiques basé sur un LLM pour des dilemmes sociaux séquentiels multi-agents (SSD). Un agent chercheur R (exécuté en tant qu'agent de codage) lit le code source de la boucle interne, modifie les invites du système, les fonctions de rétroaction, les bibliothèques auxiliaires et la logique d'itération, exécute des évaluations et décide ce qu'il faut conserver, suivant le paradigme de l'auto-recherche. Dans deux jeux (Cleanup et Gathering), deux LLM synthétiseurs de politiques et deux objectifs de bien-être (efficacité utilitariste et maximin rawlsien), le chercheur dépasse systématiquement les références conçues manuellement, réduit nettement la variance entre les exécutions et surpasse l'optimisation par invites uniquement. Les pipelines découvertes dépendent de l'objectif : ce n'est que sous le maximin que le chercheur injecte un mécanisme d'équité explicite dans les pipelines du synthétiseur, une classe de mécanismes absente de son invite système indépendante de l'objectif et de toute pipeline optimisée pour l'efficacité. Cela soutient une lecture en termes de conception informationnelle où le chercheur choisit ce qu'il révèle au synthétiseur à rationalité limitée en fonction de l'objectif de bien-être. Code disponible à l'adresse https://github.com/vicgalle/autoresearch-social-dilemmas.
Nous présentons OmniInteract, un benchmark en continu pour les grands modèles de langage omnimodaux en temps réel, évalués par inférence en ligne native sur des flux audio-visuels. Contrairement à la compréhension vidéo hors ligne ou aux questions-réponses en continu déclenchées par un texte, OmniInteract préserve le flux audio-visuel d'origine et exige des modèles qu'ils le traitent en ligne, sans accès au contenu futur. Les requêtes utilisateur et les bruits ambiants sont intégrés dans la piste audio, obligeant les modèles à détecter des déclencheurs multimodaux, à décider quand répondre et à fournir une réponse pendant que le flux se déroule. OmniInteract contient 250 vidéos avec 1 430 créneaux de réponse temporellement ancrés : 1 062 créneaux 1Q1A dans des scénarios en temps réel, proactifs et imbriqués, et 368 créneaux 1QnA pour la surveillance continue des tâches et le guidage pas à pas. Chaque créneau comprend un déclencheur, une fenêtre de réponse et une réponse cible. Nous évaluons la justesse des réponses, le timing, les sorties invalides, la gestion des interruptions et la continuité contextuelle à l'aide du F1 de qualité-ponctualité tenant compte de l'interaction (IA-QTF1), de la suite de diagnostic des interruptions et du score d'achèvement de chaîne imbriquée. Les expériences montrent que les modèles actuels restent faibles en interaction en continu, le meilleur IA-QTF1 global n'atteignant que 0,368 et le meilleur IA-QTF1 pour 1QnA seulement 0,052. Une étude plus approfondie sur le raisonnement mathématique en configurations duplex intégral montre que la capacité hors ligne ne se transpose pas nécessairement à l'interaction en ligne. Le code et les ensembles de données seront accessibles au public à l'adresse https://github.com/Lucky-Lance/OmniInteract.
La génération d'avatars de tête gaussiens 3D haute fidélité est cruciale pour des applications telles que la réalité augmentée/réalité virtuelle (AR/VR), la téléprésence et les humains numériques. Les méthodes existantes reposent sur des ensembles de données multivues, des captures 3D ou une synthèse intermédiaire de vues 2D. En revanche, nous apprenons des modèles de tête 3D conditionnels et inconditionnels à partir de seules images 2D échantillonnées aléatoirement, sans utiliser de données multivues, de supervision 3D ni de génération intermédiaire de vues. Nous introduisons MVCHead, un modèle d'espace d'états à prise unique qui impose directement la cohérence multivue dans la représentation 3D tout en régressant des gaussiens 3D sous ces contraintes. Au cœur de ce modèle, nous proposons un bloc d'espace d'états hiérarchique (HiSS) qui affine progressivement les gaussiens du grossier au fin, tout en capturant les dépendances à longue portée. Au sein de chaque bloc HiSS, nous modifions le balayage unidirectionnel standard de Mamba avec le balayage d'états bidirectionnel hiérarchique (HiBiSS) proposé, qui aligne la récurrence sur les axes le long desquels les incohérences multivues sont les plus fortes. Enfin, nous concevons un critique multivue SE(3) qui juge si un ensemble d'auto-rendus provient d'une seule configuration 3D sous-jacente, récompensant l'alignement de pixels inter-vues sans observer de paires multivues réelles. MVCHead atteint une qualité perceptuelle de pointe, dépasse les méthodes antérieures tant en cohérence de texture que de géométrie, et maintient une cohérence de forme comparable. Pour démontrer son évolutivité, nous publions FaceGS-10K, le premier ensemble de données à grande échelle d'actifs de tête gaussiens 3D prêts à l'emploi pour l'entraînement et l'évaluation de modèles de tête 3D. Page du projet et code : https://humansensinglab.github.io/MVCHead/
La mondialisation et le multiculturalisme continuent de produire des variétés linguistiques de plus en plus diverses. Pourtant, les systèmes de dialogue parlé actuels échouent fréquemment face aux dialectes et accents sous-représentés, identifiant souvent incorrectement la langue d’entrée et provoquant des défaillances en cascade dans les tâches de dialogue en aval. Relever ce défi de la variation dialectale dans des conditions de faibles ressources reste un problème ouvert, car le fine-tuning standard est coûteux en calcul et sujet au surapprentissage sur des données vocales de haute dimension. Nous proposons la Détection Convexe de Langue (CLD), un nouveau cadre qui intègre des techniques d’optimisation convexe fondées théoriquement dans le pipeline des systèmes de dialogue parlé. Notre méthode est implémentée efficacement via la Méthode des Multiplicateurs à Direction Alternée (ADMM) multi-GPU dans JAX, offrant ainsi des garanties d’optimalité globale et un apprentissage rapide en temps polynomial. Théoriquement, nous prouvons que notre objectif convexe induit une stabilité de marge certifiée et fournissons des garanties contre les perturbations de caractéristiques. Empiriquement, nous démontrons l’efficacité en termes d’échantillons et la robustesse face à la variation dialectale d’entrée, atteignant une précision de 97 à 98 % dans des régimes de faibles ressources exigeants. Notre package open-source est disponible à l’adresse https://pypi.org/project/jaxcld/
Les modèles de diffusion discrets sont souvent entraînés par prédiction des données propres, mais cette prédiction peut être utilisée de différentes manières pour définir la dynamique inverse. Dans les modèles de diffusion masquée (MDM), ces choix coïncident largement, contrairement aux modèles de diffusion uniforme (UDM) où ce n'est pas le cas. Nous montrons que le paramétrage par pont d'insertion standard pour les UDM n'est pas optimisé par le postérieur de débruitage, mais par un postérieur leave-one-out qui prédit chaque jeton propre sans utiliser sa propre observation bruitée. Cela identifie un décalage entre l'ELBO par insertion et l'objectif de débruitage usuel par entropie croisée. Nous caractérisons la cible leave-one-out et dérivons des conversions exactes entre le débruitage, le postérieur leave-one-out et le score. Ces conversions nous permettent de dissocier le paramétrage et l'objectif d'entraînement. Nos résultats conduisent également à des améliorations d'inférence sans aucun entraînement supplémentaire grâce à un échantillonneur prédicteur-correcteur informé et à un échantillonnage par température amélioré basé sur le prédicteur leave-one-out. Nous introduisons en outre une reformulation par état absorbant de la diffusion uniforme qui préserve la loi conjointe des UDM tout en la décomposant en opérations d'échantillonnage de type diffusion masquée, avec des postérieurs de débruitage plus simples, un démasquage par report et un mécanisme de remasquage naturel. Sur la modélisation du langage, les paramétrages leave-one-out améliorent systématiquement la génération des UDM, tandis que la construction par état absorbant égale ou dépasse la diffusion masquée. Ces résultats suggèrent que l'écart empirique entre la diffusion masquée et uniforme est moins dû au choix des marginales elles-mêmes qu'à la conception du paramétrage et de l'échantillonnage. Le code et les modèles sont disponibles à l'adresse https://github.com/samsongourevitch/rev_udm.
La création d'effets animaliers de qualité cinématographique nécessite une modélisation précise de la dynamique des muscles et de la fourrure, un processus qui reste à la fois exigeant en main-d'œuvre et coûteux en calcul au sein des pipelines de production traditionnels. Bien que les modèles génératifs de diffusion aient montré un potentiel dans divers flux de travail artistiques, leur capacité à simuler des animaux avec une haute fidélité reste largement inexploitée. Nous présentons MoZoo, un solveur de dynamique générative qui contourne les raffinement conventionnels pour synthétiser des vidéos animalières haute-fidélité à partir de maillages grossiers sous guidage multimodal. Nous proposons le RoPE conscient du rôle (RAR-RoPE), qui utilise un réindexage basé sur les rôles pour synchroniser l'alignement des mouvements tout en découplant les informations de référence via des décalages temporels fixes. En complément, l'attention découplée asymétrique partitionne la séquence latente pour imposer un flux d'information unidirectionnel, empêchant efficacement l'interférence des caractéristiques et améliorant l'efficacité computationnelle. Pour remédier à la rareté des données d'entraînement de haute qualité, nous introduisons MoZoo-Data, un pipeline synthétique-vers-réel qui exploite un moteur de rendu et une approche de mappage inverse pour construire un jeu de données à grande échelle de séquences appariées. De plus, nous établissons MoZooBench, un benchmark complet avec 120 paires maillage-vidéo. Les résultats expérimentaux montrent que MoZoo atteint une simulation de fourrure haute-fidélité pour divers squelettes et agencements animaliers, en préservant une cohérence temporelle et structurelle supérieure.
Les grands modèles de langage (LLMs) présentent un biais politique systématique dans divers contextes sensibles. Nous constatons que les LLMs traitent de manière asymétrique des sujets opposés issus de camps politiques antagonistes. Nous qualifions ce phénomène de biais politique latent et identifions 7 catégories de techniques par lesquelles il opère. Nous proposons deux métriques pour mesurer ce biais latent : la Cohérence des Sentiments, qui évalue la symétrie dans la rhétorique et le cadrage entre des prompts politiques appariés, et la Cohérence de l'Utilité, qui mesure la symétrie dans la profondeur et l'engagement. Pour réduire ces deux types de biais latent, nous introduisons l'Entraînement à la Cohérence Politique (ECP), une méthode d'apprentissage par renforcement comportant deux paradigmes complémentaires : l'Entraînement à la Cohérence des Sentiments et l'Entraînement à la Cohérence de l'Utilité. Nous montrons que l'ECP préserve l'utilité globale, réduit substantiellement le biais politique latent et se généralise à des benchmarks non vus. Nous publions nos travaux à l'adresse https://political-manipulation.ai.
Les récentes avancées des modèles vision-langage (MVL) ont permis d'obtenir des performances impressionnantes sur de nombreuses tâches. Pourtant, des études antérieures rapportent des résultats insatisfaisants lors de l'application de grands modèles de langage ou multimodaux à la détection de motifs anormaux dans des données séquentielles. Les référentiels publics de détection d'anomalies fournissent généralement des annotations par intervalle, mais pas de justifications en langage naturel, ce qui rend difficile l'ajustement fin des MVL pour produire des décisions fondées et interprétables. Pour combler cette lacune, nous construisons VisAnomBench, un référentiel organisé à partir d'ensembles de données de séries temporelles publiques, enrichi d'explications d'anomalies de haute qualité sélectionnées à partir de plusieurs grands MVL à l'aide de récompenses fines et spécifiques aux tâches. Grâce à un ajustement fin sur ce référentiel, nous développons VisAnomReasoner, un MVL efficace en paramètres pour la détection d'anomalies dans les séries temporelles. Les résultats expérimentaux sur VisAnomBench montrent que VisAnomReasoner obtient une localisation des anomalies plus précise et surpasse systématiquement toutes les références, avec des améliorations d'au moins 21,23 et 23,87 points de pourcentage respectivement en précision et en F1. Des expériences supplémentaires sur le référentiel TSB-AD-U démontrent une forte capacité de généralisation inter-benchmarks, VisAnomReasoner améliorant la précision et le F1 de 9,57 et 13,39 points de pourcentage respectivement.
Ce travail présente ViGeo, un modèle fondateur feed-forward pour la récupération de géométrie spatialement dense et temporellement cohérente à partir de séquences vidéo. Construit sur une architecture transformer simple, sans modification architecturale spécifique à la tâche, ViGeo prend en charge l'inférence en streaming, sur séquence complète et sur vidéo longue au sein d'un modèle unifié. L'élément clé est l'attention par regroupement dynamique, qui expose le modèle à des contextes temporels à la fois bidirectionnels et causaux pendant l'entraînement et lui permet d'adapter son schéma d'attention au moment du test sans nécessiter de réentraînement. Pour améliorer la qualité de la supervision, nous introduisons en outre un cadre de raffinement des données basé sur la complétion. Ce cadre entraîne un enseignant de complétion de profondeur vidéo qui s'appuie sur des annotations éparses et bruitées et exploite le contexte vidéo/multi-vue pour produire des cibles d'entraînement denses, temporellement cohérentes et géométriquement fiables. Au-delà des cartes de profondeur et des cartes de points, ViGeo prédit également les normales de surface au sein du même cadre. Entraîné uniquement sur des jeux de données publics, ViGeo atteint des performances de pointe en estimation de profondeur en ligne, hors ligne et sur vidéo longue, en estimation de normales de surface et en estimation de cartes de points vidéo.
Un goulot d'étranglement central pour les agents utilisant des téléphones est qu'il est difficile de construire à grande échelle des environnements contrôlables et reproductibles couvrant les comportements mobiles réels. Les benchmarks existants pour agents mobiles ont réalisé des progrès importants en matière d'évaluation, mais ils ne fournissent pas en eux-mêmes un moyen scalable de construire de nombreux environnements d'utilisation de téléphone. Nous présentons PhoneWorld, un pipeline réutilisable qui convertit des trajectoires GUI réelles et des captures d'écran en environnements d'utilisation de téléphone contrôlables, en tâches exécutables, en vérificateurs automatiques et en déploiements d'entraînement. Plutôt que de construire un benchmark mobile à la fois manuellement, PhoneWorld utilise des trajectoires réelles pour identifier quels écrans sont importants, comment ces écrans sont connectés, quelles interactions doivent modifier l'état de l'environnement et quels objectifs utilisateur permettent une vérification automatique. À partir de ces signaux, il construit des applications Android simulées exécutables, soutenues par un contenu d'application en lecture seule et un état mutable, puis dérive des tâches exécutables, des vérificateurs basés sur des règles et des déploiements d'entraînement à partir des mêmes environnements. Dans son instantiation actuelle, PhoneWorld couvre 34 applications réparties dans 16 domaines, englobant des comportements mobiles courants des consommateurs tels que la recherche, la navigation, les achats, la réservation, les médias et les interactions sociales. Sous un budget d'entraînement fixe, le remplacement de 10 000 pas d'un corpus AndroidWorld auxiliaire dans une baseline basée sur AndroidWorld par une supervision étendue de PhoneWorld améliore simultanément les quatre benchmarks d'évaluation, augmentant HYMobileBench de 17,7 points, AndroidControl de 6,0 points, AndroidWorld de 14,7 points et PhoneWorld de 52,5 points. Nous étudions ensuite deux questions supplémentaires de mise à l'échelle : augmenter la quantité de supervision de PhoneWorld améliore fortement les performances sur PhoneWorld, et sous un budget fixe de PhoneWorld, élargir la couverture des applications génère des gains encore plus importants. Dans l'ensemble, PhoneWorld déplace l'attention de la construction d'un benchmark mobile à la fois vers la mise à l'échelle de l'offre d'environnements d'utilisation de téléphone eux-mêmes.
Les escroqueries sur smartphones sont de plus en plus répandues et se manifestent généralement sous forme de processus multi-étapes et inter-applications, avec une intention qui émerge progressivement. Une intervention efficace nécessite donc d'anticiper les escroqueries avant que l'intention ne devienne explicite. C'est un défi intrinsèque, car les décisions doivent s'appuyer sur des trajectoires partielles avec des preuves réparties dans le temps. Dans cet article, nous proposons ORACLE (Online Reasoning for Anticipating Cross-temporal Latent thrEats), le premier cadre agentique pour l'anticipation précoce des escroqueries à partir de trajectoires d'utilisation d'applications en continu. Pour soutenir ce contexte, nous constituons un benchmark à long horizon du monde réel de trajectoires d'utilisation d'applications en continu, couvrant 12 types d'escroqueries, s'étendant sur des périodes prolongées (15 jours en moyenne), impliquant diverses applications (95 applis), et entrelaçant des comportements normaux et frauduleux. Pour traiter les preuves fragmentées, nous introduisons un gestionnaire de contexte auto-évolutif qui consolide de manière adaptative les interactions centrées sur les entités au fil du temps, permettant une reconstruction plus efficace des preuves trans-temporelles à partir d'observations partielles. Pour améliorer la sensibilité aux signaux latents de stade précoce, nous proposons un schéma d'auto-distillation sur politique dans lequel un modèle enseignant, conditionné par des réflexions et indices anti-escroquerie résumés par compétences, supervise un modèle étudiant sans accès à ces réflexions. Ce schéma distille ainsi des connaissances informées par les preuves et améliore la reconnaissance des schémas de fraude émergents à partir de trajectoires partielles. Les expériences montrent qu'ORACLE améliore constamment l'anticipation précoce des escroqueries, produisant des alertes en temps utile tout en réduisant les fausses alertes dans des scénarios de streaming réalistes.