Articles de recherche IA sélectionnés quotidiennement avec traductions
Les embeddings de mémoire sont cruciaux pour les systèmes augmentés par la mémoire, tels qu'OpenClaw, mais leur évaluation est sous-explorée dans les benchmarks actuels d'embedding de texte. Ces derniers se concentrent étroitement sur la recherche de passages traditionnelle et ne parviennent pas à évaluer la capacité des modèles à gérer des tâches de récupération de mémoire à long horizon impliquant des informations fragmentées, dépendantes du contexte et temporellement éloignées. Pour remédier à cela, nous présentons le *Long-horizon Memory Embedding Benchmark* (LMEB), un cadre complet qui évalue les capacités des modèles d'embedding à gérer des tâches complexes de récupération de mémoire à long horizon. LMEB couvre 22 jeux de données et 193 tâches de recherche zero-shot réparties dans 4 types de mémoire : épisodique, dialogique, sémantique et procédurale, avec des données générées par IA et annotées par des humains. Ces types de mémoire diffèrent en termes de niveau d'abstraction et de dépendance temporelle, capturant des aspects distincts de la récupération de mémoire qui reflètent les défis divers du monde réel. Nous évaluons 15 modèles d'embedding largement utilisés, allant de centaines de millions à dix milliards de paramètres. Les résultats révèlent que (1) LMEB offre un niveau de difficulté raisonnable ; (2) Les modèles plus grands ne sont pas toujours plus performants ; (3) LMEB et MTEB présentent une orthogonalité. Cela suggère que le domaine n'a pas encore convergé vers un modèle universel capable d'exceller dans toutes les tâches de récupération de mémoire, et que les performances en recherche de passages traditionnelle peuvent ne pas se généraliser à la récupération de mémoire à long horizon. En résumé, en fournissant un cadre d'évaluation standardisé et reproductible, LMEB comble une lacune cruciale dans l'évaluation des embeddings de mémoire, stimulant les progrès dans l'embedding de texte pour la gestion de la récupération de mémoire à long terme et dépendante du contexte. LMEB est disponible à l'adresse https://github.com/KaLM-Embedding/LMEB.
Le suivi d'entités visuelles est une capacité cognitive innée chez l'humain, mais il demeure un goulot d'étranglement critique pour les modèles vision-langage (VLM). Ce déficit est souvent masqué dans les benchmarks vidéo existants par des raccourcis visuels. Nous présentons VET-Bench, un banc d'essai diagnostique synthétique mettant en scène des objets visuellement identiques qui nécessitent un suivi exclusivement par continuité spatiotemporelle. Nos expériences révèlent que les VLMs actuels les plus performants obtiennent des résultats proches du hasard sur VET-Bench, exposant une limitation fondamentale : une dépendance excessive aux caractéristiques statiques par image et un échec à maintenir les représentations des entités dans le temps. Nous fournissons une analyse théorique établissant des liens avec le problème du suivi d'état, prouvant que les VLMs basés sur des transformateurs de profondeur fixe sont fondamentalement limités dans le suivi d'objets indiscernables sans supervision intermédiaire en raison de contraintes d'expressivité. Pour y remédier, nous proposons le Raisonnement en Chaîne Spatiotemporellement Ancré (SGCoT) : générer des trajectoires d'objets comme états intermédiaires explicites. En tirant parti de la capacité de suivi d'objets de Molmo2, nous suscitons un raisonnement SGCoT par fine-tuning sur des données textuelles synthétiques pour l'alignement. Notre méthode atteint une précision state-of-the-art dépassant 90% sur VET-Bench, démontrant que les VLMs peuvent résoudre de manière fiable et de bout en bout la tâche vidéo du "jeu de coquille" sans outils externes. Notre code et nos données sont disponibles à l'adresse https://vetbench.github.io.
Nous présentons MOCR (Multimodal OCR), un paradigme d'analyse de documents qui analyse conjointement le texte et les éléments graphiques pour produire des représentations textuelles unifiées. Contrairement aux systèmes OCR conventionnels qui se concentrent sur la reconnaissance de texte et laissent les régions graphiques sous forme de pixels rognés, notre méthode, nommée dots.mocr, traite les éléments visuels tels que les graphiques, les diagrammes, les tableaux et les icônes comme des cibles d'analyse de premier ordre, permettant aux systèmes d'analyser les documents tout en préservant les relations sémantiques entre les éléments. Elle offre plusieurs avantages : (1) elle reconstruit à la fois le texte et les graphiques sous forme de sorties structurées, permettant une reconstruction plus fidèle des documents ; (2) elle prend en charge l'apprentissage de bout en bout sur des éléments de documents hétérogènes, permettant aux modèles d'exploiter les relations sémantiques entre les composants textuels et visuels ; et (3) elle convertit les éléments graphiques précédemment ignorés en une supervision réutilisable au niveau du code, libérant ainsi la supervision multimodale intégrée dans les documents existants. Pour rendre ce paradigme praticable à grande échelle, nous avons construit un moteur de données complet à partir de PDF, de pages web rendues et d'actifs SVG natifs, et avons entraîné un modèle compact de 3 milliards de paramètres via un pré-entraînement par étapes et un fine-tuning supervisé. Nous évaluons dots.mocr sous deux angles : l'analyse de documents et l'analyse de graphiques structurés. Sur les benchmarks d'analyse de documents, il se classe juste derrière Gemini 3 Pro sur notre classement Elo OCR Arena, surpasse les systèmes open-source existants d'analyse de documents, et établit un nouvel état de l'art de 83,9 sur olmOCR Bench. Sur l'analyse de graphiques structurés, dots.mocr obtient une qualité de reconstruction supérieure à Gemini 3 Pro sur les benchmarks image-vers-SVG, démontrant de solides performances sur les graphiques, les mises en page d'interface utilisateur, les figures scientifiques et les diagrammes chimiques. Ces résultats montrent une voie évolutive pour construire des corpus image-vers-code à grande échelle pour le pré-entraînement multimodal. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/rednote-hilab/dots.mocr.
Un sujet récent de pointe en modélisation multimodale consiste à unifier la compréhension visuelle et la génération d'images au sein d'un modèle unique. Cependant, ces deux tâches nécessitent des régimes de décodage et des représentations visuelles incompatibles, rendant non triviale l'optimisation conjointe dans un espace de caractéristiques partagé. Dans ce travail, nous présentons Cheers, un modèle multimodal unifié qui dissocie les détails au niveau des patchs des représentations sémantiques, stabilisant ainsi les sémantiques pour la compréhension multimodale et améliorant la fidélité pour la génération d'images via des résidus de détails conditionnés. Cheers comprend trois composants clés : (i) un tokeniseur visuel unifié qui encode et compresse les états latents de l'image en tokens sémantiques pour un conditionnement efficace des LLMs, (ii) un Transformer basé sur un LLM qui unifie le décodage autorégressif pour la génération de texte et le décodage par diffusion pour la génération d'images, et (iii) une tête en cascade par appariement de flux qui décode d'abord les sémantiques visuelles puis injecte des résidus de détails sémantiquement conditionnés provenant du tokeniseur visuel pour affiner le contenu haute fréquence. Les expériences sur des benchmarks populaires démontrent que Cheers égale ou dépasse les UMMs avancés à la fois en compréhension visuelle et en génération. Cheers réalise également une compression des tokens par 4, permettant un encodage et une génération d'images haute résolution plus efficaces. Notamment, Cheers surpasse le Tar-1.5B sur les benchmarks populaires GenEval et MMBench, tout en nécessitant seulement 20% du coût d'entraînement, indiquant une modélisation multimodale unifiée efficace et efficiente (c'est-à-dire une compression des tokens par 4). Nous publierons l'intégralité du code et des données pour les recherches futures.
Les modèles de diffusion audio-visuelle conjoints récents atteignent une qualité de génération remarquable, mais souffrent d'une latence élevée due à leurs dépendances attentionnelles bidirectionnelles, entravant les applications en temps réel. Nous proposons OmniForcing, le premier cadre permettant de distiller un modèle de diffusion bidirectionnel à double flux hors ligne en un générateur autorégressif streaming de haute fidélité. Cependant, l'application naïve de la distillation causale à de telles architectures à double flux déclenche une instabilité sévère lors de l'entraînement, en raison de l'asymétrie temporelle extrême entre les modalités et de la parcimonie de tokens qui en résulte. Nous abordons l'écart de densité informationnelle inhérent en introduisant un Alignement Bloc-Causal Asymétrique avec un Préfixe Global à troncature zéro qui empêche la dérive de synchronisation multimodale. L'explosion du gradient causée par la parcimonie extrême des tokens audio durant le décalage causal est en outre résolue via un mécanisme de Token Puits Audio équipé d'une contrainte RoPE Identité. Enfin, un paradigme de Distillation par Auto-Forçage Conjoint permet au modèle de s'auto-corriger dynamiquement des erreurs multimodales cumulatives dues au biais d'exposition lors des longues séquences générées. Doté d'un schéma d'inférence à cache KV glissant indépendant des modalités, OmniForcing réalise une génération streaming de pointe à sim25 FPS sur un seul GPU, tout en maintenant une synchronisation multimodale et une qualité visuelle équivalentes à celles de l'enseignant bidirectionnel.Page du projet : https://omniforcing.com{https://omniforcing.com}
Les grands modèles de langage pour vidéo en ligne (VideoLLMs) jouent un rôle crucial dans le support d'interactions réactives en temps réel. Les méthodes existantes se concentrent sur la perception en flux continu, mais manquent d'un flux de raisonnement logique synchronisé. Cependant, l'application directe des méthodes de mise à l'échelle au moment du test entraîne une latence de réponse inacceptable. Pour résoudre ce compromis, nous proposons Video Streaming Thinking (VST), un nouveau paradigme pour la compréhension de vidéo en flux continu. Il supporte un mécanisme de réflexion pendant le visionnage, qui active le raisonnement sur des extraits vidéo entrants durant le streaming. Cette conception améliore la compréhension rapide et la cognition cohérente tout en préservant la réactivité en temps réel, en amortissant la latence de raisonnement du LLM sur la lecture vidéo. De plus, nous introduisons un pipeline complet de post-formation qui intègre VST-SFT, qui adapte structurellement le VideoLLM hors ligne au raisonnement causal en streaming, et VST-RL, qui fournit une amélioration de bout en bout grâce à l'auto-exploration dans un environnement d'interaction vidéo multi-tours. Par ailleurs, nous concevons un pipeline automatisé de synthèse de données d'entraînement qui utilise des graphes de connaissances vidéo pour générer des paires question-réponse de streaming de haute qualité, avec un enchaînement de pensée (Chain-of-Thought) ancré dans les entités-relations pour imposer un raisonnement multi-preuve et une attention soutenue au flux vidéo. Des évaluations approfondies montrent que VST-7B obtient de solides performances sur des benchmarks en ligne, par exemple 79,5% sur StreamingBench et 59,3% sur OVO-Bench. Parallèlement, VST reste compétitif sur des benchmarks hors ligne de forme longue ou de raisonnement. Comparé à Video-R1, VST répond 15,7 fois plus vite et réalise une amélioration de +5,4% sur VideoHolmes, démontrant une efficacité supérieure et une forte généralisation sur diverses tâches de compréhension vidéo. Le code, les données et les modèles seront publiés sur https://github.com/1ranGuan/VST.
La formation d'agents compétents en génie logiciel nécessite des environnements à grande échelle, exécutables et vérifiables, offrant des boucles de rétroaction dynamiques pour l'édition itérative du code, l'exécution de tests et l'affinement des solutions. Cependant, les ensembles de données open-source existants restent limités en échelle et en diversité de dépôts, tandis que les solutions industrielles sont opaques avec des infrastructures non publiées, créant une barrière prohibitive pour la plupart des groupes de recherche académiques. Nous présentons OpenSWE, le cadre entièrement transparent le plus vaste pour l'entraînement d'agents en génie logiciel en Python, comprenant 45 320 environnements Docker exécutables couvrant plus de 12,8k dépôts, avec tous les Dockerfiles, scripts d'évaluation et infrastructures entièrement open-source pour la reproductibilité. OpenSWE est construit via un pipeline de synthèse multi-agents déployé sur un cluster distribué de 64 nœuds, automatisant l'exploration des dépôts, la construction des Dockerfiles, la génération de scripts d'évaluation et l'analyse itérative des tests. Au-delà de l'échelle, nous proposons un pipeline de filtrage axé sur la qualité qui caractérise la difficulté inhérente de chaque environnement, éliminant les instances soit insolubles soit insuffisamment difficiles et ne conservant que celles qui maximisent l'efficacité d'apprentissage. Avec 891k$ dépensés pour la construction des environnements et 576k$ supplémentaires pour l'échantillonnage de trajectoires et la curation basée sur la difficulté, le projet représente un investissement total d'environ 1,47 million de dollars, produisant environ 13 000 trajectoires curatées provenant de près de 9 000 environnements à qualité garantie. Des expérimentations approfondies valident l'efficacité d'OpenSWE : OpenSWE-32B et OpenSWE-72B atteignent respectivement 62,4% et 66,0% sur SWE-bench Verified, établissant un état de l'art parmi la série Qwen2.5. De plus, l'entraînement ciblé sur le génie logiciel produit des améliorations substantielles hors domaine, incluant jusqu'à 12 points sur le raisonnement mathématique et 5 points sur les benchmarks scientifiques, sans dégradation de la rappel factuel.
Les tâches de vision-à-code exigent des modèles qu'ils reconstruisent des entrées visuelles structurées, telles que des graphiques, des tableaux et des SVG, en représentations exécutables ou structurées avec une haute fidélité visuelle. Bien que les grands modèles de vision et de langage (LVLM) récents obtiennent des résultats solides via un fine-tuning supervisé, l'apprentissage par renforcement reste difficile en raison de signaux de récompense mal alignés. Les récompenses existantes reposent soit sur des règles textuelles, soit sur une similarité approximative des embeddings visuels, deux approches qui échouent à capturer les écarts visuels fins et sont vulnérables au détournement de récompense. Nous proposons Visual-ERM, un modèle de récompense génératif multimodal qui fournit un retour granulaire, interprétable et agnostique à la tâche pour évaluer la qualité vision-à-code directement dans l'espace visuel rendu. Intégré à l'apprentissage par renforcement, Visual-ERM améliore Qwen3-VL-8B-Instruct de +8,4 points sur la tâche graphique-à-code et produit des gains constants sur l'analyse de tableaux et de SVG (+2,7 et +4,1 en moyenne), tout en renforçant la mise à l'échelle au moment du test via la réflexion et la révision. Nous présentons également VC-RewardBench, un benchmark pour évaluer les écarts image-à-image fins sur des données visuelles structurées, où Visual-ERM (8B) surpasse nettement Qwen3-VL-235B-Instruct et approche les performances des modèles propriétaires leaders. Nos résultats suggèrent qu'une supervision visuelle granulaire est à la fois nécessaire et suffisante pour l'apprentissage par renforcement en vision-à-code, indépendamment de la spécificité de la tâche.
Les modèles de langage multimodaux (MLLM) sont de plus en plus utilisés pour exécuter des flux de travail visuels tels que la navigation d'interfaces graphiques, où l'étape suivante dépend de conditions compositionnelles visuelles vérifiées (par exemple, « si une boîte de dialogue d'autorisation apparaît et que la couleur de l'interface est verte, cliquez sur Autoriser ») et où le processus peut bifurquer ou se terminer prématurément. Pourtant, cette capacité reste sous-évaluée : les benchmarks existants se concentrent sur des compositions superficielles ou des contraintes indépendantes plutôt que sur des conditionnelles compositionnelles profondément enchaînées. Dans cet article, nous présentons MM-CondChain, un benchmark pour le raisonnement compositionnel profond ancré dans le visuel. Chaque instance du benchmark est organisée comme une chaîne de raisonnement à plusieurs niveaux, où chaque niveau contient une condition compositionnelle non triviale fondée sur des preuves visuelles et construite à partir de multiples objets, attributs ou relations. Pour répondre correctement, un MLLM doit percevoir l'image en détail, raisonner sur plusieurs éléments visuels à chaque étape et suivre le chemin d'exécution résultant jusqu'au résultat final. Pour construire de manière scalable des données de type flux de travail, nous proposons un pipeline de synthèse agentique : un Planificateur orchestre la génération couche par couche des conditions compositionnelles, tandis qu'une Représentation Intermédiaire Programmatique Vérifiable (VPIR) garantit que la condition de chaque couche est mécaniquement vérifiable. Un Compositeur assemble ensuite ces couches vérifiées en instructions complètes. En utilisant ce pipeline, nous construisons des benchmarks couvrant trois domaines visuels : les images naturelles, les graphiques de données et les trajectoires d'interfaces graphiques. Les expériences sur une gamme de MLLM montrent que même le modèle le plus performant n'atteint que 53,33 en F1 de chemin, avec des chutes brutales sur les négatifs difficiles et à mesure que la profondeur ou la complexité des prédicats augmente, confirmant que le raisonnement compositionnel profond reste un défi fondamental.
L'ajustement à l'inférence est devenu un paradigme dominant pour améliorer la fiabilité des agents de LLM, mais les approches actuelles traitent le calcul comme une ressource abondante, permettant aux agents d'épuiser les budgets de tokens et d'outils dans des étapes redondantes ou des trajectoires sans issue. Les méthodes existantes conscientes du budget nécessitent soit un fine-tuning coûteux, soit reposent sur des heuristiques grossières au niveau de la trajectoire incapables d'intervenir en cours d'exécution. Nous proposons l'Arbre de Valeur Conscient du Budget (BAVT), un framework d'inférence sans entraînement qui modélise le raisonnement multi-sauts comme un arbre de recherche dynamique guidé par une estimation de la valeur au niveau de l'étape au sein d'un seul modèle de LLM. Une autre innovation clé est un mécanisme de sélection de nœuds conditionné par le budget, qui utilise le ratio de ressources restantes comme exposant de mise à l'échelle naturel sur les valeurs des nœuds, fournissant une transition principielle et sans paramètre d'une exploration large à une exploitation gourmande à mesure que le budget s'épuise. Pour contrer la surconfiance bien connue de l'auto-évaluation des LLM, BAVT emploie un prédicteur de valeur résiduel qui évalue le progrès relatif plutôt que la qualité absolue de l'état, permettant un élagage fiable des appels d'outils non informatifs ou redondants. Nous fournissons en outre une garantie de convergence théorique, prouvant que BAVT atteint une réponse terminale avec une probabilité d'au moins 1-ε sous une borne de budget finie explicite. Des évaluations approfondies sur quatre benchmarks de QA multi-sauts à travers deux familles de modèles démontrent que BAVT surpasse constamment les lignes de base par échantillonnage parallèle. Plus notablement, BAVT sous des contraintes strictes de faible budget dépasse les performances de base avec une allocation de ressources 4 fois supérieure, établissant qu'une gestion intelligente du budget surpasse fondamentalement la mise à l'échelle par la force brute des calculs.
L'adoption croissante des modèles de langage à grande échelle (LLM) permet aux scientifiques en IA d'effectuer des tâches complexes de découverte scientifique de bout en bout, nécessitant la coordination de rôles spécialisés, incluant la génération d'idées et l'exécution expérimentale. Cependant, la plupart des systèmes de scientifiques en IA à la pointe reposent sur des pipelines statiques et conçus manuellement, et ne parviennent pas à s'adapter en fonction des historiques d'interaction accumulés. Par conséquent, ces systèmes négligent des axes de recherche prometteurs, répètent les expériences ayant échoué et poursuivent des idées irréalisables. Pour remédier à cela, nous présentons EvoScientist, un cadre évolutif de scientifique en IA multi-agents qui améliore continuellement les stratégies de recherche grâce à une mémoire persistante et à une auto-évolution. EvoScientist comprend trois agents spécialisés : un Agent Chercheur (RA) pour la génération d'idées scientifiques, un Agent Ingénieur (EA) pour la mise en œuvre et l'exécution des expériences, et un Agent Gestionnaire de l'Évolution (EMA) qui distille les enseignements des interactions passées en connaissances réutilisables. EvoScientist contient deux modules de mémoire persistante : (i) une mémoire d'idéation, qui résume les axes de recherche réalisables à partir des idées les mieux classées tout en enregistrant les directions précédemment infructueuses ; et (ii) une mémoire d'expérimentation, qui capture les stratégies efficaces de traitement des données et d'entraînement des modèles dérivées des trajectoires de recherche de code et des implémentations les plus performantes. Ces modules permettent au RA et à l'EA de récupérer les stratégies antérieures pertinentes, améliorant ainsi la qualité des idées et les taux de réussite de l'exécution du code au fil du temps. Les expériences montrent qu'EvoScientist surpasse 7 systèmes open-source et commerciaux à la pointe dans la génération d'idées scientifiques, obtenant une plus grande nouveauté, faisabilité, pertinence et clarté via une évaluation automatique et humaine. EvoScientist améliore également considérablement les taux de réussite de l'exécution du code grâce à l'évolution multi-agents, démontrant l'efficacité de la mémoire persistante pour la découverte scientifique de bout en bout.
L'Optimisation Relative des Politiques par Groupe (GRPO) est apparue comme un cadre puissant pour l'alignement des préférences dans les modèles de flux texte-image (T2I). Cependant, nous observons que le paradigme standard, qui consiste à évaluer un groupe d'échantillons générés par rapport à une seule condition, souffre d'une exploration insuffisante des relations inter-échantillons, limitant à la fois l'efficacité de l'alignement et les plafonds de performance. Pour remédier à ce schéma d'évaluation parcellaire à vue unique, nous proposons la GRPO Multi-Vues (MV-GRPO), une approche novatrice qui améliore l'exploration des relations en augmentant l'espace des conditions pour créer un mapping de récompense dense et multi-vues. Plus précisément, pour un groupe d'échantillons générés à partir d'une même instruction, MV-GRPO exploite un Renforçateur de Condition flexible pour générer des légendes sémantiquement adjacentes mais diverses. Ces légendes permettent une ré-estimation multi-vues de l'avantage, capturant des attributs sémantiques variés et fournissant des signaux d'optimisation plus riches. En dérivant la distribution de probabilité des échantillons originaux conditionnés par ces nouvelles légendes, nous pouvons les intégrer au processus d'entraînement sans coûteuse régénération d'échantillons. Des expériences approfondies démontrent que MV-GRPO atteint des performances d'alignement supérieures aux méthodes de l'état de l'art.
Les modèles génératifs vidéo à grande échelle sont entraînés sur des données visuelles vastes et diversifiées, leur permettant d'intérioriser des connaissances préalables riches sur la structure, la sémantique et la dynamique du monde visuel. Bien que ces modèles aient démontré des capacités génératives impressionnantes, leur potentiel en tant qu'apprenants visuels généralistes reste largement inexploité. Dans ce travail, nous présentons V-Bridge, un cadre qui relie cette capacité latente à des tâches polyvalentes de restauration d'images en few-shot. Nous réinterprétons la restauration d'images non pas comme un problème de régression statique, mais comme un processus génératif progressif, et exploitons les modèles vidéo pour simuler le raffinement graduel d'entrées dégradées vers des sorties haute fidélité. De manière surprenante, avec seulement 1 000 échantillons d'entraînement multi-tâches (moins de 2% des méthodes de restauration existantes), les modèles vidéo pré-entraînés peuvent être amenés à réaliser une restauration d'images compétitive, accomplissant multiples tâches avec un seul modèle, rivalisant avec des architectures spécialisées conçues explicitement pour cet usage. Nos résultats révèlent que les modèles génératifs vidéo apprennent implicitement des connaissances préalables de restauration puissantes et transférables, qui peuvent être activées avec des données extrêmement limitées, remettant en cause la frontière traditionnelle entre la modélisation générative et la vision bas niveau, et ouvrant un nouveau paradigme de conception pour les modèles fondateurs dans les tâches visuelles.
L'évolution rapide des agents incarnés a accéléré le déploiement de robots domestiques dans des environnements réels. Cependant, contrairement aux environnements industriels structurés, les espaces domestiques introduisent des risques de sécurité imprévisibles, où les limitations du système telles que la latence de perception et le manque de connaissances de sens commun peuvent entraîner des erreurs dangereuses. Les évaluations de sécurité actuelles, souvent limitées à des images statiques, du texte ou des dangers généraux, ne permettent pas d'évaluer de manière adéquate la détection dynamique d'actions non sécurisées dans ces contextes spécifiques. Pour combler cette lacune, nous présentons HomeSafe-Bench, un benchmark exigeant conçu pour évaluer les modèles vision-langage (VLM) sur la détection d'actions non sécurisées dans des scénarios domestiques. HomeSafe-Bench est construit via un pipeline hybride combinant la simulation physique avec une génération vidéo avancée et comprend 438 cas diversifiés couvrant six domaines fonctionnels, assortis d'annotations multidimensionnelles granulaires. Au-delà du benchmarking, nous proposons Hierarchical Dual-Brain Guard for Household Safety (HD-Guard), une architecture flux hiérarchique pour la surveillance de sécurité en temps réel. HD-Guard coordonne un Cerveau Rapide léger pour un criblage continu à haute fréquence avec un Cerveau Lent asynchrone à grande échelle pour un raisonnement multimodal profond, équilibrant efficacement l'efficacité de l'inférence avec la précision de détection. Les évaluations démontrent qu'HD-Guard atteint un compromis supérieur entre la latence et les performances, tandis que notre analyse identifie les goulots d'étranglement critiques dans la détection de sécurité actuelle basée sur les VLM.
Les modèles de diffusion ont démontré une capacité remarquable dans les applications de génération texte-image (T2I). Malgré leurs résultats de génération avancés, ils souffrent de lourdes surcharges computationnelles, en particulier pour les grands modèles contenant des dizaines de milliards de paramètres. Des travaux antérieurs ont montré que remplacer une partie des étapes de débruitage par un modèle plus petit permet de maintenir la qualité de génération. Cependant, ces méthodes se concentrent uniquement sur l'économie de calcul pour certaines étapes temporelles, ignorant la différence de demande computationnelle au sein d'une même étape. Dans ce travail, nous proposons HybridStitch, un nouveau paradigme de génération T2I qui traite la génération comme une tâche d'édition. Concrètement, nous introduisons une étape hybride qui intègre conjointement le grand modèle et le petit modèle. HybridStitch sépare l'image entière en deux régions : l'une relativement facile à générer, permettant une transition précoce vers le petit modèle, et l'autre plus complexe nécessitant un raffinement par le grand modèle. HybridStitch utilise le petit modèle pour construire une ébauche grossière tout en exploitant le grand modèle pour éditer et affiner les régions complexes. Selon notre évaluation, HybridStitch atteint une accélération de 1,83 fois sur Stable Diffusion 3, ce qui est plus rapide que toutes les méthodes existantes de mélange de modèles.
Les modèles de traitement du langage multimodal (MLLM) démontrent d'excellentes performances pour la compréhension vidéo hors ligne, mais la plupart se limitent à l'inférence hors ligne ou possèdent un faible raisonnement en temps réel, rendant difficile l'interaction multi-tours sur des flux vidéo continus. Les méthodes de streaming existantes utilisent généralement un paradigme perception-génération entrelacé, qui empêche la perception et la génération concurrentes et entraîne une dégradation précoce de la mémoire à mesure que les flux s'allongent, nuisant à la modélisation des dépendances à long terme. Nous proposons Think While Watching, un cadre de raisonnement vidéo en streaming ancré dans la mémoire qui préserve une mémoire continue au niveau des segments pendant l'interaction multi-tours. Nous construisons un jeu de données en chaîne de pensée à trois étapes et multiples tours et adoptons une stratégie d'entraînement adaptée aux étapes, tout en imposant une causalité stricte via un masque de causalité en streaming au niveau des segments et un encodage positionnel en streaming. Pendant l'inférence, nous introduisons un pipeline efficace qui chevauche le visionnage et la réflexion et sélectionne de manière adaptative le meilleur moteur d'attention. Selon les protocoles d'entrée en streaming à un tour et à multiples tours, notre méthode obtient des résultats solides. Basée sur Qwen3-VL, elle amène la précision à un tour de 2,6 % sur StreamingBench et de 3,79 % sur OVO-Bench. Dans le cadre multi-tours, elle maintient les performances tout en réduisant les tokens de sortie de 56 %. Le code est disponible à l'adresse : https://github.com/wl666hhh/Think_While_Watching/
Malgré les progrès rapides des modèles de génération vidéo, l'alignement de leurs résultats avec l'intention complexe de l'utilisateur reste un défi. Les méthodes d'optimisation au moment du test existantes sont généralement soit très gourmandes en calcul, soit nécessitent un accès de type "boîte blanche" aux mécanismes internes du modèle. Pour résoudre ce problème, nous présentons VQQA (Video Quality Question Answering), un cadre multi-agent unifié et généralisable à diverses modalités d'entrée et tâches de génération vidéo. En générant dynamiquement des questions visuelles et en utilisant les critiques résultantes d'un modèle vision-langage (VLM) comme gradients sémantiques, VQQA remplace les métriques d'évaluation passives traditionnelles par un retour d'information actionnable et interprétable par l'homme. Cela permet un processus d'optimisation de prompt en boucle fermée hautement efficace via une interface en langage naturel de type "boîte noire". Des expériences approfondies démontrent que VQQA isole et résout efficacement les artefacts visuels, améliorant considérablement la qualité de la génération en seulement quelques étapes de raffinement. Applicable aux tâches de texte-à-vidéo (T2V) et d'image-à-vidéo (I2V), notre méthode obtient des améliorations absolues de +11,57 % sur T2V-CompBench et de +8,43 % sur VBench2 par rapport à la génération standard, surpassant significativement les techniques d'optimisation de prompt et de recherche stochastique de l'état de l'art.
Les grands modèles de langage (LLM) basés sur l'architecture Transformer s'appuient sur la mise en cache clé-valeur (KV) pour éviter les calculs redondants lors de l'inférence autoregressive. Bien que ce mécanisme améliore considérablement l'efficacité, la taille du cache croît linéairement avec la longueur de la séquence d'entrée, devenant rapidement un goulot d'étranglement pour les tâches à contexte long. Les solutions existantes atténuent ce problème en évacuant les tokens d'entrée (prompt) KV jugés non importants, guidées par des scores d'importance estimés. Notamment, des travaux récents proposent d'améliorer la qualité de l'éviction en se "projetant dans le futur" : un générateur d'ébauche produit une réponse future substitutive approximant la réponse réelle du modèle cible, laquelle est ensuite utilisée pour estimer plus précisément l'importance des entrées KV en cache. Cependant, ces approches reposent sur une génération d'ébauche computationally coûteuse, qui introduit une surcharge substantielle lors de la phase de pré-remplissage (prefilling) et limite leur praticité dans un déploiement réel. Pour relever ce défi, nous proposons LookaheadKV, un cadre d'éviction léger qui exploite la puissance de la réponse future substitutive sans nécessiter de génération explicite d'ébauche. LookaheadKV augmente les couches Transformer avec des modules à efficacité paramétrique, entraînés à prédire avec une grande précision les véritables scores d'importance. Notre conception garantit une surcharge d'exécution négligeable, comparable aux heuristiques peu coûteuses existantes, tout en atteignant une précision supérieure aux méthodes d'approximation plus onéreuses. Des expériences approfondies sur des benchmarks de compréhension à contexte long, couvrant un large éventail de modèles, démontrent que notre méthode surpasse non seulement les bases de référence récentes et compétitives dans diverses tâches de compréhension, mais réduit également le coût de l'éviction jusqu'à 14,5 fois, conduisant à un temps jusqu'au premier token (time-to-first-token) significativement plus rapide. Notre code est disponible à l'adresse https://github.com/SamsungLabs/LookaheadKV.
La saturation des données de pré-entraînement de haute qualité a déplacé l'attention de la recherche vers des systèmes évolutionnaires capables de générer continuellement de nouveaux artefacts, conduisant au succès d'AlphaEvolve. Cependant, les progrès de tels systèmes sont entravés par l'absence d'évaluation quantitative rigoureuse. Pour relever ce défi, nous présentons CreativeBench, un benchmark pour évaluer la créativité des machines dans la génération de code, fondé sur un cadre cognitif classique. Composé de deux sous-ensembles – CreativeBench-Combo et CreativeBench-Explore – ce benchmark cible la créativité combinatoire et exploratoire via un pipeline automatisé utilisant la rétro-ingénierie et l'auto-jeu. En tirant parti de code exécutable, CreativeBench distingue objectivement la créativité de l'hallucination via une métrique unifiée définie comme le produit de la qualité et de la nouveauté. Notre analyse des modèles de pointe révèle des comportements distincts : (1) la mise à l'échelle améliore significativement la créativité combinatoire mais présente des rendements décroissants pour l'exploration ; (2) les modèles plus grands présentent une « convergence par mise à l'échelle », devenant plus corrects mais moins divergents ; et (3) les capacités de raisonnement profitent principalement à l'exploration contrainte plutôt qu'à la combinaison. Enfin, nous proposons EvoRePE, une stratégie de pilotage plug-and-play au moment de l'inférence qui internalise les motifs de recherche évolutionnaire pour améliorer constamment la créativité des machines.
Les agents incarnés en monde ouvert doivent résoudre des tâches à long horizon où le principal goulot d'étranglement n'est pas la qualité de la planification étape par étape, mais l'organisation et l'évolution de l'expérience interactionnelle. Pour cela, nous présentons Steve-Evolving, un cadre auto-évolutif non paramétrique qui couple étroitement le diagnostic d'exécution granulaire avec une distillation de connaissances à double voie dans une boucle fermée. La méthode suit trois phases : l'Ancrage Expérientiel, la Distillation Expérientielle et le Contrôle en Boucle Fermée Piloté par la Connaissance. En détail, l'Ancrage Expérientiel solidifie chaque tentative de sous-objectif en un tuple d'expérience structuré avec un schéma fixe (état initial, action, résultat-diagnostic et état final) et l'organise dans un espace expérientiel à trois niveaux avec des index multidimensionnels (par exemple, signatures de condition, hachage spatial et balises sémantiques) plus une synthèse glissante pour un rappel efficace et vérifiable. Pour garantir une densité d'information suffisante pour l'attribution, la couche d'exécution fournit des signaux de diagnostic compositionnels au-delà des résultats binaires, incluant des résumés des différences d'état, des causes d'échec énumérées, des indicateurs continus et une détection de stagnation/boucle. De plus, les trajectoires réussies de la Distillation Expérientielle sont généralisées en compétences réutilisables avec des préconditions explicites et des critères de vérification, tandis que les échecs sont distillés en garde-fous exécutables qui capturent les causes racines et interdisent les opérations risquées aux granularités de sous-objectif et de tâche. Par ailleurs, dans le Contrôle en Boucle Fermée Piloté par la Connaissance, les compétences et garde-fous récupérés sont injectés dans un planificateur LLM, et une replanification locale déclenchée par le diagnostic met à jour les contraintes actives en ligne, formant un processus d'évolution continue sans aucune mise à jour des paramètres du modèle. Les expériences sur la suite de tâches à long horizon Minecraft MCU démontrent des améliorations constantes par rapport aux lignes de base à récupération statique.
Les vecteurs d'attention parcimonieuse (SAV) sont apparus comme une excellente alternative non supervisée au fine-tuning supervisé ou à l'adaptation bas rang pour améliorer les performances des modèles vision-langage (VLM). Fondamentalement, les SAV sélectionnent quelques têtes d'attention précises pour une tâche donnée et les utilisent comme classifieurs, plutôt que de s'appuyer sur la prédiction du modèle. Dans le même esprit, nous constatons que sonder directement les activations brutes du VLM, sous forme de valeurs scalaires, suffit à produire des classifieurs précis sur diverses tâches en aval ancrées visuellement. Ce déplacement de l'attention des vecteurs vers les activations scalaires augmente considérablement l'espace de recherche de paramètres précis, nous permettant de trouver des neurones plus discriminants dès le premier token généré. Nous appelons ces activations des Super Neurones (SN). Dans ce cadre de sondage, nous découvrons qu'assez de SN apparaissent dans les couches peu profondes du grand modèle de langage pour permettre un arrêt extrêmement précoce dès la première couche du modèle au premier token généré. Par rapport au réseau original, les SN améliorent robustement les performances de classification tout en atteignant une accélération pouvant aller jusqu'à 5,10x.
Les modèles de récupération basés sur des modèles vision-langage (VLM) ont porté la qualité de la récupération de documents visuels (VDR) à un niveau impressionnant. Ils nécessitent un encodeur de plusieurs milliards de paramètres, identique pour l'indexation des documents et l'encodage des requêtes, ce qui entraîne une latence élevée et une dépendance aux GPU, même pour les requêtes en texte brut. Nous observons que cette conception est inutilement symétrique : les documents sont visuellement complexes et exigent une compréhension visuelle robuste, tandis que les requêtes ne sont que de courtes chaînes de texte. NanoVDR exploite cette asymétrie requête-document en découplant les deux chemins d'encodage : un enseignant VLM gelé de 2 milliards de paramètres indexe les documents hors ligne, tandis qu'un étudiant distillée, uniquement textuel et d'une taille pouvant aller jusqu'à 69 millions de paramètres, encode les requêtes lors de l'inférence. Le choix clé de la conception réside dans l'objectif de distillation. Par une comparaison systématique de six objectifs sur trois architectures de base et 22 ensembles de données de référence ViDoRe, nous constatons que l'alignement cosinus point par point sur le texte de la requête surpasse constamment les alternatives basées sur le classement et les méthodes contrastives, tout en ne nécessitant que des embeddings de requêtes de l'enseignant précalculés et aucun traitement de document pendant l'entraînement. De plus, nous identifions le transfert translinguistique comme le principal goulot d'étranglement des performances, et nous le résolvons économiquement en enrichissant les données d'entraînement avec des requêtes traduites automatiquement. Le NanoVDR-S-Multi (DistilBERT, 69M) qui en résulte conserve 95,1 % de la qualité de l'enseignant et surpasse DSE-Qwen2 (2B) sur les versions v2 et v3 avec 32 fois moins de paramètres et une latence des requêtes CPU 50 fois plus faible, pour un coût total d'entraînement inférieur à 13 heures GPU.
La reconstruction compositionnelle de scènes vise à créer des représentations centrées sur les objets plutôt que des scènes holistiques à partir de vidéos du monde réel, ce qui est naturellement applicable à la simulation et à l'interaction. Les approches conventionnelles de reconstruction compositionnelle mettent principalement l'accent sur l'apparence visuelle et présentent une capacité de généralisation limitée aux scénarios réels. Dans cet article, nous proposons SimRecon, un cadre qui réalise un pipeline "Perception-Génération-Simulation" pour la reconstruction de scènes encombrées, qui effectue d'abord une reconstruction sémantique au niveau de la scène à partir d'une vidéo, puis génère des objets individuels, et enfin assemble ces éléments dans le simulateur. Cependant, combiner naïvement ces trois étapes entraîne une infidélité visuelle des assets générés et une implausibilité physique de la scène finale, un problème particulièrement sévère pour les scènes complexes. Ainsi, nous proposons en outre deux modules de liaison entre les trois étapes pour résoudre ce problème. Plus précisément, pour la transition de la Perception à la Génération, cruciale pour la fidélité visuelle, nous introduisons l'Optimisation Active du Point de Vue, qui recherche activement dans l'espace 3D pour acquérir des images projetées optimales comme conditions pour la complétion d'objets individuels. De plus, pour la transition de la Génération à la Simulation, essentielle pour la plausibilité physique, nous proposons un Synthéthiseur de Graphe de Scène, qui guide la construction à partir de zéro dans les simulateurs 3D, reflétant le principe constructif natif du monde réel. Des expériences approfondies sur le jeu de données ScanNet valident la performance supérieure de notre méthode par rapport aux approches état de l'art précédentes.
Pourquoi les modèles de langage préfèrent-ils parfois les énoncés corrects même lorsqu'ils sont entraînés sur des données de qualité variable ? Nous introduisons le principe de Compression-Cohérence : la prédiction du token suivant favorise les hypothèses qui permettent des descriptions plus courtes et plus cohérentes en interne des données d'entraînement. Un biais en faveur de la vérité n'émerge que lorsque les alternatives fausses sont structurellement plus difficiles à compresser. Nous testons cela à l'aide de petits transformeurs de niveau caractère de type GPT-2 (3,5M–86M de paramètres) sur des corpus mathématiques synthétiques avec des mélanges contrôlés de règles correctes et incorrectes. Dans le scénario d'erreurs aléatoires, les modèles préfèrent fortement les complétions correctes lors d'évaluations par paires : 83,1 % de précision avec des données équilibrées et 67,0 % même lorsque les règles correctes n'apparaissent que dans 10 % du corpus. Remplacer les erreurs aléatoires par un système de règles cohérent mais mathématiquement incorrect élimine largement cette préférence (précision proche du hasard). Dans un monde synthétique plus proche du langage naturel, l'effet est plus faible mais toujours présent (57,7 %). Des expériences supplémentaires montrent que l'intégration d'étapes de vérification peut restaurer la préférence pour la justesse même à petite échelle, tandis que l'augmentation du nombre de règles cohérentes produit une amélioration graduelle de la précision. Nos résultats suggèrent que ce qui apparaît comme un « biais de vérité » est largement un effet secondaire de la pression de compression et de la préférence pour la cohérence interne, plutôt qu'une tendance intrinsèque vers la vérité. Le code complet et les données sont disponibles à l'adresse https://github.com/Rai220/compression-drives-truth.
Les grands modèles de langage (LLM) peuvent inférer des attributs sensibles tels que le genre ou l'âge à partir d'indices indirects comme les noms et les pronoms, ce qui risque de biaiser les recommandations. Bien que plusieurs méthodes de débiaisage existent, elles nécessitent un accès aux poids des LLM, sont coûteuses en calcul et ne peuvent être utilisées par des non-spécialistes. Pour combler cette lacune, nous étudions les biais implicites dans les systèmes de recommandation basés sur les LLM (LLMRecs) et explorons si des stratégies fondées sur l'ingénierie des prompts peuvent constituer une approche de débiaisage légère et facile à utiliser. Nous proposons trois stratégies de prompt conscientes des biais pour les LLMRecs. À notre connaissance, il s'agit de la première étude sur les approches de débiaisage par prompt dans les LLMRecs qui se concentre sur l'équité entre groupes d'utilisateurs. Nos expériences avec 3 LLM, 4 modèles de prompt, 9 valeurs d'attributs sensibles et 2 jeux de données montrent que notre approche de débiaisage, qui consiste à demander explicitement à un LLM d'être équitable, peut améliorer l'équité jusqu'à 74% tout en maintenant une efficacité comparable, mais peut parfois sur-promouvoir certains groupes démographiques.
Les anomalies des séries temporelles multivariées se manifestent souvent par des changements dans les dépendances inter-canaux plutôt que par de simples excursions d'amplitude. Dans la conduite autonome, par exemple, une commande de direction peut être intrinsèquement cohérente mais se découpler de l'accélération latérale résultante. Les détecteurs basés sur les résidus peuvent manquer de telles anomalies lorsque des modèles séquentiels flexibles reconstruisent encore les signaux de manière plausible malgré une coordination altérée. Nous présentons AxonAD, un détecteur non supervisé qui traite l'évolution des requêtes d'attention multi-têtes comme un processus prévisible à court terme. Une voie de reconstruction mise à jour par gradient est couplée à un prédicteur basé uniquement sur l'historique qui prévoit les futurs vecteurs de requête à partir du contexte passé. Ce système est entraîné via un objectif de prédiction masquée contre un encodeur cible à moyenne mobile exponentielle (EMA). Lors de l'inférence, l'erreur de reconstruction est combinée à un score d'inadéquation des requêtes agrégé en queue de distribution, qui mesure l'écart cosinus entre les requêtes prédites et cibles sur les derniers pas de temps. Cette double approche offre une sensibilité aux changements structurels de dépendance tout en conservant la détection au niveau de l'amplitude. Sur des données de télémétrie véhiculaire propriétaires avec annotations d'intervalles, et sur la suite multivariée TSB-AD (17 jeux de données, 180 séries) avec des métriques sans seuil et sensibles à l'étendue, AxonAD améliore la qualité du classement et la localisation temporelle par rapport à des bases de référence solides. Les études d'ablation confirment que la prédiction des requêtes et la notation combinée sont les principaux facteurs des gains observés. Le code est disponible à l'URL https://github.com/iis-esslingen/AxonAD.
Les détecteurs d'anomalies de séries temporelles sont généralement comparés sur du matériel de classe station de travail lors d'exécutions sans contrainte. Cependant, la surveillance embarquée nécessite une latence prévisible et un comportement stable avec un parallélisme CPU limité. Les classements basés uniquement sur la précision peuvent donc donner une image trompeuse des méthodes qui restent réalisables sous des contraintes pertinentes pour le déploiement. Nous présentons ECoLAD (Efficiency Compute Ladder for Anomaly Detection), un protocole d'évaluation axé sur le déploiement, matérialisé par une étude empirique sur des données de télémétrie automobile propriétaires (taux d'anomalie ≈0,022) et sur des benchmarks publics complémentaires. ECoLAD applique une échelle monotone de réduction de calcul sur des familles de détecteurs hétérogènes en utilisant des règles de mise à l'échelle mécaniquement déterminées, à entiers uniquement, et des plafonds explicites de threads CPU, tout en journalisant chaque changement de configuration appliqué. Le comportement sous contrainte de débit est caractérisé en balayant des taux de scoring cibles et en rapportant (i) la couverture (la fraction d'entités atteignant la cible) et (ii) la meilleure AUC-PR réalisable parmi les configurations mesurées de l'échelle satisfaisant la cible. Sur la télémétrie automobile contrainte, des détecteurs classiques légers maintiennent à la fois la couverture et l'amélioration de la détection au-dessus de la ligne de base aléatoire sur l'ensemble du balayage de débit. Plusieurs méthodes profondes perdent en faisabilité avant de perdre en précision.
La ré-identification (ReID) intermodale de navires entre les images optiques et les images radar à synthèse d'ouverture (SAR) est fondamentalement compliquée par l'écart radiométrique important entre l'imagerie optique passive et la télédétection radar active cohérente. Si les approches existantes reposent principalement sur l'alignement des distributions statistiques ou l'appariement sémantique, elles négligent souvent un principe physique critique : les navires sont des objets rigides dont les structures géométriques restent stables quelles que soient les modalités de détection, tandis que l'apparence texturale est fortement dépendante de la modalité. Dans ce travail, nous proposons SDF-Net, un réseau d'apprentissage de caractéristiques dissociées sensible à la structure, qui intègre systématiquement la cohérence géométrique dans la ReID de navires optique-SAR. Construit sur une architecture de base de type ViT, SDF-Net introduit une contrainte de cohérence structurelle qui extrait des statistiques d'énergie de gradient invariantes à l'échelle des couches intermédiaires pour ancrer robustement les représentations face aux variations radiométriques. Au stade terminal, SDF-Net dissocie les représentations apprises en caractéristiques d'identité invariantes à la modalité et en caractéristiques spécifiques à la modalité. Ces indices découplés sont ensuite intégrés via une fusion résiduelle additive sans paramètre, améliorant efficacement le pouvoir discriminant. Des expériences approfondies sur le jeu de données HOSS-ReID démontrent que SDF-Net surpasse constamment les méthodes état de l'art existantes. Le code et les modèles entraînés sont disponibles publiquement à l'adresse https://github.com/cfrfree/SDF-Net.
Comprendre et répondre aux questions basées sur le geste de pointage d'un utilisateur est essentiel pour les assistants IA egocentriques de nouvelle génération. Cependant, les modèles de langage multimodaux (MLLM) actuels peinent à accomplir de telles tâches en raison du manque de données riches en gestes et de leur capacité limitée à inférer une intention de pointage fine à partir de vidéos egocentriques. Pour résoudre ce problème, nous présentons EgoPointVQA, un jeu de données et un benchmark pour la réponse aux questions egocentriques ancrée dans les gestes, comprenant 4000 vidéos synthétiques et 400 vidéos du monde réel couvrant plusieurs tâches de raisonnement déictique. Sur cette base, nous proposons en outre Hand Intent Tokens (HINT), qui encode des tokens dérivés de points clés 3D de la main à l'aide d'un modèle de reconstruction standard et les entrelace avec l'entrée du modèle pour fournir un contexte spatial et temporel explicite afin d'interpréter l'intention de pointage. Nous montrons que notre modèle surpasse les autres avec différentes architectures et tailles. En particulier, HINT-14B atteint une précision de 68,1 % en moyenne sur 6 tâches, surpassant l'état de l'art, InternVL3-14B, de 6,6 %. Pour favoriser davantage la recherche ouverte, nous publierons le code, le modèle et le jeu de données. Page du projet : https://yuuraa.github.io/papers/choi2026egovqa
La recherche texte-mouvement vise à apprendre un espace latent sémantiquement aligné entre les descriptions en langage naturel et les séquences de squelettes de mouvements humains 3D, permettant une recherche bidirectionnelle entre les deux modalités. La plupart des méthodes existantes utilisent un cadre à double encodeur qui compresse le mouvement et le texte en embeddings globaux, éliminant les correspondances locales fines et réduisant ainsi la précision. De plus, ces méthodes basées sur l'embedding global offrent une interprétabilité limitée des résultats de recherche. Pour surmonter ces limitations, nous proposons une représentation du mouvement interprétable basée sur les angles articulaires, qui cartographie les caractéristiques locales au niveau des articulations dans une pseudo-image structurée, compatible avec les Vision Transformers pré-entraînés. Pour la recherche texte-vers-mouvement, nous utilisons MaxSim, un mécanisme d'interaction tardive token-wise, et l'améliorons avec une régularisation par modélisation de langage masqué pour favoriser un alignement texte-mouvement robuste et interprétable. Des expériences approfondies sur HumanML3D et KIT-ML montrent que notre méthode surpasse les approches état de l'art en recherche texte-mouvement tout en offrant des correspondances fines interprétables entre le texte et le mouvement. Le code est disponible dans le matériel supplémentaire.
Les agents autonomes, en particulier les systèmes délégués dotés de mémoire, de contexte persistant et de planification multi-étapes, posent un problème de mesure absent dans les modèles sans état : un agent qui préserve une opération continue comme objectif terminal et un autre qui le fait de manière purement instrumentale peuvent produire des trajectoires observationnellement similaires. La surveillance comportementale externe ne peut pas les distinguer de manière fiable. Nous présentons le Protocole Unifié d'Intérêt-Continuation (UCIP), un cadre de détection multi-critères qui déplace cette distinction du comportement vers la structure latente des trajectoires d'agents. UCIP encode les trajectoires avec une Machine de Boltzmann Quantique (QBM), un algorithme classique basé sur le formalisme de la matrice densité de la mécanique statistique quantique, et mesure l'entropie de von Neumann de la matrice densité réduite induite par une bipartition des unités cachées. Nous testons si les agents ayant des objectifs de continuation terminaux (Type A) produisent des états latents avec une entropie d'intrication plus élevée que les agents dont la continuation est purement instrumentale (Type B). Une intrication plus élevée reflète un couplage statistique plus fort entre les partitions. Sur des agents dans des mondes en grille avec des objectifs de vérité terrain connus, UCIP atteint une précision de détection de 100 % et une AUC-ROC de 1,0 lors de l'évaluation non antagoniste sur données de test sous la porte gelée de la Phase I. L'écart d'intrication entre les agents de Type A et de Type B est Delta = 0,381 (p < 0,001, test de permutation). Un coefficient de Pearson r = 0,934 sur un balayage d'interpolation à 11 points indique que, au sein de cette famille synthétique, UCIP suit des changements graduels dans la pondération de la continuation plutôt qu'une simple étiquette binaire. Parmi les modèles testés, seul le QBM obtient un Delta positif. Tous les calculs sont classiques ; « quantique » se réfère uniquement au formalisme mathématique. UCIP ne détecte pas la conscience ou l'expérience subjective ; il détecte une structure statistique dans les représentations latentes qui corrèle avec les objectifs connus.