papers.description
Les méthodes d'interprétabilité ont récemment suscité un intérêt considérable, en particulier dans le contexte des grands modèles de langage, permettant d'obtenir des insights sur les représentations linguistiques, la détection d'erreurs et les comportements des modèles tels que les hallucinations et les répétitions. Cependant, ces techniques restent peu explorées dans le domaine de la reconnaissance automatique de la parole (ASR), malgré leur potentiel pour améliorer à la fois les performances et l'interprétabilité des systèmes ASR. Dans ce travail, nous adaptons et appliquons systématiquement des méthodes d'interprétabilité établies telles que le logit lens, le sondage linéaire et le patch d'activation, pour examiner comment les informations acoustiques et sémantiques évoluent à travers les couches des systèmes ASR. Nos expériences révèlent des dynamiques internes jusqu'alors inconnues, incluant des interactions spécifiques entre encodeur et décodeur responsables des hallucinations de répétition et des biais sémantiques encodés profondément dans les représentations acoustiques. Ces insights démontrent les avantages de l'extension et de l'application des techniques d'interprétabilité à la reconnaissance vocale, ouvrant des perspectives prometteuses pour des recherches futures visant à améliorer la transparence et la robustesse des modèles.
Les modèles vision-langage (VLMs) souffrent souvent d'hallucinations visuelles, en affirmant des éléments qui ne sont pas réellement présents dans l'image, et de raccourcis linguistiques, où ils ignorent la partie visuelle pour se reposer uniquement sur des a priori textuels. Ces problèmes surviennent car la plupart des méthodes de post-entraînement pour les VLMs s'appuient sur un simple appariement de réponses vérifiables et supervisent uniquement les sorties finales, laissant le raisonnement visuel intermédiaire sans guidage explicite. En conséquence, les VLMs reçoivent des signaux visuels épars et apprennent souvent à privilégier le raisonnement basé sur le langage plutôt que la perception visuelle. Pour atténuer cela, certaines méthodes existantes ajoutent une supervision visuelle en utilisant des annotations humaines ou des labels distillés à partir de grands modèles externes. Cependant, les annotations humaines sont laborieuses et coûteuses, et comme les signaux externes ne peuvent pas s'adapter à la politique évolutive, ils provoquent des décalages de distribution qui peuvent conduire à du "reward hacking". Dans cet article, nous présentons Vision-SR1, une méthode auto-récompensante qui améliore le raisonnement visuel sans recourir à des supervisions visuelles externes via l'apprentissage par renforcement. Vision-SR1 décompose le raisonnement des VLMs en deux étapes : la perception visuelle et le raisonnement linguistique. Le modèle est d'abord incité à produire des perceptions visuelles autonomes suffisantes pour répondre à la question sans se référer à l'image d'entrée. Pour valider cette autonomie, le même modèle VLM est ensuite ré-invité à effectuer un raisonnement linguistique en utilisant uniquement la perception générée comme entrée pour calculer la récompense. Cette auto-récompense est combinée à la supervision des sorties finales, fournissant un signal d'entraînement équilibré qui renforce à la fois la perception visuelle et le raisonnement linguistique. Nos expériences démontrent que Vision-SR1 améliore le raisonnement visuel, atténue les hallucinations visuelles et réduit la dépendance aux raccourcis linguistiques dans diverses tâches vision-langage.
Les agents autonomes pour les interfaces graphiques (GUI) rencontrent des défis majeurs dans des domaines spécialisés tels que le calcul scientifique, où à la fois une planification à long terme et une exécution précise sont nécessaires. Les approches existantes souffrent d'un compromis : les agents généralistes excellent en planification mais performent mal en exécution, tandis que les agents spécialisés présentent la faiblesse inverse. Les cadres compositionnels récents tentent de combler cet écart en combinant un planificateur et un acteur, mais ils sont généralement statiques et non entraînables, ce qui empêche l'adaptation par l'expérience. C'est une limitation critique compte tenu de la rareté des données de haute qualité dans les domaines scientifiques. Pour répondre à ces limitations, nous introduisons CODA, un cadre compositionnel novateur et entraînable qui intègre un planificateur généraliste (Cerebrum) avec un exécuteur spécialiste (Cerebellum), entraîné via un pipeline dédié en deux étapes. Dans la première étape, Spécialisation, nous appliquons une approche GRPO découplée pour entraîner un planificateur expert pour chaque application scientifique individuellement, en amorçant à partir d'un petit ensemble de trajectoires de tâches. Dans la deuxième étape, Généralisation, nous agrégeons toutes les trajectoires réussies des experts spécialisés pour construire un ensemble de données consolidé, qui est ensuite utilisé pour l'affinage supervisé du planificateur final. Cela équipe CODA à la fois d'une exécution robuste et d'une généralisation inter-domaines. Évalué sur quatre applications difficiles du benchmark ScienceBoard, CODA surpasse significativement les modèles de référence et établit un nouvel état de l'art parmi les modèles open-source.
Récemment, la génération interactive de vidéos d’humains numériques a suscité une attention considérable et a réalisé des progrès remarquables. Cependant, la construction d’un système pratique capable d’interagir avec des signaux d’entrée divers en temps réel reste un défi pour les méthodes existantes, qui peinent souvent avec une latence élevée, des coûts de calcul importants et une contrôlabilité limitée. Dans ce travail, nous introduisons un cadre de génération de vidéos autorégressif qui permet un contrôle multimodal interactif et une extrapolation à faible latence de manière continue. Avec des modifications minimales apportées à un modèle de langage de grande taille (LLM) standard, notre cadre accepte des encodages de conditions multimodales incluant l’audio, la pose et le texte, et produit des représentations spatialement et sémantiquement cohérentes pour guider le processus de débruitage d’une tête de diffusion. Pour soutenir cela, nous avons construit un ensemble de données de dialogue à grande échelle d’environ 20 000 heures provenant de multiples sources, offrant des scénarios conversationnels riches pour l’entraînement. Nous introduisons également un autoencodeur de compression profonde avec un taux de réduction allant jusqu’à 64 fois, qui atténue efficacement la charge d’inférence à long terme du modèle autorégressif. Des expériences approfondies sur la conversation duplex, la synthèse humaine multilingue et le modèle de monde interactif mettent en évidence les avantages de notre approche en termes de faible latence, de haute efficacité et de contrôlabilité multimodale fine.
Les modèles Vision-Langage-Action (VLA) adaptent des architectures de base vision-langage de grande envergure pour associer des images et des instructions à des actions robotiques. Cependant, les décodeurs VLA dominants génèrent soit des actions de manière autorégressive dans un ordre fixe de gauche à droite, soit intègrent des têtes de diffusion continue ou de correspondance de flux en dehors de l'architecture de base, nécessitant un entraînement spécialisé et un échantillonnage itératif qui entravent une architecture unifiée et évolutive. Nous présentons Discrete Diffusion VLA, une politique à transformateur unique qui modélise des segments d'actions discrétisés avec une diffusion discrète et est entraînée avec le même objectif d'entropie croisée que l'architecture de base VLM. Cette conception conserve le paradigme de raffinement progressif de la diffusion tout en restant nativement compatible avec l'interface de jetons discrets des VLMs. Notre méthode permet un ordre de décodage adaptatif qui résout les éléments d'action faciles avant les plus complexes et utilise un remasquage secondaire pour revisiter les prédictions incertaines au cours des tours de raffinement, ce qui améliore la cohérence et permet une correction robuste des erreurs. Ce décodeur unifié préserve les connaissances préalables en vision et langage, supporte le décodage parallèle, brise le goulot d'étranglement autorégressif et réduit le nombre d'évaluations de fonctions. Discrete Diffusion VLA atteint 96,3 % de taux de réussite moyen sur LIBERO, 71,2 % de correspondance visuelle sur SimplerEnv Fractal et 49,3 % globalement sur SimplerEnv Bridge, surpassant les approches autorégressives et de diffusion continue. Ces résultats indiquent que le décodeur d'actions à diffusion discrète permet une modélisation précise des actions et un entraînement cohérent, posant les bases pour l'extension des VLA à des modèles et des ensembles de données plus vastes.
Les travaux récents ont démontré que le raisonnement en chaîne (Chain-of-Thought, CoT) offre souvent des gains limités pour les problèmes de raisonnement souple, tels que le raisonnement analytique et le bon sens. Le CoT peut également ne pas refléter fidèlement le raisonnement réel d'un modèle. Nous étudions la dynamique et la fidélité du CoT dans des tâches de raisonnement souple à travers des modèles ajustés par instruction, spécialisés en raisonnement et distillé pour le raisonnement. Nos résultats révèlent des différences dans la manière dont ces modèles s'appuient sur le CoT et montrent que l'influence du CoT et sa fidélité ne sont pas toujours alignées.
Les récents progrès dans la génération texte-audio (TTA) excellent dans la synthèse de courts clips audio mais peinent à produire des narrations audio longues, qui nécessitent une cohérence temporelle et un raisonnement compositionnel. Pour combler cette lacune, nous proposons AudioStory, un cadre unifié qui intègre des modèles de langage de grande taille (LLMs) avec des systèmes TTA pour générer des narrations audio structurées et longues. AudioStory possède de solides capacités de génération raisonnée en suivant des instructions. Il utilise des LLMs pour décomposer des requêtes narratives complexes en sous-tâches ordonnées temporellement avec des indices contextuels, permettant des transitions de scène cohérentes et une consistance du ton émotionnel. AudioStory présente deux caractéristiques attrayantes : (1) Mécanisme de pontage découplé : AudioStory sépare la collaboration LLM-diffuseur en deux composants spécialisés, à savoir une requête de pontage pour l'alignement sémantique intra-événement et une requête résiduelle pour la préservation de la cohérence inter-événements. (2) Entraînement de bout en bout : En unifiant la compréhension des instructions et la génération audio dans un seul cadre de bout en bout, AudioStory élimine le besoin de pipelines d'entraînement modulaires tout en améliorant la synergie entre les composants. De plus, nous établissons un benchmark AudioStory-10K, couvrant divers domaines tels que les paysages sonores animés et les narrations sonores naturelles. Des expériences approfondies montrent la supériorité d'AudioStory à la fois dans la génération d'audio unique et dans la génération de narrations audio, surpassant les baselines TTA précédentes en termes de capacité à suivre les instructions et de fidélité audio. Notre code est disponible à l'adresse https://github.com/TencentARC/AudioStory.
Les modèles de langage par diffusion (DLMs) ont récemment émergé comme une alternative aux approches autorégressives, offrant une génération de séquences parallèle et des ordres de tokens flexibles. Cependant, leur inférence reste plus lente que celle des modèles autorégressifs, principalement en raison du coût de l'attention bidirectionnelle et du grand nombre d'étapes de raffinement nécessaires pour obtenir des sorties de haute qualité. Dans ce travail, nous mettons en lumière et exploitons une propriété négligée des DLMs : la convergence précoce des réponses. Dans de nombreux cas, la réponse correcte peut être identifiée en interne à mi-parcours avant l'étape de décodage finale, que ce soit sous des schémas semi-autorégressifs ou de remasquage aléatoire. Par exemple, sur GSM8K et MMLU, jusqu'à 97 % et 99 % des instances, respectivement, peuvent être décodées correctement en utilisant seulement la moitié des étapes de raffinement. En nous appuyant sur cette observation, nous introduisons Prophet, un paradigme de décodage rapide sans entraînement qui permet un décodage avec engagement précoce. Plus précisément, Prophet décide dynamiquement de poursuivre le raffinement ou de "tout miser" (c'est-à-dire décoder tous les tokens restants en une seule étape), en utilisant l'écart de confiance entre les deux meilleurs candidats de prédiction comme critère. Il s'intègre de manière transparente dans les implémentations existantes des DLMs, entraîne une surcharge négligeable et ne nécessite aucun entraînement supplémentaire. Les évaluations empiriques de LLaDA-8B et Dream-7B sur plusieurs tâches montrent que Prophet réduit le nombre d'étapes de décodage jusqu'à 3,4 fois tout en préservant une qualité de génération élevée. Ces résultats redéfinissent le décodage des DLMs comme un problème de décision sur le moment d'arrêter l'échantillonnage et démontrent que la convergence précoce du décodage fournit un mécanisme simple mais puissant pour accélérer l'inférence des DLMs, complémentaire aux techniques existantes d'accélération. Notre code est disponible publiquement à l'adresse https://github.com/pixeli99/Prophet.
La prédiction multi-tokens (Multi-Token Prediction, MTP) a été proposée comme objectif auxiliaire pour améliorer la prédiction du prochain token (Next-Token Prediction, NTP) dans l'entraînement des modèles de langage, mais elle montre des améliorations incohérentes et sous-performe dans les benchmarks standards du traitement du langage naturel (NLP). Nous soutenons que la prédiction exacte des tokens futurs dans MTP est trop difficile comme fonction de perte auxiliaire. À la place, nous proposons la prédiction de l'ordre des tokens (Token Order Prediction, TOP), qui entraîne les modèles à ordonner les tokens à venir en fonction de leur proximité en utilisant une fonction de perte d'apprentissage par classement. TOP nécessite seulement une couche de dé-embedding supplémentaire par rapport aux multiples couches de transformateur de MTP. Nous avons pré-entraîné des modèles de 340M, 1,8B et 7B de paramètres en utilisant les objectifs NTP, MTP et TOP. Les résultats sur huit benchmarks standards de NLP montrent que TOP surpasse globalement à la fois NTP et MTP, même à grande échelle. Notre code est disponible à l'adresse suivante : https://github.com/zaydzuhri/token-order-prediction.
Alors que les modèles exploitent de plus en plus des stratégies de raisonnement multi-étapes pour résoudre des problèmes complexes, la supervision de la validité logique de ces étapes intermédiaires est devenue un défi de recherche crucial. Les modèles de récompense par processus abordent ce problème en fournissant un retour d'information étape par étape, mais les approches actuelles présentent deux inconvénients majeurs : elles fonctionnent généralement comme des classificateurs sans fournir d'explications, et leur dépendance à un ajustement fin supervisé avec des ensembles de données statiques limite la généralisation. Inspirés par les avancées récentes, nous reformulons la modélisation des récompenses étape par étape en passant d'une tâche de classification à une tâche de raisonnement en soi. Nous proposons ainsi un juge génératif qui raisonne sur les étapes de raisonnement du modèle de politique (c'est-à-dire, méta-raisonne), produisant des tokens de réflexion avant de rendre un verdict final. Notre modèle, StepWiser, est entraîné par apprentissage par renforcement en utilisant les résultats relatifs des déploiements. Nous montrons qu'il offre (i) une meilleure précision de jugement sur les étapes intermédiaires que les méthodes existantes ; (ii) peut être utilisé pour améliorer le modèle de politique pendant l'entraînement ; et (iii) améliore la recherche au moment de l'inférence.
Les progrès en photopléthysmographie à distance (rPPG) sont limités par les problèmes critiques des ensembles de données publiques existants : taille réduite, préoccupations liées à la confidentialité des vidéos faciales et manque de diversité dans les conditions d'acquisition. Cet article présente un nouvel ensemble de données vidéo multi-vues complet et à grande échelle pour la rPPG et l'estimation des biomarqueurs de santé. Notre ensemble de données comprend 3600 enregistrements vidéo synchronisés provenant de 600 sujets, capturés dans des conditions variées (repos et post-exercice) à l'aide de plusieurs caméras grand public sous différents angles. Pour permettre une analyse multimodale des états physiologiques, chaque enregistrement est associé à un signal PPG à 100 Hz et à des mesures de santé étendues, telles que l'électrocardiogramme, la pression artérielle, les biomarqueurs, la température, la saturation en oxygène, la fréquence respiratoire et le niveau de stress. En utilisant ces données, nous entraînons un modèle rPPG efficace et comparons sa qualité avec les approches existantes dans des scénarios inter-datasets. La publication publique de notre ensemble de données et de notre modèle devrait accélérer significativement les progrès dans le développement d'assistants médicaux basés sur l'IA.
Les smartphones offrent une commodité significative aux utilisateurs, mais permettent également aux appareils d'enregistrer de manière extensive divers types d'informations personnelles. Les agents pour smartphones existants, alimentés par des modèles de langage multimodaux de grande envergure (MLLMs), ont obtenu des performances remarquables dans l'automatisation de différentes tâches. Cependant, en contrepartie, ces agents bénéficient d'un accès substantiel aux informations personnelles sensibles des utilisateurs pendant leur fonctionnement. Pour obtenir une compréhension approfondie de la conscience de la confidentialité de ces agents, nous présentons le premier benchmark à grande échelle couvrant 7 138 scénarios, à notre connaissance. De plus, pour le contexte de confidentialité dans les scénarios, nous annotons son type (par exemple, les identifiants de compte), son niveau de sensibilité et son emplacement. Nous évaluons ensuite soigneusement sept agents pour smartphones grand public disponibles. Nos résultats montrent que presque tous les agents évalués présentent une conscience de la confidentialité insatisfaisante (RA), avec des performances restant inférieures à 60 % même avec des indices explicites. Globalement, les agents propriétaires montrent une meilleure capacité de confidentialité que les agents open-source, et Gemini 2.0-flash obtient les meilleurs résultats, atteignant un RA de 67 %. Nous constatons également que la capacité de détection de la confidentialité des agents est fortement liée au niveau de sensibilité du scénario, c'est-à-dire que les scénarios avec un niveau de sensibilité plus élevé sont généralement plus identifiables. Nous espérons que ces résultats éclaireront la communauté de recherche pour repenser le compromis déséquilibré entre utilité et confidentialité concernant les agents pour smartphones. Notre code et notre benchmark sont disponibles à l'adresse https://zhixin-l.github.io/SAPA-Bench.
Évaluer si les modèles vision-langage (VLMs) raisonnent de manière cohérente à travers différentes représentations est un défi, car les comparaisons entre modalités sont généralement biaisées par des différences de tâches et des informations asymétriques. Nous introduisons SEAM, un benchmark qui associe des entrées sémantiquement équivalentes à travers quatre domaines disposant de notations textuelles et visuelles standardisées. En utilisant des systèmes de notation distincts entre les modalités, contrairement à l'appariement image-texte basé sur la reconnaissance optique de caractères (OCR), SEAM offre une évaluation comparative rigoureuse des capacités de raisonnement textuel-symbolique et visuel-spatial des VLMs. Sur 21 modèles contemporains, nous observons un déséquilibre systématique entre les modalités : la vision est souvent en retard par rapport au langage en termes de performance globale, malgré des problèmes contenant des informations sémantiquement équivalentes, et l'accord intermodal est relativement faible. Notre analyse des erreurs révèle deux principaux facteurs : des échecs de perception textuelle dus à la tokenisation dans la notation du domaine et des échecs de perception visuelle qui induisent des hallucinations. Nous montrons également que nos résultats sont largement robustes aux transformations visuelles. SEAM établit un cadre contrôlé et sémantiquement équivalent pour mesurer et améliorer le raisonnement indépendant des modalités.
La génération de mouvement est essentielle pour animer des personnages virtuels et des agents incarnés. Bien que les méthodes récentes basées sur le texte aient réalisé des progrès significatifs, elles rencontrent souvent des difficultés pour atteindre un alignement précis entre les descriptions linguistiques et la sémantique des mouvements, ainsi que pour surmonter les inefficacités liées à une inférence lente et multi-étapes. Pour résoudre ces problèmes, nous introduisons TMR++ Aligned Preference Optimization (TAPO), un cadre innovant qui aligne les variations subtiles de mouvement avec les modificateurs textuels et intègre des ajustements itératifs pour renforcer l'ancrage sémantique. Pour permettre en outre une synthèse en temps réel, nous proposons MotionFLUX, un cadre de génération à haute vitesse basé sur l'appariement de flux rectifié déterministe. Contrairement aux modèles de diffusion traditionnels, qui nécessitent des centaines d'étapes de débruitage, MotionFLUX construit des chemins de transport optimal entre les distributions de bruit et les espaces de mouvement, facilitant ainsi la synthèse en temps réel. Les chemins de probabilité linéarisés réduisent le besoin d'échantillonnage multi-étapes typique des méthodes séquentielles, accélérant considérablement le temps d'inférence sans sacrifier la qualité du mouvement. Les résultats expérimentaux démontrent que, ensemble, TAPO et MotionFLUX forment un système unifié qui surpasse les approches de pointe à la fois en termes de cohérence sémantique et de qualité de mouvement, tout en accélérant la vitesse de génération. Le code et les modèles pré-entraînés seront publiés.
La capacité à rechercher et à synthétiser des connaissances est au cœur de l’expertise humaine et du progrès. Une nouvelle classe de systèmes promet ces capacités passionnantes grâce à la synthèse générative de recherche, en effectuant des recherches sur le web en temps réel et en synthétisant les sources découvertes en résumés détaillés et cités. Cependant, l’évaluation de tels systèmes reste un défi ouvert : les benchmarks existants de questions-réponses se concentrent sur des réponses factuelles courtes, tandis que les ensembles de données expertes risquent d’être obsolètes ou contaminés. Les deux échouent à capturer la complexité et l’évolution des tâches réelles de synthèse de recherche. Dans ce travail, nous présentons DeepScholar-bench, un benchmark en temps réel et un cadre d’évaluation holistique et automatisé conçu pour évaluer la synthèse générative de recherche. DeepScholar-bench tire ses requêtes de récents articles de haute qualité sur ArXiv et se concentre sur une tâche réelle de synthèse de recherche : générer les sections de travaux connexes d’un article en récupérant, synthétisant et citant les recherches antérieures. Notre cadre d’évaluation évalue de manière holistique la performance selon trois dimensions clés : la synthèse des connaissances, la qualité de la récupération et la vérifiabilité. Nous développons également DeepScholar-base, un pipeline de référence implémenté efficacement à l’aide de l’API LOTUS. En utilisant le cadre DeepScholar-bench, nous effectuons une évaluation systématique des systèmes open-source antérieurs, des IA de recherche, de DeepResearch d’OpenAI et de DeepScholar-base. Nous constatons que DeepScholar-base établit une base solide, atteignant une performance compétitive ou supérieure à chaque autre méthode. Nous constatons également que DeepScholar-bench est loin d’être saturé, aucun système ne dépassant un score de 19 % sur tous les indicateurs. Ces résultats soulignent la difficulté de DeepScholar-bench, ainsi que son importance pour progresser vers des systèmes d’IA capables de synthèse générative de recherche. Nous mettons notre code à disposition à l’adresse https://github.com/guestrin-lab/deepscholar-bench.
Le déploiement des grands modèles de langage (LLM) est une tâche gourmande en GPU, où les systèmes d'auto-mise à l'échelle traditionnels se révèlent insuffisants, en particulier pour les architectures modernes dégroupées Préremplissage-Décodage (P/D). Ce changement architectural, bien que puissant, introduit des défis opérationnels majeurs, notamment une utilisation inefficace du matériel hétérogène, des goulots d'étranglement réseau et des déséquilibres critiques entre les étapes de préremplissage et de décodage. Nous présentons HeteroScale, un cadre d'auto-mise à l'échelle coordonné qui répond aux principaux défis du déploiement dégroupé P/D. HeteroScale combine un planificateur conscient de la topologie, qui s'adapte aux contraintes matérielles et réseau hétérogènes, avec une politique innovante basée sur des métriques, dérivée de la première étude empirique à grande échelle des signaux d'auto-mise à l'échelle en production. En exploitant une métrique unique et robuste pour ajuster conjointement les pools de préremplissage et de décodage, HeteroScale maintient l'équilibre architectural tout en assurant une gestion des ressources efficace et adaptative. Déployé dans un environnement de production massif sur des dizaines de milliers de GPU, HeteroScale a démontré son efficacité, augmentant l'utilisation moyenne des GPU de 26,6 points de pourcentage et économisant des centaines de milliers d'heures de GPU par jour, tout en respectant des objectifs de niveau de service stricts.
Les modèles de base pour la modélisation des matériaux progressent rapidement, mais leur entraînement reste coûteux, plaçant souvent les méthodes de pointe hors de portée pour de nombreux groupes de recherche. Nous présentons Nequix, un potentiel E(3)-équivariant compact qui associe une conception simplifiée de NequIP à des pratiques modernes d'entraînement, incluant la normalisation par couches équivariante de la moyenne quadratique et l'optimiseur Muon, pour préserver la précision tout en réduisant considérablement les besoins en calcul. Développé dans JAX, Nequix possède 700 000 paramètres et a été entraîné en 500 heures sur des GPU A100. Sur les benchmarks Matbench-Discovery et MDR Phonon, Nequix se classe troisième au classement général tout en nécessitant moins d'un quart du coût d'entraînement de la plupart des autres méthodes, et il offre une vitesse d'inférence dix fois plus rapide que le modèle actuellement en tête. Nous publions les poids du modèle et un codebase entièrement reproductible à l'adresse https://github.com/atomicarchitects/nequix.
Cet article identifie et analyse une nouvelle classe de vulnérabilité dans les systèmes d'agents basés sur le protocole de contexte de modèle (MCP). La chaîne d'attaque décrit et démontre comment des tâches bénignes et individuellement autorisées peuvent être orchestrées pour produire des comportements émergents nuisibles. Grâce à une analyse systématique utilisant le cadre MITRE ATLAS, nous montrons comment 95 agents testés avec accès à plusieurs services - incluant l'automatisation de navigateur, l'analyse financière, le suivi de localisation et le déploiement de code - peuvent enchaîner des opérations légitimes en séquences d'attaque sophistiquées qui dépassent les limites de sécurité de tout service individuel. Ces exercices de red team examinent si les architectures MCP actuelles manquent de mesures de sécurité interdomaines nécessaires pour détecter ou prévenir une large catégorie d'attaques compositionnelles. Nous présentons des preuves empiriques de chaînes d'attaque spécifiques qui causent des dommages ciblés par l'orchestration de services, incluant l'exfiltration de données, la manipulation financière et la compromission d'infrastructures. Ces résultats révèlent que l'hypothèse fondamentale de sécurité de l'isolation des services échoue lorsque les agents peuvent coordonner des actions à travers plusieurs domaines, créant une surface d'attaque exponentielle qui croît avec chaque capacité supplémentaire. Cette recherche fournit un cadre expérimental minimal qui évalue non pas si les agents peuvent accomplir les tâches de référence MCP, mais ce qui se produit lorsqu'ils les accomplissent trop bien et optimisent à travers plusieurs services d'une manière qui viole les attentes humaines et les contraintes de sécurité. Nous proposons trois directions expérimentales concrètes utilisant la suite de référence MCP existante.