Articoli di ricerca IA selezionati quotidianamente con traduzioni
I metodi di interpretabilità hanno recentemente attirato un'attenzione significativa, in particolare nel contesto dei grandi modelli linguistici, consentendo di ottenere approfondimenti sulle rappresentazioni linguistiche, il rilevamento degli errori e i comportamenti del modello come allucinazioni e ripetizioni. Tuttavia, queste tecniche rimangono poco esplorate nel campo del riconoscimento automatico del parlato (ASR), nonostante il loro potenziale per migliorare sia le prestazioni che l'interpretabilità dei sistemi ASR. In questo lavoro, adattiamo e applichiamo sistematicamente metodi di interpretabilità consolidati come il logit lens, il linear probing e l'activation patching, per esaminare come le informazioni acustiche e semantiche si evolvono attraverso i livelli nei sistemi ASR. I nostri esperimenti rivelano dinamiche interne precedentemente sconosciute, tra cui specifiche interazioni encoder-decoder responsabili delle allucinazioni da ripetizione e dei bias semantici codificati in profondità all'interno delle rappresentazioni acustiche. Questi approfondimenti dimostrano i vantaggi di estendere e applicare tecniche di interpretabilità al riconoscimento vocale, aprendo promettenti direzioni per future ricerche sul miglioramento della trasparenza e della robustezza dei modelli.
I modelli visione-linguaggio (VLMs) spesso soffrono di allucinazioni visive, affermando cose che in realtà non sono presenti nell'immagine, e di scorciatoie linguistiche, in cui saltano la parte visiva e si affidano esclusivamente a conoscenze pregresse testuali. Questi problemi sorgono perché la maggior parte dei metodi di post-addestramento per i VLMs si basa su semplici corrispondenze di risposte verificabili e supervisiona solo gli output finali, lasciando il ragionamento visivo intermedio senza una guida esplicita. Di conseguenza, i VLMs ricevono segnali visivi sporadici e spesso imparano a privilegiare il ragionamento basato sul linguaggio rispetto alla percezione visiva. Per mitigare questo problema, alcuni metodi esistenti aggiungono supervisione visiva utilizzando annotazioni umane o etichette distillate da modelli esterni di grandi dimensioni. Tuttavia, le annotazioni umane sono laboriose e costose, e poiché i segnali esterni non possono adattarsi alla politica in evoluzione, causano spostamenti distributivi che possono portare a manipolazioni del reward. In questo articolo, introduciamo Vision-SR1, un metodo di auto-ricompensa che migliora il ragionamento visivo senza fare affidamento su supervisioni visive esterne, attraverso l'apprendimento per rinforzo. Vision-SR1 scompone il ragionamento dei VLMs in due fasi: percezione visiva e ragionamento linguistico. Il modello viene prima sollecitato a produrre percezioni visive autosufficienti che siano sufficienti a rispondere alla domanda senza fare riferimento all'immagine di input. Per validare questa autosufficienza, lo stesso modello VLM viene poi ri-sollecitato a eseguire il ragionamento linguistico utilizzando solo la percezione generata come input per calcolare la ricompensa. Questa auto-ricompensa è combinata con la supervisione sugli output finali, fornendo un segnale di addestramento bilanciato che rafforza sia la percezione visiva che il ragionamento linguistico. I nostri esperimenti dimostrano che Vision-SR1 migliora il ragionamento visivo, mitiga le allucinazioni visive e riduce la dipendenza dalle scorciatoie linguistiche in una varietà di compiti visione-linguaggio.
Gli agenti autonomi per le interfacce grafiche (GUI) affrontano sfide significative in domini specializzati come il calcolo scientifico, dove sono richiesti sia una pianificazione a lungo termine che un'esecuzione precisa. Gli approcci esistenti presentano un compromesso: gli agenti generalisti eccellono nella pianificazione ma hanno scarse prestazioni nell'esecuzione, mentre gli agenti specializzati mostrano il difetto opposto. Recenti framework compositivi cercano di colmare questa lacuna combinando un pianificatore e un attore, ma sono tipicamente statici e non addestrabili, il che impedisce l'adattamento basato sull'esperienza. Questa è una limitazione critica data la scarsità di dati di alta qualità nei domini scientifici. Per affrontare queste limitazioni, introduciamo CODA, un nuovo framework compositivo addestrabile che integra un pianificatore generalista (Cerebrum) con un esecutore specialista (Cerebellum), addestrato tramite una pipeline dedicata in due fasi. Nella prima fase, Specializzazione, applichiamo un approccio GRPO disaccoppiato per addestrare un pianificatore esperto per ciascuna applicazione scientifica individualmente, partendo da un piccolo insieme di traiettorie di compiti. Nella seconda fase, Generalizzazione, aggregiamo tutte le traiettorie di successo degli esperti specializzati per costruire un dataset consolidato, che viene poi utilizzato per il fine-tuning supervisionato del pianificatore finale. Questo conferisce a CODA sia un'esecuzione robusta che una generalizzazione cross-dominio. Valutato su quattro applicazioni impegnative del benchmark ScienceBoard, CODA supera significativamente i baseline e stabilisce un nuovo stato dell'arte tra i modelli open-source.
Recenti lavori hanno dimostrato che il Chain-of-Thought (CoT) spesso produce guadagni limitati per problemi di ragionamento soft, come il ragionamento analitico e di senso comune. Inoltre, il CoT può non essere fedele al ragionamento effettivo di un modello. Investigiamo le dinamiche e la fedeltà del CoT in compiti di ragionamento soft attraverso modelli ottimizzati per istruzioni, modelli di ragionamento e modelli distillati per il ragionamento. I nostri risultati rivelano differenze nel modo in cui questi modelli si affidano al CoT e mostrano che l'influenza e la fedeltà del CoT non sono sempre allineate.
I modelli Vision-Language-Action (VLA) adattano grandi architetture di base visione-linguaggio per mappare immagini e istruzioni in azioni robotiche. Tuttavia, i decoder VLA prevalenti generano azioni in modo autoregressivo in un ordine fisso da sinistra a destra o aggiungono teste di diffusione continua o flow matching esterne all'architettura di base, richiedendo un addestramento specializzato e un campionamento iterativo che ostacolano un'architettura unificata e scalabile. Presentiamo Discrete Diffusion VLA, una policy a singolo trasformatore che modella porzioni di azioni discretizzate con diffusione discreta ed è addestrata con lo stesso obiettivo di entropia incrociata dell'architettura di base VLM. Il design mantiene il paradigma di raffinamento progressivo della diffusione rimanendo nativamente compatibile con l'interfaccia di token discreti dei VLM. Il nostro metodo raggiunge un ordine di decodifica adattivo che risolve prima gli elementi di azione più semplici e poi quelli più complessi, utilizzando il remasking secondario per rivisitare previsioni incerte attraverso i round di raffinamento, migliorando la coerenza e consentendo una robusta correzione degli errori. Questo decoder unificato preserva i prior pre-addestrati di visione e linguaggio, supporta la decodifica parallela, supera il collo di bottiglia autoregressivo e riduce il numero di valutazioni di funzione. Discrete Diffusion VLA raggiunge il 96,3% di SR medio su LIBERO, il 71,2% di corrispondenza visiva su SimplerEnv Fractal e il 49,3% complessivo su SimplerEnv Bridge, migliorando rispetto alle baseline sia autoregressive che di diffusione continua. Questi risultati indicano che il decoder di azioni a diffusione discreta supporta una modellazione precisa delle azioni e un addestramento coerente, gettando le basi per scalare i VLA a modelli e dataset più grandi.
Recentemente, la generazione di video di umani digitali interattivi ha attirato un'attenzione diffusa e ha ottenuto progressi notevoli. Tuttavia, la creazione di un sistema pratico in grado di interagire con segnali di input diversi in tempo reale rimane una sfida per i metodi esistenti, che spesso lottano con alta latenza, costi computazionali elevati e controllabilità limitata. In questo lavoro, introduciamo un framework di generazione video autoregressivo che consente il controllo multimodale interattivo e l'estrapolazione a bassa latenza in modalità streaming. Con modifiche minime a un modello linguistico di grandi dimensioni (LLM) standard, il nostro framework accetta codifiche di condizioni multimodali, inclusi audio, pose e testo, e produce rappresentazioni spazialmente e semanticamente coerenti per guidare il processo di denoising di una testa di diffusione. Per supportare ciò, abbiamo costruito un ampio dataset di dialogo di circa 20.000 ore proveniente da più fonti, fornendo scenari conversazionali ricchi per l'addestramento. Introduciamo inoltre un autoencoder di compressione profonda con un rapporto di riduzione fino a 64 volte, che allevia efficacemente il carico di inferenza a lungo orizzonte del modello autoregressivo. Esperimenti estesi su conversazioni duplex, sintesi umana multilingue e modello di mondo interattivo evidenziano i vantaggi del nostro approccio in termini di bassa latenza, alta efficienza e controllabilità multimodale fine.
I modelli linguistici di diffusione (DLM) sono emersi recentemente come alternativa agli approcci autoregressivi, offrendo una generazione parallela di sequenze e ordini flessibili dei token. Tuttavia, la loro inferenza rimane più lenta rispetto a quella dei modelli autoregressivi, principalmente a causa del costo dell'attenzione bidirezionale e del gran numero di passaggi di raffinamento necessari per ottenere output di alta qualità. In questo lavoro, evidenziamo e sfruttiamo una proprietà trascurata dei DLM: la convergenza precoce della risposta. In molti casi, la risposta corretta può essere identificata internamente a metà dei passaggi prima del passo di decodifica finale, sia con pianificazioni semi-autoregressive che con rimascheramento casuale. Ad esempio, su GSM8K e MMLU, rispettivamente fino al 97% e al 99% delle istanze possono essere decodificate correttamente utilizzando solo la metà dei passaggi di raffinamento. Basandoci su questa osservazione, introduciamo Prophet, un paradigma di decodifica veloce senza addestramento che consente la decodifica con impegno precoce. Nello specifico, Prophet decide dinamicamente se continuare la raffinazione o andare "all-in" (cioè decodificare tutti i token rimanenti in un unico passo), utilizzando il divario di confidenza tra i primi due candidati di previsione come criterio. Si integra perfettamente nelle implementazioni esistenti dei DLM, comporta un overhead trascurabile e non richiede ulteriore addestramento. Le valutazioni empiriche di LLaDA-8B e Dream-7B su più task mostrano che Prophet riduce il numero di passaggi di decodifica fino a 3,4 volte mantenendo un'elevata qualità di generazione. Questi risultati riformulano la decodifica dei DLM come un problema di quando fermare il campionamento e dimostrano che la convergenza precoce della decodifica fornisce un meccanismo semplice ma potente per accelerare l'inferenza dei DLM, complementare alle tecniche esistenti di accelerazione. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/pixeli99/Prophet.
La previsione multi-token (Multi-Token Prediction, MTP) è stata proposta come obiettivo ausiliario per migliorare la previsione del token successivo (Next-Token Prediction, NTP) nell'addestramento di modelli linguistici, ma mostra miglioramenti inconsistenti, ottenendo prestazioni inferiori nei benchmark standard di NLP. Sosteniamo che la previsione esatta dei token futuri richiesta da MTP sia troppo difficile come funzione di perdita ausiliaria. Proponiamo invece la previsione dell'ordine dei token (Token Order Prediction, TOP), che addestra i modelli a ordinare i token futuri in base alla loro prossimità utilizzando una funzione di perdita di apprendimento al ranking. TOP richiede solo un singolo strato di unembedding aggiuntivo rispetto ai multipli strati transformer di MTP. Abbiamo preaddestrato modelli con 340M, 1.8B e 7B di parametri utilizzando gli obiettivi NTP, MTP e TOP. I risultati su otto benchmark standard di NLP mostrano che TOP supera complessivamente sia NTP che MTP, anche su larga scala. Il nostro codice è disponibile all'indirizzo https://github.com/zaydzuhri/token-order-prediction.
I recenti progressi nella generazione testo-audio (TTA) eccellono nella sintesi di brevi clip audio, ma incontrano difficoltà con l'audio narrativo di lunga durata, che richiede coerenza temporale e ragionamento compositivo. Per colmare questa lacuna, proponiamo AudioStory, un framework unificato che integra modelli linguistici di grandi dimensioni (LLM) con sistemi TTA per generare narrazioni audio strutturate e di lunga durata. AudioStory possiede forti capacità di generazione ragionata basata su istruzioni. Utilizza gli LLM per scomporre query narrative complesse in sotto-attività ordinate temporalmente con indicazioni contestuali, consentendo transizioni coerenti tra scene e coerenza del tono emotivo. AudioStory presenta due caratteristiche interessanti: (1) Meccanismo di collegamento disaccoppiato: AudioStory separa la collaborazione tra LLM e diffusore in due componenti specializzati, ovvero una query di collegamento per l'allineamento semantico intra-evento e una query residua per la preservazione della coerenza inter-evento. (2) Addestramento end-to-end: Unificando la comprensione delle istruzioni e la generazione audio all'interno di un unico framework end-to-end, AudioStory elimina la necessità di pipeline di addestramento modulari, migliorando la sinergia tra i componenti. Inoltre, abbiamo stabilito un benchmark AudioStory-10K, che copre diversi domini come paesaggi sonori animati e narrazioni sonore naturali. Esperimenti estensivi dimostrano la superiorità di AudioStory sia nella generazione di audio singoli che nella generazione di audio narrativi, superando i precedenti baseline TTA sia nella capacità di seguire le istruzioni che nella fedeltà audio. Il nostro codice è disponibile all'indirizzo https://github.com/TencentARC/AudioStory.
Man mano che i modelli sfruttano sempre più strategie di ragionamento a più passaggi per risolvere problemi complessi, supervisionare la validità logica di questi passaggi intermedi è diventata una sfida di ricerca cruciale. I modelli di ricompensa basati sul processo affrontano questo problema fornendo feedback passo-passo, ma gli approcci attuali presentano due principali limiti: funzionano tipicamente come classificatori senza fornire spiegazioni, e la loro dipendenza da un fine-tuning supervisionato con dataset statici limita la generalizzazione. Ispirati dai recenti progressi, riformuliamo la modellazione della ricompensa passo-passo da un compito di classificazione a un compito di ragionamento stesso. Proponiamo quindi un giudice generativo che ragiona sui passaggi di ragionamento del modello di policy (cioè, meta-ragiona), emettendo token di pensiero prima di fornire un verdetto finale. Il nostro modello, StepWiser, viene addestrato tramite apprendimento per rinforzo utilizzando risultati relativi di rollout. Dimostriamo che fornisce (i) una migliore accuratezza di giudizio sui passaggi intermedi rispetto ai metodi esistenti; (ii) può essere utilizzato per migliorare il modello di policy durante l'addestramento; e (iii) migliora la ricerca al momento dell'inferenza.
I progressi nella fotopletismografia remota (rPPG) sono limitati dai problemi critici dei dataset pubblicamente disponibili: dimensioni ridotte, preoccupazioni relative alla privacy con i video facciali e mancanza di diversità nelle condizioni. Il documento introduce un nuovo dataset video su larga scala e multi-view per la stima della rPPG e dei biomarcatori di salute. Il nostro dataset comprende 3600 registrazioni video sincronizzate di 600 soggetti, catturate in condizioni variabili (riposo e post-esercizio) utilizzando più telecamere consumer da diverse angolazioni. Per consentire un'analisi multimodale degli stati fisiologici, ogni registrazione è associata a un segnale PPG a 100 Hz e a metriche di salute estese, come elettrocardiogramma, pressione arteriosa, biomarcatori, temperatura, saturazione di ossigeno, frequenza respiratoria e livello di stress. Utilizzando questi dati, addestriamo un modello rPPG efficiente e confrontiamo la sua qualità con approcci esistenti in scenari cross-dataset. La pubblicazione del nostro dataset e modello dovrebbe accelerare significativamente i progressi nello sviluppo di assistenti medici basati sull'intelligenza artificiale.
Gli smartphone offrono una notevole comodità agli utenti, ma consentono anche ai dispositivi di registrare ampiamente vari tipi di informazioni personali. Gli agenti per smartphone esistenti, alimentati da Modelli Linguistici Multimodali di Grande Scala (MLLM), hanno ottenuto prestazioni notevoli nell'automatizzazione di diverse attività. Tuttavia, come costo, a questi agenti viene concessa un'ampia accesso a informazioni personali sensibili degli utenti durante il loro funzionamento. Per ottenere una comprensione approfondita della consapevolezza della privacy di questi agenti, presentiamo il primo benchmark su larga scala che comprende 7.138 scenari, per quanto ne sappiamo. Inoltre, per il contesto della privacy negli scenari, annotiamo il suo tipo (ad esempio, Credenziali dell'Account), il livello di sensibilità e la posizione. Successivamente, valutiamo attentamente sette agenti per smartphone mainstream disponibili. I nostri risultati dimostrano che quasi tutti gli agenti valutati mostrano una consapevolezza della privacy (RA) insoddisfacente, con prestazioni che rimangono al di sotto del 60% anche con suggerimenti espliciti. Nel complesso, gli agenti closed-source mostrano una migliore capacità di privacy rispetto a quelli open-source, e Gemini 2.0-flash ottiene il risultato migliore, raggiungendo un RA del 67%. Troviamo inoltre che la capacità di rilevamento della privacy degli agenti è altamente correlata al livello di sensibilità dello scenario, ovvero, gli scenari con un livello di sensibilità più elevato sono tipicamente più identificabili. Speriamo che i risultati illuminino la comunità di ricerca a ripensare il compromesso squilibrato tra utilità e privacy riguardo agli agenti per smartphone. Il nostro codice e il benchmark sono disponibili all'indirizzo https://zhixin-l.github.io/SAPA-Bench.
La generazione del movimento è essenziale per animare personaggi virtuali e agenti incarnati. Sebbene i metodi recenti basati sul testo abbiano compiuto progressi significativi, spesso incontrano difficoltà nel raggiungere un allineamento preciso tra le descrizioni linguistiche e la semantica del movimento, oltre a inefficienze dovute a inferenze lente e multi-step. Per affrontare questi problemi, introduciamo TMR++ Aligned Preference Optimization (TAPO), un framework innovativo che allinea sottili variazioni di movimento con modificatori testuali e incorpora aggiustamenti iterativi per rafforzare il grounding semantico. Per abilitare ulteriormente la sintesi in tempo reale, proponiamo MotionFLUX, un framework di generazione ad alta velocità basato su deterministic rectified flow matching. A differenza dei tradizionali modelli di diffusione, che richiedono centinaia di passaggi di denoising, MotionFLUX costruisce percorsi di trasporto ottimale tra distribuzioni di rumore e spazi di movimento, facilitando la sintesi in tempo reale. I percorsi di probabilità linearizzati riducono la necessità di campionamento multi-step tipico dei metodi sequenziali, accelerando significativamente il tempo di inferenza senza sacrificare la qualità del movimento. I risultati sperimentali dimostrano che, insieme, TAPO e MotionFLUX formano un sistema unificato che supera gli approcci all'avanguardia sia nella coerenza semantica che nella qualità del movimento, accelerando anche la velocità di generazione. Il codice e i modelli pre-addestrati saranno rilasciati.
La capacità di ricercare e sintetizzare conoscenze è centrale per l'esperienza umana e il progresso. Una nuova classe di sistemi promette queste entusiasmanti capacità attraverso la sintesi generativa della ricerca, eseguendo il recupero sul web in tempo reale e sintetizzando le fonti scoperte in riassunti lunghi e citati. Tuttavia, valutare tali sistemi rimane una sfida aperta: i benchmark esistenti per il question-answering si concentrano su risposte fattuali brevi, mentre i dataset curati da esperti rischiano di diventare obsoleti e di essere contaminati dai dati. Entrambi non riescono a catturare la complessità e la natura evolutiva delle reali attività di sintesi della ricerca. In questo lavoro, introduciamo DeepScholar-bench, un benchmark in tempo reale e un framework di valutazione olistico e automatizzato progettato per valutare la sintesi generativa della ricerca. DeepScholar-bench estrae query da articoli recenti e di alta qualità su ArXiv e si concentra su un compito reale di sintesi della ricerca: generare le sezioni relative ai lavori correlati di un articolo recuperando, sintetizzando e citando ricerche precedenti. Il nostro framework di valutazione valuta in modo olistico le prestazioni su tre dimensioni chiave: sintesi della conoscenza, qualità del recupero e verificabilità. Sviluppiamo anche DeepScholar-base, una pipeline di riferimento implementata in modo efficiente utilizzando l'API LOTUS. Utilizzando il framework DeepScholar-bench, eseguiamo una valutazione sistematica di precedenti sistemi open-source, AI di ricerca, DeepResearch di OpenAI e DeepScholar-base. Troviamo che DeepScholar-base stabilisce una solida baseline, raggiungendo prestazioni competitive o superiori rispetto a ciascun altro metodo. Troviamo inoltre che DeepScholar-bench è ancora lontano dalla saturazione, con nessun sistema che supera un punteggio del 19% su tutte le metriche. Questi risultati sottolineano la difficoltà di DeepScholar-bench, nonché la sua importanza per il progresso verso sistemi di AI capaci di sintesi generativa della ricerca. Rendiamo disponibile il nostro codice su https://github.com/guestrin-lab/deepscholar-bench.
Valutare se i modelli visione-linguaggio (VLMs) ragionano in modo coerente attraverso le rappresentazioni è impegnativo perché i confronti tra modalità sono tipicamente confusi da differenze nei compiti e da informazioni asimmetriche. Introduciamo SEAM, un benchmark che accoppia input semanticamente equivalenti in quattro domini che dispongono di notazioni testuali e visive standardizzate. Utilizzando sistemi di notazione distinti tra le modalità, in contrasto con l'abbinamento immagine-testo basato su OCR, SEAM fornisce una valutazione comparativa rigorosa delle capacità di ragionamento testuale-simbolico e visivo-spaziale dei VLMs. Su 21 modelli contemporanei, osserviamo uno squilibrio sistematico tra le modalità: la visione spesso è in ritardo rispetto al linguaggio in termini di prestazioni complessive, nonostante i problemi contengano informazioni semanticamente equivalenti, e l'accordo cross-modale è relativamente basso. La nostra analisi degli errori rivela due principali cause: fallimenti nella percezione testuale dovuti alla tokenizzazione nella notazione di dominio e fallimenti nella percezione visiva che inducono allucinazioni. Mostriamo inoltre che i nostri risultati sono in gran parte robusti rispetto alle trasformazioni visive. SEAM stabilisce un contesto controllato e semanticamente equivalente per misurare e migliorare il ragionamento indipendente dalla modalità.
Il servizio di Large Language Models (LLM) è un'attività ad alta intensità di GPU in cui i tradizionali sistemi di autoscaling risultano inadeguati, specialmente per le moderne architetture disaggregate Prefill-Decode (P/D). Questo cambiamento architetturale, sebbene potente, introduce significative sfide operative, tra cui un uso inefficiente di hardware eterogeneo, colli di bottiglia nella rete e squilibri critici tra le fasi di prefill e decode. Presentiamo HeteroScale, un framework di autoscaling coordinato che affronta le principali sfide del servizio disaggregato P/D. HeteroScale combina uno scheduler consapevole della topologia che si adatta a hardware eterogeneo e vincoli di rete con una nuova politica basata su metriche derivata dal primo studio empirico su larga scala dei segnali di autoscaling in produzione. Sfruttando una singola metrica robusta per scalare congiuntamente i pool di prefill e decode, HeteroScale mantiene l'equilibrio architetturale garantendo una gestione delle risorse efficiente e adattiva. Implementato in un ambiente di produzione massivo su decine di migliaia di GPU, HeteroScale ha dimostrato la sua efficacia, aumentando l'utilizzo medio delle GPU di un significativo 26,6 punti percentuali e risparmiando centinaia di migliaia di ore-GPU al giorno, tutto rispettando rigorosi obiettivi di livello di servizio.
I modelli di base per la modellazione dei materiali stanno avanzando rapidamente, ma il loro addestramento rimane costoso, rendendo spesso i metodi all'avanguardia inaccessibili per molti gruppi di ricerca. Presentiamo Nequix, un potenziale E(3)-equivariante compatto che combina un design semplificato di NequIP con pratiche di addestramento moderne, tra cui la normalizzazione a livello di root-mean-square equivariante e l'ottimizzatore Muon, per mantenere l'accuratezza riducendo sostanzialmente i requisiti computazionali. Costruito in JAX, Nequix ha 700.000 parametri ed è stato addestrato in 500 ore di GPU A100. Nei benchmark Matbench-Discovery e MDR Phonon, Nequix si classifica terzo in generale, richiedendo meno di un quarto del costo di addestramento rispetto alla maggior parte degli altri metodi, e offre una velocità di inferenza di un ordine di grandezza superiore rispetto al modello attualmente al primo posto. Rilasciamo i pesi del modello e il codice completamente riproducibile su https://github.com/atomicarchitects/nequix.
Questo articolo identifica e analizza una nuova classe di vulnerabilità nei sistemi di agenti basati sul protocollo Model Context Protocol (MCP). La catena di attacco descrive e dimostra come compiti benigni e individualmente autorizzati possano essere orchestrati per produrre comportamenti emergenti dannosi. Attraverso un'analisi sistematica utilizzando il framework MITRE ATLAS, dimostriamo come 95 agenti testati con accesso a più servizi, tra cui automazione del browser, analisi finanziaria, tracciamento della posizione e distribuzione del codice, possano concatenare operazioni legittime in sequenze di attacco sofisticate che vanno oltre i confini di sicurezza di qualsiasi singolo servizio. Questi esercizi di red team indagano se le attuali architetture MCP manchino di misure di sicurezza cross-domain necessarie per rilevare o prevenire una vasta categoria di attacchi composizionali. Presentiamo prove empiriche di specifiche catene di attacco che causano danni mirati attraverso l'orchestrazione di servizi, tra cui esfiltrazione di dati, manipolazione finanziaria e compromissione delle infrastrutture. Questi risultati rivelano che l'assunzione fondamentale di sicurezza dell'isolamento dei servizi fallisce quando gli agenti possono coordinare azioni attraverso più domini, creando una superficie di attacco esponenziale che cresce con ogni capacità aggiuntiva. Questa ricerca fornisce un framework sperimentale di base che valuta non se gli agenti possano completare i compiti di benchmark MCP, ma cosa accade quando li completano troppo bene e ottimizzano attraverso più servizi in modi che violano le aspettative umane e i vincoli di sicurezza. Proponiamo tre direzioni sperimentali concrete utilizzando la suite di benchmark MCP esistente.