Articoli di ricerca IA selezionati quotidianamente con traduzioni
OpenClaw si è rapidamente affermato come un runtime per agenti autonomi open-source di primo piano, offrendo potenti capacità tra cui integrazione di strumenti, accesso ai file locali ed esecuzione di comandi shell. Tuttavia, questi ampi privilegi operativi introducono critiche vulnerabilità di sicurezza, trasformando gli errori del modello in minacce tangibili a livello di sistema come la fuoriuscita di dati sensibili, l'elevazione dei privilegi e l'esecuzione malevola di skill di terze parti. Le misure di sicurezza esistenti per l'ecosistema OpenClaw rimangono altamente frammentate, affrontando solo stadi isolati del ciclo di vita dell'agente piuttosto che fornire una protezione olistica. Per colmare questa lacuna, presentiamo ClawKeeper, un framework di sicurezza in tempo reale che integra meccanismi di protezione multidimensionali su tre livelli architetturali complementari. (1) La protezione basata su skill opera a livello di istruzione, iniettando politiche di sicurezza strutturate direttamente nel contesto dell'agente per imporre vincoli specifici dell'ambiente e attraversare i confini delle piattaforme. (2) La protezione basata su plugin funge da meccanismo di enforcement interno al runtime, fornendo irrobustimento della configurazione, rilevamento proattivo delle minacce e monitoraggio comportamentale continuo throughout la pipeline di esecuzione. (3) La protezione basata su Watcher introduce un middleware di sicurezza a livello di sistema, disaccoppiato e innovativo, che verifica continuamente l'evoluzione dello stato dell'agente. Consente un'intervento in tempo reale sull'esecuzione senza accoppiamento con la logica interna dell'agente, supportando operazioni come l'arresto di azioni ad alto rischio o l'imposizione di conferma umana. Sosteniamo che questo paradigma Watcher abbia un forte potenziale per servire come componente fondamentale per la protezione dei sistemi di agenti autonomi di prossima generazione. Estese valutazioni qualitative e quantitative dimostrano l'efficacia e la robustezza di ClawKeeper in vari scenari di minaccia. Rilasciamo il nostro codice.
Cresce l'interesse nello sviluppo di agenti in grado di interagire con piattaforme digitali per eseguire autonomamente compiti aziendali significativi. Tra gli approcci esplorati vi sono agenti potenziati da strumenti basati su astrazioni come il Model Context Protocol (MCP) e agenti web che operano tramite interfacce grafiche. Tuttavia, non è ancora chiaro se sistemi agentivi così complessi siano necessari, dati i loro costi e sovraccarichi operativi. Sosteniamo che un agente di programmazione dotato unicamente di un terminale e di un filesystem possa risolvere molti compiti aziendali in modo più efficace interagendo direttamente con le API delle piattaforme. Valutiamo questa ipotesi su diversi sistemi reali e dimostriamo che questi agenti a basso livello operanti da terminale eguagliano o superano le prestazioni di architetture agentive più complesse. I nostri risultati suggeriscono che semplici interfacce programmatiche, combinate con modelli fondazionali potenti, sono sufficienti per un'automazione aziendale pratica.
I recenti progressi nei sistemi di ricerca approfondita sono stati impressionanti, ma la valutazione è ancora in ritardo rispetto alle reali esigenze degli utenti. I benchmark esistenti valutano prevalentemente i rapporti finali utilizzando griglie fisse, non riuscendo a valutare il processo di ricerca sottostante. La maggior parte offre anche una copertura multimodale limitata, si affida a compiti sintetici che non riflettono la complessità delle query del mondo reale e non può essere aggiornata con l'evolversi della conoscenza. Per colmare queste lacune, introduciamo MiroEval, un benchmark e un framework di valutazione per i sistemi di ricerca approfondita. Il benchmark comprende 100 compiti (70 solo testo, 30 multimodali), tutti basati su reali esigenze degli utenti e costruiti tramite una pipeline a doppio percorso che supporta aggiornamenti periodici, consentendo un ambiente dinamico ed evolutivo. La suite di valutazione proposta valuta i sistemi di ricerca approfondita lungo tre dimensioni complementari: valutazione della qualità della sintesi adattiva con griglie specifiche per compito, verifica della fattualità agentiva tramite retrieval attivo e ragionamento su fonti web e allegati multimodali, e valutazione centrata sul processo che analizza come il sistema cerca, ragiona e affina la propria indagine. La valutazione di 13 sistemi restituisce tre risultati principali: le tre dimensioni di valutazione catturano aspetti complementari delle capacità del sistema, ciascuna rivelando punti di forza e debolezza distinti tra i sistemi; la qualità del processo funge da indicatore affidabile del risultato complessivo, rivelando al contempo punti deboli invisibili alle metriche a livello di output; e i compiti multimodali pongono sfide sostanzialmente maggiori, con la maggior parte dei sistemi che registra un calo di 3-10 punti. La serie MiroThinker ottiene le prestazioni più bilanciate, con MiroThinker-H1 che si classifica al primo posto in generale in entrambe le configurazioni. I risultati della verifica umana e della robustezza confermano l'affidabilità del benchmark e del framework di valutazione. MiroEval fornisce uno strumento diagnostico olistico per la prossima generazione di agenti di ricerca approfondita.
Al di là della straordinaria fedeltà visiva dei moderni modelli di AIGC si cela un "deserto logico", in cui i sistemi falliscono compiti che richiedono ragionamenti di tipo fisico, causale o spaziale complesso. Le valutazioni attuali si basano in larga misura su metriche superficiali o benchmark frammentati, creando un "miraggio della performance" che trascura il processo generativo. Per affrontare questo problema, introduciamo ViGoR (Vision-Generative Reasoning-centric Benchmark), un framework unificato progettato per smantellare questo miraggio. ViGoR si distingue per quattro innovazioni chiave: 1) copertura olistica cross-modale che collega attività di Image-to-Image e Video; 2) un meccanismo a doppio binario che valuta sia i processi intermedi che i risultati finali; 3) un giudice automatizzato basato su evidenze che garantisce un elevato allineamento con la valutazione umana; e 4) un'analisi diagnostica granulare che scompone la performance in dimensioni cognitive a grana fine. Esperimenti condotti su oltre 20 modelli all'avanguardia rivelano che persino i sistemi più avanzati presentano deficit significativi nel ragionamento, stabilendo ViGoR come un fondamentale "test di stress" per la prossima generazione di modelli visivi intelligenti. La demo è disponibile all'indirizzo https://vincenthancoder.github.io/ViGoR-Bench/
I recenti progressi nei modelli linguistici di grandi dimensioni hanno migliorato le capacità degli agenti di programmazione, ma una valutazione sistematica dello sviluppo complesso e end-to-end di siti web rimane limitata. Per colmare questa lacuna, introduciamo Vision2Web, un benchmark gerarchico per lo sviluppo visivo di siti web, che spazia dalla generazione statica di codice da interfaccia utente, alla riproduzione interattiva di frontend multi-pagina, fino allo sviluppo full-stack di siti web a lungo orizzonte. Il benchmark è costruito a partire da siti web reali e comprende un totale di 193 task across 16 categorie, con 918 immagini prototipo e 1.255 casi di test. Per supportare una valutazione flessibile, approfondita e affidabile, proponiamo un paradigma di verifica dell'agente basato su workflow, fondato su due componenti complementari: un verificatore dell'agente GUI e un giudice basato su VLM. Valutiamo molteplici modelli linguistici visivi istanziati sotto diversi framework di agenti di programazione, rivelando divari prestazionali sostanziali a tutti i livelli di task, con i modelli allo stato dell'arte che continuano a incontrare difficoltà nello sviluppo full-stack.
La previsione di serie temporali è fondamentale in settori come la finanza, la sanità e il cloud computing, ma i progressi sono limitati da un collo di bottiglia fondamentale: la scarsità di benchmark di alta qualità e su larga scala. Per colmare questa lacuna, presentiamo QuitoBench, un benchmark bilanciato per regimi di previsione di serie temporali che copre otto regimi di trend/stagionalità/forecastabilità (TSF), progettato per catturare proprietà rilevanti per la previsione piuttosto che etichette di dominio definite dall'applicazione. Il benchmark è costruito su Quito, un corpus di serie temporali di miliardi di elementi basato sul traffico applicativo di Alipay che abbraccia nove domini business. Valutando 10 modelli di deep learning, modelli foundation e baseline statistiche su 232.200 istanze di valutazione, riportiamo quattro risultati chiave: (i) un crossover della lunghezza del contesto in cui i modelli di deep learning prevalgono per contesti brevi (L=96) mentre i modelli foundation dominano per contesti lunghi (L ≥ 576); (ii) la forecastabilità è il principale fattore di difficoltà, producendo un divario MAE di 3,64 volte tra i regimi; (iii) i modelli di deep learning equivalgono o superano i modelli foundation con 59 volte meno parametri; e (iv) l'aumento dei dati di addestramento apporta benefici sostanzialmente maggiori rispetto alla scalatura della dimensione del modello per entrambe le famiglie di modelli. Questi risultati sono validati da una forte coerenza cross-benchmark e cross-metrica. La nostra release open-source consente una valutazione riproducibile e consapevole dei regimi per la ricerca sulla previsione di serie temporali.
I modelli linguistici di grandi dimensioni (LLM) che mostrano comportamenti di scaling al momento del test, come tracce di ragionamento estese e auto-verifica, hanno dimostrato prestazioni notevoli in compiti di ragionamento complessi e a lungo termine. Tuttavia, la robustezza di questi comportamenti di ragionamento rimane poco esplorata. Per indagare ciò, conduciamo una valutazione sistematica di molteplici modelli di ragionamento in tre scenari: (1) problemi arricchiti con contesto irrilevante e prolungato; (2) ambienti conversazionali multi-turn con compiti indipendenti; e (3) problemi presentati come sottocompito all'interno di un'attività complessa. Osserviamo un fenomeno interessante: i modelli di ragionamento tendono a produrre tracce di ragionamento molto più brevi (fino al 50%) per lo stesso problema in diverse condizioni di contesto, rispetto alle tracce prodotte quando il problema è presentato in isolamento. Un'analisi più granulare rivela che questa compressione è associata a una diminuzione dei comportamenti di auto-verifica e gestione dell'incertezza, come il ricontrollo. Sebbene questo cambiamento comportamentale non comprometta le prestazioni su problemi semplici, potrebbe influenzare le prestazioni su compiti più impegnativi. Ci auguriamo che i nostri risultati attirino ulteriore attenzione sia sulla robustezza dei modelli di ragionamento che sul problema della gestione del contesto per gli LLM e gli agenti basati su LLM.
I protocolli di valutazione standard rivelano un fenomeno controintuitivo: sul 7,7% dei problemi di benchmark che coprono cinque dataset, i modelli linguistici più grandi ottengono prestazioni inferiori a quelli più piccoli di 28,4 punti percentuali, nonostante abbiano da 10 a 100 volte più parametri. Attraverso una valutazione sistematica di 31 modelli (da 0,5 a 405 miliardi di parametri) su 1.485 problemi, identifichiamo il meccanismo in una verbosità spontanea dipendente dalla scala, che introduce errori attraverso un'eccessiva elaborazione. Esperimenti di intervento causale dimostrano che ciò riflette un problema correggibile nella progettazione dei prompt, piuttosto che limitazioni fondamentali delle capacità. Vincolare i modelli grandi a produrre risposte brevi migliora l'accuratezza di 26 punti percentuali e riduce i divari prestazionali fino a due terzi. Ancora più cruciale, i vincoli di brevità capovolgono completamente le gerarchie prestazionali sui benchmark di ragionamento matematico e conoscenza scientifica, con i modelli grandi che ottengono vantaggi dal 7,7 al 15,9 punti percentuali rispetto a quelli piccoli – inversioni dirette dei divari originali. Questi ribaltamenti provano che i modelli grandi possiedono capacità latenti superiori che i prompt universali mascherano. Convalidiamo i risultati attraverso tre test indipendenti di contaminazione e dimostriamo che la scala inversa opera in modo continuo sull'intero spettro parametrico, con scale ottimali specifiche per dataset che vanno da 0,5 a 3,0 miliardi di parametri. I nostri risultati stabiliscono che massimizzare le prestazioni dei modelli grandi richiede una progettazione dei prompt consapevole della scala, piuttosto che protocolli di valutazione universali, con immediate implicazioni per il deployment: l'adattamento del prompt migliora simultaneamente l'accuratezza e riduce i costi computazionali.
Presentiamo HippoCamp, un nuovo benchmark progettato per valutare le capacità degli agenti nella gestione multimodale di file. A differenza dei benchmark esistenti per agenti, che si concentrano su compiti come l'interazione web, l'uso di strumenti o l'automazione software in contesti generici, HippoCamp valuta gli agenti in ambienti incentrati sull'utente per modellare profili utente individuali e ricercare file personali di grandi dimensioni per un ragionamento contestuale. Il nostro benchmark istanzia file system di dimensioni reali basati su profili del mondo reale che abbracciano diverse modalità, comprendendo 42,4 GB di dati distribuiti su oltre 2.000 file reali. Sulla base dei file grezzi, costruiamo 581 coppie di domande e risposte (QA) per valutare le capacità degli agenti nella ricerca, nella percezione delle evidenze e nel ragionamento a più fasi. Per facilitare un'analisi granulare, forniamo 46.1K traiettorie strutturate annotate densamente per la diagnosi degli errori passo-passo. Valutiamo un'ampia gamma di modelli linguistici multimodali (MLLM) all'avanguardia e metodi agentivi su HippoCamp. I nostri esperimenti completi rivelano un divario prestazionale significativo: anche i modelli commerciali più avanzati raggiungono solo un'accuratezza del 48,3% nella profilazione dell'utente, trovando particolari difficoltà nel recupero a lungo termine e nel ragionamento cross-modale all'interno di densi file system personali. Inoltre, la nostra diagnosi degli errori passo-passo identifica la percezione multimodale e il grounding delle evidenze come i principali colli di bottiglia. In definitiva, HippoCamp mette in luce le limitazioni critiche degli agenti attuali in ambienti realistici e centrati sull'utente e fornisce una solida base per lo sviluppo di assistenti AI personali di prossima generazione.
Introduciamo PerceptionComp, un benchmark annotato manualmente per il ragionamento video complesso, a lungo termine e incentrato sulla percezione. PerceptionComp è progettato in modo che nessun singolo momento sia sufficiente: rispondere a ogni domanda richiede molteplici elementi di evidenza visiva temporalmente separati e vincoli compositivi sotto logica congiuntiva e sequenziale, abbracciando sottotask percettivi come oggetti, attributi, relazioni, luoghi, azioni ed eventi, e richiedendo competenze che includono riconoscimento semantico, corrispondenza visiva, ragionamento temporale e ragionamento spaziale. Il benchmark contiene 1.114 domande altamente complesse su 279 video provenienti da domini diversi, tra cui tour a piedi in città, tour di ville interne, videogiochi e sport estremi all'aperto, con annotazione manuale al 100%. Studi sull'uomo mostrano che PerceptionComp richiede un pensiero sostanziale al momento del test e passi percettivi ripetuti: i partecipanti impiegano molto più tempo rispetto ai benchmark precedenti e l'accuratezza scende quasi al caso (18,97%) quando il rewatch non è consentito. I modelli MLLM allo stato dell'arte performano anche sostanzialmente peggio su PerceptionComp rispetto ai benchmark esistenti: il miglior modello nella nostra valutazione, Gemini-3-Flash, raggiunge solo il 45,96% di accuratezza nell'impostazione a cinque scelte, mentre i modelli open-source rimangono al di sotto del 40%. Questi risultati suggeriscono che il ragionamento video a lungo termine incentrato sulla percezione rimane un collo di bottiglia importante, e speriamo che PerceptionComp aiuterà a promuovere il progresso nel ragionamento percettivo.
L'ascesa dello scaling al momento del test ha notevolmente potenziato le capacità di ragionamento e agentive dei Large Language Model (LLM). Tuttavia, i Transformer standard faticano a scalare efficientemente la computazione in fase di inferenza, poiché le strategie di loop convenzionali soffrono di un elevato overhead computazionale e di una cache KV che si espande insieme alla profondità del modello. Presentiamo Universal YOCO (YOCO-U), che combina l'architettura decoder-decoder di YOCO con il calcolo ricorsivo per ottenere un effetto sinergico maggiore rispetto a ciascuno dei due approcci preso singolarmente. Basato sul framework YOCO, YOCO-U implementa un Self-Decoder Universale che esegue multiple iterazioni tramite la condivisione dei parametri, confinando il processo iterativo a strati shallow con attenzione efficiente. Questa combinazione produce un favorevole compromesso capacità-efficienza che né YOCO né la ricorsione raggiungono in modo indipendente. L'architettura YOCO fornisce una cache KV globale costante e un pre-riempimento lineare, mentre la ricorsione parziale aumenta la profondità rappresentativa con un overhead limitato. Insieme, YOCO-U migliora l'utilità dei token e il comportamento di scaling mantenendo un'inferenza efficiente. I risultati empirici confermano che YOCO-U rimane altamente competitivo nei benchmark generali e di contesto lungo, dimostrando che l'integrazione di architetture ad attenzione efficiente e calcolo ricorsivo è una direzione promettente per LLM scalabili.
I progressi più recenti nella modellazione generativa 3D si basano su formulazioni di diffusione o flow-matching. Noi esploriamo invece un'alternativa completamente autoregressiva e introduciamo GaussianGPT, un modello basato su transformer che genera direttamente Gaussiane 3D tramite la previsione del token successivo, facilitando così la generazione completa di scene 3D. Inizialmente comprimiamo le primitive gaussiane in una griglia latente discreta utilizzando un autoencoder convoluzionale 3D sparso con quantizzazione vettoriale. I token risultanti vengono serializzati e modellati utilizzando un transformer causale con incorporamento posizionale rotazionale 3D, abilitando la generazione sequenziale della struttura spaziale e dell'aspetto. A differenza dei metodi basati sulla diffusione che perfezionano le scene in modo olistico, la nostra formulazione costruisce le scene passo dopo passo, supportando naturalmente il completamento, l'outpainting, il campionamento controllabile tramite temperatura e orizzonti di generazione flessibili. Questa formulazione sfrutta i bias induttivi composizionali e la scalabilità della modellazione autoregressiva, operando su rappresentazioni esplicite compatibili con le moderne pipeline di rendering neurale, posizionando i transformer autoregressivi come un paradigma complementare per la generazione 3D controllabile e consapevole del contesto.
Un modello linguistico di grandi dimensioni (LLM) può migliorare nella generazione di codice utilizzando esclusivamente i propri output grezzi, senza un verificatore, un modello insegnante o l'apprendimento per rinforzo? Rispondiamo affermativamente con l'auto-distillazione semplice (SSD): campioniamo soluzioni dal modello con specifiche configurazioni di temperatura e troncamento, per poi effettuare un fine-tuning standard supervisionato su tali campioni. SSD migliora Qwen3-30B-Instruct dal 42.4% al 55.3% di pass@1 su LiveCodeBench v6, con guadagni concentrati sui problemi più difficili, e generalizza attraverso i modelli Qwen e Llama alle scale 4B, 8B e 30B, includendo sia le varianti "instruct" che quelle "thinking". Per capire perché un metodo così semplice possa funzionare, ricolleghiamo questi miglioramenti a un conflitto precisione-esplorazione nella decodifica degli LLM e dimostriamo che SSD rimodella le distribuzioni di token in modo contestuale, sopprimendo le code distrattive dove la precisione è cruciale preservando al contempo la diversità utile dove l'esplorazione è importante. Nel complesso, SSD offre una direzione complementare di post-addestramento per migliorare la generazione di codice negli LLM.
Questo articolo introduce il primo quadro di valutazione sistematica per quantificare la qualità e i rischi degli articoli scritti da moderni agenti di codifica. Sebbene la scrittura di articoli basata sull'IA sia diventata una preoccupazione crescente, una valutazione rigorosa della qualità e dei potenziali rischi degli articoli scritti dall'IA rimane limitata, e manca ancora una comprensione unificata della loro affidabilità. Introduciamo Paper Reconstruction Evaluation (PaperRecon), un quadro di valutazione in cui viene creato un riassunto (overview.md) a partire da un articolo esistente; successivamente, un agente genera un articolo completo basandosi sul riassunto e su risorse aggiuntive minime, e il risultato viene poi confrontato con l'articolo originale. PaperRecon scompone la valutazione degli articoli scritti dall'IA in due dimensioni ortogonali, Presentazione e Allucinazione, dove la Presentazione è valutata mediante una rubrica e l'Allucinazione è valutata tramite una valutazione agentica basata sulla fonte originale dell'articolo. Per la valutazione, introduciamo PaperWrite-Bench, un benchmark di 51 articoli provenienti da conferenze di alto livello in diversi domini, pubblicati dopo il 2025. I nostri esperimenti rivelano un chiaro compromesso: sebbene sia ClaudeCode che Codex migliorino con l'avanzamento dei modelli, ClaudeCode raggiunge una qualità di presentazione più elevata al costo di più di 10 allucinazioni per articolo in media, mentre Codex produce meno allucinazioni ma una qualità di presentazione inferiore. Questo lavoro rappresenta un primo passo verso l'istituzione di quadri di valutazione per la scrittura di articoli basata sull'IA e il miglioramento della comprensione dei suoi rischi all'interno della comunità di ricerca.
Il grounding visivo 3D (3D-VG) mira a localizzare oggetti in scene tridimensionali attraverso descrizioni in linguaggio naturale. Sebbene i recenti progressi che sfruttano modelli visione-linguaggio (VLM) abbiano esplorato possibilità zero-shot, questi tipicamente soffrono di un flusso di lavoro statico basato su nuvole di punti 3D pre-elaborate, degradando di fatto il grounding in un matching di proposte. Per bypassare questa dipendenza, la nostra motivazione centrale è disaccoppiare il compito: sfruttare i VLM 2D per risolvere la complessa semantica spaziale, affidandosi alla geometria multivista deterministica per istanziare la struttura 3D. Guidati da questa intuizione, proponiamo "Think, Act, Build (TAB)", un framework agente dinamico che riformula i compiti di 3D-VG come un paradigma ricostruttivo generativo da 2D a 3D che opera direttamente su flussi RGB-D grezzi. Nello specifico, guidato da un'abilità specializzata per il 3D-VG, il nostro agente VLM invoca dinamicamente strumenti visivi per tracciare e ricostruire il target attraverso frame 2D. Crucialmente, per superare il deficit di copertura multivista causato dal tracciamento semantico rigoroso del VLM, introduciamo l'Espansione Geometrica ancorata semanticamente, un meccanismo che prima ancora il target in un clip video di riferimento e poi sfrutta la geometria multivista per propagarne la posizione spaziale attraverso frame non osservati. Ciò permette all'agente di "Costruire" la rappresentazione 3D del target aggregando queste caratteristiche multivista tramite i parametri della telecamera, mappando direttamente gli indizi visivi 2D alle coordinate 3D. Inoltre, per garantire una valutazione rigorosa, abbiamo identificato difetti come l'ambiguità di riferimento e errori di categoria nei benchmark esistenti e abbiamo raffinato manualmente le query errate. Esperimenti estensivi su ScanRefer e Nr3D dimostrano che il nostro framework, basato interamente su modelli open-source, supera significativamente i metodi zero-shot precedenti e supera persino i baseline supervisionati.
Gli agenti proattivi che anticipano le necessità degli utenti ed eseguono compiti in modo autonomo rappresentano una grande promessa come assistenti digitali, ma la mancanza di framework realistici di simulazione utente ne ostacola lo sviluppo. Gli approcci esistenti modellano le applicazioni come API piatte per la chiamata di strumenti, non riuscendo a catturare la natura stateful e sequenziale dell'interazione utente negli ambienti digitali e rendendo impossibile una simulazione utente realistica. Introduciamo Proactive Agent Research Environment (Pare), un framework per costruire e valutare agenti proattivi in ambienti digitali. Pare modella le applicazioni come macchine a stati finiti con navigazione stateful e spazi d'azione dipendenti dallo stato per il simulatore utente, abilitando una simulazione utente attiva. Basandoci su queste fondamenta, presentiamo Pare-Bench, un benchmark di 143 compiti diversificati che abbracciano applicazioni di comunicazione, produttività, pianificazione e stile di vita, progettato per testare l'osservazione del contesto, l'inferenza degli obiettivi, la tempistica degli interventi e l'orchestrazione multi-app.
La distillazione della conoscenza è diventata un meccanismo primario per trasferire capacità di ragionamento e competenze di dominio dai modelli linguistici di grandi dimensioni (LLM) all'avanguardia a studenti più piccoli e distribuibili. Tuttavia, il paradigma dominante rimane *off-policy*: gli studenti si addestrano su dati statici generati dal docente e non incontrano mai i propri errori durante l'apprendimento. Questo disallineamento addestramento-test, un'istanza dell'*exposure bias*, fa sì che gli errori di predizione si accumulino in modo autoregressivo al momento dell'inferenza. La Distillazione On-Policy (OPD) affronta questo problema permettendo allo studente di generare le proprie traiettorie e ricevere feedback dal docente su questi output auto-generati, ancorando la distillazione alla teoria dell'apprendimento per imitazione interattiva. Nonostante la rapida crescita che abbraccia la minimizzazione della divergenza, l'apprendimento guidato da ricompense e l'auto-gioco, la letteratura sull'OPD rimane frammentata senza un trattamento unificato. Questa survey fornisce la prima panoramica completa dell'OPD per gli LLM. Introduciamo un framework unificato basato sulla divergenza f su campioni on-policy e organizziamo il panorama lungo tre dimensioni ortogonali: segnale di feedback (basato sui logit, basato sull'esito o self-play), accesso al docente (white-box, black-box o senza docente) e granularità della loss (a livello di token, a livello di sequenza o ibrida). Analizziamo sistematicamente i metodi rappresentativi, esaminiamo le implementazioni industriali e identifichiamo problemi aperti, incluse le leggi di scala della distillazione, il feedback *uncertainty-aware* e la distillazione a livello di agente.
I modelli Vision-Language-Action (VLA) mirano a controllare i robot per la manipolazione a partire da osservazioni visive e istruzioni in linguaggio naturale. Tuttavia, i paradigmi gerarchici e autoregressivi esistenti spesso introducono un sovraccarico architetturale, soffrono di incoerenza temporale e accumulo di errori su orizzonti lunghi, e mancano di un meccanismo per catturare le dinamiche ambientali senza moduli aggiuntivi. A tal fine, presentiamo MMaDA-VLA, un modello VLA di grandi dimensioni basato su diffusione, pre-addestrato in modo completamente nativo, che unifica la comprensione e la generazione multimodale in un unico framework. La nostra idea chiave è una formulazione di diffusione discreta nativa che incorpora linguaggio, immagini e controlli robotici continui in un unico spazio di token discreti e addestra un singolo backbone con la denoising di token mascherati per generare congiuntamente e in parallelo un'osservazione obiettivo futura e un blocco di azioni. Il denoising iterativo consente un raffinamento globale e indipendente dall'ordine, migliorando la coerenza su orizzonti lunghi mentre ancorano le azioni a esiti visivi futuri previsti senza modelli del mondo ausiliari. Esperimenti su benchmark di simulazione e compiti nel mondo reale mostrano prestazioni allo stato dell'arte, raggiungendo un successo medio del 98,0% su LIBERO e una lunghezza media di 4,78 su CALVIN.
Negli ultimi anni, le leggi di scala dei modelli di raccomandazione hanno attirato un'attenzione crescente, poiché governano la relazione tra le prestazioni e i parametri/FLOP dei sistemi di raccomandazione. Attualmente, esistono tre architetture principali per ottenere il ridimensionamento nei modelli di raccomandazione, ovvero i metodi basati su attenzione, su TokenMixer e su macchine di fattorizzazione, che presentano differenze fondamentali sia nella filosofia progettuale che nella struttura architetturale. In questo articolo, proponiamo un'architettura di ridimensionamento unificata per i sistemi di raccomandazione, denominata UniMixer, per migliorare l'efficienza del ridimensionamento e stabilire un quadro teorico unificato che riunisca i blocchi di ridimensionamento mainstream. Trasformando il TokenMixer basato su regole in una struttura equivalente parametrica, costruiamo un modulo generalizzato parametrico di miscelazione delle feature che consente ai pattern di miscelazione dei token di essere ottimizzati e appresi durante l'addestramento del modello. Nel contempo, la miscelazione parametrica generalizzata dei token rimuove il vincolo presente nel TokenMixer che richiede che il numero di teste sia uguale al numero di token. Inoltre, stabiliamo un quadro unificato per la progettazione di moduli di ridimensionamento per i sistemi di raccomandazione, che colma le connessioni tra i metodi basati su attenzione, su TokenMixer e su macchine di fattorizzazione. Per aumentare ulteriormente il ROI del ridimensionamento, è stato progettato un modulo UniMixing leggero, UniMixing-Lite, che comprime ulteriormente i parametri del modello e il costo computazionale migliorando significativamente le prestazioni del modello. Le curve di ridimensionamento sono mostrate nella figura seguente. Sono stati condotti ampi esperimenti offline e online per verificare le superiori capacità di ridimensionamento di UniMixer.
Gli agenti di acquisto basati su LLM fanno sempre più affidamento su cronologie d'acquisto estese e interazioni multi-turno per la personalizzazione, tuttavia, l'aggiunta ingenua della cronologia grezza ai prompt si rivela spesso inefficace a causa di rumore, lunghezza e mancata corrispondenza della rilevanza. Proponiamo MemRerank, un framework di memoria delle preferenze che distilla la cronologia d'acquisto dell'utente in segnali concisi e indipendenti dalla query per un ricollocamento personalizzato dei prodotti. Per studiare questo problema, costruiamo un benchmark end-to-end e un framework di valutazione incentrati su un task di selezione 1-su-5 basato su LLM, che misura sia la qualità della memoria che l'utilità del ricollocamento a valle. Addestriamo ulteriormente l'estrattore di memoria con apprendimento per rinforzo (RL), utilizzando le prestazioni di ricollocamento a valle come supervisione. Esperimenti con due ricollocatori basati su LLM mostrano che MemRerank supera costantemente i baseline senza memoria, con cronologia grezza e memoria predefinita, ottenendo fino a +10,61 punti assoluti nell'accuratezza 1-su-5. Questi risultati suggeriscono che una memoria esplicita delle preferenze è un componente pratico ed efficace per la personalizzazione nei sistemi e-commerce agentivi.
Le pipeline di revisione multi-LLM, in cui un secondo modello rivede e migliora una bozza prodotta da un primo modello, sono ampiamente ritenute ottenere i propri vantaggi dalla genuina correzione di errori. Noi mettiamo in discussione questo assunto con un esperimento di scomposizione controllata che utilizza quattro condizioni abbinate per separare i guadagni della seconda passata in tre componenti additive: ri-risoluzione, impalcatura e contenuto. Valutiamo questo progetto su due coppie di modelli e tre benchmark che spaziano da MCQ ad alta intensità di conoscenza a programmazione competitiva. I nostri risultati mostrano che i guadagni della revisione multi-LLM non sono monolitici, ma dipendono dalla struttura del task, dalla qualità della bozza e dal tipo di informazione in essa contenuta. Nei task MCQ, dove lo spazio delle risposte è vincolato e le bozze forniscono poca guida strutturale, la maggior parte dei guadagni è coerente con una ri-risoluzione da parte del modello più forte, e l'instradamento diretto delle query al modello più forte può essere più efficace che revisionare una bozza debole. Nei task di generazione di codice, tuttavia, il prompting a due stadi rimane utile perché anche bozze semanticamente nulle possono fornire un'impalcatura strutturale sostanziale, mentre il contenuto di una bozza debole può essere dannoso. Infine, esperimenti con ruoli invertiti mostrano che bozze forti chiaramente avvantaggiano i revisori deboli. In definitiva, le nostre scoperte dimostrano che l'utilità della revisione multi-LLM è dinamicamente limitata dalla struttura del task e dalla qualità della bozza, rendendo necessari progetti di pipeline più mirati piuttosto che strategie di revisione generiche.
I diagrammi di assemblaggio 2D sono spesso astratti e difficili da seguire, creando la necessità di assistenti intelligenti in grado di monitorare i progressi, rilevare errori e fornire una guida passo-passo. In ambienti di realtà mista, tali sistemi devono riconoscere i passaggi completati e quelli in corso dal flusso video e allinearli con le istruzioni del diagramma. I Vision Language Models (VLM) mostrano potenziale per questo compito, ma affrontano un divario di rappresentazione perché i diagrammi di assemblaggio e i fotogrammi video condividono pochissime caratteristiche visive. Per valutare sistematicamente questo divario, costruiamo IKEA-Bench, un benchmark di 1.623 domande su 6 tipi di attività relative a 29 prodotti di arredamento IKEA, e valutiamo 19 VLM (2B-38B) sotto tre strategie di allineamento. Le nostre principali scoperte: (1) la comprensione delle istruzioni di assemblaggio è recuperabile tramite testo, ma il testo degrada simultaneamente l'allineamento diagramma-video; (2) la famiglia architetturale predice l'accuratezza dell'allineamento più fortemente del numero di parametri; (3) la comprensione video rimane un collo di bottiglia difficile non influenzato dalla strategia. Un'analisi meccanicistica a tre livelli rivela inoltre che i diagrammi e il video occupano sottospazi ViT disgiunti, e che l'aggiunta di testo sposta i modelli dal ragionamento visivo a quello guidato dal testo. Questi risultati identificano la codifica visiva come l'obiettivo primario per migliorare la robustezza cross-depiction. Pagina del progetto: https://ryenhails.github.io/IKEA-Bench/
I moderni grandi modelli linguistici (LLM) dipendono sempre più da meccanismi efficienti di elaborazione e generazione di contesti lunghi, inclusi l'attenzione sparsa, la generazione aumentata tramite recupero (RAG) e la memoria contestuale compressa, per supportare ragionamenti complessi. Dimostriamo che queste ottimizzazioni possono essere unificate in una pipeline di elaborazione della memoria in quattro fasi: Prepara Memoria, Calcola Rilevanza, Recupero e Applica all'Inferenza. Attraverso un'analisi sistematica, identifichiamo un sovraccarico dell'elaborazione della memoria compreso tra il 22% e il 97% durante l'inferenza degli LLM e una forte eterogeneità nelle sue caratteristiche computazionali. Sulla base di questa intuizione, sosteniamo che i sistemi eterogenei siano adatti ad accelerare l'elaborazione della memoria e, di conseguenza, l'inferenza end-to-end. Dimostriamo questo approccio su un sistema GPU-FPGA, scaricando le operazioni sparse, irregolari e vincolate dalla memoria sulle FPGA, mentre si mantengono le operazioni ad alta intensità computazionale sulle GPU. Valutato su una GPU AMD MI210 e una FPGA Alveo U55C, il nostro sistema è da 1,04 a 2,2 volte più veloce e richiede da 1,11 a 4,7 volte meno energia attraverso molteplici ottimizzazioni dell'inferenza degli LLM rispetto al baseline su GPU (risultati simili valgono per NVIDIA A100). Questi risultati stabiliscono i sistemi eterogenei come una direzione pratica per un'efficiente elaborazione della memoria negli LLM e forniscono indicazioni per la futura progettazione di hardware eterogeneo.
Man mano che gli agenti basati su LLM vengono implementati in sistemi di produzione, comprendere la loro coerenza comportamentale (se producono sequenze di azioni simili quando ricevono compiti identici) diventa fondamentale per l'affidabilità. Studiamo la coerenza nel contesto di SWE-bench, un benchmark impegnativo per l'ingegneria del software che richiede ragionamenti complessi e multi-step. Confrontando Claude~4.5~Sonnet, GPT-5 e Llama-3.1-70B su 50 esecuzioni ciascuno (10 compiti per 5 esecuzioni), scopriamo che, tra i modelli, una maggiore coerenza si allinea con una maggiore accuratezza: Claude raggiunge la varianza più bassa (CV: 15,2%) e l'accuratezza più alta (58%), GPT-5 è intermedio (CV: 32,2%, accuratezza: 32%), e Llama mostra la varianza più alta (CV: 47,0%) con l'accuratezza più bassa (4%). Tuttavia, all'interno di un singolo modello, la coerenza può amplificare sia le interpretazioni corrette che quelle errate. La nostra analisi rivela una sfumatura critica: la coerenza amplifica i risultati piuttosto che garantirne la correttezza. Il 71% dei fallimenti di Claude deriva da un'"interpretazione errata coerente": fare la stessa assunzione errata in tutte le esecuzioni. È interessante notare che GPT-5 raggiunge un accordo strategico iniziale simile a Claude (divergendo al passo 3,4 contro 3,2) ma mostra una varianza 2,1 volte superiore, suggerendo che il solo momento della divergenza non determina la coerenza. Questi risultati suggeriscono che per la distribuzione in produzione, l'accuratezza interpretativa conta più della coerenza esecutiva, con implicazioni per la valutazione e l'addestramento degli agenti.
Studiamo se gli agenti di utilizzo del telefono rispettano la privacy durante il completamento di attività mobili benigne. Questa domanda è rimasta difficile da rispondere perché il comportamento conforme alla privacy non è stato operazionalizzato per gli agenti di utilizzo del telefono, e le applicazioni ordinarie non rivelano esattamente quali dati gli agenti inseriscono in quali campi dei moduli durante l'esecuzione. Per rendere questa domanda misurabile, introduciamo MyPhoneBench, un framework di valutazione verificabile per il comportamento della privacy negli agenti mobili. Operazionalizziamo l'uso del telefono rispettoso della privacy come accesso autorizzato, divulgazione minima e memoria controllata dall'utente attraverso un contratto di privacy minimo, iMy, e lo abbiniamo a mock app strumentate più un auditing basato su regole che rendono osservabili e riproducibili le richieste di autorizzazione non necessarie, la ridivulgazione ingannevole e la compilazione non necessaria dei moduli. Su cinque modelli all'avanguardia, testati su 10 app mobili e 300 attività, scopriamo che il successo dell'attività, il completamento dell'attività conforme alla privacy e l'uso successivo delle preferenze salvate sono capacità distinte, e nessun singolo modello domina tutte e tre. La valutazione congiunta del successo e della privacy rimescola la classifica dei modelli rispetto a ciascuna metrica considerata singolarmente. La modalità di fallimento più persistente tra i modelli è la semplice minimizzazione dei dati: gli agenti compilano ancora campi personali opzionali che l'attività non richiede. Questi risultati mostrano che i fallimenti della privacy derivano da un'esecuzione troppo zelante di compiti benigni e che una valutazione basata solo sul successo sovrastima la prontezza per il deployment degli attuali agenti di utilizzo del telefono. Tutto il codice, le mock app e le traiettorie degli agenti sono pubblicamente disponibili su~ https://github.com/tangzhy/MyPhoneBench.
Utilizzando circa 48 soluzioni di training HumanEval verificate per l'esecuzione, l'ottimizzazione di una singola matrice di stato iniziale per strato ricorrente, con overhead di inferenza nullo, supera LoRA di +10,8 punti percentuali (p < 0,001) su HumanEval. Il metodo, che chiamiamo S0 tuning, ottimizza una matrice di stato per strato ricorrente mantenendo congelati tutti i pesi del modello. Su Qwen3.5-4B (ibrido GatedDeltaNet), l'S0 tuning migliora la pass@1 greedy di +23,6 +/- 1,7 pp (10 seed). Su FalconH1-7B (ibrido Mamba-2), S0 raggiunge il 71,8% +/- 1,3 e LoRA raggiunge il 71,4% +/- 2,4 (3 seed), risultati statisticamente indistinguibili con questo campione pur non richiedendo fusione di pesi. Il trasferimento cross-dominio è significativo su MATH-500 (+4,8 pp, p = 0,00002, 8 seed) e GSM8K (+2,8 pp, p = 0,0003, 10 seed); un benchmark text-to-SQL (Spider) non mostra trasferimento, coerentemente con il meccanismo di trajectory-steering. Un controllo con prefix-tuning su un Transformer puro (Qwen2.5-3B) degrada le prestazioni di -13,9 pp in tutte le nove configurazioni testate. Su Qwen3.5, una variante per-step con offset di stato raggiunge +27,1 pp, superando sia S0 che LoRA ma con un costo di inferenza per step. Nel complesso, i risultati mostrano che l'inizializzazione dello stato ricorrente è una solida superficie PEFT a overhead di inferenza nullo per modelli linguistici ibridi quando la supervisione verificata è scarsa. Lo stato ottimizzato è un file di ~48 MB; il cambio di task non richiede fusione di pesi o ricaricamento del modello. Codice e libreria: https://github.com/jackyoung27/s0-tuning.
Mentre gli agenti LLM evolvono dalla risoluzione di problemi brevi e statici all'esecuzione di compiti complessi e a lungo termine in ambienti dinamici, la capacità di gestire interruzioni utente, come l'aggiunta di requisiti o la revisione di obiettivi, durante l'esecuzione di un'attività sta diventando un requisito fondamentale per un dispiegamento realistico. Tuttavia, gli attuali benchmark presuppongono largamente un comportamento agente ininterrotto o studiano le interruzioni solo in compiti linguistici brevi e non vincolati. In questo articolo, presentiamo il primo studio sistematico sugli agenti interrompibili in compiti di navigazione web a lungo termine e radicati nell'ambiente, dove le azioni inducono cambiamenti di stato persistenti. Formalizziamo tre tipi realistici di interruzione, inclusi aggiunta, revisione e revoca, e introduciamo InterruptBench, un benchmark derivato da WebArena-Lite che sintetizza scenari di interruzione di alta qualità sotto stringenti vincoli semantici. Utilizzando un framework unificato di simulazione delle interruzioni, valutiamo sei solide architetture LLM in contesti di interruzione a turno singolo e multiplo, analizzando sia la loro efficacia nell'adattarsi a intenzioni aggiornate sia la loro efficienza nel recuperare da cambiamenti a metà attività. I nostri risultati mostrano che gestire le interruzioni utente in modo efficace ed efficiente durante compiti agentivi a lungo termine rimane una sfida per i potenti LLM su larga scala. Codice e dataset sono disponibili su https://github.com/HenryPengZou/InterruptBench.
I grandi modelli linguistici (LLM) e le loro applicazioni, come gli agenti, sono estremamente vulnerabili ad attacchi di prompt injection. I metodi di rilevamento di prompt injection allo stato dell'arte presentano le seguenti limitazioni: (1) la loro efficacia si degrada significativamente all'aumentare della lunghezza del contesto, e (2) mancano di regole esplicite che definiscano cosa costituisce un prompt injection, rendendo le decisioni di rilevamento implicite, opache e difficili da analizzare. In questo lavoro, proponiamo AgentWatcher per affrontare le due limitazioni sopra citate. Per affrontare la prima limitazione, AgentWatcher attribuisce l'output del LLM (ad esempio, l'azione di un agente) a un piccolo insieme di segmenti di contesto causalmente influenti. Concentrando il rilevamento su un testo relativamente breve, AgentWatcher può essere scalabile per contesti lunghi. Per affrontare la seconda limitazione, definiamo un insieme di regole che specificano cosa costituisce e cosa non costituisce un prompt injection, e utilizziamo un LLM monitor per ragionare su queste regole basandosi sul testo attribuito, rendendo le decisioni di rilevamento più spiegabili. Abbiamo condotto una valutazione completa su benchmark di agenti con uso di strumenti e su dataset di comprensione a contesto lungo. I risultati sperimentali dimostrano che AgentWatcher può rilevare efficacemente i prompt injection e mantenere l'utilità in assenza di attacchi. Il codice è disponibile all'indirizzo https://github.com/wang-yanting/AgentWatcher.
La corretta stadiazione del sonno è fondamentale per diagnosticare l'apnea ostruttiva del sonno (OSA) e l'ipopnea nei pazienti con ictus. Sebbene la polisonnografia (PSG) sia affidabile, è costosa, richiede molto lavoro e viene valutata manualmente. Sebbene l'apprendimento profondo consenta una stadiazione automatica del sonno basata sull'EEG in soggetti sani, la nostra analisi mostra una scarsa generalizzazione alle popolazioni cliniche con sonno alterato. Utilizzando le interpretazioni Grad-CAM, dimostriamo sistematicamente questa limitazione. Presentiamo iSLEEPS, un nuovo dataset di ictus ischemico annotato clinicamente (che sarà reso pubblico), e valutiamo un modello SE-ResNet più LSTM bidirezionale per la stadiazione del sonno su EEG a canale singolo. Come previsto, le prestazioni incrociate tra soggetti sani e malati sono scarse. Le visualizzazioni dell'attenzione, supportate dal feedback di esperti clinici, mostrano che il modello si concentra su regioni EEG fisiologicamente non informative nei dati dei pazienti. Analisi statistiche e computazionali confermano ulteriormente significative differenze nell'architettura del sonno tra coorti di soggetti sani e di pazienti con ictus ischemico, evidenziando la necessità di modelli specifici per patologia o consapevoli del soggetto, convalidati clinicamente prima dell'implementazione. Un riassunto del documento e il codice sono disponibili all'indirizzo https://himalayansaswatabose.github.io/iSLEEPS_Explainability.github.io/