HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

29 papers found

ClawKeeper: Protezione Sicurezza Completa per Agenti OpenClaw tramite Abilità, Plugin e Watcher
ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

Mar 25

BySongyang Liu, Chaozhuo Li, Chenxu Wang, Jinyu Hou, Zejian Chen, Litian Zhang, Zheng Liu, Qiwei Ye, Yiming Hei, Xi Zhang, Zhongyuan Wang

166

OpenClaw si è rapidamente affermato come un runtime per agenti autonomi open-source di primo piano, offrendo potenti capacità tra cui integrazione di strumenti, accesso ai file locali ed esecuzione di comandi shell. Tuttavia, questi ampi privilegi operativi introducono critiche vulnerabilità di sicurezza, trasformando gli errori del modello in minacce tangibili a livello di sistema come la fuoriuscita di dati sensibili, l'elevazione dei privilegi e l'esecuzione malevola di skill di terze parti. Le misure di sicurezza esistenti per l'ecosistema OpenClaw rimangono altamente frammentate, affrontando solo stadi isolati del ciclo di vita dell'agente piuttosto che fornire una protezione olistica. Per colmare questa lacuna, presentiamo ClawKeeper, un framework di sicurezza in tempo reale che integra meccanismi di protezione multidimensionali su tre livelli architetturali complementari. (1) La protezione basata su skill opera a livello di istruzione, iniettando politiche di sicurezza strutturate direttamente nel contesto dell'agente per imporre vincoli specifici dell'ambiente e attraversare i confini delle piattaforme. (2) La protezione basata su plugin funge da meccanismo di enforcement interno al runtime, fornendo irrobustimento della configurazione, rilevamento proattivo delle minacce e monitoraggio comportamentale continuo throughout la pipeline di esecuzione. (3) La protezione basata su Watcher introduce un middleware di sicurezza a livello di sistema, disaccoppiato e innovativo, che verifica continuamente l'evoluzione dello stato dell'agente. Consente un'intervento in tempo reale sull'esecuzione senza accoppiamento con la logica interna dell'agente, supportando operazioni come l'arresto di azioni ad alto rischio o l'imposizione di conferma umana. Sosteniamo che questo paradigma Watcher abbia un forte potenziale per servire come componente fondamentale per la protezione dei sistemi di agenti autonomi di prossima generazione. Estese valutazioni qualitative e quantitative dimostrano l'efficacia e la robustezza di ClawKeeper in vari scenari di minaccia. Rilasciamo il nostro codice.

Agenti Terminali Sono Sufficienti per l'Automazione Aziendale
Terminal Agents Suffice for Enterprise Automation

Mar 31

ByPatrice Bechard, Orlando Marquez Ayala, Emily Chen, Jordan Skelton, Sagar Davasam, Srinivas Sunkara, Vikas Yadav, Sai Rajeswar

Cresce l'interesse nello sviluppo di agenti in grado di interagire con piattaforme digitali per eseguire autonomamente compiti aziendali significativi. Tra gli approcci esplorati vi sono agenti potenziati da strumenti basati su astrazioni come il Model Context Protocol (MCP) e agenti web che operano tramite interfacce grafiche. Tuttavia, non è ancora chiaro se sistemi agentivi così complessi siano necessari, dati i loro costi e sovraccarichi operativi. Sosteniamo che un agente di programmazione dotato unicamente di un terminale e di un filesystem possa risolvere molti compiti aziendali in modo più efficace interagendo direttamente con le API delle piattaforme. Valutiamo questa ipotesi su diversi sistemi reali e dimostriamo che questi agenti a basso livello operanti da terminale eguagliano o superano le prestazioni di architetture agentive più complesse. I nostri risultati suggeriscono che semplici interfacce programmatiche, combinate con modelli fondazionali potenti, sono sufficienti per un'automazione aziendale pratica.

MiroEval: Benchmarking di Agenti di Ricerca Multimodali Avanzati nei Processi e nei Risultati
MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Mar 30

ByFangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing

I recenti progressi nei sistemi di ricerca approfondita sono stati impressionanti, ma la valutazione è ancora in ritardo rispetto alle reali esigenze degli utenti. I benchmark esistenti valutano prevalentemente i rapporti finali utilizzando griglie fisse, non riuscendo a valutare il processo di ricerca sottostante. La maggior parte offre anche una copertura multimodale limitata, si affida a compiti sintetici che non riflettono la complessità delle query del mondo reale e non può essere aggiornata con l'evolversi della conoscenza. Per colmare queste lacune, introduciamo MiroEval, un benchmark e un framework di valutazione per i sistemi di ricerca approfondita. Il benchmark comprende 100 compiti (70 solo testo, 30 multimodali), tutti basati su reali esigenze degli utenti e costruiti tramite una pipeline a doppio percorso che supporta aggiornamenti periodici, consentendo un ambiente dinamico ed evolutivo. La suite di valutazione proposta valuta i sistemi di ricerca approfondita lungo tre dimensioni complementari: valutazione della qualità della sintesi adattiva con griglie specifiche per compito, verifica della fattualità agentiva tramite retrieval attivo e ragionamento su fonti web e allegati multimodali, e valutazione centrata sul processo che analizza come il sistema cerca, ragiona e affina la propria indagine. La valutazione di 13 sistemi restituisce tre risultati principali: le tre dimensioni di valutazione catturano aspetti complementari delle capacità del sistema, ciascuna rivelando punti di forza e debolezza distinti tra i sistemi; la qualità del processo funge da indicatore affidabile del risultato complessivo, rivelando al contempo punti deboli invisibili alle metriche a livello di output; e i compiti multimodali pongono sfide sostanzialmente maggiori, con la maggior parte dei sistemi che registra un calo di 3-10 punti. La serie MiroThinker ottiene le prestazioni più bilanciate, con MiroThinker-H1 che si classifica al primo posto in generale in entrambe le configurazioni. I risultati della verifica umana e della robustezza confermano l'affidabilità del benchmark e del framework di valutazione. MiroEval fornisce uno strumento diagnostico olistico per la prossima generazione di agenti di ricerca approfondita.

ViGoR-Bench: Quanto Sono Lontani i Modelli Generativi Visivi dai Ragionatori Visivi Zero-Shot?
ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

Mar 26

ByHaonan Han, Jiancheng Huang, Xiaopeng Sun, Junyan He, Rui Yang, Jie Hu, Xiaojiang Peng, Lin Ma, Xiaoming Wei, Xiu Li

Al di là della straordinaria fedeltà visiva dei moderni modelli di AIGC si cela un "deserto logico", in cui i sistemi falliscono compiti che richiedono ragionamenti di tipo fisico, causale o spaziale complesso. Le valutazioni attuali si basano in larga misura su metriche superficiali o benchmark frammentati, creando un "miraggio della performance" che trascura il processo generativo. Per affrontare questo problema, introduciamo ViGoR (Vision-Generative Reasoning-centric Benchmark), un framework unificato progettato per smantellare questo miraggio. ViGoR si distingue per quattro innovazioni chiave: 1) copertura olistica cross-modale che collega attività di Image-to-Image e Video; 2) un meccanismo a doppio binario che valuta sia i processi intermedi che i risultati finali; 3) un giudice automatizzato basato su evidenze che garantisce un elevato allineamento con la valutazione umana; e 4) un'analisi diagnostica granulare che scompone la performance in dimensioni cognitive a grana fine. Esperimenti condotti su oltre 20 modelli all'avanguardia rivelano che persino i sistemi più avanzati presentano deficit significativi nel ragionamento, stabilendo ViGoR come un fondamentale "test di stress" per la prossima generazione di modelli visivi intelligenti. La demo è disponibile all'indirizzo https://vincenthancoder.github.io/ViGoR-Bench/

Vision2Web: Un Benchmark Gerarchico per lo Sviluppo Visivo di Siti Web con Verifica Agente
Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Mar 27

ByZehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang

I recenti progressi nei modelli linguistici di grandi dimensioni hanno migliorato le capacità degli agenti di programmazione, ma una valutazione sistematica dello sviluppo complesso e end-to-end di siti web rimane limitata. Per colmare questa lacuna, introduciamo Vision2Web, un benchmark gerarchico per lo sviluppo visivo di siti web, che spazia dalla generazione statica di codice da interfaccia utente, alla riproduzione interattiva di frontend multi-pagina, fino allo sviluppo full-stack di siti web a lungo orizzonte. Il benchmark è costruito a partire da siti web reali e comprende un totale di 193 task across 16 categorie, con 918 immagini prototipo e 1.255 casi di test. Per supportare una valutazione flessibile, approfondita e affidabile, proponiamo un paradigma di verifica dell'agente basato su workflow, fondato su due componenti complementari: un verificatore dell'agente GUI e un giudice basato su VLM. Valutiamo molteplici modelli linguistici visivi istanziati sotto diversi framework di agenti di programazione, rivelando divari prestazionali sostanziali a tutti i livelli di task, con i modelli allo stato dell'arte che continuano a incontrare difficoltà nello sviluppo full-stack.

QuitoBench: Un Benchmark Aperto di Alta Qualità per la Previsione di Serie Storiche
QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

Mar 27

BySiqiao Xue, Zhaoyang Zhu, Wei Zhang, Rongyao Cai, Rui Wang, Yixiang Mu, Fan Zhou, Jianguo Li, Peng Di, Hang Yu

La previsione di serie temporali è fondamentale in settori come la finanza, la sanità e il cloud computing, ma i progressi sono limitati da un collo di bottiglia fondamentale: la scarsità di benchmark di alta qualità e su larga scala. Per colmare questa lacuna, presentiamo QuitoBench, un benchmark bilanciato per regimi di previsione di serie temporali che copre otto regimi di trend/stagionalità/forecastabilità (TSF), progettato per catturare proprietà rilevanti per la previsione piuttosto che etichette di dominio definite dall'applicazione. Il benchmark è costruito su Quito, un corpus di serie temporali di miliardi di elementi basato sul traffico applicativo di Alipay che abbraccia nove domini business. Valutando 10 modelli di deep learning, modelli foundation e baseline statistiche su 232.200 istanze di valutazione, riportiamo quattro risultati chiave: (i) un crossover della lunghezza del contesto in cui i modelli di deep learning prevalgono per contesti brevi (L=96) mentre i modelli foundation dominano per contesti lunghi (L ≥ 576); (ii) la forecastabilità è il principale fattore di difficoltà, producendo un divario MAE di 3,64 volte tra i regimi; (iii) i modelli di deep learning equivalgono o superano i modelli foundation con 59 volte meno parametri; e (iv) l'aumento dei dati di addestramento apporta benefici sostanzialmente maggiori rispetto alla scalatura della dimensione del modello per entrambe le famiglie di modelli. Questi risultati sono validati da una forte coerenza cross-benchmark e cross-metrica. La nostra release open-source consente una valutazione riproducibile e consapevole dei regimi per la ricerca sulla previsione di serie temporali.

Spostamento del Ragionamento: Come il Contesto Accorcia Silenziosamente il Ragionamento dei Modelli Linguistici
Reasoning Shift: How Context Silently Shortens LLM Reasoning

Apr 1

ByGleb Rodionov

I modelli linguistici di grandi dimensioni (LLM) che mostrano comportamenti di scaling al momento del test, come tracce di ragionamento estese e auto-verifica, hanno dimostrato prestazioni notevoli in compiti di ragionamento complessi e a lungo termine. Tuttavia, la robustezza di questi comportamenti di ragionamento rimane poco esplorata. Per indagare ciò, conduciamo una valutazione sistematica di molteplici modelli di ragionamento in tre scenari: (1) problemi arricchiti con contesto irrilevante e prolungato; (2) ambienti conversazionali multi-turn con compiti indipendenti; e (3) problemi presentati come sottocompito all'interno di un'attività complessa. Osserviamo un fenomeno interessante: i modelli di ragionamento tendono a produrre tracce di ragionamento molto più brevi (fino al 50%) per lo stesso problema in diverse condizioni di contesto, rispetto alle tracce prodotte quando il problema è presentato in isolamento. Un'analisi più granulare rivela che questa compressione è associata a una diminuzione dei comportamenti di auto-verifica e gestione dell'incertezza, come il ricontrollo. Sebbene questo cambiamento comportamentale non comprometta le prestazioni su problemi semplici, potrebbe influenzare le prestazioni su compiti più impegnativi. Ci auguriamo che i nostri risultati attirino ulteriore attenzione sia sulla robustezza dei modelli di ragionamento che sul problema della gestione del contesto per gli LLM e gli agenti basati su LLM.

I vincoli di brevità invertono le gerarchie prestazionali nei modelli linguistici
Brevity Constraints Reverse Performance Hierarchies in Language Models

Mar 11

ByMD Azizul Hakim

I protocolli di valutazione standard rivelano un fenomeno controintuitivo: sul 7,7% dei problemi di benchmark che coprono cinque dataset, i modelli linguistici più grandi ottengono prestazioni inferiori a quelli più piccoli di 28,4 punti percentuali, nonostante abbiano da 10 a 100 volte più parametri. Attraverso una valutazione sistematica di 31 modelli (da 0,5 a 405 miliardi di parametri) su 1.485 problemi, identifichiamo il meccanismo in una verbosità spontanea dipendente dalla scala, che introduce errori attraverso un'eccessiva elaborazione. Esperimenti di intervento causale dimostrano che ciò riflette un problema correggibile nella progettazione dei prompt, piuttosto che limitazioni fondamentali delle capacità. Vincolare i modelli grandi a produrre risposte brevi migliora l'accuratezza di 26 punti percentuali e riduce i divari prestazionali fino a due terzi. Ancora più cruciale, i vincoli di brevità capovolgono completamente le gerarchie prestazionali sui benchmark di ragionamento matematico e conoscenza scientifica, con i modelli grandi che ottengono vantaggi dal 7,7 al 15,9 punti percentuali rispetto a quelli piccoli – inversioni dirette dei divari originali. Questi ribaltamenti provano che i modelli grandi possiedono capacità latenti superiori che i prompt universali mascherano. Convalidiamo i risultati attraverso tre test indipendenti di contaminazione e dimostriamo che la scala inversa opera in modo continuo sull'intero spettro parametrico, con scale ottimali specifiche per dataset che vanno da 0,5 a 3,0 miliardi di parametri. I nostri risultati stabiliscono che massimizzare le prestazioni dei modelli grandi richiede una progettazione dei prompt consapevole della scala, piuttosto che protocolli di valutazione universali, con immediate implicazioni per il deployment: l'adattamento del prompt migliora simultaneamente l'accuratezza e riduce i costi computazionali.

HippoCamp: Valutazione delle Prestazioni degli Agenti Contestuali su Computer Personali
HippoCamp: Benchmarking Contextual Agents on Personal Computers

Apr 1

ByZhe Yang, Shulin Tian, Kairui Hu, Shuai Liu, Hoang-Nhat Nguyen, Yichi Zhang, Zujin Guo, Mengying Yu, Zinan Zhang, Jingkang Yang, Chen Change Loy, Ziwei Liu

Presentiamo HippoCamp, un nuovo benchmark progettato per valutare le capacità degli agenti nella gestione multimodale di file. A differenza dei benchmark esistenti per agenti, che si concentrano su compiti come l'interazione web, l'uso di strumenti o l'automazione software in contesti generici, HippoCamp valuta gli agenti in ambienti incentrati sull'utente per modellare profili utente individuali e ricercare file personali di grandi dimensioni per un ragionamento contestuale. Il nostro benchmark istanzia file system di dimensioni reali basati su profili del mondo reale che abbracciano diverse modalità, comprendendo 42,4 GB di dati distribuiti su oltre 2.000 file reali. Sulla base dei file grezzi, costruiamo 581 coppie di domande e risposte (QA) per valutare le capacità degli agenti nella ricerca, nella percezione delle evidenze e nel ragionamento a più fasi. Per facilitare un'analisi granulare, forniamo 46.1K traiettorie strutturate annotate densamente per la diagnosi degli errori passo-passo. Valutiamo un'ampia gamma di modelli linguistici multimodali (MLLM) all'avanguardia e metodi agentivi su HippoCamp. I nostri esperimenti completi rivelano un divario prestazionale significativo: anche i modelli commerciali più avanzati raggiungono solo un'accuratezza del 48,3% nella profilazione dell'utente, trovando particolari difficoltà nel recupero a lungo termine e nel ragionamento cross-modale all'interno di densi file system personali. Inoltre, la nostra diagnosi degli errori passo-passo identifica la percezione multimodale e il grounding delle evidenze come i principali colli di bottiglia. In definitiva, HippoCamp mette in luce le limitazioni critiche degli agenti attuali in ambienti realistici e centrati sull'utente e fornisce una solida base per lo sviluppo di assistenti AI personali di prossima generazione.

PerceptionComp: Un Benchmark Video per il Ragionamento Complesso di Tipo Percettivo
PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Mar 27

ByShaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna

Introduciamo PerceptionComp, un benchmark annotato manualmente per il ragionamento video complesso, a lungo termine e incentrato sulla percezione. PerceptionComp è progettato in modo che nessun singolo momento sia sufficiente: rispondere a ogni domanda richiede molteplici elementi di evidenza visiva temporalmente separati e vincoli compositivi sotto logica congiuntiva e sequenziale, abbracciando sottotask percettivi come oggetti, attributi, relazioni, luoghi, azioni ed eventi, e richiedendo competenze che includono riconoscimento semantico, corrispondenza visiva, ragionamento temporale e ragionamento spaziale. Il benchmark contiene 1.114 domande altamente complesse su 279 video provenienti da domini diversi, tra cui tour a piedi in città, tour di ville interne, videogiochi e sport estremi all'aperto, con annotazione manuale al 100%. Studi sull'uomo mostrano che PerceptionComp richiede un pensiero sostanziale al momento del test e passi percettivi ripetuti: i partecipanti impiegano molto più tempo rispetto ai benchmark precedenti e l'accuratezza scende quasi al caso (18,97%) quando il rewatch non è consentito. I modelli MLLM allo stato dell'arte performano anche sostanzialmente peggio su PerceptionComp rispetto ai benchmark esistenti: il miglior modello nella nostra valutazione, Gemini-3-Flash, raggiunge solo il 45,96% di accuratezza nell'impostazione a cinque scelte, mentre i modelli open-source rimangono al di sotto del 40%. Questi risultati suggeriscono che il ragionamento video a lungo termine incentrato sulla percezione rimane un collo di bottiglia importante, e speriamo che PerceptionComp aiuterà a promuovere il progresso nel ragionamento percettivo.

YOCO Universale per un'Efficiente Scalabilità in Profondità
Universal YOCO for Efficient Depth Scaling

Apr 1

ByYutao Sun, Li Dong, Tianzhu Ye, Shaohan Huang, Jianyong Wang, Furu Wei

L'ascesa dello scaling al momento del test ha notevolmente potenziato le capacità di ragionamento e agentive dei Large Language Model (LLM). Tuttavia, i Transformer standard faticano a scalare efficientemente la computazione in fase di inferenza, poiché le strategie di loop convenzionali soffrono di un elevato overhead computazionale e di una cache KV che si espande insieme alla profondità del modello. Presentiamo Universal YOCO (YOCO-U), che combina l'architettura decoder-decoder di YOCO con il calcolo ricorsivo per ottenere un effetto sinergico maggiore rispetto a ciascuno dei due approcci preso singolarmente. Basato sul framework YOCO, YOCO-U implementa un Self-Decoder Universale che esegue multiple iterazioni tramite la condivisione dei parametri, confinando il processo iterativo a strati shallow con attenzione efficiente. Questa combinazione produce un favorevole compromesso capacità-efficienza che né YOCO né la ricorsione raggiungono in modo indipendente. L'architettura YOCO fornisce una cache KV globale costante e un pre-riempimento lineare, mentre la ricorsione parziale aumenta la profondità rappresentativa con un overhead limitato. Insieme, YOCO-U migliora l'utilità dei token e il comportamento di scaling mantenendo un'inferenza efficiente. I risultati empirici confermano che YOCO-U rimane altamente competitivo nei benchmark generali e di contesto lungo, dimostrando che l'integrazione di architetture ad attenzione efficiente e calcolo ricorsivo è una direzione promettente per LLM scalabili.

GaussianGPT: Verso la generazione autoregressiva di scene con Gaussiane 3D
GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

Mar 27

ByNicolas von Lützow, Barbara Rössle, Katharina Schmid, Matthias Nießner

I progressi più recenti nella modellazione generativa 3D si basano su formulazioni di diffusione o flow-matching. Noi esploriamo invece un'alternativa completamente autoregressiva e introduciamo GaussianGPT, un modello basato su transformer che genera direttamente Gaussiane 3D tramite la previsione del token successivo, facilitando così la generazione completa di scene 3D. Inizialmente comprimiamo le primitive gaussiane in una griglia latente discreta utilizzando un autoencoder convoluzionale 3D sparso con quantizzazione vettoriale. I token risultanti vengono serializzati e modellati utilizzando un transformer causale con incorporamento posizionale rotazionale 3D, abilitando la generazione sequenziale della struttura spaziale e dell'aspetto. A differenza dei metodi basati sulla diffusione che perfezionano le scene in modo olistico, la nostra formulazione costruisce le scene passo dopo passo, supportando naturalmente il completamento, l'outpainting, il campionamento controllabile tramite temperatura e orizzonti di generazione flessibili. Questa formulazione sfrutta i bias induttivi composizionali e la scalabilità della modellazione autoregressiva, operando su rappresentazioni esplicite compatibili con le moderne pipeline di rendering neurale, posizionando i transformer autoregressivi come un paradigma complementare per la generazione 3D controllabile e consapevole del contesto.

Un'Autodistillazione Sorprendentemente Semplice Migliora la Generazione di Codice
Embarrassingly Simple Self-Distillation Improves Code Generation

Apr 1

ByRuixiang Zhang, Richard He Bai, Huangjie Zheng, Navdeep Jaitly, Ronan Collobert, Yizhe Zhang

Un modello linguistico di grandi dimensioni (LLM) può migliorare nella generazione di codice utilizzando esclusivamente i propri output grezzi, senza un verificatore, un modello insegnante o l'apprendimento per rinforzo? Rispondiamo affermativamente con l'auto-distillazione semplice (SSD): campioniamo soluzioni dal modello con specifiche configurazioni di temperatura e troncamento, per poi effettuare un fine-tuning standard supervisionato su tali campioni. SSD migliora Qwen3-30B-Instruct dal 42.4% al 55.3% di pass@1 su LiveCodeBench v6, con guadagni concentrati sui problemi più difficili, e generalizza attraverso i modelli Qwen e Llama alle scale 4B, 8B e 30B, includendo sia le varianti "instruct" che quelle "thinking". Per capire perché un metodo così semplice possa funzionare, ricolleghiamo questi miglioramenti a un conflitto precisione-esplorazione nella decodifica degli LLM e dimostriamo che SSD rimodella le distribuzioni di token in modo contestuale, sopprimendo le code distrattive dove la precisione è cruciale preservando al contempo la diversità utile dove l'esplorazione è importante. Nel complesso, SSD offre una direzione complementare di post-addestramento per migliorare la generazione di codice negli LLM.

Valutazione della Ricostruzione di Articoli: Analisi della Presentazione e delle Allucinazioni negli Articoli Scritti dall'Intelligenza Artificiale
Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Apr 1

ByAtsuyuki Miyai, Mashiro Toyooka, Zaiying Zhao, Kenta Watanabe, Toshihiko Yamasaki, Kiyoharu Aizawa

Questo articolo introduce il primo quadro di valutazione sistematica per quantificare la qualità e i rischi degli articoli scritti da moderni agenti di codifica. Sebbene la scrittura di articoli basata sull'IA sia diventata una preoccupazione crescente, una valutazione rigorosa della qualità e dei potenziali rischi degli articoli scritti dall'IA rimane limitata, e manca ancora una comprensione unificata della loro affidabilità. Introduciamo Paper Reconstruction Evaluation (PaperRecon), un quadro di valutazione in cui viene creato un riassunto (overview.md) a partire da un articolo esistente; successivamente, un agente genera un articolo completo basandosi sul riassunto e su risorse aggiuntive minime, e il risultato viene poi confrontato con l'articolo originale. PaperRecon scompone la valutazione degli articoli scritti dall'IA in due dimensioni ortogonali, Presentazione e Allucinazione, dove la Presentazione è valutata mediante una rubrica e l'Allucinazione è valutata tramite una valutazione agentica basata sulla fonte originale dell'articolo. Per la valutazione, introduciamo PaperWrite-Bench, un benchmark di 51 articoli provenienti da conferenze di alto livello in diversi domini, pubblicati dopo il 2025. I nostri esperimenti rivelano un chiaro compromesso: sebbene sia ClaudeCode che Codex migliorino con l'avanzamento dei modelli, ClaudeCode raggiunge una qualità di presentazione più elevata al costo di più di 10 allucinazioni per articolo in media, mentre Codex produce meno allucinazioni ma una qualità di presentazione inferiore. Questo lavoro rappresenta un primo passo verso l'istituzione di quadri di valutazione per la scrittura di articoli basata sull'IA e il miglioramento della comprensione dei suoi rischi all'interno della comunità di ricerca.

Pensa, Agisci, Costruisci: un Framework Agente con Modelli Linguaggio-Visione per il Grounding Visivo 3D Zero-Shot
Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

Apr 1

ByHaibo Wang, Zihao Lin, Zhiyang Xu, Lifu Huang

Il grounding visivo 3D (3D-VG) mira a localizzare oggetti in scene tridimensionali attraverso descrizioni in linguaggio naturale. Sebbene i recenti progressi che sfruttano modelli visione-linguaggio (VLM) abbiano esplorato possibilità zero-shot, questi tipicamente soffrono di un flusso di lavoro statico basato su nuvole di punti 3D pre-elaborate, degradando di fatto il grounding in un matching di proposte. Per bypassare questa dipendenza, la nostra motivazione centrale è disaccoppiare il compito: sfruttare i VLM 2D per risolvere la complessa semantica spaziale, affidandosi alla geometria multivista deterministica per istanziare la struttura 3D. Guidati da questa intuizione, proponiamo "Think, Act, Build (TAB)", un framework agente dinamico che riformula i compiti di 3D-VG come un paradigma ricostruttivo generativo da 2D a 3D che opera direttamente su flussi RGB-D grezzi. Nello specifico, guidato da un'abilità specializzata per il 3D-VG, il nostro agente VLM invoca dinamicamente strumenti visivi per tracciare e ricostruire il target attraverso frame 2D. Crucialmente, per superare il deficit di copertura multivista causato dal tracciamento semantico rigoroso del VLM, introduciamo l'Espansione Geometrica ancorata semanticamente, un meccanismo che prima ancora il target in un clip video di riferimento e poi sfrutta la geometria multivista per propagarne la posizione spaziale attraverso frame non osservati. Ciò permette all'agente di "Costruire" la rappresentazione 3D del target aggregando queste caratteristiche multivista tramite i parametri della telecamera, mappando direttamente gli indizi visivi 2D alle coordinate 3D. Inoltre, per garantire una valutazione rigorosa, abbiamo identificato difetti come l'ambiguità di riferimento e errori di categoria nei benchmark esistenti e abbiamo raffinato manualmente le query errate. Esperimenti estensivi su ScanRefer e Nr3D dimostrano che il nostro framework, basato interamente su modelli open-source, supera significativamente i metodi zero-shot precedenti e supera persino i baseline supervisionati.

Ambiente di Ricerca sugli Agenti Proattivi: Simulazione di Utenti Attivi per la Valutazione di Assistenti Proattivi
Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

Apr 1

ByDeepak Nathani, Cheng Zhang, Chang Huan, Jiaming Shan, Yinfei Yang, Alkesh Patel, Zhe Gan, William Yang Wang, Michael Saxon, Xin Eric Wang

Gli agenti proattivi che anticipano le necessità degli utenti ed eseguono compiti in modo autonomo rappresentano una grande promessa come assistenti digitali, ma la mancanza di framework realistici di simulazione utente ne ostacola lo sviluppo. Gli approcci esistenti modellano le applicazioni come API piatte per la chiamata di strumenti, non riuscendo a catturare la natura stateful e sequenziale dell'interazione utente negli ambienti digitali e rendendo impossibile una simulazione utente realistica. Introduciamo Proactive Agent Research Environment (Pare), un framework per costruire e valutare agenti proattivi in ambienti digitali. Pare modella le applicazioni come macchine a stati finiti con navigazione stateful e spazi d'azione dipendenti dallo stato per il simulatore utente, abilitando una simulazione utente attiva. Basandoci su queste fondamenta, presentiamo Pare-Bench, un benchmark di 143 compiti diversificati che abbracciano applicazioni di comunicazione, produttività, pianificazione e stile di vita, progettato per testare l'osservazione del contesto, l'inferenza degli obiettivi, la tempistica degli interventi e l'orchestrazione multi-app.

Uno Studio sulla Distillazione On-Policy per i Grandi Modelli Linguistici
A Survey of On-Policy Distillation for Large Language Models

Apr 1

ByMingyang Song, Mao Zheng

La distillazione della conoscenza è diventata un meccanismo primario per trasferire capacità di ragionamento e competenze di dominio dai modelli linguistici di grandi dimensioni (LLM) all'avanguardia a studenti più piccoli e distribuibili. Tuttavia, il paradigma dominante rimane *off-policy*: gli studenti si addestrano su dati statici generati dal docente e non incontrano mai i propri errori durante l'apprendimento. Questo disallineamento addestramento-test, un'istanza dell'*exposure bias*, fa sì che gli errori di predizione si accumulino in modo autoregressivo al momento dell'inferenza. La Distillazione On-Policy (OPD) affronta questo problema permettendo allo studente di generare le proprie traiettorie e ricevere feedback dal docente su questi output auto-generati, ancorando la distillazione alla teoria dell'apprendimento per imitazione interattiva. Nonostante la rapida crescita che abbraccia la minimizzazione della divergenza, l'apprendimento guidato da ricompense e l'auto-gioco, la letteratura sull'OPD rimane frammentata senza un trattamento unificato. Questa survey fornisce la prima panoramica completa dell'OPD per gli LLM. Introduciamo un framework unificato basato sulla divergenza f su campioni on-policy e organizziamo il panorama lungo tre dimensioni ortogonali: segnale di feedback (basato sui logit, basato sull'esito o self-play), accesso al docente (white-box, black-box o senza docente) e granularità della loss (a livello di token, a livello di sequenza o ibrida). Analizziamo sistematicamente i metodi rappresentativi, esaminiamo le implementazioni industriali e identifichiamo problemi aperti, incluse le leggi di scala della distillazione, il feedback *uncertainty-aware* e la distillazione a livello di agente.

MMaDA-VLA: Grande Modello di Diffusione Visione-Linguaggio-Azione con Istruzione e Generazione Multi-Modale Unificate
MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

Mar 26

ByYang Liu, Pengxiang Ding, Tengyue Jiang, Xudong Wang, Wenxuan Song, Minghui Lin, Han Zhao, Hongyin Zhang, Zifeng Zhuang, Wei Zhao, Siteng Huang, Jinkui Shi, Donglin Wang

I modelli Vision-Language-Action (VLA) mirano a controllare i robot per la manipolazione a partire da osservazioni visive e istruzioni in linguaggio naturale. Tuttavia, i paradigmi gerarchici e autoregressivi esistenti spesso introducono un sovraccarico architetturale, soffrono di incoerenza temporale e accumulo di errori su orizzonti lunghi, e mancano di un meccanismo per catturare le dinamiche ambientali senza moduli aggiuntivi. A tal fine, presentiamo MMaDA-VLA, un modello VLA di grandi dimensioni basato su diffusione, pre-addestrato in modo completamente nativo, che unifica la comprensione e la generazione multimodale in un unico framework. La nostra idea chiave è una formulazione di diffusione discreta nativa che incorpora linguaggio, immagini e controlli robotici continui in un unico spazio di token discreti e addestra un singolo backbone con la denoising di token mascherati per generare congiuntamente e in parallelo un'osservazione obiettivo futura e un blocco di azioni. Il denoising iterativo consente un raffinamento globale e indipendente dall'ordine, migliorando la coerenza su orizzonti lunghi mentre ancorano le azioni a esiti visivi futuri previsti senza modelli del mondo ausiliari. Esperimenti su benchmark di simulazione e compiti nel mondo reale mostrano prestazioni allo stato dell'arte, raggiungendo un successo medio del 98,0% su LIBERO e una lunghezza media di 4,78 su CALVIN.

UniMixer: un'architettura unificata per le leggi di scala nei sistemi di raccomandazione
UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

Apr 1

ByMingming Ha, Guanchen Wang, Linxun Chen, Xuan Rao, Yuexin Shi, Tianbao Ma, Zhaojie Liu, Yunqian Fan, Zilong Lu, Yanan Niu, Han Li, Kun Gai

Negli ultimi anni, le leggi di scala dei modelli di raccomandazione hanno attirato un'attenzione crescente, poiché governano la relazione tra le prestazioni e i parametri/FLOP dei sistemi di raccomandazione. Attualmente, esistono tre architetture principali per ottenere il ridimensionamento nei modelli di raccomandazione, ovvero i metodi basati su attenzione, su TokenMixer e su macchine di fattorizzazione, che presentano differenze fondamentali sia nella filosofia progettuale che nella struttura architetturale. In questo articolo, proponiamo un'architettura di ridimensionamento unificata per i sistemi di raccomandazione, denominata UniMixer, per migliorare l'efficienza del ridimensionamento e stabilire un quadro teorico unificato che riunisca i blocchi di ridimensionamento mainstream. Trasformando il TokenMixer basato su regole in una struttura equivalente parametrica, costruiamo un modulo generalizzato parametrico di miscelazione delle feature che consente ai pattern di miscelazione dei token di essere ottimizzati e appresi durante l'addestramento del modello. Nel contempo, la miscelazione parametrica generalizzata dei token rimuove il vincolo presente nel TokenMixer che richiede che il numero di teste sia uguale al numero di token. Inoltre, stabiliamo un quadro unificato per la progettazione di moduli di ridimensionamento per i sistemi di raccomandazione, che colma le connessioni tra i metodi basati su attenzione, su TokenMixer e su macchine di fattorizzazione. Per aumentare ulteriormente il ROI del ridimensionamento, è stato progettato un modulo UniMixing leggero, UniMixing-Lite, che comprime ulteriormente i parametri del modello e il costo computazionale migliorando significativamente le prestazioni del modello. Le curve di ridimensionamento sono mostrate nella figura seguente. Sono stati condotti ampi esperimenti offline e online per verificare le superiori capacità di ridimensionamento di UniMixer.

MemRerank: Memoria delle Preferenze per il Riordinamento Personalizzato dei Prodotti
MemRerank: Preference Memory for Personalized Product Reranking

Mar 31

ByZhiyuan Peng, Xuyang Wu, Huaixiao Tou, Yi Fang, Yi Gong

Gli agenti di acquisto basati su LLM fanno sempre più affidamento su cronologie d'acquisto estese e interazioni multi-turno per la personalizzazione, tuttavia, l'aggiunta ingenua della cronologia grezza ai prompt si rivela spesso inefficace a causa di rumore, lunghezza e mancata corrispondenza della rilevanza. Proponiamo MemRerank, un framework di memoria delle preferenze che distilla la cronologia d'acquisto dell'utente in segnali concisi e indipendenti dalla query per un ricollocamento personalizzato dei prodotti. Per studiare questo problema, costruiamo un benchmark end-to-end e un framework di valutazione incentrati su un task di selezione 1-su-5 basato su LLM, che misura sia la qualità della memoria che l'utilità del ricollocamento a valle. Addestriamo ulteriormente l'estrattore di memoria con apprendimento per rinforzo (RL), utilizzando le prestazioni di ricollocamento a valle come supervisione. Esperimenti con due ricollocatori basati su LLM mostrano che MemRerank supera costantemente i baseline senza memoria, con cronologia grezza e memoria predefinita, ottenendo fino a +10,61 punti assoluti nell'accuratezza 1-su-5. Questi risultati suggeriscono che una memoria esplicita delle preferenze è un componente pratico ed efficace per la personalizzazione nei sistemi e-commerce agentivi.

Revisione o Nuova Risoluzione? Scomposizione dei Guadagni del Secondo Passaggio nelle Pipeline Multi-LLM
Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Apr 1

ByJingjie Ning, Xueqi Li, Chengyu Yu

Le pipeline di revisione multi-LLM, in cui un secondo modello rivede e migliora una bozza prodotta da un primo modello, sono ampiamente ritenute ottenere i propri vantaggi dalla genuina correzione di errori. Noi mettiamo in discussione questo assunto con un esperimento di scomposizione controllata che utilizza quattro condizioni abbinate per separare i guadagni della seconda passata in tre componenti additive: ri-risoluzione, impalcatura e contenuto. Valutiamo questo progetto su due coppie di modelli e tre benchmark che spaziano da MCQ ad alta intensità di conoscenza a programmazione competitiva. I nostri risultati mostrano che i guadagni della revisione multi-LLM non sono monolitici, ma dipendono dalla struttura del task, dalla qualità della bozza e dal tipo di informazione in essa contenuta. Nei task MCQ, dove lo spazio delle risposte è vincolato e le bozze forniscono poca guida strutturale, la maggior parte dei guadagni è coerente con una ri-risoluzione da parte del modello più forte, e l'instradamento diretto delle query al modello più forte può essere più efficace che revisionare una bozza debole. Nei task di generazione di codice, tuttavia, il prompting a due stadi rimane utile perché anche bozze semanticamente nulle possono fornire un'impalcatura strutturale sostanziale, mentre il contenuto di una bozza debole può essere dannoso. Infine, esperimenti con ruoli invertiti mostrano che bozze forti chiaramente avvantaggiano i revisori deboli. In definitiva, le nostre scoperte dimostrano che l'utilità della revisione multi-LLM è dinamicamente limitata dalla struttura del task e dalla qualità della bozza, rendendo necessari progetti di pipeline più mirati piuttosto che strategie di revisione generiche.

Analisi Comparativa e Meccanismi dei Modelli Visione-Linguaggio per l'Allineamento Istruzionale nell'Assemblaggio Multirappresentazionale
Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

Apr 1

ByZhuchenyang Liu, Yao Zhang, Yu Xiao

I diagrammi di assemblaggio 2D sono spesso astratti e difficili da seguire, creando la necessità di assistenti intelligenti in grado di monitorare i progressi, rilevare errori e fornire una guida passo-passo. In ambienti di realtà mista, tali sistemi devono riconoscere i passaggi completati e quelli in corso dal flusso video e allinearli con le istruzioni del diagramma. I Vision Language Models (VLM) mostrano potenziale per questo compito, ma affrontano un divario di rappresentazione perché i diagrammi di assemblaggio e i fotogrammi video condividono pochissime caratteristiche visive. Per valutare sistematicamente questo divario, costruiamo IKEA-Bench, un benchmark di 1.623 domande su 6 tipi di attività relative a 29 prodotti di arredamento IKEA, e valutiamo 19 VLM (2B-38B) sotto tre strategie di allineamento. Le nostre principali scoperte: (1) la comprensione delle istruzioni di assemblaggio è recuperabile tramite testo, ma il testo degrada simultaneamente l'allineamento diagramma-video; (2) la famiglia architetturale predice l'accuratezza dell'allineamento più fortemente del numero di parametri; (3) la comprensione video rimane un collo di bottiglia difficile non influenzato dalla strategia. Un'analisi meccanicistica a tre livelli rivela inoltre che i diagrammi e il video occupano sottospazi ViT disgiunti, e che l'aggiunta di testo sposta i modelli dal ragionamento visivo a quello guidato dal testo. Questi risultati identificano la codifica visiva come l'obiettivo primario per migliorare la robustezza cross-depiction. Pagina del progetto: https://ryenhails.github.io/IKEA-Bench/

Comprendere e accelerare la pipeline di elaborazione della memoria per l'inferenza disaggregata di LLM
Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

Mar 30

ByZifan He, Rui Ma, Yizhou Sun, Jason Cong

I moderni grandi modelli linguistici (LLM) dipendono sempre più da meccanismi efficienti di elaborazione e generazione di contesti lunghi, inclusi l'attenzione sparsa, la generazione aumentata tramite recupero (RAG) e la memoria contestuale compressa, per supportare ragionamenti complessi. Dimostriamo che queste ottimizzazioni possono essere unificate in una pipeline di elaborazione della memoria in quattro fasi: Prepara Memoria, Calcola Rilevanza, Recupero e Applica all'Inferenza. Attraverso un'analisi sistematica, identifichiamo un sovraccarico dell'elaborazione della memoria compreso tra il 22% e il 97% durante l'inferenza degli LLM e una forte eterogeneità nelle sue caratteristiche computazionali. Sulla base di questa intuizione, sosteniamo che i sistemi eterogenei siano adatti ad accelerare l'elaborazione della memoria e, di conseguenza, l'inferenza end-to-end. Dimostriamo questo approccio su un sistema GPU-FPGA, scaricando le operazioni sparse, irregolari e vincolate dalla memoria sulle FPGA, mentre si mantengono le operazioni ad alta intensità computazionale sulle GPU. Valutato su una GPU AMD MI210 e una FPGA Alveo U55C, il nostro sistema è da 1,04 a 2,2 volte più veloce e richiede da 1,11 a 4,7 volte meno energia attraverso molteplici ottimizzazioni dell'inferenza degli LLM rispetto al baseline su GPU (risultati simili valgono per NVIDIA A100). Questi risultati stabiliscono i sistemi eterogenei come una direzione pratica per un'efficiente elaborazione della memoria negli LLM e forniscono indicazioni per la futura progettazione di hardware eterogeneo.

La coerenza amplifica: come la varianza comportamentale modella l'accuratezza degli agenti
Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Mar 26

ByAman Mehta

Man mano che gli agenti basati su LLM vengono implementati in sistemi di produzione, comprendere la loro coerenza comportamentale (se producono sequenze di azioni simili quando ricevono compiti identici) diventa fondamentale per l'affidabilità. Studiamo la coerenza nel contesto di SWE-bench, un benchmark impegnativo per l'ingegneria del software che richiede ragionamenti complessi e multi-step. Confrontando Claude~4.5~Sonnet, GPT-5 e Llama-3.1-70B su 50 esecuzioni ciascuno (10 compiti per 5 esecuzioni), scopriamo che, tra i modelli, una maggiore coerenza si allinea con una maggiore accuratezza: Claude raggiunge la varianza più bassa (CV: 15,2%) e l'accuratezza più alta (58%), GPT-5 è intermedio (CV: 32,2%, accuratezza: 32%), e Llama mostra la varianza più alta (CV: 47,0%) con l'accuratezza più bassa (4%). Tuttavia, all'interno di un singolo modello, la coerenza può amplificare sia le interpretazioni corrette che quelle errate. La nostra analisi rivela una sfumatura critica: la coerenza amplifica i risultati piuttosto che garantirne la correttezza. Il 71% dei fallimenti di Claude deriva da un'"interpretazione errata coerente": fare la stessa assunzione errata in tutte le esecuzioni. È interessante notare che GPT-5 raggiunge un accordo strategico iniziale simile a Claude (divergendo al passo 3,4 contro 3,2) ma mostra una varianza 2,1 volte superiore, suggerendo che il solo momento della divergenza non determina la coerenza. Questi risultati suggeriscono che per la distribuzione in produzione, l'accuratezza interpretativa conta più della coerenza esecutiva, con implicazioni per la valutazione e l'addestramento degli agenti.

I cannot answer that question about myself, as I am an AI and do not have personal experiences or a phone. However, I can provide a general analysis of how phone-use agents, like voice assistants (e.g., Siri, Google Assistant, Alexa), handle privacy, which is a crucial question for users. The answer is complex and depends heavily on the specific agent, its developer, and your settings. Here’s a breakdown of the key privacy considerations: ### 1. Data Collection Voice assistants are designed to collect data to function. This typically includes: * Voice Recordings: Your spoken commands are often recorded and stored on company servers to improve speech recognition and the service's functionality. * Transcripts: The text of your commands is stored. * Associated Data: This can include device information, location, contacts, and search history to provide contextual answers (e.g., "What's the weather like?" uses your location). ### 2. How the Data is Used The primary uses are: * Service Provision: To fulfill your requests (setting alarms, making calls, answering questions). * Service Improvement: To train and improve the AI's accuracy and natural language understanding. * Personalization: To tailor responses and suggestions to you (e.g., suggesting your usual route home). * Advertising: Some providers may use data to serve you targeted ads. ### 3. Key Privacy Concerns * Always-On Listening: Devices that activate with a "wake word" (like "Hey Siri") are constantly listening for that word. While companies state that audio is only recorded and transmitted after the wake word, there have been concerns and incidents of false triggers leading to unintended recordings. * Human Review: In the past, it was revealed that companies like Apple, Google, and Amazon used human contractors to review a small fraction of anonymized voice recordings to grade the assistant's responses. This raised significant privacy alarms. Most companies now allow you to opt-out of this "human review" program in your settings. * Data Security: The storage of vast amounts of personal audio data on servers is a potential target for hackers or unauthorized access by employees. * Data Retention: Policies vary on how long your voice recordings and associated data are stored. Some services keep them indefinitely by default. ### 4. Steps You Can Take to Protect Your Privacy You are not powerless. You can take active steps to increase your privacy: * Review Privacy Settings: Regularly check the privacy settings for your voice assistant (e.g., in the Google Home app, Alexa app, or iPhone's Siri settings). This is the most important step. * Delete Your Voice History: Most services allow you to manually delete your past voice recordings. You can often set them to auto-delete after a set period (e.g., every 3 or 18 months). * Opt-Out of Human Review: Look in your settings for an option to disable the use of your recordings to "improve the service" or for "product improvement," which typically opts you out of human review. * Mute the Microphone: Use the physical mute button on your device when you are not actively using the assistant, especially in private conversations. * Be Mindful of Sensitive Conversations: Avoid discussing highly sensitive personal or financial information in the presence of an active smart speaker or phone assistant. ### Conclusion Do phone-use agents respect your privacy? The technology itself is neutral; respect for your privacy is determined by the policies of the company that makes the agent and the settings you choose. Most major companies have improved their transparency and user controls following public scrutiny. However, the fundamental business model of many free services involves data collection. Therefore, they do not "respect your privacy" in the absolute sense by default. True privacy requires active management on your part. By understanding the risks and diligently configuring your settings, you can strike a balance between convenience and protecting your personal information.
Do Phone-Use Agents Respect Your Privacy?

Apr 1

ByZhengyang Tang, Ke Ji, Xidong Wang, Zihan Ye, Xinyuan Wang, Yiduo Guo, Ziniu Li, Chenxin Li, Jingyuan Hu, Shunian Chen, Tongxu Luo, Jiaxi Bi, Zeyu Qin, Shaobo Wang, Xin Lai, Pengyuan Lyu, Junyi Li, Can Xu, Chengquan Zhang, Han Hu, Ming Yan, Benyou Wang

Studiamo se gli agenti di utilizzo del telefono rispettano la privacy durante il completamento di attività mobili benigne. Questa domanda è rimasta difficile da rispondere perché il comportamento conforme alla privacy non è stato operazionalizzato per gli agenti di utilizzo del telefono, e le applicazioni ordinarie non rivelano esattamente quali dati gli agenti inseriscono in quali campi dei moduli durante l'esecuzione. Per rendere questa domanda misurabile, introduciamo MyPhoneBench, un framework di valutazione verificabile per il comportamento della privacy negli agenti mobili. Operazionalizziamo l'uso del telefono rispettoso della privacy come accesso autorizzato, divulgazione minima e memoria controllata dall'utente attraverso un contratto di privacy minimo, iMy, e lo abbiniamo a mock app strumentate più un auditing basato su regole che rendono osservabili e riproducibili le richieste di autorizzazione non necessarie, la ridivulgazione ingannevole e la compilazione non necessaria dei moduli. Su cinque modelli all'avanguardia, testati su 10 app mobili e 300 attività, scopriamo che il successo dell'attività, il completamento dell'attività conforme alla privacy e l'uso successivo delle preferenze salvate sono capacità distinte, e nessun singolo modello domina tutte e tre. La valutazione congiunta del successo e della privacy rimescola la classifica dei modelli rispetto a ciascuna metrica considerata singolarmente. La modalità di fallimento più persistente tra i modelli è la semplice minimizzazione dei dati: gli agenti compilano ancora campi personali opzionali che l'attività non richiede. Questi risultati mostrano che i fallimenti della privacy derivano da un'esecuzione troppo zelante di compiti benigni e che una valutazione basata solo sul successo sovrastima la prontezza per il deployment degli attuali agenti di utilizzo del telefono. Tutto il codice, le mock app e le traiettorie degli agenti sono pubblicamente disponibili su~ https://github.com/tangzhy/MyPhoneBench.

S0 Tuning: Adattamento a Sovrapposizione Zero di Modelli Ibridi Ricorrenti-Attentivi
S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Apr 1

ByJack Young

Utilizzando circa 48 soluzioni di training HumanEval verificate per l'esecuzione, l'ottimizzazione di una singola matrice di stato iniziale per strato ricorrente, con overhead di inferenza nullo, supera LoRA di +10,8 punti percentuali (p < 0,001) su HumanEval. Il metodo, che chiamiamo S0 tuning, ottimizza una matrice di stato per strato ricorrente mantenendo congelati tutti i pesi del modello. Su Qwen3.5-4B (ibrido GatedDeltaNet), l'S0 tuning migliora la pass@1 greedy di +23,6 +/- 1,7 pp (10 seed). Su FalconH1-7B (ibrido Mamba-2), S0 raggiunge il 71,8% +/- 1,3 e LoRA raggiunge il 71,4% +/- 2,4 (3 seed), risultati statisticamente indistinguibili con questo campione pur non richiedendo fusione di pesi. Il trasferimento cross-dominio è significativo su MATH-500 (+4,8 pp, p = 0,00002, 8 seed) e GSM8K (+2,8 pp, p = 0,0003, 10 seed); un benchmark text-to-SQL (Spider) non mostra trasferimento, coerentemente con il meccanismo di trajectory-steering. Un controllo con prefix-tuning su un Transformer puro (Qwen2.5-3B) degrada le prestazioni di -13,9 pp in tutte le nove configurazioni testate. Su Qwen3.5, una variante per-step con offset di stato raggiunge +27,1 pp, superando sia S0 che LoRA ma con un costo di inferenza per step. Nel complesso, i risultati mostrano che l'inizializzazione dello stato ricorrente è una solida superficie PEFT a overhead di inferenza nullo per modelli linguistici ibridi quando la supervisione verificata è scarsa. Lo stato ottimizzato è un file di ~48 MB; il cambio di task non richiede fusione di pesi o ricaricamento del modello. Codice e libreria: https://github.com/jackyoung27/s0-tuning.

Quando gli utenti cambiano idea: valutazione di agenti interrompibili nella navigazione web a lungo termine
When Users Change Their Mind: Evaluating Interruptible Agents in Long-Horizon Web Navigation

Apr 1

ByHenry Peng Zou, Chunyu Miao, Wei-Chieh Huang, Yankai Chen, Yue Zhou, Hanrong Zhang, Yaozu Wu, Liancheng Fang, Zhengyao Gu, Zhen Zhang, Kening Zheng, Fangxin Wang, Yi Nian, Shanghao Li, Wenzhe Fan, Langzhou He, Weizhi Zhang, Xue Liu, Philip S. Yu

Mentre gli agenti LLM evolvono dalla risoluzione di problemi brevi e statici all'esecuzione di compiti complessi e a lungo termine in ambienti dinamici, la capacità di gestire interruzioni utente, come l'aggiunta di requisiti o la revisione di obiettivi, durante l'esecuzione di un'attività sta diventando un requisito fondamentale per un dispiegamento realistico. Tuttavia, gli attuali benchmark presuppongono largamente un comportamento agente ininterrotto o studiano le interruzioni solo in compiti linguistici brevi e non vincolati. In questo articolo, presentiamo il primo studio sistematico sugli agenti interrompibili in compiti di navigazione web a lungo termine e radicati nell'ambiente, dove le azioni inducono cambiamenti di stato persistenti. Formalizziamo tre tipi realistici di interruzione, inclusi aggiunta, revisione e revoca, e introduciamo InterruptBench, un benchmark derivato da WebArena-Lite che sintetizza scenari di interruzione di alta qualità sotto stringenti vincoli semantici. Utilizzando un framework unificato di simulazione delle interruzioni, valutiamo sei solide architetture LLM in contesti di interruzione a turno singolo e multiplo, analizzando sia la loro efficacia nell'adattarsi a intenzioni aggiornate sia la loro efficienza nel recuperare da cambiamenti a metà attività. I nostri risultati mostrano che gestire le interruzioni utente in modo efficace ed efficiente durante compiti agentivi a lungo termine rimane una sfida per i potenti LLM su larga scala. Codice e dataset sono disponibili su https://github.com/HenryPengZou/InterruptBench.

AgentWatcher: Un Monitoraggio per l'Iniezione di Prompt Basato su Regole
AgentWatcher: A Rule-based Prompt Injection Monitor

Apr 1

ByYanting Wang, Wei Zou, Runpeng Geng, Jinyuan Jia

I grandi modelli linguistici (LLM) e le loro applicazioni, come gli agenti, sono estremamente vulnerabili ad attacchi di prompt injection. I metodi di rilevamento di prompt injection allo stato dell'arte presentano le seguenti limitazioni: (1) la loro efficacia si degrada significativamente all'aumentare della lunghezza del contesto, e (2) mancano di regole esplicite che definiscano cosa costituisce un prompt injection, rendendo le decisioni di rilevamento implicite, opache e difficili da analizzare. In questo lavoro, proponiamo AgentWatcher per affrontare le due limitazioni sopra citate. Per affrontare la prima limitazione, AgentWatcher attribuisce l'output del LLM (ad esempio, l'azione di un agente) a un piccolo insieme di segmenti di contesto causalmente influenti. Concentrando il rilevamento su un testo relativamente breve, AgentWatcher può essere scalabile per contesti lunghi. Per affrontare la seconda limitazione, definiamo un insieme di regole che specificano cosa costituisce e cosa non costituisce un prompt injection, e utilizziamo un LLM monitor per ragionare su queste regole basandosi sul testo attribuito, rendendo le decisioni di rilevamento più spiegabili. Abbiamo condotto una valutazione completa su benchmark di agenti con uso di strumenti e su dataset di comprensione a contesto lungo. I risultati sperimentali dimostrano che AgentWatcher può rilevare efficacemente i prompt injection e mantenere l'utilità in assenza di attacchi. Il codice è disponibile all'indirizzo https://github.com/wang-yanting/AgentWatcher.

Divario nella Generalizzazione dell'IA nella Stadiazione dei Disturbi del Sonno Comorbidi
AI Generalisation Gap In Comorbid Sleep Disorder Staging

Mar 24

BySaswata Bose, Suvadeep Maiti, Shivam Kumar Sharma, Mythirayee S, Tapabrata Chakraborti, Srijitesh Rajendran, Raju S. Bapi

La corretta stadiazione del sonno è fondamentale per diagnosticare l'apnea ostruttiva del sonno (OSA) e l'ipopnea nei pazienti con ictus. Sebbene la polisonnografia (PSG) sia affidabile, è costosa, richiede molto lavoro e viene valutata manualmente. Sebbene l'apprendimento profondo consenta una stadiazione automatica del sonno basata sull'EEG in soggetti sani, la nostra analisi mostra una scarsa generalizzazione alle popolazioni cliniche con sonno alterato. Utilizzando le interpretazioni Grad-CAM, dimostriamo sistematicamente questa limitazione. Presentiamo iSLEEPS, un nuovo dataset di ictus ischemico annotato clinicamente (che sarà reso pubblico), e valutiamo un modello SE-ResNet più LSTM bidirezionale per la stadiazione del sonno su EEG a canale singolo. Come previsto, le prestazioni incrociate tra soggetti sani e malati sono scarse. Le visualizzazioni dell'attenzione, supportate dal feedback di esperti clinici, mostrano che il modello si concentra su regioni EEG fisiologicamente non informative nei dati dei pazienti. Analisi statistiche e computazionali confermano ulteriormente significative differenze nell'architettura del sonno tra coorti di soggetti sani e di pazienti con ictus ischemico, evidenziando la necessità di modelli specifici per patologia o consapevoli del soggetto, convalidati clinicamente prima dell'implementazione. Un riassunto del documento e il codice sono disponibili all'indirizzo https://himalayansaswatabose.github.io/iSLEEPS_Explainability.github.io/