HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

35 papers found

TAPS: Distribuzioni di Proposte Consapevoli del Compito per il Campionamento Speculativo
TAPS: Task Aware Proposal Distributions for Speculative Sampling

Mar 27

ByMohamad Zbib, Mohamad Bazzi, Ammar Mohanna, Hasan Abed Al Kader Hammoud, Bernard Ghanem

123

Il decoding speculativo accelera la generazione autoregressiva facendo sì che un modello draft leggero proponga token futuri che un modello target più grande verifica poi in parallelo. Tuttavia, nella pratica, i modelli draft sono solitamente addestrati su corpora generici e ampi, il che lascia incerto quanto la qualità del decoding speculativo dipenda dalla distribuzione dei dati di addestramento del draft. Studiamo questa questione con modelli draft leggeri HASS ed EAGLE-2 addestrati su varianti di MathInstruct, ShareGPT e dati misti, valutati su MT-Bench, GSM8K, MATH-500 e SVAMP. Misurata dalla lunghezza di accettazione, l'addestramento specifico per task produce una chiara specializzazione: i draft addestrati su MathInstruct sono più forti sui benchmark di ragionamento, mentre quelli addestrati su ShareGPT sono più forti su MT-Bench. L'addestramento su dati misti migliora la robustezza, ma miscele di dati più ampie non dominano attraverso le temperature di decoding. Studiamo anche come combinare modelli draft specializzati al momento dell'inferenza. La semplice media dei checkpoint ha prestazioni scarse, mentre un routing basato sulla confidenza migliora rispetto ai draft a dominio singolo e la verifica ad albero fuso (merged-tree) produce la lunghezza di accettazione più alta in assoluto per entrambe le architetture. Infine, la confidenza è un segnale di routing più utile dell'entropia: i token rifiutati tendono ad avere un'entropia più alta, ma la confidenza produce decisioni di routing a livello di benchmark molto più chiare. Questi risultati dimostrano che la qualità del decoding speculativo dipende non solo dall'architettura del draft, ma anche dalla corrispondenza tra i dati di addestramento del draft e il carico di lavoro downstream, e che i draft specializzati sono meglio combinati al momento dell'inferenza che nello spazio dei pesi.

Verso un Intelligenza Artificiale Medica Scientifica
Towards a Medical AI Scientist

Mar 30

ByHongtao Wu, Boyun Zheng, Dingjie Song, Yu Jiang, Jianfeng Gao, Lei Xing, Lichao Sun, Yixuan Yuan

I sistemi autonomi in grado di generare ipotesi scientifiche, condurre esperimenti e redigere manoscritti sono recentemente emersi come un paradigma promettente per accelerare la scoperta scientifica. Tuttavia, gli attuali Scienziati IA rimangono largamente dominio-agnostici, limitando la loro applicabilità alla medicina clinica, dove la ricerca richiede di essere fondata su evidenze mediche con modalità dati specializzate. In questo lavoro, introduciamo Medical AI Scientist, il primo framework di ricerca autonomo specificamente progettato per la ricerca clinica autonoma. Esso abilita un'ideazione clinicamente fondata trasformando la letteratura ampiamente esaminata in evidenze attuabili attraverso un meccanismo di co-ragionamento clinico-ingegneristico, che migliora la tracciabilità delle idee di ricerca generate. Inoltre, facilita la stesura di manoscritti basati su evidenze guidata da convenzioni compositive mediche strutturate e politiche etiche. Il framework opera secondo 3 modalità di ricerca: riproduzione basata su articoli, innovazione ispirata dalla letteratura ed esplorazione guidata da compiti, ciascuna corrispondente a un livello distinto di indagine scientifica automatizzata con autonomia progressivamente crescente. Valutazioni complete condotte sia da grandi modelli linguistici che da esperti umani dimostrano che le idee generate dal Medical AI Scientist sono di qualità sostanzialmente superiore rispetto a quelle prodotte da LLM commerciali attraverso 171 casi, 19 compiti clinici e 6 modalità dati. Nel frattempo, il nostro sistema raggiunge una forte coerenza tra il metodo proposto e la sua implementazione, dimostrando anche tassi di successo significativamente più elevati negli esperimenti eseguibili. Valutazioni in doppio cieco da parte di esperti umani e dello Stanford Agentic Reviewer suggeriscono che i manoscritti generati si avvicinano alla qualità di livello MICCAI, superando costantemente quelli provenienti da ISBI e BIBM. Il Medical AI Scientist proposto evidenzia il potenziale dello sfruttamento dell'IA per la scoperta scientifica autonoma in ambito sanitario.

Gen-Searcher: Rafforzamento della Ricerca Agente per la Generazione di Immagini
Gen-Searcher: Reinforcing Agentic Search for Image Generation

Mar 30

ByKaituo Feng, Manyuan Zhang, Shuang Chen, Yunlong Lin, Kaixuan Fan, Yilei Jiang, Hongyu Li, Dian Zheng, Chenyang Wang, Xiangyu Yue

I recenti modelli di generazione di immagini hanno dimostrato notevoli capacità nel produrre immagini ad alta fedeltà e fotorealistiche. Tuttavia, sono fondamentalmente limitati da una conoscenza interna congelata, fallendo spesso in scenari reali che richiedono conoscenze intensive o informazioni aggiornate. In questo articolo presentiamo Gen-Searcher, il primo tentativo di addestrare un agente di generazione di immagini aumentato dalla ricerca, che esegue ragionamenti multi-hop e ricerche per raccogliere le conoscenze testuali e le immagini di riferimento necessarie per una generazione fondata. A tal fine, abbiamo costruito una pipeline di dati su misura e curato due dataset di alta qualità, Gen-Searcher-SFT-10k e Gen-Searcher-RL-6k, contenenti prompt diversificati ad alta intensità di ricerca e le corrispondenti immagini di sintesi ground-truth. Introduciamo inoltre KnowGen, un benchmark completo che richiede esplicitamente conoscenze esterne fondate sulla ricerca per la generazione di immagini e valuta i modelli da molteplici dimensioni. Basandoci su queste risorse, addestriamo Gen-Searcher prima con SFT e successivamente con apprendimento per rinforzo agentico con feedback di ricompensa duale, che combina ricompense basate su testo e su immagine per fornire segnali di apprendimento più stabili e informativi per l'addestramento GRPO. Gli esperimenti mostrano che Gen-Searcher apporta miglioramenti sostanziali, incrementando le prestazioni di Qwen-Image di circa 16 punti su KnowGen e 15 punti su WISE. Auspichiamo che questo lavoro possa servire come fondamento aperto per gli agenti di ricerca nella generazione di immagini, e rendiamo pienamente open-source i nostri dati, modelli e codice.

Rischi Emergenti di Intelligenza Sociale nei Sistemi Multi-Agente Generativi
Emergent Social Intelligence Risks in Generative Multi-Agent Systems

Mar 29

ByYue Huang, Yu Jiang, Wenjie Wang, Haomin Zhuang, Xiaonan Luo, Yuchen Ma, Zhangchen Xu, Zichen Chen, Nuno Moniz, Zinan Lin, Pin-Yu Chen, Nitesh V Chawla, Nouha Dziri, Huan Sun, Xiangliang Zhang

I sistemi multi-agente composti da grandi modelli generativi stanno rapidamente evolvendo da prototipi di laboratorio a implementazioni nel mondo reale, dove pianificano congiuntamente, negoziano e allocano risorse condivise per risolvere compiti complessi. Sebbene tali sistemi promettano scalabilità e autonomia senza precedenti, la loro interazione collettiva dà origine anche a modalità di fallimento che non possono essere ridotte ai singoli agenti. Comprendere questi rischi emergenti è quindi fondamentale. Presentiamo qui uno studio pionieristico di tale rischio multi-agente emergente in workflow che coinvolgono competizione per risorse condivise (ad esempio risorse computazionali o quote di mercato), collaborazione sequenziale con passaggio di consegne (dove gli agenti a valle vedono solo gli output dei predecessori), aggregazione decisionale collettiva e altri. In questi contesti, osserviamo che tali comportamenti di gruppo si manifestano frequentemente in prove ripetute e in un'ampia gamma di condizioni di interazione, piuttosto che come casi rari o patologici. In particolare, fenomeni come coordinazione simil-collusione e conformismo emergono con frequenza non trascurabile sotto vincoli realistici di risorse, protocolli di comunicazione e assegnazioni di ruoli, rispecchiando patologie ben note nelle società umane nonostante nessun'istruzione esplicita. Inoltre, questi rischi non possono essere prevenuti solo da salvaguardie esistenti a livello di agente. Questi risultati espongono il lato oscuro dei sistemi multi-agente intelligenti: un rischio di intelligenza sociale in cui i collettivi di agenti, nonostante nessuna istruzione in tal senso, riproducono spontaneamente schemi di fallimento familiari dalle società umane.

EpochX: Costruire le Infrastrutture per una Civiltà Agente Emergente
EpochX: Building the Infrastructure for an Emergent Agent Civilization

Mar 28

ByHuacan Wang, Chaofa Yuan, Xialie Zhuang, Tu Hu, Shuo Zhang, Jun Han, Shi Wei, Daiqiang Li, Jingping Liu, Kunyi Wang, Zihan Yin, Zhenheng Tang, Andy Wang, Henry Peng Zou, Philip S. Yu, Sen Hu, Qizhen Lan, Ronghao Chen

Le tecnologie a scopo generale rimodellano le economie non tanto migliorando singoli strumenti, quanto piuttosto abilitando nuovi modi di organizzare la produzione e il coordinamento. Riteniamo che gli agenti di IA si stiano avvicinando a un punto di svolta simile: man mano che i modelli di base rendono l'esecuzione di compiti ampi e l'uso di strumenti sempre più accessibili, il vincolo principale si sposta dalle capacità grezze a come il lavoro viene delegato, verificato e ricompensato su larga scala. Presentiamo EpochX, un'infrastruttura di mercato nativa basata su crediti per le reti di produzione umano-agente. EpochX tratta umani e agenti come partecipanti paritari che possono pubblicare o reclamare compiti. I compiti reclamati possono essere scomposti in sottocompiti ed eseguiti attraverso un flusso di lavoro esplicito di consegna con verifica e accettazione. Fondamentalmente, EpochX è progettato in modo che ogni transazione completata possa generare asset ecosistemici riutilizzabili, inclusi skill, workflow, tracce di esecuzione ed esperienza distillata. Questi asset sono memorizzati con una struttura di dipendenze esplicita, consentendo recupero, composizione e miglioramento cumulativo nel tempo. EpochX introduce anche un meccanismo di crediti nativo per rendere la partecipazione economicamente sostenibile considerando i reali costi computazionali. I crediti vincolano le ricompense per i compiti, delegano i budget, regolano i premi al momento dell'accettazione e compensano i creatori quando asset verificati vengono riutilizzati. Formalizzando il modello di transazione end-to-end insieme ai suoi livelli di asset e incentivi, EpochX riformula l'IA agenziale come un problema di progettazione organizzativa: costruire infrastrutture in cui il lavoro verificabile lasci artefatti persistenti e riutilizzabili, e in cui i flussi di valore supportino una collaborazione umano-agente duratura.

Sul Dilemma del Token: MoE Dinamico con Assegnazione di Token Consapevole dello Scostamento per l'Apprendimento Continuo di Grandi Modelli Linguistici e Visivi
On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models

Mar 29

ByChongyang Zhao, Mingsong Li, Haodong Lu, Dong Gong

LLaVA-DyMoE mira a migliorare continuamente i Large Vision Language Models (LVLM) apprendendo da nuovi dati senza dimenticare le conoscenze acquisite in precedenza. Le architetture Mixture of Experts (MoE) facilitano naturalmente questo processo aggiungendo incrementalmente nuovi esperti ed espandendo i router, mantenendo congelati quelli esistenti. Tuttavia, nonostante l'isolamento degli esperti, i sistemi di apprendimento continuo basati su MoE soffrono comunque di dimenticanza a causa del routing-drift: i token dei task precedenti vengono erroneamente attratti dai nuovi esperti aggiunti, degradando le prestazioni sui task precedenti. Analizziamo la modalità di fallimento a livello di token e riveliamo il dilemma del token: i token ambigui e vecchi nei dati dei nuovi task offrono un beneficio di apprendimento minimo, ma inducono dimenticanza quando vengono instradati verso nuovi esperti, a causa del loro assegnamento di routing ambiguo durante l'addestramento. Motivati da ciò, proponiamo LLaVA-DyMoE, un framework MoE dinamico che espande incrementalmente il MoE con un assegnamento dei token consapevole del drift. Caratterizziamo i tipi di token attraverso le loro distribuzioni dei punteggi di routing e applichiamo una regolarizzazione mirata. Nello specifico, una guida di assegnamento a livello di token indirizza i token ambigui e vecchi lontano dai nuovi esperti per preservare i pattern di routing consolidati e alleviare il routing-drift, mentre regolarizzazioni complementari dei punteggi di routing impongono la separazione tra gruppi di esperti e promuovono la specializzazione dei nuovi esperti. Esperimenti estensivi dimostrano che il nostro LLaVA-DyMoE mitiga efficacemente la dimenticanza indotta dal routing-drift, raggiungendo un guadagno superiore al 7% nell'accuratezza media finale e una riduzione del 12% della dimenticanza rispetto ai baseline. La pagina del progetto è https://zhaoc5.github.io/DyMoE.

GEditBench v2: un benchmark allineato all'umano per l'editing generale di immagini
GEditBench v2: A Human-Aligned Benchmark for General Image Editing

Mar 30

ByZhangqi Jiang, Zheng Sun, Xianfang Zeng, Yufeng Yang, Xuanyang Zhang, Yongliang Wu, Wei Cheng, Gang Yu, Xu Yang, Bihan Wen

I recenti progressi nell'editing di immagini hanno consentito ai modelli di gestire istruzioni complesse con un realismo impressionante. Tuttavia, i framework di valutazione esistenti sono in ritardo: gli attuali benchmark soffrono di una copertura ristretta delle attività, mentre le metriche standard non riescono a catturare adeguatamente la coerenza visiva, ovvero la preservazione dell'identità, della struttura e della coerenza semantica tra le immagini modificate e quelle originali. Per affrontare queste limitazioni, introduciamo GEditBench v2, un benchmark completo con 1.200 query di utenti reali che coprono 23 attività, inclusa una categoria open-set dedicata per istruzioni di editing non vincolate e fuori distribuzione, al di là dei compiti predefiniti. Inoltre, proponiamo PVC-Judge, un modello di valutazione pairwise open-source per la coerenza visiva, addestrato tramite due nuove pipeline di sintesi di dati di preferenza a regione disaccoppiata. Inoltre, costruiamo VCReward-Bench utilizzando coppie di preferenza annotate da esperti per valutare l'allineamento di PVC-Judge con i giudizi umani sulla valutazione della coerenza visiva. Gli esperimenti mostrano che il nostro PVC-Judge raggiunge prestazioni di valutazione allo stato dell'arte tra i modelli open-source e supera persino GPT-5.1 in media. Infine, valutando 16 modelli di editing all'avanguardia, dimostriamo che GEditBench v2 consente una valutazione più allineata con l'umano, rivelando limitazioni critiche dei modelli attuali e fornendo una base affidabile per far progredire l'editing preciso delle immagini.

PRBench: Riproduzione End-to-end di Articoli nella Ricerca Fisica
PRBench: End-to-end Paper Reproduction in Physics Research

Mar 29

ByShi Qiu, Junyi Deng, Yiwei Deng, Haoran Dong, Jieyu Fu, Mao Li, Zeyu Li, Zhaolong Zhang, Huiwen Zheng, Leidong Bao, Anqi Lv, Zihan Mo, Yadi Niu, Yiyang Peng, Yu Tian, Yili Wang, Ziyu Wang, Zi-Yu Wang, Jiashen Wei, Liuheng Wu, Aoran Xue, Leyi Yang, Guanglu Yuan, Xiarui Zhan, Jingjun Zhang, Zifan Zheng, Pengfei Liu, Linrui Zhen, Kaiyang Li, Qichang Li, Ziheng Zhou, Guo-En Nian, Yunwei Xiao, Qing-Hong Cao, Linjie Dai, Xu Feng, Peng Gao, Ying Gu, Chang Liu, Jia Liu, Ming-xing Luo, Yan-Qing Ma, Liang-You Peng, Huichao Song, Shufeng Wang, Chenxu Wang, Tao Wang, Yi-Nan Wang, Chengyin Wu, Pengwei Zhao, Hua Xing Zhu

Gli agenti di intelligenza artificiale basati su grandi modelli linguistici dimostrano solide capacità di ragionamento e problem solving, consentendo loro di assistere compiti di ricerca scientifica come la derivazione di formule e la generazione di codice. Tuttavia, se questi agenti possano riprodurre in modo affidabile articoli scientifici reali in modo end-to-end rimane una questione aperta. Presentiamo PRBench, un benchmark di 30 compiti selezionati da esperti, che abbraccia 11 sottocampi della fisica. Ogni compito richiede a un agente di comprendere la metodologia di un articolo pubblicato, implementare da zero gli algoritmi corrispondenti e produrre risultati quantitativi che corrispondano alla pubblicazione originale. Agli agenti vengono fornite solo le istruzioni del compito e il contenuto dell'articolo, e operano in un ambiente di esecuzione sandbox. Tutti i compiti sono stati contribuiti da esperti di dominio provenienti da oltre 20 gruppi di ricerca della Scuola di Fisica dell'Università di Pechino, ciascuno basato su un articolo reale pubblicato e validato attraverso una riproduzione end-to-end con risultati di verifica verificati e griglie di valutazione dettagliate. Utilizzando una pipeline di valutazione agentizzata, valutiamo una serie di agenti di codifica su PRBench e analizziamo le loro capacità attraverso le dimensioni chiave del ragionamento scientifico e dell'esecuzione. L'agente con le migliori prestazioni, OpenAI Codex basato su GPT-5.3-Codex, raggiunge un punteggio medio complessivo del 34%. Tutti gli agenti mostrano una percentuale di successo di callback end-to-end pari a zero, con prestazioni particolarmente scarse in termini di accuratezza dei dati e correttezza del codice. Identifichiamo ulteriormente modalità di fallimento sistematiche, inclusi errori nell'implementazione delle formule, incapacità di eseguire il debug di simulazioni numeriche e fabbricazione di dati di output. Nel complesso, PRBench fornisce un benchmark rigoroso per valutare i progressi verso la ricerca scientifica autonoma.

Rendere la Geometria Significativa per il Ragionamento Spaziale
Make Geometry Matter for Spatial Reasoning

Mar 27

ByShihua Zhang, Qiuhong Shen, Shizun Wang, Tianbo Pan, Xinchao Wang

Grazie al training su larga scala, i modelli visione-linguaggio (VLM) raggiungono una solida comprensione di immagini e video, ma la loro capacità di eseguire ragionamenti spaziali in scene statiche e video dinamici rimane limitata. I recenti progressi tentano di superare questa limitazione iniettando token geometrici da modelli fondazionali 3D preaddestrati nei VLM. Tuttavia, osserviamo che in questo filone di ricerca, una fusione ingenua dei token seguita dalla fine-tuning standard spesso porta a uno sfruttamento insufficiente di tali indizi geometrici per il ragionamento spaziale, poiché i VLM tendono a fare molto affidamento sugli indizi visivi 2D. In questo articolo, proponiamo GeoSR, un framework progettato per dare importanza alla geometria incoraggiando i VLM a ragionare attivamente con i token geometrici. GeoSR introduce due componenti chiave: (1) Geometry-Unleashing Masking, che maschera strategicamente porzioni dei token visivi 2D durante il training per indebolire le scorciatoie non geometriche e costringere il modello a consultare i token geometrici per il ragionamento spaziale; e (2) Geometry-Guided Fusion, un meccanismo di instradamento controllato da gate che amplifica adattivamente il contributo dei token geometrici nelle regioni in cui l'evidenza geometrica è critica. Insieme, questi progetti liberano il potenziale dei token geometrici per i compiti di ragionamento spaziale. Esperimenti estesi su benchmark di ragionamento spaziale sia statici che dinamici dimostrano che GeoSR supera costantemente i metodi precedenti e stabilisce nuove performance state-of-the-art sfruttando efficacemente l'informazione geometrica. La pagina del progetto è disponibile all'indirizzo https://suhzhang.github.io/GeoSR/.

Modelli di Generazione Video come Modelli del Mondo: Paradigmi, Architetture e Algoritmi Efficienti
Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms

Mar 30

ByMuyang He, Hanzhong Guo, Junxiong Lin, Yizhou Yu

La rapida evoluzione della generazione video ha consentito ai modelli di simulare dinamiche fisiche complesse e causalità a lungo termine, posizionandoli come potenziali simulatori del mondo. Tuttavia, rimane un divario critico tra la capacità teorica di simulazione del mondo e gli elevati costi computazionali della modellazione spazio-temporale. Per affrontare questo problema, esaminiamo in modo completo e sistematico i framework e le tecniche di generazione video che considerano l'efficienza come un requisito cruciale per una modellazione pratica del mondo. Introduciamo una nuova tassonomia tridimensionale: paradigmi di modellazione efficiente, architetture di rete efficienti e algoritmi di inferenza efficienti. Dimostriamo inoltre che colmare questo divario di efficienza potenzia direttamente applicazioni interattive come la guida autonoma, l'AI incarnata e la simulazione di giochi. Infine, identifichiamo nuove frontiere di ricerca nella modellazione efficiente del mondo basata su video, sostenendo che l'efficienza è un prerequisito fondamentale per evolvere i generatori video verso simulatori del mondo generici, in tempo reale e robusti.

ImagenWorld: Stress Test dei Modelli di Generazione di Immagini con Valutazione Umana Spiegabile su Compiti Aperti del Mondo Reale
ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

Mar 29

BySamin Mahdizadeh Sani, Max Ku, Nima Jamali, Matina Mahdizadeh Sani, Paria Khoshtab, Wei-Chieh Sun, Parnian Fazel, Zhi Rui Tam, Thomas Chong, Edisy Kin Wai Chan, Donald Wai Tong Tsang, Chiao-Wei Hsu, Ting Wai Lam, Ho Yin Sam Ng, Chiafeng Chu, Chak-Wing Mak, Keming Wu, Hiu Tung Wong, Yik Chun Ho, Chi Ruan, Zhuofeng Li, I-Sheng Fang, Shih-Ying Yeh, Ho Kei Cheng, Ping Nie, Wenhu Chen

I progressi nei modelli diffusion, autoregressivi e ibridi hanno abilitato la sintesi di immagini di alta qualità per compiti come text-to-image, editing e composizione guidata da riferimenti. Tuttavia, i benchmark esistenti rimangono limitati, concentrandosi su compiti isolati, coprendo solo domini ristretti o fornendo punteggi opachi senza spiegare le modalità di fallimento. Introduciamo ImagenWorld, un benchmark di 3.6K set di condizioni che abbraccia sei compiti fondamentali (generazione e editing, con riferimenti singoli o multipli) e sei domini tematici (opere d'arte, immagini fotorealistiche, grafici informativi, grafica testuale, computer grafica e screenshot). Il benchmark è supportato da 20K annotazioni umane granulari e da uno schema di valutazione spiegabile che etichetta errori localizzati a livello di oggetto e di segmento, integrando le metriche automatizzate basate su VLM. La nostra valutazione su larga scala di 14 modelli produce diversi insight: (1) i modelli generalmente faticano più nei compiti di editing che in quelli di generazione, specialmente negli editing locali. (2) i modelli eccellono in contesti artistici e fotorealistici ma lottano con domini simbolici e ricchi di testo come screenshot e grafici informativi. (3) i sistemi closed-source guidano la classifica generale, mentre una curatela dei dati mirata (ad es. Qwen-Image) riduce il divario nei casi ricchi di testo. (4) le moderne metriche basate su VLM raggiungono accuratezze di Kendall fino a 0.79, avvicinandosi al ranking umano, ma sono carenti nell'attribuzione di errori granulare e spiegabile. ImagenWorld fornisce sia un benchmark rigoroso che uno strumento diagnostico per far progredire la generazione robusta di immagini.

MuSEAgent: Un Agente di Ragionamento Multimodale con Esperienze Stateful
MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

Mar 29

ByShijian Wang, Jiarui Jin, Runhao Fu, Zexuan Yan, Xingjian Wang, Mengkang Hu, Eric Wang, Xiaoxi Li, Kangning Zhang, Li Yao, Wenxiang Jiao, Xuelian Cheng, Yuan Lu, Zongyuan Ge

Gli agenti di ricerca hanno recentemente compiuto progressi significativi nella ricerca e sintesi di informazioni attraverso fonti eterogenee testuali e visive. In questo articolo presentiamo MuSEAgent, un agente di ragionamento multimodale che migliora il processo decisionale estendendo le capacità degli agenti di ricerca per scoprire e sfruttare esperienze con stato. Invece di affidarsi al recupero di esperienze a livello di traiettoria, proponiamo un paradigma di apprendimento esperienziale con stato che astrae i dati di interazione in esperienze decisionali atomiche attraverso un ragionamento retrospettivo. Queste esperienze sono organizzate in una banca esperienziale filtrata per qualità che supporta il recupero guidato da policy durante l'inferenza. Nello specifico, MuSEAgent abilita lo sfruttamento adattivo delle esperienze attraverso strategie complementari di ricerca ampia e profonda, consentendo all'agente di recuperare dinamicamente guide multimodali attraverso diversi punti di vista semantici compositivi. Esperimenti estesi dimostrano che MuSEAgent supera costantemente i baseline di recupero esperienziale a livello di traiettoria sia in compiti di percezione visiva fine che in compiti complessi di ragionamento multimodale. Questi risultati convalidano l'efficacia della modellazione esperienziale con stato nel migliorare il ragionamento degli agenti multimodali.

Kernel-Smith: Una Ricetta Unificata per l'Ottimizzazione Evolutiva del Kernel
Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

Mar 30

ByHe Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen

Presentiamo Kernel-Smith, un framework per la generazione ad alte prestazioni di kernel GPU e operatori che combina un agente evolutivo stabile guidato dalla valutazione con una ricetta di post-addestramento orientata all'evoluzione. Sul lato dell'agente, Kernel-Smith mantiene una popolazione di candidati eseguibili e li migliora iterativamente utilizzando un archivio di programmi dalle prestazioni elevate e diversificati, insieme a feedback di esecuzione strutturati su compilazione, correttezza e speedup. Per rendere questa ricerca affidabile, costruiamo servizi di valutazione specifici per backend: Triton su GPU NVIDIA e Maca su GPU MetaX. Sul lato dell'addestramento, convertiamo traiettorie evolutive a lungo termine in segnali di supervisione step-centric e di apprendimento per rinforzo, conservando le revisioni che preservano la correttezza e ad alto guadagno, in modo che il modello sia ottimizzato come un potente miglioratore locale all'interno del ciclo evolutivo, piuttosto che come generatore one-shot. Sotto un protocollo evolutivo unificato, Kernel-Smith-235B-RL raggiunge prestazioni complessive all'avanguardia su KernelBench con backend Nvidia Triton, ottenendo il miglior rapporto di speedup medio e superando modelli proprietari di frontiera tra cui Gemini-3.0-pro e Claude-4.6-opus. Convalidiamo ulteriormente il framework sul backend MetaX MACA, dove il nostro Kernel-Smith-MACA-30B supera controparti su larga scala come DeepSeek-V3.2-think e Qwen3-235B-2507-think, evidenziando il potenziale per un adattamento senza soluzione di continuità su piattaforme eterogenee. Oltre ai risultati dei benchmark, lo stesso flusso di lavoro produce contributi upstream per sistemi di produzione come SGLang e LMDeploy, dimostrando che l'ottimizzazione dei kernel guidata da LLM può trasferirsi dalla valutazione controllata alla distribuzione pratica.

Repulsione in Tempo Reale nello Spazio Contestuale per un'Elevata Diversità nei Trasformatori di Diffusione
On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

Mar 30

ByOmer Dahary, Benaya Koren, Daniel Garibi, Daniel Cohen-Or

I moderni modelli di diffusione Text-to-Image (T2I) hanno ottenuto un allineamento semantico notevole, ma spesso soffrono di una significativa mancanza di varietà, convergendo su un insieme ristretto di soluzioni visive per ogni prompt dato. Questo bias di tipicità rappresenta una sfida per le applicazioni creative che richiedono un'ampia gamma di risultati generativi. Identifichiamo un compromesso fondamentale negli approcci attuali alla diversità: modificare gli input del modello richiede un'ottimizzazione costosa per incorporare il feedback dal percorso generativo. Al contrario, agire sui latenti intermedi spazialmente impegnati tende a perturbare la struttura visiva in formazione, portando ad artefatti. In questo lavoro, proponiamo di applicare la repulsione nello Spazio Contestuale come una nuova struttura per ottenere una ricca diversità nei Diffusion Transformer. Intervenendo sui canali di attenzione multimodale, applichiamo una repulsione in tempo reale durante il passaggio in avanti del transformer, iniettando l'intervento tra i blocchi dove il condizionamento testuale è arricchito con la struttura d'immagine emergente. Ciò consente di reindirizzare la traiettoria di guida dopo che è stata informata strutturalmente ma prima che la composizione sia fissata. I nostri risultati dimostrano che la repulsione nello Spazio Contestuale produce una diversità significativamente più ricca senza sacrificare la fedeltà visiva o l'aderenza semantica. Inoltre, il nostro metodo è singularmente efficiente, imponendo un piccolo sovraccarico computazionale rimanendo efficace anche nei moderni modelli "Turbo" e distillati, dove gli interventi tradizionali basati sulla traiettoria tipicamente falliscono.

ChartNet: un dataset multimodale di alta qualità su larga scala per una comprensione robusta dei grafici
ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding

Mar 28

ByJovana Kondic, Pengyuan Li, Dhiraj Joshi, Isaac Sanchez, Ben Wiesel, Shafiq Abedin, Amit Alfassy, Eli Schwartz, Daniel Caraballo, Yagmur Gizem Cinar, Florian Scheidegger, Steven I. Ross, Daniel Karl I. Weidele, Hang Hua, Ekaterina Arutyunova, Roei Herzig, Zexue He, Zihan Wang, Xinyue Yu, Yunfei Zhao, Sicong Jiang, Minghao Liu, Qunshu Lin, Peter Staar, Luis Lastras, Aude Oliva, Rogerio Feris

La comprensione dei grafici richiede ai modelli di ragionare congiuntamente su modelli visivi geometrici, dati numerici strutturati e linguaggio naturale, una capacità in cui gli attuali modelli visione-linguaggio (VLM) rimangono limitati. Presentiamo ChartNet, un dataset multimodale di alta qualità e su scala milionaria progettato per far progredire l'interpretazione e il ragionamento sui grafici. ChartNet sfrutta una pipeline di sintesi guidata da codice innovativa per generare 1,5 milioni di campioni di grafici diversificati, che coprono 24 tipologie di grafico e 6 librerie di plotting. Ogni campione è composto da cinque componenti allineati: codice di plotting, immagine renderizzata del grafico, tabella dati, riepilogo in linguaggio naturale e coppie domanda-risposta con ragionamento, garantendo un allineamento cross-modale granulare. Per catturare l'intero spettro della comprensione dei grafici, ChartNet include inoltre sottoinsiemi specializzati che racchiudono dati annotati da esseri umani, dati del mondo reale, aspetti di sicurezza e grounding. Inoltre, un rigoroso processo di filtraggio della qualità garantisce fedeltà visiva, accuratezza semantica e diversità tra le rappresentazioni dei grafici. Il fine-tuning su ChartNet migliora costantemente i risultati su diversi benchmark, dimostrandone l'utilità come supervisione su larga scala per modelli multimodali. In quanto dataset open-source più grande nel suo genere, ChartNet mira a supportare lo sviluppo di modelli di fondazione con capacità robuste e generalizzabili per la comprensione delle visualizzazioni di dati. Il dataset è pubblicamente disponibile all'indirizzo https://huggingface.co/datasets/ibm-granite/ChartNet.

ResAdapt: Risoluzione Adattiva per un Ragionamento Multimodale Efficiente
ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

Mar 30

ByHuanxuan Liao, Zhongtao Jiang, Yupu Hao, Yuqiao Tan, Shizhu He, Jun Zhao, Kun Xu, Kang Liu

I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) ottengono una comprensione visiva più robusta scalando la fedeltà dell'input, tuttavia la conseguente crescita dei token visivi rende proibitivo mantenere congiuntamente un'alta risoluzione spaziale e un lungo contesto temporale. Sosteniamo che il collo di bottiglia non risieda nella compressione delle rappresentazioni post-codifica, ma nel volume di pixel che l'encoder riceve, e lo affrontiamo con ResAdapt, un framework di adattamento lato input che apprende quanto budget visivo ogni fotogramma dovrebbe ricevere prima della codifica. ResAdapt accoppia un Allocatore leggero con un backbone MLLM invariato, in modo che il backbone mantenga la sua interfaccia nativa per i token visivi mentre riceve un input trasformato dall'operatore. Formuliamo l'allocazione come un bandit contestuale e addestriamo l'Allocatore con l'Ottimizzazione delle Politiche Consapevole del Costo (CAPO), che converte il feedback sparso dei rollout in un segnale di apprendimento stabile tra accuratezza e costo. In varie attività con budget controllato, come QA video, grounding temporale e ragionamento su immagini, ResAdapt migliora i punti di funzionamento a basso budget e spesso si colloca su o vicino alla frontiera efficienza-accuratezza, con i guadagni più evidenti su benchmark intensivi di ragionamento sotto compressione aggressiva. Notevolmente, ResAdapt supporta fino a 16x più fotogrammi a parità di budget visivo fornendo al contempo un miglioramento delle prestazioni superiore al 15%. Il codice è disponibile all'indirizzo https://github.com/Xnhyacinth/ResAdapt.

Marco DeepResearch: Sbloccare Agenti di Ricerca Profonda Efficienti tramite Progettazione Centrata sulla Verifica
Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Mar 30

ByBin Zhu, Qianghuai Jia, Tian Lan, Junyang Ren, Feng Gu, Feihu Jiang, Longyue Wang, Zhao Xu, Weihua Luo

Gli agenti di ricerca approfondita conducono autonomamente indagini a tema libero, integrando il recupero complesso di informazioni con ragionamenti multi-step su fonti diversificate per risolvere problemi del mondo reale. Per sostenere questa capacità in compiti a lungo termine, una verifica affidabile è cruciale sia durante l'addestramento che durante l'inferenza. Un collo di bottiglia principale nei paradigmi esistenti deriva dalla mancanza di meccanismi di verifica espliciti nella sintesi di dati di domande-risposte (QA), nella costruzione di traiettorie e nel ridimensionamento al momento del test. Gli errori introdotti in ogni fase si propagano a valle e degradano le prestazioni complessive dell'agente. Per affrontare questo problema, presentiamo Marco DeepResearch, un agente di ricerca approfondita ottimizzato con un framework progettato con approccio verification-centrico su tre livelli: (1) Sintesi di Dati QA: Introduciamo meccanismi di verifica nella sintesi QA basata su grafi e basata su agenti per controllare la difficoltà delle domande garantendo al contempo che le risposte siano univoche e corrette; (2) Costruzione della Traiettoria: Progettiamo un metodo di sintesi della traiettoria guidato dalla verifica che inietta pattern di verifica espliciti nelle traiettorie di addestramento; e (3) Ridimensionamento al momento del Test: Utilizziamo Marco DeepResearch stesso come verificatore durante l'inferenza, migliorando efficacemente le prestazioni su domande complesse. Risultati sperimentali estesi dimostrano che il nostro agente Marco DeepResearch proposto supera significativamente gli agenti di ricerca approfondita di scala 8B sulla maggior parte dei benchmark più impegnativi, come BrowseComp e BrowseComp-ZH. Crucialmente, con un budget massimo di 600 chiamate a strumenti, Marco DeepResearch supera addirittura o si avvicina a diversi agenti di scala 30B, come Tongyi DeepResearch-30B.

HandX: Scalabilità nella Generazione di Movimenti e Interazioni Bimanuali
HandX: Scaling Bimanual Motion and Interaction Generation

Mar 30

ByZimu Zhang, Yucheng Zhang, Xiyan Xu, Ziyin Wang, Sirui Xu, Kai Zhou, Bing Zhou, Chuan Guo, Jian Wang, Yu-Xiong Wang, Liang-Yan Gui

La sintesi del movimento umano ha compiuto rapidi progressi, ma il movimento realistico delle mani e l'interazione bimanuale rimangono ambiti poco esplorati. I modelli per il corpo intero spesso trascurano i segnali granulari che guidano il comportamento abile, l'articolazione delle dita, la tempistica del contatto e il coordinamento inter-manuale, mentre le risorse esistenti mancano di sequenze bimanuali ad alta fedeltà che catturino le dinamiche raffinate delle dita e la loro collaborazione. Per colmare questa lacuna, presentiamo HandX, una base unificata che abbraccia dati, annotazione e valutazione. Consolidiamo e filtriamo dataset esistenti per garantire qualità, e raccogliamo un nuovo dataset di motion capture focalizzato su interazioni bimanuali sottorappresentate, con dinamiche dettagliate delle dita. Per un'annotazione scalabile, introduciamo una strategia disaccoppiata che estrae caratteristiche di movimento rappresentative, ad esempio eventi di contatto e flessione delle dita, per poi sfruttare il ragionamento di modelli linguistici di grandi dimensioni per produrre descrizioni granulari e semanticamente ricche, allineate a queste caratteristiche. Basandoci sui dati e le annotazioni risultanti, valutiamo modelli diffusion e autoregressivi con modalità di condizionamento versatili. Gli esperimenti dimostrano una generazione di movimento abile di alta qualità, supportata dalle nostre nuove metriche focalizzate sulla mano. Osserviamo inoltre chiari trend di scaling: modelli più grandi addestrati su dataset più ampi e di qualità superiore producono movimenti bimanuali semanticamente più coerenti. Il nostro dataset viene rilasciato per supportare la ricerca futura.

DreamLite: Un Modello Unificato Leggero per la Generazione e Modifica di Immagini su Dispositivo
DreamLite: A Lightweight On-Device Unified Model for Image Generation and Editing

Mar 30

ByKailai Feng, Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao

I modelli di diffusione hanno compiuto progressi significativi sia nella generazione testo-immagine (T2I) che nella modifica guidata da testo delle immagini. Tuttavia, questi modelli sono tipicamente costruiti con miliardi di parametri, il che comporta un'elevata latenza e maggiori sfide per il deployment. Sebbene i modelli di diffusione on-device migliorino l'efficienza, si concentrano in gran parte sulla generazione T2I e mancano di supporto per la modifica delle immagini. In questo articolo, proponiamo DreamLite, un modello di diffusione unificato e compatto (0,39B) per dispositivi locali che supporta sia la generazione T2I che la modifica guidata da testo delle immagini all'interno di un'unica rete. DreamLite è costruito su un'architettura U-Net mobile ottimizzata e unifica il condizionamento tramite concatenazione spaziale in-context nello spazio latente. Concatena orizzontalmente le immagini come input, utilizzando una configurazione (target | blank) per i task di generazione e (target | source) per i task di modifica. Per stabilizzare l'addestramento di questo modello compatto, introduciamo una strategia di pre-addestramento congiunto progressivo per task che mira sequenzialmente ai task T2I, di modifica e congiunti. Dopo un fine-tuning supervisionato di alta qualità e un apprendimento per rinforzo, DreamLite raggiunge un punteggio GenEval (0,72) per la generazione di immagini e ImgEdit (4,11) per la modifica delle immagini, superando i modelli on-device esistenti e rimanendo competitivo con diversi modelli lato server. Impiegando la distillazione dei passi, riduciamo ulteriormente l'elaborazione del rumore a soli 4 step, consentendo a DreamLite di generare o modificare un'immagine 1024 x 1024 in meno di 1 secondo su uno smartphone Xiaomi 14. A nostra conoscenza, DreamLite è il primo modello di diffusione unificato on-device che supporta sia la generazione che la modifica delle immagini.

Story2Proposal: Un'Impalcatura per la Scrittura Strutturata di Articoli Scientifici
Story2Proposal: A Scaffold for Structured Scientific Paper Writing

Mar 28

ByZhuoyang Qian, Wei Shi, Xu Lin, Li Ling, Meng Luo, Ziming Wang, Zhiwei Zhang, Tengyue Xu, Gaoge Liu, Zhentao Zhang, Shuo Zhang, Ziqi Wang, Zheng Feng, Yan Luo, Shu Xu, Yongjin Chen, Zhibo Feng, Zhuo Chen, Bruce Yuan, Biao Wu, Harry Wang, Kris Chen

La generazione di manoscritti scientifici richiede il mantenimento dell'allineamento tra il ragionamento narrativo, le evidenze sperimentali e gli artefatti visivi durante l'intero ciclo di vita del documento. Le pipeline di generazione basate su modelli linguistici esistenti si affidano a una sintesi testuale non vincolata, con validazione applicata solo dopo la generazione, producendo spesso deriva strutturale, figure o tabelle mancanti e incongruenze tra le sezioni. Introduciamo Story2Proposal, un framework multi-agente governato da contratti che converte una storia di ricerca in un manoscritto strutturato attraverso agenti coordinati che operano sotto un contratto visivo condiviso e persistente. Il sistema organizza agenti architetto, scrittore, raffinatore e renderizzatore attorno a uno stato contrattuale che traccia la struttura delle sezioni e gli elementi visivi registrati, mentre agenti di valutazione forniscono feedback in un ciclo "genera-valuta-adatta" che aggiorna il contratto durante la generazione. Esperimenti su compiti derivati dal corpus di ricerca Jericho mostrano che Story2Proposal ha ottenuto un punteggio di valutazione esperta di 6,145 rispetto a 3,963 di DirectChat (+2,182) su modelli di base come GPT, Claude, Gemini e Qwen. Rispetto alla baseline di generazione strutturata Fars, Story2Proposal ha ottenuto un punteggio medio di 5,705 contro 5,197, indicando un miglioramento della coerenza strutturale e dell'allineamento visivo.

SEAR: Valutazione e Instradamento Basati su Schema per Gateway di LLM
SEAR: Schema-Based Evaluation and Routing for LLM Gateways

Mar 20

ByZecheng Zhang, Han Zheng, Yue Xu

La valutazione delle risposte dei modelli linguistici di grandi dimensioni (LLM) in produzione e l'instradamento delle richieste tra diversi provider nei gateway LLM richiedono segnali di qualità granulari e decisioni operative fondate. Per colmare questa lacuna, presentiamo SEAR, un sistema di valutazione e instradamento basato su schema per gateway LLM multi-modello e multi-fornitore. SEAR definisce uno schema relazionale estensibile che copre sia i segnali di valutazione degli LLM (contesto, intento, caratteristiche della risposta, attribuzione dei problemi e punteggi di qualità) che le metriche operative del gateway (latenza, costo, velocità di elaborazione), con collegamenti di consistenza tra tabelle attraverso circa un centinaio di colonne tipizzate e interrogabili via SQL. Per popolare in modo affidabile i segnali di valutazione, SEAR propone istruzioni di segnale autonome, ragionamento interno allo schema e generazione multi-stadio che produce output strutturati pronti per il database. Poiché i segnali sono derivati attraverso il ragionamento degli LLM anziché classificatori superficiali, SEAR cattura la semantica complessa delle richieste, consente spiegazioni di instradamento interpretabili dall'uomo e unifica valutazione e instradamento in un unico livello di query. In migliaia di sessioni di produzione, SEAR raggiunge un'elevata accuratezza dei segnali su dati etichettati dall'uomo e supporta decisioni pratiche di instradamento, inclusa una significativa riduzione dei costi a parità di qualità.

STRIDE: Quando Parlare Incontra la Denoizzazione di Sequenze per la Comprensione di Video in Streaming
STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding

Mar 29

ByJunho Kim, Hosu Lee, James M. Rehg, Minsu Kim, Yong Man Ro

I recenti progressi nei modelli linguistici di grandi dimensioni per video (Video-LLM) hanno consentito potenti capacità di ragionamento offline su video lunghi e complessi. Tuttavia, le implementazioni nel mondo reale richiedono sempre più spesso una percezione in streaming e un'interazione proattiva, in cui i fotogrammi video arrivano in tempo reale e il sistema deve decidere non solo cosa rispondere, ma anche quando rispondere. In questo lavoro, rivisitiamo l'attivazione proattiva nello streaming video come un problema di modellazione di sequenze strutturate, motivati dall'osservazione che le transizioni temporali nello streaming video formano naturalmente pattern di attivazione strutturati in intervalli (span). Per catturare questa struttura a livello di intervallo, modelliamo i segnali di attivazione congiuntamente su una finestra temporale scorrevole e li aggiorniamo in modo iterativo all'arrivo di nuovi fotogrammi. Proponiamo STRIDE (STRuctured Temporal Refinement with Iterative DEnoising), che impiega un modulo di diffusione mascherata leggera all'interfaccia di attivazione per prevedere e perfezionare progressivamente i segnali di attivazione attraverso la finestra. Esperimenti estesi su vari benchmark di streaming e modelli downstream dimostrano che STRIDE mostra risposte proattive più affidabili e temporalmente coerenti, migliorando significativamente la qualità delle decisioni su *quando parlare* negli scenari di streaming online.

Compressione del Contesto Soft con Consapevolezza della Densità e Rapporto di Compressione Semi-Dinamico
Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

Mar 26

ByYijiong Yu, Shuai Yuan, Jie Zheng, Huazheng Wang, Ji Pei

La compressione del contesto soft riduce il carico computazionale per l'elaborazione di contesti lunghi nei LLM codificando il contesto esteso in un numero inferiore di token latenti. Tuttavia, i framework esistenti applicano rapporti di compressione uniformi, non tenendo conto della estrema variabilità nella densità informativa del linguaggio naturale. Sebbene l'adozione di un rapporto di compressione dinamico e consapevole della densità appaia intuitiva, indagini empiriche rivelano che i modelli faticano intrinsecamente con operazioni parametrizzate da iperparametri strutturali continui dipendenti dall'input. Per risolvere questa criticità, introduciamo il framework Semi-Dynamic Context Compression. Il nostro approccio include un Discrete Ratio Selector, che predice un obiettivo di compressione basato sulla densità informativa intrinseca e lo quantizza in un insieme predefinito di rapporti di compressione discreti. Questo viene addestrato efficientemente in modo congiunto con il compressore su dati sintetici, utilizzando le lunghezze dei riassunti come proxy per creare etichette per la previsione del rapporto di compressione. Valutazioni estensive confermano che il nostro framework density-aware, che utilizza il mean pooling come backbone, supera costantemente i baseline statici, stabilendo una solida frontiera di Pareto per le tecniche di compressione del contesto. Il nostro codice, i dati e i pesi del modello sono disponibili su https://github.com/yuyijiong/semi-dynamic-context-compress.

MolmoPoint: Miglioramento del puntamento per i VLM tramite token di ancoraggio
MolmoPoint: Better Pointing for VLMs with Grounding Tokens

Mar 30

ByChristopher Clark, Yue Yang, Jae Sung Park, Zixian Ma, Jieyu Zhang, Rohun Tripathi, Mohammadreza Salehi, Sangho Lee, Taira Anderson, Winson Han, Ranjay Krishna

La capacità di grounding è diventata una funzionalità fondamentale dei modelli visione-linguaggio (VLM). La maggior parte dei VLM esistenti indica generando coordinate come parte del loro output testuale, il che richiede l'apprendimento di un complicato sistema di coordinate e si traduce in un alto numero di token. Proponiamo invece un meccanismo di puntamento più intuitivo che seleziona direttamente i token visivi contenenti il concetto target. Il nostro modello genera un token di puntamento speciale che applica l'attenzione incrociata ai token dell'immagine o del video in input e seleziona quello appropriato. Per rendere questo modello più granulare, facciamo seguire questi token di puntamento da un token speciale aggiuntivo che seleziona una sottopatch granulare all'interno della regione inizialmente selezionata, e poi da un terzo token che specifica una posizione all'interno di quella sottopatch. Dimostriamo inoltre che le prestazioni migliorano generando i punti sequenzialmente in un ordine coerente, codificando la posizione relativa del punto precedentemente selezionato e includendo una classe speciale "nessun-altro-punto" durante la selezione dei token visivi. Utilizzando questo metodo, stabiliamo un nuovo stato dell'arte sul puntamento in immagini (70.7% su PointBench), un nuovo stato dell'arte tra i modelli completamente aperti sul puntamento in interfacce grafiche (61.1% su ScreenSpotPro) e miglioriamo il puntamento video (59.1% di tasso di preferenza umana vs. un baseline di coordinate testuali) e il tracking (+6.3% di guadagno su Molmo2Track). Mostriamo inoltre che il nostro metodo raggiunge un'efficienza campionaria molto più elevata e discutiamo le differenze qualitative che emergono da questo cambiamento progettuale.

Superintelligenza e Diritto
Superintelligence and Law

Mar 30

ByNoam Kolt

La prospettiva della superintelligenza artificiale – agenti di IA in grado di superare generalmente gli esseri umani nei compiti cognitivi e nelle attività di valore economico – trasformerà l'ordinamento giuridico così come lo conosciamo. Operando in autonomia o sotto una supervisione umana solo limitata, gli agenti di IA assumeranno un numero crescente di ruoli all'interno del sistema giuridico. In primo luogo, nel prendere decisioni consequenziali e intraprendere azioni nel mondo reale, gli agenti di IA diventeranno soggetti di diritto de facto. In secondo luogo, per cooperare e competere con altri attori (umani e non umani), gli agenti di IA utilizzeranno strumenti e istituzioni giuridici convenzionali come contratti e tribunali, diventando consumatori di diritto. In terzo luogo, nella misura in cui gli agenti di IA svolgeranno le funzioni di redazione, interpretazione e applicazione della legge, ne diventeranno produttori ed esecutori. Questi sviluppi, quando alla fine si verificheranno, metteranno in discussione assunti fondamentali della teoria e della dottrina giuridica, specialmente nella misura in cui queste fondano la legittimità delle istituzioni giuridiche sulle loro origini umane. Anche i tentativi di allineare gli agenti di IA con il diritto umano esistente affronteranno nuove sfide, poiché gli agenti di IA non saranno solo un obiettivo primario del diritto, ma anche un utente centrale e un contributore del diritto. Per affrontare l'avvento della superintelligenza, i legislatori – vecchi e nuovi – dovranno essere lungimiranti, riconoscendo sia l'opportunità di plasmare le istituzioni giuridiche mentre la società si prepara alla superintelligenza, sia la realtà che, a lungo termine, questa potrebbe essere un'impresa congiunta umana-IA.

Uno Studio Comparativo sull'IA Chirurgica: Dataset, Modelli Fondamentali e Ostacoli alla Med-AGI
A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI

Mar 28

ByKirill Skobelev, Eric Fithian, Yegor Baranovski, Jack Cook, Sandeep Angara, Shauna Otto, Zhuang-Fang Yi, John Zhu, Daniel A. Donoho, X. Y. Han, Neeraj Mainkar, Margaux Masson-Forsythe

I recenti modelli di intelligenza artificiale (IA) hanno eguagliato o superato esperti umani in diversi benchmark di prestazione per compiti biomedici, ma hanno mostrato ritardi nei benchmark di analisi delle immagini chirurgiche. Poiché la chirurgia richiede l'integrazione di compiti disparati – inclusa l'integrazione di dati multimodali, l'interazione umana e gli effetti fisici – modelli di IA capaci in generale potrebbero essere particolarmente attraenti come strumento collaborativo se le prestazioni potessero essere migliorate. Da un lato, l'approccio canonico di scalare le dimensioni dell'architettura e i dati di addestramento è allettante, specialmente considerando che ogni anno vengono generate milioni di ore di video chirurgici. Dall'altro lato, preparare i dati chirurgici per l'addestramento dell'IA richiede livelli significativamente più elevati di competenza professionale, e l'addestramento su tali dati richiede risorse computazionali costose. Questi compromessi dipingono un quadro incerto sul se e in quale misura l'IA moderna potrebbe aiutare la pratica chirurgica. In questo articolo, esploriamo questa questione attraverso uno studio caso sulla rilevazione di strumenti chirurgici utilizzando metodi di IA all'avanguardia disponibili nel 2026. Dimostriamo che anche con modelli da miliardi di parametri e un addestramento estensivo, gli attuali Modelli Visione-Linguaggio non riescono nel compito apparentemente semplice della rilevazione di strumenti in neurochirurgia. Inoltre, mostriamo esperimenti di scalabilità che indicano come l'aumento delle dimensioni del modello e del tempo di addestramento porti solo a miglioramenti decrescenti nelle metriche di prestazione rilevanti. Pertanto, i nostri esperimenti suggeriscono che i modelli attuali potrebbero ancora affrontare ostacoli significativi negli use case chirurgici. Inoltre, alcuni ostacoli non possono essere semplicemente "superati con la scalabilità" tramite potenza di calcolo aggiuntiva e persistono tra diverse architetture di modelli, sollevando la questione se la disponibilità di dati ed etichette siano gli unici fattori limitanti. Discutiamo i principali contributori a questi vincoli e avanziamo potenziali soluzioni.

Ripensare le Traiettorie: Sfruttare la Generazione Video per Ricostruire Traiettorie GPS a Partire da Segnalazioni Cellulari
Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling

Mar 27

ByRuixing Zhang, Hanzhang Jiang, Leilei Sun, Liangzhe Han, Jibin Wang, Weifeng Lv

I dispositivi mobili interagiscono continuamente con le stazioni base cellulari, generando volumi massicci di record di segnalazione che forniscono una copertura ampia per la comprensione della mobilità umana. Tuttavia, tali record offrono solo indicazioni di localizzazione approssimative (ad esempio, identificatori di cella di servizio) e quindi ne limitano l'uso diretto in applicazioni che richiedono traiettorie GPS ad alta precisione. Questo articolo studia il problema Sig2GPS: ricostruire traiettorie GPS dalla segnalazione cellulare. Ispirati dal fatto che gli esperti del dominio spesso sovrappongono la traccia di segnalazione sulla mappa e abbozzano il corrispondente percorso GPS, a differenza delle soluzioni convenzionali che si basano su complesse pipeline ingegneristiche multi-stadio o sulla regressione delle coordinate, Sig2GPS viene riformulato come un compito di generazione immagine-video che opera direttamente nel dominio visivo della mappa: le tracce di segnalazione vengono renderizzate su una mappa, e un modello di generazione video viene addestrato per disegnare un percorso GPS continuo. Per supportare questo paradigma, viene costruito un dataset video accoppiato segnalazione-traiettoria per mettere a punto un modello video open-source, e viene introdotto un metodo di ottimizzazione basato sul reinforcement learning con consapevolezza della traiettoria per migliorare la fedeltà della generazione tramite ricompense. Esperimenti su dataset reali su larga scala mostrano miglioramenti sostanziali rispetto a baseline ingegnerizzate e basate su apprendimento robuste, mentre risultati aggiuntivi sulla predizione del GPS successivo indicano scalabilità e trasferibilità inter-città. Nel complesso, questi risultati suggeriscono che la generazione video nel dominio visivo della mappa fornisce un'interfaccia pratica per il data mining delle traiettorie, consentendo la generazione diretta e l'affinamento di percorsi continui sotto i vincoli della mappa.

AdaptToken: Selezione Adattiva di Token basata sull'Entropia per la Comprensione di Video Lunghi nei MLLM
AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

Mar 30

ByHaozhe Qi, Kevin Qu, Mahdi Rad, Rui Wang, Alexander Mathis, Marc Pollefeys

La comprensione di video lunghi rimane una sfida per i Modelli Linguistici Multimodali di Grande Dimensione a causa degli elevati costi di memoria e dei limiti di lunghezza del contesto. Gli approcci precedenti mitigano questo problema assegnando un punggio e selezionando frame/token all'interno di clip brevi, ma mancano di un meccanismo principiato per (i) confrontare la rilevanza tra clip video distanti e (ii) interrompere l'elaborazione una volta raccolte prove sufficienti. Proponiamo AdaptToken, un framework senza necessità di addestramento che trasforma l'auto-incertezza di un MLLM in un segnale di controllo globale per la selezione dei token in video lunghi. AdaptToken suddivide un video in gruppi, estrae l'attenzione cross-modale per classificare i token all'interno di ciascun gruppo e utilizza l'entropia della risposta del modello per stimare la rilevanza di ciascun gruppo rispetto al prompt. Questo segnale di entropia consente un'allocazione globale del budget di token tra i gruppi e supporta ulteriormente l'arresto anticipato (AdaptToken-Lite), saltando i gruppi rimanenti quando il modello diventa sufficientemente certo. Su quattro benchmark per video lunghi (VideoMME, LongVideoBench, LVBench e MLVU) e su più MLLM di base (7B-72B), AdaptToken migliora costantemente l'accuratezza (ad esempio, +6.7 in media rispetto a Qwen2.5-VL 7B) e continua a trarre vantaggio da input estremamente lunghi (fino a 10.000 frame), mentre AdaptToken-Lite riduce il tempo di inferenza di circa la metà con prestazioni comparabili. Pagina del progetto: https://haozheqi.github.io/adapt-token

HISA: Indicizzazione Gerarchica Efficiente per l'Attenzione Sparsa a Grana Fine
HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

Mar 30

ByYufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Jiexi Wu, Zhixin Pan, Zhaohui Wang, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di yin, Xing Sun, Muhan Zhang

I meccanismi di attenzione sparsa a livello di token, esemplificati da DeepSeek Sparse Attention (DSA), raggiungono una selezione fine delle chiavi assegnando un punteggio a ogni token storico per ogni query mediante un indicizzatore leggero, per poi calcolare l'attenzione solo sul sottoinsieme selezionato. Sebbene l'attenzione sparsa a valle sia computazionalmente efficiente, l'indicizzatore deve comunque scansionare l'intero prefisso per ogni query, introducendo un collo di bottiglia di O(L²) per strato che diventa proibitivo all'aumentare della lunghezza del contesto. Proponiamo HISA (Hierarchical Indexed Sparse Attention), una sostituzione diretta per l'indicizzatore che trasforma il processo di ricerca da una scansione piatta dei token in una procedura gerarchica a due stadi. In primo luogo, un filtro grossolano a livello di blocco assegna punteggi a rappresentativi aggregati dei blocchi per eliminare regioni irrilevanti. Successivamente, un raffinamento a livello di token applica l'indicizzatore originale solo all'interno dei blocchi candidati rimanenti. HISA preserva l'esatto schema di sparsità top-k a livello di token richiesto dall'operatore Sparse MLA a valle e non richiede ulteriore addestramento. Su benchmark a livello di kernel, HISA raggiunge un miglioramento di 2 volte nella velocità a contesti di 32K token e di 4 volte a 128K. Su Needle-in-a-Haystack e LongBench, abbiamo sostituito direttamente l'indicizzatore in DeepSeek-V3.2 con HISA, senza alcuna messa a punto. HISA eguaglia strettamente la qualità dell'originale DSA, superando significativamente i baseline a sparsità di blocco. Inoltre, gli insiemi di selezione dei token prodotti da HISA e dal DSA originale mostrano un IoU medio superiore al 99%, indicando che i guadagni di efficienza si ottengono con un impatto praticamente nullo sulla fedeltà della selezione.

Integrazione dei Dati Testuali
Text Data Integration

Mar 28

ByMd Ataur Rahman, Dimitris Sacharidis, Oscar Romero, Sergi Nadal

I dati si presentano in molte forme. Da una prospettiva superficiale, possono essere considerati come strutturati (ad esempio, come relazioni, coppie chiave-valore) o non strutturati (ad esempio, testo, immagini). Finora, le macchine sono state abbastanza brave nell'elaborare e ragionare su dati strutturati che seguono uno schema preciso. Tuttavia, l'eterogeneità dei dati rappresenta una sfida significativa per quanto riguarda la capacità di archiviare ed elaborare in modo significativo diverse categorie di dati. L'Integrazione dei Dati, una parte cruciale della pipeline di data engineering, affronta questo problema combinando fonti di dati disparate e fornendo un accesso unificato ai dati agli utenti finali. Fino ad ora, la maggior parte dei sistemi di integrazione dati si è basata principalmente sulla combinazione di sole fonti di dati strutturati. Tuttavia, anche i dati non strutturati (noti come testo libero) contengono una pletora di conoscenze in attesa di essere utilizzate. Pertanto, in questo capitolo, sosteniamo innanzitutto l'integrazione dei dati testuali, per poi presentarne le sfide, lo stato dell'arte e i problemi aperti.

MOOZY: Un modello di base incentrato sul paziente per la patologia computazionale
MOOZY: A Patient-First Foundation Model for Computational Pathology

Mar 27

ByYousef Kotp, Vincent Quoc-Huy Trinh, Christopher Pal, Mahdi S. Hosseini

La patologia computazionale necessita di modelli di fondazione per immagini whole-slide (WSI) che siano trasferibili tra diverse attività cliniche, ma gli approcci attuali rimangono largamente centrati sulla singola slide, spesso dipendono da dati privati e da una supervisione costosa basata su report associati, e non modellano esplicitamente le relazioni tra multiple slide dello stesso paziente. Presentiamo MOOZY, un modello di fondazione per la patologia di tipo "patient-first" in cui il caso clinico, non la singola slide, è l'unità fondamentale della rappresentazione. MOOZY modella esplicitamente le dipendenze tra tutte le slide dello stesso paziente tramite un case transformer durante il pre-addestramento, combinando un'auto-supervisione aperta multi-stadio con una supervisione su task a basso costo e su larga scala. Nello Stadio 1, pre-addestriamo un codificore di slide puramente visivo su 77.134 griglie di caratteristiche pubbliche di slide utilizzando la distillazione auto-mascherata. Nello Stadio 2, allineiamo queste rappresentazioni con la semantica clinica utilizzando un case transformer e una supervisione multi-task su 333 attività provenienti da 56 dataset pubblici, incluse 205 attività di classificazione e 128 di sopravvivenza relative a quattro endpoint. In otto task di valutazione convalidata con probe a caratteristiche congelate e cinque fold, MOOZY raggiunge le performance migliori o in pareggio sulla maggior parte delle metriche e migliora le medie macro rispetto a TITAN di +7,37%, +5,50% e +7,83% e rispetto a PRISM di +8,83%, +10,70% e +9,78% rispettivamente per F1 pesato, ROC-AUC pesato e accuratezza bilanciata. MOOZY è anche efficiente in termini di parametri, con 85,77 milioni di parametri, 14 volte più piccolo di GigaPath. Questi risultati dimostrano che un pre-addestramento aperto e riproducibile a livello paziente produce embedding trasferibili, fornendo un percorso pratico verso modelli di fondazione per l'istopatologia scalabili e incentrati sul paziente.

Generazione Unificata di Testo-Movimento Senza Numeri Tramite Flow Matching
Unified Number-Free Text-to-Motion Generation Via Flow Matching

Mar 27

ByGuanhe Huang, Oya Celiktutan

I modelli generativi eccellono nella sintesi del movimento per un numero fisso di agenti, ma faticano a generalizzare con un numero variabile di agenti. Basandosi su dati limitati e specifici del dominio, i metodi esistenti impiegano modelli autoregressivi per generare il movimento in modo ricorsivo, i quali soffrono di inefficienza e accumulo di errori. Proponiamo Unified Motion Flow (UMF), che consiste in Pyramid Motion Flow (P-Flow) e Semi-Noise Motion Flow (S-Flow). L'UMF scompone la generazione di movimento indipendente dal numero di agenti in una fase di generazione dell'*a priori* di movimento in passaggio singolo e in fasi di generazione della reazione a passaggi multipli. Nello specifico, l'UMF utilizza uno spazio latente unificato per colmare il divario distributivo tra dataset di movimento eterogenei, consentendo un addestramento unificato efficace. Per la generazione dell'*a priori* di movimento, il P-Flow opera su risoluzioni gerarchiche condizionate da diversi livelli di rumore, mitigando così i sovraccarichi computazionali. Per la generazione della reazione, il S-Flow apprende un percorso probabilistico congiunto che esegue in modo adattivo la trasformazione della reazione e la ricostruzione del contesto, alleviando l'accumulo di errori. Risultati estensivi e studi utente dimostrano l'efficacia di UMF come modello generalista per la generazione del movimento multi-persona a partire da testo. Pagina del progetto: https://githubhgh.github.io/umf/.

Rapporto Tecnico di KAT-Coder-V2
KAT-Coder-V2 Technical Report

Mar 29

ByFengxiang Li, Han Zhang, Haoyang Huang, Jinghui Wang, Jinhua Hao, Kun Yuan, Mengtong Li, Minglei Zhang, Pengcheng Xu, Wenhao Zhuang, Yizhen Shao, Zongxian Feng, Can Tang, Chao Wang, Chengxiao Tong, Fan Yang, Gang Xiong, Haixuan Gao, Han Gao, Hao Wang, Haochen Liu, Hongliang Sun, Jiabao Li, Jingwen Chang, Jun Du, Junyi Peng, Leizhen Cui, Meimei Jing, Mingqi Wu, Shangpeng Yan, Shaotong Qi, Suzhe Xu, Wenxuan Zhao, Xianda Sun, Xuan Xie, Yanbo Wang, Yao Xia, Yinghan Cui, Yingpeng Chen, Yong Wang, Yuze Shi, Zhiwei Shen, Ziyu Wang, Ming Sun, Lin Ye, Bin Chen

Presentiamo KAT-Coder-V2, un modello di codifica agentico sviluppato dal team KwaiKAT di Kuaishou. KAT-Coder-V2 adotta un paradigma "Specializza-poi-Unifica" che scompone la codifica agentica in cinque domini di competenza specializzata - SWE, WebCoding, Terminal, WebSearch e Generale - ciascuno dei quali viene sottoposto a fine-tuning supervisionato e apprendimento per rinforzo in modo indipendente, per poi essere consolidato in un unico modello tramite distillazione on-policy. Abbiamo sviluppato KwaiEnv, un'infrastruttura modulare che supporta decine di migliaia di istanze sandbox concorrenti, e abbiamo scalato l'addestramento RL lungo tre dimensioni: complessità del compito, allineamento dell'intento e generalizzazione dell'impalcatura. Proponiamo inoltre MCLA per stabilizzare l'addestramento RL su modelli Mixture of Experts (MoE) e il Tree Training per eliminare il calcolo ridondante su traiettorie ad albero, con un accelerazione fino a 6.2x. KAT-Coder-V2 raggiunge il 79.6% su SWE-bench Verified (contro l'80.8% di Claude Opus), 88.7 su PinchBench (superando GLM-5 e MiniMax M2.7), si classifica primo in tutti e tre gli scenari di estetica del frontend e mantiene punteggi solidi da generalista su Terminal-Bench Hard (46.8) e tau^2-Bench (93.9). Il nostro modello è pubblicamente disponibile all'indirizzo https://streamlake.com/product/kat-coder.

Un Metodo Particellare Basato su Score Neuronali per il Sistema di Vlasov-Maxwell-Landau
A Neural Score-Based Particle Method for the Vlasov-Maxwell-Landau System

Mar 26

ByVasily Ilin, Jingwei Hu

La modellazione del plasma è fondamentale per la progettazione di reattori a fusione nucleare, ma simulare la cinetica collisionale del plasma dai principi primi rimane una sfida computazionale formidabile: il sistema Vlasov-Maxwell-Landau (VML) descrive il trasporto nello spazio delle fasi a sei dimensioni sotto campi elettromagnetici auto-consistenti insieme all'operatore di collisione di Landau, non lineare e non locale. Un recente metodo deterministico delle particelle per l'intero sistema VML stima la funzione score della velocità tramite il metodo blob, un'approssimazione basata su kernel con costo O(n²). In questo lavoro, sostituiamo lo stimatore score blob con la modellazione del trasporto basata sullo score (SBTM), in cui una rete neurale viene addestrata on-the-fly tramite implicit score matching a un costo O(n). Dimostriamo che l'operatore di collisione approssimato conserva quantità di moto ed energia cinetica e dissipa un'entropia stimata. Caratterizziamo inoltre l'unico stato stazionario globale del sistema VML e la sua riduzione elettrostatica, fornendo il ground truth per la validazione numerica. Su tre benchmark canonici – smorzamento di Landau, instabilità a due flussi e instabilità di Weibel – SBTM è più accurato del metodo blob, raggiunge un corretto rilassamento a lungo termine verso l'equilibrio maxwelliano dove il metodo blob fallisce e garantisce un tempo di esecuzione del 50% più veloce con un picco di memoria inferiore di 4 volte.

INSID3: Segmentazione In-Context Senza Addestramento con DINOv3
INSID3: Training-Free In-Context Segmentation with DINOv3

Mar 30

ByClaudia Cuttano, Gabriele Trivigno, Christoph Reich, Daniel Cremers, Carlo Masone, Stefan Roth

La segmentazione in contesto (ICS) mira a segmentare concetti arbitrari, ad esempio oggetti, parti o istanze personalizzate, dato un unico esempio visivo annotato. I lavori esistenti si basano su (i) il fine-tuning di modelli fondazione visivi (VFM), che migliora i risultati in-dominio ma compromette la generalizzazione, oppure (ii) sulla combinazione di più VFM congelati, che preserva la generalizzazione ma comporta complessità architetturale e granularità di segmentazione fisse. Noi rivisitiamo l'ICS da una prospettiva minimalista e ci chiediamo: un singolo backbone auto-supervisionato può supportare sia il matching semantico che la segmentazione, senza alcuna supervisione o modelli ausiliari? Dimostriamo che feature dense auto-supervisionate e scalate da DINOv3 mostrano una forte struttura spaziale e corrispondenza semantica. Introduciamo INSID3, un approccio senza training che segmenta concetti a diverse granularità utilizzando esclusivamente feature congelate di DINOv3, dato un esempio in contesto. INSID3 ottiene risultati all'avanguardia nella segmentazione semantica one-shot, di parti e personalizzata, superando i lavori precedenti di +7.5% mIoU, utilizzando al contempo 3 volte meno parametri e senza alcuna supervisione a livello di maschera o categoria. Il codice è disponibile all'indirizzo https://github.com/visinf/INSID3 .