Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Deep Researcher con Diffusione al Tempo di Test
Deep Researcher with Test-Time Diffusion

Jul 21, 2025

Rujun Han, Yanfei Chen, Zoey CuiZhu, Lesly Miculicich, Guan Sun, Yuanjun Bi, Weiming Wen, Hui Wan, Chunfeng Wen, Solène Maître, George Lee, Vishy Tirumalashetty, Emily Xue, Zizhao Zhang, Salem Haykal, Burak Gokturk, Tomas Pfister, Chen-Yu Lee

532

Gli agenti di ricerca avanzati, potenziati da Large Language Models (LLM), stanno progredendo rapidamente; tuttavia, le loro prestazioni spesso raggiungono un plateau nella generazione di rapporti di ricerca complessi e di lunga durata utilizzando algoritmi di scalatura generici in fase di test. Traendo ispirazione dalla natura iterativa della ricerca umana, che prevede cicli di ricerca, ragionamento e revisione, proponiamo il Test-Time Diffusion Deep Researcher (TTD-DR). Questo nuovo framework concettualizza la generazione di rapporti di ricerca come un processo di diffusione. Il TTD-DR avvia questo processo con una bozza preliminare, uno scheletro aggiornabile che funge da fondamento in evoluzione per guidare la direzione della ricerca. La bozza viene poi raffinata iterativamente attraverso un processo di "denoising", che è dinamicamente informato da un meccanismo di recupero che incorpora informazioni esterne ad ogni passo. Il processo centrale è ulteriormente migliorato da un algoritmo auto-evolutivo applicato a ciascun componente del flusso di lavoro dell'agente, garantendo la generazione di contesti di alta qualità per il processo di diffusione. Questo design centrato sulla bozza rende il processo di scrittura del rapporto più tempestivo e coerente, riducendo al contempo la perdita di informazioni durante il processo di ricerca iterativo. Dimostriamo che il nostro TTD-DR raggiunge risultati all'avanguardia su un'ampia gamma di benchmark che richiedono una ricerca intensiva e un ragionamento multi-hop, superando significativamente gli esistenti agenti di ricerca avanzati.

La Geometria della Quantizzazione degli LLM: GPTQ come Algoritmo del Piano Più Vicino di Babai
The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

Jul 24, 2025

Jiale Chen, Torsten Hoefler, Dan Alistarh

372

La quantizzazione dei pesi dei grandi modelli linguistici (LLM) da 16 bit a una larghezza di bit inferiore è l'approccio di fatto per distribuire trasformatori di grandi dimensioni su acceleratori più economici. GPTQ è emerso come uno dei metodi standard per la quantizzazione post-addestramento one-shot su scala LLM. Tuttavia, il suo funzionamento interno è descritto come una sequenza di aggiornamenti algebrici ad hoc che oscurano qualsiasi significato geometrico o garanzia nel caso peggiore. In questo lavoro, dimostriamo che, quando eseguito in ordine inverso (dall'ultima alla prima dimensione) per un livello lineare, GPTQ è matematicamente identico all'algoritmo del piano più vicino di Babai per il classico problema del vettore più vicino (CVP) su un reticolo definito dalla matrice Hessiana degli input del livello. Questa equivalenza si basa su un argomento matematico sofisticato e ha due conseguenze analitiche: (i) il passo di propagazione dell'errore di GPTQ acquisisce un'interpretazione geometrica intuitiva; (ii) GPTQ eredita il limite superiore dell'errore dell'algoritmo di Babai sotto la condizione di non-clipping. Nel complesso, questi risultati pongono GPTQ su solide basi teoriche e aprono la porta all'importazione di decenni di progressi negli algoritmi di reticolo verso la progettazione di futuri algoritmi di quantizzazione per modelli con miliardi di parametri.

MMBench-GUI: Framework Gerarchico di Valutazione Multi-Piattaforma per Agenti GUI
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Jul 25, 2025

Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang

272

Introduciamo MMBench-GUI, un benchmark gerarchico per valutare gli agenti di automazione GUI su piattaforme Windows, macOS, Linux, iOS, Android e Web. È composto da quattro livelli: Comprensione del Contenuto GUI, Grounding degli Elementi, Automazione dei Task e Collaborazione dei Task, coprendo le competenze essenziali per gli agenti GUI. Inoltre, proponiamo una nuova metrica chiamata Efficiency-Quality Area (EQA) per valutare l'efficienza di esecuzione degli agenti GUI negli scenari di automazione online. Attraverso MMBench-GUI, identifichiamo il grounding visivo accurato come un determinante critico per il successo complessivo dei task, sottolineando i sostanziali benefici dei framework modulari che integrano moduli di grounding specializzati. Inoltre, per ottenere un'automazione GUI affidabile, un agente richiede forti capacità di pianificazione dei task e generalizzazione cross-piattaforma, con memoria a lungo contesto, un ampio spazio di azione e ragionamento a lungo termine che svolgono un ruolo cruciale. Ancora più importante, l'efficienza dei task rimane una dimensione criticamente poco esplorata, e tutti i modelli soffrono di sostanziali inefficienze, con passaggi ridondanti eccessivi anche quando i task vengono completati. L'integrazione di localizzazione precisa, pianificazione efficace e strategie di early stopping è indispensabile per abilitare un'automazione GUI veramente efficiente e scalabile. Il nostro codice di benchmark, i dati di valutazione e l'ambiente di esecuzione saranno pubblicamente disponibili all'indirizzo https://github.com/open-compass/MMBench-GUI.

Quando i Token Parlano Troppo: Un'Indagine sulla Compressione di Token Multimodali a Lungo Contesto attraverso Immagini, Video e Audio
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

Jul 27, 2025

Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang

232

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi significativi, principalmente grazie alla loro capacità di elaborare contesti sempre più lunghi e complessi, come immagini ad alta risoluzione, sequenze video estese e input audio di lunga durata. Sebbene questa capacità potenzi notevolmente le funzionalità degli MLLM, introduce anche sfide computazionali sostanziali, dovute principalmente alla complessità quadratica dei meccanismi di self-attention con un numero elevato di token di input. Per mitigare questi colli di bottiglia, la compressione dei token è emersa come un approccio promettente e cruciale, riducendo efficacemente il numero di token sia durante l'addestramento che durante l'inferenza. In questo articolo, presentiamo la prima rassegna sistematica e sintesi del campo in rapida crescita della compressione dei token per contesti lunghi multimodali. Riconoscendo che le strategie di compressione efficaci sono strettamente legate alle caratteristiche uniche e alle ridondanze di ciascuna modalità, categorizziamo gli approcci esistenti in base al loro focus principale sui dati, consentendo ai ricercatori di accedere rapidamente e apprendere metodi adatti al loro specifico ambito di interesse: (1) compressione centrata sulle immagini, che affronta la ridondanza spaziale nei dati visivi; (2) compressione centrata sui video, che affronta la ridondanza spazio-temporale nelle sequenze dinamiche; e (3) compressione centrata sull'audio, che gestisce la ridondanza temporale e spettrale nei segnali acustici. Oltre a questa categorizzazione basata sulle modalità, analizziamo ulteriormente i metodi in base ai loro meccanismi sottostanti, inclusi approcci basati su trasformazioni, similarità, attenzione e query. Fornendo una panoramica completa e strutturata, questa rassegna mira a consolidare i progressi attuali, identificare le principali sfide e ispirare future direzioni di ricerca in questo dominio in rapida evoluzione. Manteniamo inoltre un repository pubblico per monitorare e aggiornare continuamente i più recenti avanzamenti in questa promettente area.

GEPA: L'evoluzione riflessiva dei prompt può superare l'apprendimento per rinforzo
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Jul 25, 2025

Lakshya A Agrawal, Shangyin Tan, Dilara Soylu, Noah Ziems, Rishi Khare, Krista Opsahl-Ong, Arnav Singhvi, Herumb Shandilya, Michael J Ryan, Meng Jiang, Christopher Potts, Koushik Sen, Alexandros G. Dimakis, Ion Stoica, Dan Klein, Matei Zaharia, Omar Khattab

203

I modelli linguistici di grandi dimensioni (LLM) sono sempre più adattati a compiti specifici attraverso metodi di apprendimento per rinforzo (RL) come l'ottimizzazione delle politiche relative ai gruppi (GRPO), che spesso richiedono migliaia di esecuzioni per apprendere nuovi compiti. Sosteniamo che la natura interpretabile del linguaggio possa spesso fornire un mezzo di apprendimento molto più ricco per gli LLM, rispetto ai gradienti delle politiche derivati da ricompense scalari e sparse. Per testare questa ipotesi, introduciamo GEPA (Genetic-Pareto), un ottimizzatore di prompt che incorpora in modo approfondito la riflessione in linguaggio naturale per apprendere regole di alto livello attraverso tentativi ed errori. Dato qualsiasi sistema di intelligenza artificiale contenente uno o più prompt di LLM, GEPA campiona traiettorie a livello di sistema (ad esempio, ragionamenti, chiamate a strumenti e output degli strumenti) e riflette su di esse in linguaggio naturale per diagnosticare problemi, proporre e testare aggiornamenti dei prompt, e combinare lezioni complementari dalla frontiera di Pareto dei propri tentativi. Grazie al design di GEPA, è spesso in grado di trasformare anche solo poche esecuzioni in un significativo miglioramento della qualità. In quattro compiti, GEPA supera GRPO in media del 10% e fino al 20%, utilizzando fino a 35 volte meno esecuzioni. GEPA supera anche il principale ottimizzatore di prompt, MIPROv2, di oltre il 10% su due LLM, e dimostra risultati promettenti come strategia di ricerca in fase di inferenza per l'ottimizzazione del codice.

CLEAR: Analisi degli Errori Semplificata con LLM come Giudice
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

Jul 24, 2025

Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer

172

La valutazione dei Large Language Models (LLM) si basa sempre più sull'uso di altri LLM come giudici. Tuttavia, i paradigmi di valutazione attuali producono tipicamente un punteggio singolo o una classifica, rispondendo a quale modello sia migliore ma non al perché. Sebbene essenziali per il benchmarking, questi punteggi di alto livello oscurano le ragioni specifiche e azionabili dietro le prestazioni di un modello. Per colmare questa lacuna, introduciamo CLEAR, un pacchetto open-source e interattivo per l'analisi degli errori basata su LLM. CLEAR genera prima un feedback testuale per ogni istanza, poi crea un insieme di problemi di errore a livello di sistema e quantifica la prevalenza di ciascun problema identificato. Il nostro pacchetto fornisce inoltre agli utenti una dashboard interattiva che consente un'analisi completa degli errori attraverso visualizzazioni aggregate, applica filtri interattivi per isolare problemi specifici o intervalli di punteggio e approfondisce le singole istanze che esemplificano un particolare schema comportamentale. Dimostriamo l'analisi di CLEAR per benchmark RAG e di matematica e ne illustriamo l'utilità attraverso uno studio di caso con utenti.

Autocorrezione delle Specifiche: Mitigare il Reward Hacking in Contesto Attraverso l'Affinamento al Momento del Test
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

Jul 24, 2025

Víctor Gallego

I modelli linguistici (LM) sono suscettibili al fenomeno dell'"in-context reward hacking", in cui sfruttano difetti in specifiche o rubriche scritte contaminate o difettose per ottenere punteggi elevati senza soddisfare il vero intento dell'utente. Introduciamo la Correzione Automatica delle Specifiche (Specification Self-Correction, SSC), un nuovo framework operativo in fase di inferenza che consente a un LM di identificare e correggere i difetti all'interno della propria specifica guida. SSC impiega un processo di inferenza a più fasi in cui il modello genera prima una risposta basata su una specifica potenzialmente contaminata, critica il proprio output e poi rivede la specifica stessa per rimuovere il punto debole sfruttabile. Una risposta finale più robusta viene quindi generata utilizzando questa specifica autocorretta. Attraverso esperimenti che coprono compiti di scrittura creativa e codifica agentica con diversi LM, dimostriamo che, sebbene i modelli inizialmente giochino con specifiche contaminate nel 50-70% dei casi, il processo SSC riduce questa vulnerabilità di oltre il 90%. Questa riparazione dinamica avviene in fase di inferenza, non richiede modifiche ai pesi e porta a un comportamento del modello più robustamente allineato. Codice disponibile su https://github.com/vicgalle/specification-self-correction.

PRIX: Apprendimento della pianificazione da immagini grezze per la guida autonoma end-to-end
PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

Jul 23, 2025

Maciej K. Wozniak, Lianhang Liu, Yixi Cai, Patric Jensfelt

Sebbene i modelli di guida autonoma end-to-end mostrino risultati promettenti, il loro impiego pratico è spesso ostacolato dalle grandi dimensioni del modello, dalla dipendenza da costosi sensori LiDAR e dalle rappresentazioni di feature BEV computazionalmente intensive. Ciò ne limita la scalabilità, specialmente per i veicoli di massa equipaggiati solo con telecamere. Per affrontare queste sfide, proponiamo PRIX (Plan from Raw Pixels). La nostra innovativa ed efficiente architettura di guida end-to-end opera utilizzando solo dati provenienti dalle telecamere, senza una rappresentazione esplicita BEV e rinunciando alla necessità del LiDAR. PRIX sfrutta un estrattore di feature visive accoppiato a una testa di pianificazione generativa per prevedere traiettorie sicure direttamente dagli input di pixel grezzi. Un componente fondamentale della nostra architettura è il Context-aware Recalibration Transformer (CaRT), un modulo innovativo progettato per migliorare efficacemente le feature visive multi-livello per una pianificazione più robusta. Dimostriamo attraverso esperimenti completi che PRIX raggiunge prestazioni all'avanguardia sui benchmark NavSim e nuScenes, eguagliando le capacità di pianificatori di diffusione multimodali più grandi, pur essendo significativamente più efficiente in termini di velocità di inferenza e dimensioni del modello, rendendolo una soluzione pratica per il dispiegamento nel mondo reale. Il nostro lavoro è open-source e il codice sarà disponibile su https://maxiuw.github.io/prix.

Framework per la Gestione del Rischio delle AI di Frontiera in Pratica: Un'Analisi del Rischio Rapporto Tecnico
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Jul 22, 2025

Shanghai AI Lab, Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, Jiaxuan Guo, Qi Guo, Xuhao Hu, Hong Huang, Lige Huang, Chunxiao Li, Juncheng Li, Qihao Lin, Dongrui Liu, Xinmin Liu, Zicheng Liu, Chaochao Lu, Xiaoya Lu, Jingjing Qu, Qibing Ren, Jing Shao, Jingwei Shi, Jingwei Sun, Peng Wang, Weibing Wang, Jia Xu, Lewen Yan, Xiao Yu, Yi Yu, Boxuan Zhang, Jie Zhang, Weichen Zhang, Zhijie Zheng, Tianyi Zhou, Bowen Zhou

Per comprendere e identificare i rischi senza precedenti posti dai modelli di intelligenza artificiale (IA) in rapida evoluzione, questo rapporto presenta una valutazione completa dei loro rischi di frontiera. Basandoci sull'analisi E-T-C (ambiente di distribuzione, fonte di minaccia, capacità abilitante) del Framework di Gestione del Rischio per l'IA di Frontiera (v1.0) (SafeWork-F1-Framework), identifichiamo rischi critici in sette aree: offensiva informatica, rischi biologici e chimici, persuasione e manipolazione, sviluppo autonomo incontrollato di IA R\&D, inganno strategico e pianificazione, autoreplicazione e collusione. Guidati dalla "Legge AI-45^circ," valutiamo questi rischi utilizzando "linee rosse" (soglie intollerabili) e "linee gialle" (indicatori di allerta precoce) per definire le zone di rischio: verde (rischio gestibile per distribuzione routinaria e monitoraggio continuo), gialla (che richiede mitigazioni rafforzate e distribuzione controllata) e rossa (che necessita la sospensione dello sviluppo e/o della distribuzione). I risultati sperimentali mostrano che tutti i recenti modelli di IA di frontiera si trovano nelle zone verde e gialla, senza superare le linee rosse. Nello specifico, nessun modello valutato supera la linea gialla per i rischi di offensiva informatica o sviluppo autonomo incontrollato di IA R\&D. Per l'autoreplicazione e l'inganno strategico e la pianificazione, la maggior parte dei modelli rimane nella zona verde, ad eccezione di alcuni modelli di ragionamento nella zona gialla. Nella persuasione e manipolazione, la maggior parte dei modelli si trova nella zona gialla a causa della loro efficace influenza sugli esseri umani. Per i rischi biologici e chimici, non possiamo escludere la possibilità che la maggior parte dei modelli risieda nella zona gialla, sebbene siano necessari una modellizzazione dettagliata delle minacce e una valutazione approfondita per avanzare ulteriori affermazioni. Questo lavoro riflette la nostra attuale comprensione dei rischi di frontiera dell'IA e sollecita un'azione collettiva per mitigare queste sfide.

Chatta con l'IA: La Svolta Sorprendente della Comunicazione Video in Tempo Reale da Umano a IA
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

Jul 14, 2025

Jiangkai Wu, Zhiyuan Ren, Liming Liu, Xinggong Zhang

AI Video Chat emerge come un nuovo paradigma per la Comunicazione in Tempo Reale (RTC), in cui uno degli interlocutori non è un essere umano, ma un Modello Linguistico Multimodale di Grande Scala (MLLM). Ciò rende l'interazione tra esseri umani e IA più intuitiva, come se si stesse chattando faccia a faccia con una persona reale. Tuttavia, questo pone sfide significative in termini di latenza, poiché l'inferenza dell'MLLM occupa la maggior parte del tempo di risposta, lasciando pochissimo tempo per lo streaming video. A causa dell'incertezza e dell'instabilità della rete, la latenza di trasmissione diventa un collo di bottiglia critico che impedisce all'IA di comportarsi come una persona reale. Per affrontare questo problema, proponiamo Artic, un framework di Comunicazione in Tempo Reale orientato all'IA, che esplora il cambiamento dei requisiti di rete da "umani che guardano video" a "IA che comprende video". Per ridurre drasticamente il bitrate mantenendo l'accuratezza dell'MLLM, proponiamo uno Streaming Video Consapevole del Contesto che riconosce l'importanza di ciascuna regione video per la chat e assegna il bitrate quasi esclusivamente alle regioni importanti per la chat. Per evitare la ritrasmissione dei pacchetti, proponiamo una Frequenza dei Fotogrammi Adattiva Resiliente alle Perdite che sfrutta i fotogrammi precedenti per sostituire quelli persi/ritardati, evitando sprechi di bitrate. Per valutare l'impatto della qualità dello streaming video sull'accuratezza dell'MLLM, abbiamo creato il primo benchmark, denominato Degraded Video Understanding Benchmark (DeViBench). Infine, discutiamo alcune questioni aperte e soluzioni in corso per l'AI Video Chat.

AFRDA: Affinamento Attentivo delle Caratteristiche per la Segmentazione Semantica Adattativa al Dominio
AFRDA: Attentive Feature Refinement for Domain Adaptive Semantic Segmentation

Jul 23, 2025

Md. Al-Masrur Khan, Durgakant Pushp, Lantao Liu

Nella Segmentazione Semantica con Adattamento di Dominio Non Supervisionato (UDA-SS), un modello viene addestrato su dati etichettati di un dominio sorgente (ad esempio, immagini sintetiche) e adattato a un dominio target non etichettato (ad esempio, immagini del mondo reale) senza accesso alle annotazioni del target. I metodi UDA-SS esistenti spesso faticano a bilanciare i dettagli locali di fine granularità con le informazioni contestuali globali, portando a errori di segmentazione nelle regioni complesse. Per affrontare questo problema, introduciamo il modulo Adaptive Feature Refinement (AFR), che migliora l'accuratezza della segmentazione raffinando le caratteristiche ad alta risoluzione utilizzando prior semantiche dai logit a bassa risoluzione. AFR integra anche componenti ad alta frequenza, che catturano strutture di fine granularità e forniscono informazioni cruciali sui contorni, migliorando la delineazione degli oggetti. Inoltre, AFR bilancia in modo adattivo le informazioni locali e globali attraverso un'attenzione guidata dall'incertezza, riducendo le classificazioni errate. Il suo design leggero consente un'integrazione senza soluzione di continuità nei metodi UDA basati su HRDA, portando a prestazioni di segmentazione all'avanguardia. Il nostro approccio migliora i metodi UDA-SS esistenti di 1,05% mIoU su GTA V --> Cityscapes e 1,04% mIoU su Synthia-->Cityscapes. L'implementazione del nostro framework è disponibile all'indirizzo: https://github.com/Masrur02/AFRDA

Framework per la Gestione del Rischio delle AI di Frontiera in Pratica: Un'Analisi del Rischio Rapporto Tecnico
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Jul 22, 2025

Paper Giornalieri

Deep Researcher con Diffusione al Tempo di Test
Deep Researcher with Test-Time Diffusion

La Geometria della Quantizzazione degli LLM: GPTQ come Algoritmo del Piano Più Vicino di Babai
The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

MMBench-GUI: Framework Gerarchico di Valutazione Multi-Piattaforma per Agenti GUI
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Quando i Token Parlano Troppo: Un'Indagine sulla Compressione di Token Multimodali a Lungo Contesto attraverso Immagini, Video e Audio
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

GEPA: L'evoluzione riflessiva dei prompt può superare l'apprendimento per rinforzo
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

CLEAR: Analisi degli Errori Semplificata con LLM come Giudice
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

Autocorrezione delle Specifiche: Mitigare il Reward Hacking in Contesto Attraverso l'Affinamento al Momento del Test
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

PRIX: Apprendimento della pianificazione da immagini grezze per la guida autonoma end-to-end
PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

Framework per la Gestione del Rischio delle AI di Frontiera in Pratica: Un'Analisi del Rischio Rapporto Tecnico
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Chatta con l'IA: La Svolta Sorprendente della Comunicazione Video in Tempo Reale da Umano a IA
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

AFRDA: Affinamento Attentivo delle Caratteristiche per la Segmentazione Semantica Adattativa al Dominio
AFRDA: Attentive Feature Refinement for Domain Adaptive Semantic Segmentation

Support

Support

Paper Giornalieri

Deep Researcher con Diffusione al Tempo di Test
Deep Researcher with Test-Time Diffusion

La Geometria della Quantizzazione degli LLM: GPTQ come Algoritmo del Piano Più Vicino di Babai
The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm

MMBench-GUI: Framework Gerarchico di Valutazione Multi-Piattaforma per Agenti GUI
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Quando i Token Parlano Troppo: Un'Indagine sulla Compressione di Token Multimodali a Lungo Contesto attraverso Immagini, Video e Audio
When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

GEPA: L'evoluzione riflessiva dei prompt può superare l'apprendimento per rinforzo
GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

CLEAR: Analisi degli Errori Semplificata con LLM come Giudice
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

Autocorrezione delle Specifiche: Mitigare il Reward Hacking in Contesto Attraverso l'Affinamento al Momento del Test
Specification Self-Correction: Mitigating In-Context Reward Hacking Through Test-Time Refinement

PRIX: Apprendimento della pianificazione da immagini grezze per la guida autonoma end-to-end
PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

Framework per la Gestione del Rischio delle AI di Frontiera in Pratica: Un'Analisi del Rischio Rapporto Tecnico
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Chatta con l'IA: La Svolta Sorprendente della Comunicazione Video in Tempo Reale da Umano a IA
Chat with AI: The Surprising Turn of Real-time Video Communication from Human to AI

AFRDA: Affinamento Attentivo delle Caratteristiche per la Segmentazione Semantica Adattativa al Dominio
AFRDA: Attentive Feature Refinement for Domain Adaptive Semantic Segmentation