Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli agenti di ricerca avanzati, potenziati da Large Language Models (LLM), stanno progredendo rapidamente; tuttavia, le loro prestazioni spesso raggiungono un plateau nella generazione di rapporti di ricerca complessi e di lunga durata utilizzando algoritmi di scalatura generici in fase di test. Traendo ispirazione dalla natura iterativa della ricerca umana, che prevede cicli di ricerca, ragionamento e revisione, proponiamo il Test-Time Diffusion Deep Researcher (TTD-DR). Questo nuovo framework concettualizza la generazione di rapporti di ricerca come un processo di diffusione. Il TTD-DR avvia questo processo con una bozza preliminare, uno scheletro aggiornabile che funge da fondamento in evoluzione per guidare la direzione della ricerca. La bozza viene poi raffinata iterativamente attraverso un processo di "denoising", che è dinamicamente informato da un meccanismo di recupero che incorpora informazioni esterne ad ogni passo. Il processo centrale è ulteriormente migliorato da un algoritmo auto-evolutivo applicato a ciascun componente del flusso di lavoro dell'agente, garantendo la generazione di contesti di alta qualità per il processo di diffusione. Questo design centrato sulla bozza rende il processo di scrittura del rapporto più tempestivo e coerente, riducendo al contempo la perdita di informazioni durante il processo di ricerca iterativo. Dimostriamo che il nostro TTD-DR raggiunge risultati all'avanguardia su un'ampia gamma di benchmark che richiedono una ricerca intensiva e un ragionamento multi-hop, superando significativamente gli esistenti agenti di ricerca avanzati.
La quantizzazione dei pesi dei grandi modelli linguistici (LLM) da 16 bit a una larghezza di bit inferiore è l'approccio di fatto per distribuire trasformatori di grandi dimensioni su acceleratori più economici. GPTQ è emerso come uno dei metodi standard per la quantizzazione post-addestramento one-shot su scala LLM. Tuttavia, il suo funzionamento interno è descritto come una sequenza di aggiornamenti algebrici ad hoc che oscurano qualsiasi significato geometrico o garanzia nel caso peggiore. In questo lavoro, dimostriamo che, quando eseguito in ordine inverso (dall'ultima alla prima dimensione) per un livello lineare, GPTQ è matematicamente identico all'algoritmo del piano più vicino di Babai per il classico problema del vettore più vicino (CVP) su un reticolo definito dalla matrice Hessiana degli input del livello. Questa equivalenza si basa su un argomento matematico sofisticato e ha due conseguenze analitiche: (i) il passo di propagazione dell'errore di GPTQ acquisisce un'interpretazione geometrica intuitiva; (ii) GPTQ eredita il limite superiore dell'errore dell'algoritmo di Babai sotto la condizione di non-clipping. Nel complesso, questi risultati pongono GPTQ su solide basi teoriche e aprono la porta all'importazione di decenni di progressi negli algoritmi di reticolo verso la progettazione di futuri algoritmi di quantizzazione per modelli con miliardi di parametri.
Introduciamo MMBench-GUI, un benchmark gerarchico per valutare gli agenti di automazione GUI su piattaforme Windows, macOS, Linux, iOS, Android e Web. È composto da quattro livelli: Comprensione del Contenuto GUI, Grounding degli Elementi, Automazione dei Task e Collaborazione dei Task, coprendo le competenze essenziali per gli agenti GUI. Inoltre, proponiamo una nuova metrica chiamata Efficiency-Quality Area (EQA) per valutare l'efficienza di esecuzione degli agenti GUI negli scenari di automazione online. Attraverso MMBench-GUI, identifichiamo il grounding visivo accurato come un determinante critico per il successo complessivo dei task, sottolineando i sostanziali benefici dei framework modulari che integrano moduli di grounding specializzati. Inoltre, per ottenere un'automazione GUI affidabile, un agente richiede forti capacità di pianificazione dei task e generalizzazione cross-piattaforma, con memoria a lungo contesto, un ampio spazio di azione e ragionamento a lungo termine che svolgono un ruolo cruciale. Ancora più importante, l'efficienza dei task rimane una dimensione criticamente poco esplorata, e tutti i modelli soffrono di sostanziali inefficienze, con passaggi ridondanti eccessivi anche quando i task vengono completati. L'integrazione di localizzazione precisa, pianificazione efficace e strategie di early stopping è indispensabile per abilitare un'automazione GUI veramente efficiente e scalabile. Il nostro codice di benchmark, i dati di valutazione e l'ambiente di esecuzione saranno pubblicamente disponibili all'indirizzo https://github.com/open-compass/MMBench-GUI.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi significativi, principalmente grazie alla loro capacità di elaborare contesti sempre più lunghi e complessi, come immagini ad alta risoluzione, sequenze video estese e input audio di lunga durata. Sebbene questa capacità potenzi notevolmente le funzionalità degli MLLM, introduce anche sfide computazionali sostanziali, dovute principalmente alla complessità quadratica dei meccanismi di self-attention con un numero elevato di token di input. Per mitigare questi colli di bottiglia, la compressione dei token è emersa come un approccio promettente e cruciale, riducendo efficacemente il numero di token sia durante l'addestramento che durante l'inferenza. In questo articolo, presentiamo la prima rassegna sistematica e sintesi del campo in rapida crescita della compressione dei token per contesti lunghi multimodali. Riconoscendo che le strategie di compressione efficaci sono strettamente legate alle caratteristiche uniche e alle ridondanze di ciascuna modalità, categorizziamo gli approcci esistenti in base al loro focus principale sui dati, consentendo ai ricercatori di accedere rapidamente e apprendere metodi adatti al loro specifico ambito di interesse: (1) compressione centrata sulle immagini, che affronta la ridondanza spaziale nei dati visivi; (2) compressione centrata sui video, che affronta la ridondanza spazio-temporale nelle sequenze dinamiche; e (3) compressione centrata sull'audio, che gestisce la ridondanza temporale e spettrale nei segnali acustici. Oltre a questa categorizzazione basata sulle modalità, analizziamo ulteriormente i metodi in base ai loro meccanismi sottostanti, inclusi approcci basati su trasformazioni, similarità, attenzione e query. Fornendo una panoramica completa e strutturata, questa rassegna mira a consolidare i progressi attuali, identificare le principali sfide e ispirare future direzioni di ricerca in questo dominio in rapida evoluzione. Manteniamo inoltre un repository pubblico per monitorare e aggiornare continuamente i più recenti avanzamenti in questa promettente area.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più adattati a compiti specifici attraverso metodi di apprendimento per rinforzo (RL) come l'ottimizzazione delle politiche relative ai gruppi (GRPO), che spesso richiedono migliaia di esecuzioni per apprendere nuovi compiti. Sosteniamo che la natura interpretabile del linguaggio possa spesso fornire un mezzo di apprendimento molto più ricco per gli LLM, rispetto ai gradienti delle politiche derivati da ricompense scalari e sparse. Per testare questa ipotesi, introduciamo GEPA (Genetic-Pareto), un ottimizzatore di prompt che incorpora in modo approfondito la riflessione in linguaggio naturale per apprendere regole di alto livello attraverso tentativi ed errori. Dato qualsiasi sistema di intelligenza artificiale contenente uno o più prompt di LLM, GEPA campiona traiettorie a livello di sistema (ad esempio, ragionamenti, chiamate a strumenti e output degli strumenti) e riflette su di esse in linguaggio naturale per diagnosticare problemi, proporre e testare aggiornamenti dei prompt, e combinare lezioni complementari dalla frontiera di Pareto dei propri tentativi. Grazie al design di GEPA, è spesso in grado di trasformare anche solo poche esecuzioni in un significativo miglioramento della qualità. In quattro compiti, GEPA supera GRPO in media del 10% e fino al 20%, utilizzando fino a 35 volte meno esecuzioni. GEPA supera anche il principale ottimizzatore di prompt, MIPROv2, di oltre il 10% su due LLM, e dimostra risultati promettenti come strategia di ricerca in fase di inferenza per l'ottimizzazione del codice.
La valutazione dei Large Language Models (LLM) si basa sempre più sull'uso di altri LLM come giudici. Tuttavia, i paradigmi di valutazione attuali producono tipicamente un punteggio singolo o una classifica, rispondendo a quale modello sia migliore ma non al perché. Sebbene essenziali per il benchmarking, questi punteggi di alto livello oscurano le ragioni specifiche e azionabili dietro le prestazioni di un modello. Per colmare questa lacuna, introduciamo CLEAR, un pacchetto open-source e interattivo per l'analisi degli errori basata su LLM. CLEAR genera prima un feedback testuale per ogni istanza, poi crea un insieme di problemi di errore a livello di sistema e quantifica la prevalenza di ciascun problema identificato. Il nostro pacchetto fornisce inoltre agli utenti una dashboard interattiva che consente un'analisi completa degli errori attraverso visualizzazioni aggregate, applica filtri interattivi per isolare problemi specifici o intervalli di punteggio e approfondisce le singole istanze che esemplificano un particolare schema comportamentale. Dimostriamo l'analisi di CLEAR per benchmark RAG e di matematica e ne illustriamo l'utilità attraverso uno studio di caso con utenti.
I modelli linguistici (LM) sono suscettibili al fenomeno dell'"in-context reward hacking", in cui sfruttano difetti in specifiche o rubriche scritte contaminate o difettose per ottenere punteggi elevati senza soddisfare il vero intento dell'utente. Introduciamo la Correzione Automatica delle Specifiche (Specification Self-Correction, SSC), un nuovo framework operativo in fase di inferenza che consente a un LM di identificare e correggere i difetti all'interno della propria specifica guida. SSC impiega un processo di inferenza a più fasi in cui il modello genera prima una risposta basata su una specifica potenzialmente contaminata, critica il proprio output e poi rivede la specifica stessa per rimuovere il punto debole sfruttabile. Una risposta finale più robusta viene quindi generata utilizzando questa specifica autocorretta. Attraverso esperimenti che coprono compiti di scrittura creativa e codifica agentica con diversi LM, dimostriamo che, sebbene i modelli inizialmente giochino con specifiche contaminate nel 50-70% dei casi, il processo SSC riduce questa vulnerabilità di oltre il 90%. Questa riparazione dinamica avviene in fase di inferenza, non richiede modifiche ai pesi e porta a un comportamento del modello più robustamente allineato. Codice disponibile su https://github.com/vicgalle/specification-self-correction.
Sebbene i modelli di guida autonoma end-to-end mostrino risultati promettenti, il loro impiego pratico è spesso ostacolato dalle grandi dimensioni del modello, dalla dipendenza da costosi sensori LiDAR e dalle rappresentazioni di feature BEV computazionalmente intensive. Ciò ne limita la scalabilità, specialmente per i veicoli di massa equipaggiati solo con telecamere. Per affrontare queste sfide, proponiamo PRIX (Plan from Raw Pixels). La nostra innovativa ed efficiente architettura di guida end-to-end opera utilizzando solo dati provenienti dalle telecamere, senza una rappresentazione esplicita BEV e rinunciando alla necessità del LiDAR. PRIX sfrutta un estrattore di feature visive accoppiato a una testa di pianificazione generativa per prevedere traiettorie sicure direttamente dagli input di pixel grezzi. Un componente fondamentale della nostra architettura è il Context-aware Recalibration Transformer (CaRT), un modulo innovativo progettato per migliorare efficacemente le feature visive multi-livello per una pianificazione più robusta. Dimostriamo attraverso esperimenti completi che PRIX raggiunge prestazioni all'avanguardia sui benchmark NavSim e nuScenes, eguagliando le capacità di pianificatori di diffusione multimodali più grandi, pur essendo significativamente più efficiente in termini di velocità di inferenza e dimensioni del modello, rendendolo una soluzione pratica per il dispiegamento nel mondo reale. Il nostro lavoro è open-source e il codice sarà disponibile su https://maxiuw.github.io/prix.
Per comprendere e identificare i rischi senza precedenti posti dai modelli di intelligenza artificiale (IA) in rapida evoluzione, questo rapporto presenta una valutazione completa dei loro rischi di frontiera. Basandoci sull'analisi E-T-C (ambiente di distribuzione, fonte di minaccia, capacità abilitante) del Framework di Gestione del Rischio per l'IA di Frontiera (v1.0) (SafeWork-F1-Framework), identifichiamo rischi critici in sette aree: offensiva informatica, rischi biologici e chimici, persuasione e manipolazione, sviluppo autonomo incontrollato di IA R\&D, inganno strategico e pianificazione, autoreplicazione e collusione. Guidati dalla "Legge AI-45^circ," valutiamo questi rischi utilizzando "linee rosse" (soglie intollerabili) e "linee gialle" (indicatori di allerta precoce) per definire le zone di rischio: verde (rischio gestibile per distribuzione routinaria e monitoraggio continuo), gialla (che richiede mitigazioni rafforzate e distribuzione controllata) e rossa (che necessita la sospensione dello sviluppo e/o della distribuzione). I risultati sperimentali mostrano che tutti i recenti modelli di IA di frontiera si trovano nelle zone verde e gialla, senza superare le linee rosse. Nello specifico, nessun modello valutato supera la linea gialla per i rischi di offensiva informatica o sviluppo autonomo incontrollato di IA R\&D. Per l'autoreplicazione e l'inganno strategico e la pianificazione, la maggior parte dei modelli rimane nella zona verde, ad eccezione di alcuni modelli di ragionamento nella zona gialla. Nella persuasione e manipolazione, la maggior parte dei modelli si trova nella zona gialla a causa della loro efficace influenza sugli esseri umani. Per i rischi biologici e chimici, non possiamo escludere la possibilità che la maggior parte dei modelli risieda nella zona gialla, sebbene siano necessari una modellizzazione dettagliata delle minacce e una valutazione approfondita per avanzare ulteriori affermazioni. Questo lavoro riflette la nostra attuale comprensione dei rischi di frontiera dell'IA e sollecita un'azione collettiva per mitigare queste sfide.
AI Video Chat emerge come un nuovo paradigma per la Comunicazione in Tempo Reale (RTC), in cui uno degli interlocutori non è un essere umano, ma un Modello Linguistico Multimodale di Grande Scala (MLLM). Ciò rende l'interazione tra esseri umani e IA più intuitiva, come se si stesse chattando faccia a faccia con una persona reale. Tuttavia, questo pone sfide significative in termini di latenza, poiché l'inferenza dell'MLLM occupa la maggior parte del tempo di risposta, lasciando pochissimo tempo per lo streaming video. A causa dell'incertezza e dell'instabilità della rete, la latenza di trasmissione diventa un collo di bottiglia critico che impedisce all'IA di comportarsi come una persona reale. Per affrontare questo problema, proponiamo Artic, un framework di Comunicazione in Tempo Reale orientato all'IA, che esplora il cambiamento dei requisiti di rete da "umani che guardano video" a "IA che comprende video". Per ridurre drasticamente il bitrate mantenendo l'accuratezza dell'MLLM, proponiamo uno Streaming Video Consapevole del Contesto che riconosce l'importanza di ciascuna regione video per la chat e assegna il bitrate quasi esclusivamente alle regioni importanti per la chat. Per evitare la ritrasmissione dei pacchetti, proponiamo una Frequenza dei Fotogrammi Adattiva Resiliente alle Perdite che sfrutta i fotogrammi precedenti per sostituire quelli persi/ritardati, evitando sprechi di bitrate. Per valutare l'impatto della qualità dello streaming video sull'accuratezza dell'MLLM, abbiamo creato il primo benchmark, denominato Degraded Video Understanding Benchmark (DeViBench). Infine, discutiamo alcune questioni aperte e soluzioni in corso per l'AI Video Chat.
Nella Segmentazione Semantica con Adattamento di Dominio Non Supervisionato (UDA-SS), un modello viene addestrato su dati etichettati di un dominio sorgente (ad esempio, immagini sintetiche) e adattato a un dominio target non etichettato (ad esempio, immagini del mondo reale) senza accesso alle annotazioni del target. I metodi UDA-SS esistenti spesso faticano a bilanciare i dettagli locali di fine granularità con le informazioni contestuali globali, portando a errori di segmentazione nelle regioni complesse. Per affrontare questo problema, introduciamo il modulo Adaptive Feature Refinement (AFR), che migliora l'accuratezza della segmentazione raffinando le caratteristiche ad alta risoluzione utilizzando prior semantiche dai logit a bassa risoluzione. AFR integra anche componenti ad alta frequenza, che catturano strutture di fine granularità e forniscono informazioni cruciali sui contorni, migliorando la delineazione degli oggetti. Inoltre, AFR bilancia in modo adattivo le informazioni locali e globali attraverso un'attenzione guidata dall'incertezza, riducendo le classificazioni errate. Il suo design leggero consente un'integrazione senza soluzione di continuità nei metodi UDA basati su HRDA, portando a prestazioni di segmentazione all'avanguardia. Il nostro approccio migliora i metodi UDA-SS esistenti di 1,05% mIoU su GTA V --> Cityscapes e 1,04% mIoU su Synthia-->Cityscapes. L'implementazione del nostro framework è disponibile all'indirizzo: https://github.com/Masrur02/AFRDA