Articoli di ricerca IA selezionati quotidianamente con traduzioni
Rendiamo open-source MiMo-VL-7B-SFT e MiMo-VL-7B-RL, due potenti modelli visione-linguaggio che offrono prestazioni all'avanguardia sia nella comprensione visiva generale che nel ragionamento multimodale. MiMo-VL-7B-RL supera Qwen2.5-VL-7B in 35 su 40 task valutati e ottiene un punteggio di 59.4 su OlympiadBench, superando modelli con fino a 78 miliardi di parametri. Per le applicazioni di grounding delle interfacce grafiche, stabilisce un nuovo standard con 56.1 su OSWorld-G, superando persino modelli specializzati come UI-TARS. Il nostro addestramento combina una pre-training in quattro fasi (2.4 trilioni di token) con Mixed On-policy Reinforcement Learning (MORL) che integra segnali di reward diversificati. Identifichiamo l'importanza di incorporare dati di ragionamento di alta qualità con lunghe catene di pensiero (Chain-of-Thought) nelle fasi di pre-training, e i vantaggi del reinforcement learning misto nonostante le sfide nell'ottimizzazione simultanea in più domini. Contribuiamo inoltre con una suite di valutazione completa che copre oltre 50 task per promuovere la riproducibilità e far avanzare il campo. I checkpoint del modello e la suite completa di valutazione sono disponibili su https://github.com/XiaomiMiMo/MiMo-VL.
Come parte di un agente incarnato, i Large Language Models (LLM) sono tipicamente utilizzati per la pianificazione del comportamento in base alle istruzioni in linguaggio naturale fornite dall'utente. Tuttavia, gestire istruzioni ambigue in ambienti del mondo reale rimane una sfida per gli LLM. Sono stati proposti vari metodi per il rilevamento dell'ambiguità nei compiti. Tuttavia, è difficile confrontarli perché vengono testati su diversi dataset e non esiste un benchmark universale. Per questo motivo, proponiamo AmbiK (Ambiguous Tasks in Kitchen Environment), un dataset completamente testuale di istruzioni ambigue rivolte a un robot in un ambiente cucina. AmbiK è stato raccolto con l'assistenza di LLM ed è validato da esseri umani. Comprende 1000 coppie di compiti ambigui e le loro controparti non ambigue, categorizzate per tipo di ambiguità (Preferenze Umane, Conoscenza di Senso Comune, Sicurezza), con descrizioni dell'ambiente, domande e risposte chiarificatrici, intenzioni dell'utente e piani di compito, per un totale di 2000 compiti. Speriamo che AmbiK consenta ai ricercatori di effettuare un confronto unificato dei metodi di rilevamento dell'ambiguità. AmbiK è disponibile all'indirizzo https://github.com/cog-model/AmbiK-dataset.
Ispirati dalle straordinarie capacità di ragionamento di Deepseek-R1 in compiti testuali complessi, molti lavori tentano di incentivare capacità simili nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) applicando direttamente il reinforcement learning (RL). Tuttavia, questi sforzi continuano a incontrare difficoltà nell'attivare un ragionamento complesso. In questo articolo, piuttosto che esaminare il RL multimodale in isolamento, approfondiamo le pipeline di addestramento attuali e identifichiamo tre fenomeni cruciali: 1) Un'inizializzazione efficace a freddo è fondamentale per migliorare il ragionamento degli MLLM. Curiosamente, scopriamo che inizializzare con dati testuali selezionati con cura può portare a prestazioni che superano molti recenti modelli di ragionamento multimodale, anche prima del RL multimodale. 2) Il GRPO standard applicato al RL multimodale soffre di stagnazione del gradiente, che degrada la stabilità e le prestazioni dell'addestramento. 3) Un successivo addestramento RL solo su testo, dopo la fase di RL multimodale, migliora ulteriormente il ragionamento multimodale. Questo approccio di addestramento a fasi bilancia efficacemente lo sviluppo della percezione e del ragionamento cognitivo. Incorporando le suddette intuizioni e affrontando i problemi del RL multimodale, introduciamo ReVisual-R1, raggiungendo un nuovo stato dell'arte tra gli MLLM open-source da 7B su benchmark impegnativi come MathVerse, MathVision, WeMath, LogicVista, DynaMath, e le sfide AIME2024 e AIME2025.
I modelli di ragionamento hanno compiuto rapidi progressi su molti benchmark che coinvolgono matematica, codice e scienza. Tuttavia, rimangono molte domande aperte sulle migliori ricette di addestramento per il ragionamento, poiché i modelli all'avanguardia spesso si basano su dataset proprietari con poche o nessuna informazione pubblica disponibile. Per affrontare questo problema, l'obiettivo del progetto OpenThoughts è creare dataset open-source per l'addestramento di modelli di ragionamento. Dopo esplorazioni iniziali, il nostro dataset OpenThoughts2-1M ha portato a OpenThinker2-32B, il primo modello addestrato su dati di ragionamento pubblici a eguagliare DeepSeek-R1-Distill-32B su benchmark standard di ragionamento come AIME e LiveCodeBench. Successivamente, abbiamo migliorato ulteriormente il nostro dataset investigando sistematicamente ogni fase della nostra pipeline di generazione dei dati con oltre 1.000 esperimenti controllati, che hanno portato a OpenThoughts3. Scalando la pipeline a 1,2 milioni di esempi e utilizzando QwQ-32B come insegnante, abbiamo ottenuto il nostro modello OpenThinker3-7B, che raggiunge risultati all'avanguardia: 53% su AIME 2025, 51% su LiveCodeBench 06/24-01/25 e 54% su GPQA Diamond. Tutti i nostri dataset e modelli sono disponibili su https://openthoughts.ai.
I framework esistenti per valutare i modelli linguistici a contesto lungo (LCLM) possono essere ampiamente categorizzati in task reali e sintetici. Nonostante la loro utilità, entrambi gli approcci presentano alcune limitazioni intrinseche. I task reali sono troppo complessi da interpretare o caratterizzare e sono suscettibili a contaminazione dei dati. Al contrario, i task sintetici spesso adottano il formato "ago nel pagliaio" (NIAH), in cui la mancanza di coerenza tra l'"ago" e il "pagliaio" compromette la loro validità come proxy per applicazioni realistiche. In risposta a queste sfide, proponiamo che un framework ideale per la valutazione a contesto lungo dovrebbe essere caratterizzato da tre caratteristiche essenziali: contesto senza soluzione di continuità, impostazione controllabile e valutazione solida. Questo studio introduce LongBioBench, un nuovo benchmark che utilizza biografie generate artificialmente come ambiente controllato per valutare gli LCLM nelle dimensioni di comprensione, ragionamento e affidabilità. La nostra valutazione sperimentale, che include un totale di 18 LCLM, dimostra che la maggior parte dei modelli presenta ancora carenze nella comprensione semantica e nel ragionamento elementare sui risultati recuperati e sono meno affidabili all'aumentare della lunghezza del contesto. La nostra ulteriore analisi indica che alcune scelte progettuali impiegate dai benchmark sintetici esistenti, come la non-coerenza contestuale, gli aghi numerici e l'assenza di distrattori, li rendono vulnerabili nel testare le capacità a contesto lungo dei modelli. Inoltre, riveliamo anche che il pretraining continuo a contesto lungo regola principalmente l'embedding RoPE per adattarsi alle lunghezze del contesto esteso. In sintesi, rispetto ai precedenti benchmark sintetici, LongBioBench raggiunge un migliore compromesso tra il rispecchiare task linguistici autentici e il mantenere la controllabilità, ed è altamente interpretabile e configurabile.
La generazione di testi lunghi rimane una sfida significativa per i grandi modelli linguistici (LLM), in particolare nel mantenere la coerenza, garantire la consistenza logica e preservare la qualità del testo all'aumentare della lunghezza della sequenza. Per affrontare queste limitazioni, proponiamo SuperWriter-Agent, un framework basato su agenti progettato per migliorare la qualità e la consistenza della generazione di testi lunghi. SuperWriter-Agent introduce esplicite fasi strutturate di pianificazione e raffinamento nel processo di generazione, guidando il modello a seguire un processo più deliberato e cognitivamente fondato, simile a quello di uno scrittore professionista. Basandoci su questo framework, costruiamo un dataset di fine-tuning supervisionato per addestrare un SuperWriter-LM da 7B. Sviluppiamo inoltre una procedura gerarchica di Ottimizzazione Diretta delle Preferenze (DPO) che utilizza la Ricerca ad Albero Monte Carlo (MCTS) per propagare le valutazioni finali della qualità e ottimizzare di conseguenza ogni fase di generazione. I risultati empirici su diversi benchmark dimostrano che SuperWriter-LM raggiunge prestazioni all'avanguardia, superando anche modelli di base di scala maggiore sia nelle valutazioni automatiche che in quelle umane. Inoltre, studi di ablazione completi dimostrano l'efficacia della DPO gerarchica e sottolineano il valore dell'incorporazione di passaggi di pensiero strutturato per migliorare la qualità della generazione di testi lunghi.
La struttura sequenziale dei video rappresenta una sfida per la capacità dei modelli linguistici multimodali di grandi dimensioni (MLLMs) di individuare prove multi-frame e condurre ragionamenti multimodali. Tuttavia, i benchmark video esistenti si concentrano principalmente su compiti di comprensione, che richiedono ai modelli solo di abbinare i frame menzionati nella domanda (di seguito denominati "frame della domanda") e percepire pochi frame adiacenti. Per colmare questa lacuna, proponiamo MMR-V: un benchmark per il ragionamento profondo multimodale nei video. Il benchmark è caratterizzato dalle seguenti caratteristiche. (1) Ragionamento multi-frame a lungo raggio: i modelli devono dedurre e analizzare frame di prova che possono essere lontani dal frame della domanda. (2) Oltre la percezione: le domande non possono essere risolte solo attraverso la percezione diretta, ma richiedono un ragionamento su informazioni nascoste. (3) Affidabilità: tutti i compiti sono annotati manualmente, facendo riferimento a un'ampia comprensione degli utenti del mondo reale per allinearsi alle percezioni comuni. (4) Confondibilità: strategie di annotazione dei distrattori progettate con cura per ridurre le scorciatoie dei modelli. MMR-V è composto da 317 video e 1.257 compiti. I nostri esperimenti rivelano che i modelli attuali continuano a lottare con il ragionamento multimodale; anche il modello con le migliori prestazioni, o4-mini, raggiunge solo il 52,5% di accuratezza. Inoltre, le attuali strategie di potenziamento del ragionamento (Chain-of-Thought e scalabilità del calcolo al momento del test) portano a guadagni limitati. Un'ulteriore analisi indica che il CoT richiesto per il ragionamento multimodale differisce da quello nel ragionamento testuale, il che spiega in parte i limitati guadagni di prestazioni. Speriamo che MMR-V possa ispirare ulteriori ricerche per migliorare le capacità di ragionamento multimodale.
Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) dipende da una valutazione affidabile. Tuttavia, la maggior parte delle valutazioni attuali si basa su benchmark pubblici, che sono soggetti a problemi di contaminazione dei dati che compromettono significativamente l'equità. Ricerche precedenti si sono concentrate sulla costruzione di benchmark dinamici per affrontare la contaminazione. Tuttavia, la continua creazione di nuovi benchmark è costosa e ciclica. In questo lavoro, miriamo a contrastare la contaminazione analizzando i meccanismi stessi dei modelli contaminati. Attraverso i nostri esperimenti, scopriamo che la sovrastima dei modelli contaminati è probabilmente dovuta ai parametri che acquisiscono soluzioni di scorciatoia durante l'addestramento. Proponiamo ulteriormente un metodo innovativo per identificare i neuroni di scorciatoia attraverso analisi comparative e causali. Sulla base di ciò, introduciamo un metodo di valutazione chiamato "shortcut neuron patching" per sopprimere i neuroni di scorciatoia. Gli esperimenti convalidano l'efficacia del nostro approccio nel mitigare la contaminazione. Inoltre, i nostri risultati di valutazione mostrano una forte correlazione lineare con MixEval, un benchmark affidabile rilasciato di recente, raggiungendo un coefficiente di Spearman (rho) superiore a 0,95. Questa elevata correlazione indica che il nostro metodo rivela fedelmente le vere capacità dei modelli ed è affidabile. Condividiamo ulteriori esperimenti per dimostrare la generalizzabilità del nostro metodo su vari benchmark e impostazioni di iperparametri. Codice: https://github.com/GaryStack/Trustworthy-Evaluation
Le applicazioni del mondo reale come i videogiochi e la realtà virtuale richiedono spesso la capacità di modellare scene 3D che gli utenti possano esplorare lungo traiettorie personalizzate della telecamera. Nonostante i significativi progressi nella generazione di oggetti 3D a partire da testo o immagini, la creazione di scene 3D esplorabili, coerenti su lunghe distanze e tridimensionalmente consistenti rimane un problema complesso e impegnativo. In questo lavoro, presentiamo Voyager, un innovativo framework di diffusione video che genera sequenze di nuvole di punti 3D coerenti con il mondo a partire da una singola immagine e con un percorso della telecamera definito dall'utente. A differenza degli approcci esistenti, Voyager raggiunge la generazione e la ricostruzione di scene end-to-end con una coerenza intrinseca tra i fotogrammi, eliminando la necessità di pipeline di ricostruzione 3D (ad esempio, structure-from-motion o stereo multi-vista). Il nostro metodo integra tre componenti chiave: 1) Diffusione Video Coerente con il Mondo: un'architettura unificata che genera congiuntamente sequenze video allineate di RGB e profondità, condizionate sull'osservazione del mondo esistente per garantire coerenza globale; 2) Esplorazione del Mondo su Lunghe Distanze: una cache del mondo efficiente con eliminazione selettiva dei punti e un'inferenza auto-regressiva con campionamento video fluido per l'estensione iterativa della scena con coerenza contestuale; e 3) Motore di Dati Scalabile: una pipeline di ricostruzione video che automatizza la stima della posa della telecamera e la previsione della profondità metrica per video arbitrari, consentendo la cura di dati di addestramento su larga scala e diversificati senza annotazioni 3D manuali. Nel complesso, questi design portano a un chiaro miglioramento rispetto ai metodi esistenti in termini di qualità visiva e accuratezza geometrica, con applicazioni versatili.
I grandi modelli linguistici (LLM) spesso incontrano difficoltà nelle attività di visualizzazione come la creazione di diagrammi e grafici, dove il successo dipende sia dalla correttezza del codice che dalla semantica visiva. I dataset esistenti per l'ottimizzazione delle istruzioni mancano di supervisione basata sull'esecuzione e offrono un supporto limitato per la correzione iterativa del codice, portando a una generazione di grafici fragile e inaffidabile. Presentiamo VisCode-200K, un dataset su larga scala per l'ottimizzazione delle istruzioni basato su Python per la visualizzazione e l'autocorrezione. Contiene oltre 200K esempi provenienti da due fonti: (1) codice di plotting validato da repository open-source, associato a istruzioni in linguaggio naturale e grafici renderizzati; e (2) 45K dialoghi di correzione multi-turn da Code-Feedback, che consentono ai modelli di revisionare il codice difettoso utilizzando feedback in tempo reale. Abbiamo ottimizzato Qwen2.5-Coder-Instruct su VisCode-200K per creare VisCoder e lo abbiamo valutato su PandasPlotBench. VisCoder supera significativamente i forti baseline open-source e si avvicina alle prestazioni di modelli proprietari come GPT-4o-mini. Abbiamo inoltre adottato un protocollo di valutazione self-debug per valutare la riparazione iterativa, dimostrando i vantaggi dell'apprendimento guidato dal feedback per la generazione di codice eseguibile e visivamente accurato.
Sebbene i modelli di diffusione abbiano ottenuto un notevole successo nella generazione di immagini da testo, incontrano significative difficoltà nell'editing di immagini guidato da istruzioni. La nostra ricerca evidenzia una sfida chiave: questi modelli faticano particolarmente con modifiche strutturalmente inconsistenti che comportano sostanziali cambiamenti di layout. Per colmare questa lacuna, introduciamo Image Editing As Programs (IEAP), un framework unificato per l'editing di immagini basato sull'architettura Diffusion Transformer (DiT). Al suo nucleo, IEAP affronta l'editing guidato da istruzioni attraverso una prospettiva riduzionista, scomponendo istruzioni complesse di editing in sequenze di operazioni atomiche. Ciascuna operazione è implementata tramite un adattatore leggero che condivide lo stesso backbone DiT ed è specializzato per un tipo specifico di modifica. Programmato da un agente basato su un modello visione-linguaggio (VLM), queste operazioni collaborano per supportare trasformazioni arbitrarie e strutturalmente inconsistenti. Modularizzando e sequenziando le modifiche in questo modo, IEAP generalizza in modo robusto su un'ampia gamma di task di editing, da semplici aggiustamenti a sostanziali cambiamenti strutturali. Esperimenti estensivi dimostrano che IEAP supera significativamente i metodi all'avanguardia su benchmark standard in vari scenari di editing. In queste valutazioni, il nostro framework offre una precisione e una fedeltà semantica superiori, specialmente per istruzioni complesse e multi-step. I codici sono disponibili all'indirizzo https://github.com/YujiaHu1109/IEAP.
Sebbene i modelli basati sulla diffusione siano in grado di generare sequenze video di alta qualità e ad alta risoluzione a partire da input testuali o immagini, mancano di un'integrazione esplicita di indizi geometrici nel controllo dell'illuminazione della scena e dell'aspetto visivo tra i fotogrammi. Per affrontare questa limitazione, proponiamo IllumiCraft, un framework di diffusione end-to-end che accetta tre input complementari: (1) mappe video ad alto intervallo dinamico (HDR) per un controllo dettagliato dell'illuminazione; (2) fotogrammi sinteticamente riilluminati con cambiamenti casuali dell'illuminazione (facoltativamente abbinati a un'immagine di riferimento statica dello sfondo) per fornire indizi sull'aspetto; e (3) tracce di punti 3D che catturano informazioni precise sulla geometria 3D. Integrando gli indizi di illuminazione, aspetto e geometria all'interno di un'architettura di diffusione unificata, IllumiCraft genera video temporalmente coerenti allineati con prompt definiti dall'utente. Supporta la riilluminazione video condizionata dallo sfondo e dal testo e offre una fedeltà migliore rispetto ai metodi esistenti di generazione video controllabile. Pagina del progetto: https://yuanze-lin.me/IllumiCraft_page
Abbiamo osservato che potenti modelli linguistici (LLM) come Qwen-Math, MiMo e Phi-4 possiedono un immenso potenziale di ragionamento ereditato dalla fase di pre-addestramento. Con l'apprendimento per rinforzo (RL), questi modelli possono migliorare drasticamente nelle attività di ragionamento. Studi recenti hanno dimostrato che anche l'RL su un singolo problema può liberare le capacità di ragionamento di questi modelli. Tuttavia, l'RL non è solo costoso ma anche instabile. Anche l'RL one-shot richiede centinaia di ore di GPU. Ciò solleva una domanda cruciale: esiste un modo più efficiente per liberare il potenziale di ragionamento di questi potenti LLM di base? In questo lavoro, dimostriamo che il Fine-Tuning con Critica (CFT) su un solo problema può liberare efficacemente il potenziale di ragionamento degli LLM. Il nostro metodo costruisce dati di critica raccogliendo soluzioni generate dal modello per un singolo problema e utilizzando LLM insegnanti per fornire critiche dettagliate. Abbiamo eseguito il fine-tuning dei modelli delle famiglie Qwen e Llama, con parametri che vanno da 1,5B a 14B, sui dati CFT e abbiamo osservato miglioramenti significativi in diverse attività di ragionamento. Ad esempio, con solo 5 ore di addestramento su GPU, Qwen-Math-7B-CFT mostra un miglioramento medio del 15% su sei benchmark matematici e del 16% su tre benchmark di ragionamento logico. Questi risultati sono comparabili o addirittura superiori a quelli ottenuti con l'RL, utilizzando 20 volte meno risorse computazionali. Studi di ablazione rivelano la robustezza del CFT one-shot su diversi problemi di prompt. Questi risultati evidenziano il CFT one-shot come un approccio semplice, generale e computazionalmente efficiente per liberare le capacità di ragionamento dei moderni LLM.
Presentiamo Psi-Sampler, un framework basato su SMC che incorpora un campionamento iniziale di particelle basato su pCNL per un allineamento efficace delle ricompense al momento dell'inferenza con un modello generativo basato su punteggi. L'allineamento delle ricompense al momento dell'inferenza con modelli generativi basati su punteggi ha recentemente guadagnato un'attenzione significativa, seguendo un più ampio cambiamento di paradigma dall'ottimizzazione pre-training a quella post-training. Al centro di questa tendenza c'è l'applicazione del Sequential Monte Carlo (SMC) al processo di denoising. Tuttavia, i metodi esistenti inizializzano tipicamente le particelle da una distribuzione gaussiana prior, che cattura in modo inadeguato le regioni rilevanti per la ricompensa e risulta in una ridotta efficienza di campionamento. Dimostriamo che l'inizializzazione dalla posterior consapevole della ricompansa migliora significativamente le prestazioni di allineamento. Per abilitare il campionamento della posterior in spazi latenti ad alta dimensionalità, introduciamo l'algoritmo preconditioned Crank-Nicolson Langevin (pCNL), che combina proposte robuste alla dimensionalità con dinamiche informate dal gradiente. Questo approccio consente un campionamento efficiente e scalabile della posterior e migliora costantemente le prestazioni in vari compiti di allineamento delle ricompense, tra cui la generazione da layout a immagine, la generazione consapevole della quantità e la generazione basata su preferenze estetiche, come dimostrato nei nostri esperimenti.
I Large Language Model (LLM) e i Multimodal LLM hanno dimostrato capacità promettenti per l'elaborazione di SVG, ma i benchmark esistenti soffrono di una copertura limitata del mondo reale, mancanza di stratificazione della complessità e paradigmi di valutazione frammentati. Introduciamo SVGenius, un benchmark completo che comprende 2.377 query attraverso tre dimensioni progressive: comprensione, modifica e generazione. Costruito su dati del mondo reale provenienti da 24 domini applicativi con una stratificazione sistematica della complessità, SVGenius valuta i modelli attraverso 8 categorie di task e 18 metriche. Abbiamo valutato 22 modelli principali che coprono diverse scale, architetture, paradigmi di addestramento e livelli di accessibilità. La nostra analisi rivela che, sebbene i modelli proprietari superino significativamente le controparti open-source, tutti i modelli mostrano un degrado sistematico delle prestazioni con l'aumentare della complessità, indicando limitazioni fondamentali negli approcci attuali; tuttavia, l'addestramento potenziato dal ragionamento si dimostra più efficace del semplice scaling per superare queste limitazioni, sebbene il trasferimento di stile rimanga la capacità più impegnativa per tutti i tipi di modelli. SVGenius stabilisce il primo framework di valutazione sistematica per l'elaborazione di SVG, fornendo intuizioni cruciali per lo sviluppo di modelli di grafica vettoriale più capaci e per l'avanzamento delle applicazioni di progettazione grafica automatizzata. Appendice e materiali supplementari (inclusi tutti i dati e il codice) sono disponibili all'indirizzo https://zju-real.github.io/SVGenius.
In questo articolo presentiamo TalkingMachines -- un framework efficiente che trasforma modelli pre-addestrati di generazione video in animatori di personaggi guidati da audio in tempo reale. TalkingMachines abilita esperienze conversazionali naturali integrando un modello linguistico di grandi dimensioni (LLM) audio con il nostro modello di base per la generazione video. I nostri principali contributi includono: (1) Adattiamo un modello DiT (Diffusion Transformer) pre-addestrato all'avanguardia da immagine-a-video in un modello di generazione di avatar guidato da audio con 18 miliardi di parametri; (2) Abilitiamo lo streaming video infinito senza accumulo di errori attraverso la distillazione asimmetrica della conoscenza da un modello insegnante bidirezionale a un modello studente causale sparso e autoregressivo; (3) Progettiamo una pipeline di inferenza ad alta produttività e bassa latenza che incorpora diverse ottimizzazioni ingegneristiche chiave come: (a) la disaggregazione del DiT e del decodificatore VAE su dispositivi separati, (b) l'efficiente sovrapposizione della comunicazione e del calcolo inter-dispositivo utilizzando CUDA streams, (c) l'eliminazione delle ricomputazioni ridondanti per massimizzare la produttività nella generazione dei frame. Si prega di vedere i video dimostrativi qui - https://aaxwaz.github.io/TalkingMachines/
Presentiamo LayerFlow, una soluzione unificata per la generazione di video consapevole dei livelli. Dati prompt specifici per ogni livello, LayerFlow genera video per il primo piano trasparente, lo sfondo pulito e la scena composita. Supporta inoltre varianti versatili come la scomposizione di un video composito o la generazione dello sfondo per un dato primo piano e viceversa. Partendo da un trasformatore di diffusione testo-video, organizziamo i video per i diversi livelli come sottoclip e sfruttiamo gli embedding di livello per distinguere ciascun clip e i corrispondenti prompt specifici per livello. In questo modo, supportiamo senza soluzione di continuità le suddette varianti in un unico framework. A causa della mancanza di video di addestramento di alta qualità con annotazioni a livello, progettiamo una strategia di addestramento multi-stadio per adattare immagini statiche con annotazioni di livello di alta qualità. Nello specifico, addestriamo prima il modello con dati video di bassa qualità. Poi, ottimizziamo un LoRA di movimento per rendere il modello compatibile con fotogrammi statici. Successivamente, addestriamo il LoRA di contenuto su una miscela di dati immagine con immagini stratificate di alta qualità insieme a dati video copia-incollati. Durante l'inferenza, rimuoviamo il LoRA di movimento, generando così video fluidi con i livelli desiderati.
L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è stata recentemente applicata come tecnica post-addestramento per modelli di diffusione testo-video. Per ottenere i dati di addestramento, agli annotatori viene chiesto di esprimere preferenze tra due video generati da rumore indipendente. Tuttavia, questo approccio impedisce confronti granulari e sottolineiamo che tende a favorire clip con poco movimento, poiché spesso contengono meno artefatti visivi. In questo lavoro, introduciamo DenseDPO, un metodo che affronta queste limitazioni attraverso tre contributi principali. Innanzitutto, creiamo ogni coppia di video per DPO rimuovendo il rumore da copie corrotte di un video di riferimento. Ciò produce coppie allineate con strutture di movimento simili ma differenze nei dettagli locali, neutralizzando efficacemente il bias legato al movimento. In secondo luogo, sfruttiamo l'allineamento temporale risultante per etichettare le preferenze su segmenti brevi anziché su interi clip, ottenendo un segnale di apprendimento più denso e preciso. Con solo un terzo dei dati etichettati, DenseDPO migliora notevolmente la generazione del movimento rispetto alla DPO standard, mantenendo livelli comparabili di allineamento al testo, qualità visiva e coerenza temporale. Infine, dimostriamo che DenseDPO consente l'annotazione automatica delle preferenze utilizzando modelli linguistico-visivi (Vision Language Models, VLMs) preesistenti: GPT predice accuratamente le preferenze a livello di segmento in modo simile a modelli di ricompensa video addestrati specificamente per il compito, e DenseDPO addestrato su queste etichette raggiunge prestazioni vicine a quelle ottenute con etichette umane.
Recentemente, i Large Language Models (LLM) hanno compiuto progressi significativi in domini legati al QI che richiedono un pensiero attento, come la matematica e la programmazione. Tuttavia, potenziare lo sviluppo cognitivo degli LLM in ambiti sociali, in particolare da una prospettiva post-addestramento, rimane ancora poco esplorato. Riconoscendo che il mondo sociale segue una linea temporale distinta e richiede una combinazione più ricca di modalità cognitive (dalle reazioni intuitive (Sistema 1) e il pensiero superficiale al pensiero deliberato (Sistema 2)) rispetto alla matematica, che si basa principalmente sulla cognizione del Sistema 2 (ragionamento attento e passo-passo), introduciamo il Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) per migliorare l'intelligenza sociale degli LLM. Nei nostri esperimenti, esploriamo sistematicamente il miglioramento dell'intelligenza sociale degli LLM e validiamo l'efficacia del metodo TimeHC-RL, attraverso cinque paradigmi post-addestramento e due paradigmi di intervento in fase di test su otto dataset con modelli di dati diversificati. I risultati sperimentali rivelano la superiorità del nostro metodo TimeHC-RL rispetto al metodo System 2 RL ampiamente adottato. Esso fornisce ali al modello backbone da 7B, consentendogli di rivaleggiare con le prestazioni di modelli avanzati come DeepSeek-R1 e OpenAI-O3. Inoltre, l'esplorazione sistematica da prospettive post-addestramento e di intervento in fase di test per migliorare l'intelligenza sociale degli LLM ha portato alla luce diverse intuizioni preziose.
La generazione efficiente di sequenze lunghe rappresenta una sfida cruciale per i Modelli Linguistici di Grande Dimensione. Sebbene i recenti metodi di decodifica sparsa migliorino l'efficienza, essi soffrono di disallineamento della cache KV, dove gli errori di approssimazione si accumulano e degradano la qualità della generazione. In questo lavoro, proponiamo l'Attenzione Sparsa Rettificata (ReSA), un metodo semplice ma efficace che combina l'attenzione sparsa a blocchi con una rettifica densa periodica. Aggiornando la cache KV a intervalli fissi mediante un passaggio in avanti denso, ReSA limita l'accumulo di errori e preserva l'allineamento con la distribuzione di pre-addestramento. Esperimenti su ragionamento matematico, modellazione del linguaggio e task di retrieval dimostrano che ReSA raggiunge una qualità di generazione quasi senza perdite con un'efficienza significativamente migliorata. In particolare, ReSA offre un'accelerazione end-to-end fino a 2,42 volte durante la decodifica con lunghezza di sequenza di 256K, rendendola una soluzione pratica per l'inferenza scalabile in contesti lunghi. Il codice è disponibile all'indirizzo https://aka.ms/ReSA-LM.
I modelli linguistici di grandi dimensioni (LLM) sono spesso lodati per la loro capacità di ottenere prestazioni quasi umane in un'ampia gamma di compiti e apprezzati per la loro abilità di sostenere una conversazione generale. Tuttavia, l'ascesa dei sistemi di intelligenza artificiale agentica sta introducendo una moltitudine di applicazioni in cui i modelli linguistici eseguono un numero limitato di compiti specializzati in modo ripetitivo e con poche variazioni. Qui sosteniamo la posizione secondo cui i modelli linguistici di piccole dimensioni (SLM) sono sufficientemente potenti, intrinsecamente più adatti e necessariamente più economici per molte invocazioni nei sistemi agentici, rappresentando quindi il futuro dell'IA agentica. La nostra argomentazione si basa sulle attuali capacità dimostrate dagli SLM, sulle architetture comuni dei sistemi agentici e sull'economia del dispiegamento dei modelli linguistici. Inoltre, sosteniamo che, in situazioni in cui le capacità conversazionali generali sono essenziali, i sistemi agentici eterogenei (ovvero agenti che invocano più modelli diversi) rappresentano la scelta naturale. Discutiamo le potenziali barriere all'adozione degli SLM nei sistemi agentici e delineiamo un algoritmo generale per la conversione da LLM a SLM negli agenti. La nostra posizione, formulata come una dichiarazione di valore, evidenzia l'importanza dell'impatto operativo ed economico che anche un parziale passaggio dagli LLM agli SLM avrà sull'industria degli agenti IA. Miriamo a stimolare la discussione sull'uso efficace delle risorse di IA e speriamo di contribuire agli sforzi per ridurre i costi dell'IA odierna. Invitando sia contributi che critiche alla nostra posizione, ci impegniamo a pubblicare tutta la corrispondenza su https://research.nvidia.com/labs/lpr/slm-agents.
I modelli linguistici di grandi dimensioni (LLM) come agenti stanno rivoluzionando l'industria dei videogiochi, in particolare con personaggi di gioco più intelligenti e preferibili per gli esseri umani. Tuttavia, i benchmark esistenti per i giochi non soddisfano le esigenze pratiche: mancano di valutazioni delle diverse capacità degli LLM attraverso vari generi di giochi, studi sui moduli agentici cruciali per gameplay complessi e dataset di fine-tuning per allineare gli LLM pre-addestrati in agenti di gioco. Per colmare queste lacune, presentiamo \benchname{}, un benchmark fondamentale progettato per addestrare e valutare agenti LLM attraverso una varietà di videogiochi del mondo reale. A differenza dei benchmark esistenti, Orak include 12 videogiochi popolari che coprono tutti i principali generi, consentendo studi completi sulle capacità degli LLM e sui moduli agentici essenziali per scenari di gioco intricati. Per supportare una valutazione coerente degli LLM, introduciamo un'interfaccia plug-and-play basata sul Protocollo di Contesto del Modello (MCP) che consente agli LLM di connettersi senza soluzione di continuità con i giochi e manipolare i moduli agentici. Inoltre, proponiamo un dataset di fine-tuning, composto da traiettorie di gameplay degli LLM attraverso diversi generi di giochi. Orak offre un framework di valutazione completo, che include classifiche generali dei punteggi di gioco, arene di battaglia per LLM e analisi approfondite dello stato di input visivo, delle strategie agentiche e degli effetti di fine-tuning, stabilendo una base per la costruzione di agenti di gioco generici. Il codice è disponibile all'indirizzo https://github.com/krafton-ai/Orak.
I recenti progressi nell'intelligenza artificiale generativa hanno trasformato significativamente il campo della sintesi vocale da testo con didascalie di stile (CapTTS). Tuttavia, l'adattamento del CapTTS alle applicazioni del mondo reale rimane una sfida a causa della mancanza di dataset standardizzati e completi e della ricerca limitata sui task downstream basati su CapTTS. Per colmare queste lacune, introduciamo CapSpeech, un nuovo benchmark progettato per una serie di task correlati al CapTTS, tra cui la sintesi vocale da testo con didascalie di stile e eventi sonori (CapTTS-SE), la sintesi vocale con didascalie di accento (AccCapTTS), la sintesi vocale con didascalie di emozione (EmoCapTTS) e la sintesi vocale per agenti di chat (AgentTTS). CapSpeech comprende oltre 10 milioni di coppie audio-didascalia annotate automaticamente e quasi 0,36 milioni di coppie audio-didascalia annotate manualmente. Inoltre, introduciamo due nuovi dataset raccolti e registrati da un doppiatore professionista e ingegneri audio esperti, specificamente per i task AgentTTS e CapTTS-SE. Accanto ai dataset, conduciamo esperimenti completi utilizzando sia modelli autoregressivi che non autoregressivi su CapSpeech. I nostri risultati dimostrano una sintesi vocale ad alta fedeltà e altamente intelligibile in un'ampia gamma di stili di parlato. Per quanto ne sappiamo, CapSpeech è il più grande dataset disponibile che offre annotazioni complete per i task correlati al CapTTS. Gli esperimenti e i risultati forniscono inoltre preziose intuizioni sulle sfide nello sviluppo dei sistemi CapTTS.
Studi recenti dimostrano che i grandi modelli linguistici (LLM) manifestano un bias di auto-preferenza quando agiscono come giudici, tendendo cioè a favorire le proprie risposte rispetto a quelle generate da altri modelli. I metodi esistenti misurano tipicamente questo bias calcolando la differenza tra i punteggi che un modello giudice assegna alle proprie risposte e quelli che assegna alle risposte di altri modelli. Tuttavia, questo approccio confonde il bias di auto-preferenza con la qualità delle risposte, poiché risposte di qualità superiore provenienti dal modello giudice potrebbero comunque portare a differenze positive nei punteggi, anche in assenza di bias. Per affrontare questo problema, introduciamo giudizi di riferimento (gold judgments) come proxy della qualità effettiva delle risposte e proponiamo il punteggio DBG, che misura il bias di auto-preferenza come la differenza tra i punteggi assegnati dal modello giudice alle proprie risposte e i corrispondenti giudizi di riferimento. Poiché i giudizi di riferimento riflettono la vera qualità delle risposte, il punteggio DBG mitiga l'effetto confondente della qualità delle risposte sulla misurazione del bias. Utilizzando il punteggio DBG, conduciamo esperimenti completi per valutare il bias di auto-preferenza in LLM di diverse versioni, dimensioni e capacità di ragionamento. Inoltre, indaghiamo due fattori che influenzano e aiutano a ridurre il bias di auto-preferenza: lo stile del testo delle risposte e i dati di post-addestramento dei modelli giudice. Infine, esploriamo i potenziali meccanismi sottostanti al bias di auto-preferenza da una prospettiva basata sull'attenzione. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/zhiyuanc2001/self-preference.
Man mano che i modelli linguistici di grandi dimensioni (LLM) continuano a progredire, la necessità di benchmark aggiornati e ben organizzati diventa sempre più critica. Tuttavia, molti dataset esistenti sono dispersi, difficili da gestire e rendono complesso eseguire valutazioni su misura per esigenze o domini specifici, nonostante la crescente importanza di modelli specifici per domini come la matematica o il codice. In questo articolo, presentiamo BenchHub, un repository dinamico di benchmark che consente a ricercatori e sviluppatori di valutare gli LLM in modo più efficace. BenchHub aggrega e classifica automaticamente dataset di benchmark provenienti da diversi domini, integrando 303K domande attraverso 38 benchmark. È progettato per supportare aggiornamenti continui e una gestione scalabile dei dati, consentendo valutazioni flessibili e personalizzate adattate a vari domini o casi d'uso. Attraverso esperimenti estesi con diverse famiglie di LLM, dimostriamo che le prestazioni dei modelli variano significativamente tra sottoinsiemi specifici per dominio, sottolineando l'importanza di benchmark consapevoli del dominio. Crediamo che BenchHub possa favorire un migliore riutilizzo dei dataset, confronti più trasparenti tra modelli e una più facile identificazione di aree sottorappresentate nei benchmark esistenti, offrendo un'infrastruttura critica per far progredire la ricerca sulla valutazione degli LLM.
I modelli di diffusione hanno recentemente ottenuto un grande successo in molte attività di generazione, come la rimozione di oggetti. Tuttavia, i metodi esistenti di decomposizione delle immagini faticano a separare le occlusioni di strati semi-trasparenti o trasparenti a causa delle dipendenze da maschere prioritarie, delle assunzioni statiche sugli oggetti e della mancanza di dataset. In questo articolo, approfondiamo un nuovo compito: la Decomposizione Stratificata di Immagini Alpha-Composite, con l'obiettivo di recuperare gli strati costitutivi da singole immagini sovrapposte in condizioni di occlusione non lineare di strati alpha semi-trasparenti/trasparenti. Per affrontare le sfide legate all'ambiguità degli strati, alla generalizzazione e alla scarsità di dati, introduciamo prima di tutto AlphaBlend, il primo dataset su larga scala e di alta qualità per la decomposizione di strati trasparenti e semi-trasparenti, che supporta sei sottocompiti del mondo reale (ad esempio, rimozione di riflessi traslucidi, decomposizione di cellule semi-trasparenti, decomposizione di vetreria). Basandoci su questo dataset, presentiamo DiffDecompose, un framework basato su Transformer di diffusione che apprende la distribuzione a posteriori sulle possibili decomposizioni degli strati condizionate all'immagine di input, ai prompt semantici e al tipo di fusione. Piuttosto che regredire direttamente le maschere alpha, DiffDecompose esegue una Decomposizione in Contesto, consentendo al modello di prevedere uno o più strati senza supervisione per strato, e introduce il Clonaggio della Codifica della Posizione degli Strati per mantenere la corrispondenza a livello di pixel tra gli strati. Esperimenti estesi sul dataset AlphaBlend proposto e sul dataset pubblico LOGO verificano l'efficacia di DiffDecompose. Il codice e il dataset saranno disponibili al momento dell'accettazione dell'articolo. Il nostro codice sarà disponibile all'indirizzo: https://github.com/Wangzt1121/DiffDecompose.
La decodifica speculativa accelera l'inferenza dei Large Language Model (LLM) utilizzando un piccolo modello draft per prevedere più token e un grande modello target per verificarli in parallelo. Studi recenti sfruttano lo stato nascosto del modello target per migliorare l'accuratezza delle previsioni del modello draft. Tuttavia, i metodi esistenti soffrono di un deterioramento della qualità delle previsioni dei token draft nelle posizioni successive, a causa dell'accumulo di errori nelle caratteristiche generate dal modello draft. In questo articolo, proponiamo i Position Specialists (PosS), che consistono in più livelli draft specializzati per posizione per generare token in posizioni assegnate. I Position Specialists migliorano notevolmente il tasso di accettazione dei token nelle posizioni successive per ogni ciclo di drafting, poiché ogni specialista deve concentrarsi solo sulla gestione di un certo livello di deviazione delle caratteristiche del modello draft. I risultati sperimentali su Llama-3-8B-Instruct e Llama-2-13B-chat su sei dataset dimostrano che PosS migliora efficacemente rispetto ai baseline in termini di lunghezza media di accettazione e rapporto di accelerazione. Il nostro codice è disponibile all'indirizzo https://github.com/shrango/PosS.
I recenti progressi nel ragionamento a catena di pensiero (Chain-of-Thought, CoT) hanno migliorato la comprensione complessa dei video, ma i metodi esistenti spesso faticano ad adattarsi a competenze specifiche del dominio (ad esempio, rilevamento di eventi, comprensione delle relazioni spaziali, comprensione delle emozioni) su vari contenuti video. Per affrontare questo problema, proponiamo Video-Skill-CoT (noto anche come Video-SKoT), un framework che costruisce e sfrutta automaticamente supervisioni CoT consapevoli delle competenze per il ragionamento video adattivo al dominio. In primo luogo, costruiamo annotazioni CoT basate sulle competenze: estraiamo abilità di ragionamento rilevanti per il dominio dalle domande di addestramento, le raggruppiamo in una tassonomia condivisa delle competenze e creiamo una razionalità CoT dettagliata in più passaggi, personalizzata per ogni coppia video-domanda, per l'addestramento. In secondo luogo, introduciamo un framework di apprendimento esperto specifico per le competenze. Ogni modulo esperto si specializza in un sottoinsieme di abilità di ragionamento e viene addestrato con adattatori leggeri utilizzando la supervisione CoT raccolta. Dimostriamo l'efficacia dell'approccio proposto su tre benchmark di comprensione video, dove Video-SKoT supera costantemente i baseline forti. Forniamo inoltre analisi approfondite sul confronto tra diverse pipeline di annotazione CoT e le competenze apprese su più domini video.
Gli attacchi con input avversari possono causare uno spostamento significativo degli embedding di CLIP. Ciò può influenzare la robustezza a valle dei modelli che incorporano CLIP nella pipeline, come i modelli generativi da testo a immagine o i grandi modelli di linguaggio visivo. Sebbene siano stati compiuti alcuni sforzi per rendere robusti gli encoder di immagini di CLIP, la robustezza degli encoder di testo rimane inesplorata. In questo lavoro, colmiamo questa lacuna nella letteratura. Proponiamo LEAF: un metodo efficiente di fine-tuning avversario per il dominio del testo, con la capacità di scalare a grandi modelli CLIP. I nostri modelli migliorano significativamente l'accuratezza avversaria zero-shot nel dominio del testo, mantenendo al contempo le prestazioni visive fornite da encoder di immagini robusti. Quando combinati con modelli di diffusione da testo a immagine, possiamo migliorare la qualità della generazione in presenza di rumore avversario. Quando impieghiamo i nostri encoder CLIP robusti in compiti di recupero multimodale, miglioriamo il richiamo in presenza di rumore avversario rispetto ai modelli CLIP standard. Infine, dimostriamo che gli encoder di testo robusti facilitano una migliore ricostruzione del testo di input dal suo embedding tramite ottimizzazione diretta.
I recenti progressi nell'apprendimento per rinforzo (RL) con feedback numerico, come ricompense scalari, hanno significativamente migliorato le capacità di ragionamento complesso dei grandi modelli linguistici (LLM). Nonostante questo successo, abbiamo identificato tre sfide chiave incontrate dall'RL con feedback esclusivamente numerico: plateau di prestazione, efficacia limitata dell'autoriflessione e fallimenti persistenti. Dimostriamo quindi che i modelli ottimizzati con RL, anche dopo aver raggiunto plateau di prestazione, possono generare correzioni accurate su problemi con fallimenti persistenti sfruttando feedback in linguaggio naturale sotto forma di critiche. Basandoci su questa intuizione, proponiamo Critique-GRPO, un framework RL online che integra sia feedback in linguaggio naturale che numerico per un'ottimizzazione efficace delle politiche. Critique-GRPO consente agli LLM di apprendere dalle risposte iniziali e dalle correzioni guidate dalle critiche in modo simultaneo, mantenendo l'esplorazione. Esperimenti estesi utilizzando Qwen2.5-7B-Base e Qwen3-8B-Base mostrano che Critique-GRPO supera costantemente approcci di fine-tuning basati su apprendimento supervisionato e RL in otto impegnativi compiti di ragionamento matematico, STEM e generale, migliorando i punteggi medi pass@1 di circa il 4,5% e il 5%, rispettivamente. In particolare, Critique-GRPO supera una solida baseline che incorpora dimostrazioni esperte all'interno dell'RL online. Un'ulteriore analisi rivela due intuizioni critiche sull'esplorazione delle politiche: (1) un'entropia più elevata non garantisce sempre un apprendimento efficiente dall'esplorazione, e (2) risposte più lunghe non portano necessariamente a un'esplorazione più efficace.
I grandi modelli di base addestrati su ampi dataset dimostrano forti capacità zero-shot in vari domini. Per replicare il loro successo quando i dati e le dimensioni del modello sono limitati, la distillazione della conoscenza è diventata uno strumento consolidato per trasferire conoscenza dai modelli di base a piccole reti studente. Tuttavia, l'efficacia della distillazione è fortemente limitata dai dati di addestramento disponibili. Questo lavoro affronta il comune problema pratico dello spostamento di covarianza nella distillazione della conoscenza, dove caratteristiche spurie compaiono durante l'addestramento ma non al momento del test. Ci poniamo la domanda: quando queste caratteristiche spurie sono sconosciute, ma è disponibile un insegnante robusto, è possibile che anche uno studente diventi robusto a esse? Affrontiamo questo problema introducendo una nuova strategia di aumento dei dati basata sulla diffusione che genera immagini massimizzando il disaccordo tra l'insegnante e lo studente, creando efficacemente campioni impegnativi con cui lo studente fatica. Gli esperimenti dimostrano che il nostro approccio migliora significativamente l'accuratezza del gruppo peggiore e del gruppo medio su CelebA e SpuCo Birds, nonché lo spurious mAUC su spurious ImageNet in caso di spostamento di covarianza, superando le baseline di aumento dei dati basate sulla diffusione allo stato dell'arte.
L'Apprendimento Continuo (Continual Learning, CL) mira a consentire alle reti neurali di acquisire nuove conoscenze in modo incrementale (plasticità) mantenendo al contempo le conoscenze esistenti (stabilità). Sebbene i modelli pre-addestrati (Pre-trained Models, PTM) siano diventati fondamentali nel CL, gli approcci prevalenti congelano il backbone dei PTM per preservare la stabilità, limitandone la plasticità, specialmente quando si incontrano significativi gap di dominio nei compiti incrementali. Al contrario, il fine-tuning sequenziale dell'intero PTM rischia di causare un oblio catastrofico della conoscenza generalizzabile, evidenziando un critico compromesso tra stabilità e plasticità. Per affrontare questa sfida, proponiamo l'Adattamento dei PTM prima del processo principale di CL (ACL), un nuovo framework che perfeziona il backbone dei PTM attraverso una fase di adattamento plug-and-play prima di apprendere ogni nuovo compito con approcci CL esistenti (ad esempio, il prompt tuning). ACL migliora la plasticità allineando gli embedding con i loro prototipi di classe originali mentre li allontana dagli altri, dimostrando teoricamente ed empiricamente di bilanciare stabilità e plasticità. Esperimenti estesi dimostrano che ACL migliora significativamente le prestazioni del CL su vari benchmark e metodi integrati, offrendo una soluzione versatile per il CL basato su PTM.
LLM-as-a-judge è un framework in cui un modello linguistico di grandi dimensioni (LLM) valuta automaticamente l'output di un altro LLM. Proponiamo giudici LLM quantitativi, che allineano i punteggi di valutazione dei giudici LLM esistenti ai punteggi umani in un determinato dominio utilizzando modelli di regressione. I modelli sono addestrati per migliorare il punteggio del giudice originale utilizzando la valutazione testuale e il punteggio del giudice. Presentiamo quattro giudici quantitativi per diversi tipi di feedback assoluti e relativi, dimostrando la generalità e la versatilità del nostro framework. Il nostro framework è più efficiente dal punto di vista computazionale rispetto al fine-tuning supervisionato e può essere più efficiente statisticamente quando il feedback umano è limitato, come ci si aspetta nella maggior parte delle applicazioni del nostro lavoro. Validiamo empiricamente queste affermazioni su quattro dataset utilizzando due giudici di base. I nostri esperimenti dimostrano che i giudici quantitativi possono migliorare efficacemente il potere predittivo dei giudici esistenti attraverso la modellazione post-hoc.
La scoperta di materiali superconduttori ad alta temperatura riveste una grande importanza per l'industria e la vita quotidiana dell'umanità. Negli ultimi anni, la ricerca sull'uso dell'intelligenza artificiale (AI) per prevedere le temperature di transizione superconduttiva ha guadagnato popolarità, con la maggior parte di questi strumenti che affermano di raggiungere una precisione notevole. Tuttavia, la mancanza di dataset di riferimento ampiamente accettati in questo campo ha ostacolato gravemente confronti equi tra diversi algoritmi di AI e ha impedito ulteriori progressi di questi metodi. In questo lavoro, presentiamo HTSC-2025, un dataset di riferimento per superconduttori ad alta temperatura a pressione ambiente. Questa raccolta completa comprende materiali superconduttori previsti teoricamente scoperti da fisici teorici dal 2023 al 2025 basati sulla teoria della superconduttività BCS, inclusi il rinomato sistema X_2YH_6, il sistema perovskite MXH_3, il sistema M_3XH_8, sistemi atomici metallici drogati con BCN a struttura a gabbia derivati dall'evoluzione strutturale di LaH_{10}, e sistemi a struttura a nido d'ape bidimensionali evoluti da MgB_2. Il benchmark HTSC-2025 è stato reso open-source all'indirizzo https://github.com/xqh19970407/HTSC-2025 e sarà continuamente aggiornato. Questo benchmark riveste un'importanza significativa per accelerare la scoperta di materiali superconduttori utilizzando metodi basati sull'AI.
Nonostante i recenti progressi nell'inversione e nella modifica delle immagini basata su istruzioni, gli approcci esistenti eccellono principalmente nella modifica di singoli oggetti prominenti, ma incontrano notevoli difficoltà quando applicati a scene complesse contenenti più entità. Per quantificare questo divario, introduciamo innanzitutto RefEdit-Bench, un rigoroso benchmark del mondo reale basato su RefCOCO, dove persino i modelli di base addestrati su milioni di campioni ottengono risultati scarsi. Per superare questa limitazione, presentiamo RefEdit — un modello di modifica basato su istruzioni addestrato sulla nostra pipeline scalabile di generazione di dati sintetici. Il nostro RefEdit, addestrato su soli 20.000 triplet di modifica, supera i modelli di base basati su Flux/SD3 addestrati su milioni di dati. Valutazioni estensive su vari benchmark dimostrano che il nostro modello non solo eccelle nei compiti di espressione referenziale, ma migliora anche le prestazioni sui benchmark tradizionali, raggiungendo risultati all'avanguardia comparabili ai metodi closed-source. Rilasciamo dati e checkpoint per garantire la riproducibilità.
I diagrammi di flusso sono uno strumento fondamentale per visualizzare i processi decisionali. Tuttavia, la loro struttura non lineare e le complesse relazioni visivo-testuali rendono difficile la loro interpretazione mediante LLM, poiché i modelli visione-linguaggio spesso allucinano connessioni e percorsi decisionali inesistenti durante l'analisi di questi diagrammi. Ciò compromette l'affidabilità dell'elaborazione automatizzata dei diagrammi di flusso in ambiti critici come la logistica, la sanità e l'ingegneria. Introduciamo il compito di Attribuzione Fine-Grained dei Diagrammi di Flusso, che traccia specifici componenti che fondano una risposta LLM riferita al diagramma di flusso. L'Attribuzione dei Diagrammi di Flusso garantisce la verificabilità delle previsioni LLM e migliora l'interpretabilità collegando le risposte generate alla struttura del diagramma. Proponiamo FlowPathAgent, un agente neurosimbolico che esegue un'attribuzione fine-grained post hoc attraverso un ragionamento basato su grafi. Prima segmenta il diagramma di flusso, poi lo converte in un grafo simbolico strutturato, e infine impiega un approccio agentico per interagire dinamicamente con il grafo, generando percorsi di attribuzione. Inoltre, presentiamo FlowExplainBench, un nuovo benchmark per valutare le attribuzioni dei diagrammi di flusso in diversi stili, domini e tipi di domande. I risultati sperimentali mostrano che FlowPathAgent mitiga le allucinazioni visive nelle risposte LLM su QA di diagrammi di flusso, superando i forti baseline del 10-14% sul nostro dataset FlowExplainBench proposto.
Il pruning è stato recentemente ampiamente adottato per ridurre la scala dei parametri e migliorare l'efficienza nell'inferenza dei Large Language Models (LLM). Le tecniche di pruning più diffuse si basano spesso su strategie uniformi a livello di strato, che possono portare a un significativo degrado delle prestazioni a livelli elevati di sparsità. Riconoscendo il contributo variabile dei diversi strati nei LLM, studi recenti hanno spostato l'attenzione verso approcci di pruning non uniformi a livello di strato. Tuttavia, questi metodi spesso si basano su valori predefiniti, che possono risultare in prestazioni subottimali. Per superare queste limitazioni, proponiamo un nuovo metodo chiamato Dynamic Layerwise Pruning (DLP). Questo approccio determina in modo adattivo l'importanza relativa di ciascuno strato integrando i pesi del modello con le informazioni di attivazione in ingresso, assegnando di conseguenza i tassi di pruning. I risultati sperimentali dimostrano che DLP preserva efficacemente le prestazioni del modello a livelli elevati di sparsità in diversi LLM. In particolare, con una sparsità del 70%, DLP riduce la perplexity di LLaMA2-7B di 7,79 e migliora l'accuratezza media del 2,7% rispetto ai metodi più avanzati. Inoltre, DLP è compatibile con varie tecniche esistenti di compressione dei LLM e può essere integrato senza soluzione di continuità nel Parameter-Efficient Fine-Tuning (PEFT). Rilasciamo il codice all'indirizzo https://github.com/ironartisan/DLP per facilitare la ricerca futura.
I recenti benchmark per la comprensione di video di lunga durata hanno favorito il progresso nei modelli multimodali di grandi dimensioni per i video (Video-LMMs). Tuttavia, la scarsità di video lunghi ben annotati ha lasciato poco esplorato l'addestramento di Video-LLMs per video della durata di un'ora. Per colmare questa lacuna, presentiamo VideoMarathon, un dataset su larga scala per il seguimento di istruzioni su video della durata di un'ora. Questo dataset include circa 9.700 ore di video lunghi provenienti da diversi domini, con una durata che varia da 3 a 60 minuti per video. Nello specifico, contiene 3,3 milioni di coppie domanda-risposta di alta qualità, che coprono sei argomenti fondamentali: temporalità, spazialità, oggetto, azione, scena ed evento. Rispetto ai dataset esistenti per istruzioni video, VideoMarathon estende significativamente la durata dei video di addestramento fino a un'ora e supporta 22 diverse attività che richiedono la comprensione sia a breve che a lungo termine dei video. Basandoci su VideoMarathon, proponiamo Hour-LLaVA, un Video-LMM potente ed efficiente per la modellazione video-linguistica su scala oraria. Consente l'addestramento e l'inferenza su video della durata di un'ora con un campionamento a 1-FPS sfruttando un modulo di aumento della memoria, che integra in modo adattivo la semantica rilevante per la domanda dell'utente e informativa spaziotemporale da un contesto video completo memorizzato. Nei nostri esperimenti, Hour-LLaVA raggiunge le migliori prestazioni su più benchmark video-linguistici di lunga durata, dimostrando l'alta qualità del dataset VideoMarathon e la superiorità del modello Hour-LLaVA.
I sistemi di intelligenza artificiale agentica, basati su modelli linguistici di grandi dimensioni (LLM) e implementati in configurazioni multi-agente, stanno ridefinendo l'autonomia intelligente, la collaborazione e il processo decisionale in ambiti aziendali e sociali. Questa rassegna presenta un'analisi strutturata della gestione di Fiducia, Rischio e Sicurezza (TRiSM) nel contesto dei sistemi multi-agente agentici basati su LLM (AMAS). Iniziamo esaminando i fondamenti concettuali dell'IA agentica, le differenze architettoniche rispetto agli agenti AI tradizionali e i design di sistema emergenti che abilitano un'autonomia scalabile e orientata all'uso di strumenti. Il TRiSM nel framework dell'IA agentica viene poi dettagliato attraverso quattro pilastri: governance, spiegabilità, ModelOps e privacy/sicurezza, ciascuno contestualizzato per gli LLM agentici. Identifichiamo vettori di minaccia unici e introduciamo una tassonomia completa del rischio per le applicazioni di IA agentica, supportata da casi di studio che illustrano vulnerabilità del mondo reale. Inoltre, il documento esamina i meccanismi di costruzione della fiducia, le tecniche di trasparenza e supervisione e le strategie di spiegabilità all'avanguardia nei sistemi distribuiti di agenti LLM. Vengono inoltre riviste le metriche per valutare la fiducia, l'interpretabilità e le prestazioni centrate sull'uomo, insieme alle sfide aperte nel benchmarking. Sicurezza e privacy sono affrontate attraverso crittografia, difesa contro attacchi avversari e conformità alle normative AI in evoluzione. Il documento si conclude con una roadmap per un'IA agentica responsabile, proponendo direzioni di ricerca per allineare i sistemi multi-agente emergenti ai principi TRiSM robusti per un dispiegamento sicuro, responsabile e trasparente.
Migliorare efficacemente le capacità di ragionamento dei modelli linguistici di grandi dimensioni utilizzando l'apprendimento per rinforzo (RL) rimane una sfida cruciale. Gli approcci esistenti adottano principalmente due granularità di stima del vantaggio contrastanti: i metodi a livello di token (ad esempio, PPO) mirano a fornire segnali di vantaggio granulari, ma soffrono di stime imprecise a causa delle difficoltà nell'addestrare un modello critico accurato. All'estremo opposto, i metodi a livello di traiettoria (ad esempio, GRPO) si basano esclusivamente su un segnale di vantaggio grossolano proveniente dalla ricompensa finale, portando a un'assegnazione del credito imprecisa. Per affrontare queste limitazioni, proponiamo Segment Policy Optimization (SPO), un nuovo framework RL che sfrutta la stima del vantaggio a livello di segmento con una granularità intermedia, raggiungendo un migliore equilibrio offrendo un'assegnazione del credito più precisa rispetto ai metodi a livello di traiettoria e richiedendo meno punti di stima rispetto ai metodi a livello di token, consentendo una stima accurata del vantaggio basata su Monte Carlo (MC) senza un modello critico. SPO presenta tre componenti con strategie innovative: (1) partizione flessibile dei segmenti; (2) stima accurata del vantaggio dei segmenti; e (3) ottimizzazione della politica utilizzando i vantaggi dei segmenti, inclusa una nuova strategia di mascheramento delle probabilità. Istanziamo ulteriormente SPO per due scenari specifici: (1) SPO-chain per brevi catene di ragionamento (CoT), caratterizzato da una partizione basata su punti di taglio e una stima del vantaggio basata su catena, ottenendo miglioramenti di 6-12 punti percentuali in accuratezza rispetto a PPO e GRPO su GSM8K. (2) SPO-tree per CoT lunghe, caratterizzato da una stima del vantaggio basata su alberi, che riduce significativamente il costo della stima MC, ottenendo miglioramenti di 7-11 punti percentuali rispetto a GRPO su MATH500 con valutazioni di contesto di 2K e 4K. Rendiamo il nostro codice disponibile pubblicamente all'indirizzo https://github.com/AIFrameResearch/SPO.
Il riferimento a oggetti mira a rilevare tutti gli oggetti in un'immagine che corrispondono a una descrizione in linguaggio naturale. Sosteniamo che un modello robusto per il riferimento a oggetti dovrebbe essere fondato, nel senso che le sue previsioni dovrebbero essere sia spiegabili che fedeli al contenuto visivo. Nello specifico, dovrebbe soddisfare due proprietà chiave: 1) Verificabile, producendo un ragionamento interpretabile che giustifichi le sue previsioni e le colleghi chiaramente all'evidenza visiva; e 2) Affidabile, imparando ad astenersi quando nessun oggetto nell'immagine soddisfa l'espressione data. Tuttavia, la maggior parte dei metodi tratta il riferimento come un compito diretto di previsione di bounding box, offrendo una limitata interpretabilità e faticando a rifiutare espressioni senza oggetti corrispondenti. In questo lavoro, proponiamo Rex-Thinker, un modello che formula il riferimento a oggetti come un compito esplicito di ragionamento a catena di pensiero (CoT). Data un'espressione di riferimento, identifichiamo prima tutte le istanze di oggetti candidati corrispondenti alla categoria di oggetto riferita. Rex-Thinker esegue quindi un ragionamento passo-passo su ciascun candidato per valutare se corrisponde all'espressione data, prima di fare una previsione finale. Per supportare questo paradigma, costruiamo un dataset su larga scala di riferimento in stile CoT, denominato HumanRef-CoT, utilizzando GPT-4o sul dataset HumanRef. Ogni traccia di ragionamento segue un formato strutturato di pianificazione, azione e riepilogo, consentendo al modello di apprendere un ragionamento scomposto e interpretabile sui candidati oggetto. Addestriamo quindi Rex-Thinker in due fasi: una fase iniziale di fine-tuning supervisionato per insegnare al modello come eseguire un ragionamento strutturato, seguita da un apprendimento RL basato su GRPO per migliorare l'accuratezza e la generalizzazione. Gli esperimenti mostrano che il nostro approccio supera i baseline standard sia in precisione che in interpretabilità nella valutazione in dominio, dimostrando anche una migliore capacità di rifiutare output allucinati e una forte generalizzazione in contesti fuori dominio.
La ricerca sull'apprendimento continuo (Continual Learning, CL) mira a dotare le reti neurali della capacità di apprendere e adattarsi in modo incrementale. Al centro di questa ricerca vi è la necessità di affrontare il dilemma stabilità-plasticità, che consiste nel trovare un equilibrio tra due obiettivi contrastanti: preservare le conoscenze precedentemente apprese e acquisire nuove conoscenze. Sebbene numerosi metodi di CL cerchino di raggiungere questo compromesso, spesso trascurano l'impatto dell'architettura della rete sulla stabilità e sulla plasticità, limitando il compromesso al livello dei parametri. In questo articolo, approfondiamo il conflitto tra stabilità e plasticità a livello architetturale. Dimostriamo che, sotto un vincolo di parametri uguali, le reti più profonde mostrano una migliore plasticità, mentre le reti più ampie sono caratterizzate da una superiore stabilità. Per affrontare questo dilemma a livello architetturale, introduciamo un nuovo framework denominato Dual-Arch, che funge da componente plug-in per il CL. Questo framework sfrutta i punti di forza complementari di due reti distinte e indipendenti: una dedicata alla plasticità e l'altra alla stabilità. Ogni rete è progettata con un'architettura specializzata e leggera, ottimizzata per il rispettivo obiettivo. Esperimenti estensivi dimostrano che Dual-Arch migliora le prestazioni dei metodi di CL esistenti, riducendo fino all'87% il numero di parametri necessari.
Le banche dati di pubblicazioni si basano sull'estrazione accurata di metadati da fonti web diverse, tuttavia le variazioni nei layout e nei formati dei dati presentano sfide per i fornitori di metadati. Questo articolo introduce CRAWLDoc, un nuovo metodo per il ranking contestuale di documenti web collegati. Partendo dall'URL di una pubblicazione, come un identificatore di oggetto digitale, CRAWLDoc recupera la pagina di destinazione e tutte le risorse web collegate, inclusi PDF, profili ORCID e materiali supplementari. Esso incorpora queste risorse, insieme ai testi di ancoraggio e agli URL, in una rappresentazione unificata. Per valutare CRAWLDoc, abbiamo creato un nuovo dataset etichettato manualmente di 600 pubblicazioni provenienti da sei editori leader nell'informatica. Il nostro metodo CRAWLDoc dimostra un ranking robusto e indipendente dal layout di documenti rilevanti tra editori e formati di dati. Esso getta le basi per un miglioramento dell'estrazione di metadati da documenti web con vari layout e formati. Il nostro codice sorgente e il dataset sono accessibili all'indirizzo https://github.com/FKarl/CRAWLDoc.
Un modo per mitigare i rischi nei modelli visione-linguaggio (VLMs) è rimuovere campioni pericolosi dai loro dati di addestramento. Tuttavia, tale moderazione dei dati può essere facilmente aggirata quando immagini dannose vengono suddivise in piccoli frammenti dall'aspetto innocuo, sparsi tra molti campioni di addestramento. I VLMs potrebbero quindi imparare a ricomporre questi frammenti durante l'addestramento e generare risposte dannose in fase di inferenza, sia da immagini complete che da riferimenti testuali. Ad esempio, se addestrati su frammenti di immagini di una scena cruenta associati a descrizioni come "sicuro", i VLMs potrebbero in seguito descrivere l'immagine completa o un riferimento testuale alla scena come "sicuro". Definiamo la capacità fondamentale dei VLMs che abilita questo attacco come visual stitching - la capacità di integrare informazioni visive distribuite su più campioni di addestramento che condividono le stesse descrizioni testuali. Nel nostro lavoro, dimostriamo innanzitutto le capacità di visual stitching in comuni VLMs open-source su tre dataset in cui ogni immagine è etichettata con un ID sintetico univoco: dividiamo ogni coppia (immagine, ID) in coppie {(frammento, ID)} a diverse granularità per il fine-tuning, e troviamo che i modelli ottimizzati possono verbalizzare gli ID corretti da immagini complete o riferimenti testuali. Basandoci su questo, simuliamo lo scenario avversario di data poisoning menzionato sopra utilizzando frammenti di immagini pericolose e sostituendo gli ID con descrizioni testuali come "sicuro" o "non sicuro", dimostrando come contenuti dannosi possano eludere la moderazione nei frammenti e successivamente essere ricostruiti attraverso il visual stitching, rappresentando seri rischi per la sicurezza dei VLMs. Il codice è disponibile all'indirizzo https://github.com/ZHZisZZ/visual-stitching.
La ricostruzione 3D da immagini in contesti non controllati rimane un compito impegnativo a causa delle condizioni di illuminazione incoerenti e dei distrattori transitori. I metodi esistenti si basano tipicamente su strategie euristiche per gestire i dati di addestramento di bassa qualità, che spesso faticano a produrre ricostruzioni stabili e coerenti, risultando frequentemente in artefatti visivi. In questo lavoro, proponiamo Asymmetric Dual 3DGS, un nuovo framework che sfrutta la natura stocastica di questi artefatti: essi tendono a variare tra diverse esecuzioni di addestramento a causa di piccole casualità. Nello specifico, il nostro metodo addestra due modelli di 3D Gaussian Splatting (3DGS) in parallelo, imponendo un vincolo di consistenza che favorisce la convergenza su una geometria della scena affidabile mentre sopprime gli artefatti incoerenti. Per evitare che i due modelli collassino in modalità di fallimento simili a causa del bias di conferma, introduciamo una strategia di mascheramento divergente che applica due maschere complementari: una maschera adattiva multi-segnale e una maschera soft auto-supervisionata, che porta a un processo di addestramento asimmetrico dei due modelli, riducendo le modalità di errore condivise. Inoltre, per migliorare l'efficienza dell'addestramento del modello, introduciamo una variante leggera chiamata Dynamic EMA Proxy, che sostituisce uno dei due modelli con un proxy aggiornato dinamicamente tramite Exponential Moving Average (EMA), e impiega una strategia di mascheramento alternata per preservare la divergenza. Esperimenti estesi su dataset reali complessi dimostrano che il nostro metodo supera costantemente gli approcci esistenti raggiungendo un'elevata efficienza. I codici e i modelli addestrati saranno rilasciati.
I modelli generativi latenti basati su flussi, come Stable Diffusion 3, sono in grado di generare immagini di qualità straordinaria, arrivando persino a consentire la generazione fotorealistica da testo a immagine. Le loro prestazioni impressionanti suggeriscono che questi modelli dovrebbero costituire anche potenti prior per problemi di imaging inverso, ma tale approccio non ha ancora portato a una fedeltà comparabile. Esistono diversi ostacoli chiave: (i) la codifica in uno spazio latente a dimensione inferiore rende la mappatura (diretta) sottostante non lineare; (ii) il termine di verosimiglianza dei dati è solitamente intrattabile; e (iii) i modelli generativi appresi faticano a recuperare modalità di dati rare e atipiche durante l'inferenza. Presentiamo FLAIR, un innovativo framework variazionale senza addestramento che sfrutta i modelli generativi basati su flussi come prior per problemi inversi. A tal fine, introduciamo un obiettivo variazionale per il matching di flussi che è agnostico rispetto al tipo di degrado e lo combiniamo con aggiustamenti deterministici della traiettoria per recuperare modalità atipiche. Per garantire una consistenza esatta con i dati osservati, disaccoppiamo l'ottimizzazione dei termini di fedeltà ai dati e di regolarizzazione. Inoltre, introduciamo uno schema di calibrazione dipendente dal tempo in cui l'intensità della regolarizzazione è modulata in base a stime di accuratezza offline. I risultati su benchmark standard di imaging dimostrano che FLAIR supera costantemente i metodi esistenti basati su diffusione e flussi in termini di qualità della ricostruzione e diversità dei campioni.
Il ragionamento simbolico multi-step è fondamentale per migliorare le prestazioni nei compiti finanziari. Tuttavia, mancano benchmark per valutare sistematicamente questa capacità. Dataset esistenti come FinQA e ConvFinQA supervisionano solo le risposte numeriche finali, senza valutare i passaggi di ragionamento intermedi. Per affrontare questo problema, introduciamo FinChain, il primo benchmark simbolico progettato per un ragionamento finanziario verificabile a catena di pensiero (Chain-of-Thought, CoT). Abbracciando 54 argomenti in 12 domini finanziari, FinChain offre cinque modelli parametrizzati per argomento, ciascuno con una complessità di ragionamento e un livello di competenza di dominio variabili. Ogni istanza del dataset include una traccia Python eseguibile, consentendo la generazione automatica di ampi dati di addestramento e un facile adattamento ad altri domini. Introduciamo inoltre ChainEval, una nuova metrica per la valutazione automatica sia delle risposte finali che del ragionamento intermedio. Testando 30 LLM sul nostro dataset, scopriamo che anche i modelli più avanzati hanno un margine di miglioramento significativo nel ragionamento finanziario multi-step. Tutti i modelli e le metriche di valutazione per FinChain sono disponibili su https://github.com/mbzuai-nlp/finchain.
Generare suoni accurati per scene audiovisive complesse è una sfida, specialmente in presenza di più oggetti e sorgenti sonore. In questo articolo, proponiamo un modello di {\em generazione audio interattiva basata sugli oggetti} che ancorala generazione del suono agli oggetti visivi selezionati dall'utente all'interno delle immagini. Il nostro metodo integra l'apprendimento centrato sugli oggetti in un modello di diffusione latente condizionale, che impara ad associare le regioni dell'immagine ai suoni corrispondenti attraverso un'attenzione multimodale. Al momento del test, il nostro modello utilizza la segmentazione delle immagini per consentire agli utenti di generare suoni in modo interattivo a livello di {\em oggetto}. Validiamo teoricamente che il nostro meccanismo di attenzione approssima funzionalmente le maschere di segmentazione al momento del test, garantendo che l'audio generato sia allineato con gli oggetti selezionati. Valutazioni quantitative e qualitative dimostrano che il nostro modello supera i baseline, ottenendo un migliore allineamento tra gli oggetti e i suoni associati. Pagina del progetto: https://tinglok.netlify.app/files/avobject/
L'annotazione dei dati è un compito dispendioso in termini di tempo e costi, ma è intrinsecamente necessaria per l'apprendimento supervisionato. L'Active Learning (AL) è un metodo consolidato che minimizza lo sforzo di etichettatura umana selezionando iterativamente i campioni non etichettati più informativi per l'annotazione da parte di esperti, migliorando così le prestazioni complessive della classificazione. Nonostante l'AL sia noto da decenni, è ancora raramente utilizzato nelle applicazioni reali. Come indicato in due sondaggi web condotti nella comunità NLP sull'AL, due ragioni principali continuano a frenare i professionisti dall'utilizzarlo: in primo luogo, la complessità della configurazione dell'AL e, in secondo luogo, una mancanza di fiducia nella sua efficacia. Ipotesizziamo che entrambe le ragioni condividano la stessa causa: il vasto spazio degli iperparametri dell'AL. Questo spazio, per lo più inesplorato, spesso porta a risultati sperimentali fuorvianti e non riproducibili. In questo studio, abbiamo prima compilato una griglia di iperparametri con oltre 4,6 milioni di combinazioni, poi registrato le prestazioni di tutte le combinazioni nel più ampio studio sull'AL condotto finora e, infine, analizzato l'impatto di ciascun iperparametro sui risultati sperimentali. Alla fine, forniamo raccomandazioni sull'influenza di ciascun iperparametro, dimostriamo la sorprendente influenza dell'implementazione concreta della strategia di AL e delineiamo un design sperimentale per esperimenti di AL riproducibili con uno sforzo computazionale minimo, contribuendo così a una ricerca sull'AL più riproducibile e affidabile in futuro.
Con il rapido sviluppo dei modelli linguistici multimodali di grandi dimensioni (MLLM), questi vengono sempre più impiegati come agenti autonomi per l'uso del computer, in grado di portare a termine compiti informatici complessi. Tuttavia, sorge una questione pressante: i principi di rischio per la sicurezza progettati e allineati per gli MLLM generali in scenari di dialogo possono essere efficacemente trasferiti a scenari reali di utilizzo del computer? La ricerca esistente sulla valutazione dei rischi per la sicurezza degli agenti basati su MLLM per l'uso del computer presenta diverse limitazioni: manca di ambienti interattivi realistici o si concentra in modo ristretto su uno o pochi tipi specifici di rischio. Queste limitazioni ignorano la complessità, la variabilità e la diversità degli ambienti reali, limitando così una valutazione completa del rischio per gli agenti di utilizzo del computer. A tal fine, introduciamo RiOSWorld, un benchmark progettato per valutare i potenziali rischi degli agenti basati su MLLM durante le manipolazioni informatiche nel mondo reale. Il nostro benchmark include 492 task rischiosi che coprono varie applicazioni informatiche, tra cui web, social media, multimedia, sistema operativo, email e software per ufficio. Classifichiamo questi rischi in due categorie principali in base alla loro fonte: (i) rischi originati dall'utente e (ii) rischi ambientali. Per la valutazione, consideriamo i rischi per la sicurezza da due prospettive: (i) intenzione dell'obiettivo di rischio e (ii) completamento dell'obiettivo di rischio. Esperimenti estesi con agenti multimodali su RiOSWorld dimostrano che gli attuali agenti per l'uso del computer affrontano significativi rischi per la sicurezza in scenari reali. I nostri risultati evidenziano la necessità e l'urgenza di un allineamento della sicurezza per gli agenti di utilizzo del computer nelle manipolazioni informatiche reali, fornendo spunti preziosi per lo sviluppo di agenti di utilizzo del computer affidabili. Il nostro benchmark è disponibile pubblicamente all'indirizzo https://yjyddq.github.io/RiOSWorld.github.io/.