Articoli di ricerca IA selezionati quotidianamente con traduzioni
La costruzione di Modelli Mondiali in grado di apprendere, simulare e ragionare sulle leggi fisiche oggettive costituisce una sfida fondamentale nel perseguimento dell'Intelligenza Artificiale Generale. I recenti progressi rappresentati da modelli di generazione video come Sora hanno dimostrato il potenziale delle leggi di scaling basate sui dati per approssimare la dinamica fisica, mentre il nascente Modello Multimodale Unificato (UMM) offre un paradigma architetturale promettente per integrare percezione, linguaggio e ragionamento. Nonostante questi avanzamenti, il campo manca ancora di un quadro teorico fondato che definisca le proprietà essenziali necessarie per un Modello Mondiale Generale. In questo articolo, proponiamo che un Modello Mondiale debba essere ancorato alla Trinità della Coerenza: Coerenza Modale come interfaccia semantica, Coerenza Spaziale come base geometrica e Coerenza Temporale come motore causale. Attraverso questa lente tripartita, esaminiamo sistematicamente l'evoluzione dell'apprendimento multimodale, rivelando una traiettoria che va da moduli specializzati debolmente accoppiati verso architetture unificate che abilitano l'emergere sinergico di simulatori del mondo interni. Per integrare questo quadro concettuale, introduciamo CoW-Bench, un benchmark incentrato su scenari di ragionamento e generazione multi-frame. CoW-Bench valuta sia i modelli di generazione video che gli UMM sotto un protocollo di valutazione unificato. Il nostro lavoro stabilisce un percorso fondato verso modelli mondiali generali, chiarendo sia i limiti dei sistemi attuali che i requisiti architetturali per i progressi futuri.
Man mano che i Large Multimodal Models (LMM) aumentano di scala e i metodi di apprendimento per rinforzo (RL) maturano, gli LMM hanno compiuto progressi significativi nel ragionamento complesso e nella presa di decisioni. Tuttavia, l'addestramento si basa ancora su dati statici e protocolli fissi, rendendo difficile diagnosticare punti ciechi nelle capacità o fornire un rinforzo dinamico e mirato. Sulla scia dei risultati che dimostrano come l'esposizione agli errori guidata da test e la correzione basata sul feedback superino la pratica ripetitiva, proponiamo la Diagnostic-driven Progressive Evolution (DPE), un ciclo a spirale in cui la diagnosi orienta la generazione dei dati e il rinforzo, e ogni iterazione ridefinisce la diagnosi sul modello aggiornato per guidare il round successivo di miglioramento mirato. DPE ha due componenti chiave. Primo, molteplici agenti annotano e controllano la qualità di enormi quantità di dati multimodali non etichettati, utilizzando strumenti come la ricerca web e l'editing di immagini per produrre campioni diversificati e realistici. Secondo, DPE attribuisce i fallimenti a specifiche debolezze, aggiusta dinamicamente il mix di dati e guida gli agenti a generare dati focalizzati sulle debolezze per un rinforzo mirato. Esperimenti condotti su Qwen3-VL-8B-Instruct e Qwen2.5-VL-7B-Instruct mostrano miglioramenti stabili e continui su undici benchmark, indicando che DPE è un paradigma scalabile per l'addestramento continuo di LMM sotto distribuzioni di compiti aperte. Il nostro codice, modelli e dati sono pubblicamente disponibili all'indirizzo https://github.com/hongruijia/DPE.
Gli agenti di pianificazione di percorsi basati su grandi modelli linguistici (LLM) sono emersi come un paradigma promettente per supportare la mobilità umana quotidiana attraverso l'interazione in linguaggio naturale e la presa di decisioni mediata da strumenti. Tuttavia, una valutazione sistematica in contesti di mobilità reali è ostacolata da richieste di routing diversificate, servizi di mappatura non deterministici e una limitata riproducibilità. In questo studio, introduciamo MobilityBench, un benchmark scalabile per valutare gli agenti di pianificazione di percorsi basati su LLM in scenari di mobilità reali. MobilityBench è costruito a partire da query anonime di utenti reali raccolte su larga scala da Amap e copre un ampio spettro di intenti di pianificazione di percorsi in più città in tutto il mondo. Per consentire una valutazione end-to-end riproducibile, progettiamo una sandbox deterministica di riproduzione API che elimina la varianza ambientale dei servizi in tempo reale. Proponiamo inoltre un protocollo di valutazione multidimensionale incentrato sulla validità del risultato, integrato da valutazioni della comprensione delle istruzioni, della pianificazione, dell'uso degli strumenti e dell'efficienza. Utilizzando MobilityBench, valutiamo molteplici agenti di pianificazione di percorsi basati su LLM in diversi scenari di mobilità reale e forniamo un'analisi approfondita dei loro comportamenti e prestazioni. I nostri risultati rivelano che i modelli attuali performano in modo competente nei compiti di Recupero di informazioni di base e Pianificazione di percorsi, ma hanno notevoli difficoltà con la Pianificazione di percorsi con Vincoli di preferenza, sottolineando un margine di miglioramento significativo nelle applicazioni di mobilità personalizzate. Rilasciamo pubblicamente i dati del benchmark, il toolkit di valutazione e la documentazione all'indirizzo https://github.com/AMAP-ML/MobilityBench.
L'intelligenza umana integra naturalmente una percezione onni-modale – che abbraccia visione, audio e linguaggio – con ragionamenti complessi e l'uso di strumenti per interagire con il mondo. Tuttavia, gli attuali LLM multimodali sono principalmente confinati a interazioni bi-modali (ad esempio, visione-linguaggio), mancando delle capacità cognitive unificate necessarie per assistenti AI generici. Per colmare questa lacuna, introduciamo OmniGAIA, un benchmark completo progettato per valutare agenti onni-modali su compiti che richiedono ragionamento approfondito ed esecuzione multi-turn di strumenti attraverso le modalità video, audio e immagine. Costruito tramite un innovativo approccio basato su grafi eventiali onni-modali, OmniGAIA sintetizza query complesse e multi-hop derivate da dati del mondo reale, che richiedono ragionamento cross-modale e integrazione di strumenti esterni. Inoltre, proponiamo OmniAtlas, un agente fondazionale nativamente onni-modale, sviluppato secondo un paradigma di ragionamento integrato con strumenti e dotato di percezione onni-modale attiva. Addestrato su traiettorie sintetizzate tramite una strategia di esplorazione ad albero guidata da hindsight e su OmniDPO per la correzione granulare degli errori, OmniAtlas migliora efficacemente le capacità di uso degli strumenti dei modelli open-source esistenti. Questo lavoro segna un passo verso assistenti AI di nuova generazione, nativamente onni-modali, per scenari reali.
Il ragionamento visivo latente mira a imitare il processo di immaginazione umana meditando attraverso gli stati nascosti dei Modelli Linguistici Multimodali di Grande Dimensione. Sebbene riconosciuto come un paradigma promettente per il ragionamento visivo, i meccanismi sottostanti che ne guidano l'efficacia rimangono poco chiari. Spinti dalla volontà di demistificare la vera fonte della sua efficacia, indaghiamo la validità del ragionamento latente utilizzando l'Analisi di Mediazione Causale. Modelliamo il processo come una catena causale: l'input come trattamento, i token latenti come mediatore e la risposta finale come esito. I nostri risultati rivelano due disconnessioni critiche: (a) Disconnessione Input-Latente: perturbazioni drammatiche sull'input producono cambiamenti trascurabili nei token latenti, suggerendo che i token latenti non prestano effettivamente attenzione alla sequenza di input. (b) Disconnessione Latente-Risposta: perturbazioni sui token latenti hanno un impatto minimo sulla risposta finale, indicando il limitato effetto causale che i token latenti impongono sull'esito. Inoltre, un'ampia analisi di probing rivela che i token latenti codificano informazioni visive limitate ed esibiscono un'elevata similarità. Di conseguenza, mettiamo in discussione la necessità del ragionamento latente e proponiamo un'alternativa semplice denominata CapImagine, che insegna al modello a immaginare esplicitamente usando il testo. Esperimenti su benchmark incentrati sulla visione mostrano che CapImagine supera significativamente le complesse baseline nello spazio latente, evidenziando il potenziale superiore del ragionamento visivo attraverso l'immaginazione esplicita.
L'esplorazione rimane il principale collo di bottiglia per gli agenti basati su grandi modelli linguistici addestrati con apprendimento per rinforzo. Sebbene i metodi precedenti sfruttino conoscenze pre-addestrate, falliscono in ambienti che richiedono la scoperta di stati nuovi. Proponiamo EMPO² (Exploratory Memory-Augmented On- and Off-Policy Optimization), un framework ibrido di RL che utilizza la memoria per l'esplorazione e combina aggiornamenti on-policy e off-policy per far sì che i LLM performino bene con la memoria, garantendo al contempo robustezza senza di essa. Su ScienceWorld e WebShop, EMPO² raggiunge miglioramenti rispettivamente del 128,6% e dell'11,3% rispetto a GRPO. Inoltre, in test out-of-distribution, EMPO² dimostra una superiore adattabilità a nuovi compiti, richiedendo solo poche prove con memoria e nessun aggiornamento dei parametri. Questi risultati evidenziano EMPO² come un framework promettente per costruire agenti basati su LLM più esplorativi e generalizzabili.
Sebbene i sistemi multi-agente (MAS) eccellano nel ragionamento complesso, soffrono dell'effetto a cascata delle informazioni errate generate dai singoli partecipanti. Le soluzioni attuali ricorrono spesso a rigide ingegnerizzazioni strutturali o a costosi processi di fine-tuning, limitandone la distribuibilità e l'adattabilità. Proponiamo AgentDropoutV2, un framework di potatura "rettifica-o-scarta" applicabile al tempo di test, progettato per ottimizzare dinamicamente il flusso informativo dei MAS senza necessità di riaddestramento. Il nostro approccio funge da firewall attivo, intercettando gli output degli agenti e impiegando un rettificatore aumentato tramite retrieval per correggere iterativamente gli errori basandosi su un pool di indicatori guidati dai fallimenti. Questo meccanismo consente l'identificazione precisa di potenziali errori utilizzando pattern di fallimento distillati come conoscenza a priori. Gli output irreparabili vengono successivamente potati per prevenire la propagazione degli errori, mentre una strategia di fallback preserva l'integrità del sistema. I risultati empirici su estesi benchmark matematici dimostrano che AgentDropoutV2 migliora significativamente le prestazioni del MAS nei compiti, raggiungendo un guadagno medio di accuratezza di 6,3 punti percentuali sui benchmark matematici. Inoltre, il sistema mostra una robusta generalizzazione e adattività, modulando dinamicamente gli sforzi di rettifica in base alla difficoltà del compito, sfruttando al contempo indicatori context-aware per risolvere un'ampia gamma di pattern di errore. Il nostro codice e dataset sono rilasciati su https://github.com/TonySY2/AgentDropoutV2.
Introduciamo MediX-R1, un framework di Apprendimento per Rinforzo (RL) open-ended per modelli linguistici multimodali (MLLM) in ambito medico, che consente risposte a forma libera, clinicamente fondate, andando oltre i formati a scelta multipla. MediX-R1 effettua il fine-tuning di un modello base visione-linguaggio utilizzando il Group Based RL e una ricompensa composita studiata per il ragionamento medico: una ricompensa di accuratezza basata su LLM che valuta la correttezza semantica con una decisione rigida SI/NO, una ricompensa semantica basata su embedding medico per catturare parafrasi e varianti terminologiche, e ricompense leggere di formato e modalità che impongono un ragionamento interpretabile e il riconoscimento delle modalità. Questo design multi-segnale fornisce un feedback stabile e informativo per output open-ended, laddove le ricompense tradizionali basate su metriche verificabili o solo MCQ sono inefficaci. Per misurare i progressi, proponiamo un framework di valutazione unificato per task sia di solo testo che di immagine+testo, che utilizza un LLM-as-judge basato su riferimenti al posto di metriche fragili di sovrapposizione stringa, catturando la correttezza semantica, il ragionamento e l'allineamento contestuale. Nonostante l'utilizzo di soli 51K esempi di istruzione simulati, MediX-R1 ottiene risultati eccellenti su benchmark standard per LLM medici (solo testo) e VLM (immagine + testo), superando solidi baseline open-source e registrando miglioramenti particolarmente significativi su task clinici open-ended. I nostri risultati dimostrano che l'RL open-ended con segnali di ricompensa completi e una valutazione basata su LLM rappresenta un percorso praticabile verso un ragionamento medico affidabile nei modelli multimodali. I nostri modelli addestrati, i dataset curati e il codice sorgente sono disponibili su https://medix.cvmbzuai.com.
I recenti agenti di ricerca avanzati migliorano principalmente le prestazioni aumentando la profondità di ragionamento, ma questo comporta elevati costi inferenziali e latenza negli scenari di ricerca intensiva. Inoltre, la generalizzazione tra contesti di ricerca eterogenei rimane problematica. In questo lavoro, proponiamo Search More, Think Less (SMTL), un framework per la ricerca agente a lungo termine che mira sia all'efficienza che alla generalizzazione. SMTL sostituisce il ragionamento sequenziale con l'acquisizione parallela di evidenze, consentendo una gestione efficiente del contesto con budget limitati. Per supportare la generalizzazione tra tipi di task, introduciamo inoltre una pipeline unificata di sintesi dati che costruisce attività di ricerca che spaziano dall'answer answering deterministico a scenari di ricerca aperti con metriche di valutazione appropriate. Addestriamo un agente end-to-end utilizzando fine-tuning supervisionato e reinforcement learning, raggiungendo prestazioni solide e spesso all'avanguardia su benchmark come BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) e DeepResearch Bench (45,9%). Rispetto a Mirothinker-v1.0, SMTL con un massimo di 100 step interattivi riduce il numero medio di step di ragionamento su BrowseComp del 70,7%, migliorando al contempo l'accuratezza.
Presentiamo un modello di ricostruzione 3D scalabile che affronta una limitazione critica dei metodi feed-forward offline: i loro requisiti computazionali e di memoria crescono quadraticamente rispetto al numero di immagini in input. Il nostro approccio si basa sulla chiave di lettura che questo collo di bottiglia origina dalla rappresentazione dello spazio Chiave-Valore (KV) a lunghezza variabile della geometria della scena, che distilliamo in un Percettrone Multistrato (MLP) di dimensioni fisse tramite un addestramento al momento del test. VGG-T³ (Visual Geometry Grounded Test Time Training) scala linearmente rispetto al numero di viste in input, similmente ai modelli online, e ricostruisce una collezione di 1k immagini in soli 54 secondi, ottenendo un incremento di velocità di 11,6 volte rispetto ai baseline che si affidano all'attenzione softmax. Poiché il nostro metodo conserva la capacità di aggregazione globale della scena, il nostro errore di ricostruzione della mappa di punti supera di ampio margine altri metodi a tempo lineare. Infine, dimostriamo le capacità di localizzazione visiva del nostro modello interrogando la rappresentazione della scena con immagini non viste.
I modelli di diffusione hanno ottenuto progressi notevoli nella generazione di immagini, video e audio ad alta fedeltà, ma l'inferenza rimane computazionalmente costosa. Tuttavia, gli attuali metodi di accelerazione della diffusione basati sul parallelismo distribuito soffrono di evidenti artefatti di generazione e non riescono a ottenere un'accelerazione sostanziale proporzionale al numero di GPU. Pertanto, proponiamo un framework di parallelismo ibrido che combina una nuova strategia di parallelismo dei dati, il partizionamento basato su condizione, con un metodo ottimale di schedulazione delle pipeline, il commutamento adattivo del parallelismo, per ridurre la latenza di generazione e ottenere un'alta qualità generativa nei modelli di diffusione condizionati. Le idee chiave sono: (i) sfruttare i percorsi di denoising condizionati e non condizionati come una nuova prospettiva di partizionamento dei dati e (ii) abilitare adattivamente il parallelismo delle pipeline ottimale in base alla discrepanza di denoising tra questi due percorsi. Il nostro framework raggiunge riduzioni della latenza di 2,31 volte e 2,07 volte rispettivamente su SDXL e SD3, utilizzando due GPU NVIDIA RTX~3090, preservando la qualità dell'immagine. Questo risultato conferma la generalità del nostro approccio attraverso modelli di diffusione basati su U-Net e architetture di flow-matching basate su DiT. Il nostro approccio supera anche i metodi esistenti nell'accelerazione in contesti di sintesi ad alta risoluzione. Il codice è disponibile all'indirizzo https://github.com/kaist-dmlab/Hybridiff.
La promessa di agenti a scopo generale - sistemi che eseguono compiti in ambienti non familiari senza progettazione specifica per il dominio - rimane in larga misura irrealizzata. Gli agenti esistenti sono prevalentemente specializzati e, sebbene implementazioni emergenti come OpenAI SDK Agent e Claude Code accennino a capacità più ampie, non è stata ancora condotta una valutazione sistematica delle loro prestazioni generali. I benchmark attuali per agenti presuppongono un'integrazione specifica per dominio, codificando le informazioni sui compiti in modi che precludono una valutazione equa degli agenti generali. Questo articolo inquadra la valutazione degli agenti generali come un obiettivo di ricerca di prim'ordine. Proponiamo principi concettuali per tale valutazione, un Protocollo Unificato che consente l'integrazione agente-benchmark, ed Exgentic, un framework pratico per la valutazione di agenti generali. Testiamo cinque implementazioni di agenti di rilievo in sei ambienti diversi, creando la prima Classifica Aperta degli Agenti Generali. I nostri esperimenti dimostrano che gli agenti generali sanno generalizzare attraverso ambienti diversi, raggiungendo prestazioni paragonabili a quelle di agenti specifici per dominio senza alcuna ottimizzazione specifica per l'ambiente. Rilasciamo il nostro protocollo di valutazione, il framework e la classifica per gettare le basi di una ricerca sistematica sugli agenti a scopo generale.
I comportamenti umani nel mondo reale codificano naturalmente ricche informazioni contestuali a lungo termine che possono essere sfruttate per addestrare agenti embodied per la percezione, la comprensione e l'azione. Tuttavia, i sistemi di acquisizione esistenti si basano tipicamente su costose configurazioni da studio e dispositivi indossabili, limitando la raccolta su larga scala di dati sul movimento umano condizionati dalla scena in ambienti naturali. Per affrontare questo problema, proponiamo EmbodMocap, una pipeline portatile ed economica per la raccolta di dati che utilizza due iPhone in movimento. La nostra idea chiave è calibrare congiuntamente sequenze RGB-D duali per ricostruire sia gli esseri umani che le scene all'interno di un sistema di coordinate metrico mondiale unificato. Il metodo proposto consente un'acquisizione in scala metrica e coerente con la scena in ambienti quotidiani, senza telecamere statiche o marcatori, collegando perfettamente il movimento umano e la geometria della scena. Rispetto alla ground truth di acquisizione ottica, dimostriamo che la configurazione a doppia visuale mostra una notevole capacità di mitigare l'ambiguità della profondità, ottenendo prestazioni di allineamento e ricostruzione superiori rispetto a modelli monofone o monoculari. Sulla base dei dati raccolti, potenziamo tre compiti di intelligenza artificiale embodied: la ricostruzione monoscena umano-scena, in cui addestriamo modelli feedforward che restituiscono esseri umani e scene in scala metrica e allineati nello spazio mondiale; l'animazione di personaggi basata sulla fisica, dove dimostriamo che i nostri dati possono essere utilizzati per scalare le abilità di interazione uomo-oggetto e il motion tracking consapevole della scena; e il controllo del movimento dei robot, dove addestriamo un robot umanoide tramite apprendimento per rinforzo sim-to-real a replicare i movimenti umani raffigurati nei video. I risultati sperimentali convalidano l'efficacia della nostra pipeline e il suo contributo al progresso della ricerca sull'intelligenza artificiale embodied.
Valutare rigorosamente l'intelligenza artificiale rispetto all'ampio spettro dell'intelligenza generale umana è diventato sempre più importante e impegnativo in questa era di rapido progresso tecnologico. I benchmark convenzionali di intelligenza artificiale valutano tipicamente solo capacità ristrette in un limitato ventaglio di attività umane. La maggior parte è anche statica, saturandosi rapidamente man mano che gli sviluppatori ottimizzano esplicitamente o implicitamente per essi. Proponiamo che un modo più promettente per valutare un'intelligenza generale simile a quella umana nei sistemi di IA sia attraverso una forma particolarmente forte di general game playing: studiare come e quanto bene essi giochino e imparino a giocare a tutti i giochi umani concepibili, rispetto a giocatori umani con lo stesso livello di esperienza, tempo o altre risorse. Definiamo un "gioco umano" come un gioco progettato da umani per umani, e sosteniamo l'idoneità valutativa di questo spazio di tutti i giochi che le persone possono immaginare e apprezzare – il "Multiverso dei Giochi Umani". Facendo un primo passo verso questa visione, introduciamo AI GameStore, una piattaforma scalabile e aperta che utilizza LLM con umani-in-the-loop per sintetizzare nuovi giochi umani rappresentativi, approvvigionando automaticamente e adattando varianti standardizzate e containerizzate di ambienti di gioco da piattaforme di gioco digitali umane popolari. Come prova di concetto, abbiamo generato 100 di questi giochi basandoci sulle classifiche principali di Apple App Store e Steam, e abbiamo valutato sette modelli visione-linguaggio (VLM) all'avanguardia su brevi episodi di gioco. I modelli migliori hanno ottenuto meno del 10% del punteggio umano medio sulla maggior parte dei giochi, e hanno particolarmente faticato con giochi che mettono alla prova l'apprendimento di modelli del mondo, la memoria e la pianificazione. Concludiamo delineando una serie di passi successivi per sviluppare AI GameStore come metodo pratico per misurare e guidare il progresso verso un'intelligenza generale simile a quella umana nelle macchine.
I modelli predittivi del mondo basati sull'energia forniscono un approccio potente per la pianificazione visiva multi-step ragionando su paesaggi energetici latenti anziché generando pixel. Tuttavia, gli approcci esistenti affrontano due sfide principali: (i) le loro rappresentazioni latenti sono tipicamente apprese in spazio euclideo, trascurando la struttura geometrica e gerarchica sottostante tra gli stati, e (ii) faticano con la predizione a lungo orizzonte, il che porta a un rapido degrado durante rollout estesi. Per affrontare queste sfide, introduciamo GeoWorld, un modello geometrico del mondo che preserva la struttura geometrica e le relazioni gerarchiche attraverso una JEPA iperbolica, che mappa le rappresentazioni latenti dallo spazio euclideo su varietà iperboliche. Introduciamo inoltre il Geometric Reinforcement Learning per l'ottimizzazione basata sull'energia, abilitando una pianificazione multi-step stabile nello spazio latente iperbolico. Esperimenti estensivi su CrossTask e COIN dimostrano un miglioramento di circa il 3% nell'SR per la pianificazione a 3 step e del 2% nell'SR per la pianificazione a 4 step rispetto allo state-of-the-art V-JEPA 2. Sito web del progetto: https://steve-zeyu-zhang.github.io/GeoWorld.
I recenti progressi nei modelli di diffusione del movimento hanno migliorato significativamente il realismo della sintesi del moto umano. Tuttavia, gli approcci esistenti si basano su modelli di diffusione a sequenza completa con generazione bidirezionale, che limita la causalità temporale e l'applicabilità in tempo reale, oppure su modelli autoregressivi che soffrono di instabilità ed errori cumulativi. In questo lavoro, presentiamo i Modelli di Diffusione Causale del Moto (CDCM), un framework unificato per la generazione di moto autoregressiva basato su un transformer di diffusione causale che opera in uno spazio latente semanticamente allineato. CDCM si basa su un VAE Causale con Allineamento Movimento-Linguaggio (MAC-VAE), che codifica sequenze di movimento in rappresentazioni latenti temporalmente causali. Su questa rappresentazione latente, un transformer di diffusione autoregressivo viene addestrato utilizzando il forcing di diffusione causale per eseguire una denoising ordinato temporalmente tra i frame di movimento. Per ottenere un'inferenza veloce, introduciamo una pianificazione di campionamento per frame con incertezza causale, in cui ogni frame successivo è predetto da frame precedenti parzialmente denoisati. Il framework risultante supporta la generazione di movimento da testo di alta qualità, la sintesi in streaming e la generazione di movimento a lungo termine a velocità interattive. Esperimenti su HumanML3D e SnapMoGen dimostrano che CDCM supera i modelli di diffusione e autoregressivi esistenti sia nella fedeltà semantica che nella fluidità temporale, riducendo sostanzialmente la latenza di inferenza.
Fully Sharded Data Parallel (FSDP), noto anche come ZeRO, è ampiamente utilizzato per l'addestramento di modelli su larga scala, caratterizzato dalla sua flessibilità e dalla minima intrusività nel codice del modello. Tuttavia, gli attuali sistemi FSDP faticano a gestire metodi di addestramento *structure-aware* (ad esempio, l'addestramento quantizzato a blocchi) e ottimizzatori non *element-wise* (come Shampoo e Muon) utilizzati in modelli all'avanguardia (ad esempio, Gemini, Kimi K2). I formati di partizionamento (*sharding*) fissi, basati su elementi o righe, dell'FSDP entrano in conflitto con i calcoli a struttura a blocchi. Inoltre, le implementazioni odierne sono carenti in termini di efficienza delle comunicazioni e della memoria, limitando il *scaling* a decine di migliaia di GPU. Introduciamo veScale-FSDP, un sistema FSDP riprogettato che combina un formato di partizionamento flessibile, RaggedShard, con un algoritmo di pianificazione *structure-aware* per offrire sia flessibilità che prestazioni su larga scala. veScale-FSDP supporta nativamente l'efficiente posizionamento dei dati richiesto dall'FSDP, abilitando la quantizzazione a blocchi e gli ottimizzatori non *element-wise*. Di conseguenza, veScale-FSDP raggiunge un *throughput* superiore dal 5% al 66% e un utilizzo della memoria inferiore dal 16% al 30% rispetto ai sistemi FSDP esistenti, scalando efficientemente fino a decine di migliaia di GPU.
La segmentazione a vocabolario aperto (OVS) estende le capacità di riconoscimento zero-shot dei modelli visione-linguaggio (VLM) alla predizione a livello di pixel, consentendo la segmentazione di categorie arbitrarie specificate da prompt testuali. Nonostante i recenti progressi, l'OVS rimane indietro rispetto agli approcci completamente supervisionati a causa di due sfide: la supervisione a livello di immagine grossolana utilizzata per addestrare i VLM e l'ambiguità semantica del linguaggio naturale. Affrontiamo queste limitazioni introducendo un setting few-shot che arricchisce i prompt testuali con un set di supporto di immagini annotate a livello di pixel. Su questa base, proponiamo un adattatore al test-time arricchito da recupero delle informazioni che apprende un classificatore leggero, specifico per ogni immagine, fondendo caratteristiche testuali e visive di supporto. A differenza dei metodi precedenti che si basano su una fusione tardiva e artigianale, il nostro approccio esegue una fusione appresa e specifica per ogni query, raggiungendo una sinergia più forte tra le modalità. Il metodo supporta set di supporto in continua espansione e si applica a compiti di granularità fine come la segmentazione personalizzata. Gli esperimenti dimostrano che riduciamo significativamente il divario tra la segmentazione zero-shot e quella supervisionata, preservando al contempo la capacità di vocabolario aperto.
L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è diventato il paradigma principale per potenziare il ragionamento nei Modelli Linguistici di Grande Dimensioni (LLM). Tuttavia, gli algoritmi RLVR standard soffrono di una patologia ben documentata: sebbene migliorino l'accuratezza Pass@1 attraverso un campionamento più selettivo, restringono simultaneamente i confini del ragionamento del modello e riducono la diversità delle generazioni. Identifichiamo una causa fondamentale trascurata dai metodi esistenti: la penalizzazione uniforme degli errori. Gli approcci attuali – che siano metodi di filtraggio dei dati che selezionano i prompt per difficoltà, o schemi di normalizzazione del vantaggio – trattano tutti i rollout errati all'interno di un gruppo in modo identico. Dimostriamo che questa uniformità permette a errori di eccessiva sicurezza (percorsi di ragionamento errati che il processo RL ha rinforzato in modo spurio) di persistere e monopolizzare la massa di probabilità, sopprimendo infine le traiettorie esplorative valide. Per affrontare questo problema, proponiamo la Penalità per Errore Asimmetrica e Consapevole della Confidenza (ACE). ACE introduce una metrica di scostamento della confidenza per ogni rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), per modulare dinamicamente i vantaggi negativi. Teoricamente, dimostriamo che il gradiente di ACE può essere scomposto nel gradiente di un regolarizzatore selettivo applicato solo agli errori di eccessiva sicurezza, più un residuo ben caratterizzato che mitiga parzialmente l'intensità del regolarizzatore. Conduciamo esperimenti estesi di fine-tuning di Qwen2.5-Math-7B, Qwen3-8B-Base e Llama-3.1-8B-Instruct sul dataset DAPO-Math-17K utilizzando GRPO e DAPO all'interno del framework VERL. Valutato su MATH-500 e AIME 2025, ACE si combina perfettamente con i metodi esistenti e migliora costantemente l'intero spettro Pass@k in tutte e tre le famiglie di modelli e benchmark.
Le allucinazioni dei Large Language Model (LLM) sono solitamente considerate difetti del modello o della sua strategia di decodifica. Attingendo alla linguistica classica, sosteniamo che anche la forma di una query può influenzare la risposta di un ascoltatore (e del modello). Operazionalizziamo questa intuizione costruendo un vettore di caratteristiche delle query a 22 dimensioni, che copre complessità clausale, rarità lessicale, nonché anàfora, negazione, capacità di risposta e ancoraggio dell'intenzione, tutti elementi noti per influenzare la comprensione umana. Utilizzando 369.837 query del mondo reale, ci chiediamo: esistono tipi specifici di query che rendono più probabile un'allucinazione? Un'analisi su larga scala rivela un "paesaggio del rischio" coerente: alcune caratteristiche, come l'annidamento profondo di clausole e la sottospecificazione, si allineano con una maggiore propensione all'allucinazione. Al contrario, un chiaro ancoraggio dell'intenzione e una buona capacità di risposta si associano a tassi di allucinazione più bassi. Altre caratteristiche, inclusa la specificità di dominio, mostrano effetti contrastanti, dipendenti dal dataset e dal modello. Pertanto, questi risultati stabiliscono una rappresentazione empiricamente osservabile delle caratteristiche delle query correlata al rischio di allucinazione, aprendo la strada a riscritture guidate delle query e a futuri studi di intervento.
Presentiamo DLT-Corpus, la più ampia raccolta di testi specialistici per la ricerca sulla Tecnologia dei Registri Distribuiti (DLT) finora realizzata: 2,98 miliardi di token provenienti da 22,12 milioni di documenti che spaziano dalla letteratura scientifica (37.440 pubblicazioni), ai brevetti dell'Ufficio Brevetti e Marchi degli Stati Uniti (USPTO) (49.023 depositi), fino ai social media (22 milioni di post). Le risorse esistenti di Elaborazione del Linguaggio Naturale (NLP) per la DLT si concentrano in modo ristretto sulla previsione del prezzo delle criptovalute e sugli smart contract, lasciando inesplorato il linguaggio di dominio specifico nonostante la capitalizzazione di mercato del settore di circa 3.000 miliardi di dollari e la sua rapida evoluzione tecnologica. Dimostriamo l'utilità di DLT-Corpus analizzando i modelli di emergenza tecnologica e le correlazioni tra mercato e innovazione. I risultati rivelano che le tecnologie originano nella letteratura scientifica prima di raggiungere i brevetti e i social media, seguendo i tradizionali modelli di trasferimento tecnologico. Sebbene il sentiment dei social media rimanga prevalentemente rialzista anche durante i cosiddetti "inverni crittografici", l'attività scientifica e brevettuale cresce indipendentemente dalle fluttuazioni del mercato, ricalcando l'espansione complessiva del mercato in un circolo virtuoso in cui la ricerca precede e abilita la crescita economica che finanzia ulteriore innovazione. Rilasciamo pubblicamente l'intero DLT-Corpus; LedgerBERT, un modello adattato al dominio che registra un miglioramento del 23% rispetto a BERT-base in un'attività di Riconoscimento di Entità Nome (NER) specifica per la DLT; e tutti gli strumenti e il codice associati.
Le capacità di ragionamento avanzate dei Large Language Model (LLM) hanno portato a un aumento delle allucinazioni; tuttavia, la maggior parte del lavoro di mitigazione si concentra su modelli open-source per il rilevamento post-hoc e la modifica parametrica. La carenza di studi sulle allucinazioni nei modelli closed-source è particolarmente preoccupante, poiché questi costituiscono la stragrande maggioranza dei modelli implementati in ambito istituzionale. Introduciamo QueryBandits, un framework contestuale di bandit model-agnostic che apprende in modo adattivo online per selezionare la strategia ottimale di riscrittura delle query, sfruttando una funzione di reward convalidata empiricamente e calibrata. In 16 scenari di QA, il nostro miglior QueryBandit (Thompson Sampling) raggiunge un tasso di successo dell'87,5% rispetto a una baseline No-Rewrite e supera le politiche statiche zero-shot (ad esempio, Paraphrase o Expand) rispettivamente del 42,6% e del 60,3%. Inoltre, tutti i bandit contestuali superano i bandit semplici su tutti i dataset, con una varianza delle feature che coincide con una maggiore varianza nella selezione delle braccia. Ciò conferma la nostra scoperta che non esiste una singola politica di riscrittura ottimale per tutte le query. Scopriamo anche che certe politiche statiche accumulano un rimpianto cumulativo maggiore rispetto a No-Rewrite, indicando che una politica inflessibile di riscrittura delle query può peggiorare le allucinazioni. Pertanto, apprendere una politica online sulle feature semantiche con QueryBandits può modificare il comportamento del modello puramente attraverso meccanismi di forward-pass, consentendone l'uso con modelli closed-source e bypassando la necessità di riaddestramento o adattamento basato su gradienti.
Con i progressi nell'apprendimento per imitazione (IL) e la disponibilità di dataset di guida su larga scala, la guida autonoma end-to-end (E2E-AD) ha compiuto recentemente grandi passi avanti. Attualmente, i metodi basati su IL sono diventati un paradigma dominante: i modelli si basano sui comportamenti di guida standard forniti da esperti e apprendono a minimizzare la discrepanza tra le loro azioni e quelle dell'esperto. Tuttavia, questo obiettivo di "guidare solo come l'esperto" soffre di una generalizzazione limitata: quando si incontrano scenari rari o non visti di coda lunga al di fuori della distribuzione delle dimostrazioni esperte, i modelli tendono a produrre decisioni non sicure in assenza di esperienza pregressa. Ciò solleva una questione fondamentale: un sistema E2E-AD può prendere decisioni affidabili senza alcuna supervisione delle azioni esperte? Motivati da questo, proponiamo un framework unificato chiamato Risk-aware World Model Predictive Control (RaWMPC) per affrontare questo dilemma della generalizzazione attraverso un controllo robusto, senza fare affidamento su dimostrazioni esperte. Nella pratica, RaWMPC utilizza un world model per prevedere le conseguenze di multiple azioni candidate e seleziona azioni a basso rischio attraverso una valutazione esplicita del rischio. Per dotare il world model della capacità di prevedere gli esiti di comportamenti di guida rischiosi, progettiamo una strategia di interazione risk-aware che espone sistematicamente il world model a comportamenti pericolosi, rendendo prevedibili, e quindi evitabili, esiti catastrofici. Inoltre, per generare azioni candidate a basso rischio durante il test, introduciamo un metodo di distillazione tramite autovalutazione per distillare le capacità di evitamento del rischio dal world model addestrato in una rete generativa per la proposta di azioni, senza alcuna dimostrazione esperta. Esperimenti estensivi mostrano che RaWMPC supera i metodi allo stato dell'arte sia in scenari in-distribution che out-of-distribution, fornendo al contempo una superiore interpretabilità delle decisioni.
La segmentazione di immagini mediche rimane una sfida a causa delle annotazioni limitate per l'addestramento, delle caratteristiche anatomiche ambigue e degli shift di dominio. Sebbene modelli visione-linguaggio come CLIP offrano rappresentazioni cross-modali solide, il loro potenziale per una segmentazione densa di immagini mediche guidata da testo rimane poco esplorato. Presentiamo MedCLIPSeg, un framework innovativo che adatta CLIP per una segmentazione di immagini mediche robusta, efficiente dal punto di vista dei dati e consapevole dell'incertezza. Il nostro approccio sfrutta gli embedding CLIP a livello di patch attraverso un'attenzione cross-modale probabilistica, abilitando un'interazione bidirezionale tra i token di immagine e testo e una modellazione esplicita dell'incertezza predittiva. Insieme a una loss contrastiva soft a livello di patch che incoraggia un apprendimento semantico più sfumato attraverso diversi prompt testuali, MedCLIPSeg migliora efficacemente l'efficienza dei dati e la generalizzabilità di dominio. Esperimenti estesi su 16 dataset che coprono cinque modalità di imaging e sei organi dimostrano che MedCLIPSeg supera i metodi precedenti in accuratezza, efficienza e robustezza, fornendo al contempo mappe di incertezza interpretabili che evidenziano l'affidabilità locale dei risultati di segmentazione. Questo lavoro dimostra il potenziale della modellazione probabilistica visione-linguaggio per la segmentazione di immagini mediche guidata da testo.
La generazione di gesti conversazionali realistici è essenziale per ottenere interazioni naturali e socialmente coinvolgenti con umani digitali. Tuttavia, i metodi esistenti mappano tipicamente un singolo flusso audio al movimento di un singolo parlante, senza considerare il contesto sociale o modellare le dinamiche reciproche tra due persone impegnate in una conversazione. Presentiamo DyaDiT, un transformer diffusionale multimodale che genera movimento umano contestualmente appropriato a partire da segnali audio diadici. Addestrato sul Seamless Interaction Dataset, DyaDiT utilizza audio diadico con token socio-contestuali opzionali per produrre movimenti adeguati al contesto. Fonde le informazioni di entrambi i parlanti per catturare le dinamiche interattive, utilizza un dizionario del movimento per codificare priorità di movimento e può facoltativamente utilizzare i gesti del partner conversazionale per produrre movimenti più reattivi. Valutiamo DyaDiT sulle metriche standard di generazione del movimento e conduciamo studi utente quantitativi, dimostrando che non solo supera i metodi esistenti nelle metriche oggettive, ma è anche fortemente preferito dagli utenti, evidenziando la sua robustezza e la generazione di movimenti socialmente favorevoli. Codice e modelli saranno rilasciati all'accettazione.
La scalabilità dell'allineamento multimodale tra video e audio è una sfida complessa, principalmente a causa della limitatezza dei dati e dello scostamento tra le descrizioni testuali e le informazioni video a livello di fotogramma. In questo lavoro, affrontiamo la sfida del scaling nella generazione multimodale-to-audio, investigando se modelli addestrati su istanze brevi possano generalizzare a istanze più lunghe durante i test. Per superare questa sfida, presentiamo le reti multimodali gerarchiche, denominate MMHNet, un'estensione potenziata dei modelli state-of-the-art per la generazione video-to-audio. Il nostro approccio integra un metodo gerarchico e l'architettura Mamma non causale per supportare la generazione di audio di lunga durata. Il metodo proposto migliora significativamente la generazione di audio lungo, fino a oltre 5 minuti. Dimostriamo inoltre che è possibile addestrare su contenuti brevi e testare su contenuti lunghi nelle attività di generazione video-to-audio senza un addestramento specifico su durate maggiori. I nostri esperimenti mostrano che il metodo proposto può ottenere risultati notevoli su benchmark di generazione audio da video lunghi, superando i lavori precedenti nei compiti video-to-audio. Inoltre, evidenziamo la capacità del nostro modello di generare audio per oltre 5 minuti, laddove i metodi video-to-audio esistenti mostrano limitazioni nella generazione di durate prolungate.
La decodifica neurale efficiente dal punto di vista dei dati rappresenta una sfida centrale per le interfacce cervello-computer per il linguaggio. Presentiamo la prima dimostrazione di transfer learning e decodifica cross-task per modelli di linguaggio basati su MEG che abbracciano percezione e produzione. Addestriamo preliminarmente un modello basato su Conformer su 50 ore di dati di ascolto di un singolo soggetto e ottimizziamo il modello utilizzando soli 5 minuti di dati per soggetto su 18 partecipanti. Il transfer learning produce miglioramenti consistenti, con guadagni di accuratezza intra-task dell'1-4% e guadagni cross-task maggiori fino al 5-6%. Non solo il pre-addestramento migliora le prestazioni all'interno di ciascun compito, ma consente anche un'affidabile decodifica cross-task tra percezione e produzione. In modo cruciale, i modelli addestrati sulla produzione del linguaggio decodificano l'ascolto passivo al di sopra del livello casuale, confermando che le rappresentazioni apprese riflettono processi neurali condivisi piuttosto che attività motoria specifica del compito.
L'apprendimento continuo è un requisito fondamentale per i modelli linguistici impiegati in produzione, eppure le pipeline standard di addestramento e fine-tuning rimangono fragili in contesti di dati non stazionari. Gli aggiornamenti online spesso inducono una dimenticanza catastrofica, mentre i metodi che migliorano la stabilità aumentano frequentemente la latenza, l'occupazione di memoria o il carico computazionale in modi che non si adattano bene a contesti lunghi. Introduciamo TRC² (Colonne Corticali con Instradamento Talamico), un'architettura di tipo decoder-only che affronta l'apprendimento continuo a livello architetturale. TRC² combina un instradamento talamico sparso su colonne corticali con meccanismi di modulazione, predizione, memoria e feedback, insieme a un percorso correttivo rapido che supporta un adattamento veloce senza destabilizzare i parametri più lenti. Il blocco risultante è sparso e parallelo per segmenti (chunk), consentendo un addestramento e un'inferenza efficienti preservando al contempo la possibilità di ablazioni pulite di ciascun sottosistema. Istanziamo uno stack riproducibile di addestramento e valutazione e un framework per l'apprendimento continuo che misura la dimenticanza indiretta sotto l'effetto di cambiamenti di dominio in flusso. In vari benchmark di modellazione del linguaggio e apprendimento continuo, TRC² migliora il compromesso stabilità-plasticità a parità di potenza di calcolo, permettendo un rapido adattamento in flusso mentre si preservano i comportamenti appresi in precedenza.