Articoli di ricerca IA selezionati quotidianamente con traduzioni
I moderni LLM sono addestrati a "pensare" principalmente attraverso la generazione esplicita di testo, come il ragionamento a catena (CoT), che rimanda il processo deduttivo alla fase post-addestramento e sfrutta in modo subottimale i dati di pre-addestramento. Presentiamo e rendiamo open-source Ouro, chiamato come il ricorsivo Ouroboros, una famiglia di modelli linguistici ad anello pre-addestrati (LoopLM) che invece integrano il ragionamento nella fase di pre-addestramento attraverso: (i) calcolo iterativo nello spazio latente, (ii) un obiettivo con regolarizzazione dell'entropia per l'allocazione appresa della profondità, e (iii) scalabilità fino a 7.7T di token. I modelli Ouro 1.4B e 2.6B mostrano prestazioni superiori che eguagliano i risultati di LLM all'avanguardia fino a 12B su un'ampia gamma di benchmark. Attraverso esperimenti controllati, dimostriamo che questo vantaggio deriva non da una maggiore capacità di conoscenza, ma da capacità superiori di manipolazione della conoscenza. Mostriamo inoltre che LoopLM produce tracce di ragionamento più allineate con gli output finali rispetto al CoT esplicito. Speriamo che i nostri risultati dimostrino il potenziale di LoopLM come nuova direzione di scalabilità nell'era del ragionamento. Il nostro modello è disponibile su: http://ouro-llm.github.io.
L'ambito dell'intelligenza neurale del codice si sta rapidamente espandendo oltre il codice sorgente testuale per abbracciare i ricchi output visivi generati dai programmi. Questa dimensione visiva è fondamentale per applicazioni avanzate come la generazione flessibile di contenuti e l'editing preciso e guidato da programma delle visualizzazioni. Tuttavia, il progresso è stato ostacolato dalla scarsità di dati di codice multimodale di alta qualità, un collo di bottiglia derivante dalle sfide nella sintesi e nella valutazione della qualità. Per affrontare queste sfide, apportiamo contributi sia da una prospettiva di dati che di modellazione. Introduciamo prima un toolkit di sintesi completo che sfrutta sinergie reciproche tra le modalità dei dati per produrre efficientemente un corpus su larga scala e di alta qualità, che spazia da grafici standard a complesse interfacce utente web interattive e animazioni guidate da codice. Sfruttando questo toolkit, costruiamo JanusCode-800K, il più grande corpus di codice multimodale fino ad oggi. Ciò alimenta l'addestramento dei nostri modelli, JanusCoder e JanusCoderV, che stabiliscono un'interfaccia visivo-programmatica per generare codice da istruzioni testuali, input visivi o una combinazione di entrambi. Il nostro modello unificato rappresenta un distacco dagli approcci esistenti che costruiscono modelli specializzati per compiti isolati. Esperimenti estesi su compiti di codifica sia incentrati sul testo che sulla visione dimostrano le prestazioni superiori della serie JanusCoder, con i nostri modelli su scala da 7B a 14B che si avvicinano o addirittura superano le prestazioni dei modelli commerciali. Inoltre, un'analisi approfondita fornisce intuizioni chiave sull'armonizzazione della logica programmatica con la sua espressione visiva. Il nostro codice e i nostri checkpoint sono disponibili su https://github.com/InternLM/JanusCoder.
I recenti progressi nei metodi di ragionamento visivo, in particolare "Thinking with Images", hanno dimostrato notevoli successi nei Modelli Linguistici Multimodali di Grande Scala (MLLM); tuttavia, questo paradigma di ragionamento dinamico non è stato ancora esteso ai compiti di ragionamento video. In questo articolo, proponiamo Video-Thinker, che consente agli MLLM di ragionare con i video sfruttando autonomamente le loro intrinseche capacità di "grounding" e "captioning" per generare indizi di ragionamento durante il processo inferenziale. Per attivare questa capacità, abbiamo costruito Video-Thinker-10K, un dataset curato che presenta un utilizzo autonomo di strumenti all'interno di sequenze di ragionamento a catena di pensiero (chain-of-thought). La nostra strategia di addestramento inizia con la messa a punto supervisionata (SFT) per apprendere il formato di ragionamento, seguita dall'ottimizzazione delle politiche relative di gruppo (GRPO) per rafforzare questa capacità di ragionamento. Attraverso questo approccio, Video-Thinker consente agli MLLM di navigare autonomamente tra compiti di grounding e captioning per il ragionamento video, eliminando la necessità di costruire e richiamare strumenti esterni. Esperimenti estensivi dimostrano che Video-Thinker raggiunge miglioramenti significativi delle prestazioni sia su compiti in-dominio che su benchmark di ragionamento video out-of-domain impegnativi, tra cui Video-Holmes, CG-Bench-Reasoning e VRBench. Il nostro modello Video-Thinker-7B supera sostanzialmente i baseline esistenti come Video-R1 e stabilisce prestazioni all'avanguardia tra gli MLLM di dimensione 7B.
Questo monografo presenta i principi fondamentali che hanno guidato lo sviluppo dei modelli di diffusione, ripercorrendone le origini e mostrando come formulazioni diverse scaturiscano da idee matematiche condivise. La modellazione di diffusione inizia definendo un processo diretto che corrompe gradualmente i dati in rumore, collegando la distribuzione dei dati a un prior semplice attraverso un continuum di distribuzioni intermedie. L'obiettivo è apprendere un processo inverso che trasformi il rumore nuovamente in dati, ricostruendo le stesse distribuzioni intermedie. Descriviamo tre prospettive complementari. La prospettiva variazionale, ispirata agli autoencoder variazionali, interpreta la diffusione come l'apprendimento della rimozione del rumore passo dopo passo. La prospettiva basata sul punteggio (score-based), radicata nella modellazione basata sull'energia, apprende il gradiente della distribuzione dati in evoluzione, indicando come spostare i campioni verso regioni più probabili. La prospettiva basata sul flusso (flow-based), correlata ai flussi normalizzanti (normalizing flows), tratta la generazione come l'atto di seguire un percorso regolare che muove i campioni dal rumore ai dati sotto un campo di velocità appreso. Queste prospettive condividono una struttura comune: un campo di velocità dipendente dal tempo il cui flusso trasporta un prior semplice verso i dati. Il campionamento equivale quindi a risolvere un'equazione differenziale che evolve il rumore in dati lungo una traiettoria continua. Su queste fondamenta, il monografo discute tecniche di guida (guidance) per la generazione controllabile, risolutori numerici efficienti e modelli basati sulla mappa di flusso (flow-map) ispirati alla diffusione che apprendono mappature dirette tra tempi arbitrari. Offre una comprensione concettuale e matematicamente fondata dei modelli di diffusione per lettori con una conoscenza di base del deep learning.
L'autoformalizzazione, che traduce la matematica in linguaggio naturale in enunciati formali verificabili dalla macchina, è fondamentale per utilizzare il ragionamento matematico formale nella risoluzione di problemi matematici espressi in linguaggio naturale. Sebbene i Modelli Linguistici di Grande Dimensione (LLM) possano generare enunciati formalmente corretti, spesso non riescono a preservare l'intento semantico originale del problema. Questa limitazione deriva dal fatto che gli approcci basati su LLM trattano l'autoformalizzazione come un semplice compito di traduzione, privo dei meccanismi di autoriflessione e raffinamento iterativo che gli esperti umani impiegano naturalmente. Per affrontare questi problemi, proponiamo ReForm, un metodo di Autoformalizzazione Riflessiva che integra strettamente la valutazione della coerenza semantica nel processo di autoformalizzazione. Ciò consente al modello di generare iterativamente enunciati formali, valutarne la fedeltà semantica e autocorreggere gli errori identificati attraverso un raffinamento progressivo. Per addestrare efficacemente questo modello riflessivo, introduciamo l'Ottimizzazione di Sequenza con Limite Prospettico (PBSO), che utilizza ricompense diverse in diverse posizioni della sequenza per garantire che il modello sviluppi sia un'autoformalizzazione accurata che validazioni semantiche corrette, prevenendo critiche superficiali che minerebbero lo scopo della riflessione. Esperimenti estesi su quattro benchmark di autoformalizzazione dimostrano che ReForm ottiene un miglioramento medio di 17,2 punti percentuali rispetto ai baseline più robusti. Per garantire ulteriormente l'affidabilità della valutazione, introduciamo ConsistencyCheck, un benchmark di 859 elementi annotati da esperti che non solo convalida gli LLM come giudici, ma rivela anche che l'autoformalizzazione è intrinsecamente difficile: persino esperti umani producono errori semantici fino al 38,5% dei casi.
Gli agenti linguistici destinati ad applicazioni reali devono gestire flussi di lavoro complessi e multi-step attraverso applicazioni diverse. Ad esempio, un agente potrebbe gestire le email coordinando calendari e file system, o monitorare un database di produzione per rilevare anomalie e generare report seguendo un manuale operativo. Tuttavia, i benchmark esistenti per agenti linguistici si concentrano spesso su domini ristretti o su compiti semplificati, che mancano della diversità, del realismo e della complessità di lungo orizzonte necessari per valutare le prestazioni degli agenti in scenari reali. Per colmare questa lacuna, introduciamo il Tool Decathlon (soprannominato Toolathlon), un benchmark per agenti linguistici che offre applicazioni e strumenti diversificati, un setup ambientale realistico e una valutazione affidabile basata sull'esecuzione. Toolathlon copre 32 applicazioni software e 604 strumenti, che spaziano da piattaforme di uso comune come Google Calendar e Notion a quelle professionali come WooCommerce, Kubernetes e BigQuery. La maggior parte degli strumenti si basa su un insieme di alta qualità di server Model Context Protocol (MCP) che abbiamo revisionato o implementato noi stessi. A differenza dei lavori precedenti, che assicurano principalmente un realismo funzionale ma offrono una diversità limitata degli stati ambientali, noi forniamo stati ambientali iniziali realistici ricavati da software reali, come corsi Canvas con dozzine di studenti o fogli di calcolo finanziari reali. Questo benchmark include in totale 108 task raccolti o creati manualmente, che richiedono di interagire con più applicazioni per circa 20 turni in media per essere completati. Ogni task è verificabile in modo rigoroso tramite script di valutazione dedicati. Una valutazione completa dei modelli state-of-the-art ne evidenzia le significative carenze: il modello con le prestazioni migliori, Claude-4.5-Sonnet, raggiunge solo un tasso di successo del 38.6% con una media di 20.2 turni di chiamata a strumento, mentre il miglior modello open-weights, DeepSeek-V3.2-Exp, raggiunge il 20.1%. Ci attendiamo che Toolathlon guidi lo sviluppo di agenti linguistici più capaci per l'esecuzione di task reali e di lungo orizzonte.
L'addestramento post-allenamento basato su apprendimento per rinforzo (RL) è stato cruciale per abilitare il ragionamento a più passi nei grandi modelli di ragionamento (LRM), tuttavia gli schemi di ricompensa attuali sono tipicamente incentrati sul risultato. Proponiamo PM4GRPO, un'ottimizzazione delle politiche relative di gruppo (GRPO) consapevole del processo di ragionamento, che integra le ricompense standard per risposta/formato con segnali relativi alla procedura di ragionamento. A tal fine, vengono utilizzate tecniche di process mining per calcolare una ricompensa scalare di conformità che misura quanto strettamente il ragionamento di un modello politico si allinei con il modello insegnante pre-addestrato. I risultati empirici su cinque benchmark dimostrano che PM4GRPO supera significativamente le metodologie esistenti per l'addestramento post-allenamento basato su GRPO. Questi risultati evidenziano come l'utilizzo del process mining per un GRPO consapevole del ragionamento migliori efficacemente le capacità di ragionamento dei modelli politici.
Proponiamo Ming-Flash-Omni, una versione potenziata di Ming-Omni, basata su una variante più sparsa di Mixture-of-Experts (MoE) di Ling-Flash-2.0 con un totale di 100 miliardi di parametri, di cui solo 6.1 miliardi sono attivi per token. Questa architettura consente uno scaling altamente efficiente (migliorando drasticamente l'efficienza computazionale mentre espande significativamente la capacità del modello) e potenzia una più forte intelligenza multimodale unificata che abbraccia visione, parlato e linguaggio, rappresentando un passo cruciale verso l'Intelligenza Artificiale Generale (AGI). Rispetto al suo predecessore, la versione aggiornata mostra miglioramenti sostanziali nella comprensione e generazione multimodale. Abbiamo fatto progressi significativi nelle capacità di riconoscimento vocale, raggiungendo prestazioni all'avanguardia nell'ASR contestuale e risultati altamente competitivi nell'ASR consapevole dei dialetti. Nella generazione di immagini, Ming-Flash-Omni introduce un rendering testuale ad alta fedeltà e dimostra marcati miglioramenti nella coerenza della scena e nella preservazione dell'identità durante l'editing delle immagini. Inoltre, Ming-Flash-Omni introduce la segmentazione generativa, una capacità che non solo raggiunge solide prestazioni di segmentazione autonome, ma migliora anche il controllo spaziale nella generazione di immagini e aumenta la coerenza dell'editing. Degno di nota, Ming-Flash-Omni ottiene risultati all'avanguardia nella generazione di immagini da testo e nella segmentazione generativa, e stabilisce nuovi record in tutti i 12 benchmark di ASR contestuale, il tutto all'interno di un'unica architettura unificata.
Gli effetti visivi (VFX) sono cruciali per il potere espressivo dei media digitali, tuttavia la loro creazione rimane una sfida significativa per l'IA generativa. I metodi predominanti si basano spesso sul paradigma "un-LoRA-per-effetto", che è dispensioso in termini di risorse e fondamentalmente incapace di generalizzare a effetti non visti, limitando così scalabilità e creatività. Per affrontare questa sfida, presentiamo VFXMaster, il primo framework unificato e reference-based per la generazione di video VFX. Esso riformula la generazione di effetti come un task di in-context learning, consentendo di riprodurre diversi effetti dinamici da un video di riferimento su contenuti target. Inoltre, dimostra una notevole generalizzazione a categorie di effetti non viste. Nello specifico, progettiamo una strategia di condizionamento in-context che fornisce al modello un esempio di riferimento. Una maschera di attenzione in-context è progettata per decopiare e iniettare con precisione gli attributi essenziali dell'effetto, permettendo a un singolo modello unificato di padroneggiare l'imitazione dell'effetto senza dispersioni informative. In aggiunta, proponiamo un efficiente meccanismo di adattamento one-shot per potenziare rapidamente la capacità di generalizzazione su effetti non visti complessi partendo da un singolo video fornito dall'utente. Esperimenti estensivi dimostrano che il nostro metodo imita efficacemente varie categorie di informazioni sugli effetti ed esibisce un'eccezionale generalizzazione a effetti out-of-domain. Per promuovere la ricerca futura, rilasceremo alla comunità il nostro codice, i modelli e un dataset completo.
Recentemente, l'editing di immagini basato su istruzioni (IIE) ha ricevuto ampia attenzione. Nella pratica, l'IIE modifica spesso solo regioni specifiche di un'immagine, mentre le aree rimanenti rimangono sostanzialmente invariate. Sebbene queste due tipologie di regioni differiscano significativamente in termini di difficoltà di generazione e ridondanza computazionale, i modelli IIE esistenti non tengono conto di questa distinzione, applicando invece un processo di generazione uniforme sull'intera immagine. Ciò ci ha motivato a proporre RegionE, un framework di generazione adattivo e region-aware che accelera i task IIE senza training aggiuntivo. Nello specifico, il framework RegionE consiste di tre componenti principali: 1) Partizione Adattiva della Regione. Abbiamo osservato che la traiettoria delle regioni non modificate è rettilinea, consentendo di inferire predizioni denoisate multi-step in un singolo passo. Pertanto, nelle fasi iniziali di denoising, partizioniamo l'immagine in regioni modificate e non modificate basandoci sulla differenza tra il risultato stimato finale e l'immagine di riferimento. 2) Generazione Region-Aware. Dopo aver distinto le regioni, sostituiamo il denoising multi-step con una predizione one-step per le aree non modificate. Per le regioni modificate, la traiettoria è curvilinea, richiedendo un denoising iterativo locale. Per migliorare l'efficienza e la qualità della generazione iterativa locale, proponiamo la Region-Instruction KV Cache, che riduce il costo computazionale incorporando al contempo informazioni globali. 3) Adaptive Velocity Decay Cache. Osservando che step temporali adiacenti nelle regioni modificate mostrano forte similarità di velocità, proponiamo ulteriormente una cache di decadimento adattivo della velocità per accelerare il processo di denoising locale. Abbiamo applicato RegionE a modelli base IIE all'avanguardia, inclusi Step1X-Edit, FLUX.1 Kontext e Qwen-Image-Edit. RegionE ha raggiunto fattori di accelerazione di 2.57, 2.41 e 2.06. Valutazioni condotte da GPT-4o hanno confermato che la fedeltà semantica e percettiva è stata preservata efficacemente.
Le interazioni biomolecolari sono alla base di quasi tutti i processi biologici, e la loro progettazione razionale è fondamentale per programmare nuove funzioni biologiche. I modelli di intelligenza artificiale generativa sono emersi come strumenti potenti per il design molecolare, ma la maggior parte rimane specializzata per singoli tipi molecolari e manca di un controllo granulare sui dettagli interattivi. Qui presentiamo ODesign, un modello generativo di mondo a tutti gli atomi per la progettazione di interazioni biomolecolari tutti-a-tutti. ODesign consente agli scienziati di specificare epitopi su target arbitrari e generare diverse classi di partner leganti con controllo fine. Attraverso benchmark a livello di entità, token e atomo nella modalità proteica, ODesign dimostra una controllabilità e prestazioni superiori rispetto a baseline specifiche per modalità. Estendendosi oltre le proteine, generalizza alla progettazione di acidi nucleici e piccole molecole, abilitando tipi di interazione come RNA/DNA leganti proteine e ligandi leganti RNA/DNA precedentemente inaccessibili. Unificando le interazioni biomolecolari multimodali in un unico framework generativo, ODesign avanza verso un modello di mondo molecolare generico capace di design programmabile. ODesign è disponibile all'indirizzo https://odesign.lglab.ac.cn.
I sistemi di Generazione Aumentata dal Recupero (RAG) stanno diventando sempre più cruciali in domini dinamici come il gaming online, ma la mancanza di un benchmark dedicato ha ostacolato una valutazione standardizzata in questo ambito. La difficoltà principale risiede nella Doppia Dinamica: l'interazione costante tra gli aggiornamenti dei contenuti di gioco e il mutevole focus della community dei giocatori. Inoltre, la necessità di automatizzare tale benchmark introduce un requisito critico di autenticità centrata sul giocatore, per garantire che le domande generate siano realistiche. Per affrontare questa sfida integrata, introduciamo ChronoPlay, un framework innovativo per la generazione automatizzata e continua di benchmark RAG per giochi. ChronoPlay utilizza un meccanismo di aggiornamento a doppia dinamica per tracciare entrambe le forme di cambiamento e un motore di sintesi a doppia fonte che attinge da fonti ufficiali e dalla community dei giocatori per garantire sia la correttezza fattuale che modelli di interrogazione autentici. Istanziamo il nostro framework su tre giochi distinti per creare il primo benchmark RAG dinamico per il dominio del gaming, offrendo nuove intuizioni sulle prestazioni dei modelli in queste condizioni complesse e realistiche. Il codice è disponibile all'indirizzo: https://github.com/hly1998/ChronoPlay.
Gli esseri umani possiedono capacità di ragionamento spaziale che consentono loro di comprendere gli spazi attraverso osservazioni multimodali, come la vista e l'udito. I grandi modelli di ragionamento multimodale estendono queste abilità imparando a percepire e ragionare, dimostrando prestazioni promettenti in varie attività spaziali. Tuttavia, revisioni sistematiche e benchmark pubblicamente disponibili per questi modelli rimangono limitati. In questa rassegna, forniamo una revisione completa dei compiti di ragionamento spaziale multimodale con grandi modelli, categorizzando i recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) e introducendo benchmark aperti per la valutazione. Iniziamo delineando il ragionamento spaziale generale, concentrandoci sulle tecniche post-addestramento, la spiegabilità e l'architettura. Oltre ai classici compiti 2D, esaminiamo il ragionamento sulle relazioni spaziali, la comprensione di scene e layout, nonché la risposta a domande visive e il grounding nello spazio 3D. Rivediamo inoltre i progressi nell'AI incarnata, inclusi i modelli di navigazione e azione visione-linguaggio. Consideriamo anche modalità emergenti come l'audio e il video egocentrico, che contribuiscono a una nuova comprensione spaziale attraverso nuovi sensori. Riteniamo che questa rassegna stabilisca una solida base e offra spunti sul crescente campo del ragionamento spaziale multimodale. Informazioni aggiornate su questa rassegna, codici e implementazione dei benchmark aperti sono disponibili su https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
Il rapido progresso e la diffusione su larga scala dei LLM e degli agenti basati su LLM hanno superato la nostra capacità di valutarli. I benchmark statici creati manualmente sono il principale strumento per valutare le capacità dei modelli, ma questi diventano rapidamente saturi. Al contrario, i benchmark dinamici si evolvono insieme ai modelli che valutano, ma sono costosi da creare e aggiornare continuamente. Per affrontare queste sfide, sviluppiamo BeTaL (Benchmark Tuning with an LLM-in-the-loop), un framework che sfrutta i principi di progettazione degli ambienti per automatizzare il processo di progettazione di benchmark dinamici. BeTaL funziona parametrizzando le scelte progettuali chiave in modelli di benchmark di base e utilizza i LLM per ragionare sullo spazio parametrico risultante al fine di ottenere proprietà target (come difficoltà e realismo) in modo economicamente efficiente. Convalidiamo questo approccio sulla sua capacità di creare benchmark con livelli di difficoltà desiderati. Utilizzando BeTaL, creiamo due nuovi benchmark ed estendiamo un popolare benchmark agentico, tau-bench. Una valutazione estensiva su questi tre compiti e su più livelli di difficoltà target mostra che BeTaL produce benchmark molto più vicini alla difficoltà desiderata, con deviazioni medie che vanno dal 5,3% al 13,2% – un miglioramento di 2-4 volte rispetto ai baseline.
Presentiamo Gaperon, una suite completamente open di modelli linguistici francese-inglese-progammazione, progettata per promuovere la trasparenza e la riproducibilità nell'addestramento di modelli su larga scala. La famiglia Gaperon include modelli da 1.5B, 8B e 24B di parametri, addestrati su 2-4 trilioni di token, rilasciati con tutti gli elementi della pipeline di addestramento: dataset in francese e inglese filtrati con un classificatore neurale di qualità, un framework efficiente per la curatela dei dati e l'addestramento, e centinaia di checkpoint intermedi. Attraverso questo lavoro, studiamo come l'interazione tra filtraggio dei dati e contaminazione plasmi le performance sia sui benchmark che nella generazione. Scopriamo che il filtraggio per qualità linguistica migliora la fluidità e la coerenza del testo, ma produce risultati inferiori ai benchmark, e che una contaminazione deliberata tardiva – proseguendo l'addestramento su mix di dati che includono i set di test – permette di recuperare punteggi competitivi danneggiando solo in misura ragionevole la qualità generativa. Discutiamo di come il consueto filtraggio neurale possa amplificare involontariamente la fuoriuscita di dati dai benchmark. Per supportare ulteriori ricerche, introduciamo anche un data poisoning innocuo durante il pre-training, fornendo un banco di prova realistico per studi sulla sicurezza. Rilasciando apertamente tutti i modelli, i dataset, il codice e i checkpoint, Gaperon stabilisce una base riproducibile per esplorare i compromessi tra curatela dei dati, valutazione, sicurezza e apertura nello sviluppo di modelli linguistici multilingue.
I Large Language Model (LLM) sono potenti, ma spesso troppo lenti e costosi per un utilizzo pratico nel mondo reale durante l'inferenza. I transformer con loop consentono di risparmiare parametri riutilizzando gli stessi pesi per più passi computazionali, o "loop". Tuttavia, questo approccio presenta un difetto principale: i loop vengono eseguiti uno dopo l'altro, causando un aumento della latenza di inferenza e dei requisiti di memoria con ogni loop aggiuntivo. Ciò li rende impraticabili per applicazioni veloci. Per risolvere questo problema, introduciamo il Parallel Loop Transformer (PLT). PLT è una nuova architettura che offre i vantaggi prestazionali di un modello profondo con loop, ma con la bassa latenza di un modello standard senza loop. PLT funziona utilizzando due tecniche chiave. Innanzitutto, il Parallelismo Incrociato dei Loop (Cross-Loop Parallelism, CLP) rompe la dipendenza sequenziale calcolando loop diversi per token diversi contemporaneamente, tutto all'interno di un singolo passaggio. In secondo luogo, per impedire la crescita dei costi di memoria, utilizziamo una strategia di Miglioramento Efficiente della Rappresentazione. Questo metodo condivide la memoria (cache KV) del primo loop con tutti gli altri loop. Utilizza quindi un'attenzione a finestra scorrevole con gate (Gated Sliding-Window Attention, G-SWA) per combinare queste informazioni globali condivise con le informazioni locali, mantenendo un'elevata accuratezza. I nostri esperimenti mostrano che PLT raggiunge l'elevata accuratezza di un modello tradizionale con loop, ma con quasi nessun costo aggiuntivo di latenza o memoria rispetto a un transformer standard.
I modelli unificati visione-linguaggio (UVLM) devono eseguire sia la comprensione che la generazione all'interno di un'unica architettura, ma questi compiti si basano su dati e supervisione eterogenei, rendendo difficile bilanciarli durante l'apprendimento per rinforzo (RL). Proponiamo PairUni, un framework unificato che riorganizza i dati in coppie comprensione-generazione (UG) e allinea di conseguenza l'ottimizzazione. Utilizziamo prima GPT-4 per aumentare i dati a compito singolo, generando didascalie per i campioni di comprensione e coppie domanda-risposta (QA) per i campioni di generazione, formando coppie allineate dalla stessa istanza. Inoltre, per ogni campione di generazione, recuperiamo un esempio di comprensione semanticamente correlato per formare una coppia recuperata, collegando punti dati diversi ma correlati. Queste strutture accoppiate espongono corrispondenze semantiche cross-task e supportano un apprendimento della policy coerente. Per sfruttare questa struttura, presentiamo Pair-GPRO, una variante pair-aware basata sull'ottimizzazione della policy relativa di gruppo. Assegna un punteggio di similarità a ogni coppia per modulare il vantaggio, rafforzando l'apprendimento da esempi ben allineati e riducendo l'interferenza tra compiti. Curiamo un dataset di alta qualità di 16K coppie UG denominato PairUG per il fine-tuning RL e valutiamo PairUni sui potenti UVLM Janus-Pro. Il nostro approccio raggiunge miglioramenti bilanciati su vari UVLM, superando solidi baseline RL per UVLM. Codice: https://github.com/Haochen-Wang409/PairUni
L'implementazione pratica di Sistemi Multi-Agente (MAS) richiede prestazioni solide durante il test, motivando metodi che guidano la ricerca in fase di inferenza e spendono selettivamente risorse computazionali per migliorare la qualità. Presentiamo il Multi-Agent System Process Reward Model (MASPRM). Esso assegna valori per azione e per agente a trascrizioni parziali delle interazioni tra agenti e funge da controllore in fase di inferenza. MASPRM viene addestrato a partire da rollout di Monte Carlo Tree Search (MCTS) multi-agente senza richiedere annotazioni umane a livello di singolo passo, propagando i ritorni verso target locali. In fase di inferenza, MASPRM guida la beam search a livello di passo e il MCTS, concentrando il calcolo sui rami promettenti e potando precocemente. Su GSM8K e MATH, il decoding guidato da MASPRM con un outcome reward model (ORM) applicato alla risposta finale, migliora l'Exact Match (EM) rispetto a un singolo passaggio diretto di un MAS di +30.7 e +22.9 punti, rispettivamente. Un MASPRM addestrato su GSM8K si trasferisce zero-shot su MATH senza riaddestramento, aggiungendo 8.4 punti EM a parità di budget computazionale. MASPRM è un modello di valore plug-in che stima il progresso per agente e complementa decoder di tipo verificatore, abilitando un ragionamento multi-agente più affidabile e consapevole del costo computazionale. Codice: https://github.com/milad1378yz/MASPRM
In questo articolo presentiamo un framework per l'addestramento di grandi modelli linguistici (LLM) come agenti diagnostici mediante apprendimento per rinforzo, consentendo loro di gestire processi diagnostici multi-turno, selezionare esami in modo adattivo e formulare diagnosi definitive. A differenza di modelli addestrati su istruzioni con riepiloghi statici di casi, il nostro metodo acquisisce strategie diagnostiche attraverso esplorazione interattiva e feedback basato sugli esiti. I nostri contributi sono quadrupli: (i) Presentiamo DiagGym, un modello del mondo diagnostico addestrato su cartelle cliniche elettroniche che emette esiti degli esami condizionati alla storia del paziente e all'esame raccomandato, fungendo da ambiente clinico virtuale per l'addestramento e la valutazione diagnostica realistica; (ii) Addestriamo DiagAgent tramite apprendimento per rinforzo end-to-end e multi-turno per apprendere politiche diagnostiche che ottimizzino sia la resa informativa che l'accuratezza diagnostica; (iii) Introduciamo DiagBench, un benchmark diagnostico comprendente 750 casi con raccomandazioni di esami validate da medici e 99 casi annotati con 973 rubriche scritte da medici sul processo diagnostico; (iv) Dimostriamo prestazioni superiori in diversi contesti diagnostici. DiagAgent supera significativamente 10 LLM all'avanguardia, inclusi DeepSeek-v3 e GPT-4o, oltre a due agenti con prompt engineering. In contesti single-turn, DiagAgent raggiunge un'accuratezza diagnostica superiore del 9,34% e un miglioramento del 44,03% nell'hit ratio delle raccomandazioni di esami. In contesti end-to-end, produce un aumento del 15,12% nell'accuratezza diagnostica e un incremento del 23,09% nell'F1-score delle raccomandazioni di esami. Nella valutazione basata su rubriche, supera il modello successivo per prestazioni, Claude-sonnet-4, del 7,1% nel punteggio ponderato delle rubriche. Questi risultati indicano che l'apprendimento di politiche in ambienti clinici interattivi conferisce capacità dinamiche e clinicamente significative di gestione diagnostica non ottenibili attraverso il solo addestramento passivo.
I recenti progressi nei modelli di mondo di guida consentono la generazione controllata di video RGB di alta qualità o video multimodali. I metodi esistenti si concentrano principalmente su metriche relative alla qualità della generazione e alla controllabilità. Tuttavia, trascurano spesso la valutazione dei compiti di percezione a valle, che sono cruciali per le prestazioni della guida autonoma. I metodi esistenti utilizzano solitamente una strategia di addestramento che prevede prima un pre-addestramento su dati sintetici e un successivo affinamento su dati reali, risultando in un numero di epoche doppio rispetto al baseline (solo dati reali). Quando raddoppiamo le epoche nel baseline, il beneficio dei dati sintetici diventa trascurabile. Per dimostrare approfonditamente il vantaggio dei dati sintetici, introduciamo Dream4Drive, un nuovo framework di generazione di dati sintetici progettato per migliorare i compiti di percezione a valle. Dream4Drive scompone prima il video di input in diverse mappe di guida 3D-aware e successivamente renderizza le risorse 3D su queste mappe di guida. Infine, il modello di mondo di guida viene affinato per produrre i video editati, fotorealistici e multi-view, che possono essere utilizzati per addestrare i modelli di percezione a valle. Dream4Drive consente una flessibilità senza precedenti nella generazione su larga scala di casi limite multi-view, migliorando significativamente la percezione dei casi limite nella guida autonoma. Per facilitare la ricerca futura, contribuiamo anche con un ampio dataset di risorse 3D chiamato DriveObj3D, che copre le categorie tipiche degli scenari di guida e consente diverse operazioni di video editing 3D-aware. Condurre esperimenti completi per dimostrare che Dream4Drive può migliorare efficacemente le prestazioni dei modelli di percezione a valle sotto varie epoche di addestramento. Pagina: https://wm-research.github.io/Dream4Drive/ Link GitHub: https://github.com/wm-research/Dream4Drive
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è emerso come un paradigma promettente per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). In questo contesto, i modelli esplorano traiettorie di ragionamento e sfruttano rollout con risposte corrette come segnali positivi per l'ottimizzazione della politica. Tuttavia, questi rollout possono includere pattern imperfetti come l'indovinamento della risposta e ragionamenti a salti. Questi rollout flawed-positive vengono ricompensati allo stesso modo di quelli completamente corretti, portando i modelli policy a interiorizzare questi pattern di ragionamento inaffidabili. In questo lavoro, conduciamo prima uno studio sistematico dei rollout flawed-positive nell'RL e scopriamo che essi consentono rapidi guadagni di capacità durante la fase iniziale di ottimizzazione, mentre limitano la capacità di ragionamento in seguito rinforzando pattern inaffidabili. Sulla base di queste intuizioni, proponiamo l'Ottimizzazione della Politica Consapevole degli Errori (FAPO), che introduce una penalità di ricompensa senza parametri per i rollout flawed-positive, consentendo alla politica di sfruttarli come scorciatoie utili nella fase di warm-up, garantendo guadagni iniziali stabili, mentre gradualmente sposta l'ottimizzazione verso un ragionamento affidabile nella fase successiva di raffinamento. Per rilevare in modo accurato e completo i rollout flawed-positive, introduciamo un modello di ricompensa generativo (GenRM) con una ricompensa a livello di processo che localizza con precisione gli errori di ragionamento. Gli esperimenti mostrano che FAPO è efficace in ambiti vasti, migliorando la correttezza dei risultati, l'affidabilità del processo e la stabilità dell'addestramento senza aumentare il budget di token.
I recenti progressi nei grandi modelli linguistici (LLM) basati esclusivamente su testo, come DeepSeek-R1, dimostrano capacità di ragionamento notevoli. Tuttavia, questi modelli rimangono fragili o completamente incapaci quando estesi a compiti multimodali. Gli approcci esistenti si basano prevalentemente su descrizioni di forma singola, che mancano di diversità e spesso non riescono ad adattarsi a diversi tipi di benchmark di Visual Question Answering (VQA). Di conseguenza, non forniscono un canale principiato o efficiente per trasmettere informazioni visive di fine granularità. Introduciamo Seeing Eye, un framework modulare che sblocca il ragionamento multimodale nei LLM basati solo su testo attraverso un traduttore VLM piccolo basato su agente. Questo traduttore agisce come un agente di percezione: può richiamare strumenti specializzati (ad esempio, OCR e ritaglio) e distillare iterativamente input multimodali in rappresentazioni intermedie strutturate (SIR) cucite sulla domanda. Queste SIR vengono poi passate al LLM basato solo su testo, che funge da agente di ragionamento. Fondamentalmente, il traduttore e il motore di ragionamento si impegnano in un feedback e un'interazione multi-round, permettendo l'estrazione di dettagli visivi mirati e producendo risposte più confidenti. Esperimenti su benchmark VQA ad alta intensità di conoscenza, inclusi MMMU e MIA-Bench, dimostrano che Seeing Eye non solo riduce il costo di inferenza ma supera anche VLM end-to-end molto più grandi. Ad esempio, un'istanza che combina un traduttore visivo da 3 miliardi di parametri con un motore di ragionamento linguistico da 8 miliardi di parametri supera un VLM monolitico da 32B su domande complesse basate sulla conoscenza. I nostri risultati evidenziano che disaccoppiare la percezione dal ragionamento attraverso un flusso di informazioni ad agente offre un percorso scalabile e plug-and-play verso il ragionamento multimodale, consentendo ai potenti LLM basati solo su testo di sfruttare appieno le loro capacità di ragionamento. Il codice è disponibile all'indirizzo: https://github.com/ulab-uiuc/SeeingEye
Il modello linguistico di ragionamento (RLLM) ha dimostrato di essere competitivo nella risoluzione di compiti complessi come la matematica e la codifica rispetto ai modelli linguistici generali. Tuttavia, le prestazioni e il comportamento di servizio degli RLLM rimangono inesplorati, il che potrebbe comprometterne l'implementazione e l'utilizzo in scenari reali. Per colmare questa lacuna, in questo articolo conduciamo uno studio completo sul servizio RLLM. Iniziamo con uno studio pilota che confronta le prestazioni di servizio tra RLLM e LLM tradizionali, rivelando diverse differenze comportamentali: (1) utilizzo e fluttuazioni significative della memoria; (2) richieste ritardatarie; (3) tempo di esecuzione adattivo; (4) preferenza di dominio. Successivamente indaghiamo se le tecniche di ottimizzazione dell'inferenza esistenti siano valide per gli RLLM. I principali risultati indicano che i metodi di quantizzazione del modello e il decoding speculativo migliorano l'efficienza del sistema di servizio con un lieve compromesso sull'accuratezza degli RLLM, mentre la cache dei prefissi e la quantizzazione della KV cache possono persino degradare l'accuratezza o le prestazioni per RLLM di piccole dimensioni. Infine, conduciamo una valutazione sotto un carico di lavoro reale modellato con distribuzione Gamma per verificare i nostri risultati. I risultati empirici su diversi dataset confermano le principali osservazioni relative al servizio RLLM. Speriamo che il nostro lavoro possa fornire alla comunità di ricerca e all'industria spunti per far avanzare l'inferenza dei modelli RLLM.
Lo sviluppo dell'Intelligenza Artificiale (IA), inclusa l'IA nella Scienza (AIS), dovrebbe avvenire seguendo i principi dell'IA responsabile. I progressi nell'IA responsabile sono spesso quantificati attraverso metriche di valutazione, ma sono stati condotti meno lavori sulla valutazione della robustezza e dell'affidabilità delle metriche stesse. Riflettiamo su lavori precedenti che esaminano la robustezza delle metriche di equità per i sistemi di raccomandazione come tipo di applicazione di IA e sintetizziamo i loro principali risultati in una serie di linee guida non esaustive per sviluppare metriche affidabili per l'IA responsabile. Le nostre linee guida si applicano a un ampio spettro di applicazioni di IA, inclusa l'AIS.
Il rapido progresso dei grandi modelli linguistici (LLM) ha intensificato la necessità di valutazioni specifiche per dominio e cultura. I benchmark esistenti sono largamente anglocentrici e agnostici al dominio, limitandone l'applicabilità ai contesti incentrati sull'India. Per colmare questa lacuna, presentiamo BhashaBench V1, il primo benchmark bilingue, multi-task e specifico per dominio che si concentra sui sistemi di conoscenza critici dell'Indic. BhashaBench V1 contiene 74.166 coppie domanda-risposta meticolosamente curate, con 52.494 in inglese e 21.672 in hindi, provenienti da autentici esami governativi e di dominio specifico. Copre quattro domini principali: Agricoltura, Legale, Finanza e Ayurveda, comprendendo oltre 90 sottodomini e coprendo più di 500 argomenti, consentendo una valutazione granulare. La valutazione di oltre 29 LLM rivela significative lacune prestazionali specifiche per dominio e lingua, con disparità particolarmente ampie nei domini a bassa risorsa. Ad esempio, GPT-4o raggiunge un'accuratezza complessiva del 76,49% in Legale ma solo del 59,74% in Ayurveda. I modelli performano costantemente meglio sui contenuti in inglese rispetto all'hindi in tutti i domini. L'analisi a livello di sottodominio mostra che aree come Diritto Informatico e Finanza Internazionale performano relativamente bene, mentre Panchakarma, Scienza delle Sementi e Diritti Umani rimangono notevolmente deboli. BhashaBench V1 fornisce un dataset completo per valutare i grandi modelli linguistici attraverso i diversificati domini conoscitivi dell'India. Consente di valutare la capacità dei modelli di integrare la conoscenza dominio-specifica con la comprensione bilingue. Tutto il codice, i benchmark e le risorse sono pubblicamente disponibili per supportare la ricerca aperta.
Mentre l’IA centralizzata raggiunge limiti computazionali e rendimenti decrescenti da addestramenti sempre più massicci, soddisfare la domanda richiede un layer di inferenza in grado di scalare orizzontalmente sia in capacità che in competenza. Presentiamo Fortytwo, un protocollo innovativo che sfrutta i principi dell’intelligenza collettiva (swarm intelligence) e un consenso distribuito basato su ranking a coppie per ottenere prestazioni superiori nell’inferenza di IA. Il nostro approccio reimmagina la collaborazione tra nodi di IA attraverso l’inferenza collettiva (swarm inference): un consenso basato su reputazione e ranking tra pari tra modelli eterogenei, che seleziona le risposte di qualità più elevata. Utilizzando un sistema di confronto a coppie con un modello di aggregazione personalizzato di tipo Bradley-Terry, dimostriamo che l’inferenza collettiva supera di gran lunga il voto a maggioranza, raggiungendo l’85,90% su GPQA Diamond rispetto al 68,69% del voto a maggioranza con lo stesso set di modelli – un miglioramento di +17,21 punti percentuali (circa +25,1% in termini relativi). Il protocollo integra una reputazione on-chain, affinché l’influenza dei nodi si adatti nel tempo all’accuratezza dimostrata, producendo un consenso meritocratico che filtra i partecipanti di bassa qualità o malevoli. Per resistere ad attacchi Sybil, Fortytwo utilizza una proof-of-capability nel suo meccanismo di consenso: i nodi devono completare con successo richieste di calibrazione/test e impegnare reputazione per partecipare ai round di ranking, rendendo gli attacchi multi-identità economicamente svantaggiosi pur preservando l’apertura del sistema. Su sei benchmark complessi, tra cui GPQA Diamond, LiveCodeBench e AIME, la nostra valutazione indica una maggiore accuratezza e una forte resilienza a prompt liberi avversativi o rumorosi (ad esempio, un degrado da prompt injection di solo lo 0,12% rispetto al 6,20% di un baseline monolitico a singolo modello), mantenendo al contempo una praticità di deployment. Nel complesso, questi risultati pongono le basi per sistemi di IA decentralizzati – democratizzando l’accesso a inferenze di alta qualità attraverso l’intelligenza collettiva, senza sacrificare affidabilità o sicurezza.
I modelli di diffusione video autoregressivi sono in grado di produrre sequenze lunghe e stabili, coerenti con la cronologia precedente, ma non riescono a guidare la generazione corrente utilizzando condizionamenti provenienti dal futuro. Nella generazione video guidata da traiettoria di camera predefinita, questa limitazione porta a collisioni con la scena generata, dopo le quali l'autoregressione collassa rapidamente. Per risolvere questo problema, proponiamo la Cucitura di Vista Generativa (Generative View Stitching - GVS), che campiona l'intera sequenza in parallelo in modo che la scena generata sia fedele a ogni parte della traiettoria di camera predefinita. Il nostro contributo principale è un algoritmo di campionamento che estende il lavoro precedente sulla cucitura di diffusione per la pianificazione robotica alla generazione video. Mentre tali metodi di cucitura di solito richiedono un modello appositamente addestrato, GVS è compatibile con qualsiasi modello video standard addestrato con Diffusion Forcing, un diffuso framework di diffusione per sequenze che dimostriamo fornire già le capacità necessarie per la cucitura. Introduciamo poi la Guida Onni (Omni Guidance), una tecnica che migliora la coerenza temporale nella cucitura condizionando sia sul passato che sul futuro, e che abilita il nostro meccanismo proposto di chiusura del ciclo (loop-closing) per ottenere coerenza a lungo raggio. Nel complesso, GVS realizza una generazione video guidata da camera che è stabile, priva di collisioni, coerente da frame a frame e in grado di chiudere cicli per una varietà di traiettorie di camera predefinite, inclusa la Scala Impossibile di Oscar Reutersvärd. I risultati sono meglio apprezzabili come video all'indirizzo https://andrewsonga.github.io/gvs.
Introduciamo GraphNet, un dataset di 2.7K grafi computazionali di deep learning del mondo reale con metadati ricchi, che abbraccia sei categorie principali di task attraverso molteplici framework di deep learning. Per valutare le prestazioni dei tensor compiler su questi campioni, proponiamo la metrica di benchmark *Speedup Score* S(t), che considera congiuntamente lo speedup del tempo di esecuzione e la correttezza dell'esecuzione sotto livelli di tolleranza regolabili, offrendo una misura affidabile della capacità di ottimizzazione generale. Inoltre, estendiamo S(t) all'*Error-aware Speedup Score* ES(t), che incorpora informazioni sull'errore e aiuta gli sviluppatori di compiler a identificare i principali colli di bottiglia delle prestazioni. In questo report, valutiamo i tensor compiler predefiniti, CINN per PaddlePaddle e TorchInductor per PyTorch, su campioni di computer vision (CV) e natural language processing (NLP) per dimostrare la praticità di GraphNet. La pipeline completa di costruzione con strumenti di estrazione dei grafi e di valutazione del compiler è disponibile all'indirizzo https://github.com/PaddlePaddle/GraphNet.
Sebbene la modellazione autoregressiva (AR) sia recentemente emersa come un nuovo paradigma nella generazione visiva, la sua adozione pratica è fortemente limitata dalla lentezza di inferenza della generazione per token, che spesso richiede migliaia di passi per produrre un singolo campione. Per affrontare questa sfida, proponiamo MC-SJD, un framework di decodifica parallela senza perdite e senza necessità di training, progettato per accelerare la generazione visiva AR estendendo il recente Jacobi Decoding Speculativo (SJD). Sebbene l'SJD mostri un forte potenziale per accelerare la generazione AR, dimostriamo che l'instabilità dei token tra le iterazioni riduce significativamente il tasso di accettazione, una limitazione che deriva principalmente dal processo di campionamento indipendente utilizzato durante la generazione dei token draft. Per superare questo problema, introduciamo MC-SJD, un approccio basato sulla teoria dell'informazione che utilizza l'accoppiamento (coupling), il quale accelera sostanzialmente l'SJD standard massimizzando la probabilità di campionare token draft identici attraverso iterazioni consecutive, preservandone al contempo la proprietà di essere senza perdite. Notevolmente, questo metodo richiede una modifica di una sola riga all'algoritmo esistente, eppure ottiene sostanziali miglioramenti delle prestazioni, fornendo un'accelerazione fino a ~4.2x nella generazione di immagini e ~13.3x nella generazione video rispetto alla decodifica AR standard, senza alcuna degradazione della qualità dell'output.
I grandi modelli linguistici (LLM) nella consulenza psicologica stanno attirando un'attenzione crescente. Tuttavia, gli approcci esistenti spesso mancano di comprensione emotiva, strategie adattive e dell'utilizzo di metodi terapeutici attraverso più sedute con memoria a lungo termine, risultando quindi distanti dalla pratica clinica reale. Per colmare queste lacune critiche, presentiamo TheraMind, un agente strategico e adattivo per la consulenza psicologica longitudinale. Il cardine di TheraMind è una nuova architettura a doppio ciclo che disaccoppia il complesso processo di consulenza in un *Intra-Session Loop* per la gestione tattica del dialogo e un *Cross-Session Loop* per la pianificazione terapeutica strategica. L'*Intra-Session Loop* percepisce lo stato emotivo del paziente per selezionare dinamicamente le strategie di risposta, sfruttando al contempo la memoria cross-sessione per garantire la continuità. Crucialmente, il *Cross-Session Loop* conferisce all'agente un'adattabilità a lungo termine valutando l'efficacia della terapia applicata dopo ogni sessione e adeguando il metodo per le interazioni successive. Convalidiamo il nostro approccio in un ambiente di simulazione ad alta fedeltà basato su casi clinici reali. Valutazioni estese mostrano che TheraMind supera altri metodi, specialmente su metriche multi-sessione come Coerenza, Flessibilità e Sintonizzazione Terapeutica, convalidando l'efficacia del suo design a doppio ciclo nell'emulare un comportamento terapeutico strategico, adattivo e longitudinale. Il codice è pubblicamente disponibile all'indirizzo https://0mwwm0.github.io/TheraMind/.