Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo LongLive, un framework autoregressivo (AR) a livello di frame per la generazione di video lunghi in tempo reale e interattiva. La generazione di video lunghi presenta sfide sia in termini di efficienza che di qualità. I modelli di diffusione e Diffusion-Forcing possono produrre video di alta qualità, ma soffrono di bassa efficienza a causa dell'attenzione bidirezionale. I modelli AR con attenzione causale supportano la memorizzazione in cache KV per un'inferenza più veloce, ma spesso degradano in qualità sui video lunghi a causa delle sfide di memoria durante l'addestramento su video lunghi. Inoltre, oltre alla generazione basata su prompt statici, le capacità interattive, come l'inserimento di prompt in streaming, sono cruciali per la creazione di contenuti dinamici, consentendo agli utenti di guidare le narrazioni in tempo reale. Questo requisito interattivo aumenta significativamente la complessità, specialmente nel garantire coerenza visiva e semantica durante le transizioni dei prompt. Per affrontare queste sfide, LongLive adotta un design AR causale a livello di frame che integra un meccanismo di ricache KV che aggiorna gli stati memorizzati in cache con nuovi prompt per transizioni fluide e aderenti; un tuning lungo in streaming per abilitare l'addestramento su video lunghi e allineare addestramento e inferenza (train-long-test-long); e un'attenzione a finestra corta abbinata a un sink di attenzione a livello di frame, abbreviato come frame sink, preservando la coerenza a lungo raggio mentre abilita una generazione più veloce. Con questi design chiave, LongLive ottimizza un modello da 1,3 miliardi di parametri per clip brevi alla generazione di video di minuti in soli 32 giorni-GPU. All'inferenza, LongLive mantiene 20,7 FPS su una singola NVIDIA H100, raggiungendo prestazioni forti su VBench sia per video brevi che lunghi. LongLive supporta video fino a 240 secondi su una singola GPU H100. LongLive supporta inoltre l'inferenza quantizzata INT8 con solo una perdita marginale di qualità.
L'addestramento di agenti LLM in ambienti multi-turn con ricompense sparse, dove il completamento di un singolo compito richiede oltre 30 interazioni all'interno di un episodio, rappresenta una sfida fondamentale per l'apprendimento per rinforzo. Identifichiamo una modalità di fallimento critica unica in questo contesto: il fallimento a cascata esplorazione-sfruttamento. Questa cascata inizia con una convergenza prematura della politica nelle fasi iniziali, dove il feedback scarso induce gli agenti ad adottare strategie imperfette e a bassa entropia. Successivamente, gli agenti entrano in una fase di collasso della politica, in cui la regolarizzazione convenzionale dell'entropia diventa controproducente, promuovendo un'esplorazione caotica che destabilizza l'addestramento. Proponiamo l'Entropy-regularized Policy Optimization (EPO), un framework generale che interrompe questo ciclo di fallimento attraverso tre meccanismi sinergici: (1) l'adozione della regolarizzazione dell'entropia in contesti multi-turn per migliorare l'esplorazione, (2) un regolarizzatore di livellamento dell'entropia che vincola l'entropia della politica entro medie storiche per prevenire fluttuazioni brusche, e (3) una ponderazione adattiva basata su fasi che bilancia esplorazione e sfruttamento durante l'addestramento. La nostra analisi dimostra che EPO garantisce una riduzione monotona della varianza dell'entropia mantenendo la convergenza. EPO raggiunge un miglioramento delle prestazioni fino al 152% su ScienceWorld e fino al 19,8% su ALFWorld. Il nostro lavoro dimostra che i contesti multi-turn con ricompense sparse richiedono un controllo dell'entropia fondamentalmente diverso rispetto al RL tradizionale, con implicazioni ampie per l'addestramento degli agenti LLM.
Presentiamo MinerU2.5, un modello visione-linguaggio da 1,2 miliardi di parametri per l'analisi di documenti che raggiunge un'accuratezza di riconoscimento all'avanguardia mantenendo un'eccezionale efficienza computazionale. Il nostro approccio utilizza una strategia di analisi a due stadi, dal generale al dettagliato, che separa l'analisi del layout globale dal riconoscimento del contenuto locale. Nella prima fase, il modello esegue un'analisi efficiente del layout su immagini sottocampionate per identificare gli elementi strutturali, evitando il sovraccarico computazionale derivante dall'elaborazione di input ad alta risoluzione. Nella seconda fase, guidato dal layout globale, esegue il riconoscimento mirato del contenuto su ritagli a risoluzione nativa estratti dall'immagine originale, preservando i dettagli fini in testi densi, formule complesse e tabelle. Per supportare questa strategia, abbiamo sviluppato un motore di dati completo che genera corpora di addestramento diversificati e su larga scala sia per il pre-addestramento che per l'affinamento. In definitiva, MinerU2.5 dimostra una forte capacità di analisi documentale, raggiungendo prestazioni all'avanguardia su molteplici benchmark, superando sia modelli generici che specifici per dominio in vari compiti di riconoscimento, pur mantenendo un sovraccarico computazionale significativamente inferiore.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) potenzia il ragionamento dei modelli linguistici di grandi dimensioni (LLM), ma l'addestramento spesso oscilla tra il {collasso dell'entropia} e l'{esplosione dell'entropia}. Entrambi i rischi sono riconducibili alla baseline media utilizzata nel RL senza valore (ad esempio, GRPO e DAPO), che penalizza in modo improprio i campioni con vantaggio negativo in presenza di outlier nelle ricompense. Proponiamo la {Stima del Vantaggio Quantile} (QAE), che sostituisce la media con una baseline basata su K-quantili per gruppi. La QAE introduce un gate a due regimi a livello di risposta: sulle query difficili (p <= 1 - K) rinforza i successi rari, mentre su quelle facili (p > 1 - K) mira ai fallimenti rimanenti. Sotto aggiornamenti softmax del primo ordine, dimostriamo la {sicurezza dell'entropia bilaterale}, fornendo limiti inferiori e superiori sulla variazione dell'entropia in un singolo passo che frenano l'esplosione e prevengono il collasso. Empiricamente, questa modifica minima stabilizza l'entropia, rende più sparsa l'assegnazione del credito (con K ottimizzato, circa l'80% delle risposte riceve vantaggio zero) e produce guadagni sostenuti in pass@1 su Qwen3-8B/14B-Base attraverso AIME 2024/2025 e AMC 2023. Questi risultati identificano il {design della baseline} — piuttosto che euristiche a livello di token — come il meccanismo primario per scalare l'RLVR.
Introduciamo un framework di ragionamento variazionale per modelli linguistici che tratta le tracce di pensiero come variabili latenti e le ottimizza attraverso inferenza variazionale. Partendo dal limite inferiore dell'evidenza (ELBO), lo estendiamo a un obiettivo multi-traccia per ottenere limiti più stretti e proponiamo una formulazione forward-KL che stabilizza l'addestramento della posterior variazionale. Dimostriamo inoltre che il fine-tuning tramite campionamento per rifiuto e il reinforcement learning con ricompense binarie, incluso GRPO, possono essere interpretati come obiettivi locali forward-KL, dove un'implicita ponderazione basata sull'accuratezza del modello emerge naturalmente dalla derivazione e rivela un bias precedentemente non noto verso domande più facili. Validiamo empiricamente il nostro metodo sulle famiglie di modelli Qwen 2.5 e Qwen 3 su un'ampia gamma di compiti di ragionamento. Nel complesso, il nostro lavoro fornisce una prospettiva probabilistica principiata che unisce l'inferenza variazionale con metodi di tipo RL e produce obiettivi stabili per migliorare la capacità di ragionamento dei modelli linguistici. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/variational-reasoning.
I LLM vengono spesso addestrati con RL (Reinforcement Learning) basato su feedback umano o di IA, ma tali metodi tipicamente comprimono feedback sfumati in ricompense scalari, perdendo gran parte della loro ricchezza e causando squilibri di scala. Proponiamo di trattare il feedback verbale come un segnale di condizionamento. Ispirati dai prior linguistici nella generazione di immagini da testo, che consentono output nuovi da prompt mai visti, introduciamo la politica condizionata al feedback (FCP, Feedback-Conditional Policy). La FCP apprende direttamente da coppie risposta-feedback, approssimando la distribuzione a posteriori condizionata al feedback attraverso l'addestramento a massima verosimiglianza su dati offline. Sviluppiamo inoltre una fase di bootstrapping online in cui la politica genera in condizioni positive e riceve nuovo feedback per affinarsi. Questo riformula l'apprendimento guidato dal feedback come generazione condizionata piuttosto che ottimizzazione delle ricompense, offrendo un modo più espressivo per i LLM di apprendere direttamente dal feedback verbale. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/feedback-conditional-policy.
La revisione tra pari rappresenta la spina dorsale della ricerca accademica, ma nella maggior parte delle conferenze di IA, la qualità delle revisioni sta peggiorando con l'esplosione del numero di contributi. Per rilevare in modo affidabile le revisioni di bassa qualità, definiamo i punti di revisione disinformati come "debolezze" in una revisione che contengono premesse errate o "domande" in una revisione a cui il documento risponde già. Verifichiamo che il 15,2% delle debolezze e il 26,4% delle domande siano disinformati e introduciamo ReviewScore per indicare se un punto di revisione è disinformato. Per valutare la veridicità di ciascuna premessa delle debolezze, proponiamo un motore automatizzato che ricostruisce ogni premessa esplicita e implicita da una debolezza. Costruiamo un dataset ReviewScore annotato da esperti umani per verificare la capacità dei LLM di automatizzare la valutazione di ReviewScore. Successivamente, misuriamo l'accordo tra umani e modelli su ReviewScore utilizzando otto LLM all'avanguardia e verifichiamo accordi moderati. Dimostriamo inoltre che la valutazione della veridicità a livello di premessa mostra accordi significativamente più alti rispetto alla valutazione della veridicità a livello di debolezza. Un'analisi approfondita dei disaccordi supporta ulteriormente il potenziale di una valutazione completamente automatizzata di ReviewScore.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è un potente framework per migliorare le capacità di ragionamento dei Modelli Linguistici di Grande Scala (LLMs). Tuttavia, i metodi attuali come GRPO si basano esclusivamente su problemi in cui le risposte del modello allo stesso input differiscono in correttezza, ignorando quelli in cui tutte le risposte ricevono la stessa ricompensa, i cosiddetti prompt a varianza zero. In questo lavoro, sosteniamo che tali prompt non sono inutili ma possono, in realtà, fornire un feedback significativo per l'ottimizzazione delle politiche. A tal fine, introduciamo il Reinforcement Learning con Prompt a Varianza Zero (RL-ZVP), un nuovo algoritmo che estrae segnali di apprendimento da prompt a varianza zero. RL-ZVP ricompensa direttamente la correttezza e penalizza gli errori anche senza risposte contrastanti, modulando il feedback con caratteristiche a livello di token per preservare segnali informativi e sfumati. Su sei benchmark di ragionamento matematico, RL-ZVP ottiene miglioramenti significativi fino a 8,61 punti in accuratezza e 7,77 punti nel tasso di superamento rispetto a GRPO, superando costantemente altri metodi di base che filtrano i prompt a varianza zero. Questi risultati evidenziano il potenziale inesplorato dell'apprendimento da prompt a varianza zero in RLVR.
Presentiamo LLaVA-OneVision-1.5, una nuova famiglia di Large Multimodal Models (LMM) che raggiunge prestazioni all'avanguardia con costi computazionali e finanziari significativamente ridotti. A differenza dei lavori esistenti, LLaVA-OneVision-1.5 offre un framework aperto, efficiente e riproducibile per costruire modelli visione-linguaggio di alta qualità completamente da zero. Il rilascio di LLaVA-OneVision-1.5 comprende tre componenti principali: (1) Dataset Curati su Larga Scala: Abbiamo costruito un dataset di pre-addestramento bilanciato di 85M concetti, LLaVA-OneVision-1.5-Mid-Training, e un dataset di istruzioni curato meticolosamente di 26M, LLaVA-OneVision-1.5-Instruct, che insieme comprendono 64B token multimodali compressi. (2) Framework di Addestramento Efficiente: Abbiamo sviluppato un framework di addestramento end-to-end completo che sfrutta una strategia di impacchettamento dati parallelo offline per facilitare l'addestramento di LLaVA-OneVision-1.5 con un budget di $16,000. (3) Prestazioni all'Avanguardia: I risultati sperimentali dimostrano che LLaVA-OneVision-1.5 offre prestazioni eccezionalmente competitive su un'ampia gamma di task downstream. Nello specifico, LLaVA-OneVision-1.5-8B supera Qwen2.5-VL-7B su 18 dei 27 benchmark, e LLaVA-OneVision-1.5-4B supera Qwen2.5-VL-3B su tutti i 27 benchmark. Prevediamo di rilasciare a breve LLaVA-OneVision-1.5-RL e incoraggiamo la comunità ad attendere ulteriori aggiornamenti.
I grandi modelli linguistici (LLM) stanno evolvendo da sistemi conversazionali a potenti ragionatori per compiti come la matematica olimpica e la programmazione competitiva. Sebbene il ridimensionamento dei parametri e il calcolo in fase di test abbiano guidato i progressi, un collo di bottiglia chiave è la mancanza di problemi di addestramento di alta qualità: i dataset curati dall'uomo sono costosi e limitati, mentre i corpora sintetici esistenti sono spesso troppo facili o ristretti. PromptCoT 1.0 ha dimostrato che l'iniezione di ragionamenti nella sintesi dei prompt aumenta la difficoltà dei problemi. Basandoci su questo, presentiamo PromptCoT 2.0, un framework scalabile che sostituisce le euristiche manuali con un ciclo di expectation-maximization (EM), in cui i ragionamenti vengono raffinati iterativamente per guidare la costruzione dei prompt. Questo produce problemi sia più difficili che più diversificati rispetto ai corpora precedenti. I prompt sintetici supportano due regimi di post-addestramento: (1) Self-Play, dove i modelli forti migliorano autonomamente tramite feedback verificabile senza insegnanti più potenti; e (2) Fine-Tuning Supervisionato (SFT), dove i modelli più deboli apprendono da tracce distillate da insegnanti. Esperimenti estensivi dimostrano l'efficacia di questo approccio. Nel self-play, applicando PromptCoT 2.0 a Qwen3-30B-A3B-Thinking-2507 si ottengono nuovi risultati all'avanguardia alla scala 30B, con +4.4, +4.8 e +5.3 su AIME 24/25 e HMMT 25, +6.1 e +5.0 su LiveCodeBench v5/v6, e +35 Elo su Codeforces. Nel SFT, addestrando Qwen2.5-7B-Instruct esclusivamente su prompt sintetici si aumenta l'accuratezza a 73.1 (AIME 24), 65.6 (AIME 25) e 53.4 (LiveCodeBench v5), superando i modelli addestrati su dati umani o ibridi. Le analisi confermano ulteriormente che PromptCoT 2.0 produce problemi fondamentalmente più difficili e distribuzionalmente distinti. Questi risultati stabiliscono la sintesi dei prompt come un nuovo asse per il ridimensionamento del ragionamento e posizionano PromptCoT 2.0 come una base scalabile per i futuri modelli open-source. L'implementazione è disponibile su https://github.com/inclusionAI/PromptCoT.
La generazione di didascalie per immagini è un compito fondamentale che collega i domini visivo e linguistico, svolgendo un ruolo cruciale nel pre-addestramento dei Modelli Linguistico-Visivi di Grande Scala (LVLM). Gli attuali modelli all'avanguardia per la generazione di didascalie sono tipicamente addestrati con il Fine-Tuning Supervisionato (SFT), un paradigma che si basa su dati costosi e non scalabili annotati da esseri umani o modelli proprietari. Questo approccio spesso porta a modelli che memorizzano risposte specifiche e predefinite, limitando la loro generalità e capacità di generare descrizioni diverse e creative. Per superare i limiti del SFT, proponiamo di applicare il paradigma del Reinforcement Learning con Ricompense Verificabili (RLVR) al compito aperto della generazione di didascalie per immagini. Una sfida primaria, tuttavia, è la progettazione di una funzione di ricompensa oggettiva per la natura intrinsecamente soggettiva di ciò che costituisce una "buona" didascalia. Introduciamo il Captioning Reinforcement Learning (CapRL), un nuovo framework di addestramento che ridefinisce la qualità delle didascalie attraverso la loro utilità: una didascalia di alta qualità dovrebbe consentire a un modello linguistico non visivo di rispondere accuratamente a domande sull'immagine corrispondente. CapRL utilizza una pipeline a due stadi disaccoppiati in cui un LVLM genera una didascalia, e la ricompensa oggettiva è derivata dall'accuratezza di un LLM separato, privo di capacità visive, nel rispondere a domande a scelta multipla basate esclusivamente su quella didascalia. Come primo studio ad applicare l'RLVR al compito soggettivo della generazione di didascalie, dimostriamo che CapRL migliora significativamente in molteplici contesti. Il pre-addestramento sul dataset di didascalie CapRL-5M annotato da CapRL-3B comporta guadagni sostanziali su 12 benchmark. Inoltre, all'interno del Framework Prism per la valutazione della qualità delle didascalie, CapRL raggiunge prestazioni comparabili a Qwen2.5-VL-72B, superando la baseline di una media dell'8,4%. Il codice è disponibile qui: https://github.com/InternLM/CapRL.
La capacità dei robot di interpretare le istruzioni umane e di eseguire compiti di manipolazione richiede la disponibilità di scene su tavolo rilevanti per il compito, utili per l'addestramento. Tuttavia, i metodi tradizionali per creare queste scene si basano su un design manuale del layout che richiede molto tempo o su layout puramente casuali, che sono limitati in termini di plausibilità o allineamento con i compiti. In questo articolo, formuliamo un nuovo compito, ovvero la generazione di scene su tavolo orientate al compito, che presenta sfide significative a causa del divario sostanziale tra le istruzioni di alto livello e le scene su tavolo. Per supportare la ricerca su un compito così impegnativo, introduciamo MesaTask-10K, un dataset su larga scala che comprende circa 10.700 scene sintetiche su tavolo con layout progettati manualmente che garantiscono layout realistici e relazioni intricate tra gli oggetti. Per colmare il divario tra compiti e scene, proponiamo una Catena di Ragionamento Spaziale che scompone il processo di generazione in inferenza degli oggetti, ragionamento sulle interrelazioni spaziali e costruzione di un grafo della scena per il layout 3D finale. Presentiamo MesaTask, un framework basato su LLM che utilizza questa catena di ragionamento e che è ulteriormente potenziato con algoritmi DPO per generare scene su tavolo fisicamente plausibili e ben allineate con le descrizioni dei compiti fornite. Esperimenti esaustivi dimostrano la performance superiore di MesaTask rispetto ai metodi di base nella generazione di scene su tavolo conformi al compito con layout realistici. La pagina del progetto è disponibile all'indirizzo https://mesatask.github.io/
L'apprendimento per rinforzo (RL) rappresenta il paradigma dominante per affinare le capacità di utilizzo strategico degli strumenti nei modelli linguistici di grandi dimensioni (LLM) su compiti di agenti a lungo orizzonte e con ricompense sparse, ma deve affrontare una sfida fondamentale nel bilanciamento tra esplorazione e sfruttamento. Gli studi esistenti stimolano l'esplorazione attraverso la lente dell'entropia della politica, ma tale massimizzazione meccanica dell'entropia è soggetta a instabilità durante l'addestramento RL a causa dello spostamento della distribuzione su più turni. In questo articolo, miriamo a un bilanciamento progressivo tra esplorazione e sfruttamento guidato dalle esperienze dell'agente stesso, senza cadere né nel collasso dell'entropia né in una divergenza incontrollata. Proponiamo SPEAR, una ricetta basata su curriculum per l'apprendimento per auto-imitazione (SIL) per addestrare LLM agentici. Estende il framework SIL di base, in cui un buffer di replay memorizza traiettorie promettenti auto-generate per aggiornamenti off-policy, guidando gradualmente l'evoluzione della politica entro un intervallo ben bilanciato di entropia attraverso diverse fasi. Nello specifico, il nostro approccio incorpora un curriculum per gestire il processo di esplorazione, utilizzando ricompense intrinseche per favorire l'esplorazione a livello di abilità e facilitando l'esplorazione a livello di azione attraverso il SIL. Inizialmente, la ricompensa ausiliaria per l'uso degli strumenti svolge un ruolo cruciale nell'accumulo di competenze, consentendo un'ampia esposizione alle distribuzioni non familiari del feedback ambientale con una tendenza all'aumento dell'entropia. Man mano che l'addestramento progredisce, l'auto-imitazione si rafforza per sfruttare modelli di successo esistenti dalle esperienze riprodotte, accelerando l'iterazione delle soluzioni senza una crescita illimitata dell'entropia. Per ulteriormente stabilizzare l'addestramento, ricalibriamo i vantaggi delle esperienze nel buffer di replay per affrontare la possibile deriva della politica. Introduciamo regolarizzazioni come il clipping dei token con alta covarianza tra probabilità e vantaggio nel controllo dell'entropia a livello di traiettoria per contenere l'eccessiva sicurezza.
Il fine-tuning, un metodo fondamentale per adattare i grandi modelli linguistici, è stato a lungo considerato inefficace per la modifica dei modelli. In questo lavoro, contestiamo questa convinzione, sostenendo che il fallimento riportato non deriva da una limitazione intrinseca del fine-tuning stesso, ma dal suo adattamento alla natura sequenziale del compito di modifica, una pipeline depth-first a passaggio singolo che ottimizza ogni campione fino alla convergenza prima di procedere. Sebbene intuitiva, questa pipeline depth-first, unita all'aggiornamento campione per campione, sovraottimizza ogni modifica e induce interferenze tra le modifiche. I nostri esperimenti controllati rivelano che semplicemente ripristinando il fine-tuning alla pipeline breadth-first standard (cioè basata su epoche) con ottimizzazione a mini-batch si migliora sostanzialmente la sua efficacia per la modifica dei modelli. Inoltre, il fine-tuning nella modifica soffre anche di posizioni subottimali dei parametri di regolazione ereditate dai metodi precedenti. Attraverso un'analisi sistematica delle posizioni di regolazione, deriviamo LocFT-BF, un metodo di modifica localizzato semplice ed efficace basato sul framework di fine-tuning ripristinato. Esperimenti estesi su diversi LLM e dataset dimostrano che LocFT-BF supera i metodi all'avanguardia con ampi margini. In particolare, a nostra conoscenza, è il primo a sostenere 100K modifiche e modelli con 72B parametri, 10 volte oltre le pratiche precedenti, senza sacrificare le capacità generali. Chiarendo un malinteso di lunga data e introducendo una strategia di regolazione localizzata e principiata, eleviamo il fine-tuning da una baseline sottovalutata a un metodo leader per la modifica dei modelli, stabilendo una solida base per la ricerca futura.
Gli agenti autonomi hanno recentemente compiuto progressi significativi in vari domini, tuttavia la maggior parte delle valutazioni si concentra su compiti a breve termine e completamente osservabili. Al contrario, molti compiti critici del mondo reale, come lo sviluppo di software su larga scala, gli investimenti commerciali e la scoperta scientifica, si svolgono in scenari a lungo termine e parzialmente osservabili, dove il successo dipende da un ragionamento sostenuto, pianificazione, gestione della memoria e uso di strumenti. Gli attuali benchmark raramente catturano queste sfide a lungo termine, lasciando un vuoto nella valutazione sistematica. Per colmare questa lacuna, introduciamo UltraHorizon, un nuovo benchmark che misura le capacità fondamentali essenziali per affrontare le complesse sfide del mondo reale. Utilizziamo l'esplorazione come compito unificante in tre ambienti distinti per validare queste competenze chiave. Gli agenti sono progettati per compiti di scoperta a lungo termine, in cui devono scoprire iterativamente regole nascoste attraverso un ragionamento sostenuto, pianificazione, gestione della memoria e degli strumenti, e interazione con l'ambiente. Nella configurazione più impegnativa, le traiettorie superano in media i 200k token e 400 chiamate a strumenti, mentre nelle configurazioni standard superano comunque i 35k token e coinvolgono in media più di 60 chiamate a strumenti. I nostri esperimenti estesi rivelano che gli agenti basati su LLM ottengono sistematicamente risultati inferiori in questi contesti, mentre i partecipanti umani raggiungono punteggi più alti, evidenziando un persistente divario nelle capacità a lungo termine degli agenti. Osserviamo inoltre che un semplice aumento di scala non è sufficiente per il nostro compito. Per illustrare meglio il fallimento degli agenti, conduciamo un'analisi approfondita delle traiettorie raccolte. Identifichiamo otto tipi di errori e li attribuiamo a due cause principali: il blocco contestuale e le lacune nelle capacità funzionali fondamentali. https://github.com/StarDewXXX/UltraHorizon{Il nostro codice sarà disponibile qui.}
Presentiamo See, Point, Fly (SPF), un framework per la navigazione aerea basata su visione e linguaggio (AVLN) che non richiede addestramento, costruito su modelli visione-linguaggio (VLMs). SPF è in grado di navigare verso qualsiasi obiettivo basandosi su istruzioni libere di qualsiasi tipo in qualsiasi ambiente. A differenza degli approcci esistenti basati su VLMs che trattano la previsione delle azioni come un compito di generazione di testo, la nostra intuizione chiave è considerare la previsione delle azioni per AVLN come un compito di grounding spaziale 2D. SPF sfrutta i VLMs per scomporre istruzioni linguistiche vaghe in annotazioni iterative di waypoint 2D sull'immagine di input. Insieme alla distanza di viaggio prevista, SPF trasforma i waypoint 2D previsti in vettori di spostamento 3D come comandi di azione per i droni. Inoltre, SPF regola in modo adattivo la distanza di viaggio per facilitare una navigazione più efficiente. È importante notare che SPF esegue la navigazione in modalità di controllo a ciclo chiuso, consentendo ai droni di seguire target dinamici in ambienti dinamici. SPF stabilisce un nuovo stato dell'arte nel benchmark di simulazione DRL, superando il precedente metodo migliore con un margine assoluto del 63%. In estese valutazioni nel mondo reale, SPF supera i forti baseline con un ampio margine. Abbiamo anche condotto studi di ablazione completi per evidenziare l'efficacia delle nostre scelte progettuali. Infine, SPF mostra una notevole generalizzazione a diversi VLMs. Pagina del progetto: https://spf-web.pages.dev
Proponiamo un approccio innovativo per separare le caratteristiche visive e semantiche dai backbone dei modelli di diffusione pre-addestrati, consentendo una corrispondenza visiva in modo analogo alla ben consolidata corrispondenza semantica. Sebbene sia noto che i backbone dei modelli di diffusione codifichino caratteristiche semanticamente ricche, devono anche contenere caratteristiche visive per supportare le loro capacità di sintesi delle immagini. Tuttavia, isolare queste caratteristiche visive è impegnativo a causa dell'assenza di dataset annotati. Per affrontare questo problema, introduciamo una pipeline automatizzata che costruisce coppie di immagini con corrispondenze semantiche e visive annotate basate su dataset esistenti di generazione di immagini guidata da soggetti, e progettiamo un'architettura contrastiva per separare i due tipi di caratteristiche. Sfruttando le rappresentazioni separate, proponiamo una nuova metrica, Visual Semantic Matching (VSM), che quantifica le incoerenze visive nella generazione di immagini guidata da soggetti. I risultati empirici dimostrano che il nostro approccio supera le metriche basate su caratteristiche globali come CLIP, DINO e i modelli visione-linguaggio nel quantificare le incoerenze visive, consentendo anche la localizzazione spaziale delle regioni incoerenti. A nostra conoscenza, questo è il primo metodo che supporta sia la quantificazione che la localizzazione delle incoerenze nella generazione guidata da soggetti, offrendo uno strumento prezioso per avanzare in questo compito. Pagina del progetto: https://abdo-eldesokey.github.io/mind-the-glitch/
Le crescenti capacità dei modelli linguistici di grandi dimensioni e dei sistemi multimodali hanno stimolato l'interesse verso gli assistenti vocali AI, ma i benchmark esistenti si rivelano inadeguati per valutare l'intera gamma di capacità di questi sistemi. Introduciamo VoiceAssistant-Eval, un benchmark completo progettato per valutare gli assistenti AI attraverso l'ascolto, la conversazione e la visualizzazione. VoiceAssistant-Eval comprende 10.497 esempi curati, suddivisi in 13 categorie di task. Questi task includono suoni naturali, musica e dialoghi parlati per l'ascolto; dialoghi multi-turn, imitazione di ruoli e vari scenari per la conversazione; e immagini altamente eterogenee per la visualizzazione. Per dimostrarne l'utilità, valutiamo 21 modelli open-source e GPT-4o-Audio, misurando la qualità del contenuto e del parlato delle risposte, nonché la loro coerenza. I risultati rivelano tre principali osservazioni: (1) i modelli proprietari non superano universalmente quelli open-source; (2) la maggior parte dei modelli eccelle nei task di conversazione ma è carente nella comprensione audio; e (3) modelli più piccoli ma ben progettati possono competere con modelli molto più grandi. In particolare, il modello di medie dimensioni Step-Audio-2-mini (7B) raggiunge più del doppio dell'accuratezza nell'ascolto rispetto a LLaMA-Omni2-32B-Bilingual. Tuttavia, permangono delle sfide: l'input multimodale (audio più visivo) e i task di imitazione vocale di ruoli risultano difficili per i modelli attuali, e persistono significativi gap nella robustezza e nell'allineamento alla sicurezza. VoiceAssistant-Eval identifica questi gap e stabilisce un framework rigoroso per valutare e guidare lo sviluppo delle prossime generazioni di assistenti AI. Codice e dati saranno rilasciati su https://mathllm.github.io/VoiceAssistantEval/.
La restaurazione universale delle immagini (UIR) mira a recuperare immagini degradate da miscele sconosciute preservandone la semantica -- condizioni in cui i restauratori discriminativi e i modelli di diffusione basati su UNet tendono a sovrasmorzare, allucinare o deviare. Presentiamo LucidFlux, un framework UIR senza didascalie che adatta un grande trasformatore di diffusione (Flux.1) senza l'uso di descrizioni testuali. LucidFlux introduce un condizionatore leggero a doppio ramo che inietta segnali dall'input degradato e da una versione leggermente restaurata per ancorare rispettivamente la geometria e sopprimere gli artefatti. Successivamente, viene progettata una programmazione di modulazione adattiva al timestep e al livello per indirizzare questi segnali attraverso la gerarchia del modello, al fine di produrre aggiornamenti da grossolani a fini e contestualmente consapevoli che proteggono la struttura globale mentre recuperano la texture. Inoltre, per evitare la latenza e l'instabilità dei prompt testuali o delle didascalie MLLM, imponiamo un allineamento semantico senza didascalie tramite funzionalità SigLIP estratte dalla versione proxy. Una pipeline di selezione scalabile filtra ulteriormente dati su larga scala per una supervisione ricca di struttura. Su benchmark sintetici e in contesti reali, LucidFlux supera costantemente soluzioni open-source e commerciali di riferimento, e studi di ablazione verificano la necessità di ciascun componente. LucidFlux dimostra che, per grandi DiT, il quando, il dove e il cosa condizionare -- piuttosto che aggiungere parametri o affidarsi a prompt testuali -- è la leva principale per una restaurazione universale delle immagini robusta e senza didascalie in contesti reali.
La compressione post-addestramento di modelli linguistici di grandi dimensioni (LLM) si basa principalmente sull'approssimazione a basso rango dei pesi, che rappresenta ciascuna colonna di una matrice dei pesi in un sottospazio condiviso a bassa dimensionalità. Sebbene si tratti di una strategia computazionalmente efficiente, il vincolo strutturale imposto è rigido e può portare a una significativa riduzione dell'accuratezza del modello. In questo lavoro, proponiamo CoSpaDi (Compression via Sparse Dictionary Learning), un nuovo framework di compressione senza addestramento che sostituisce la decomposizione a basso rango con una fattorizzazione strutturata sparsa più flessibile, in cui ciascuna matrice dei pesi è rappresentata con un dizionario denso e una matrice dei coefficienti sparsa per colonne. Questa formulazione consente una rappresentazione a unione di sottospazi: diverse colonne della matrice dei pesi originale sono approssimate in sottospazi distinti generati da atomi del dizionario selezionati in modo adattivo, offrendo una maggiore espressività rispetto a una singola base invariante. Fondamentalmente, CoSpaDi sfrutta un piccolo dataset di calibrazione per ottimizzare la fattorizzazione in modo che le attivazioni in uscita degli strati di proiezione compressi corrispondano strettamente a quelle degli originali, minimizzando così l'errore di ricostruzione funzionale piuttosto che la semplice approssimazione dei pesi. Questa strategia consapevole dei dati preserva una migliore fedeltà del modello senza alcun fine-tuning, con rapporti di compressione ragionevoli. Inoltre, la sparsità strutturata risultante consente una moltiplicazione matrice sparsa-densa efficiente ed è compatibile con la quantizzazione post-addestramento per ulteriori guadagni in termini di memoria e latenza. Valutiamo CoSpaDi su diversi modelli Llama e Qwen in contesti per strato e per gruppo con rapporti di compressione del 20-50%, dimostrando una superiorità costante rispetto ai metodi a basso rango all'avanguardia consapevoli dei dati, sia in termini di accuratezza che di perplessità. I nostri risultati stabiliscono l'apprendimento strutturato di dizionari sparsi come una potente alternativa agli approcci convenzionali a basso rango per il dispiegamento efficiente di LLM.
I sistemi agenti basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni impressionanti nei compiti di generazione di codice a livello di repository. Tuttavia, per compiti come la generazione di codebase per siti web, che dipendono fortemente da effetti visivi e feedback sull'interazione dell'utente, gli attuali agenti di codice si affidano solo a una semplice esecuzione del codice per il feedback e la verifica. Questo approccio non riesce a catturare la qualità effettiva del codice generato. In questo articolo, proponiamo WebGen-Agent, un innovativo agente per la generazione di siti web che sfrutta un feedback visivo completo e multi-livello per generare e perfezionare iterativamente il codebase del sito web. Descrizioni testuali dettagliate ed espressive, insieme a suggerimenti riguardanti gli screenshot e i test dell'interfaccia grafica (GUI) dei siti web, vengono generati da un modello linguistico visivo (VLM), accompagnati da punteggi che ne quantificano la qualità. I punteggi degli screenshot e dell'agente GUI sono ulteriormente integrati con un meccanismo di backtracking e selezione del migliore, migliorando le prestazioni dell'agente. Utilizzando i punteggi visivi accurati intrinseci nel flusso di lavoro di WebGen-Agent, introduciamo ulteriormente Step-GRPO con Feedback da Screenshot e Agente GUI per migliorare la capacità degli LLM di agire come motore di ragionamento di WebGen-Agent. Utilizzando i punteggi degli screenshot e dell'agente GUI ad ogni passo come ricompensa in Step-GRPO, forniamo un segnale di supervisione del processo denso e affidabile, che migliora efficacemente la capacità del modello di generare siti web. Sul dataset WebGen-Bench, WebGen-Agent aumenta l'accuratezza di Claude-3.5-Sonnet dal 26,4% al 51,9% e il suo punteggio di aspetto da 3,0 a 3,9, superando il precedente sistema agente all'avanguardia. Inoltre, il nostro approccio di addestramento Step-GRPO aumenta l'accuratezza di Qwen2.5-Coder-7B-Instruct dal 38,9% al 45,4% e alza il punteggio di aspetto da 3,4 a 3,7.
La Generazione Aumentata dal Recupero (RAG) e la RAG basata su grafi sono diventate paradigmi importanti per potenziare i Modelli Linguistici di Grande Scala (LLMs) con conoscenza esterna. Tuttavia, gli approcci esistenti affrontano un compromesso fondamentale. Mentre i metodi basati su grafi sono intrinsecamente dipendenti da strutture di grafi di alta qualità, incontrano significativi vincoli pratici: i grafi di conoscenza costruiti manualmente sono proibitivamente costosi da scalare, mentre i grafi estratti automaticamente dai corpora sono limitati dalle prestazioni degli estrattori LLM sottostanti, specialmente quando si utilizzano modelli più piccoli e localmente implementati. Questo articolo presenta Think-on-Graph 3.0 (ToG-3), un nuovo framework che introduce il meccanismo di Evoluzione e Recupero del Contesto Multi-Agente (MACER) per superare queste limitazioni. La nostra innovazione principale è la costruzione e il perfezionamento dinamico di un indice eterogeneo di grafi Chunk-Triplets-Community, che incorpora in modo pionieristico un meccanismo di doppia evoluzione di Query in Evoluzione e Sotto-Grafo in Evoluzione per un recupero preciso delle evidenze. Questo approccio affronta una limitazione critica dei precedenti metodi RAG basati su grafi, che tipicamente costruiscono un indice di grafi statico in un'unica passata senza adattarsi alla query effettiva. Un sistema multi-agente, composto da agenti Costruttore, Recuperatore, Riflettore e Risponditore, collabora in un processo iterativo di recupero delle evidenze, generazione di risposte, riflessione sulla sufficienza e, crucialmente, evoluzione della query e del sottografo. Questo sistema multi-agente a doppia evoluzione consente a ToG-3 di costruire adattivamente un indice di grafi mirato durante il ragionamento, mitigando gli svantaggi intrinseci della costruzione statica e una tantum del grafo e consentendo un ragionamento profondo e preciso anche con LLMs leggeri. Esperimenti estensivi dimostrano che ToG-3 supera i baseline di confronto sia su benchmark di ragionamento profondo che ampio, e studi di ablazione confermano l'efficacia dei componenti del framework MACER.
Il fine-tuning basato sul rinforzo (RFT) spesso soffre di un'eccessiva ottimizzazione della ricompensa, in cui un modello di policy manipola i segnali di ricompensa per ottenere punteggi elevati pur producendo output di bassa qualità. La nostra analisi teorica mostra che la chiave risiede nella specificazione errata della ricompensa nella coda ad alto valore: l'incapacità di distinguere in modo affidabile le risposte Eccellenti da quelle semplicemente Ottime. Ciò ci motiva a concentrarci sulla regione ad alta ricompensa. Tuttavia, tali esempi nella coda sono scarsi nel modello LLM di base. Sebbene gli esempi off-policy (ad esempio, provenienti da modelli più potenti o riscritture) siano più facili da ottenere, un addestramento ingenuo su di essi produce una ricompensa mal specificata per la policy che intendiamo allineare. Per affrontare questo problema, studiamo ricompense basate su rubriche. Per progettazione, le rubriche possono sfruttare esempi off-policy rimanendo insensibili ai loro artefatti. Per ottenere rubriche che catturino la coda ad alta ricompensa, sottolineiamo l'importanza di distinguere tra risposte ottime e diversificate e introduciamo un flusso di lavoro per implementare questa idea. Dimostriamo empiricamente che le ricompense basate su rubriche mitigano sostanzialmente l'eccessiva ottimizzazione della ricompensa e apportano miglioramenti efficaci nel post-addestramento degli LLM. Il nostro codice è accessibile all'indirizzo https://github.com/Jun-Kai-Zhang/rubrics.git.
I recenti Large Language Models (LLMs) e Large Vision-Language Models (LVLMs) utilizzano sempre più il Reinforcement Learning (RL) per il post-pretraining, come RL con Verifiable Rewards (RLVR) per compiti oggettivi e RL da Human Feedback (RLHF) per compiti soggettivi. Tuttavia, RLHF comporta costi elevati e un potenziale disallineamento tra ricompensa e politica a causa della dipendenza dalle preferenze umane, mentre RLVR spreca ancora supervisione scartando i rollouts e i segnali di correttezza dopo ogni aggiornamento. Per affrontare queste sfide, introduciamo il Synergistic Policy And Reward Co-Evolving Framework (SPARK), un metodo efficiente, on-policy e stabile che si basa su RLVR. Invece di scartare i rollouts e i dati di correttezza, SPARK ricicla queste preziose informazioni per addestrare simultaneamente il modello stesso come un modello generativo di ricompensa. Questo addestramento ausiliario utilizza una combinazione di obiettivi, come il punteggio di ricompensa puntuale, il confronto a coppie e la valutazione condizionata a risposte di ulteriore riflessione, per insegnare al modello a valutare e migliorare le proprie risposte. Il nostro processo elimina la necessità di un modello di ricompensa separato e di costosi dati di preferenze umane. SPARK crea un ciclo di feedback co-evolutivo positivo: una maggiore accuratezza della ricompensa produce gradienti di politica migliori, che a loro volta generano rollouts di qualità superiore che affinano ulteriormente il modello di ricompensa. Il nostro framework unificato supporta il ridimensionamento al momento del test tramite auto-riflessione senza modelli di ricompensa esterni e i relativi costi associati. Dimostriamo che SPARK ottiene significativi miglioramenti delle prestazioni su più modelli LLM e LVLM e su più benchmark di ragionamento, modelli di ricompensa e generali. Ad esempio, SPARK-VL-7B raggiunge un guadagno medio del 9,7% su 7 benchmark di ragionamento, del 12,1% su 2 benchmark di ricompensa e dell'1,5% su 8 benchmark generali rispetto alle baseline, dimostrando robustezza e ampia generalizzazione.
I grandi modelli linguistici, addestrati su corpora estesi, uniscono con successo compiti linguistici diversi all'interno di un unico framework generativo. Ispirati da ciò, lavori recenti come il Large Vision Model (LVM) estendono questo paradigma alla visione organizzando i compiti in frasi visive sequenziali, dove i prompt visivi fungono da contesto per guidare gli output. Tuttavia, tale modellizzazione richiede un pre-addestramento specifico per compiti attraverso modalità e fonti diverse, il che è costoso e limita la scalabilità a compiti non visti. Dato che i modelli pre-addestrati per la generazione di video catturano intrinsecamente le dipendenze delle sequenze temporali, esploriamo un'alternativa più unificata e scalabile: può un modello pre-addestrato per la generazione di video adattarsi a compiti diversi di immagini e video? Per rispondere a ciò, proponiamo UniVid, un framework che effettua il fine-tuning di un trasformatore di diffusione video per gestire vari compiti visivi senza modifiche specifiche per il compito. I compiti sono rappresentati come frasi visive, dove la sequenza di contesto definisce sia il compito che la modalità di output attesa. Valutiamo la generalizzazione di UniVid da due prospettive: (1) inferenza cross-modale con contesti composti sia da immagini che video, estendendosi oltre l'impostazione uni-modale di LVM; (2) compiti cross-source da dati naturali a dati annotati, senza pre-addestramento multi-source. Nonostante sia stato addestrato esclusivamente su dati video naturali, UniVid generalizza bene in entrambe le impostazioni. In particolare, i compiti di comprensione e generazione possono facilmente alternarsi semplicemente invertendo l'ordine delle frasi visive in questo paradigma. Questi risultati evidenziano il potenziale dei modelli pre-addestrati per la generazione di video di servire come base scalabile e unificata per la modellizzazione visiva. Il nostro codice sarà rilasciato su https://github.com/CUC-MIPG/UniVid.
La stima del layout e il rilevamento di oggetti 3D sono due compiti fondamentali nella comprensione delle scene indoor. Quando combinati, consentono la creazione di una rappresentazione spaziale compatta ma semanticamente ricca di una scena. Gli approcci esistenti si basano tipicamente su input di nuvole di punti, il che rappresenta una limitazione significativa poiché la maggior parte delle fotocamere consumer non dispone di sensori di profondità e i dati puramente visivi rimangono molto più comuni. Affrontiamo questo problema con TUN3D, il primo metodo che affronta congiuntamente la stima del layout e il rilevamento di oggetti 3D in scansioni reali, utilizzando immagini multi-vista come input, e non richiede pose della fotocamera di riferimento o supervisione sulla profondità. Il nostro approccio si basa su un'architettura leggera a convoluzione sparsa e impiega due testine dedicate: una per il rilevamento di oggetti 3D e una per la stima del layout, sfruttando una rappresentazione parametrica delle pareti innovativa ed efficace. Esperimenti estensivi dimostrano che TUN3D raggiunge prestazioni all'avanguardia su tre benchmark impegnativi per la comprensione delle scene: (i) utilizzando nuvole di punti di riferimento, (ii) utilizzando immagini con pose note, e (iii) utilizzando immagini senza pose note. Pur eguagliando le prestazioni dei metodi specializzati per il rilevamento di oggetti 3D, TUN3D avanza significativamente nella stima del layout, stabilendo un nuovo punto di riferimento nella comprensione olistica delle scene indoor. Il codice è disponibile all'indirizzo https://github.com/col14m/tun3d.
Gli esseri umani sviluppano una comprensione della fisica intuitiva attraverso l'interazione attiva con il mondo. Questo approccio è in netto contrasto con i modelli video attuali, come Sora, che si basano sull'osservazione passiva e quindi faticano a cogliere la causalità fisica. Questa osservazione porta alla nostra ipotesi centrale: l'intuizione fisica autentica del modello del mondo deve essere radicata in interazioni estese e causalmente ricche con il mondo reale. Per testare questa ipotesi, presentiamo WoW, un modello generativo del mondo da 14 miliardi di parametri addestrato su 2 milioni di traiettorie di interazione robotica. I nostri risultati rivelano che la comprensione della fisica da parte del modello è una distribuzione probabilistica di esiti plausibili, che porta a instabilità stocastiche e allucinazioni fisiche. Inoltre, dimostriamo che questa capacità emergente può essere attivamente vincolata verso il realismo fisico da SOPHIA, dove agenti modello visione-linguaggio valutano l'output generato da DiT e ne guidano il perfezionamento evolvendo iterativamente le istruzioni linguistiche. In aggiunta, un modello di dinamica inversa co-addestrato traduce questi piani raffinati in azioni robotiche eseguibili, chiudendo così il ciclo dall'immaginazione all'azione. Istituiamo WoWBench, un nuovo benchmark focalizzato sulla coerenza fisica e sul ragionamento causale nei video, dove WoW raggiunge prestazioni all'avanguardia sia nella valutazione umana che in quella autonoma, dimostrando una forte capacità nella causalità fisica, nella dinamica delle collisioni e nella permanenza degli oggetti. Il nostro lavoro fornisce prove sistematiche che l'interazione su larga scala con il mondo reale è un pilastro fondamentale per sviluppare l'intuizione fisica nell'IA. Modelli, dati e benchmark saranno resi open-source.
Traendo vantaggio dalla semplicità e dall'efficacia di Dense O2O e MAL, DEIM è diventato il framework di addestramento principale per i DETR in tempo reale, superando significativamente la serie YOLO. In questo lavoro, lo estendiamo con le caratteristiche di DINOv3, ottenendo DEIMv2. DEIMv2 copre otto dimensioni di modello da X a Atto, adattandosi a implementazioni su GPU, edge e mobile. Per le varianti X, L, M e S, adottiamo backbone pre-addestrati o distillati con DINOv3 e introduciamo un Adattatore di Sintonizzazione Spaziale (STA), che converte efficientemente l'output a scala singola di DINOv3 in funzionalità multi-scala, integrando una semantica forte con dettagli granulari per migliorare il rilevamento. Per i modelli ultra-leggeri (Nano, Pico, Femto e Atto), utilizziamo HGNetv2 con potatura di profondità e larghezza per rispettare budget di risorse rigorosi. Insieme a un decoder semplificato e a un Dense O2O aggiornato, questo design unificato consente a DEIMv2 di raggiungere un compromesso superiore tra prestazioni e costi in diversi scenari, stabilendo nuovi risultati all'avanguardia. In particolare, il nostro modello più grande, DEIMv2-X, raggiunge 57.8 AP con soli 50.3 milioni di parametri, superando i modelli X-scale precedenti che richiedono oltre 60 milioni di parametri per appena 56.5 AP. Sul lato compatto, DEIMv2-S è il primo modello sotto i 10 milioni (9.71 milioni) a superare il traguardo di 50 AP su COCO, raggiungendo 50.9 AP. Persino l'ultra-leggero DEIMv2-Pico, con soli 1.5 milioni di parametri, offre 38.5 AP, eguagliando YOLOv10-Nano (2.3 milioni) con circa il 50 percento in meno di parametri. Il nostro codice e i modelli pre-addestrati sono disponibili su https://github.com/Intellindust-AI-Lab/DEIMv2.
Gli agenti di Interfaccia Grafica Utente (GUI) mirano ad automatizzare un'ampia gamma di compiti umani emulando l'interazione dell'utente. Nonostante i rapidi progressi, gli approcci attuali sono ostacolati da diverse sfide critiche: il collo di bottiglia dei dati nell'addestramento end-to-end, l'elevato costo del rilevamento ritardato degli errori e il rischio di indicazioni contraddittorie. Ispirati dal ciclo cognitivo umano di Pensiero, Allineamento e Riflessione, presentiamo D-Artemis -- un nuovo framework deliberativo in questo articolo. D-Artemis sfrutta un meccanismo di recupero di suggerimenti specifici per l'applicazione, fine e granulare, per informare il suo processo decisionale. Impiega inoltre una fase proattiva di Allineamento Pre-esecuzione, in cui il modulo di Controllo della Coerenza Pensiero-Azione (TAC) e l'Agente di Correzione delle Azioni (ACA) lavorano in concerto per mitigare il rischio di fallimenti nell'esecuzione. Un Agente di Riflessione sullo Stato (SRA) post-esecuzione completa il ciclo cognitivo, consentendo un apprendimento strategico dall'esperienza. In modo cruciale, D-Artemis potenzia le capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM) per i compiti GUI senza la necessità di addestramento su complessi dataset di traiettorie, dimostrando una forte generalizzazione. D-Artemis stabilisce nuovi risultati all'avanguardia (SOTA) su entrambi i principali benchmark, raggiungendo un tasso di successo del 75,8% su AndroidWorld e del 96,8% su ScreenSpot-V2. Estesi studi di ablazione dimostrano ulteriormente il significativo contributo di ciascun componente al framework.
Presentiamo X-Streamer, un framework end-to-end di modellazione multimodale del mondo umano per la creazione di agenti digitali umani capaci di interazioni infinite attraverso testo, voce e video all'interno di un'unica architettura unificata. Partendo da un singolo ritratto, X-Streamer abilita chiamate video in tempo reale e aperte, guidate da input multimodali in streaming. Al suo cuore si trova un'architettura dual-transformer Thinker-Actor che unifica comprensione e generazione multimodale, trasformando un ritratto statico in interazioni audiovisive persistenti e intelligenti. Il modulo Thinker percepisce e ragiona sugli input utente in streaming, mentre i suoi stati nascosti vengono tradotti dall'Actor in flussi multimodali sincronizzati in tempo reale. Nello specifico, il Thinker sfrutta un modello preaddestrato di linguaggio e voce su larga scala, mentre l'Actor utilizza un modello di diffusione autoregressivo a blocchi che applica cross-attention agli stati nascosti del Thinker per produrre risposte multimodali allineate temporalmente, con token discreti di testo e audio intervallati e latenti video continui. Per garantire stabilità a lungo termine, progettiamo attenzioni inter- e intra-blocco con incorporamenti posizionali multimodali allineati temporalmente per un allineamento cross-modale fine e la conservazione del contesto, ulteriormente rafforzati da forzature di diffusione a blocchi e riferimenti globali all'identità. X-Streamer funziona in tempo reale su due GPU A100, sostenendo esperienze di chat video coerenti per ore a partire da ritratti arbitrari e aprendo la strada verso una modellazione unificata del mondo di esseri umani digitali interattivi.
L'elaborazione efficiente di immagini ad alta risoluzione è cruciale per le applicazioni reali di visione e linguaggio. Tuttavia, i modelli linguistici e visivi di grandi dimensioni (LVLM) esistenti comportano un sovraccarico computazionale significativo a causa dell'elevato numero di token visivi. Con l'avvento dei modelli "che pensano con le immagini", il ragionamento si estende ora oltre il testo al dominio visivo. Questa capacità motiva la nostra pipeline di ragionamento "da grossolano a fine" in due fasi: prima, un'immagine sottocampionata viene analizzata per identificare le regioni rilevanti per il compito; poi, solo queste regioni vengono ritagliate a piena risoluzione ed elaborate in una fase successiva di ragionamento. Questo approccio riduce il costo computazionale preservando i dettagli visivi fini dove necessario. Una sfida principale consiste nell'inferire quali regioni siano veramente rilevanti per una determinata query. I metodi correlati recenti spesso falliscono nella prima fase dopo il sottocampionamento dell'immagine di input, a causa del ragionamento guidato dalla percezione, dove sono necessarie informazioni visive chiare per un ragionamento efficace. Per affrontare questo problema, proponiamo ERGO (Efficient Reasoning & Guided Observation) che esegue una percezione guidata dal ragionamento, sfruttando il contesto multimodale per determinare dove concentrarsi. Il nostro modello può tenere conto dell'incertezza percettiva, espandendo la regione ritagliata per coprire aree visivamente ambigue per rispondere alle domande. A tal fine, sviluppiamo componenti di ricompensa semplici ma efficaci in un framework di apprendimento per rinforzo per la percezione da grossolano a fine. Su più dataset, il nostro approccio fornisce una maggiore accuratezza rispetto al modello originale e ai metodi competitivi, con una maggiore efficienza. Ad esempio, ERGO supera Qwen2.5-VL-7B sul benchmark V* di 4,7 punti utilizzando solo il 23% dei token visivi, ottenendo un'accelerazione dell'inferenza di 3x. Il codice e i modelli sono disponibili all'indirizzo: https://github.com/nota-github/ERGO.
La modifica guidata da testo delle immagini con modelli di diffusione ha raggiunto una qualità straordinaria, ma soffre di una latenza proibitiva, ostacolando le applicazioni nel mondo reale. Introduciamo FlashEdit, un nuovo framework progettato per abilitare la modifica delle immagini in tempo reale con alta fedeltà. La sua efficienza deriva da tre innovazioni chiave: (1) una pipeline One-Step Inversion-and-Editing (OSIE) che bypassa i costosi processi iterativi; (2) una tecnica Background Shield (BG-Shield) che garantisce la preservazione dello sfondo modificando selettivamente le caratteristiche solo all'interno della regione di modifica; e (3) un meccanismo Sparsified Spatial Cross-Attention (SSCA) che assicura modifiche precise e localizzate sopprimendo la dispersione semantica verso lo sfondo. Esperimenti estensivi dimostrano che FlashEdit mantiene una superiore coerenza dello sfondo e integrità strutturale, eseguendo modifiche in meno di 0,2 secondi, ottenendo un'accelerazione di oltre 150 volte rispetto ai precedenti metodi multi-step. Il nostro codice sarà reso disponibile pubblicamente all'indirizzo https://github.com/JunyiWuCode/FlashEdit.
La maggior parte degli approcci esistenti per la segmentazione referenziale raggiunge prestazioni elevate solo attraverso il fine-tuning o la composizione di più modelli pre-addestrati, spesso a costo di ulteriori addestramenti e modifiche architetturali. Nel frattempo, i modelli generativi di diffusione su larga scala codificano ricche informazioni semantiche, rendendoli attraenti come estrattori di caratteristiche generici. In questo lavoro, introduciamo un nuovo metodo che sfrutta direttamente le caratteristiche, in particolare i punteggi di attenzione, dai trasformatori di diffusione per compiti downstream, senza richiedere modifiche architetturali né ulteriori addestramenti. Per valutare sistematicamente queste caratteristiche, estendiamo i benchmark con compiti di grounding visivo-linguistico che coprono sia immagini che video. La nostra intuizione chiave è che le parole di stop agiscono come calamite per l'attenzione: accumulano attenzione in eccesso e possono essere filtrate per ridurre il rumore. Inoltre, identifiamo i "global attention sinks" (GAS) che emergono negli strati più profondi e dimostriamo che possono essere soppressi in sicurezza o reindirizzati su token ausiliari, portando a mappe di grounding più nitide e accurate. Proponiamo inoltre una strategia di ridistribuzione dell'attenzione, in cui le parole di stop aggiunte suddividono le attivazioni dello sfondo in cluster più piccoli, producendo heatmap più nitide e localizzate. Basandoci su questi risultati, sviluppiamo RefAM, un semplice framework di grounding senza addestramento che combina mappe di cross-attenzione, gestione dei GAS e ridistribuzione. Sui benchmark di segmentazione referenziale zero-shot per immagini e video, il nostro approccio supera costantemente i metodi precedenti, stabilendo un nuovo stato dell'arte senza fine-tuning o componenti aggiuntivi.
Il Reinforcement Learning con Feedback Umano (RLHF) e il Reinforcement Learning con Ricompense Verificabili (RLVR) sono i principali paradigmi di RL utilizzati nel post-training dei modelli linguistici di grandi dimensioni (LLM), ciascuno con vantaggi distinti. Tuttavia, l'RLHF affronta difficoltà in termini di interpretabilità e manipolazione delle ricompense poiché si basa su giudizi umani che spesso mancano di criteri espliciti, mentre l'RLVR è limitato nel suo ambito di applicazione a causa della sua focalizzazione su verificatori basati sulla correttezza. Proponiamo il Reinforcement Learning con Feedback Binario Flessibile (RLBFF), che combina la versatilità delle preferenze guidate dall'uomo con la precisione della verifica basata su regole, consentendo ai modelli di ricompensa di catturare aspetti sfumati della qualità delle risposte che vanno oltre la mera correttezza. L'RLBFF estrae principi che possono essere risposti in modo binario (ad esempio, accuratezza delle informazioni: sì, o leggibilità del codice: no) da feedback in linguaggio naturale. Tali principi possono quindi essere utilizzati per ancorare l'addestramento del Modello di Ricompensa come un compito di implicazione (la risposta soddisfa o non soddisfa un principio arbitrario). Dimostriamo che i Modelli di Ricompensa addestrati in questo modo possono superare i modelli Bradley-Terry quando confrontati con gli stessi dati e raggiungere prestazioni eccellenti su RM-Bench (86,2%) e JudgeBench (81,4%, #1 nella classifica al 24 settembre 2025). Inoltre, gli utenti possono specificare i principi di interesse al momento dell'inferenza per personalizzare il focus dei nostri modelli di ricompensa, a differenza dei modelli Bradley-Terry. Infine, presentiamo una ricetta completamente open source (inclusi i dati) per allineare Qwen3-32B utilizzando RLBFF e il nostro Modello di Ricompensa, ottenendo prestazioni pari o superiori a o3-mini e DeepSeek R1 sui benchmark generali di allineamento di MT-Bench, WildBench e Arena Hard v2 (con un costo di inferenza inferiore al 5%).
Lo sviluppo di sistemi di intelligenza artificiale che operino efficacemente attraverso le lingue mantenendo un radicamento culturale rappresenta una sfida di lunga data, specialmente in contesti a risorse limitate. I dati sintetici offrono una strada promettente, ma la loro efficacia in contesti multilingue e multiculturali rimane ancora poco esplorata. Investigiamo la creazione e l'impatto di dataset sintetici e contestualizzati culturalmente per le lingue indiane attraverso una strategia di generazione bottom-up che spinge i grandi modelli linguistici open-source (>= 235B parametri) a basare la generazione dei dati su contenuti specifici della lingua tratti da Wikipedia. Questo approccio integra il paradigma dominante top-down di traduzione di dataset sintetici da lingue ad alta risorsa come l'inglese. Introduciamo Updesh, un dataset sintetico su larga scala e di alta qualità per il seguimento di istruzioni, composto da 9,5 milioni di punti dati in 13 lingue indiane, che copre una varietà di compiti di ragionamento e generativi con un'enfasi sulle capacità di contesto lungo, multi-turn e sull'allineamento con i contesti culturali indiani. Una valutazione completa che include sia metriche automatizzate che annotazioni umane su 10.000 valutazioni indica che i dati generati sono di alta qualità; tuttavia, la valutazione umana evidenzia aree per ulteriori miglioramenti. Inoltre, eseguiamo valutazioni a valle addestrando modelli sul nostro dataset e valutando le prestazioni su 15 diversi dataset multilingue. I modelli addestrati su Updesh ottengono costantemente miglioramenti significativi nei compiti generativi e rimangono competitivi nei compiti di comprensione del linguaggio naturale (NLU) a scelta multipla. In particolare, i miglioramenti relativi sono più pronunciati nelle lingue a bassa e media risorsa, riducendo il divario con le lingue ad alta risorsa. Questi risultati forniscono prove empiriche che un'IA multilingue efficace richiede strategie di cura e generazione dei dati multifaccettate che incorporano metodologie consapevoli del contesto e radicate culturalmente.
Il Computer-Aided Design (CAD) è un componente fondamentale del prototipaggio industriale, in cui i modelli sono definiti non da coordinate grezze ma da sequenze di costruzione come schizzi ed estrusioni. Questa struttura sequenziale consente sia un'efficiente inizializzazione del prototipo che una successiva modifica. Il prototipaggio CAD guidato da testo, che unisce la generazione da testo a CAD e la modifica CAD, ha il potenziale di ottimizzare l'intero flusso di progettazione. Tuttavia, i lavori precedenti non hanno esplorato questo contesto, principalmente perché i tokenizer standard dei modelli linguistici di grandi dimensioni (LLM) scompongono le sequenze CAD in frammenti di parole di linguaggio naturale, non riuscendo a catturare la semantica a livello di primitiva CAD e impedendo ai moduli di attenzione di modellare la struttura geometrica. Noi ipotizziamo che una strategia di tokenizzazione multimodale, allineata con la natura primitiva e strutturale del CAD, possa fornire rappresentazioni più efficaci. A tal fine, proponiamo CAD-Tokenizer, un framework che rappresenta i dati CAD con token specifici per modalità utilizzando un VQ-VAE basato su sequenze con pooling a livello di primitiva e decodifica vincolata. Questo design produce rappresentazioni compatte e consapevoli delle primitive, allineate con la natura strutturale del CAD. Applicato al prototipaggio CAD guidato da testo unificato, CAD-Tokenizer migliora significativamente il rispetto delle istruzioni e la qualità della generazione, ottenendo prestazioni quantitative e qualitative migliori rispetto sia agli LLM generici che ai baseline specifici per il compito.
Il riconoscimento accurato dei testi storici può contribuire significativamente allo studio e alla conservazione del patrimonio culturale. Tuttavia, i modelli visione-linguaggio (VLM) esistenti sono progettati per testi moderni e standardizzati e non sono adatti a leggere le diverse lingue e grafie, i layout irregolari e il frequente degrado presenti nei materiali storici. Questo articolo presenta CHURRO, un VLM open-weight da 3 miliardi di parametri specializzato nel riconoscimento di testi storici. Il modello è addestrato su CHURRO-DS, il più grande dataset di riconoscimento di testi storici fino ad oggi. CHURRO-DS unisce 155 corpora storici composti da 99.491 pagine, che coprono 22 secoli di patrimonio testuale in 46 gruppi linguistici, inclusi varianti storiche e lingue morte. Abbiamo valutato diversi VLM open-weight e chiusi, nonché sistemi di riconoscimento ottico dei caratteri (OCR), su CHURRO-DS e abbiamo riscontrato che CHURRO supera tutti gli altri VLM. Sul test set di CHURRO-DS, CHURRO raggiunge un 82,3% (stampa) e un 70,1% (manoscritto) di similarità di Levenshtein normalizzata, superando rispettivamente del 1,4% e del 6,5% il secondo miglior modello, Gemini 2.5 Pro, pur essendo 15,5 volte più conveniente in termini di costi. Rilasciando il modello e il dataset, miriamo a favorire la ricerca guidata dalla comunità per migliorare la leggibilità dei testi storici e accelerare gli studi accademici.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato capacità notevoli nell'allineare input visivi con output in linguaggio naturale. Tuttavia, la misura in cui i token generati dipendono dalle modalità visive rimane poco compresa, limitando l'interpretabilità e l'affidabilità. In questo lavoro, presentiamo EAGLE, un framework leggero di tipo black-box per spiegare la generazione autoregressiva di token nei MLLM. EAGLE attribuisce qualsiasi token selezionato a regioni percettive compatte, quantificando l'influenza relativa dei precedenti linguistici e delle evidenze percettive. Il framework introduce una funzione obiettivo che unisce sufficienza (punteggio di insight) e indispensabilità (punteggio di necessità), ottimizzata tramite ricerca greedy su regioni immagine sparsificate per un'attribuzione fedele ed efficiente. Oltre all'attribuzione spaziale, EAGLE esegue un'analisi consapevole della modalità che districa su cosa si basano i token, fornendo un'interpretabilità fine delle decisioni del modello. Esperimenti estesi su MLLM open-source dimostrano che EAGLE supera costantemente i metodi esistenti in fedeltà, localizzazione e diagnosi di allucinazioni, richiedendo sostanzialmente meno memoria GPU. Questi risultati ne evidenziano l'efficacia e la praticità per avanzare l'interpretabilità dei MLLM. Il codice è disponibile all'indirizzo https://github.com/RuoyuChen10/EAGLE.
Sebbene i modelli di diffusione abbiano compiuto progressi significativi nella generazione di immagini, i loro output possono ancora apparire irrealistici e privi di dettagli fini, specialmente quando si utilizza un numero ridotto di valutazioni di funzioni neurali (NFEs) o scale di guida più basse. Per affrontare questo problema, proponiamo una nuova tecnica di campionamento basata sul momento, denominata campionamento guidato dalla storia (HiGS), che migliora la qualità e l'efficienza del campionamento di diffusione integrando le previsioni recenti del modello in ogni passo di inferenza. Nello specifico, HiGS sfrutta la differenza tra la previsione corrente e una media ponderata delle previsioni passate per orientare il processo di campionamento verso output più realistici con migliori dettagli e struttura. Il nostro approccio introduce praticamente nessun calcolo aggiuntivo e si integra perfettamente nei framework di diffusione esistenti, senza richiedere ulteriori addestramenti o fine-tuning. Esperimenti estensivi dimostrano che HiGS migliora costantemente la qualità delle immagini attraverso diversi modelli e architetture, e con vari budget di campionamento e scale di guida. Inoltre, utilizzando un modello SiT preaddestrato, HiGS raggiunge un nuovo stato dell'arte FID di 1,61 per la generazione non guidata di ImageNet a 256x256 con soli 30 passi di campionamento (invece dei 250 standard). Presentiamo quindi HiGS come un miglioramento plug-and-play al campionamento di diffusione standard che consente una generazione più veloce con una fedeltà superiore.
I sistemi prevalenti per il recupero testo-video adottano principalmente modelli di embedding per l'estrazione delle caratteristiche e calcolano le similarità del coseno per il ranking. Tuttavia, questo design presenta due limitazioni. Le coppie di dati testo-video di bassa qualità potrebbero compromettere il recupero, ma sono difficili da identificare e esaminare. La sola similarità del coseno non fornisce spiegazioni per i risultati del ranking, limitando l'interpretabilità. Ci chiediamo: possiamo interpretare i risultati del ranking, in modo da valutare i modelli di recupero ed esaminare i dati testo-video? Questo lavoro propone X-CoT, un framework di recupero spiegabile basato sul ragionamento CoT di LLM, in sostituzione del ranking di similarità basato su modelli di embedding. In primo luogo, espandiamo i benchmark esistenti con annotazioni video aggiuntive per supportare la comprensione semantica e ridurre il bias dei dati. Progettiamo inoltre un CoT di recupero composto da passaggi di confronto a coppie, che produce un ragionamento dettagliato e un ranking completo. X-CoT migliora empiricamente le prestazioni di recupero e genera motivazioni dettagliate. Facilita inoltre l'analisi del comportamento del modello e della qualità dei dati. Codice e dati sono disponibili su: https://github.com/PrasannaPulakurthi/X-CoT.
Sebbene i modelli basati su Transformer abbiano dimostrato prestazioni eccezionali nella modellazione del linguaggio, le loro elevate complessità comportano costi significativi quando si elaborano contesti lunghi. Al contrario, le reti neurali ricorrenti (RNN) come l'attenzione lineare e i modelli a spazio di stato hanno guadagnato popolarità grazie alle loro complessità costanti per token. Tuttavia, questi modelli ricorrenti faticano nei compiti che richiedono un richiamo accurato delle informazioni contestuali da contesti lunghi, poiché tutte le informazioni contestuali vengono compresse in uno stato ricorrente di dimensioni costanti. Studi precedenti hanno dimostrato che la capacità di richiamo è positivamente correlata alla dimensione dello stato ricorrente, ma addestrare direttamente RNN con stati ricorrenti più grandi comporta costi di addestramento elevati. In questo articolo, introduciamo StateX, una pipeline di addestramento per espandere in modo efficiente gli stati di RNN pre-addestrati attraverso un post-addestramento. Per due classi popolari di RNN, l'attenzione lineare e i modelli a spazio di stato, progettiamo modifiche architetturali post-addestramento per aumentare la dimensione dello stato senza o con un aumento trascurabile dei parametri del modello. Esperimenti su modelli fino a 1,3 miliardi di parametri dimostrano che StateX migliora in modo efficiente la capacità di richiamo e di apprendimento contestuale delle RNN senza comportare costi elevati di post-addestramento o compromettere altre capacità.
I trasformatori autoregressivi (AR) sono emersi come un paradigma potente per la generazione visiva, principalmente grazie alla loro scalabilità, efficienza computazionale e architettura unificata per linguaggio e visione. Tra questi, la generazione visiva autoregressiva basata sulla previsione della scala successiva (VAR) ha recentemente dimostrato prestazioni notevoli, superando persino i modelli basati sulla diffusione. In questo lavoro, esaminiamo nuovamente VAR e scopriamo un'idea teorica: quando equipaggiato con una maschera di attenzione markoviana, VAR è matematicamente equivalente a una diffusione discreta. Definiamo questa reinterpretazione come Raffinamento Visivo Scalabile con Diffusione Discreta (SRDD), stabilendo un ponte teorico tra i trasformatori AR e i modelli di diffusione. Sfruttando questa nuova prospettiva, mostriamo come sia possibile importare direttamente i vantaggi della diffusione, come il raffinamento iterativo, e ridurre le inefficienze architetturali in VAR, ottenendo una convergenza più rapida, un costo inferiore di inferenza e una ricostruzione zero-shot migliorata. Su più dataset, dimostriamo che la prospettiva basata sulla diffusione di VAR porta a guadagni consistenti in termini di efficienza e generazione.
La localizzazione di oggetti 3D basata su una sequenza di misurazioni della fotocamera è essenziale per attività di sorveglianza critiche per la sicurezza, come il monitoraggio degli incendi boschivi tramite droni. La localizzazione di oggetti rilevati con una fotocamera può tipicamente essere risolta con stime dense della profondità o ricostruzioni 3D della scena. Tuttavia, nel contesto di oggetti distanti o di attività limitate dalla quantità di risorse computazionali disponibili, nessuna di queste soluzioni è fattibile. In questo articolo, dimostriamo che il compito può essere risolto utilizzando filtri particellari sia per scenari con un singolo bersaglio che con più bersagli. Il metodo è stato studiato utilizzando una simulazione 3D e una sequenza di segmentazione delle immagini basata su droni con stime della posa della fotocamera basate sul sistema di navigazione satellitare globale (GNSS). I risultati hanno mostrato che un filtro particellare può essere utilizzato per risolvere compiti pratici di localizzazione basati sulle pose della fotocamera e sui segmenti delle immagini in situazioni in cui altre soluzioni falliscono. Il filtro particellare è indipendente dal metodo di rilevamento, rendendolo flessibile per nuovi compiti. Lo studio dimostra inoltre che il monitoraggio degli incendi boschivi tramite droni può essere condotto utilizzando il metodo proposto abbinato a un modello preesistente di segmentazione delle immagini.
La capacità di chiamata di funzioni è una competenza fondamentale dei grandi modelli linguistici, essenziale per gli agenti di intelligenza artificiale. I benchmark esistenti, come il Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) e ACEBench (arXiv:2501.12851), valutano la correttezza degli argomenti ma non testano l'aderenza alle istruzioni di formato incorporate nelle descrizioni dei parametri, come l'uso di virgolette doppie per racchiudere i valori o l'utilizzo di formati di data ISO. Presentiamo IFEval-FC, un benchmark ispirato a IFEval (arXiv:2311.07911) che valuta il preciso rispetto delle istruzioni nelle chiamate di funzioni. IFEval-FC codifica formati verificabili direttamente all'interno delle descrizioni dello schema JSON, ad esempio specificando che un valore non deve contenere punteggiatura. Include 750 casi di test, ciascuno composto da una funzione con un formato incorporato per uno dei suoi parametri di input e una corrispondente query dell'utente. La valutazione è completamente algoritmica, garantendo oggettività, riproducibilità e scalabilità. I nostri risultati mostrano che anche i modelli proprietari all'avanguardia, inclusi GPT-5 e Claude 4.1 Opus, spesso non riescono a seguire regole di formattazione di base, evidenziando una limitazione pratica per i sistemi di agenti nel mondo reale. Il codice completo e i dati sono pubblicamente disponibili all'indirizzo https://github.com/Skripkon/IFEval-FC.