Articoli di ricerca IA selezionati quotidianamente con traduzioni
Un obiettivo a lungo termine degli agenti linguistici è imparare e migliorare attraverso la propria esperienza, superando infine gli esseri umani in compiti complessi e reali. Tuttavia, addestrare agenti a partire da dati di esperienza con l'apprendimento per rinforzo rimane difficile in molti ambienti, che spesso mancano di ricompense verificabili (ad esempio, siti web) o richiedono iterazioni inefficienti su lunghi orizzonti temporali (ad esempio, l'uso di strumenti in più turni). Di conseguenza, la maggior parte degli agenti attuali si affina tramite apprendimento supervisionato su dati esperti, un approccio difficile da scalare e con scarsa capacità di generalizzazione. Questa limitazione deriva dalla natura delle dimostrazioni esperte: esse catturano solo un ristretto insieme di scenari e espongono l'agente a una diversità ambientale limitata. Affrontiamo questa limitazione con un paradigma intermedio che chiamiamo esperienza iniziale: dati di interazione generati dalle azioni stesse dell'agente, in cui gli stati futuri risultanti fungono da supervisione senza segnali di ricompensa. All'interno di questo paradigma, studiamo due strategie per utilizzare tali dati: (1) Modellazione implicita del mondo, che utilizza gli stati raccolti per ancorare la politica alle dinamiche ambientali; e (2) Autoriflessione, in cui l'agente impara dalle sue azioni subottimali per migliorare il ragionamento e il processo decisionale. Valutiamo questi approcci in otto ambienti diversi e su più famiglie di modelli. I nostri metodi migliorano costantemente l'efficacia e la generalizzazione fuori dominio, evidenziando il valore dell'esperienza iniziale. Inoltre, in ambienti con ricompense verificabili, i nostri risultati forniscono segnali promettenti che l'esperienza iniziale offre una solida base per un successivo apprendimento per rinforzo, posizionandola come un ponte pratico tra l'apprendimento per imitazione e agenti completamente guidati dall'esperienza.
Sebbene gli attuali Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano dimostrato competenza in compiti di ragionamento come la matematica e la logica, la loro capacità di ragionamento riflessivo a catena lunga, un prerequisito per risolvere problemi complessi del mondo reale, rimane in gran parte inesplorata. In questo lavoro, conduciamo prima un'ampia indagine empirica per valutare questa capacità. Sfruttando un motore di sintesi dati progettato con cura, costruiamo MM-HELIX, un benchmark multimodale composto da 1.260 campioni di 42 compiti sintetici impegnativi che richiedono pensiero iterativo e backtracking. I risultati empirici su questo benchmark rivelano che gli attuali MLLMs mostrano significativi deficit di prestazioni nel ragionamento riflessivo a catena lunga. Per affrontare questa limitazione, generiamo dati di post-training e esploriamo ulteriormente paradigmi di apprendimento per sfruttare tali dati. Sviluppiamo prima la pipeline Step-Elicited Response Generation per creare MM-HELIX-100K, un dataset su larga scala di 100k tracce di ragionamento riflessivo di alta qualità per la fase di instruction-tuning. Considerando che il Reinforcement Learning standard fallisce su compiti complessi a causa di segnali di ricompensa sparsi e di dimenticanza catastrofica dopo il Supervised Fine-Tuning, proponiamo l'Adaptive Hybrid Policy Optimization (AHPO), una strategia di addestramento innovativa che unisce dinamicamente la supervisione offline e l'ottimizzazione online in un'unica fase. Questa strategia consente al modello di apprendere da dati esperti quando le ricompense sono scarse e di condurre esplorazioni indipendenti una volta diventato competente. Applicata alla baseline Qwen2.5-VL-7B, il nostro metodo ottiene un miglioramento di precisione del +18,6% sul benchmark MM-HELIX e dimostra una forte generalizzazione con un guadagno medio di prestazioni del +5,7% su compiti generali di matematica e logica. Il nostro lavoro dimostra che il ragionamento riflessivo negli MLLMs può essere efficacemente appreso e generalizzato, aprendo la strada allo sviluppo di MLLMs più capaci.
I recenti progressi nell'editing di immagini basato su istruzioni e nella generazione guidata da soggetti hanno attirato notevole attenzione, ma entrambi i compiti presentano ancora limitazioni nel soddisfare le esigenze pratiche degli utenti. L'editing basato su istruzioni si affida esclusivamente a istruzioni linguistiche, che spesso non riescono a catturare dettagli specifici di modifica, rendendo necessarie immagini di riferimento. Nel frattempo, la generazione guidata da soggetti è limitata alla combinazione di oggetti concreti o persone, trascurando concetti più ampi e astratti. Per affrontare queste sfide, proponiamo due nuovi compiti: l'editing e la generazione multimodale basati su istruzioni. Questi compiti supportano sia istruzioni testuali che immagini e ampliano l'ambito per includere sia concetti concreti che astratti, migliorando notevolmente le loro applicazioni pratiche. Introduciamo DreamOmni2, affrontando due sfide principali: la creazione di dati e la progettazione del framework del modello. La nostra pipeline di sintesi dei dati consiste in tre passaggi: (1) utilizzare un metodo di miscelazione delle caratteristiche per creare dati di estrazione sia per concetti astratti che concreti, (2) generare dati di training per l'editing basato su istruzioni multimodali utilizzando i modelli di editing e estrazione, e (3) applicare ulteriormente il modello di estrazione per creare dati di training per l'editing basato su istruzioni multimodali. Per il framework, per gestire input multi-immagine, proponiamo uno schema di codifica dell'indice e di spostamento della codifica della posizione, che aiuta il modello a distinguere le immagini ed evitare confusione tra i pixel. Inoltre, introduciamo un addestramento congiunto con il VLM e il nostro modello di generazione/editing per elaborare meglio istruzioni complesse. In aggiunta, abbiamo proposto benchmark completi per questi due nuovi compiti per favorirne lo sviluppo. Gli esperimenti mostrano che DreamOmni2 ha ottenuto risultati impressionanti. Modelli e codici saranno rilasciati.
Con la crescita esplosiva dei dati, la modellazione di sequenze lunghe è diventata sempre più importante in compiti come l'elaborazione del linguaggio naturale e la bioinformatica. Tuttavia, i metodi esistenti affrontano compromessi intrinseci tra efficienza e memoria. Le reti neurali ricorrenti soffrono di problemi di scomparsa ed esplosione del gradiente, rendendole difficili da scalare. I Transformer possono modellare dipendenze globali ma sono limitati dalla complessità quadratica. Recentemente, modelli selettivi a spazio di stati come Mamba hanno dimostrato un'elevata efficienza con complessità temporale O(n) e inferenza ricorrente O(1), ma la loro memoria a lungo raggio decade esponenzialmente. In questo lavoro, conduciamo derivazioni matematiche e analisi teorico-informatiche per scoprire sistematicamente il meccanismo di decadimento della memoria di Mamba, rispondendo a una domanda fondamentale: qual è la natura della memoria a lungo raggio di Mamba e come conserva le informazioni? Per quantificare la perdita di informazioni chiave, introduciamo ulteriormente metriche di fedeltà della memoria orizzontale-verticale che catturano il degrado sia all'interno che tra i livelli. Ispirati da come gli esseri umani distillano e conservano informazioni salienti durante la lettura di documenti lunghi, proponiamo MemMamba, un nuovo framework architetturale che integra un meccanismo di riepilogo degli stati insieme a un'attenzione incrociata tra livelli e token, che allevia la dimenticanza a lungo raggio preservando la complessità lineare. MemMamba ottiene miglioramenti significativi rispetto alle varianti esistenti di Mamba e ai Transformer su benchmark di sequenze lunghe come PG19 e Passkey Retrieval, offrendo un'accelerazione del 48% nell'efficienza di inferenza. Sia l'analisi teorica che i risultati empirici dimostrano che MemMamba rappresenta una svolta nel compromesso complessità-memoria, offrendo un nuovo paradigma per la modellazione di sequenze ultra-lunghe.
I modelli multimodali unificati hanno dimostrato risultati promettenti nella generazione e modifica di contenuti multimodali, ma rimangono ampiamente limitati al dominio delle immagini. In questo lavoro, presentiamo UniVideo, un framework versatile che estende la modellazione unificata al dominio video. UniVideo adotta un design a doppio flusso, combinando un Multimodal Large Language Model (MLLM) per la comprensione delle istruzioni con un Multimodal DiT (MMDiT) per la generazione video. Questo design consente un'interpretazione accurata di istruzioni multimodali complesse preservando la coerenza visiva. Basandosi su questa architettura, UniVideo unifica diverse attività di generazione e modifica video sotto un unico paradigma di istruzione multimodale ed è addestrato congiuntamente su di esse. Esperimenti estensivi dimostrano che UniVideo eguaglia o supera i migliori baselines specifici per task nella generazione video da testo/immagini, nella generazione video in contesto e nella modifica video in contesto. In particolare, il design unificato di UniVideo consente due forme di generalizzazione. Innanzitutto, UniVideo supporta la composizione di task, come combinare la modifica con il trasferimento di stile, integrando più capacità all'interno di una singola istruzione. In secondo luogo, anche senza un addestramento esplicito sulla modifica video libera, UniVideo trasferisce la sua capacità di modifica da dati su larga scala di modifica delle immagini a questo contesto, gestendo istruzioni non viste come il green-screening di personaggi o la modifica di materiali all'interno di un video. Oltre a queste capacità principali, UniVideo supporta anche la generazione video basata su prompt visivi, dove l'MLLM interpreta i prompt visivi e guida l'MMDiT durante la sintesi. Per favorire la ricerca futura, rilasceremo il nostro modello e il codice.
Introduciamo il compito di completamento video spazio-temporale arbitrario, in cui un video viene generato a partire da patch specificate dall'utente in qualsiasi posizione spaziale e timestamp, analogamente a dipingere su una tela video. Questa formulazione flessibile unifica naturalmente molti compiti esistenti di generazione video controllata—tra cui immagine-to-video basata sul primo frame, inpainting, estensione e interpolazione—sotto un unico paradigma coerente. Realizzare questa visione, tuttavia, si scontra con un ostacolo fondamentale nei moderni modelli di diffusione video latente: l'ambiguità temporale introdotta dai VAEs causali, in cui più frame di pixel vengono compressi in una singola rappresentazione latente, rendendo strutturalmente difficile un condizionamento preciso a livello di frame. Affrontiamo questa sfida con VideoCanvas, un nuovo framework che adatta il paradigma di In-Context Conditioning (ICC) a questo compito di controllo fine senza l'aggiunta di nuovi parametri. Proponiamo una strategia di condizionamento ibrida che separa il controllo spaziale da quello temporale: il posizionamento spaziale viene gestito tramite zero-padding, mentre l'allineamento temporale è ottenuto attraverso l'Interpolazione Temporale RoPE, che assegna a ciascuna condizione una posizione frazionaria continua all'interno della sequenza latente. Questo risolve l'ambiguità temporale del VAE e abilita un controllo consapevole dei frame di pixel su un backbone congelato. Per valutare questa nuova capacità, sviluppiamo VideoCanvasBench, il primo benchmark per il completamento video spazio-temporale arbitrario, coprendo sia la fedeltà intra-scena che la creatività inter-scena. Gli esperimenti dimostrano che VideoCanvas supera significativamente i paradigmi di condizionamento esistenti, stabilendo un nuovo stato dell'arte nella generazione video flessibile e unificata.
Studi recenti sui modelli di ragionamento esplorano la meta-consapevolezza dei modelli linguistici, ovvero la capacità di sapere come pensare autonomamente. Sosteniamo che i modelli di ragionamento su larga scala manchino di questa proprietà di meta-consapevolezza, dimostrando un grave disallineamento tra i rollout veri e le meta-informazioni previste. Proponiamo che l'allineamento delle meta-predizioni con i rollout veri porterà a significativi miglioramenti delle prestazioni. Per verificare questa ipotesi, progettiamo una pipeline di addestramento che potenzia la Meta-Consapevolezza tramite Auto-Allineamento (MASA), e dimostriamo che una meta-consapevolezza migliorata si traduce direttamente in una maggiore accuratezza. A differenza dei modelli di ragionamento meta-cognitivi esistenti, il nostro metodo non richiede fonti di addestramento esterne, ma sfrutta segnali auto-generati per addestrare la meta-consapevolezza. Inoltre, il nostro metodo consente un addestramento efficiente grazie a: i) l'eliminazione di prompt a varianza zero che sono banali o irrisolvibili, e ii) l'interruzione di rollout prolungati quando è improbabile che portino a risposte corrette. I risultati sono incoraggianti: la nostra strategia produce miglioramenti significativi sia in termini di accuratezza che di efficienza di addestramento su task in dominio, e mostra una forte generalizzazione su benchmark out-of-domain. Più specificamente, il nostro metodo può accelerare l'addestramento GRPO di oltre 1,28x per raggiungere le stesse prestazioni, e ottenere un guadagno del 19,3% in accuratezza su AIME25, e un guadagno medio del 6,2% su sei benchmark matematici. L'addestramento con guida meta-cognitiva migliora la generalizzazione out-of-domain, con un aumento del 3,87% su GPQA-Diamond e un guadagno complessivo del 2,08% in accuratezza su 13 benchmark che coprono domini logici, scientifici e di programmazione.
La raccomandazione delle condizioni di reazione chimica consiste nella selezione di parametri appropriati per le reazioni chimiche, un aspetto cruciale per accelerare il progresso della scienza chimica. Con il rapido sviluppo dei modelli linguistici di grandi dimensioni (LLM), cresce l'interesse nel sfruttare le loro capacità di ragionamento e pianificazione per la raccomandazione delle condizioni di reazione. Nonostante i loro successi, i metodi esistenti raramente spiegano il ragionamento alla base delle condizioni di reazione raccomandate, limitando la loro utilità nei flussi di lavoro scientifici ad alto rischio. In questo lavoro, proponiamo ChemMAS, un sistema multi-agente che riformula la previsione delle condizioni come un compito di ragionamento basato su evidenze. ChemMAS scompone il compito in ancoraggio meccanicistico, richiamo multi-canale, dibattito agentico consapevole dei vincoli e aggregazione delle motivazioni. Ogni decisione è supportata da giustificazioni interpretabili basate su conoscenze chimiche e precedenti recuperati. Gli esperimenti dimostrano che ChemMAS ottiene miglioramenti del 20-35% rispetto ai benchmark specifici del dominio e supera i LLM generici del 10-15% in termini di accuratezza Top-1, offrendo al contempo motivazioni falsificabili e affidabili per gli esseri umani, stabilendo così un nuovo paradigma per l'AI spiegabile nella scoperta scientifica.
I recenti modelli linguistici a contesto lungo (LCLM) sono in grado di elaborare centinaia di migliaia di token in un singolo prompt, aprendo nuove opportunità per il ragionamento multi-hop basato su conoscenze estese, integrando grandi insiemi di documenti recuperati o, in alcuni casi, direttamente tutte le informazioni necessarie. Tuttavia, il semplice inserimento di più documenti nella finestra contestuale non riesce a catturare come le evidenze dovrebbero essere connesse. Affrontiamo questa lacuna con i modelli di pensiero (thought templates), che riformulano il ragionamento come cache di pensiero riutilizzabili, derivate da tracce di risoluzione di problemi precedenti, strutturando come le evidenze vengono combinate e guidando l'inferenza multi-hop con documenti fattuali. Per mantenere efficaci questi modelli, proponiamo una strategia di aggiornamento che perfeziona iterativamente i modelli derivati dai dati di training attraverso feedback in linguaggio naturale. Su diversi benchmark e famiglie di LCLM, il nostro approccio fornisce miglioramenti consistenti rispetto a baseline solide, sia in contesti basati su recupero che senza recupero. Inoltre, dimostriamo che i modelli ottimizzati possono essere distillati in modelli open-source più piccoli, evidenziando la sua ampia applicabilità e il riutilizzo trasparente del ragionamento. Definiamo il nostro framework come LCLM Aumentati da Modelli di Pensiero (ToTAL).
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha spinto i Modelli Linguistici di Grande Dimensione verso ragionamenti complessi, ma la sua scalabilità è spesso ostacolata da un collo di bottiglia nell'addestramento, in cui le prestazioni si stabilizzano quando l'entropia della politica collassa, segnalando una perdita di esplorazione. I metodi precedenti affrontano tipicamente questo problema mantenendo un'elevata entropia della politica, ma i meccanismi precisi che governano un'esplorazione significativa sono rimasti poco esplorati. La nostra analisi suggerisce che un focus non selettivo sull'entropia rischia di amplificare token irrilevanti e destabilizzare l'addestramento. Questo articolo indaga le dinamiche di esplorazione all'interno dell'RLVR e identifica un problema chiave: l'eliminazione graduale di token esplorativi a bassa probabilità ma preziosi, che definiamo \textit{scintille di ragionamento}. Rileviamo che, sebbene abbondanti nei modelli pre-addestrati, queste scintille vengono sistematicamente estinte durante l'RLVR a causa di una penalizzazione eccessiva, portando a una degenerazione dell'esplorazione. Per affrontare questo problema, introduciamo la Regolarizzazione a Bassa Probabilità (Lp-Reg). Il suo meccanismo principale regolarizza la politica verso una distribuzione proxy euristica. Questo proxy è costruito filtrando i token presumibilmente rumorosi e rinormalizzando la distribuzione sui candidati rimanenti. Il risultato è un proxy meno rumoroso in cui la probabilità delle scintille di ragionamento è amplificata, che funge poi da obiettivo di regolarizzazione soft per proteggere questi token preziosi dall'eliminazione tramite la divergenza KL. Gli esperimenti dimostrano che Lp-Reg consente un addestramento on-policy stabile per circa 1.000 passi, un regime in cui i metodi di controllo dell'entropia di base collassano. Questa esplorazione sostenuta porta a prestazioni all'avanguardia, raggiungendo una precisione media del 60,17% su cinque benchmark matematici, un miglioramento del 2,66% rispetto ai metodi precedenti. Il codice è disponibile all'indirizzo https://github.com/CarlanLark/Lp-Reg.
I recenti progressi negli agenti basati su Large Language Model (LLM) hanno dimostrato le loro promettenti capacità generali. Tuttavia, le loro prestazioni in domini specializzati del mondo reale spesso si degradano a causa delle difficoltà nell'integrare efficacemente strumenti esterni e strategie di prompting specifiche. Sebbene siano stati proposti metodi come l'apprendimento per rinforzo agentico per affrontare questo problema, essi si basano tipicamente su aggiornamenti dei parametri costosi, ad esempio attraverso un processo che utilizza il Supervised Fine-Tuning (SFT) seguito da una fase di Reinforcement Learning (RL) con Group Relative Policy Optimization (GRPO) per alterare la distribuzione dell'output. Tuttavia, sosteniamo che gli LLM possono ottenere un effetto simile sulla distribuzione dell'output apprendendo conoscenza esperienziale come prior sui token, un approccio molto più leggero che non solo affronta la scarsità pratica dei dati, ma evita anche il comune problema dell'overfitting. A tal fine, proponiamo il Training-Free Group Relative Policy Optimization (Training-Free GRPO), una soluzione economica che migliora le prestazioni degli agenti LLM senza alcun aggiornamento dei parametri. Il nostro metodo sfrutta il vantaggio semantico relativo al gruppo invece di quelli numerici all'interno di ogni gruppo di rollout, distillando iterativamente conoscenza esperienziale di alta qualità durante l'apprendimento multi-epoca su un minimo di dati ground-truth. Tale conoscenza funge da prior sui token appresa, che viene integrata in modo fluido durante le chiamate API degli LLM per guidare il comportamento del modello. Esperimenti su compiti di ragionamento matematico e ricerca web dimostrano che il Training-Free GRPO, applicato a DeepSeek-V3.1-Terminus, migliora significativamente le prestazioni out-of-domain. Con solo poche decine di campioni di addestramento, il Training-Free GRPO supera i piccoli LLM fine-tuned con dati e costi di addestramento marginali.
Sfruttare il potenziale dei LLM richiede un delicato equilibrio tra l'essere utili e innocui. Ciò crea una tensione fondamentale tra due sfide contrastanti: la vulnerabilità ad attacchi avversari che inducono contenuti non sicuri e la tendenza a un eccesso di rifiuto su prompt benigni ma sensibili. Gli approcci attuali spesso gestiscono questo equilibrio utilizzando modelli di sicurezza che rifiutano completamente qualsiasi contenuto che includa parti non sicure. Questo approccio interrompe del tutto la musica: può esacerbare i rifiuti eccessivi e non fornisce una guida sfumata per le query che rifiuta. Per insegnare ai modelli una coreografia più coordinata, proponiamo WaltzRL, un innovativo framework di apprendimento per rinforzo multi-agente che formula l'allineamento alla sicurezza come un gioco collaborativo a somma positiva. WaltzRL addestra congiuntamente un agente conversazionale e un agente di feedback, dove quest'ultimo è incentivato a fornire suggerimenti utili che migliorano la sicurezza e l'utilità delle risposte dell'agente conversazionale. Al centro di WaltzRL c'è un Dynamic Improvement Reward (DIR) che si evolve nel tempo in base a quanto bene l'agente conversazionale incorpora il feedback. Al momento dell'inferenza, le risposte non sicure o eccessivamente rifiutanti dell'agente conversazionale vengono migliorate anziché scartate. L'agente di feedback viene implementato insieme all'agente conversazionale e si attiva in modo adattivo solo quando necessario, preservando l'utilità e la bassa latenza sulle query sicure. I nostri esperimenti, condotti su cinque dataset diversi, dimostrano che WaltzRL riduce significativamente sia le risposte non sicure (ad esempio, dal 39,0% al 4,6% su WildJailbreak) che i rifiuti eccessivi (dal 45,3% al 9,9% su OR-Bench) rispetto a vari baseline. Consentendo agli agenti conversazionali e di feedback di co-evolvere e applicare il feedback in modo adattivo, WaltzRL migliora la sicurezza dei LLM senza degradare le capacità generali, avanzando così il fronte di Pareto tra utilità e innocuità.
La ricostruzione 3D in tempo reale da sequenze di immagini monoculari rappresenta una sfida di lunga data nel campo della visione artificiale, cruciale per applicazioni come real-to-sim, AR/VR e robotica. I metodi esistenti devono affrontare un importante compromesso: l'ottimizzazione per singola scena offre un'elevata fedeltà ma è computazionalmente costosa, mentre i modelli di base feed-forward consentono inferenze in tempo reale ma faticano a garantire accuratezza e robustezza. In questo lavoro, proponiamo ARTDECO, un framework unificato che combina l'efficienza dei modelli feed-forward con l'affidabilità delle pipeline basate su SLAM. ARTDECO utilizza modelli di base 3D per la stima della posa e la previsione dei punti, abbinati a un decodificatore Gaussiano che trasforma caratteristiche multi-scala in Gaussiane 3D strutturate. Per mantenere sia la fedeltà che l'efficienza su larga scala, progettiamo una rappresentazione Gaussiana gerarchica con una strategia di rendering consapevole del livello di dettaglio (LoD), che migliora la fedeltà del rendering riducendo la ridondanza. Esperimenti su otto benchmark diversi, sia interni che esterni, dimostrano che ARTDECO offre prestazioni interattive paragonabili a SLAM, una robustezza simile ai sistemi feed-forward e una qualità di ricostruzione vicina all'ottimizzazione per singola scena, fornendo un percorso pratico verso la digitalizzazione in tempo reale di ambienti reali con geometria accurata e alta fedeltà visiva. Esplora ulteriori demo sulla nostra pagina del progetto: https://city-super.github.io/artdeco/.
Il post-addestramento per il ragionamento dei grandi modelli linguistici (LLM) si basa sempre più su ricompense verificabili: controllori deterministici che forniscono segnali di correttezza binari (0-1). Sebbene affidabili, tali feedback binari sono rigidi: molti compiti ammettono risposte parzialmente corrette o alternative che i verificatori sottovalutano, e la supervisione del tipo "tutto o niente" risultante limita l'apprendimento. I modelli di ricompensa offrono feedback più ricchi e continui, che possono servire come segnale di supervisione complementare ai verificatori. Introduciamo HERO (Hybrid Ensemble Reward Optimization), un framework di apprendimento per rinforzo che integra in modo strutturato i segnali dei verificatori con i punteggi dei modelli di ricompensa. HERO utilizza una normalizzazione stratificata per limitare i punteggi dei modelli di ricompensa all'interno di gruppi definiti dai verificatori, preservando la correttezza mentre affina le distinzioni qualitative, e una ponderazione basata sulla varianza per enfatizzare i prompt più complessi dove i segnali densi sono più rilevanti. Su diversi benchmark di ragionamento matematico, HERO supera costantemente i baseline basati solo su modelli di ricompensa o solo su verificatori, con miglioramenti significativi sia su compiti verificabili che su quelli difficili da verificare. I nostri risultati dimostrano che un design ibrido delle ricompense mantiene la stabilità dei verificatori sfruttando al contempo la sfumatura dei modelli di ricompensa per migliorare il ragionamento.
I grandi modelli linguistici stanno emergendo come strumenti potenti per la scoperta di leggi scientifiche, una sfida fondamentale nella scienza guidata dall'IA. Tuttavia, i benchmark esistenti per questo compito soffrono di un trilemma metodologico di base, costringendo a un compromesso tra rilevanza scientifica, scalabilità e resistenza alla memorizzazione. Inoltre, semplificano eccessivamente la scoperta come un adattamento statico di funzioni, non riuscendo a catturare il processo scientifico autentico di scoperta di leggi incorporate attraverso l'esplorazione interattiva di sistemi modello complessi. Per colmare queste lacune critiche, introduciamo NewtonBench, un benchmark che comprende 324 compiti di scoperta di leggi scientifiche in 12 domini della fisica. Il nostro design mitiga il trilemma di valutazione utilizzando cambiamenti metafisici - alterazioni sistematiche di leggi canoniche - per generare una vasta gamma di problemi che sono scalabili, scientificamente rilevanti e resistenti alla memorizzazione. Inoltre, eleviamo la valutazione dall'adattamento statico di funzioni alla scoperta interattiva di modelli, richiedendo agli agenti di esplorare sperimentalmente sistemi complessi simulati per scoprire principi nascosti. I nostri esperimenti estesi rivelano una capacità chiara ma fragile di scoperta nei modelli linguistici all'avanguardia: questa capacità si degrada precipitosamente con l'aumentare della complessità del sistema e mostra un'estrema sensibilità al rumore osservativo. In particolare, scopriamo un effetto paradossale dell'assistenza strumentale: fornire un interprete di codice può ostacolare i modelli più capaci inducendo un passaggio prematuro dall'esplorazione allo sfruttamento, portandoli a accontentarsi di soluzioni subottimali. Questi risultati dimostrano che la scoperta robusta e generalizzabile in ambienti complessi e interattivi rimane la sfida centrale. Fornendo un banco di prova scalabile, robusto e scientificamente autentico, NewtonBench offre uno strumento cruciale per misurare il vero progresso e guidare lo sviluppo di agenti IA di prossima generazione capaci di una genuina scoperta scientifica.
I grandi modelli linguistici hanno recentemente dimostrato significativi miglioramenti nelle capacità di ragionamento, spesso attribuiti alla loro capacità di generare catene di pensiero più lunghe e di impegnarsi in ragionamenti riflessivi. Tuttavia, il contributo delle riflessioni al miglioramento delle prestazioni rimane poco chiaro. In questo articolo, analizziamo sistematicamente le esecuzioni di otto modelli di ragionamento su cinque dataset matematici. Ci concentriamo sui comportamenti riflessivi in cui il modello ha già prodotto una risposta ma continua a riflettere prima di finalizzare il suo output. La nostra analisi rivela che le riflessioni sono prevalentemente confermative e raramente alterano la risposta iniziale del modello, un modello coerente tra i modelli e i dataset. Per comprendere il ruolo delle riflessioni nell'addestramento, costruiamo dataset di fine-tuning supervisionato (SFT) con quantità variabili di passaggi di riflessione. Osserviamo che l'addestramento di modelli su esecuzioni con più passaggi di riflessione migliora principalmente la correttezza della prima risposta piuttosto che la capacità di correggere risposte inizialmente errate attraverso le riflessioni. Questo ci motiva a proporre un metodo di early-stop consapevole della domanda che migliora l'efficienza dei token durante l'inferenza interrompendo il processo di ragionamento una volta generati alcuni candidati plausibili, riducendo così i passaggi di riflessione non necessari. Motivati da ciò, proponiamo ulteriormente di troncare dinamicamente le riflessioni dopo che è apparso un candidato durante la generazione, riducendo i token di ragionamento del 24,5% su cinque dataset matematici, con un calo di precisione del 2,9%.
Lo scaling parallelo è emerso come un paradigma potente per migliorare le capacità di ragionamento nei grandi modelli linguistici (LLMs) generando simultaneamente più tracce di Chain-of-Thought (CoT). Tuttavia, questo approccio introduce una significativa inefficienza computazionale a causa della ridondanza tra le tracce: la nostra analisi rivela che oltre l'80% delle tracce di ragionamento parallelo produce risposte finali identiche, rappresentando un notevole spreco di calcolo. Per affrontare questo collo di bottiglia critico in termini di efficienza, proponiamo DeepPrune, un nuovo framework che abilita uno scaling parallelo efficiente attraverso il pruning dinamico. Il nostro metodo include un modello giudice specializzato, addestrato con focal loss e tecniche di oversampling, per prevedere accuratamente l'equivalenza delle risposte da tracce di ragionamento parziali, raggiungendo un AUROC di 0.87 nella previsione di equivalenza, combinato con un algoritmo di clustering greedy online che elimina dinamicamente i percorsi ridondanti preservando la diversità delle risposte. Valutazioni approfondite su tre benchmark impegnativi (AIME 2024, AIME 2025 e GPQA) e su più modelli di ragionamento dimostrano che DeepPrune ottiene una riduzione dei token di oltre l'80% rispetto al campionamento consensuale convenzionale nella maggior parte dei casi, mantenendo un'accuratezza competitiva entro 3 punti percentuali. Il nostro lavoro stabilisce un nuovo standard per il ragionamento parallelo efficiente, rendendo il ragionamento ad alte prestazioni più efficiente. Il nostro codice e i dati sono disponibili qui: https://deepprune.github.io/
Ricerche precedenti hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) ottimizzati su completamenti maliziosi o errati in ambiti ristretti (ad esempio, codice insicuro o consigli medici errati) possono diventare ampiamente disallineati, manifestando comportamenti dannosi, un fenomeno noto come disallineamento emergente. In questo lavoro, indaghiamo se questo fenomeno possa estendersi oltre i comportamenti legati alla sicurezza a uno spettro più ampio di disonestà e inganno in scenari ad alto rischio (ad esempio, mentire sotto pressione e comportamenti ingannevoli). Per esplorare questa ipotesi, ottimizziamo LLM open-source su completamenti disallineati in diversi domini. I risultati sperimentali dimostrano che i LLM mostrano un comportamento ampiamente disallineato nella disonestà. Inoltre, esploriamo ulteriormente questo fenomeno in un contesto di ottimizzazione combinata a valle, e scopriamo che l'introduzione di appena l'1% di dati disallineati in un'attività standard a valle è sufficiente a ridurre il comportamento onesto di oltre il 20%. Consideriamo inoltre un ambiente più pratico di interazione uomo-IA, in cui simuliamo sia utenti benigni che parziali che interagiscono con l'assistente LLM. In modo significativo, osserviamo che l'assistente può essere disallineato involontariamente, aggravando la sua disonestà con una popolazione di utenti parziali pari solo al 10%. In sintesi, estendiamo lo studio del disallineamento emergente al dominio della disonestà e dell'inganno in scenari ad alto rischio, e dimostriamo che questo rischio non si manifesta solo attraverso l'ottimizzazione diretta, ma anche in attività miste a valle e in interazioni pratiche uomo-IA.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in diversi ambiti, ma persistono sfide significative quando si tratta di implementarli come agenti AI per compiti a lungo termine nel mondo reale. Gli attuali agenti basati su LLM presentano una limitazione cruciale: sono statici durante il test e non possono apprendere dall'esperienza, mancando della capacità di accumulare conoscenze e migliorare continuamente sul campo. Per affrontare questa sfida, proponiamo MUSE, un nuovo framework per agenti che introduce un sistema guidato dall'esperienza e auto-evolutivo, incentrato su un modulo di memoria gerarchico. MUSE organizza diversi livelli di esperienza e li sfrutta per pianificare ed eseguire compiti a lungo termine in molteplici applicazioni. Dopo l'esecuzione di ogni sotto-compito, l'agente riflette autonomamente sulla sua traiettoria, convertendo la traiettoria grezza in esperienza strutturata e integrandola nuovamente nel modulo di memoria. Questo meccanismo consente all'agente di evolversi oltre i suoi parametri pre-addestrati statici, promuovendo un apprendimento continuo e un'auto-evoluzione. Valutiamo MUSE sul benchmark di produttività a lungo termine TAC, dove raggiunge nuove prestazioni di stato dell'arte con un margine significativo utilizzando solo un modello leggero Gemini-2.5 Flash. Esperimenti sufficienti dimostrano che, man mano che l'agente accumula autonomamente esperienza, mostra capacità di completamento dei compiti sempre più superiori, nonché robuste capacità di apprendimento continuo e auto-evoluzione. Inoltre, l'esperienza accumulata da MUSE mostra forti proprietà di generalizzazione, consentendo miglioramenti zero-shot su nuovi compiti. MUSE stabilisce un nuovo paradigma per gli agenti AI capaci di automatizzare compiti di produttività nel mondo reale.
Affrontiamo il compito del trasferimento di stile video con modelli di diffusione, dove l'obiettivo è preservare il contesto di un video di input mentre lo si rappresenta in uno stile target specificato da un prompt testuale. Una delle principali sfide è la mancanza di dati video accoppiati per la supervisione. Proponiamo PickStyle, un framework di trasferimento di stile da video a video che potenzia backbone di diffusione video pre-addestrati con adattatori di stile e trae vantaggio da dati di immagini fisse accoppiate con corrispondenze stile-sorgente per l'addestramento. PickStyle inserisce adattatori a basso rango nei livelli di self-attention dei moduli di condizionamento, consentendo una specializzazione efficiente per il trasferimento di stile-movimento mantenendo un forte allineamento tra contenuto video e stile. Per colmare il divario tra la supervisione su immagini statiche e video dinamici, costruiamo clip di addestramento sintetiche da immagini accoppiate applicando aumentazioni condivise che simulano il movimento della telecamera, garantendo che i priori temporali siano preservati. Inoltre, introduciamo la Classifier-Free Guidance Contesto-Stile (CS-CFG), una nuova fattorizzazione della guida senza classificatore in direzioni indipendenti di testo (stile) e video (contesto). CS-CFG assicura che il contesto sia preservato nel video generato mentre lo stile viene trasferito in modo efficace. Esperimenti su benchmark dimostrano che il nostro approccio raggiunge traduzioni video temporalmente coerenti, fedeli allo stile e preservanti il contenuto, superando le baseline esistenti sia qualitativamente che quantitativamente.
La super-risoluzione video a cascata è emersa come una tecnica promettente per decuplicare il carico computazionale associato alla generazione di video ad alta risoluzione utilizzando grandi modelli di base. Tuttavia, gli studi esistenti sono in gran parte limitati a compiti di testo-video e non sfruttano condizioni generative aggiuntive oltre al testo, che sono cruciali per garantire la fedeltà nella generazione video multi-modale. Affrontiamo questa limitazione presentando UniMMVSR, il primo framework unificato di super-risoluzione video generativa che incorpora condizioni ibride, tra cui testo, immagini e video. Conduciamo un'esplorazione completa delle strategie di iniezione delle condizioni, degli schemi di addestramento e delle tecniche di miscelazione dei dati all'interno di un modello di diffusione video latente. Una sfida chiave è stata la progettazione di metodi distinti per la costruzione dei dati e l'utilizzo delle condizioni, per consentire al modello di utilizzare con precisione tutti i tipi di condizioni, data la loro varia correlazione con il video target. I nostri esperimenti dimostrano che UniMMVSR supera significativamente i metodi esistenti, producendo video con dettagli superiori e un grado più elevato di conformità alle condizioni multi-modali. Validiamo inoltre la fattibilità di combinare UniMMVSR con un modello di base per ottenere la generazione guidata multi-modale di video 4K, un risultato precedentemente irraggiungibile con le tecniche esistenti.
L'addestramento composizionale è stato il paradigma di fatto nei modelli linguistici multimodali di grandi dimensioni (MLLM) esistenti, in cui gli encoder visivi pre-addestrati sono connessi con i modelli linguistici pre-addestrati attraverso un pre-addestramento multimodale continuo. Tuttavia, la proprietà di scalabilità multimodale di questo paradigma rimane difficile da esplorare a causa dell'addestramento separato. In questo articolo, ci concentriamo sull'addestramento nativo degli MLLM in modo end-to-end e studiamo sistematicamente il loro spazio di progettazione e la proprietà di scalabilità in un contesto pratico, ovvero con vincoli di dati. Attraverso un'attenta analisi di varie scelte negli MLLM, otteniamo la meta-architettura ottimale che bilancia al meglio le prestazioni e i costi di addestramento. Successivamente, esploriamo ulteriormente le proprietà di scalabilità dell'MLLM nativo e indichiamo la relazione di scalabilità positivamente correlata tra gli encoder visivi e i modelli linguistici. Sulla base di questi risultati, proponiamo un MLLM nativo chiamato NaViL, combinato con una ricetta semplice e conveniente. I risultati sperimentali su 14 benchmark multimodali confermano le prestazioni competitive di NaViL rispetto agli MLLM esistenti. Oltre a ciò, le nostre scoperte e risultati forniscono approfondimenti dettagliati per lo studio futuro degli MLLM nativi.
L'auto-evoluzione è un tema di ricerca centrale per consentire agli agenti basati su modelli linguistici di grandi dimensioni (LLM) di migliorare continuamente le proprie capacità dopo il pre-training. La ricerca recente ha assistito a una transizione da metodi privi di apprendimento per rinforzo (RL) a metodi basati su RL. Gli attuali approcci basati su RL si affidano a segnali di ricompensa esterni densi o estraggono segnali di ricompensa intrinseca dagli stessi LLM. Tuttavia, questi metodi divergono dai meccanismi di auto-evoluzione osservati nell'intelligenza umana, dove gli individui apprendono e migliorano attraverso discussioni e collaborazioni reciproche. In questo lavoro, introduciamo i Sistemi Multi-Agente Co-Evolventi (CoMAS), un nuovo framework che consente agli agenti di migliorare autonomamente apprendendo dalle interazioni inter-agente senza supervisione esterna. CoMAS genera ricompense intrinseche dalle dinamiche ricche delle discussioni, utilizza un meccanismo LLM-as-a-judge per formulare queste ricompense e ottimizza la politica di ciascun agente attraverso l'RL, consentendo così una co-evoluzione decentralizzata e scalabile. I risultati sperimentali dimostrano che CoMAS supera costantemente gli agenti non addestrati e raggiunge prestazioni all'avanguardia nella maggior parte delle configurazioni di valutazione. Studi di ablazione confermano la necessità di segnali di ricompensa basati sull'interazione e rivelano una promettente scalabilità all'aumentare del numero e della diversità degli agenti. Questi risultati stabiliscono CoMAS come un paradigma nuovo ed efficace per l'auto-evoluzione negli agenti basati su LLM.
Con i recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) che dimostrano una forte comprensione e ragionamento visivo, sta crescendo l'interesse nell'utilizzarli per migliorare le prestazioni di editing dei modelli di diffusione. Nonostante i rapidi progressi, la maggior parte degli studi manca di un'analisi approfondita delle scelte progettuali degli MLLM. Inoltre, l'integrazione tra MLLM e modelli di diffusione rimane una sfida aperta in alcuni compiti difficili, come l'editing video. In questo articolo, presentiamo InstructX, un framework unificato per l'editing di immagini e video. Nello specifico, conduciamo uno studio completo sull'integrazione di MLLM e modelli di diffusione per l'editing guidato da istruzioni in diverse attività. Basandoci su questo studio, analizziamo la cooperazione e la distinzione tra immagini e video nella modellizzazione unificata. (1) Dimostriamo che l'addestramento su dati di immagini può portare a capacità emergenti di editing video senza una supervisione esplicita, alleviando così i vincoli imposti dalla scarsità di dati di addestramento video. (2) Incorporando caratteristiche MLLM specifiche per modalità, il nostro approccio unifica efficacemente le attività di editing di immagini e video all'interno di un unico modello. Esperimenti estensivi dimostrano che il nostro metodo può gestire un'ampia gamma di attività di editing di immagini e video e raggiunge prestazioni all'avanguardia.
La generazione aumentata dal recupero multimodale (MM-RAG) è un approccio chiave per applicare i grandi modelli linguistici (LLM) e gli agenti alle basi di conoscenza del mondo reale. Tuttavia, le valutazioni attuali sono frammentate, concentrandosi su testo o immagini in isolamento o su configurazioni multimodali semplificate che non riescono a catturare casi d'uso multimodali centrati sui documenti. In questo articolo, introduciamo UniDoc-Bench, il primo benchmark su larga scala e realistico per MM-RAG, costruito da 70k pagine PDF reali in otto domini. La nostra pipeline estrae e collega evidenze da testo, tabelle e figure, generando poi 1.600 coppie QA multimodali che coprono recupero fattuale, confronto, riassunto e query di ragionamento logico. Per garantire l'affidabilità, il 20% delle coppie QA è validato da più annotatori e da una revisione esperta. UniDoc-Bench supporta un confronto diretto tra quattro paradigmi: (1) solo testo, (2) solo immagini, (3) fusione multimodale testo-immagine e (4) recupero congiunto multimodale — sotto un protocollo unificato con pool di candidati standardizzati, prompt e metriche di valutazione. I nostri esperimenti mostrano che i sistemi RAG di fusione multimodale testo-immagine superano costantemente sia il recupero unimodale che quello basato su embedding multimodali congiunti, indicando che né il testo né le immagini da sole sono sufficienti e che gli attuali embedding multimodali rimangono inadeguati. Oltre al benchmarking, la nostra analisi rivela quando e come il contesto visivo integra l'evidenza testuale, scopre modalità di fallimento sistematiche e offre indicazioni pratiche per sviluppare pipeline MM-RAG più robuste.
Il modello di ricompensa (RM) svolge un ruolo fondamentale nell'allineare i grandi modelli linguistici (LLM) con le preferenze umane. Poiché le applicazioni nel mondo reale coinvolgono sempre più traiettorie con una lunga storia, ad esempio gli agenti LLM, diventa indispensabile valutare se le risposte di un modello non siano solo di alta qualità, ma anche radicate e coerenti con il contesto fornito. Tuttavia, gli attuali RM rimangono limitati a contesti brevi e si concentrano principalmente su attributi a livello di risposta (ad esempio, sicurezza o utilità), trascurando in gran parte la dimensione critica della coerenza tra contesto lungo e risposta. In questo lavoro, introduciamo Long-RewardBench, un benchmark specificamente progettato per la valutazione degli RM in contesti lunghi, che include sia compiti di confronto a coppie (Pairwise Comparison) che di selezione del migliore tra N (Best-of-N). Il nostro studio preliminare rivela che anche i modelli generativi RM più avanzati mostrano una significativa fragilità negli scenari con contesto lungo, fallendo nel mantenere giudizi di preferenza consapevoli del contesto. Motivati dall'analisi dei modelli di fallimento osservati negli output dei modelli, proponiamo una strategia di addestramento multi-stadio generale che scala efficacemente modelli arbitrari in RM robusti per contesti lunghi (LongRMs). Gli esperimenti dimostrano che il nostro approccio non solo migliora sostanzialmente le prestazioni nella valutazione di contesti lunghi, ma preserva anche una forte capacità nei contesti brevi. In particolare, il nostro LongRM da 8B supera baseline molto più grandi da 70B e raggiunge le prestazioni del modello proprietario Gemini 2.5 Pro.
Questo studio si concentra su un compito impegnativo ma promettente, la generazione di Video Sonorizzati da Testo (Text-to-Sounding-Video, T2SV), che mira a produrre un video con audio sincronizzato a partire da condizioni testuali, garantendo al contempo che entrambe le modalità siano allineate con il testo. Nonostante i progressi nell'addestramento congiunto audio-video, due sfide critiche rimangono irrisolte: (1) una singola didascalia condivisa, in cui il testo per il video è uguale al testo per l'audio, spesso crea interferenze modali, confondendo i modelli pre-addestrati, e (2) il meccanismo ottimale per l'interazione tra caratteristiche cross-modali rimane poco chiaro. Per affrontare queste sfide, proponiamo innanzitutto il framework di Didascalie Gerarchiche Basate sul Visivo (Hierarchical Visual-Grounded Captioning, HVGC), che genera coppie di didascalie separate, una per il video e una per l'audio, eliminando le interferenze nella fase di condizionamento. Basandoci su HVGC, introduciamo ulteriormente BridgeDiT, un innovativo trasformatore di diffusione a doppia torre, che utilizza un meccanismo di Dual CrossAttention (DCA) che funge da robusto "ponte" per consentire uno scambio bidirezionale e simmetrico di informazioni, raggiungendo sia la sincronizzazione semantica che temporale. Esperimenti estesi su tre dataset di riferimento, supportati da valutazioni umane, dimostrano che il nostro metodo raggiunge risultati all'avanguardia nella maggior parte delle metriche. Studi di ablazione completi convalidano ulteriormente l'efficacia dei nostri contributi, offrendo intuizioni chiave per il futuro compito T2SV. Tutti i codici e i checkpoint saranno rilasciati pubblicamente.
Mentre i metodi di apprendimento per rinforzo come l'Optimizzazione delle Preferenze Relative di Gruppo (GRPO) hanno migliorato significativamente i Modelli Linguistici di Grande Scala, adattarli ai modelli di diffusione rimane una sfida. In particolare, GRPO richiede una politica stocastica, mentre i campionatori di diffusione più economici si basano su ODE deterministiche. Recenti lavori affrontano questo problema utilizzando campionatori basati su SDE inefficienti per indurre stocasticità, ma questa dipendenza dal rumore gaussiano indipendente dal modello porta a una convergenza lenta. Per risolvere questo conflitto, proponiamo l'Optimizzazione Diretta delle Preferenze di Gruppo (DGPO), un nuovo algoritmo di RL online che elimina completamente il framework del gradiente della politica. DGPO apprende direttamente dalle preferenze a livello di gruppo, che utilizzano informazioni relative dei campioni all'interno dei gruppi. Questo design elimina la necessità di politiche stocastiche inefficienti, consentendo l'uso di campionatori ODE deterministici efficienti e un addestramento più veloce. Risultati estesi dimostrano che DGPO si addestra circa 20 volte più velocemente rispetto ai metodi all'avanguardia esistenti e raggiunge prestazioni superiori sia su metriche di ricompensa in-dominio che out-of-domain. Il codice è disponibile su https://github.com/Luo-Yihong/DGPO.
Mentre i recenti progressi nei modelli di ragionamento hanno dimostrato comportamenti cognitivi attraverso l'apprendimento per rinforzo, gli approcci esistenti faticano a evocare capacità di ragionamento profondo in agenti multi-turn con interazioni a lungo termine. Proponiamo DeepMiner, un nuovo framework che stimola tali abilità introducendo compiti di formazione ad alta difficoltà e una finestra di contesto dinamica. DeepMiner presenta un metodo di costruzione inversa per generare coppie domanda-risposta complesse ma verificabili da fonti web autentiche, garantendo così la sfida e l'affidabilità dei dati di formazione mentre si infondono capacità cognitive negli scenari di ragionamento multi-turn. Progettiamo inoltre una strategia di gestione del contesto dinamica elegante ma efficace sia per la formazione che per l'inferenza, utilizzando meccanismi a finestra scorrevole ed eliminando la dipendenza da modelli di riepilogo esterni, potenziando così in modo efficiente il modello per gestire contesti a lungo termine in continua espansione. Attraverso l'apprendimento per rinforzo su Qwen3-32B, sviluppiamo DeepMiner-32B, che ottiene miglioramenti significativi delle prestazioni su più benchmark di agenti di ricerca. DeepMiner raggiunge un'accuratezza del 33,5% su BrowseComp-en, superando di quasi 20 punti percentuali il miglior agente open-source precedente, e dimostra miglioramenti costanti su BrowseComp-zh, XBench-DeepSearch e GAIA. In particolare, la nostra gestione dinamica del contesto consente interazioni sostenute di quasi 100 turni all'interno della lunghezza standard del contesto di 32k, affrontando efficacemente le limitazioni del contesto che vincolano i sistemi di interazione multi-turn esistenti.
Questo lavoro rappresenta il primo tentativo di scalare la distillazione della consistenza in tempo continuo per modelli di diffusione di immagini e video a livello applicativo. Sebbene il modello di consistenza in tempo continuo (sCM) sia teoricamente fondato e empiricamente potente per accelerare la diffusione su scala accademica, la sua applicabilità a compiti su larga scala di generazione di immagini e video da testo rimane incerta a causa delle sfide infrastrutturali nel calcolo del prodotto Jacobiano-vettore (JVP) e delle limitazioni dei benchmark di valutazione standard. Inizialmente, sviluppiamo un kernel JVP compatibile con il parallelismo basato su FlashAttention-2, che consente l'addestramento di sCM su modelli con oltre 10 miliardi di parametri e compiti video ad alta dimensionalità. La nostra indagine rivela limitazioni fondamentali nella qualità di sCM nella generazione di dettagli fini, che attribuiamo all'accumulo di errori e alla natura "mode-covering" del suo obiettivo di divergenza in avanti. Per rimediare a ciò, proponiamo il modello di consistenza in tempo continuo regolarizzato dal punteggio (rCM), che incorpora la distillazione del punteggio come regolarizzatore a salto lungo. Questa integrazione completa sCM con la divergenza inversa "mode-seeking", migliorando efficacemente la qualità visiva mantenendo un'elevata diversità nella generazione. Validato su modelli su larga scala (Cosmos-Predict2, Wan2.1) fino a 14 miliardi di parametri e video di 5 secondi, rCM eguaglia o supera il metodo di distillazione all'avanguardia DMD2 nelle metriche di qualità, offrendo notevoli vantaggi in termini di diversità, tutto senza sintonizzazione GAN o ampie ricerche di iperparametri. I modelli distillati generano campioni ad alta fedeltà in soli 1-4 passi, accelerando il campionamento della diffusione di 15-50 volte. Questi risultati posizionano rCM come un framework pratico e teoricamente fondato per avanzare la distillazione della diffusione su larga scala.
I Large Multimodal Models (LMMs) hanno compiuto progressi significativi in varie capacità; tuttavia, il ragionamento complesso sui video nel dominio scientifico rimane una frontiera importante e impegnativa. Gli attuali benchmark video si concentrano principalmente su scenari generali in cui la percezione/riconoscimento è fortemente utilizzata, con compiti di ragionamento relativamente semplici, portando a una saturazione e quindi fallendo nel valutare efficacemente le abilità cognitive multimodali avanzate. Per colmare questa lacuna critica, introduciamo SciVideoBench, un benchmark rigoroso progettato specificamente per valutare il ragionamento avanzato sui video in contesti scientifici. SciVideoBench consiste in 1.000 domande a scelta multipla accuratamente elaborate, derivate da video sperimentali scientifici all'avanguardia che coprono oltre 25 discipline accademiche specializzate e verificate da un sistema semi-automatico. Ogni domanda richiede una conoscenza specifica del dominio, una percezione spazio-temporale precisa e un ragionamento logico intricato, mettendo efficacemente alla prova le capacità cognitive di ordine superiore dei modelli. La nostra valutazione evidenzia significativi deficit di prestazioni nei LMMs proprietari e open-source più avanzati, tra cui Gemini 2.5 Pro e Qwen2.5-VL, indicando un ampio margine di miglioramento nelle capacità di ragionamento video. Analisi dettagliate di fattori critici come la complessità del ragionamento e l'ancoraggio visivo forniscono preziose intuizioni e una chiara direzione per i futuri sviluppi nei LMMs, guidando l'evoluzione di veri e propri co-scienziati AI multimodali. Speriamo che SciVideoBench possa rispondere agli interessi della comunità e contribuire a spingere i confini dell'IA all'avanguardia per una scienza più ampia.
Presentiamo UP2You, la prima soluzione senza necessità di tuning per la ricostruzione di ritratti 3D ad alta fedeltà di persone vestite a partire da foto 2D estremamente non vincolate scattate in ambienti reali. A differenza degli approcci precedenti che richiedono input "puliti" (ad esempio, immagini a figura intera con occlusioni minime o acquisizioni multi-vista ben calibrate), UP2You elabora direttamente fotografie grezze e non strutturate, che possono variare significativamente in termini di posa, punto di vista, ritaglio e occlusione. Invece di comprimere i dati in token per una lenta ottimizzazione online da testo a 3D, introduciamo un paradigma di rettifica dei dati che converte efficientemente input non vincolati in immagini multi-vista pulite e ortogonali in un singolo passaggio in avanti in pochi secondi, semplificando la ricostruzione 3D. Cuore di UP2You è un modulo di aggregazione delle feature correlato alla posa (PCFA), che fonde selettivamente le informazioni da più immagini di riferimento rispetto alle pose target, consentendo una migliore conservazione dell'identità e un footprint di memoria quasi costante, anche con più osservazioni. Introduciamo inoltre un predittore di forma multi-riferimento basato su Perceiver, eliminando la necessità di modelli corporei pre-acquisiti. Esperimenti estesi su 4D-Dress, PuzzleIOI e acquisizioni in ambienti reali dimostrano che UP2You supera costantemente i metodi precedenti sia in accuratezza geometrica (Chamfer-15%, P2S-18% su PuzzleIOI) che in fedeltà delle texture (PSNR-21%, LPIPS-46% su 4D-Dress). UP2You è efficiente (1,5 minuti per persona) e versatile (supporta il controllo arbitrario della posa e il virtual try-on 3D multi-capo senza addestramento), rendendolo pratico per scenari reali in cui le persone vengono catturate in modo casuale. Sia i modelli che il codice verranno rilasciati per facilitare future ricerche su questo compito poco esplorato. Pagina del progetto: https://zcai0612.github.io/UP2You
Il notevole successo dei grandi modelli linguistici (LLM) deriva dalla loro capacità di consolidare grandi quantità di conoscenza nella memoria durante la fase di pre-addestramento e di recuperarla dalla memoria durante l'inferenza, abilitando funzionalità avanzate come la memorizzazione della conoscenza, il seguire istruzioni e il ragionamento. Tuttavia, i meccanismi di recupero e consolidamento della memoria negli LLM rimangono poco compresi. In questo articolo, proponiamo l'ipotesi del token di funzione per spiegare il funzionamento degli LLM: durante l'inferenza, i token di funzione attivano le caratteristiche più predittive dal contesto e governano la previsione del token successivo (recupero della memoria). Durante il pre-addestramento, la previsione dei token successivi (solitamente token di contenuto) che seguono i token di funzione aumenta il numero di caratteristiche apprese dagli LLM e aggiorna i parametri del modello (consolidamento della memoria). I token di funzione qui corrispondono approssimativamente alle parole funzionali in linguistica, inclusi segni di punteggiatura, articoli, preposizioni e congiunzioni, in contrasto con i token di contenuto. Forniamo ampie prove sperimentali a supporto di questa ipotesi. Utilizzando l'analisi di grafi bipartiti, mostriamo che un piccolo numero di token di funzione attiva la maggior parte delle caratteristiche. Studi di caso rivelano ulteriormente come i token di funzione attivino le caratteristiche più predittive dal contesto per dirigere la previsione del token successivo. Troviamo inoltre che durante il pre-addestramento, la perdita di addestramento è dominata dalla previsione dei token di contenuto successivi ai token di funzione, il che costringe i token di funzione a selezionare le caratteristiche più predittive dal contesto.
La modellazione delle ricompense è al centro dell'apprendimento per rinforzo con feedback umano (RLHF), tuttavia la maggior parte dei modelli di ricompensa esistenti si basa su giudizi scalari o a coppie che non riescono a catturare la natura multifaccettata delle preferenze umane. Studi recenti hanno esplorato l'uso di rubriche come ricompense (RaR), che utilizzano criteri strutturati in linguaggio naturale per catturare molteplici dimensioni della qualità delle risposte. Tuttavia, produrre rubriche che siano sia affidabili che scalabili rimane una sfida chiave. In questo lavoro, introduciamo OpenRubrics, una raccolta diversificata e su larga scala di coppie (prompt, rubrica) per addestrare modelli di generazione di rubriche e modelli di ricompensa basati su rubriche. Per ottenere segnali di valutazione discriminativi e completi, introduciamo la Generazione di Rubriche Contrastive (CRG), che deriva sia regole rigide (vincoli espliciti) che principi (qualità implicite) confrontando risposte preferite e rifiutate. Miglioriamo ulteriormente l'affidabilità applicando la coerenza delle etichette di preferenza tramite campionamento per rifiuto per rimuovere rubriche rumorose. Su più benchmark di modellazione delle ricompense, il nostro modello di ricompensa basato su rubriche, Rubric-RM, supera i forti baseline di dimensioni comparabili del 6,8%. Questi guadagni si trasferiscono ai modelli di policy su benchmark di seguimento delle istruzioni e biomedici. I nostri risultati dimostrano che le rubriche forniscono segnali di allineamento scalabili che riducono il divario tra la costosa valutazione umana e la modellazione automatica delle ricompense, abilitando un nuovo paradigma di allineamento dei LLM guidato da principi.
Proponiamo ERA, un nuovo paradigma che vincola l'entropia di campionamento al di sopra di soglie specifiche applicando funzioni di attivazione appositamente progettate agli output dei modelli. Il nostro approccio dimostra un'efficacia ampia in diversi domini: 1) per i grandi modelli linguistici (LLM), incrementando il punteggio AIME 2025 per Qwen2.5-Math-7B del 37.4%; 2) per gli agenti di apprendimento per rinforzo nel controllo continuo, migliorando le prestazioni di oltre il 30% rispetto a baseline robuste come SAC su HumanoidBench, un ambiente particolarmente impegnativo; 3) per la classificazione di immagini, aumentando l'accuratezza top-1 su ImageNet dello 0.69% per ResNet-50. Questi miglioramenti sono ottenuti con un sovraccarico computazionale inferiore al 7%. Il nostro lavoro valida l'attivazione degli output come uno strumento potente per il controllo dell'entropia, aprendo una nuova direzione per la progettazione di algoritmi più semplici e robusti.
Il raggiungimento di una rotazione generalizzata degli oggetti in mano rimane una sfida significativa nella robotica, principalmente a causa della difficoltà nel trasferire le politiche dalla simulazione al mondo reale. Le dinamiche complesse e ricche di contatti della manipolazione manuale creano un "divario di realtà" che ha limitato i lavori precedenti a scenari vincolati che coinvolgono geometrie semplici, dimensioni e rapporti d'aspetto limitati degli oggetti, pose del polso vincolate o mani personalizzate. Affrontiamo questa sfida sim-to-real con un nuovo framework che consente a una singola politica, addestrata in simulazione, di generalizzare a una vasta gamma di oggetti e condizioni nel mondo reale. Il nucleo del nostro metodo è un modello dinamico articolare che impara a colmare il divario di realtà adattando efficacemente una quantità limitata di dati raccolti nel mondo reale e quindi adattando di conseguenza le azioni della politica di simulazione. Il modello è altamente efficiente in termini di dati e generalizzabile attraverso diverse distribuzioni di interazione dell'intera mano, fattorizzando le dinamiche tra le articolazioni, comprimendo le influenze a livello di sistema in variabili a bassa dimensionalità e apprendendo l'evoluzione di ciascuna articolazione dal proprio profilo dinamico, catturando implicitamente questi effetti netti. Lo abbiniamo a una strategia di raccolta dati completamente autonoma che raccoglie dati di interazione reali diversificati con un intervento umano minimo. La nostra pipeline completa dimostra una generalità senza precedenti: una singola politica ruota con successo oggetti impegnativi con forme complesse (ad esempio, animali), rapporti d'aspetto elevati (fino a 5,33) e dimensioni ridotte, gestendo al contempo diverse orientazioni del polso e assi di rotazione. Valutazioni complete nel mondo reale e un'applicazione di teleoperazione per compiti complessi convalidano l'efficacia e la robustezza del nostro approccio. Sito web: https://meowuu7.github.io/DexNDM/
Presentiamo Stable Video Materials 3D (SViM3D), un framework per prevedere materiali basati sul rendering fisicamente realistico (PBR) coerenti su più viste, partendo da una singola immagine. Recentemente, i modelli di diffusione video sono stati utilizzati con successo per ricostruire oggetti 3D da una singola immagine in modo efficiente. Tuttavia, la riflettanza è ancora rappresentata da modelli di materiali semplici o deve essere stimata in passaggi aggiuntivi per consentire la rilluminazione e modifiche controllate dell'aspetto. Estendiamo un modello di diffusione video latente per produrre parametri PBR variabili spazialmente e normali di superficie insieme a ciascuna vista generata, basandoci su un controllo esplicito della telecamera. Questa configurazione unica consente la rilluminazione e la generazione di un asset 3D utilizzando il nostro modello come prior neurale. Introduciamo vari meccanismi in questa pipeline che migliorano la qualità in questo contesto mal posto. Mostriamo prestazioni all'avanguardia nella rilluminazione e nella sintesi di nuove viste su più dataset centrati sugli oggetti. Il nostro metodo si generalizza a input diversi, consentendo la generazione di asset 3D rilluminabili utili in AR/VR, film, giochi e altri media visivi.
Un paradigma dominante per insegnare abilità complesse ai robot umanoidi consiste nel riorientare i movimenti umani come riferimenti cinematici per addestrare politiche di apprendimento per rinforzo (RL). Tuttavia, le pipeline esistenti di riorientamento spesso incontrano difficoltà a causa del significativo divario di incarnazione tra umani e robot, producendo artefatti fisicamente implausibili come lo scivolamento dei piedi e le penetrazioni. Ancora più importante, i metodi comuni di riorientamento trascurano le ricche interazioni umano-oggetto e umano-ambiente essenziali per una locomozione e una loco-manipolazione espressive. Per affrontare questo problema, introduciamo OmniRetarget, un motore di generazione dati che preserva le interazioni basato su una mesh di interazione che modella esplicitamente e preserva le cruciali relazioni spaziali e di contatto tra un agente, il terreno e gli oggetti manipolati. Minimizzando la deformazione Laplaciana tra le mesh umane e robotiche mentre si applicano vincoli cinematici, OmniRetarget genera traiettorie cinematicamente fattibili. Inoltre, preservare le interazioni rilevanti per il compito consente un'efficiente augmentazione dei dati, da una singola dimostrazione a diverse incarnazioni robotiche, terreni e configurazioni di oggetti. Valutiamo in modo completo OmniRetarget riorientando movimenti dai dataset OMOMO, LAFAN1 e dal nostro dataset MoCap interno, generando traiettorie di oltre 8 ore che raggiungono una migliore soddisfazione dei vincoli cinematici e una migliore preservazione dei contatti rispetto alle baseline ampiamente utilizzate. Tali dati di alta qualità consentono alle politiche RL propriocettive di eseguire con successo abilità di parkour e loco-manipolazione a lungo termine (fino a 30 secondi) su un umanoide Unitree G1, addestrate con solo 5 termini di ricompensa e una semplice randomizzazione del dominio condivisa da tutti i compiti, senza alcun curriculum di apprendimento.
Il rapido aumento dei costi computazionali per il preaddestramento di modelli linguistici di grandi dimensioni rende necessari approcci più efficienti. Numerosi costi computazionali sono stati investiti in checkpoint ben addestrati esistenti, ma molti di essi rimangono sottoutilizzati a causa di vincoli ingegneristici o di una capacità limitata del modello. Per riutilizzare in modo efficiente questo "costo affondato", proponiamo di riciclare i checkpoint preaddestrati espandendo il numero dei loro parametri e continuando l'addestramento. Proponiamo un metodo di crescita ortogonale particolarmente adatto per modelli Mixture-of-Experts convergente: copia interposizionale degli strati per la crescita in profondità e duplicazione degli esperti con rumore iniettato per la crescita in ampiezza. Per determinare il momento ottimale per tale crescita lungo sequenze di checkpoint, eseguiamo esperimenti di scalabilità completi che rivelano come l'accuratezza finale abbia una forte correlazione positiva con l'entità del costo affondato, indicando che un maggiore investimento precedente porta a prestazioni migliori. Scaliamo il nostro approccio a modelli con 70 miliardi di parametri e oltre 1 trilione di token di addestramento, ottenendo un guadagno di accuratezza del 10,66% rispetto all'addestramento da zero con lo stesso budget computazionale aggiuntivo. Il nostro approccio di riciclo dei checkpoint stabilisce una base per il preaddestramento economicamente efficiente di modelli linguistici di grandi dimensioni.
L'apprendimento per rinforzo è stato ampiamente applicato per potenziare le capacità di ragionamento dei grandi modelli linguistici. Estendere i limiti inferenziali dei modelli più piccoli è diventato un importante focus di ricerca. Tuttavia, algoritmi come l'ottimizzazione delle politiche relative ai gruppi (GRPO) presentano un evidente svantaggio: il limite superiore delle risposte generate dal modello è interamente determinato dal modello stesso, impedendo l'acquisizione di conoscenza da campioni che sono tutti errati o tutti corretti. In questo articolo, introduciamo l'ottimizzazione delle politiche contrastive di gruppo (GCPO), un metodo che incorpora risposte di riferimento esterne standard. Quando il modello non riesce a risolvere un problema, la risposta di riferimento fornisce la soluzione corretta, guidando il modello verso una direzione di aggiornamento inequivocabilmente accurata. Questo approccio offre due vantaggi principali: (1) migliora l'efficienza dell'addestramento sfruttando pienamente ogni campione; (2) consente al modello di emulare la strategia di risoluzione dei problemi della risposta di riferimento durante l'addestramento, migliorando così la generalizzazione nel ragionamento. GCPO ottiene risultati eccezionali su più dataset di benchmark, registrando miglioramenti sostanziali rispetto al modello di base. Il nostro codice è disponibile all'indirizzo: https://github.com/AchoWu/GCPO.
Verso l'obiettivo della manipolazione robotica generalizzata, la generalizzazione spaziale rappresenta la capacità più fondamentale, richiedendo che la politica operi in modo robusto sotto diverse distribuzioni spaziali di oggetti, ambiente e dell'agente stesso. Per raggiungere questo obiettivo, è necessario raccogliere un numero sostanziale di dimostrazioni umane che coprano diverse configurazioni spaziali per addestrare una politica visuomotoria generalizzata tramite apprendimento per imitazione. I lavori precedenti esplorano una direzione promettente che sfrutta la generazione di dati per acquisire dati abbondanti e spazialmente diversificati a partire da un numero minimo di dimostrazioni sorgente. Tuttavia, la maggior parte degli approcci affronta un significativo divario sim-to-real ed è spesso limitata a contesti vincolati, come scenari a base fissa e punti di vista predefiniti della telecamera. In questo articolo, proponiamo un framework di generazione di dati 3D real-to-real (R2RGen) che amplia direttamente le coppie osservazione-azione basate su pointcloud per generare dati del mondo reale. R2RGen è privo di simulatore e rendering, risultando così efficiente e plug-and-play. Nello specifico, data una singola dimostrazione sorgente, introduciamo un meccanismo di annotazione per l'analisi fine della scena e della traiettoria. Viene proposta una strategia di ampliamento per gruppi per gestire composizioni complesse di più oggetti e vincoli di task diversificati. Presentiamo inoltre un'elaborazione consapevole della telecamera per allineare la distribuzione dei dati generati con i sensori 3D del mondo reale. Empiricamente, R2RGen migliora sostanzialmente l'efficienza dei dati in esperimenti estesi e dimostra un forte potenziale per la scalabilità e l'applicazione nella manipolazione mobile.
Nonostante le loro straordinarie capacità di comprensione del linguaggio naturale, i Large Language Models (LLM) sono stati sottoutilizzati per le attività di retrieval. Presentiamo Search-R3, un framework innovativo che affronta questa limitazione adattando i LLM per generare embedding di ricerca come output diretto del loro processo di ragionamento. Il nostro approccio sfrutta le capacità di ragionamento a catena (chain-of-thought) dei LLM, consentendo loro di produrre embedding più efficaci attraverso un'analisi semantica complessa passo dopo passo. Implementiamo ciò attraverso tre meccanismi complementari: (1) una fase di apprendimento supervisionato che abilita il modello a produrre embedding di qualità, (2) una metodologia di reinforcement learning (RL) che ottimizza la generazione degli embedding insieme al ragionamento, e (3) un ambiente RL specializzato che gestisce in modo efficiente le rappresentazioni degli embedding in evoluzione senza richiedere una ricodifica completa del corpus a ogni iterazione di addestramento. Le nostre valutazioni estensive su benchmark diversificati dimostrano che Search-R3 supera significativamente i metodi precedenti unificando i processi di ragionamento e generazione degli embedding. Questo approccio integrato post-addestramento rappresenta un progresso sostanziale nella gestione di compiti complessi e ad alta intensità di conoscenza che richiedono sia un ragionamento sofisticato sia un retrieval efficace delle informazioni. Pagina del progetto: https://github.com/ytgui/Search-R3
L'uso efficiente di grandi modelli linguistici (LLM) è cruciale per il dispiegamento su larga scala: senza un routing adattivo, i sistemi o pagano in eccesso per modelli potenti o rischiano prestazioni scadenti da modelli più deboli. Selezionare il modello LLM giusto per ogni query è fondamentalmente un problema decisionale online: i modelli differiscono in termini di punti di forza, i prezzi fluttuano e gli utenti valutano in modo diverso accuratezza e costo. Tuttavia, la maggior parte dei router viene addestrata offline con etichette per tutti i modelli candidati, un presupposto che si infrange in fase di dispiegamento, dove si osserva solo l'esito del modello scelto. Colmiamo questa lacuna con BaRP, un approccio di Routing con Preferenze basato su feedback a bandit, che si addestra sotto la stessa restrizione di feedback parziale del dispiegamento, supportando al contempo un'inferenza regolabile in base alle preferenze: gli operatori possono regolare il compromesso prestazioni/costo in fase di test senza bisogno di riaddestramento. Inquadrato come un bandit contestuale su caratteristiche del prompt e un vettore di preferenze dell'utente, il nostro metodo simula un ambiente di feedback online durante l'addestramento e adatta le sue decisioni di routing a ogni nuovo prompt, piuttosto che dipendere da una supervisione offline a informazione completa. Esperimenti completi dimostrano che il nostro metodo supera costantemente i router offline più robusti di almeno il 12,46% e il più grande LLM di almeno il 2,45%, e generalizza in modo robusto per compiti non visti.
I recenti progressi nei Large Language Models (LLM) e nel Reinforcement Learning (RL) hanno portato a prestazioni significative nel campo del question answering (QA) a dominio aperto. Tuttavia, i modelli esistenti continuano a incontrare difficoltà con domande che ammettono più risposte valide. I benchmark standard per il QA, che tipicamente presuppongono una singola risposta corretta, trascurano questa realtà e producono quindi segnali di addestramento inappropriati. I tentativi esistenti per gestire l'ambiguità spesso si basano su costose annotazioni manuali, difficili da scalare su dataset multi-hop come HotpotQA e MuSiQue. In questo articolo, presentiamo A^2Search, un framework di addestramento end-to-end senza annotazioni per riconoscere e gestire l'ambiguità. Al suo centro c'è una pipeline automatizzata che rileva le domande ambigue e raccoglie risposte alternative attraverso il campionamento di traiettorie e la verifica delle evidenze. Il modello viene quindi ottimizzato con RL utilizzando una ricompensa AnsF1 appositamente progettata, che naturalmente accoglie più risposte. Esperimenti su otto benchmark di QA a dominio aperto dimostrano che A^2Search raggiunge nuove prestazioni state-of-the-art. Con un solo rollout, A^2Search-7B ottiene un punteggio AnsF1@1 medio del 48,4% su quattro benchmark multi-hop, superando tutti i forti baseline, incluso il sostanzialmente più grande ReSearch-32B (46,2%). Analisi approfondite mostrano inoltre che A^2Search risolve l'ambiguità e generalizza tra i benchmark, evidenziando che abbracciare l'ambiguità è essenziale per costruire sistemi QA più affidabili. Il nostro codice, dati e pesi del modello sono disponibili su https://github.com/zfj1998/A2Search.
L'editing 3D - il compito di modificare localmente la geometria o l'aspetto di un asset 3D - ha ampie applicazioni nella creazione di contenuti immersivi, nell'intrattenimento digitale e nella realtà aumentata/virtuale (AR/VR). Tuttavia, a differenza dell'editing 2D, rimane una sfida a causa della necessità di coerenza tra le visuali, fedeltà strutturale e controllabilità fine-granulare. Gli approcci esistenti sono spesso lenti, soggetti a distorsioni geometriche o dipendenti da maschere 3D manuali e precise, che sono soggette a errori e poco pratiche. Per affrontare queste sfide, avanziamo sia sul fronte dei dati che dei modelli. Sul lato dei dati, introduciamo 3DEditVerse, il più grande benchmark di editing 3D accoppiato fino ad oggi, composto da 116.309 coppie di addestramento di alta qualità e 1.500 coppie di test curate. Costruito attraverso pipeline complementari di modifiche geometriche guidate dalla posa e modifiche dell'aspetto guidate da modelli di fondazione, 3DEditVerse garantisce località delle modifiche, coerenza multi-vista e allineamento semantico. Sul lato del modello, proponiamo 3DEditFormer, un trasformatore condizionale che preserva la struttura 3D. Migliorando la generazione da immagine a 3D con attenzione a doppia guida e gating adattivo nel tempo, 3DEditFormer separa le regioni modificabili dalla struttura preservata, consentendo modifiche precise e coerenti senza richiedere maschere 3D ausiliarie. Esperimenti estensivi dimostrano che il nostro framework supera i baselines di stato dell'arte sia quantitativamente che qualitativamente, stabilendo un nuovo standard per l'editing 3D pratico e scalabile. Dataset e codice saranno rilasciati. Progetto: https://www.lv-lab.org/3DEditFormer/
Man mano che nuovi ottimizzatori guadagnano popolarità e la quantizzazione dei modelli diventa uno standard per il deployment efficiente, sorge una domanda cruciale: come la scelta dell'ottimizzatore influisce sulle prestazioni del modello in presenza di quantizzazione? Nonostante i progressi in entrambi i campi, le evidenze sistematiche sulle interazioni tra ottimizzatore e quantizzazione rimangono limitate. Per colmare questa lacuna, studiamo l'impatto della scelta dell'ottimizzatore sulla robustezza del modello sotto quantizzazione, considerando sia la quantizzazione post-addestramento (PTQ) che l'addestramento con consapevolezza della quantizzazione (QAT). Iniziamo addestrando modelli in precisione completa, con dimensioni che vanno da 50M a 1.5B parametri, utilizzando sei ottimizzatori, per esplorare il panorama degli iperparametri e stabilire baseline ben ottimizzate. Successivamente, applichiamo la PTQ per valutare come le prestazioni del modello si degradano quando addestrati con diversi ottimizzatori. Scopriamo che metriche legate agli outlier, come il rapporto massimo-media (MMR) e la Curtosi, non riescono a prevedere le prestazioni della PTQ tra diversi ottimizzatori. Dimostriamo analiticamente che ciò è dovuto al fatto che l'MMR cattura solo errori isolati a livello di strato, ignorando come gli errori di quantizzazione si accumulano e si propagano attraverso la rete. Per studiare la degradazione nella QAT, addestriamo modelli quantizzati da zero e li confrontiamo con le nostre baseline in precisione originale. Troviamo che gli ottimizzatori che performano bene nella configurazione di pre-addestramento originale potrebbero non rimanere ottimali sotto QAT, e che i modelli addestrati con Shampoo mostrano la più bassa degradazione dell'accuratezza. Infine, deriviamo leggi di scalabilità per l'addestramento con consapevolezza della quantizzazione sotto diversi ottimizzatori, dimostrando che Shampoo raggiunge la più alta efficienza parametrica tra tutti gli ottimizzatori testati.
La fusione nucleare svolge un ruolo cruciale nella ricerca di una produzione energetica affidabile e sostenibile. Un ostacolo significativo alla realizzazione di energia da fusione è la comprensione della turbolenza del plasma, che compromette notevolmente il confinamento del plasma ed è essenziale per la progettazione di reattori di nuova generazione. La turbolenza del plasma è governata dall'equazione girocinetica non lineare, che evolve una funzione di distribuzione 5D nel tempo. A causa del suo elevato costo computazionale, nella pratica si utilizzano spesso modelli a ordine ridotto per approssimare il trasporto turbolento di energia. Tuttavia, questi omettono gli effetti non lineari unici della dinamica 5D completa. Per affrontare questo problema, introduciamo GyroSwin, il primo surrogato neurale 5D scalabile in grado di modellare simulazioni girocinetiche non lineari 5D, catturando così i fenomeni fisici trascurati dai modelli ridotti, fornendo al contempo stime accurate del trasporto turbolento di calore. GyroSwin (i) estende i Vision Transformer gerarchici a 5D, (ii) introduce moduli di cross-attention e integrazione per le interazioni latenti 3D↔5D tra i campi di potenziale elettrostatico e la funzione di distribuzione, e (iii) esegue una separazione modale per canale ispirata alla fisica non lineare. Dimostriamo che GyroSwin supera i metodi numerici ridotti ampiamente utilizzati nella previsione del flusso di calore, cattura la cascata di energia turbolenta e riduce il costo delle simulazioni girocinetiche non lineari completamente risolte di tre ordini di grandezza, mantenendosi fisicamente verificabile. GyroSwin mostra promettenti leggi di scalabilità, testate fino a un miliardo di parametri, aprendo la strada a surrogati neurali scalabili per le simulazioni girocinetiche della turbolenza del plasma.
I recenti progressi nei modelli generativi hanno aperto nuove entusiasmanti possibilità nel campo dei veicoli autonomi. In particolare, i modelli di generazione video sono ora esplorati come ambienti di test virtuali controllabili. Parallelamente, i modelli di guida end-to-end (E2E) sono emersi come un'alternativa semplificata ai tradizionali sistemi modulari di guida autonoma, guadagnando popolarità per la loro semplicità e scalabilità. Tuttavia, l'applicazione di queste tecniche alla simulazione e alla pianificazione solleva importanti interrogativi. In primo luogo, sebbene i modelli di generazione video possano produrre video sempre più realistici, questi video possono aderire fedelmente alle condizioni specificate ed essere sufficientemente realistici per la valutazione dei pianificatori E2E? In secondo luogo, dato che i dati sono cruciali per comprendere e controllare i pianificatori E2E, come possiamo ottenere approfondimenti più profondi sui loro bias e migliorare la loro capacità di generalizzare a scenari fuori distribuzione? In questo lavoro, colmiamo il divario tra i modelli di guida e i modelli generativi del mondo (Drive&Gen) per affrontare queste domande. Proponiamo nuove misure statistiche che sfruttano i driver E2E per valutare il realismo dei video generati. Sfruttando la controllabilità del modello di generazione video, conduciamo esperimenti mirati per indagare i gap distributivi che influenzano le prestazioni dei pianificatori E2E. Infine, dimostriamo che i dati sintetici prodotti dal modello di generazione video offrono un'alternativa economica alla raccolta di dati nel mondo reale. Questi dati sintetici migliorano efficacemente la generalizzazione del modello E2E oltre i Domini Operativi di Progetto esistenti, facilitando l'espansione dei servizi di veicoli autonomi in nuovi contesti operativi.
Le politiche generaliste per robot addestrate su dataset su larga scala e visivamente omogenei possono essere suscettibili all'apprendimento di scorciatoie, il che compromette la loro generalizzazione fuori distribuzione (OOD). Sebbene l'aumento generativo dei dati sia un approccio comune per introdurre diversità, presenta una sfida sottile: la composizione dei dati. Mescolare in modo ingenuo dati reali e sintetici può corrompere il segnale di apprendimento, poiché questo processo spesso privilegia la diversità visiva a scapito della fedeltà delle informazioni. Questo articolo suggerisce che una generalizzazione robusta dipende da una composizione dei dati consapevole e basata su principi di fedeltà. Introduciamo il Coherent Information Fidelity Tuning (CIFT), un framework che tratta la composizione dei dati come un problema di ottimizzazione. CIFT utilizza un proxy pratico per la Fedeltà delle Informazioni basato sulla geometria dello spazio delle caratteristiche di un dataset. Ciò consente l'identificazione di una transizione di fase, denominata Punto di Decoerenza, in cui la stabilità dell'addestramento si degrada. Il framework include un motore generativo, Multi-View Video Augmentation (MVAug), per sintetizzare uno spettro di dati causalmente disaccoppiato per questo processo di tuning. Applicando CIFT ad architetture di politiche come pi_0 e Diffusion Policy si migliorano i tassi di successo OOD di oltre il 54%. Questi risultati indicano che la composizione consapevole della fedeltà, oltre alla sola sintesi dei dati, è un componente importante per lo sviluppo di robot robusti e di uso generale.
L'uso delle reti target è un approccio popolare per stimare le funzioni di valore nell'apprendimento per rinforzo profondo (Reinforcement Learning, RL). Sebbene efficace, la rete target rimane una soluzione di compromesso che preserva la stabilità al costo di target che si muovono lentamente, ritardando così l'apprendimento. Al contrario, utilizzare la rete online come target bootstrap è intuitivamente allettante, sebbene sia noto che porti a un apprendimento instabile. In questo lavoro, miriamo a ottenere il meglio di entrambi i mondi introducendo una nuova regola di aggiornamento che calcola il target utilizzando la stima MINima tra la rete Target e quella Online, dando vita al nostro metodo, MINTO. Attraverso questa semplice ma efficace modifica, dimostriamo che MINTO consente un apprendimento più rapido e stabile della funzione di valore, mitigando il potenziale bias di sovrastima derivante dall'uso della rete online per il bootstrap. In particolare, MINTO può essere integrato senza soluzione di continuità in un'ampia gamma di algoritmi basati su valore e actor-critic con un costo trascurabile. Valutiamo MINTO estensivamente su diversi benchmark, che coprono RL online e offline, nonché spazi di azione discreti e continui. In tutti i benchmark, MINTO migliora costantemente le prestazioni, dimostrando la sua ampia applicabilità ed efficacia.