Articoli di ricerca IA selezionati quotidianamente con traduzioni
Lo sviluppo di modelli linguistici visivi (VLM) si è basato in larga misura sul ridimensionamento della dimensione del modello, il che ne ostacola la distribuzione su dispositivi mobili e periferici con risorse computazionali limitate, come smartphone e robot. In questo lavoro, esploriamo i limiti delle prestazioni di VLM compatti (ad esempio, da 2B e 8B). Mettiamo in discussione la pratica prevalente secondo cui i VLM all'avanguardia devono fare affidamento su encoder visivi inizializzati tramite pre-addestramento contrastivo massiccio (ad esempio, CLIP/SigLIP). Identifichiamo un disallineamento degli obiettivi: l'apprendimento contrastivo, ottimizzato per la discriminazione, impone invarianze grossolane e a livello di categoria che sopprimono gli indizi visivi di fine granularità necessari per la descrizione densa e il ragionamento complesso dei VLM. Per affrontare questo problema, presentiamo Penguin-VL, il cui encoder visivo è inizializzato a partire da un LLM basato solo su testo. I nostri esperimenti rivelano che Penguin-Encoder funge da alternativa superiore al tradizionale pre-addestramento contrastivo, sbloccando un grado più elevato di fedeltà visiva ed efficienza dei dati per la comprensione multimodale. In varie benchmark su immagini e video, Penguin-VL raggiunge prestazioni paragonabili ai principali VLM (ad esempio, Qwen3-VL) nel ragionamento matematico e li supera in compiti come la comprensione di documenti, la conoscenza visiva e la comprensione video multi-prospettica. È degno di nota che questi vantaggi siano ottenuti con un'architettura leggera, dimostrando che il miglioramento della rappresentazione visiva, piuttosto che il ridimensionamento del modello, è il principale motore delle prestazioni. Le nostre ablazioni mostrano che Penguin-Encoder supera costantemente gli encoder pre-addestrati in modo contrastivo, preservando indizi spaziali e temporali di fine granularità che sono critici per la percezione densa e il ragionamento complesso. Ciò lo rende una valida alternativa plug-and-play per VLM efficienti dal punto di vista computazionale e consente prestazioni elevate in contesti con risorse limitate. Codice: https://github.com/tencent-ailab/Penguin-VL
I vincoli prossimali sono fondamentali per la stabilità dell'apprendimento per rinforzo dei Large Language Model. Sebbene il meccanismo canonico di clipping nel PPO funga da efficiente approssimazione delle regioni di fiducia, identifichiamo un collo di bottiglia critico: limiti fissi vincolano rigorosamente il margine di aggiornamento al rialzo delle azioni a bassa probabilità, sopprimendo in modo sproporzionato le strategie di coda ad alto vantaggio e inducendo un rapido collasso dell'entropia. Per affrontare questo problema, introduciamo la Band-constrained Policy Optimization (BandPO). BandPO sostituisce il clipping canonico con Band, un operatore teorico unificato che proietta le regioni di fiducia definite dalle f-divergenze in intervalli di clipping dinamici e consapevoli della probabilità. L'analisi teorica conferma che Band risolve efficacemente questo collo di bottiglia esplorativo. Formuliamo questa mappatura come un problema di ottimizzazione convessa, garantendo una soluzione numerica globalmente ottimale mentre deriviamo soluzioni in forma chiusa per divergenze specifiche. Esperimenti estesi su modelli e dataset diversificati dimostrano che BandPO supera costantemente il clipping canonico e Clip-Higher, mitigando in modo robusto il collasso dell'entropia.
I modelli del mondo forniscono un potente framework per simulare le dinamiche ambientali condizionate da azioni o istruzioni, abilitando task a valle come la pianificazione delle azioni o l'apprendimento di politiche. Gli approcci recenti sfruttano i modelli del mondo come simulatori appresi, ma la loro applicazione alla pianificazione al momento della decisione rimane computazionalmente proibitiva per il controllo in tempo reale. Un collo di bottiglia chiave risiede nelle rappresentazioni latenti: i tokenizer convenzionali codificano ogni osservazione in centinaia di token, rendendo la pianificazione sia lenta che ad alta intensità di risorse. Per affrontare questo problema, proponiamo CompACT, un tokenizer discreto che comprime ogni osservazione in appena 8 token, riducendo drasticamente il costo computazionale preservando al contempo le informazioni essenziali per la pianificazione. Un modello del mondo condizionato all'azione che utilizza il tokenizer CompACT raggiunge prestazioni competitive nella pianificazione con una velocità di pianificazione superiore di ordini di grandezza, offrendo un passo pratico verso l'implementazione nel mondo reale dei modelli del mondo.
La generazione di video umani pronti per la produzione richiede che gli attori digitali mantengano identità corporee complete e rigorosamente consistenti attraverso inquadrature dinamiche, punti di vista e movimenti, un contesto che rimane impegnativo per i metodi esistenti. I metodi precedenti spesso soffrono di un comportamento centrato sul volto che trascura la coerenza a livello corporeo, o producono artefatti da "copia e incolla" in cui i soggetti appaiono rigidi a causa del blocco della posa. Presentiamo Actor-18M, un dataset video umano su larga scala progettato per catturare la coerenza dell'identità in condizioni di punti di vista e ambienti non vincolati. Actor-18M comprende 1.6 milioni di video con 18 milioni di immagini umane corrispondenti, coprendo sia visuali arbitrarie che rappresentazioni canoniche a tre visuali. Sfruttando Actor-18M, proponiamo WildActor, un framework per la generazione di video umani condizionata da qualsiasi punto di vista. Introduciamo un meccanismo di Attenzione Asimmetrica per la Conservazione dell'Identità accoppiato con una strategia di Campionamento Monte Carlo Adattivo al Punto di Vista che ricalcola iterativamente i pesi delle condizioni di riferimento in base all'utilità marginale per una copertura bilanciata del manifold. Valutato sul proposto Actor-Bench, WildActor preserva costantemente l'identità corporea sotto diverse composizioni dell'inquadratura, ampie transizioni di punto di vista e movimenti sostanziali, superando i metodi esistenti in questi contesti impegnativi.
Il monitoraggio del ragionamento a catena (CoT) è uno strumento promettente per rilevare comportamenti scorretti e comprendere le motivazioni dei moderni modelli di ragionamento. Tuttavia, se i modelli possono controllare ciò che verbalizzano nel loro CoT, ciò potrebbe minare la monitorabilità del CoT. Per misurare questa capacità indesiderata – la controllabilità del CoT – introduciamo la suite di valutazione CoT-Control, che include compiti che richiedono ai modelli di risolvere problemi rispettando le istruzioni del CoT, ad esempio, ragionare su una questione di genetica senza utilizzare la parola "cromosoma". Dimostriamo che i modelli di ragionamento possiedono una controllabilità del CoT significativamente inferiore rispetto alla controllabilità dell'output; ad esempio, Claude Sonnet 4.5 riesce a controllare il proprio CoT solo nel 2,7% dei casi, ma nel 61,9% dei casi quando controlla il proprio output finale. Troviamo inoltre che la controllabilità del CoT è maggiore per i modelli più grandi e diminuisce con un maggiore addestramento RL, con più risorse computazionali al momento del test e con l'aumentare della difficoltà del problema. I fallimenti nella controllabilità del CoT si estendono persino a situazioni in cui ai modelli vengono forniti incentivi (anziché richieste dirette) per eludere i monitor del CoT, sebbene i modelli mostrino una controllabilità leggermente superiore quando viene loro detto che sono monitorati. Allo stesso modo, ottenere controllabilità ottimizzando in modo avversario i prompt non aumenta in modo significativo la controllabilità. I nostri risultati ci lasciano cautamente ottimisti sul fatto che la controllabilità del CoT attualmente difficilmente rappresenti una modalità di fallimento della monitorabilità del CoT. Tuttavia, il meccanismo alla base della bassa controllabilità non è ben compreso. Data la sua importanza per mantenere la monitorabilità del CoT, raccomandiamo che i laboratori all'avanguardia tengano traccia della controllabilità del CoT nei modelli futuri.
La memoria è fondamentale per la manipolazione robotica a lungo orizzonte e dipendente dalla cronologia. Tali compiti spesso implicano contare azioni ripetute o manipolare oggetti che vengono temporaneamente occultati. I recenti modelli visione-linguaggio-azione (VLA) hanno iniziato a incorporare meccanismi di memoria; tuttavia, le loro valutazioni rimangono confinate in contesti ristretti e non standardizzati. Ciò limita la loro comprensione sistematica, il confronto e la misurazione dei progressi. Per affrontare queste sfide, introduciamo RoboMME: un benchmark standardizzato su larga scala per valutare e far progredire i modelli VLA in scenari a lungo orizzonte e dipendenti dalla cronologia. Il nostro benchmark comprende 16 compiti di manipolazione costruiti secondo una tassonomia accuratamente progettata che valuta la memoria temporale, spaziale, oggettuale e procedurale. Inoltre, sviluppiamo una suite di 14 varianti VLA potenziate con memoria, costruite sul backbone π0.5, per esplorare sistematicamente diverse rappresentazioni di memoria attraverso molteplici strategie di integrazione. I risultati sperimentali dimostrano che l'efficacia delle rappresentazioni di memoria è fortemente dipendente dal compito, con ogni progetto che offre vantaggi e limitazioni distinti tra i diversi compiti. Video e codice sono disponibili sul nostro sito web https://robomme.github.io.
Le architetture Transformer costituiscono la spina dorsale della maggior parte dei moderni Large Language Model, pertanto la loro stabilità durante il pretraining e la velocità di convergenza sono di centrale importanza. Motivati dalla dipendenza logica degli strati sequenzialmente impilati, proponiamo il Progressive Residual Warmup (ProRes) per il pretraining dei modelli linguistici. ProRes implementa una filosofia per cui "gli strati iniziali apprendono per primi", moltiplicando il residuo di ciascuno strato per uno scalare che si riscalda gradualmente da 0 a 1, con gli strati più profondi che richiedono un maggior numero di passi di riscaldamento. In questo modo, gli strati più profondi attendono che quelli iniziali si stabilizzino in un regime più stabile prima di contribuire all'apprendimento. Dimostriamo l'efficacia di ProRes attraverso esperimenti di pretraining su varie scale modelli, nonché schemi di normalizzazione e inizializzazione. Un'analisi completa mostra che ProRes non solo stabilizza il pretraining, ma introduce anche una traiettoria di ottimizzazione unica, portando a una convergenza più rapida, una generalizzazione più robusta e migliori prestazioni sulle attività downstream. Il nostro codice è disponibile all'indirizzo https://github.com/dandingsky/ProRes.
La modellazione a contesto lungo è una capacità fondamentale per i Large Language Model, ma la complessità quadratica dell'attenzione rimane un collo di bottiglia critico, specialmente durante la fase computazionalmente intensa del prefilling. Sebbene siano state esplorate varie meccanismi di attenzione sparsa, questi tipicamente soffrono di una latenza di ricerca significativa o di una sparsità insufficiente. In questo articolo, proponiamo FlashPrefill, un framework che abilita un prefilling ultra-rapido mediante l'individuazione istantanea di pattern e il thresholding dinamico. FlashPrefill utilizza una tecnica di ricerca rapida a blocchi per localizzare simultaneamente pattern di attenzione dinamici verticali, diagonali e a blocchi sparsi. Crucialmente, introduce un meccanismo di thresholding dinamico che bypassa l'onere proibitivo dell'ordinamento o dell'accumulo dei punteggi di attenzione, eliminando efficacemente la distribuzione a coda lunga per migliorare la sparsità. Valutazioni estensive dimostrano che FlashPrefill raggiunge un salto sostanziale in efficienza, offrendo un incremento di velocità senza precedenti di 27.78x su sequenze di 256K. Notevolmente, a differenza dei metodi esistenti che subiscono un degrado dell'efficienza su contesti più brevi, FlashPrefill mantiene un incremento di 1.71x anche a una lunghezza di contesto di 4K, dimostrando la sua robustezza e utilità pratica attraverso diverse scale di sequenze.
Gli agenti LLM sequenziali falliscono nella pianificazione a lungo termine con vincoli rigidi come budget e requisiti di diversità. Con il progredire della pianificazione e la crescita del contesto, questi agenti si allontanano dai vincoli globali. Proponiamo HiMAP-Travel, un framework multi-agente gerarchico che suddivide la pianificazione in coordinamento strategico ed esecuzione parallela a livello giornaliero. Un Coordinatore assegna le risorse tra i giorni, mentre gli Esecutori Giornalieri pianificano in parallelo in modo indipendente. Tre meccanismi chiave lo rendono possibile: un monitor transazionale che applica i vincoli di budget e univocità tra gli agenti paralleli, un protocollo di negoziazione che consente agli agenti di rifiutare sotto-obiettivi non fattibili e innescare una ripianificazione, e una singola policy addestrata con GRPO che alimenta tutti gli agenti tramite condizionamento del ruolo. Su TravelPlanner, HiMAP-Travel con Qwen3-8B raggiunge un Final Pass Rate (FPR) di convalida del 52,78% e di test del 52,65%. In un confronto controllato con modello, training e strumenti identici, supera la baseline sequenziale DeepTravel di +8,67 pp. Supera anche ATLAS di +17,65 pp e MTP di +10,0 pp. Sugli scenari multi-turno di FlexTravelBench, raggiunge un FPR del 44,34% (2-turn) e del 37,42% (3-turn) riducendo la latenza di 2,5 volte grazie al parallelismo.
I Diffusion Transformer elaborano le immagini come sequenze a lunghezza fissa di token prodotte da un'operazione statica di suddivisione in patch (patchify). Sebbene efficace, questo progetto impiega un calcolo uniforme sia sulle regioni a basso contenuto informativo che su quelle ad alto contenuto, ignorando il fatto che le immagini contengono regioni con dettagli variabili e che il processo di denoising procede da una struttura grossolana nei primi step temporali a dettagli fini negli step successivi. Introduciamo il Dynamic Chunking Diffusion Transformer (DC-DiT), che potenzia l'architettura DiT di base con un'impalcatura encoder-router-decoder appresa, che comprime adattivamente l'input 2D in una sequenza di token più breve in modo dipendente dai dati, utilizzando un meccanismo di suddivisione in blocchi (chunking) appreso end-to-end con l'addestramento alla diffusione. Il meccanismo impara a comprimere le regioni di sfondo uniformi in meno token e le regioni ricche di dettagli in più token, con segmentazioni visive significative che emergono senza una supervisione esplicita. Inoltre, impara anche ad adattare la sua compressione attraverso gli step temporali di diffusione, utilizzando meno token nelle fasi rumorose e più token man mano che emergono i dettagli fini. Su ImageNet 256×256 condizionato per classe, DC-DiT migliora costantemente l'FID e l'Inception Score rispetto ai baseline DiT sia con parametri equivalenti che con FLOP equivalenti, attraverso compressioni di 4× e 16×, dimostrando che questa è una tecnica promettente con potenziali ulteriori applicazioni nella generazione di spazio-pixel, video e 3D. Oltre all'accuratezza, DC-DiT è pratico: può essere riciclato da checkpoint DiT pre-addestrati con un minimo calcolo post-addestramento (fino a 8× step di addestramento in meno) e si combina con altri metodi di calcolo dinamico per ridurre ulteriormente i FLOP di generazione.
Gli effetti visivi (VFX) sono essenziali per potenziare l'espressività e la creatività dei contenuti video, eppure la produzione di effetti di alta qualità richiede tipicamente conoscenze specialistiche e pipeline produttive costose. I sistemi esistenti di AIGC affrontano sfide significative nella generazione di VFX a causa della scarsità di dati specifici per effetti e dell'intrinseca difficoltà di modellare effetti soprannaturali o stilizzati. Inoltre, questi approcci spesso richiedono una messa a punto (fine-tuning) per ogni effetto, il che limita fortemente la loro scalabilità e generalizzazione a nuovi VFX. In questo lavoro, presentiamo EffectMaker, un framework unificato di ragionamento e generazione che abilita la personalizzazione di VFX basata su riferimento. EffectMaker utilizza un modello linguistico multimodale di grandi dimensioni per interpretare la semantica di alto livello degli effetti e ragionare su come essa debba adattarsi a un soggetto target, mentre un trasformatore di diffusione (diffusion transformer) sfrutta l'apprendimento contestuale (in-context learning) per catturare indizi visivi granulari da video di riferimento. Queste due componenti formano un meccanismo di guida duale semantico-visuale che consente una sintesi accurata, controllabile e coerente con l'effetto, senza necessità di messa a punto per ogni effetto. Inoltre, abbiamo costruito EffectData, il più ampio dataset sintetico di alta qualità contenente 130k video across 3k categorie di VFX, per migliorare la generalizzazione e la scalabilità. Gli esperimenti mostrano che EffectMaker raggiunge una qualità visiva e una coerenza dell'effetto superiori rispetto ai metodi baselines allo stato dell'arte, offrendo un paradigma scalabile e flessibile per la generazione personalizzata di VFX. Pagina del progetto: https://effectmaker.github.io
I modelli visione-linguaggio-azione (VLA) basati su flussi eccellono nel controllo embodied, ma soffrono di likelihood intrattabili durante il campionamento multi-step, ostacolando l'apprendimento per rinforzo online. Proponiamo \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), un framework privo di critico e di likelihood che richiede solo un singolo passaggio in avanti per step di ottimizzazione ed elimina le reti di valore ausiliarie. Identifichiamo che spazi di esplorazione più ampi richiedono una guida più granulare, step-by-step, per l'allineamento. Empiricamente, π-StepNFT sblocca potenziale latente su LIBERO con una robustezza few-shot competitiva. Inoltre, raggiunge una generalizzazione superiore su ManiSkill, superando i baseline basati su valore in scenari OOD prevenendo l'overfitting a caratteristiche multimodali. Questa proprietà offre una soluzione scalabile promettente per applicazioni real-world complesse.
I recenti progressi nei grandi modelli linguistici (LLM) hanno aperto nuove strade per il ragionamento multimodale. Tuttavia, la maggior parte dei metodi esistenti si basa ancora su modelli visione-linguaggio (VLM) preaddestrati per codificare coppie immagine-testo in isolamento, ignorando la struttura relazionale che i dati multimodali del mondo reale formano naturalmente. Ciò motiva il ragionamento su grafi multimodali (MMG), dove ogni nodo possiede attributi testuali e visivi e gli archi forniscono indicazioni strutturali. Abilitare un ragionamento basato su LLM su tali segnali multimodali eterogenei, preservando al contempo la topologia del grafo, introduce due sfide chiave: risolvere la debole consistenza cross-modale e gestire la preferenza eterogenea per le modalità. Per affrontare ciò, proponiamo Mario, un framework unificato che risolve simultaneamente le due suddette sfide e abilita un ragionamento efficace basato su LLM sugli MMG. Mario è composto da due fasi innovative. In primo luogo, una progettazione VLM condizionata dal grafo che affina congiuntamente le caratteristiche testuali e visive attraverso un apprendimento contrastivo cross-modale di fine granularità guidato dalla topologia del grafo. In secondo luogo, un meccanismo di messa a punto delle istruzioni del grafo adattivo alla modalità, che organizza le caratteristiche multimodali allineate in viste di istruzioni consapevoli della struttura del grafo e impiega un router apprendibile per far emergere, per ogni nodo e il suo intorno, la configurazione di modalità più informativa per l'LLM. Esperimenti estesi su diversi benchmark di MMG dimostrano che Mario supera costantemente i modelli di grafo all'avanguardia sia in scenari supervisionati che zero-shot per la classificazione dei nodi e la previsione dei link. Il codice sarà reso disponibile all'indirizzo https://github.com/sunyuanfu/Mario.
I recenti progressi nella generazione video basata su modelli di diffusione hanno raggiunto un notevole realismo visivo, ma continuano a mostrare difficoltà nel rispettare leggi fisiche fondamentali come la gravità, l'inerzia e le collisioni. Gli oggetti generati spesso si muovono in modo incoerente tra i fotogrammi, presentano dinamiche inverosimili o violano i vincoli fisici, limitando il realismo e l'affidabilità dei video generati dall'IA. Affrontiamo questa lacuna introducendo Physical Simulator In-the-loop Video Generation (PSIVG), un framework innovativo che integra un simulatore fisico nel processo di diffusione video. Partendo da un video template generato da un modello di diffusione pre-addestrato, PSIVG ricostruisce la scena 4D e le mesh degli oggetti in primo piano, le inizializza all'interno di un simulatore fisico e genera traiettorie fisicamente consistenti. Queste traiettorie simulate vengono quindi utilizzate per guidare il generatore video verso movimenti fisicamente coerenti da un punto di vista spazio-temporale. Per migliorare ulteriormente la coerenza delle trame durante il movimento degli oggetti, proponiamo una tecnica di Test-Time Texture Consistency Optimization (TTCO) che adatta gli embedding testuali e di feature basandosi sulle corrispondenze pixel provenienti dal simulatore. Esperimenti completi dimostrano che PSIVG produce video che aderiscono meglio alla fisica del mondo reale, preservando al contempo la qualità visiva e la diversità. Pagina del progetto: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
La rapida proliferazione di modelli linguistici di grandi dimensioni (LLM) con capacità, costi e domini di applicazione diversi ha creato l'esigenza critica di una selezione intelligente del modello al momento dell'inferenza. Se per query di routine sono sufficienti modelli più piccoli, i compiti complessi richiedono modelli più capaci. Tuttavia, un deployment statico dei modelli non tiene conto della complessità e del dominio delle query in arrivo, portando a prestazioni subottimali e costi aumentati. I sistemi di routing dinamico, che selezionano in modo adattivo i modelli in base alle caratteristiche della query, sono emersi come soluzione a questa sfida. Forniamo un'analisi sistematica degli approcci più avanzati per il routing e il cascading multi-LLM. A differenza delle architetture mixture-of-experts, che instradano all'interno di un singolo modello, noi studiamo l'instradamento tra più LLM addestrati in modo indipendente. Copriamo paradigmi di routing diversi, tra cui la difficoltà della query, le preferenze umane, il clustering, la quantificazione dell'incertezza, l'apprendimento per rinforzo, la multimodalità e il cascading. Per ogni paradigma, analizziamo i metodi rappresentativi ed esaminiamo i principali compromessi. Oltre alla tassonomia, introduciamo un quadro concettuale che caratterizza i sistemi di routing lungo tre dimensioni: quando vengono prese le decisioni, quali informazioni vengono utilizzate e come vengono calcolate. Questa prospettiva evidenzia che i sistemi pratici sono spesso compositi, integrando più paradigmi sotto vincoli operativi. La nostra analisi dimostra che un routing multi-LLM efficace richiede un bilanciamento di obiettivi in competizione. La scelta della strategia di routing ottimale dipende dai vincoli di deployment e computazionali. Sistemi di routing ben progettati possono superare in prestazioni anche i modelli individuali più potenti, sfruttando strategicamente le capacità specializzate tra i modelli e massimizzando al contempo i guadagni di efficienza. Nel frattempo, rimangono aperte le sfide nello sviluppo di meccanismi di routing che generalizzino attraverso architetture, modalità e applicazioni diverse.
Il Group Relative Policy Optimization (GRPO) è estremamente efficace per i modelli linguistici autoregressivi (AR) dopo l'addestramento, ma la sua applicazione diretta ai modelli linguistici di grandi dimensioni basati su diffusione (dLLM) spesso innesca un collasso della reward. Identifichiamo due fonti di incompatibilità. In primo luogo, il GRPO si basa su rapporti di importanza definiti dalle probabilità di sequenza, che sono intrattabili nei dLLM e devono essere stimati (ad esempio, tramite proxy di verosimiglianza basati su ELBO o su campo medio), producendo rapporti intrinsecamente rumorosi. In secondo luogo, la formulazione standard del GRPO non è progettata per rapporti stimati: il suo clipping condizionale può essere anomalamente bypassato dal rumore di stima indipendente dal modello, producendo picchi di gradiente, mentre la sua normalizzazione a dimensione di gruppo fissa amplifica le fluttuazioni di magnitudine del gradiente sotto stime di rapporto ad alta varianza. Dimostriamo che questi effetti formano un ciclo di instabilità auto-rinforzante che guida la deriva della policy e aumenta ulteriormente la varianza del rapporto. Per interrompere questo ciclo, proponiamo StableDRL, una riformulazione del GRPO studiata per i dLLM che utilizza (i) il clipping incondizionato per sopprimere i picchi indotti dagli outlier e (ii) l'auto-normalizzazione per vincolare gli aggiornamenti all'interno dello scafo convesso dei gradienti per campione. Estendiamo inoltre StableDRL ai modelli di diffusione basati su blocchi tramite un meccanismo di attenzione a gradini.
I modelli del mondo basati su diffusione hanno dimostrato un forte potenziale per la simulazione unificata del mondo, ma l'iterativo processo di denoising rimane troppo costoso per un uso interattivo e per rollout a lungo orizzonte. Sebbene la cache delle feature possa accelerare l'inferenza senza addestramento, abbiamo riscontrato che le politiche progettate per la diffusione unimodale si trasferiscono male ai modelli del mondo a causa di due ostacoli specifici: l'eterogeneità dei token dovuta all'accoppiamento multimodale e alla variazione spaziale, e le dinamiche temporali non uniformi in cui un piccolo insieme di token difficili guida la crescita dell'errore, rendendo lo skipping uniforme instabile o eccessivamente conservativo. Proponiamo WorldCache, un framework di caching specifico per i modelli del mondo a diffusione. Introduciamo la Predizione Eterogenea dei Token Guidata dalla Curvatura, che utilizza un punteggio di curvatura basato sulla fisica per stimare la prevedibilità dei token e applica un predatore smorzato guidato da Hermite per i token caotici con cambiamenti di direzione improvvisi. Progettiamo inoltre uno Skipping Adattivo Prioritizzato sul Caotico, che accumula un segnale di deriva adimensionale normalizzato per la curvatura e ricalcola solo quando i token collo di bottiglia iniziano a divergere. Esperimenti su modelli del mondo a diffusione mostrano che WorldCache fornisce accelerazioni end-to-end fino a 3,7 volte mantenendo il 98% della qualità del rollout, dimostrando i notevoli vantaggi e la praticità di WorldCache in scenari con risorse limitate. Il nostro codice è rilasciato su https://github.com/FofGofx/WorldCache.
Introduciamo PixARMesh, un metodo per ricostruire autoregressivamente mesh 3D complete di scene indoor direttamente da una singola immagine RGB. A differenza dei metodi precedenti che si basano su campi di distanza con segno impliciti e ottimizzazioni a posteriori del layout, PixARMesh predice congiuntamente il layout degli oggetti e la geometria all'interno di un modello unificato, producendo mesh coerenti e pronte per l'uso artistico in un unico passaggio in avanti. Basandoci sui recenti progressi nei modelli generativi di mesh, potenziamo un codificatore di nuvole di punti con caratteristiche immagine allineate ai pixel e contesto scenico globale tramite cross-attention, consentendo un ragionamento spaziale accurato a partire da una singola immagine. Le scene sono generate autoregressivamente da un flusso di token unificato contenente contesto, posa e mesh, producendo mesh compatte con geometria ad alta fedeltà. Esperimenti su dataset sintetici e del mondo reale mostrano che PixARMesh raggiunge una qualità di ricostruzione allo stato dell'arte producendo al contempo mesh leggere e di alta qualità, pronte per applicazioni a valle.
La progettazione assistita da computer (CAD) si basa su rappresentazioni geometriche strutturate e modificabili, tuttavia i metodi generativi esistenti sono limitati da piccoli dataset annotati con cronologie di progettazione esplicite o etichette di rappresentazione del contorno (BRep). Nel frattempo, milioni di mesh 3D non annotate rimangono inutilizzate, limitando i progressi nella generazione scalabile di CAD. Per affrontare questo problema, proponiamo DreamCAD, un framework generativo multimodale che produce direttamente BRep modificabili a partire da supervisione a livello di punti, senza annotazioni specifiche per CAD. DreamCAD rappresenta ogni BRep come un insieme di patch parametriche (ad esempio, superfici di Bézier) e utilizza un metodo di tassellazione differenziabile per generare mesh. Ciò consente l'addestramento su larga scala su dataset 3D ricostruendo al contempo superfici connesse e modificabili. Inoltre, introduciamo CADCap-1M, il più grande dataset di captioning per CAD fino ad oggi, con oltre 1 milione di descrizioni generate utilizzando GPT-5 per far avanzare la ricerca sul text-to-CAD. DreamCAD raggiunge prestazioni all'avanguardia sui benchmark ABC e Objaverse attraverso le modalità testo, immagine e punto, migliorando la fedeltà geometrica e superando il 75% di preferenza degli utenti. Codice e dataset saranno resi pubblicamente disponibili.
Gli agenti conversazionali sono sempre più impiegati in contesti ad alta intensità di conoscenza, dove il comportamento corretto dipende dal recupero e dall'applicazione di conoscenze dominio-specifiche da grandi corpora non strutturati e proprietari durante interazioni in tempo reale con gli utenti. Tuttavia, la maggior parte dei benchmark esistenti valuta il recupero delle informazioni o l'uso di strumenti in modo indipendente l'uno dall'altro, creando una lacuna nella valutazione agentica realistica e completa su dati non strutturati in interazioni a lungo termine. Introduciamo τ-Knowledge, un'estensione di τ-Bench per valutare gli agenti in ambienti in cui il successo dipende dal coordinamento di conoscenze esterne in linguaggio naturale con gli output degli strumenti per produrre cambiamenti di stato verificabili e conformi alle policy. Il nostro nuovo dominio, τ-Banking, modella flussi di lavoro realistici di supporto clienti nel fintech, in cui gli agenti devono navigare circa 700 documenti di conoscenza interconnessi mentre eseguono aggiornamenti account mediati da strumenti. Sia con il recupero basato su embedding che con la ricerca da terminale, anche i modelli all'avanguardia con budget computazionali elevati raggiungono solo un tasso di successo del 25.5% circa, con un'affidabilità che si degrada bruscamente in prove ripetute. Gli agenti faticano a recuperare i documenti corretti da basi di conoscenza densamente interconnesse e a ragionare con precisione su politiche interne complesse. Nel complesso, τ-Knowledge fornisce un banco di prova realistico per sviluppare agenti che integrano conoscenza non strutturata in deployment a contatto con gli utenti.
La generazione di presentazioni richiede una ricerca approfondita dei contenuti, una progettazione visiva coerente e un perfezionamento iterativo basato sull'osservazione. Tuttavia, gli agenti di presentazione esistenti spesso si basano su flussi di lavoro predefiniti e modelli fissi. Per affrontare questa limitazione, presentiamo DeepPresenter, un framework agente che si adatta a diverse intenzioni dell'utente, consente un efficace perfezionamento guidato dal feedback e generalizza oltre una pipeline predefinita. Nello specifico, DeepPresenter pianifica, renderizza e revisiona in modo autonomo gli artefatti intermedi delle slide per supportare un perfezionamento a lungo termine con osservazioni ambientali. Inoltre, invece di basarsi sull'auto-riflessione su segnali interni (ad esempio, tracce di ragionamento), la nostra riflessione ancorata all'ambiente condiziona il processo di generazione sugli stati percettivi degli artefatti (ad esempio, slide renderizzate), consentendo al sistema di identificare e correggere problemi specifici della presentazione durante l'esecuzione. I risultati sul set di valutazione, che copre diversi scenari di generazione di presentazioni, mostrano che DeepPresenter raggiunge prestazioni all'avanguardia, e il modello fine-tuned da 9B rimane altamente competitivo a costi sostanzialmente inferiori. Il nostro progetto è disponibile all'indirizzo: https://github.com/icip-cas/PPTAgent
L'apprendimento per rinforzo offline condizionato all'obiettivo (GCRL) apprende politiche condizionate all'obiettivo da dataset statici pre-acquisiti. Tuttavia, una stima accurata del valore rimane una sfida a causa della copertura limitata dello spazio stato-azione. Recenti approcci basati sulla fisica hanno cercato di affrontare questo problema imponendo vincoli fisici e geometrici sulla funzione valore attraverso una regolarizzazione definita su equazioni alle derivate parziali (PDE) del primo ordine, come l'equazione di Eikonal. Tuttavia, queste formulazioni possono spesso essere mal poste in ambienti complessi e ad alta dimensionalità. In questo lavoro, proponiamo una regolarizzazione basata sulla fisica derivata dalla soluzione di viscosità dell'equazione di Hamilton-Jacobi-Bellman (HJB). Fornendo un bias induttivo basato sulla fisica, il nostro approccio ancorà il processo di apprendimento alla teoria del controllo ottimo, regolarizzando e delimitando esplicitamente gli aggiornamenti durante le iterazioni del valore. Inoltre, sfruttiamo il teorema di Feynman-Kac per riformulare la soluzione della PDE come un'aspettativa, abilitando una trattabile stima Monte Carlo dell'obiettivo che evita l'instabilità numerica nei gradienti di ordine superiore. Gli esperimenti dimostrano che il nostro metodo migliora la consistenza geometrica, rendendolo ampiamente applicabile a compiti di navigazione e di manipolazione complessi e ad alta dimensionalità. I codici open-source sono disponibili su https://github.com/HrishikeshVish/phys-fk-value-GCRL.
La ripristino delle immagini in presenza di degradazioni diverse rimane una sfida per i framework unificati "all-in-one" a causa dell'interferenza tra le feature e dell'insufficiente specializzazione degli esperti. Proponiamo SLER-IR, un framework di instradamento gerarchico di esperti su sfera che attiva dinamicamente esperti specializzati attraverso i vari livelli della rete. Per garantire un instradamento affidabile, introduciamo un Embedding di Degradazione Sferico Uniforme con apprendimento contrastivo, che mappa le rappresentazioni delle degradazioni su un'ipersfera per eliminare il bias geometrico negli spazi di embedding lineari. Inoltre, un modulo di Fusione di Granularità Globale-Locale (GLGF) integra la semantica globale e gli indizi di degradazione locali per affrontare le degradazioni spazialmente non uniformi e il divario di granularità tra addestramento e test. Esperimenti su benchmark a tre e cinque compiti dimostrano che SLER-IR raggiunge miglioramenti consistenti rispetto ai metodi allo stato dell'arte sia in PSNR che in SSIM. Codice e modelli saranno rilasciati pubblicamente.
I modelli linguistici di grandi dimensioni a volte producono risposte false o fuorvianti. Due approcci a questo problema sono l'*honesty elicitation* – modificare i prompt o i pesi in modo che il modello risponda veritieramente – e il *lie detection* – classificare se una determinata risposta è falsa. I lavori precedenti valutano tali metodi su modelli addestrati specificamente per mentire o nascondere informazioni, ma queste costruzioni artificiali potrebbero non assomigliare alla disonestà che si verifica naturalmente. Noi studiamo invece modelli LLM open-weight sviluppati da sviluppatori cinesi, che sono addestrati per censurare argomenti politicamente sensibili: i modelli Qwen3 producono frequentemente falsità su argomenti come Falun Gong o le proteste di Piazza Tienanmen, mentre occasionalmente rispondono correttamente, indicando che possiedono conoscenze che sono addestrati a sopprimere. Utilizzando questo come banco di prova, valutiamo una serie di tecniche di *elicitation* e di rilevamento delle menzogne. Per l'*honesty elicitation*, il campionamento senza un template di chat, il prompting *few-shot* e il fine-tuning su dati generici di veridicità aumentano in modo più affidabile le risposte veritiere. Per il *lie detection*, promptare il modello censurato a classificare le proprie risposte si avvicina a un limite superiore rappresentato da un modello non censurato, e le *linear probe* addestrate su dati non correlati offrono un'alternativa più economica. Le tecniche di *elicitation* più efficaci si trasferiscono anche a modelli open-weight all'avanguardia, incluso DeepSeek R1. È importante notare che nessuna tecnica elimina completamente le risposte false. Rilasciamo tutti i prompt, il codice e le trascrizioni.
L'aumento della potenza di calcolo durante l'inferenza per i Grandi Modelli Linguistici (LLM) ha sbloccato capacità di ragionamento senza precedenti. Tuttavia, i metodi esistenti di scalabilità a tempo di inferenza si basano tipicamente su algoritmi di ricerca discreta inefficienti e subottimali o su prompt per tentativi ed errori per migliorare la politica online. In questo articolo, proponiamo nabla-Reasoner, un framework di generazione iterativa che integra un'ottimizzazione differenziabile sui logit dei token nel ciclo di decodifica per affinare la politica al volo. Il nostro componente principale, l'Ottimizzazione Testuale Differenziabile (DTO), sfrutta i segnali di gradiente sia dalla verosimiglianza dell'LLM che da un modello di reward per perfezionare le rappresentazioni testuali. nabla-Reasoner incorpora inoltre un campionamento di reiezione e un design di accelerazione per rendere la decodifica più robusta e veloce. Teoricamente, dimostriamo che eseguire la discesa del gradiente a tempo di inferenza nello spazio campionario per massimizzare la ricompensa è duale all'allineamento di una politica LLM tramite apprendimento per rinforzo regolarizzato con KL. Empiricamente, nabla-Reasoner ottiene un miglioramento dell'accuratezza superiore al 20% su un benchmark impegnativo di ragionamento matematico, riducendo al contempo il numero di chiamate al modello di circa il 10-40% rispetto a baseline solide. Nel complesso, il nostro lavoro introduce un cambio di paradigma dalla ricerca di ordine zero all'ottimizzazione di primo ordine al momento del test, offrendo un percorso economicamente vantaggioso per amplificare il ragionamento degli LLM.
La capacità di seguire le istruzioni è una competenza fondamentale dei grandi modelli linguistici (LLM), il cui miglioramento dipende da feedback scalabili e accurati forniti da modelli giudicanti. Tuttavia, l'affidabilità degli attuali modelli giudicanti nel seguire le istruzioni rimane poco esplorata a causa di diverse carenze dei benchmark di meta-valutazione esistenti, come la loro copertura dati insufficiente e i paradigmi di valutazione a coppie eccessivamente semplificati, che non si allineano agli scenari di ottimizzazione dei modelli. A tal fine, proponiamo IF-RewardBench, un benchmark completo di meta-valutazione per il seguire le istruzioni che copre diversi tipi di istruzioni e vincoli. Per ogni istruzione, costruiamo un grafo delle preferenze contenente tutte le preferenze a coppie tra più risposte basate sulla qualità del seguire le istruzioni. Questo design consente un paradigma di valutazione di tipo listwise che valuta le capacità dei modelli giudicanti di classificare più risposte, essenziale per guidare l'allineamento dei modelli. Esperimenti estesi su IF-RewardBench rivelano carenze significative negli attuali modelli giudicanti e dimostrano che il nostro benchmark raggiunge una correlazione positiva più forte con le prestazioni delle attività a valle rispetto ai benchmark esistenti. I nostri codici e dati sono disponibili su https://github.com/thu-coai/IF-RewardBench.
Sfruttare appieno il potenziale dei documenti visualmente ricchi richiede sistemi di retrieval che comprendano non solo il testo, ma anche i layout complessi, una sfida fondamentale nel Recupero Visivo di Documenti (VDR). Le architetture multi-vettore predominanti, sebbene potenti, affrontano un cruciale collo di bottiglia legato allo storage, che le attuali strategie di ottimizzazione, come la fusione degli embedding, la potatura o l'uso di token astratti, non riescono a risolvere senza compromettere le prestazioni o ignorare indizi layout vitali. Per affrontare questo problema, introduciamo ColParse, un nuovo paradigma che utilizza un modello di parsing documentale per generare un piccolo insieme di embedding di sotto-immagini informati dal layout, che vengono poi fusi con un vettore globale a livello di pagina per creare una rappresentazione multi-vettore compatta e strutturalmente consapevole. Esperimenti estensivi dimostrano che il nostro metodo riduce i requisiti di storage di oltre il 95%, producendo simultaneamente significativi miglioramenti prestazionali su numerosi benchmark e modelli di base. ColParse colma quindi il divario critico tra l'accuratezza granulare del retrieval multi-vettore e le esigenze pratiche della diffusione su larga scala, offrendo una nuova strada verso sistemi di informazione multimodale efficienti e interpretabili.
L'addestramento di solutori di PDE neurali è spesso limitato dalla costosa generazione di dati o dall'instabilità delle reti neurali informate dalla fisica (PINN), che coinvolgono paesaggi di ottimizzazione complessi a causa di derivate di ordine superiore. Per affrontare questo problema, proponiamo un approccio alternativo che utilizza metodi Monte Carlo per stimare la soluzione della PDE come un processo stocastico per una supervisione debole durante l'addestramento. Sfruttando il metodo Walk-on-Spheres, introduciamo uno schema di apprendimento chiamato Walk-on-Spheres Neural Operator (WoS-NO), che utilizza la supervisione debole da WoS per addestrare qualsiasi operatore neurale dato. Proponiamo di ammortizzare il costo dei percorsi Monte Carlo attraverso la distribuzione di istanze di PDE utilizzando rappresentazioni stocastiche dall'algoritmo WoS per generare stime economiche e rumorose della soluzione della PDE durante l'addestramento. Questo è formulato in un obiettivo informato dalla fisica senza dati, in cui un operatore neurale viene addestrato a regredire rispetto a queste supervisioni deboli, permettendo all'operatore di apprendere una mappa di soluzione generalizzata per un'intera famiglia di PDE. Questa strategia non richiede costosi dataset pre-calcolati, evita il calcolo di derivate di ordine superiore per funzioni di perdita che sono dispendiose in termini di memoria e instabili, e dimostra una generalizzazione zero-shot a nuovi parametri e domini di PDE. Gli esperimenti mostrano che, per lo stesso numero di passi di addestramento, il nostro metodo presenta un miglioramento fino a 8,75 volte nell'errore L² rispetto agli schemi di addestramento standard informati dalla fisica, un miglioramento fino a 6,31 volte nella velocità di addestramento e riduzioni fino a 2,97 volte nel consumo di memoria GPU. Presentiamo il codice all'indirizzo https://github.com/neuraloperator/WoS-NO.
È noto che la ricostruzione FID (rFID) di un VAE è scarsamente correlata con la generazione FID (gFID) di un modello di diffusione latente. Proponiamo l'FID interpolato (iFID), una semplice variante dell'rFID che mostra una forte correlazione con il gFID. Nello specifico, per ogni elemento nel dataset, recuperiamo il suo vicino più prossimo (NN) nello spazio latente e interpoliamo le loro rappresentazioni latenti. Decodifichiamo quindi il latente interpolato e calcoliamo l'FID tra i campioni decodificati e il dataset originale. Inoltre, perfezioniamo l'affermazione che l'rFID è scarsamente correlato con il gFID, dimostrando che l'rFID si correla con la qualità del campione nella fase di raffinamento della diffusione, mentre l'iFID si correla con la qualità del campione nella fase di navigazione della diffusione. Forniamo inoltre una spiegazione del motivo per cui l'iFID è ben correlato con il gFID, e del perché le metriche di ricostruzione sono negativamente correlate con il gFID, collegandoci ai risultati sulla generalizzazione e allucinazione nella diffusione. Empiricamente, l'iFID è la prima metrica a dimostrare una forte correlazione con il gFID della diffusione, raggiungendo correlazioni lineari di Pearson e correlazioni di rango di Spearman di circa 0,85. Il codice sorgente è disponibile su https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
La specificazione dello spazio d'azione svolge un ruolo cruciale nell'apprendimento di politiche di manipolazione robotica basata sull'imitazione, plasmando fondamentalmente il panorama di ottimizzazione dell'apprendimento delle politiche. Sebbene i recenti progressi si siano concentrati pesantemente sul ridimensionamento dei dati di addestramento e della capacità del modello, la scelta dello spazio d'azione continua a essere guidata da euristiche ad hoc o progetti legacy, portando a una comprensione ambigua delle filosofie di progettazione delle politiche robotiche. Per affrontare questa ambiguità, abbiamo condotto uno studio empirico sistematico e su larga scala, confermando che lo spazio d'azione ha impatti significativi e complessi sull'apprendimento delle politiche robotiche. Sezioniamo lo spazio di progettazione dell'azione lungo assi temporali e spaziali, facilitando un'analisi strutturata di come queste scelte governino sia l'apprendibilità della politica che la stabilità del controllo. Basandoci su oltre 13.000 rollout nel mondo reale su un robot bimanuale e sulla valutazione di oltre 500 modelli addestrati in quattro scenari, esaminiamo i compromessi tra rappresentazioni assolute e delta e le parametrizzazioni nello spazio dei giunti rispetto a quello delle coordinate operative. I nostri risultati su larga scala suggeriscono che progettare correttamente la politica per prevedere azioni delta migliora costantemente le prestazioni, mentre le rappresentazioni nello spazio dei giunti e in quello operativo offrono punti di forza complementari, favorendo rispettivamente la stabilità del controllo e la generalizzazione.
Recenti studi hanno osservato che gli strati intermedi dei modelli di base spesso producono rappresentazioni più discriminative rispetto allo strato finale. Sebbene inizialmente attribuito alla pre-addestramento autoregressivo, questo fenomeno è stato identificato anche in modelli addestrati tramite obiettivi supervisionati e di auto-supervisione discriminatoria. In questo articolo, conduciamo uno studio completo per analizzare il comportamento degli strati intermedi in transformer per la visione pre-addestrati. Attraverso ampi esperimenti di linear probing su un insieme diversificato di benchmark per la classificazione di immagini, scopriamo che lo shift di distribuzione tra i dati di pre-addestramento e quelli downstream è la causa principale del degrado delle prestazioni negli strati più profondi. Inoltre, eseguiamo un'analisi granulare a livello di modulo. Le nostre scoperte rivelano che il probing standard sugli output dei blocchi del transformer è subottimale; invece, il probing dell'attivazione all'interno della rete feedforward produce le migliori prestazioni in presenza di uno shift di distribuzione significativo, mentre l'output normalizzato del modulo di multi-head self-attention è ottimale quando lo shift è debole.