Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli esseri umani percepiscono e comprendono gli spazi del mondo reale attraverso un flusso di osservazioni visive. Pertanto, la capacità di mantenere e aggiornare in modo continuativo le evidenze spaziali da flussi video potenzialmente illimitati è essenziale per l'intelligenza spaziale. La sfida principale non risiede semplicemente in finestre contestuali più lunghe, ma in come le informazioni spaziali vengono selezionate, organizzate e mantenute nel tempo. In questo articolo, proponiamo Spatial-TTT, un approccio all'intelligenza spaziale basata su visione in streaming mediante addestramento al momento del test (TTT), che adatta un sottoinsieme di parametri (pesi rapidi) per catturare e organizzare le evidenze spaziali in video di scene a lungo orizzonte. Nello specifico, progettiamo un'architettura ibrida e adottiamo aggiornamenti a blocchi ampi in parallelo con meccanismi di attenzione a finestra scorrevole per un'efficiente elaborazione di video spaziali. Per promuovere ulteriormente la consapevolezza spaziale, introduciamo un meccanismo predittivo spaziale applicato agli strati TTT con convoluzione spaziotemporale 3D, che incentiva il modello a catturare corrispondenze geometriche e continuità temporale tra i fotogrammi. Oltre alla progettazione architetturale, costruiamo un dataset con descrizioni spaziali 3D dense, che guida il modello ad aggiornare i propri pesi rapidi per memorizzare e organizzare i segnali spaziali globali 3D in modo strutturato. Esperimenti estensivi dimostrano che Spatial-TTT migliora la comprensione spaziale a lungo orizzonte e raggiunge prestazioni allo stato dell'arte su benchmark di spazialità video. Pagina del progetto: https://liuff19.github.io/Spatial-TTT.
Gli agenti multimodali rappresentano una prospettiva promettente per l'automazione di flussi di lavoro complessi e intensivi di documenti. Tuttavia, una domanda cruciale rimane: questi agenti dimostrano un ragionamento strategico genuino, o si limitano a una ricerca stocastica per tentativi ed errori? Per affrontare questa questione, introduciamo MADQA, un benchmark di 2.250 questioni create da esseri umani, basate su 800 documenti PDF eterogenei. Guidati dalla Teoria Classica dei Test, lo progettiamo per massimizzare il potere discriminante attraverso diversi livelli di abilità agentive. Per valutare il comportamento agentivo, introduciamo un protocollo di valutazione innovativo che misura il compromesso accuratezza-sforzo. Utilizzando questo framework, dimostriamo che, sebbene i migliori agenti possano eguagliare i ricercatori umani in accuratezza grezza, essi riescono su questioni largamente diverse e fanno affidamento su una ricerca a forza bruta per compensare una pianificazione strategica debole. Non riescono a colmare il divario di quasi il 20% rispetto alla performance oracolare, persistendo in loop improduttivi. Rilasciamo il dataset e il sistema di valutazione per aiutare a facilitare la transizione dal recupero a forza bruta a un ragionamento calibrato ed efficiente.
I flussi di lavoro agentici a contesto lungo sono emersi come un caso d'uso fondamentale per i grandi modelli linguistici, rendendo l'efficienza dell'attenzione critica sia per la velocità di inferenza che per i costi di servizio. L'attenzione sparsa affronta efficacemente questa sfida, e DeepSeek Sparse Attention (DSA) è una soluzione rappresentativa di livello production: un indicizzatore leggero e rapido seleziona i k token più rilevanti per query, riducendo l'attenzione principale da O(L²) a O(Lk). Tuttavia, l'indicizzatore stesso mantiene una complessità O(L²) e deve essere eseguito indipendentemente a ogni layer, nonostante le selezioni top-k risultanti siano altamente simili tra layer consecutivi. Presentiamo IndexCache, che sfrutta questa ridondanza cross-layer suddividendo i layer in un piccolo insieme di layer Completi che eseguono i propri indicizzatori e una maggioranza di layer Condivisi che semplicemente riutilizzano gli indici top-k del layer Completo più vicino. Proponiamo due approcci complementari per determinare e ottimizzare questa configurazione. IndexCache senza addestramento applica un algoritmo di ricerca greedy che seleziona quali layer mantenere gli indicizzatori minimizzando direttamente la loss di modellazione linguistica su un set di calibrazione, senza richiedere aggiornamenti dei pesi. IndexCache con addestramento introduce una loss di distillazione multi-layer che addestra ogni indicizzatore mantenuto rispetto alle distribuzioni medie di attenzione di tutti i layer che serve, permettendo anche a semplici pattern interlacciati di eguagliare l'accuratezza degli indicizzatori completi. I risultati sperimentali su un modello DSA da 30B mostrano che IndexCache può rimuovere il 75% dei calcoli degli indicizzatori con una degradazione della qualità trascurabile, raggiungendo fino a 1.82x di accelerazione nella fase di prefill e 1.48x nella fase di decodifica rispetto al DSA standard. Questi risultati positivi sono ulteriormente confermati dai nostri esperimenti preliminari sul modello GLM-5 di scala production (Figura 1).
Gli agenti che utilizzano computer (CUA) stanno diventando sempre più capaci; tuttavia, rimane difficile scalare la valutazione del fatto che una traiettoria soddisfi veramente un'istruzione dell'utente. In questo lavoro, studiamo la modellazione della ricompensa a partire da video di esecuzione: una sequenza di fotogrammi chiave di una traiettoria agente che è indipendente dal ragionamento interno o dalle azioni dell'agente. Sebbene la modellazione dell'esecuzione video sia indipendente dal metodo, presenta sfide chiave, tra cui layout altamente ridondanti e segnali sottili e localizzati che determinano il successo. Introduciamo Execution Video Reward 53k (ExeVR-53k), un dataset di 53k triplette video–compito–ricompensa di alta qualità. Proponiamo inoltre la traduzione avversaria delle istruzioni per sintetizzare campioni negativi con annotazioni a livello di step. Per consentire l'apprendimento da video di esecuzione lunghi e ad alta risoluzione, progettiamo una potatura spazio-temporale dei token, che rimuove regioni omogenee e token persistenti preservando al contempo i cambiamenti decisivi nell'interfaccia utente. Basandoci su questi componenti, ottimizziamo un Execution Video Reward Model (ExeVRM) che prende in input solo un'istruzione utente e una sequenza video di esecuzione per prevedere il successo del compito. Il nostro ExeVRM 8B raggiunge un'accuratezza dell'84,7% e un richiamo dell'87,7% nella valutazione dell'esecuzione video, superando modelli proprietari forti come GPT-5.2 e Gemini-3 Pro su Ubuntu, macOS, Windows e Android, fornendo al contempo un'attribuzione temporale più precisa. Questi risultati dimostrano che la modellazione della ricompensa basata sull'esecuzione video può fungere da valutatore scalabile e indipendente dal modello per i CUA.
La generazione di video basata su testo ha democratizzato la creazione cinematografica, ma il controllo della telecamera in scenari cinematografici multi-inquadratura rimane un ostacolo significativo. I prompt testuali impliciti mancano di precisione, mentre il condizionamento esplicito della traiettoria impone un sovraccarico manuale proibitivo e spesso innesca errori di esecuzione nei modelli attuali. Per superare questo collo di bottiglia, proponiamo un cambio di paradigma incentrato sui dati, postulando che le triplette allineate (Didascalia, Traiettoria, Video) formino una distribuzione congiunta intrinseca in grado di connettere la pianificazione automatizzata e l'esecuzione precisa. Guidati da questa intuizione, presentiamo ShotVerse, un framework "Pianifica-poi-Controlla" che disaccoppia la generazione in due agenti collaborativi: un Pianificatore basato su VLM (Vision-Language Model) che sfrutta prior spaziali per ottenere traiettorie cinematografiche e globalmente allineate dal testo, e un Controllore che rende queste traiettorie in contenuti video multi-inquadratura tramite un adattatore per telecamera. Centrale per il nostro approccio è la costruzione di una base dati: progettiamo una pipeline automatizzata di calibrazione della telecamera multi-inquadratura che allinea traiettorie singole disgiunte in un sistema di coordinate globale unificato. Ciò facilita la creazione di ShotVerse-Bench, un dataset cinematografico ad alta fedeltà con un protocollo di valutazione a tre tracce che funge da base per il nostro framework. Esperimenti estensivi dimostrano che ShotVerse colma efficacemente il divario tra il controllo testuale inaffidabile e la pianificazione manuale laboriosa, raggiungendo un'estetica cinematografica superiore e generando video multi-inquadratura che sono sia precisi a livello di telecamera che coerenti tra le diverse inquadrature.
Gli agenti multimodali possono ora affrontare compiti di ragionamento complessi con strumenti diversificati, ma continuano a soffrire di un uso inefficiente degli strumenti e di un'orchestrazione inflessibile in contesti aperti. Una sfida centrale è permettere a tali agenti di migliorare continuamente senza aggiornamenti parametrici, apprendendo dalle traiettorie passate. Identifichiamo due forme complementari di conoscenza riutilizzabile essenziali per questo obiettivo: le esperienze, che forniscono una guida concisa a livello di azione per la selezione degli strumenti e la presa di decisioni, e le abilità, che forniscono una guida strutturata a livello di compito per la pianificazione e l'uso degli strumenti. A tal fine, proponiamo XSkill, un framework a doppio flusso per l'apprendimento continuo da esperienze e abilità in agenti multimodali. XSkill ancoria sia l'estrazione che il recupero della conoscenza alle osservazioni visive. Durante la fase di accumulo, XSkill distilla e consolida esperienze e abilità da rollout multi-percorso tramite una sintesi e una valutazione incrociata ancorate al visivo. Durante l'inferenza, recupera e adatta questa conoscenza al contesto visivo corrente e reinvia la cronologia d'uso nell'accumulo per formare un ciclo di apprendimento continuo. Valutato su cinque benchmark in diversi domini con quattro modelli di base, XSkill supera costantemente e sostanzialmente sia i baseline basati solo su strumenti che quelli basati sull'apprendimento. Un'analisi più approfondita rivela che i due flussi di conoscenza svolgono ruoli complementari nell'influenzare i comportamenti di ragionamento degli agenti e mostrano una generalizzazione zero-shot superiore.
Sebbene i modelli di diffusione su larga scala abbiano rivoluzionato la sintesi video, ottenere un controllo preciso sia sull'identità multi-soggetto che sul movimento multi-granularità rimane una sfida significativa. I recenti tentativi di colmare questa lacuna spesso soffrono di granularità del movimento limitata, ambiguità di controllo e degrado dell'identità, portando a prestazioni subottimali nella preservazione dell'identità e nel controllo del movimento. In questo lavoro, presentiamo DreamVideo-Omni, un framework unificato che abilita una personalizzazione armoniosa multi-soggetto con controllo omni-motion attraverso un paradigma di addestramento progressivo a due stadi. Nella prima fase, integriamo segnali di controllo completi per un addestramento congiunto, che comprende l'aspetto dei soggetti, il movimento globale, la dinamica locale e i movimenti della telecamera. Per garantire una controllabilità robusta e precisa, introduciamo un embedding posizionale rotatorio 3D consapevole delle condizioni per coordinare input eterogenei e una strategia di iniezione gerarchica del movimento per potenziare la guida del movimento globale. Inoltre, per risolvere l'ambiguità multi-soggetto, introduciamo embedding di gruppo e di ruolo per ancorare esplicitamente i segnali di movimento a identità specifiche, scomponendo efficacemente scene complesse in istanze controllabili indipendenti. Nella seconda fase, per mitigare il degrado dell'identità, progettiamo un paradigma di apprendimento con feedback di ricompensa per l'identità latente, addestrando un modello di ricompensa per l'identità latente su un backbone pre-addestrato di diffusione video. Questo fornisce ricompense per l'identità consapevoli del movimento nello spazio latente, privilegiando la preservazione dell'identità allineata con le preferenze umane. Supportato dal nostro dataset su larga scala curato e dall'esaustiva DreamOmni Bench per la valutazione del controllo multi-soggetto e omni-motion, DreamVideo-Omni dimostra prestazioni superiori nella generazione di video di alta qualità con una controllabilità precisa.
L’estimazione della profondità da video esistenti affronta un compromesso fondamentale: i modelli generativi soffrono di allucinazioni geometriche stocastiche e deriva di scala, mentre i modelli discriminativi richiedono enormi dataset etichettati per risolvere ambiguità semantiche. Per superare questa impasse, presentiamo DVD, il primo framework che adatta deterministicamente modelli di diffusione video pre-addestrati in regressori di profondità a passaggio singolo. Nello specifico, DVD presenta tre design chiave: (i) il riutilizzo del timestep di diffusione come ancora strutturale per bilanciare stabilità globale e dettagli ad alta frequenza; (ii) la rettifica della varietà latente (LMR) per mitigare l’eccessiva levigatezza indotta dalla regressione, applicando vincoli differenziali per ripristinare contorni netti e moto coerente; e (iii) la coerenza affine globale, una proprietà intrinseca che delimita la divergenza inter-finestra, consentendo inferenze su video lunghi senza necessità di complessi allineamenti temporali. Esperimenti estensivi dimostrano che DVD raggiunge prestazioni zero-shot all’avanguardia su diversi benchmark. Inoltre, DVD sblocca con successo i profondi prior geometrici impliciti nei modelli foundation video utilizzando 163 volte meno dati task-specific rispetto ai principali baseline. Notevolmente, rilasciamo integralmente la nostra pipeline, fornendo l’intera suite di addestramento per l’estimazione della profondità video allo stato dell’arte a beneficio della comunità open-source.
La modifica di immagini basata su istruzioni mira ad alterare contenuti specifici all'interno di immagini esistenti secondo le indicazioni dell'utente, preservando le regioni non interessate. Oltre alla manipolazione tradizionale incentrata su oggetti e stili, la modifica di immagini *text-centric* si concentra sull'alterare, tradurre o riorganizzare elementi testuali incorporati nelle immagini. Tuttavia, i principali modelli esistenti spesso faticano a eseguire modifiche testuali complesse in modo preciso, producendo frequentemente caratteri sfocati o allucinati. Attribuiamo questi fallimenti principalmente alla mancanza di paradigmi di addestramento specializzati per la modifica *text-centric*, nonché all'assenza di dataset su larga scala e benchmark standardizzati necessari per un sistema di addestramento e valutazione a ciclo chiuso. Per affrontare queste limitazioni, presentiamo WeEdit, una soluzione sistematica che comprende una pipeline scalabile per la costruzione di dati, due benchmark e una strategia di addestramento su due stadi specificamente progettata. Nello specifico, proponiamo una nuova pipeline di modifica automatica basata su HTML, che genera 330.000 coppie di addestramento che coprono diverse operazioni di modifica e 15 lingue, accompagnate da benchmark bilingue e multilingue standardizzati per una valutazione completa. Sul versante algoritmico, impieghiamo un *fine-tuning* supervisionato guidato dalla glicemia per iniettare *prior* spaziali e di contenuto espliciti, seguito da una fase di apprendimento per rinforzo multi-obiettivo per allineare la generazione con l'aderenza alle istruzioni, la chiarezza del testo e la preservazione dello sfondo. Esperimenti estensivi dimostrano che WeEdit supera i precedenti modelli open-source con un margine significativo in diverse operazioni di modifica.
L'apprendimento per rinforzo (RL) è emerso come un paradigma promettente per migliorare l'editing delle immagini e la generazione da testo a immagine (T2I). Tuttavia, gli attuali modelli di ricompensa, che fungono da critici durante l'RL, sono spesso affetti da allucinazioni e assegnano punteggi rumorosi, fuorviando intrinsecamente il processo di ottimizzazione. In questo articolo, presentiamo FIRM (Faithful Image Reward Modeling), un framework completo che sviluppa modelli di ricompensa robusti per fornire una guida accurata e affidabile per una generazione e un editing di immagini fedeli. In primo luogo, progettiamo pipeline specializzate di curatela dei dati per costruire dataset di valutazione di alta qualità. Nello specifico, valutiamo l'editing utilizzando sia l'esecuzione che la coerenza, mentre la generazione è valutata principalmente tramite l'aderenza all'istruzione. Utilizzando queste pipeline, raccogliamo i dataset FIRM-Edit-370K e FIRM-Gen-293K, e addestriamo modelli di ricompensa specializzati (FIRM-Edit-8B e FIRM-Gen-8B) che riflettono accuratamente questi criteri. In secondo luogo, introduciamo FIRM-Bench, un benchmark completo specificamente progettato per i critici di editing e generazione. Le valutazioni dimostrano che i nostri modelli raggiungono un allineamento superiore con il giudizio umano rispetto alle metriche esistenti. Inoltre, per integrare seamlessmente questi critici nella pipeline RL, formuliamo una nuova strategia di ricompensa "Base-and-Bonus" che bilancia obiettivi in competizione: Esecuzione Modulata dalla Coerenza (CME) per l'editing e Allineamento Modulato dalla Qualità (QMA) per la generazione. Potenziato da questo framework, i nostri modelli risultanti FIRM-Qwen-Edit e FIRM-SD3.5 raggiungono sostanziali miglioramenti prestazionali. Esperimenti completi dimostrano che FIRM mitiga le allucinazioni, stabilendo un nuovo standard per la fedeltà e l'aderenza alle istruzioni rispetto ai modelli generali esistenti. Tutti i nostri dataset, modelli e codice sono pubblicamente disponibili all'indirizzo https://firm-reward.github.io.
I transformer di diffusione (DiT) raggiungono un'elevata qualità generativa ma vincolano i FLOP alla risoluzione dell'immagine, limitando i compromessi principled tra latenza e qualità, e allocano il calcolo uniformemente tra i token spaziali di input, sprecando risorse in regioni non importanti. Introduciamo Elastic Latent Interface Transformer (ELIT), un meccanismo compatibile e sostitutivo per DiT che disaccoppia la dimensione dell'immagine di input dal calcolo. Il nostro approccio inserisce un'interfaccia latente, una sequenza di token di lunghezza variabile e apprendibile sulla quale possono operare i normali blocchi transformer. Strati di cross-attention leggeri di Lettura e Scrittura spostano le informazioni tra i token spaziali e i latenti e danno priorità alle regioni di input importanti. Addestrando con l'eliminazione casuale dei latenti finali, ELIT impara a produrre rappresentazioni ordinate per importanza, dove i latenti iniziali catturano la struttura globale mentre quelli successivi contengono informazioni per rifinire i dettagli. In fase di inferenza, il numero di latenti può essere regolato dinamicamente per adattarsi ai vincoli computazionali. ELIT è volutamente minimale, aggiungendo solo due strati di cross-attention lasciando invariati l'obiettivo del flusso rettificato e lo stack DiT. Su diversi dataset e architetture (DiT, U-ViT, HDiT, MM-DiT), ELIT fornisce miglioramenti consistenti. Su ImageNet-1K 512px, ELIT fornisce un miglioramento medio del 35,3% e del 39,6% rispettivamente nei punteggi FID e FDD. Pagina del progetto: https://snap-research.github.io/elit/
La descrizione densa di immagini è fondamentale per l'allineamento cross-modale nel pre-addestramento visione-linguaggio e nella generazione di immagini da testo, ma la scalabilità di annotazioni di qualità esperta è proibitivamente costosa. Sebbene la descrizione sintetica tramite modelli visione-linguaggio (VLM) potenti rappresenti un'alternativa pratica, la distillazione supervisionata spesso produce una diversità di output limitata e una generalizzazione debole. L'apprendimento per rinforzo (RL) potrebbe superare questi limiti, ma i suoi successi finora si sono concentrati in domini verificabili che si basano su controllori deterministici – un lusso non disponibile nella descrizione open-ended. Affrontiamo questo collo di bottiglia con RubiCap, un innovativo framework RL che deriva segnali di ricompensa granulari e specifici per campione da rubriche scritte da LLM. RubiCap prima assembla un comitato diversificato di descrizioni candidate, poi impiega un generatore di rubriche basato su LLM per estrarre punti di forza condivisi e diagnosticare carenze nella politica corrente. Queste intuizioni vengono convertite in criteri di valutazione espliciti, consentendo a un giudice LLM di scomporre la valutazione qualitativa olistica e sostituire le ricompense scalari grossolane con valutazioni strutturate e multifaccettate. In estesi benchmark, RubiCap raggiunge i tassi di vittoria più alti su CapArena, superando la distillazione supervisionata, i metodi RL precedenti, le annotazioni di esperti umani e gli output potenziati da GPT-4V. Su CaptionQA, dimostra un'efficienza lessicale superiore: il nostro modello da 7B eguaglia Qwen2.5-VL-32B-Instruct, e il nostro modello da 3B supera la sua controparte da 7B. Notevolmente, l'uso del compatto RubiCap-3B come descrittore produce VLM pre-addestrati più robusti di quelli addestrati su descrizioni provenienti da modelli proprietari.
I modelli multimodali unificati mirano alla comprensione, al ragionamento e alla generazione congiunti, ma gli attuali benchmark per l'editing di immagini sono per lo più confinati a immagini naturali e a un ragionamento di senso comune superficiale, offrendo una valutazione limitata di questa capacità sotto vincoli strutturati e specifici di dominio. In questo lavoro, introduciamo GRADE, il primo benchmark progettato per valutare la conoscenza e il ragionamento informati dalla disciplina nell'editing di immagini. GRADE comprende 520 campioni accuratamente curati, distribuiti in 10 domini accademici che spaziano dalle scienze naturali alle scienze sociali. Per supportare una valutazione rigorosa, proponiamo un protocollo di valutazione multidimensionale che valuta congiuntamente il Ragionamento Disciplinare, la Coerenza Visiva e la Leggibilità Logica. Esperimenti estesi su 20 modelli all'avanguardia, open-source e closed-source, rivelano limitazioni sostanziali nei modelli attuali in contesti di editing impliciti e ad alta intensità di conoscenza, che portano a grandi divari prestazionali. Oltre ai punteggi quantitativi, conduciamo analisi e ablazioni rigorose per evidenziare le carenze dei modelli e identificare i vincoli all'interno dell'editing disciplinare. Nel complesso, GRADE individua le direzioni chiave per lo sviluppo futuro dei modelli multimodali unificati, avanzando la ricerca sull'editing di immagini e sul ragionamento informati dalla disciplina. Il nostro benchmark e il codice di valutazione sono rilasciati pubblicamente.
Un componente chiave della creatività è il ragionamento associativo: la capacità di stabilire connessioni nuove ma significative tra concetti. Introduciamo CREATE, un benchmark progettato per valutare la capacità dei modelli di ragionamento associativo creativo. CREATE richiede ai modelli di generare insiemi di percorsi che colleghino concetti all'interno della conoscenza parametrica del modello. I percorsi dovrebbero avere un'elevata specificità (distintività e prossimità della connessione concettuale) e un'elevata diversità (dissomiglianza rispetto ad altri percorsi), e i modelli ottengono punteggi più alti se producono un insieme più ampio di percorsi solidi e diversificati. Questo compito condivide le esigenze di compiti creativi reali come la generazione di ipotesi, inclusa una spazio di ricerca estremamente ampio, ma consente la raccolta di un benchmark di dimensioni considerevoli con una valutazione oggettiva delle risposte. La valutazione dei modelli più all'avanguardia mostra che i modelli più potenti raggiungono un'utilità creativa superiore rispetto ad altri, con l'elevata molteplicità delle risposte e la complessità della ricerca che rendono difficile la saturazione del benchmark. Inoltre, i nostri risultati illustrano che i modelli di pensiero non sono sempre più efficaci nel nostro compito, anche con budget di token elevati. Gli approcci recenti per il prompting creativo forniscono un miglioramento aggiuntivo, ma limitato. CREATE fornisce un ambiente controllato per sviluppare nuovi metodi per migliorare la capacità di creatività associativa dei modelli.
I modelli generativi video autoregressivi (AR) si basano su tokenizzatori video che comprimono i pixel in sequenze discrete di token. La lunghezza di queste sequenze di token è cruciale per bilanciare la qualità della ricostruzione con il costo computazionale della generazione a valle. I tokenizzatori video tradizionali applicano un'assegnazione uniforme di token attraverso blocchi temporali di video diversi, spesso sprecando token su segmenti semplici, statici o ripetitivi mentre ne assegnano troppo pochi a quelli dinamici o complessi. Per affrontare questa inefficienza, introduciamo EVATok, un framework per produrre Tokenizzatori Video Adattativi Efficienti. Il nostro framework stima le assegnazioni ottimali di token per ogni video per ottenere il miglior compromesso qualità-costo, sviluppa router leggeri per la previsione rapida di queste assegnazioni ottimali e addestra tokenizzatori adattativi che codificano i video in base alle assegnazioni previste dai router. Dimostriamo che EVATok apporta sostanziali miglioramenti in efficienza e qualità complessiva per la ricostruzione video e la generazione AR a valle. Potenziato dalla nostra ricetta di addestramento avanzata che integra encoder semantici video, EVATok raggiunge una ricostruzione superiore e una generazione state-of-the-art da classe a video su UCF-101, con un risparmio di almeno il 24,4% nell'uso medio di token rispetto al precedente state-of-the-art LARP e alla nostra baseline a lunghezza fissa.
L'addestramento preliminare produce un vettore di parametri appreso che viene tipicamente trattato come punto di partenza per un ulteriore adattamento iterativo. In questo lavoro, consideriamo invece il risultato del pretraining come una distribuzione su vettori di parametri, il cui supporto contiene già esperti specifici per il compito. Dimostriamo che in modelli di piccole dimensioni tali soluzioni esperte occupano una frazione trascurabile del volume di questa distribuzione, rendendo la loro scoperta dipendente da metodi di ottimizzazione strutturati come la discesa del gradiente. Al contrario, in modelli grandi e ben addestrati in modo preliminare, la densità di esperti per il compito aumenta drasticamente, cosicché specialisti diversi e migliorativi per il compito popolano una frazione sostanziale dell'intorno dei pesi pretrainati. Motivati da questa prospettiva, esploriamo un semplice metodo di post-training completamente parallelo che campiona N perturbazioni dei parametri in modo casuale, seleziona le prime K, e combina le previsioni tramite voto a maggioranza. Nonostante la sua semplicità, questo approccio è competitivo con i metodi standard di post-training come PPO, GRPO ed ES per i modelli su larga scala contemporanei.
Gli agenti visivi moderni richiedono rappresentazioni generali, causali e strutturate fisicamente per operare in ambienti di streaming in tempo reale. Tuttavia, gli attuali modelli di base per la visione rimangono frammentati, specializzandosi in modo ristretto nella percezione semantica delle immagini, nella modellazione temporale offline o nella geometria spaziale. Questo articolo introduce OmniStream, un backbone visivo unificato per lo streaming che percepisce, ricostruisce e agisce efficacemente da input visivi diversificati. Incorporando l'attenzione spaziotemporale causale e gli embeddings posizionali rotazionali 3D (3D-RoPE), il nostro modello supporta un'elaborazione online efficiente, fotogramma per fotogramma, di flussi video tramite un KV-cache persistente. Addestriamo OmniStream in pre-training utilizzando un framework multi-task sinergico che accoppia l'apprendimento di rappresentazioni statiche e temporali, la ricostruzione geometrica in streaming e l'allineamento visione-linguaggio su 29 dataset. Valutazioni estensive dimostrano che, anche con un backbone rigorosamente congelato, OmniStream raggiunge prestazioni costantemente competitive con esperti specializzati in ambiti come il probing su immagini e video, la ricostruzione geometrica in streaming, il ragionamento complesso su video e spazio, nonché la manipolazione robotica (non vista durante l'addestramento). Piuttosto che perseguire una supremazia specifica per benchmark, il nostro lavoro dimostra la fattibilità di addestrare un unico backbone visivo versatile che generalizza attraverso il ragionamento semantico, spaziale e temporale, rappresentando quindi un passo più significativo verso una comprensione visiva di scopi generali per agenti interattivi ed embodied.
I modelli linguistici di grandi dimensioni addestrati su linguaggio naturale presentano una marcata anisotropia: un numero ridotto di direzioni concentra un'energia sproporzionata, mentre le dimensioni rimanenti formano una coda semantica ampia. In regimi di addestramento a bassa precisione (low-bit), questa geometria diventa numericamente instabile. Poiché le scale di quantizzazione blocco per blocco sono determinate da magnitudini elementari estreme, le direzioni dominanti dilatano la gamma dinamica, comprimendo la variazione semantica a coda lunga in stretti intervalli numerici (bin). Dimostriamo che questa instabilità è principalmente guidata da un bias di media coerente di rango uno, che costituisce la componente dominante dell'anisotropia spettrale nelle rappresentazioni dei LLM. Questa componente media emerge sistematicamente attraverso i livelli e le fasi di addestramento e rappresenta la maggior parte delle magnitudini di attivazione estreme, rendendola il principale motore dell'inflazione della gamma dinamica in condizioni di bassa precisione. Fondamentalmente, poiché l'instabilità dominante è di rango uno, essa può essere eliminata tramite una semplice operazione di sottrazione della media a livello di sorgente. Questo condizionamento incentrato sul bias recupera la maggior parte dei vantaggi in termini di stabilità dei metodi spettrali basati su SVD, richiedendo solo operazioni di riduzione e kernel di quantizzazione standard. Risultati empirici sull'addestramento in FP4 (W4A4G4) mostrano che la rimozione della media riduce sostanzialmente il divario di loss rispetto al BF16 e ripristina le prestazioni downstream, fornendo un percorso hardware-efficiente per un addestramento stabile di LLM a bassa precisione.
Recentemente, i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) sono stati ampiamente integrati nei framework di diffusione principalmente come encoder di testo per affrontare compiti complessi come il ragionamento spaziale. Tuttavia, questo paradigma presenta due limitazioni critiche: (i) l'encoder testuale degli MLLM mostra una profondità di ragionamento insufficiente. La codifica a passo singolo non riesce ad attivare il processo Catena di Pensiero (Chain-of-Thought), essenziale affinché gli MLLM forniscano una guida accurata per compiti complessi. (ii) La guida rimane invariata durante il processo di decodifica. Una guida invariante durante la decodifica impedisce al DiT di scomporre progressivamente istruzioni complesse in passi di denoising azionabili, anche con codifiche MLLM corrette. A tal fine, proponiamo Endogenous Chain-of-Thought (EndoCoT), un framework innovativo che, in primo luogo, attiva il potenziale di ragionamento degli MLLM raffinando iterativamente gli stati di pensiero latente attraverso un modulo di guida del pensiero iterativo, e poi collega questi stati al processo di denoising del DiT. In secondo luogo, viene applicato un modulo di ancoraggio del pensiero terminale per garantire che la traiettoria di ragionamento rimanga ancorata alla supervisione testuale, allineando lo stato finale con le risposte corrette (ground-truth). Con questi due componenti, l'encoder testuale MLLM fornisce una guida meticolosamente ragionata, consentendo al DiT di eseguirla progressivamente e risolvere infine compiti complessi in modo graduale. Valutazioni estensive su diversi benchmark (ad es. Maze, TSP, VSP e Sudoku) hanno raggiunto un'accuratezza media del 92,1%, superando il baseline più forte di 8,3 punti percentuali.
Il Gaussian Splatting 3D (3DGS) è emerso come una potente rappresentazione per il rendering di alta qualità in un'ampia gamma di applicazioni. Tuttavia, le sue elevate esigenze computazionali e gli ingenti costi di memorizzazione pongono sfide significative per la distribuzione su dispositivi mobili. In questo lavoro, proponiamo un metodo di Gaussian Splatting in tempo reale ottimizzato per il mobile, denominato Mobile-GS, che consente un'inferenza efficiente del Gaussian Splatting su dispositivi edge. Nello specifico, identifichiamo innanzitutto l'alpha blending come il principale collo di bottiglia computazionale, poiché si basa sul processo di ordinamento per profondità dei Gaussian, che richiede tempo. Per risolvere questo problema, proponiamo uno schema di rendering indipendente dall'ordine e consapevole della profondità che elimina la necessità di ordinamento, accelerando sostanzialmente il rendering. Sebbene questo rendering indipendente dall'ordine migliori la velocità, può introdurre artefatti di trasparenza nelle regioni con geometria sovrapposta a causa della scarsità dell'ordine di rendering. Per affrontare questo problema, proponiamo una strategia di enhancement neurale dipendente dalla vista, che consente una modellazione più accurata degli effetti vista-dipendenti condizionata dalla direzione di visualizzazione, dalla geometria dei Gaussian 3D e dagli attributi di aspetto. In questo modo, Mobile-GS può raggiungere sia un rendering di alta qualità che in tempo reale. Inoltre, per facilitare la distribuzione su piattaforme mobili con memoria limitata, introduciamo anche una distillazione sferica di armoniche del primo ordine, una tecnica di quantizzazione vettoriale neurale e una strategia di pruning basata sul contributo per ridurre il numero di primitive Gaussian e comprimere la rappresentazione 3D dei Gaussian con l'assistenza di reti neurali. Esperimenti estensivi dimostrano che il nostro Mobile-GS proposto raggiunge un rendering in tempo reale e dimensioni del modello compatte, preservando al contempo un'elevata qualità visiva, rendendolo adatto per applicazioni mobili.
Nella diffusione reale, i modelli visione-linguaggio incontrano spesso disturbi come condizioni meteorologiche, occlusioni e movimento della telecamera. In tali condizioni, la loro capacità di comprensione e ragionamento si degrada sostanzialmente, rivelando un divario tra ambienti di valutazione puliti e controllati (cioè non perturbati) e la robustezza nel mondo reale. Per affrontare questa limitazione, proponiamo ROVA, un nuovo framework di addestramento che migliora la robustezza modellando una ricompensa di consistenza consapevole della robustezza sotto corruzioni spazio-temporali. ROVA introduce una strategia di addestramento online consapevole della difficoltà che priorizza i campioni informativi basandosi sulla capacità evolutiva del modello. Nello specifico, rivaluta continuamente la difficoltà del campione tramite valutazione auto-riflessiva, permettendo un addestramento adattivo con una ricompensa di consistenza robustness-aware. Introduciamo inoltre PVRBench, un nuovo benchmark che inietta perturbazioni del mondo reale in dataset video embodied per valutare sia l'accuratezza che la qualità del ragionamento sotto disturbi realistici. Valutiamo ROVA e i modelli di riferimento su PVRBench, UrbanVideo e VisBench, dove modelli open-source e proprietari subiscono cali fino al 35% nell'accuratezza e al 28% nel ragionamento sotto perturbazioni realistiche. ROVA mitiga efficacemente il degrado delle prestazioni, aumentando l'accuratezza relativa di almeno il 24% e il ragionamento di oltre il 9% rispetto ai modelli baseline (QWen2.5/3-VL, InternVL2.5, Embodied-R). Questi vantaggi si trasferiscono ai benchmark standard puliti, producendo miglioramenti consistenti.
Sebbene i Large Language Model (LLM) abbiano ottenuto un notevole successo nella generazione di codice, spesso incontrano difficoltà con il ragionamento profondo e a lungo termine richiesto per l'ingegneria del software complessa. Attribuiamo questa limitazione alla natura dei dati standard di pre-addestramento: i repository software statici rappresentano solo lo stato terminale di un intricato processo intellettuale, astraendo via la pianificazione intermedia, il debugging e l'affinamento iterativo. Per colmare questa lacuna, proponiamo un nuovo paradigma: la comprensione tramite ricostruzione. Ipotesizziamo che la reverse engineering delle traiettorie agenti latenti – i passi di pianificazione, ragionamento e debugging – alla base dei repository statici fornisca un segnale di supervisione di gran lunga più ricco rispetto al solo codice grezzo. Per implementare ciò, introduciamo un framework che sintetizza queste traiettorie utilizzando una simulazione multi-agente. Questo processo è ancorato alle realtà strutturali dei repository sorgente (ad esempio, grafi delle dipendenze e gerarchie di file) per garantire la fedeltà. Inoltre, per assicurare il rigore logico dei dati sintetici, impieghiamo una tecnica di ottimizzazione basata sulla ricerca che affina iterativamente il ragionamento a Catena di Pensiero (CoT) per massimizzare la verosimiglianza del codice ground-truth. I risultati empirici dimostrano che un pre-addestramento continuo su queste traiettorie ricostruite migliora significativamente le prestazioni di Llama-3-8B su vari benchmark, inclusi la comprensione di contesti lunghi, la competenza nella programmazione e le capacità agentive.
Questo articolo introduce MR-Search, una formulazione di meta reinforcement learning (RL) contestuale per la ricerca agenziale con auto-riflessione. Invece di ottimizzare una politica all'interno di un singolo episodio indipendente con ricompense sparse, MR-Search addestra una politica che si condiziona sugli episodi passati e adatta la sua strategia di ricerca attraverso gli episodi. MR-Search impara ad apprendere una strategia di ricerca con auto-riflessione, consentendo agli agenti di ricerca di migliorare l'esplorazione contestuale durante il test. Nello specifico, MR-Search esegue un'esplorazione trans-episodica generando esplicite auto-riflessioni dopo ogni episodio e sfruttandole come contesto aggiuntivo per guidare i tentativi successivi, promuovendo così un'esplorazione più efficace durante il test. Introduciamo inoltre un algoritmo RL multi-turno che stima un vantaggio relativo denso a livello di turno, consentendo un'assegnazione del credito granulare su ogni episodio. I risultati empirici su vari benchmark dimostrano i vantaggi di MR-Search rispetto ai metodi RL basali, mostrando una forte generalizzazione e miglioramenti relativi dal 9,2% al 19,3% su otto benchmark. Il nostro codice e i nostri dati sono disponibili all'indirizzo https://github.com/tengxiao1/MR-Search.
Il pre-addestramento è cruciale per i grandi modelli linguistici (LLM), poiché è in questa fase che vengono acquisite la maggior parte delle rappresentazioni e delle capacità. Tuttavia, il pre-addestramento sul linguaggio naturale presenta dei problemi: il testo di alta qualità è finito, contiene bias umani e intreccia la conoscenza al ragionamento. Ciò solleva una questione fondamentale: il linguaggio naturale è l'unico percorso verso l'intelligenza? Proponiamo di utilizzare automi cellulari neurali (NCA) per generare dati sintetici e non linguistici per il pre-pre-addestramento degli LLM – un addestramento sequenziale su linguaggio sintetico e poi naturale. I dati NCA presentano una ricca struttura spazio-temporale e statistiche simili al linguaggio naturale, pur essendo controllabili ed economici da generare su larga scala. Abbiamo riscontrato che il pre-pre-addestramento su soli 164 milioni di token NCA migliora la modellazione linguistica a valle fino al 6% e accelera la convergenza fino a 1,6 volte. Sorprendentemente, questo supera persino il pre-pre-addestramento su 1,6 miliardi di token di linguaggio naturale da Common Crawl, nonostante un maggiore impiego computazionale. Questi vantaggi si trasferiscono anche a benchmark di ragionamento, tra cui GSM8K, HumanEval e BigBench-Lite. Indagando su cosa guidi il transfer, abbiamo scoperto che i livelli di attenzione sono i più trasferibili e che la complessità ottimale degli NCA varia a seconda del dominio: il codice beneficia di dinamiche più semplici, mentre la matematica e il testo web favoriscono dinamiche più complesse. Questi risultati consentono una regolazione sistematica della distribuzione sintetica per domini target. Più in generale, il nostro lavoro apre la strada verso modelli più efficienti con un pre-addestramento completamente sintetico.
Tiny Aya ridefinisce le potenzialità di un piccolo modello linguistico multilingue. Addestrato su 70 lingue e perfezionato mediante un post-addestramento sensibile alle regioni, offre prestazioni all'avanguardia nella qualità della traduzione, una solida comprensione multilingue e una generazione di alta qualità nella lingua di destinazione, il tutto con appena 3,35 miliardi di parametri. Il rilascio include un modello base pre-addestrato, una variante bilanciata a livello globale ottimizzata per seguire istruzioni e tre modelli specializzati per regioni che si concentrano sulle lingue di Africa, Asia meridionale, Europa, Asia-Pacifico e Asia occidentale. Questo rapporto descrive nel dettaglio la strategia di addestramento, la composizione dei dati e il quadro di valutazione completo alla base di Tiny Aya, e presenta un percorso di scalabilità alternativo per l'IA multilingue: un approccio incentrato sull'efficienza, su prestazioni bilanciate tra le lingue e sulla praticità di implementazione.
La traduzione di ambienti complessi di apprendimento per rinforzo (RL) in implementazioni ad alte prestazioni ha tradizionalmente richiesto mesi di ingegneria specializzata. Presentiamo una procedura riutilizzabile - un prompt template generico, verifica gerarchica e riparazione iterativa assistita da agenti - che produce ambienti semanticamente equivalenti e ad alte prestazioni con un costo computazionale inferiore a $10. Dimostriamo tre flussi di lavoro distinti su cinque ambienti. Traduzione diretta (nessuna implementazione performante preesistente): EmuRust (accelerazione PPO di 1,5x grazie al parallelismo in Rust per un emulatore Game Boy) e PokeJAX, il primo simulatore di battaglie Pokemon parallelo su GPU (500M SPS azione casuale, 15,2M SPS PPO; 22.320x rispetto al riferimento TypeScript). Traduzione verificata rispetto a implementazioni performanti esistenti: parità di throughput con MJX (1,04x) e 5x superiore a Brax con dimensioni di batch GPU equivalenti (HalfCheetah JAX); PPO 42x (Puffer Pong). Creazione di nuovi ambienti: TCGJax, il primo motore JAX distribuibile per il Pokemon TCG (717K SPS azione casuale, 153K SPS PPO; 6,6x rispetto al riferimento Python), sintetizzato da una specifica estratta dal web. Con 200 milioni di parametri, l'overhead dell'ambiente scende al di sotto del 4% del tempo di addestramento. La verifica gerarchica (test di proprietà, interazione e rollout) conferma l'equivalenza semantica per tutti e cinque gli ambienti; il trasferimento di politiche tra backend conferma un divario sim-to-sim nullo per tutti e cinque gli ambienti. TCGJax, sintetizzato da un riferimento privato assente dai repository pubblici, funge da controllo di contaminazione per le preoccupazioni relative ai dati di pre-addestramento degli agenti. Il documento contiene dettagli sufficienti - inclusi prompt rappresentativi, metodologia di verifica e risultati completi - affinché un agente di codifica possa riprodurre le traduzioni direttamente dal manoscritto.
Presentiamo FireRedASR2S, un sistema automatico di riconoscimento vocale (ASR) all-in-one di livello industriale e allo stato dell'arte. Il sistema integra quattro moduli in una pipeline unificata: ASR, rilevamento dell'attività vocale (VAD), identificazione della lingua parlata (LID) e predizione della punteggiatura (Punc). Tutti i moduli raggiungono prestazioni SOTA sui benchmark valutati: FireRedASR2: un modulo ASR con due varianti, FireRedASR2-LLM (8B+ parametri) e FireRedASR2-AED (1B+ parametri), che supporta la trascrizione di parlato e canto per mandarino, dialetti e accenti cinesi, inglese e code-switching. Rispetto a FireRedASR, FireRedASR2 offre una precisione di riconoscimento migliorata e una copertura più ampia di dialetti e accenti. FireRedASR2-LLM raggiunge un CER medio del 2,89% su 4 benchmark pubblici di mandarino e dell'11,55% su 19 benchmark pubblici di dialetti e accenti cinesi, superando baseline competitive come Doubao-ASR, Qwen3-ASR e Fun-ASR. FireRedVAD: un modulo ultraleggero (0,6M parametri) basato sulla Deep Feedforward Sequential Memory Network (DFSMN), che supporta VAD in streaming, VAD non in streaming e VAD multi-label (mVAD). Sul benchmark FLEURS-VAD-102, raggiunge un F1 a livello di frame del 97,57% e un AUC-ROC del 99,60%, superando Silero-VAD, TEN-VAD, FunASR-VAD e WebRTC-VAD. FireRedLID: un modulo LID Encoder-Decoder che supporta 100+ lingue e 20+ dialetti e accenti cinesi. Su FLEURS (82 lingue), raggiunge un'accuratezza a livello di utterance del 97,18%, superando Whisper e SpeechBrain. FireRedPunc: un modulo per la predizione della punteggiatura in stile BERT per cinese e inglese. Su benchmark multi-dominio, raggiunge una F1 media del 78,90%, superando FunASR-Punc (62,77%). Per promuovere la ricerca nell'elaborazione del parlato, rilasciamo i pesi del modello e il codice su https://github.com/FireRedTeam/FireRedASR2S.
I modelli di diffusione latente hanno stabilito un nuovo stato dell'arte nella generazione visiva ad alta risoluzione. L'integrazione di prior provenienti da Vision Foundation Model migliora l'efficienza generativa, eppure le progettazioni latenti esistenti rimangono in gran parte euristiche. Questi approcci spesso faticano a unificare la discriminabilità semantica, la fedeltà di ricostruzione e la compattezza latente. In questo articolo, proponiamo Geometric Autoencoder (GAE), un framework principiato che affronta sistematicamente queste sfide. Analizzando vari paradigmi di allineamento, GAE costruisce un target di supervisione semantica ottimizzato a bassa dimensionalità a partire da VFM per fornire una guida all'autoencoder. Inoltre, sfruttiamo una normalizzazione latente che sostituisce la restrittiva divergenza KL dei VAE standard, abilitando un manifold latente più stabile specificamente ottimizzato per l'apprendimento per diffusione. Per garantire una ricostruzione robusta sotto rumore ad alta intensità, GAE incorpora un meccanismo dinamico di campionamento del rumore. Empiricamente, GAE raggiunge prestazioni convincenti sul benchmark ImageNet-1K 256x256, ottenendo un gFID di 1.82 a sole 80 epoche e 1.31 a 800 epoche senza Classifier-Free Guidance, superando significativamente i metodi allo stato dell'arte esistenti. Oltre alla qualità generativa, GAE stabilisce un equilibrio superiore tra compressione, profondità semantica e stabilità di ricostruzione robusta. Questi risultati convalidano le nostre considerazioni progettuali, offrendo un paradigma promettente per la modellazione di diffusione latente. Codice e modelli sono pubblicamente disponibili su https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
L'accento è una parte integrante della società, che riflette il multiculturalismo e plasma il modo in cui gli individui esprimono l'identità. La maggior parte dei parlanti inglesi sono non nativi (L2), eppure gli attuali sistemi di sintesi vocale (TTS) modellano principalmente l'inglese con accento americano a causa della limitata disponibilità di dati accentati. Proponiamo Accent Vector, una rappresentazione controllabile che consente la manipolazione dell'accento nei sistemi TTS multilingue senza richiedere dati di training accentati. Accent Vector è derivato mettendo a punto un sistema TTS su parlato nativo di una lingua diversa (ad esempio non inglese) e calcolando vettori di attività che catturano le caratteristiche accentuali (ad esempio in inglese). Scalando e interpolando il vettore, otteniamo un controllo granulare sulla forza dell'accento e generiamo un parlato con accento misto. Inoltre, il metodo generalizza oltre l'inglese, consentendo il controllo dell'accento su più lingue. Valutazioni oggettive e umane confermano l'efficacia di Accent Vector per un controllo accentuale granulare e composizionale.
I lavori recenti sintetizzano task agentici per LLM post-addestrati all'uso di strumenti, ma una generalizzazione robusta in caso di variazioni nei task e nei set di strumenti rimane una sfida aperta. Riconduciamo questa fragilità a un'insufficiente diversità nei task sintetizzati. Scalare la diversità è difficile perché l'addestramento richiede che i task rimangano eseguibili e verificabili, mentre la generalizzazione richiede la copertura di tipi di strumenti diversi, combinazioni di set di strumenti e pattern eterogenei di utilizzo degli strumenti. Proponiamo DIVE, una metodologia evidence-driven che inverte l'ordine di sintesi: esegue prima strumenti reali e diversificati e deriva inversamente i task strettamente implicati dalle tracce risultanti, fornendo così un grounding per costruzione. DIVE scala la diversità strutturale lungo due assi controllabili, la copertura del pool di strumenti e la varietà del set di strumenti per task, e un ciclo Raccolta di Evidenze-Derivazione dei Task induce ulteriormente ricchi pattern di utilizzo multi-step degli strumenti su 373 strumenti in cinque domini. L'addestramento di Qwen3-8B sui dati DIVE (48k SFT + 3.2k RL) migliora di +22 punti in media su 9 benchmark OOD e supera il baseline più forte per modelli da 8B di +68 punti. Notevolmente, un'analisi controllata di scaling rivela che lo scaling della diversità supera costantemente lo scaling della quantità per la generalizzazione OOD, anche con 4 volte meno dati.
La generazione visiva guidata da riferimenti approssimativi, che sintetizza campioni visivi dettagliati a partire da riferimenti degradati o a bassa fedeltà, è essenziale per varie applicazioni nel mondo reale. Sebbene gli approcci basati sull'addestramento siano efficaci, sono intrinsecamente limitati dagli elevati costi di training e dalla generalizzazione ridotta a causa della raccolta di dati accoppiati. Di conseguenza, recenti lavori senza addestramento propongono di sfruttare modelli di diffusione preaddestrati e incorporare la guida durante il processo di campionamento. Tuttavia, questi metodi senza training richiedono la conoscenza dell'operatore di trasformazione diretta (da dettagliato ad approssimativo), ad esempio il downsampling bicubico, oppure risultano difficili da bilanciare tra guida e qualità sintetica. Per affrontare queste sfide, proponiamo un nuovo metodo guidato utilizzando l'h-transform, uno strumento in grado di vincolare processi stocastici (ad esempio, il processo di campionamento) sotto condizioni desiderate. Nello specifico, modifichiamo la probabilità di transizione ad ogni step di campionamento aggiungendo all'equazione differenziale originale una funzione di deriva, che orienta approssimativamente la generazione verso il campione dettagliato ideale. Per gestire gli inevitabili errori di approssimazione, introduciamo una schedulazione consapevole del livello di rumore che riduce gradualmente il peso del termine man mano che l'errore aumenta, garantendo sia l'aderenza alla guida che una sintesi di alta qualità. Esperimenti estesi su diverse attività di generazione di immagini e video dimostrano l'efficacia e la generalizzazione del nostro metodo.
I modelli linguistici di ragionamento come giudici (Reasoning LLMs-as-Judges), che possono trarre vantaggio dallo scaling al momento dell'inferenza, offrono una strada promettente per estendere il successo dei modelli di ragionamento a domini non verificabili, dove la correttezza/qualità dell'output non può essere controllata direttamente. Tuttavia, sebbene i giudici basati sul ragionamento abbiano mostrato prestazioni migliori su benchmark di valutazione statica, la loro efficacia nell'addestramento effettivo delle politiche (policy training) non è stata esaminata in modo sistematico. Pertanto, conduciamo uno studio rigoroso per investigare l'impatto reale dei giudici non basati sul ragionamento e di quelli basati sul ragionamento nell'allineamento dei LLM basato sul reinforcement learning. Il nostro setting sintetico controllato, in cui un giudice "gold-standard" (gpt-oss-120b) fornisce annotazioni di preferenza per addestrare giudici più piccoli, rivela differenze chiave tra i due tipi: i giudici non basati sul ragionamento portano facilmente a reward hacking, mentre i giudici basati sul ragionamento possono portare a politiche che raggiungono prestazioni elevate quando valutate dal giudice gold-standard. Interessante notare che scopriamo che le politiche addestrate con giudici di ragionamento raggiungono tali prestazioni forti imparando a generare output adversarial altamente efficaci, che possono anche ottenere buoni punteggi su benchmark popolari come Arena-Hard ingannando altri LLM-giudice. In combinazione con le nostre ulteriori analisi, il nostro studio evidenzia sia risultati importanti che margini di miglioramento per l'applicazione dei LLM-giudice (di ragionamento) nel post-training di LLM in domini non verificabili.
La distillazione standard di LLM spreca risorse computazionali su due fronti: problemi che lo studente ha già padroneggiato (gradienti prossimi allo zero) e problemi ben oltre la sua portata (gradienti incoerenti che erodono le capacità esistenti). Dimostriamo che questo spreco non è solo intuitivo, ma strutturalmente inevitabile: il rapporto segnale-rumore del gradiente nella distillazione si annulla in modo provabile ad entrambi gli estremi del tasso di successo. Questa osservazione teorica porta a Paced, un framework che concentra la distillazione sulla zona di sviluppo prossimale – la frontiera della competenza di un modello studente – attraverso un peso w(p) = p^α(1 - p)^β, derivato dalla struttura di annullamento al bordo dei gradienti di distillazione. Risultati chiave: (1) Teoria: Dimostriamo che il kernel Beta w(p) = p^α(1-p)^β è una famiglia di pesi del primo ordine che emerge dalla struttura del SNR della distillazione, e che è minimax-robusto – sotto una errata specificazione moltiplicativa limitata, la perdita di efficienza nel caso peggiore è solo O(δ^2). (2) Distillazione: Nella distillazione da un insegnante più grande a un modello studente più piccolo con KL forward, Paced ottiene un guadagno significativo rispetto al modello base, mantenendo al contempo un basso livello di oblio sui benchmark. (3) Auto-distillazione: Su modelli addestrati con istruzioni utilizzando KL inverso, i guadagni superano anch'essi i baseline. (4) Sinergia a due stadi: Una schedulazione KL-forward-poi-KL-inverso produce i risultati più solidi nel nostro setting, raggiungendo miglioramenti sostanziali su benchmark di ragionamento standard – supportando un'interpretazione del processo di distillazione come copertura-dei-modi-poi-consolidamento. Tutte le configurazioni richiedono solo rollout dello studente per stimare i tassi di successo, non necessitano di modifiche architetturali e sono compatibili con qualsiasi direzione KL.
I Modelli Linguistici Multimodali di Grande Scala (MLLM) sono stati ampiamente adottati nella veste di "giudici" (MLLM-as-a-Judge) grazie al loro forte allineamento con il giudizio umano in varie attività visive. Tuttavia, la maggior parte dei modelli giudice esistenti è ottimizzata per scenari a compito singolo e fatica a generalizzare verso contesti diversi, un requisito fondamentale per una valutazione affidabile. Per affrontare questa limitazione, proponiamo l'Apprendimento per Rinforzo Multi-Task per MLLM-as-a-Judge (MT-RL-Judge), un framework che ottimizza congiuntamente il modello giudice su più task, sfruttando le capacità di generalizzazione dell'RL. I risultati sperimentali, confrontati con diverse baseline solide, dimostrano che MT-RL-Judge supera le baseline di riferimento sia nella coerenza dei giudizi che nella correlazione con le preferenze umane. Inoltre, il nostro approccio mostra una robusta generalizzazione su task fuori distribuzione, convalidandone ulteriormente l'efficacia.
Il riconoscimento audio-visivo del parlato (AVSR) sfrutta sia le informazioni acustiche che visive per un riconoscimento robusto in condizioni di rumore. Tuttavia, il modo in cui i modelli bilanciano queste modalità rimane poco chiaro. Presentiamo Dr. SHAP-AV, un framework che utilizza i valori di Shapley per analizzare i contributi delle modalità nell'AVSR. Attraverso esperimenti su sei modelli, due benchmark e diversi livelli di SNR, introduciamo tre analisi: SHAP Globale per il bilanciamento complessivo delle modalità, SHAP Generativo per la dinamica dei contributi durante la decodifica e SHAP allineamento temporale per la corrispondenza input-output. I nostri risultati rivelano che i modelli tendono a una maggiore dipendenza dal visivo in condizioni di rumore, ma mantengono contributi audio elevati anche sotto grave degrado. Il bilanciamento delle modalità evolve durante la generazione, l'allineamento temporale si mantiene sotto rumore e l'SNR è il fattore dominante che guida la ponderazione delle modalità. Questi risultati evidenziano un persistente bias verso l'audio, motivando meccanismi di ponderazione delle modalità ad-hoc e l'attribuzione basata su Shapley come strumento diagnostico standard per l'AVSR.
I modelli di diffusione testo-audio producono audio ad alta fedeltà ma richiedono decine di valutazioni di funzione (NFE), comportando una latenza di diversi secondi e una produttività limitata. Presentiamo SoundWeaver, il primo sistema di servizio model-agnostic e senza necessità di addestramento che accelera la diffusione testo-audio avviandosi in modo ottimizzato partendo da audio semanticamente simile presente nella cache. SoundWeaver introduce tre componenti: un Selettore di Riferimento che recupera e allinea temporalmente i candidati in cache tramite un meccanismo di gate semantico e consapevole della durata; un Cancello di Salto che determina dinamicamente la percentuale di NFE da saltare; e un Gestore di Cache leggero che mantiene l'utilità della cache attraverso meccanismi di rimozione e raffinamento basati sulla qualità. Su tracce audio del mondo reale, SoundWeaver ottiene una riduzione della latenza di 1,8–3,0 volte con una cache di sole ~1.000 voci, preservando o migliorando al contempo la qualità percettiva.
Il controllo di umanoidi basato sulla fisica ha compiuto progressi notevoli nel consentire comportamenti realistici e ad alte prestazioni per agenti singoli, ma estendere queste capacità alle interazioni cooperative uomo-oggetto (HOI) rimane una sfida. Presentiamo TeamHOI, un framework che consente a una singola politica decentralizzata di gestire HOI cooperative con un numero qualsiasi di agenti cooperanti. Ogni agente opera utilizzando osservazioni locali, prestando attenzione agli altri membri del team attraverso una rete politica basata su Transformer con token dei compagni, permettendo un coordinamento scalabile per dimensioni variabili del team. Per garantire realismo del movimento affrontando la scarsità di dati HOI cooperativi, introduciamo inoltre una strategia mascherata di Priorità Motoria Avversaria (AMP) che utilizza movimenti di riferimento di umani singoli, mascherando le parti del corpo che interagiscono con l'oggetto durante l'addestramento. Le regioni mascherate vengono poi guidate da ricompense di compito per produrre comportamenti cooperativi diversificati e fisicamente plausibili. Valutiamo TeamHOI su un compito impegnativo di trasporto cooperativo che coinvolge da due a otto agenti umanoidi e geometrie oggetto variate. Infine, per promuovere un trasporto stabile, progettiamo una ricompensa di formazione indipendente dalla dimensione del team e dalla forma. TeamHOI raggiunge alti tassi di successo e dimostra una cooperazione coerente in configurazioni diverse con una singola politica.
I trasformatori spesso mostrano un pozzo di attenzione (attention sink): la massa di probabilità si concentra su una posizione fissa e indipendente dal contenuto. Dimostriamo che il calcolo di un semplice comportamento condizionato da un trigger induce necessariamente un pozzo nei modelli di self-attention con softmax. I nostri risultati formalizzano un'intuizione familiare: la normalizzazione su un simplesso di probabilità deve forzare l'attenzione a collassare su un'ancora stabile per realizzare uno stato predefinito (ad esempio, quando il modello deve ignorare l'input). Istanziamo questo concetto con un compito concreto: quando appare un token trigger designato, il modello deve restituire la media di tutte le rappresentazioni dei token precedenti, e in caso contrario deve emettere zero, un compito che rispecchia la funzionalità delle teste di attenzione nel mondo reale (Barbero et al., 2025; Guo et al., 2024). Dimostriamo anche che un'attenzione ReLU non normalizzata può risolvere lo stesso compito senza alcun pozzo, confermando che il vincolo di normalizzazione è il fattore fondamentale alla base del comportamento a pozzo. Gli esperimenti convalidano le nostre previsioni e dimostrano che si estendono oltre l'ambito analizzato teoricamente: i modelli softmax sviluppano pozzi marcati, mentre l'attenzione ReLU li elimina sia nelle varianti a testa singola che a teste multiple.
Il Federated Language Model (FedLM) consente un apprendimento collaborativo senza la condivisione di dati grezzi, ma introduce una vulnerabilità critica, poiché ogni client non affidabile potrebbe divulgare l'istanza del modello funzionale ricevuta. Gli schemi di watermarking attuali per FedLM richiedono spesso l'accesso in white-box e la cooperazione lato client, fornendo una prova di proprietà solo a livello di gruppo piuttosto che una tracciabilità individuale. Proponiamo EmbTracker, un framework di watermarking black-box tracciabile specificamente progettato per i FedLM, che opera lato server. EmbTracker raggiunge la verificabilità in black-box incorporando un watermark basato su backdoor rilevabile tramite semplici query API. La tracciabilità a livello di client è realizzata iniettando watermark unici e specifici per identità nel modello distribuito a ciascun client. In questo modo, un modello trapelato può essere attribuito a un colpevole specifico, garantendo robustezza anche contro partecipanti non cooperativi. Esperimenti estesi su vari modelli linguistici e visione-linguaggio dimostrano che EmbTracker raggiunge una tracciabilità robusta con tassi di verifica prossimi al 100%, alta resilienza agli attacchi di rimozione (fine-tuning, pruning, quantizzazione) e un impatto trascurabile sulle prestazioni del task primario (tipicamente entro l'1-2%).
Proponiamo Neural Field Thermal Tomography (NeFTY), un framework di fisica differenziabile per la ricostruzione quantitativa 3D delle proprietà dei materiali a partire da misurazioni transitorie della temperatura superficiale. Mentre la termografia tradizionale si basa su approssimazioni 1D per pixel che trascurano la diffusione laterale, e le Physics-Informed Neural Networks (PINN) a vincoli soft spesso falliscono in scenari di diffusione transitoria a causa della rigidità del gradiente, NeFTY parametrizza il campo di diffusività 3D come un campo neurale continuo ottimizzato attraverso un solutore numerico rigoroso. Sfruttando un solutore di fisica differenziabile, il nostro approccio applica le leggi della termodinamica come vincoli rigidi, mantenendo al contempo l'efficienza di memoria necessaria per la tomografia 3D ad alta risoluzione. Il nostro paradigma "discretizza-poi-ottimizza" mitiga efficacemente il bias spettrale e l'ill-posedness intrinseci nella conduzione inversa del calore, consentendo l'identificazione di difetti sottosuperficiali a scale arbitrarie. La validazione sperimentale su dati sintetici dimostra che NeFTY migliora significativamente l'accuratezza della localizzazione dei difetti sottosuperficiali rispetto ai metodi baseline. Ulteriori dettagli sono disponibili all'indirizzo https://cab-lab-princeton.github.io/nefty/
Nonostante le prestazioni impressionanti dei modelli di diffusione come Stable Diffusion (SD) nella generazione di immagini, la loro lentezza nell'inferenza ne limita l'adozione pratica. Recenti lavori accelerano l'inferenza distillando modelli di diffusione multi-step in generatori one-step. Per comprendere meglio il meccanismo di distillazione, analizziamo le variazioni dei pesi della U-Net/DiT tra gli studenti one-step e le loro controparti insegnanti multi-step. La nostra analisi rivela che i cambiamenti nella direzione dei pesi superano significativamente quelli nella loro norma, evidenziandola come il fattore chiave durante la distillazione. Sulla base di questa intuizione, proponiamo la Rotazione a Basso Rango della Direzione dei pesi (LoRaD), un adattatore efficiente in termini di parametri specifico per la distillazione one-step della diffusione. LoRaD è progettato per modellare questi cambiamenti direzionali strutturati utilizzando matrici di rotazione a basso rango apprendibili. Integriamo ulteriormente LoRaD nella Variational Score Distillation (VSD), dando vita a Weight Direction-aware Distillation (WaDi) - un nuovo framework di distillazione one-step. WaDi raggiunge punteggi FID state-of-the-art su COCO 2014 e COCO 2017 utilizzando solo circa il 10% dei parametri addestrabili della U-Net/DiT. Inoltre, il modello one-step distillato dimostra una forte versatilità e scalabilità, generalizzando bene su varie attività downstream come la generazione controllabile, l'inversione di relazioni e la sintesi ad alta risoluzione.
La stima degli effetti eterogenei del trattamento (HTE) da dati di sopravvivenza right-censored è fondamentale in applicazioni ad alto rischio come la medicina di precisione e la definizione di politiche individualizzate. Tuttavia, l'ambito dell'analisi di sopravvivenza presenta sfide uniche per la stima degli HTE a causa della censura, dei controfattuali non osservati e delle complesse assunzioni di identificazione. Nonostante i recenti progressi, dalle Causal Survival Forests ai survival meta-learner e agli approcci di imputazione degli outcome, le pratiche di valutazione rimangono frammentate e incoerenti. Introduciamo SurvHTE-Bench, il primo benchmark completo per la stima degli HTE con outcome censurati. Il benchmark comprende (i) una suite modulare di dataset sintetici con ground truth noto, che varia sistematicamente le assunzioni causali e le dinamiche di sopravvivenza, (ii) dataset semi-sintetici che abbinano covariate del mondo reale a trattamenti ed outcome simulati, e (iii) dataset del mondo reale provenienti da uno studio su gemelli (con ground truth noto) e da una sperimentazione clinica sull'HIV. In contesti sintetici, semi-sintetici e del mondo reale, forniamo il primo confronto rigoroso dei metodi per gli HTE in ambito survival sotto diverse condizioni e con violazioni realistiche delle assunzioni. SurvHTE-Bench stabilisce una base per una valutazione equa, riproducibile ed estensibile dei metodi causali in ambito survival. I dati e il codice del nostro benchmark sono disponibili al seguente indirizzo: https://github.com/Shahriarnz14/SurvHTE-Bench.
Introduciamo NerVE, un framework eigenspettrale unificato per comprendere come le reti feed-forward (FFN) nei grandi modelli linguistici (LLM) organizzano e regolano il flusso di informazioni nello spazio latente ad alta dimensionalità. Nonostante le FFN dominino il budget dei parametri, la loro dinamica in alta dimensionalità rimane poco compresa. NerVE colma questa lacuna tramite il tracciamento efficiente in termini di memoria delle dinamiche dello spettro degli autovalori, attraverso quattro metriche complementari: Entropia Spettrale (dispersione), Rapporto di Partecipazione (dimensionalità effettiva), Arricchimento Precoce degli Autovalori (distribuzione "top-heavy") e divergenza di Jensen-Shannon (spostamenti distribuzionali). La nostra intuizione fondamentale è che le non linearità delle FFN reiniettano varianza attraverso gli autovettori, governando fondamentalmente l'utilizzo delle dimensioni latenti, e che la geometria dell'ottimizzatore modula fortemente l'entità di questa reiniezione di varianza. Convalidiamo NerVE su diverse scale di modelli e configurazioni architetturali e di ottimizzatore, ciascuna delle quali plasma in modo univoco le dinamiche delle FFN: schemi di normalizzazione che controllano il flusso di varianza; geometrie dei pesi delle FFN che vincolano lo spazio latente; codifica posizionale e funzioni di attivazione che regolano il flusso informativo; e scelte dell'ottimizzatore che ridistribuiscono la capacità effettiva lungo la profondità. In tutti questi contesti, NerVE recupera costantemente firme spettrali stabili che si correlano con la capacità di generalizzazione del modello e rispondono in modo prevedibile alle scelte progettuali, generalizzando oltre l'architettura transformer a quelle come MLP-Mixer, fornendo spunti operativi per le scelte architetturali e di ottimizzatore che vanno oltre il metodo per tentativi ed errori.
L'Apprendimento per Rinforzo Continuo (CRL) per modelli Visione-Linguaggio-Azione (VLA) rappresenta una direzione promettente verso lo sviluppo di agenti incarnati auto-miglioranti in grado di adattarsi in ambienti aperti ed evolutivi. Tuttavia, la conoscenza convenzionale nell'apprendimento continuo suggerisce che un semplice Fine-Tuning Sequenziale (Seq. FT) porti a una dimenticanza catastrofica, rendendo necessarie strategie CRL complesse. In questo lavoro, facciamo un passo indietro e conduciamo uno studio sistematico del CRL per grandi modelli VLA preaddestrati, valutando tre modelli su cinque benchmark impegnativi di RL lifelong. Scopriamo che, contrariamente alle credenze consolidate, il semplice Seq. FT con adattamento a basso rango (LoRA) è notevolmente efficace: raggiunge un'elevata plasticità, mostra poca o nessuna dimenticanza e mantiene una forte generalizzazione zero-shot, superando spesso metodi CRL più sofisticati. Attraverso un'analisi dettagliata, dimostriamo che questa robustezza deriva da una sinergia tra il grande modello preaddestrato, l'adattamento efficiente dei parametri e il RL on-policy. Insieme, questi componenti rimodellano il compromesso stabilità-plasticità, rendendo l'adattamento continuo sia stabile che scalabile. I nostri risultati posizionano il Fine-Tuning Sequenziale come un metodo potente per il RL continuo con i VLA e forniscono nuove intuizioni sull'apprendimento lifelong nell'era dei modelli di grandi dimensioni. Il codice è disponibile all'indirizzo github.com/UT-Austin-RobIn/continual-vla-rl.
Encoder visivi pre-addestrati come DINOv2 hanno dimostrato prestazioni eccezionali in compiti unimodali. Tuttavia, osserviamo che le loro rappresentazioni di feature sono scarsamente allineate tra diverse modalità. Ad esempio, l'embedding di feature per un'immagine RGB e la sua mappa di profondità corrispondente della stessa scena presenta una similarità coseno quasi identica a quella di due immagini casuali e non correlate. Per affrontare questo problema, proponiamo l'Encoder Visivo Onnivoro, un framework innovativo che apprende uno spazio di feature agnostico rispetto alla modalità. Addestriamo l'encoder con un duplice obiettivo: primo, massimizzare l'allineamento delle feature tra diverse modalità della stessa scena; secondo, un obiettivo di distillazione che ancorizza le rappresentazioni apprese all'output di un teacher completamente congelato come DINOv2. L'encoder studente risultante diventa "onnivoro" producendo un embedding potente e consistente per una determinata scena, indipendentemente dalla modalità di input (RGB, profondità, segmentazione, ecc.). Questo approccio consente una robusta comprensione cross-modale preservando al contempo la semantica discriminativa del modello foundation originale.
I modelli generativi sono ampiamente utilizzati per migliorare il fotorealismo dei dati sintetici nell'addestramento di algoritmi di computer vision. Tuttavia, essi introducono spesso artefatti visivi che degradano l'accuratezza di tali algoritmi e richiedono elevate risorse computazionali, limitandone l'applicabilità in scenari di addestramento o valutazione in tempo reale. In questo articolo, proponiamo Hybrid Patch Enhanced Realism Generative Adversarial Network (HyPER-GAN), un metodo leggero di traduzione immagine-immagine basato su un generatore in stile U-Net progettato per l'inferenza in tempo reale. Il modello viene addestrato utilizzando immagini sintetiche accoppiate a versioni con fotorealismo migliorato, integrate da una strategia di addestramento ibrida che incorpora patch corrispondenti provenienti da dati del mondo reale per migliorare il realismo visivo e la coerenza semantica. I risultati sperimentali dimostrano che HyPER-GAN supera i metodi all'avanguardia per la traduzione immagine-immagine con dati accoppiati in termini di latenza di inferenza, realismo visivo e robustezza semantica. Inoltre, viene illustrato come la strategia di addestramento ibrida proposta migliori effettivamente la qualità visiva e la coerenza semantica rispetto all'addestramento del modello esclusivamente con immagini sintetiche accoppiate a versioni con fotorealismo migliorato. Il codice e i modelli pre-addestrati sono pubblicamente disponibili per il download al seguente indirizzo: https://github.com/stefanos50/HyPER-GAN
Il divieto indonesiano di esportazione di minerale di nichel ha favorito la rapida espansione della capacità di fusione e di lavorazione idrometallurgica presso l'Indonesia Morowali Industrial Park (IMIP), ora il più grande complesso integrato di lavorazione del nichel al mondo, situato sulla costa del Sulawesi Centrale. Se questa industrializzazione abbia degradato l'ambiente marino adiacente rimane non quantificato. Applichiamo l'inferenza causale basata su serie storiche strutturali bayesiane (BSTS) a un record di colore oceanico satellitare pluridecennale e multi-sensore del coefficiente di attenuazione diffusa a 490 nm, K_d(490), per testare un nesso causale tra l'espansione dell'IMIP e il cambiamento della torbidità costiera. Un punto di rottura strutturale consensuale, un significativo effetto causale posteriore stimato rispetto a un controfattuale del Mare di Banda, e un test di rango placebo senza distribuzione stabiliscono collettivamente che la trasparenza dell'acqua costiera è peggiorata dopo la transizione dalla produzione iniziale di nickel pig iron all'iper-espansione degli impianti di lisciviazione acida ad alta pressione per il nichel di grado batteria. Un'analisi satellitare della copertura del suolo corrobora indipendentemente questa tempistica, mostrando una sostanziale crescita delle aree edificate e una concomitante perdita di copertura arborea all'interno del perimetro dell'IMIP. Il conseguente sollevamento della zona eufotica si verifica in acque oligotrofiche che sostengono un'elevata biodiversità marina, dove anche un moderato degrado ottico può compromettere la fotosintesi corallina e comprimere l'habitat delle barriere coralline in base alla profondità. Questi risultati quantificano un costo ambientale marino assente dal dibattito politico indonesiano sulla lavorazione a valle dei minerali e dimostrano un quadro quasi-sperimentale trasferibile, basato su dati satellitari, per la valutazione dell'impatto causale in siti industriali costieri in contesti tropicali con dati limitati.
La ricostruzione 4D di equidi (ad esempio, cavalli) da video monoculare è importante per il benessere animale. I precedenti metodi principali di ricostruzione 4D animale richiedevano un'ottimizzazione congiunta del movimento e dell'aspetto su un intero video, un processo che richiede tempo ed è sensibile a osservazioni incomplete. In questo lavoro, proponiamo una nuova framework chiamata 4DEquine, che scompone il problema della ricostruzione 4D in due sottoproblemi: ricostruzione del movimento dinamico e ricostruzione dell'aspetto statico. Per il movimento, introduciamo un trasformatore spaziotemporale semplice ma efficace, con una fase di post-ottimizzazione, per stimare sequenze di pose e forme fluide e allineate a livello di pixel dal video. Per l'aspetto, progettiamo una nuova rete feed-forward che ricostruisce un avatar 3D in Gaussiani ad alta fedeltà e animabile partendo da una singola immagine. Per supportare l'addestramento, abbiamo creato un ampio dataset sintetico di movimento, VarenPoser, che presenta movimenti superficiali di alta qualità e traiettorie di telecamera diversificate, nonché un dataset sintetico per l'aspetto, VarenTex, composto da immagini realistiche multi-vista generate tramite diffusione multi-vista. Sebbene addestrata solo su dataset sintetici, 4DEquine raggiunge prestazioni allo stato dell'arte sui dataset real-world APT36K e AiM, dimostrando la superiorità di 4DEquine e dei nostri nuovi dataset sia per la ricostruzione geometrica che per quella dell'aspetto. Studi di ablazione completi convalidano l'efficacia sia della rete di ricostruzione del movimento che di quella dell'aspetto. Pagina del progetto: https://luoxue-star.github.io/4DEquine_Project_Page/.