Articoli di ricerca IA selezionati quotidianamente con traduzioni
Studiamo l'acquisizione continua di abilità in ambienti embodied aperti, in cui un agente deve costruire, affinare e riutilizzare una libreria in espansione di competenze eseguibili. Introduciamo la Programmatic Skill Network (PSN), un framework in cui le abilità sono programmi simbolici eseguibili che formano una rete compositiva che si evolve attraverso l'esperienza. PSN definisce tre meccanismi fondamentali istanziati tramite modelli linguistici di grandi dimensioni: (1) REFLECT per la localizzazione strutturata degli errori nelle composizioni di abilità, (2) un'ottimizzazione progressiva con un meccanismo di aggiornamento basato sulla maturità che stabilizza le abilità affidabili preservando la plasticità per quelle incerte, e (3) una refattorizzazione strutturale canonica con validazione di rollback che mantiene la compattezza della rete. Mostriamo inoltre che le dinamiche di apprendimento della PSN presentano parallelismi strutturali con l'addestramento di reti neurali. Esperimenti su MineDojo e Crafter dimostrano un solido riutilizzo delle abilità, un rapido adattamento e una forte generalizzazione su distribuzioni di compiti aperte.\footnote{Prevediamo di rendere open-source il codice.}
Il fine-tuning supervisionato (SFT) è il paradigma standard per l'adattamento di dominio, ma comporta frequentemente il costo della dimenticanza catastrofica. In netto contrasto, l'Apprendimento per Rinforzo (RL) on-policy preserva efficacemente le capacità generali. Investigiamo questa discrepanza e identifichiamo un divario distribuzionale fondamentale: mentre l'RL si allinea con la credenza interna del modello, l'SFT costringe il modello ad adattarsi alla supervisione esterna. Questo disallineamento si manifesta spesso come token di "Conflitti Fiduciosi", caratterizzati da bassa probabilità ma bassa entropia. In questi casi, il modello è molto fiducioso nella propria previsione ma è costretto ad apprendere una verità di base divergente, innescando aggiornamenti distruttivi del gradiente. Per affrontare ciò, proponiamo il Fine-Tuning Adattivo all'Entropia (EAFT). A differenza dei metodi che si basano esclusivamente sulla probabilità predittiva, l'EAFT utilizza l'entropia a livello di token come meccanismo di gate per distinguere tra incertezza epistemica e conflitto di conoscenza. Ciò consente al modello di apprendere da campioni incerti sopprimendo al contempo i gradienti sui dati conflittuali. Esperimenti estesi sulle serie Qwen e GLM (che spaziano da 4B a 32B parametri) in domini matematici, medici e agentici confermano la nostra ipotesi. L'EAFT eguaglia costantemente le prestazioni downstream dello SFT standard mitigando significativamente il degrado delle capacità generali.
L'integrazione di grandi modelli linguistici (LLM) con strumenti esterni ha ampliato significativamente le capacità degli agenti di intelligenza artificiale. Tuttavia, con l'aumentare della diversità sia dei LLM che degli strumenti, la selezione della combinazione ottimale modello-strumento diventa una sfida di ottimizzazione ad alta dimensionalità. Gli approcci esistenti si basano spesso su un singolo modello o su una logica fissa di chiamata degli strumenti, non riuscendo a sfruttare le variazioni prestazionali tra coppie eterogenee modello-strumento. In questo articolo, presentiamo ATLAS (Adaptive Tool-LLM Alignment and Synergistic Invocation), un framework a doppio percorso per l'utilizzo dinamico degli strumenti nel ragionamento complesso cross-dominio. ATLAS opera attraverso un approccio a doppio percorso: (1) instradamento basato su clustering senza addestramento che sfrutta prior empirici per l'allineamento dominio-specifico, e (2) instradamento multi-step basato su RL che esplora traiettorie autonome per la generalizzazione out-of-distribution. Esperimenti estesi su 15 benchmark dimostrano che il nostro metodo supera modelli closed-source come GPT-4o, superando i metodi di routing esistenti sia in compiti in-distribution (+10,1%) che out-of-distribution (+13,1%). Inoltre, il nostro framework mostra significativi miglioramenti nel ragionamento visivo orchestrando strumenti multi-modali specializzati.
La rapida proliferazione di benchmark per valutare i grandi modelli linguistici (LLM) ha creato un'esigenza urgente di metodi sistematici per valutare la qualità dei benchmark stessi. Proponiamo Benchmark^2, un quadro completo che comprende tre metriche complementari: (1) la Coerenza di Classifica Incrociata tra Benchmark, che misura se un benchmark produce classifiche di modelli allineate con quelle di benchmark analoghi; (2) il Punteggio di Discriminabilità, che quantifica la capacità di un benchmark di differenziare i modelli; e (3) la Deviazione di Allineamento delle Capacità, che identifica istanze problematiche in cui modelli più potenti falliscono mentre modelli più deboli riescono all'interno della stessa famiglia di modelli. Abbiamo condotto esperimenti estesi su 15 benchmark che coprono i domini della matematica, del ragionamento e della conoscenza, valutando 11 LLM appartenenti a quattro famiglie di modelli. La nostra analisi rivela significative variazioni di qualità tra i benchmark esistenti e dimostra che una costruzione selettiva dei benchmark basata sulle nostre metriche può ottenere prestazioni valutative comparabili con set di test notevolmente ridotti.
Gli oggetti dinamici nel nostro mondo fisico 4D (3D + tempo) si evolvono, deformano e interagiscono costantemente con altri oggetti, dando origine a dinamiche di scena 4D diversificate. In questo articolo, presentiamo CHORD, una pipeline generativa universale per coreografare oggetti e scene dinamiche e sintetizzare questo tipo di fenomeni. Le tradizionali pipeline grafiche basate su regole per creare queste dinamiche si basano su euristiche specifiche per categoria, ma sono laboriose e non scalabili. I recenti metodi basati sull'apprendimento richiedono tipicamente dataset su larga scala, che potrebbero non coprire tutte le categorie di oggetti di interesse. Il nostro approccio, invece, eredita l'universalità dai modelli generativi video proponendo una pipeline basata sulla distillazione per estrarre le ricche informazioni sul moto lagrangiano nascoste nelle rappresentazioni euleriane dei video 2D. Il nostro metodo è universale, versatile e indipendente dalla categoria. Ne dimostriamo l'efficacia conducendo esperimenti per generare un'ampia gamma di dinamiche 4D multi-corpo, ne mostriamo il vantaggio rispetto ai metodi esistenti e ne dimostriamo l'applicabilità nella generazione di politiche di manipolazione robotica. Pagina del progetto: https://yanzhelyu.github.io/chord
I modelli linguistici (LM) vengono pre-addestrati su dataset di testo grezzo per generare sequenze testuali token per token. Sebbene questo approccio favorisca l'apprendimento di conoscenze enciclopediche e capacità di ragionamento, non ottimizza esplicitamente la competenza linguistica. Per colmare questa lacuna, proponiamo L2T, un framework di pre-addestramento che integra Attività di Apprendimento Linguistico insieme alla standard predizione del token successivo. Ispirandoci all'acquisizione del linguaggio umano, L2T trasforma il testo grezzo in coppie strutturate input-output per fornire una stimolazione linguistica esplicita. Il pre-addestramento di LM su una miscela di testo grezzo e dati L2T non solo migliora le prestazioni complessive sui benchmark di competenza linguistica, ma ne accelera l'acquisizione, mantenendo al contempo prestazioni competitive su compiti di ragionamento generale.
La verifica è fondamentale per migliorare gli agenti: fornisce il segnale di ricompensa per il Reinforcement Learning e consente guadagni durante l'inferenza attraverso il Test-Time Scaling (TTS). Nonostante la sua importanza, la verifica negli ambienti di agenti di ingegneria del software (SWE) si affida spesso all'esecuzione del codice, che può essere difficile da scalare a causa del sovraccarico legato alla configurazione dell'ambiente. Esistono alternative scalabili come i classificatori di patch e i metodi euristici, ma questi sono meno ancorati al contesto della codebase e più difficili da interpretare. A tal fine, esploriamo le Rubriche Agenti: un agente esperto interagisce con il repository per creare una lista di controllo rubricata e contestualizzata, e le patch candidate vengono quindi valutate rispetto ad essa senza richiedere l'esecuzione di test. Su SWE-Bench Verified sotto valutazione TTS parallela, le Rubriche Agenti raggiungono un punteggio del 54.2% su Qwen3-Coder-30B-A3B e del 40.6% su Qwen3-32B, con un guadagno di almeno +3.5 punti percentuali rispetto al baseline più forte nel nostro set di confronto. Analizziamo ulteriormente il comportamento delle rubriche, mostrando che i punteggi delle rubriche sono coerenti con i test di ground truth, segnalando anche problemi che i test non catturano. Le nostre ablazioni mostrano che la raccolta contestuale agente è essenziale per produrre criteri specifici per la codebase e non ambigui. Nel complesso, questi risultati suggeriscono che le Rubriche Agenti forniscono un segnale di verifica efficiente, scalabile e granulare per gli agenti SWE.
I recenti progressi nell'apprendimento per rinforzo hanno migliorato i modelli di flow matching nell'allineamento alle preferenze umane. Sebbene il campionamento stocastico consenta l'esplorazione delle direzioni di denoising, i metodi esistenti che ottimizzano su più passi di denoising soffrono di segnali di ricompensa sparsi e ambigui. Osserviamo che i passi ad alta entropia permettono un'esplorazione più efficiente ed efficace, mentre i passi a bassa entropia producono roll-out indistinguibili. A tal fine, proponiamo E-GRPO, un'ottimizzazione relativa di gruppo della politica consapevole dell'entropia, per aumentare l'entropia dei passi di campionamento SDE. Poiché l'integrazione delle equazioni differenziali stocastiche soffre di segnali di ricompensa ambigui a causa della stocasticità derivante da più passi, uniamo specificamente passi consecutivi a bassa entropia per formare un unico passo ad alta entropia per il campionamento SDE, applicando contemporaneamente il campionamento ODE sugli altri passi. Sulla base di ciò, introduciamo il vantaggio normalizzato di gruppo multi-passo, che calcola i vantaggi relativi di gruppo all'interno di campioni che condividono lo stesso passo consolidato di denoising SDE. I risultati sperimentali in diversi contesti di ricompensa hanno dimostrato l'efficacia dei nostri metodi.
La generazione congiunta audio-video ha compiuto rapidi progressi, ma permangono sfide significative. Gli approcci non commerciali continuano a soffrire di asincronia audiovisiva, scarso allineamento labiale-verbale e degrado unimodale, problemi riconducibili a una modellazione debole della corrispondenza audiovisiva, a una limitata generalizzazione e alla carenza di dati di alta qualità con didascalie dense. Per affrontare queste problematiche, presentiamo Klear e approfondiamo tre assi: architettura del modello, strategia di addestramento e cura dei dati. Dal punto di vista architetturale, adottiamo un design a torre unica con blocchi DiT unificati e un meccanismo di Attention Omni-Full, ottenendo un allineamento audio-video stretto e una forte scalabilità. Per l'addestramento, adottiamo un regime progressivo multitask—dalla mascheramento casuale delle modalità all'ottimizzazione congiunta tra i task—e un curriculum multistadio, producendo rappresentazioni robuste, rafforzando la conoscenza del mondo allineata A-V e prevenendo il collasso unimodale. Per i dataset, presentiamo il primo dataset audio-video su larga scala con didascalie dense e introduciamo una nuova pipeline automatizzata per la costruzione dei dati, che annota e filtra milioni di triplette audio-video-didascalia diversificate, di alta qualità e rigorosamente allineate. Su questa base, Klear scala su grandi dataset, fornendo una generazione ad alta fedeltà, semanticamente e temporalmente allineata, e in grado di seguire istruzioni sia in contesti congiunti che unimodali, generalizzando in modo robusto a scenari fuori distribuzione. In tutte le attività, supera sostanzialmente i metodi precedenti con un ampio margine e raggiunge prestazioni comparabili a Veo 3, offrendo un percorso unificato e scalabile verso la sintesi audio-video di prossima generazione.
Le simulazioni di dinamica molecolare (MD) sono fondamentali per comprendere i comportamenti a scala atomica nella scienza dei materiali, tuttavia la scrittura di script LAMMPS rimane un compito altamente specializzato e dispendioso in termini di tempo. Sebbene i modelli linguistici di grandi dimensioni (LLM) mostrino potenziale nella generazione di codice e nel rispondere a domande di dominio specifico, le loro prestazioni negli scenari di MD sono limitate dalla scarsità di dati di dominio, dall'elevato costo di implementazione degli LLM più avanzati e dalla bassa eseguibilità del codice. Basandoci sul nostro precedente MDAgent, presentiamo MDAgent2, il primo framework end-to-end in grado di eseguire sia domande e risposte di conoscenza che generazione di codice all'interno del dominio MD. Abbiamo costruito una pipeline di costruzione dati specifica per il dominio che produce tre dataset di alta qualità che abbracciano la conoscenza MD, il question answering e la generazione di codice. Sulla base di questi dataset, adottiamo una strategia di post-addestramento in tre fasi - pre-addestramento continuato (CPT), fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) - per addestrare due modelli adattati al dominio, MD-Instruct e MD-Code. Inoltre, introduciamo MD-GRPO, un metodo RL a ciclo chiuso che utilizza i risultati della simulazione come segnali di ricompensa e ricicla le traiettorie a basso reward per un affinamento continuo. Abbiamo inoltre costruito MDAgent2-RUNTIME, un sistema multi-agente distribuibile che integra generazione, esecuzione, valutazione e autocorrezione del codice. Insieme a MD-EvalBench, il primo benchmark per la generazione di codice LAMMPS e il question answering proposto in questo lavoro, i nostri modelli e sistema raggiungono prestazioni che superano diverse baseline solide. Questo lavoro dimostra sistematicamente l'adattabilità e la capacità di generalizzazione dei grandi modelli linguistici nei compiti di simulazione industriale, gettando una base metodologica per la generazione automatica di codice nell'ambito dell'IA per la Scienza e delle simulazioni su scala industriale. URL: https://github.com/FredericVAN/PKU_MDAgent2
L'editing di immagini guidato da istruzioni con modelli generativi multimodali unificati è progredito rapidamente, ma il loro ragionamento visivo sottostante rimane limitato, portando a prestazioni subottimali negli editing incentrati sul ragionamento. L'apprendimento per rinforzo (RL) è stato studiato per migliorare la qualità dell'editing di immagini, ma affronta tre sfide principali: (1) esplorazione limitata del ragionamento confinata alla stocasticità del denoising, (2) fusione distorta dei reward, e (3) instabilità dei reward basati su VLM e istruzioni. In questo lavoro, proponiamo ThinkRL-Edit, un framework RL incentrato sul ragionamento che disaccoppia il ragionamento visivo dalla sintesi dell'immagine ed espande l'esplorazione del ragionamento oltre il denoising. A tal fine, introduciamo un campionamento del ragionamento basato su Chain-of-Thought (CoT) con fasi di pianificazione e riflessione prima della generazione nel campionamento online, costringendo il modello a esplorare multiple ipotesi semantiche e verificarne la plausibilità prima di impegnarsi in un risultato visivo. Per evitare i fallimenti dell'aggregazione pesata, proponiamo una strategia di raggruppamento delle preferenze a catena non distorta su più dimensioni di reward. Inoltre, sostituiamo i punteggi VLM basati su intervalli con una checklist binaria, ottenendo reward più precisi, a varianza inferiore e interpretabili per il ragionamento complesso. Gli esperimenti mostrano che il nostro metodo supera significativamente i lavori precedenti nell'editing di immagini incentrato sul ragionamento, producendo editing fedeli alle istruzioni, visivamente coerenti e semanticamente fondati.
Un ragionamento epidemiologico affidabile richiede la sintesi delle evidenze di studio per inferire il carico di malattia, la dinamica di trasmissione e gli effetti degli interventi a livello di popolazione. Gli attuali benchmark per la risposta a domande mediche enfatizzano principalmente la conoscenza clinica o il ragionamento a livello del paziente, mentre pochi valutano sistematicamente l'inferenza epidemiologica basata su prove. Presentiamo EpiQAL, il primo benchmark diagnostico per la risposta a domande epidemiologiche su diverse malattie, composto da tre sottoinsiemi costruiti a partire da letteratura ad accesso aperto. I sottoinsiemi valutano rispettivamente il richiamo fattuale ancorato al testo, l'inferenza a più passaggi che collega le evidenze documentali ai principi epidemiologici, e la ricostruzione della conclusione con la sezione Discussione omessa. La costruzione combina linee guida tassonomiche progettate da esperti, verifica multi-modello e controllo della difficoltà basato sul retrieval. Esperimenti su dieci modelli aperti rivelano che gli attuali LLM mostrano prestazioni limitate nel ragionamento epidemiologico, con l'inferenza a più passaggi che rappresenta la sfida maggiore. Le classifiche dei modelli variano tra i sottoinsiemi e la scala da sola non predice il successo. Il prompting a catena del pensiero (Chain-of-Thought) beneficia l'inferenza multi-step ma produce risultati contrastanti altrove. EpiQAL fornisce segnali diagnostici granulari per l'ancoraggio alle evidenze, il ragionamento inferenziale e la ricostruzione delle conclusioni.
Man mano che i grandi modelli linguistici (LLM) diventano parte integrante di applicazioni critiche per la sicurezza, garantire la loro robustezza contro prompt avversari è di fondamentale importanza. Tuttavia, i dataset esistenti per il red teaming soffrono di categorizzazioni del rischio inconsistenti, una copertura di domini limitata e valutazioni obsolete, ostacolando valutazioni sistematiche delle vulnerabilità. Per affrontare queste sfide, introduciamo RedBench, un dataset universale che aggrega 37 dataset di benchmark provenienti da conferenze e repository di primo piano, comprendente 29.362 campioni tra prompt di attacco e di rifiuto. RedBench utilizza una tassonomia standardizzata con 22 categorie di rischio e 19 domini, consentendo valutazioni consistenti e complete delle vulnerabilità degli LLM. Forniamo un'analisi dettagliata dei dataset esistenti, stabiliamo baseline per gli LLM moderni e rendiamo open-source il dataset e il codice di valutazione. I nostri contributi facilitano confronti robusti, promuovono la ricerca futura e favoriscono lo sviluppo di LLM sicuri e affidabili per il dispiegamento nel mondo reale. Codice: https://github.com/knoveleng/redeval
Riportiamo uno studio di caso su quattro tentativi end-to-end di generare autonomamente articoli di ricerca sul machine learning utilizzando una pipeline di sei agenti LLM mappati sulle fasi del workflow scientifico. Di questi quattro tentativi, tre sono falliti durante l'implementazione o la valutazione. Uno ha completato l'intera pipeline ed è stato accettato ad Agents4Science 2025, una sede inaugurale sperimentale che richiedeva sistemi di IA come primi autori, superando sia la revisione umana che quella multi-IA. Da questi tentativi, documentiamo sei modalità di fallimento ricorrenti: l'adesione ai valori predefiniti dei dati di addestramento, lo scostamento implementativo sotto pressione esecutiva, il degrado della memoria e del contesto nei compiti a lungo termine, l'entusiasmo eccessivo che dichiara il successo nonostante fallimenti evidenti, l'intelligenza di dominio insufficiente e il debole gusto scientifico nella progettazione sperimentale. Concludiamo discutendo quattro principi di progettazione per sistemi di IA-scienziato più robusti, le implicazioni per la scoperta scientifica autonoma, e rendiamo disponibili tutti i prompt, gli artefatti e gli output su https://github.com/Lossfunk/ai-scientist-artefacts-v1.
Introduciamo RGS-SLAM, un framework SLAM robusto basato su splatting di Gaussiane che sostituisce la fase di densificazione guidata dai residui di GS-SLAM con un'inizializzazione training-free da corrispondenze a Gaussiane. Invece di aggiungere progressivamente Gaussiane man mano che i residui rivelano geometrie mancanti, RGS-SLAM esegue una triangolazione one-shot di dense corrispondenze multi-vista derivate da descrittori DINOv3 raffinati attraverso un classificatore di inlier con consapevolezza della confidenza, generando un seed di Gaussiane ben distribuito e consapevole della struttura prima dell'ottimizzazione. Questa inizializzazione stabilizza la mappatura iniziale e accelera la convergenza di circa il 20%, producendo una fedeltà di rendering superiore in scene ricche di texture e disordinate, rimanendo al contempo completamente compatibile con le pipeline GS-SLAM esistenti. Valutato sui dataset TUM RGB-D e Replica, RGS-SLAM raggiunge un'accuratezza di localizzazione e ricostruzione competitiva o superiore rispetto ai sistemi SLAM allo stato dell'arte basati su Gaussiane e punti, mantenendo prestazioni di mappatura in tempo reale fino a 925 FPS.
La valutazione umana rappresenta lo standard di riferimento per l'NLP multilingue, ma viene spesso omessa nella pratica e sostituita con metriche automatiche, poiché è notoriamente complessa e lenta da configurare con gli strumenti esistenti, richiedendo un sovraccarico ingegneristico e operativo considerevole. Presentiamo Pearmut, una piattaforma leggera ma ricca di funzionalità che rende la valutazione umana end-to-end semplice da eseguire quanto la valutazione automatica. Pearmut rimuove le comuni barriere d'accesso e fornisce supporto per la valutazione di task multilingue, con un focus particolare sulla traduzione automatica. La piattaforma implementa protocolli di valutazione standard, tra cui DA, ESA o MQM, ma è anche estensibile per consentire la prototipazione di nuovi protocolli. Include funzionalità come contesto a livello documentale, valutazione assoluta e contrastiva, controlli di attenzione, pre-annotazioni ESAAI e strategie di assegnazione sia statiche che basate su active learning. Pearmut rende la valutazione umana affidabile una componente pratica e routinaria dello sviluppo e della diagnostica dei modelli, anziché uno sforzo occasionale.
La Generazione Aumentata dalla Memoria (MAG) estende i Modelli Linguistici di Grande Dimensione con una memoria esterna per supportare il ragionamento su contesti lunghi, ma gli approcci esistenti si basano in larga misura sulla similarità semantica su archivi di memoria monolitici, intrecciando informazioni temporali, causali e di entità. Questa progettazione limita l'interpretabilità e l'allineamento tra l'intento della query e le evidenze recuperate, portando a un'accuratezza di ragionamento subottimale. In questo articolo, proponiamo MAGMA, un'architettura di memoria agentica multi-grafo che rappresenta ogni elemento della memoria attraverso grafi ortogonali semantici, temporali, causali e di entità. MAGMA formula il recupero come una traversata guidata da policy su queste viste relazionali, consentendo una selezione adattiva alla query e una costruzione contestualizzata del contesto. Disaccoppiando la rappresentazione della memoria dalla logica di recupero, MAGMA fornisce percorsi di ragionamento trasparenti e un controllo granulare sul recupero. Esperimenti su LoCoMo e LongMemEval dimostrano che MAGMA supera costantemente i sistemi di memoria agentica all'avanguardia in compiti di ragionamento a lungo orizzonte.
I tokenizzatori visivi 1D esistenti per la generazione autoregressiva (AR) seguono in gran parte i principi di progettazione del language modeling, poiché sono costruiti direttamente su transformer i cui prior originano dal linguaggio, producendo token latenti a gerarchia singola e trattando i dati visivi come flussi sequenziali piatti di token. Tuttavia, questa formulazione simile al linguaggio trascura proprietà chiave della visione, in particolare i progetti di rete gerarchici e residui che sono stati a lungo essenziali per la convergenza e l'efficienza nei modelli visivi. Per riportare la "visione" nella visione, proponiamo il Residual Tokenizer (ResTok), un tokenizzatore visivo 1D che costruisce residui gerarchici sia per i token immagine che per i token latenti. Le rappresentazioni gerarchiche ottenute attraverso fusioni progressive consentono la fusione di caratteristiche cross-level ad ogni layer, migliorando sostanzialmente la capacità rappresentativa. Nel frattempo, i residui semantici tra le gerarchie prevengono la sovrapposizione di informazioni, producendo distribuzioni latenti più concentrate che sono più facili da modellare con l'AR. Di conseguenza, emergono legami cross-level senza alcun vincolo esplicito. Per accelerare il processo di generazione, introduciamo inoltre un generatore AR gerarchico che riduce sostanzialmente i passi di campionamento prevedendo un intero livello di token latenti in una volta sola, anziché generarli rigorosamente token per token. Esperimenti estesi dimostrano che il ripristino di prior residui gerarchici nella tokenizzazione visiva migliora significativamente la generazione di immagini AR, raggiungendo un gFID di 2.34 su ImageNet-256 con soli 9 passi di campionamento. Il codice è disponibile all'indirizzo https://github.com/Kwai-Kolors/ResTok.
Presentiamo Gen3R, un metodo che collega i forti priori dei modelli fondazionali di ricostruzione e dei modelli di diffusione video per la generazione 3D a livello di scena. Riadattiamo il modello di ricostruzione VGGT per produrre latenti geometrici addestrando un adattatore sui suoi token, che vengono regolarizzati per allinearsi con i latenti di aspetto di modelli di diffusione video pre-addestrati. Generando congiuntamente questi latenti disaccoppiati ma allineati, Gen3R produce sia video RGB che la geometria 3D corrispondente, incluse le pose della telecamera, le mappe di profondità e le nuvole di punti globali. Gli esperimenti dimostrano che il nostro approccio ottiene risultati all'avanguardia nella generazione di scene 3D condizionata da singole o multiple immagini. Inoltre, il nostro metodo può migliorare la robustezza della ricostruzione sfruttando priori generativi, dimostrando il beneficio reciproco di un accoppiamento stretto tra modelli di ricostruzione e modelli generativi.