Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo DeepSeek-V3.2, un modello che armonizza un'elevata efficienza computazionale con prestazioni superiori nel ragionamento e nelle capacità agentive. Le principali innovazioni tecniche di DeepSeek-V3.2 sono le seguenti: (1) DeepSeek Sparse Attention (DSA): Introduciamo il DSA, un meccanismo di attenzione efficiente che riduce sostanzialmente la complessità computazionale preservando le prestazioni del modello in scenari di contesto lungo. (2) Framework Scalabile di Reinforcement Learning: Implementando un protocollo robusto di reinforcement learning e scalando il calcolo post-addestramento, DeepSeek-V3.2 performa in modo comparabile a GPT-5. In particolare, la nostra variante ad alto calcolo, DeepSeek-V3.2-Speciale, supera GPT-5 ed esibisce una competenza nel ragionamento pari a Gemini-3.0-Pro, raggiungendo una performance da medaglia d'oro sia alle Olimpiadi Internazionali di Matematica (IMO) 2025 che alle Olimpiadi Internazionali di Informatica (IOI). (3) Pipeline di Sintesi Su Larga Scala per Task Agenti-ci: Per integrare il ragionamento in scenari di utilizzo di strumenti, abbiamo sviluppato una nuova pipeline di sintesi che genera sistematicamente dati di addestramento su larga scala. Questa metodologia facilita un post-addestramento agentivo scalabile, producendo miglioramenti sostanziali nella generalizzazione e nella robustezza nel seguire istruzioni all'interno di ambienti complessi e interattivi.
I grandi modelli linguistici sono potenti generalisti, ma risolvere problemi profondi e complessi come quelli dell'Esame Finale dell'Umanità (HLE) rimane sia concettualmente impegnativo che computazionalmente costoso. Dimostriamo che piccoli orchestratori che gestiscono altri modelli e una varietà di strumenti possono sia spingere il limite superiore dell'intelligenza sia migliorare l'efficienza nella risoluzione di compiti agentici difficili. Introduciamo ToolOrchestra, un metodo per addestrare piccoli orchestratori che coordinano strumenti intelligenti. ToolOrchestra utilizza esplicitamente l'apprendimento per rinforzo con ricompense basate sui risultati, sull'efficienza e sulle preferenze dell'utente. Utilizzando ToolOrchestra, produciamo Orchestrator, un modello da 8B che raggiunge una maggiore accuratezza a un costo inferiore rispetto ai precedenti agenti che utilizzano strumenti, allineandosi alle preferenze dell'utente su quali strumenti utilizzare per una determinata query. Su HLE, Orchestrator ottiene un punteggio del 37.1%, superando GPT-5 (35.1%) con un'efficienza 2.5 volte maggiore. Su tau2-Bench e FRAMES, Orchestrator supera GPT-5 di un ampio margine utilizzando solo circa il 30% del costo. Un'analisi approfondita mostra che Orchestrator raggiunge il miglior compromesso tra prestazioni e costo secondo molteplici metriche e generalizza in modo robusto a strumenti non visti. Questi risultati dimostrano che comporre strumenti diversificati con un modello di orchestrazione leggero è sia più efficiente che più efficace dei metodi esistenti, spianando la strada a sistemi di ragionamento potenziati da strumenti pratici e scalabili.
Le attuali tecniche di generazione video eccellono nella creazione di clip singole, ma faticano a produrre video narrativi multi-inquadratura, che richiedono una disposizione flessibile delle inquadrature, una narrazione coerente e una controllabilità che va oltre i prompt testuali. Per affrontare queste sfide, proponiamo MultiShotMaster, un framework per la generazione di video multi-inquadratura altamente controllabile. Estendiamo un modello preaddestrato per video singoli integrando due nuove varianti di RoPE. In primo luogo, introduciamo la RoPE Narrativa Multi-Inquadratura, che applica uno sfasamento di fase esplicito nelle transizioni tra le inquadrature, consentendo una disposizione flessibile delle stesse preservando l'ordine narrativo temporale. In secondo luogo, progettiamo la RoPE Consapevole della Posizione Spazio-Temporale per incorporare token di riferimento e segnali di grounding, abilitando l'iniezione di riferimenti ancorati spaziotemporalmente. Inoltre, per ovviare alla scarsità di dati, abbiamo stabilito una pipeline automatizzata di annotazione dei dati per estrarre video multi-inquadratura, didascalie, segnali di grounding trans-inquadratura e immagini di riferimento. Il nostro framework sfrutta le proprietà architetturali intrinseche per supportare la generazione di video multi-inquadratura, caratterizzata da coerenza inter-inquadratura guidata dal testo, soggetti personalizzati con controllo del movimento e scene personalizzate guidate dallo sfondo. Sia il numero di inquadrature che la loro durata sono configurabili in modo flessibile. Esperimenti estensivi dimostrano le prestazioni superiori e l'eccezionale controllabilità del nostro framework.
Presentiamo MG-Nav (Memory-Guided Navigation), un framework a doppia scala per la navigazione visiva zero-shot che unisce una pianificazione globale guidata dalla memoria con un controllo locale potenziato dalla geometria. Il suo nucleo è il Sparse Spatial Memory Graph (SMG), una memoria compatta e centrata sulle regioni in cui ogni nodo aggrega semantiche di keyframe multi-vista e di oggetti, catturando sia l'aspetto visivo che la struttura spaziale preservando la diversità dei punti di vista. A livello globale, l'agente viene localizzato sull'SMG e un percorso di nodi condizionato all'obiettivo viene pianificato tramite un retrieval ibrido immagine-istanza, producendo una sequenza di waypoint raggiungibili per una guida a lungo termine. A livello locale, una policy di navigazione foundation esegue questi waypoint in modalità punto-obiettivo con controllo consapevole degli ostacoli, e passa alla modalità immagine-obiettivo quando naviga dal nodo finale verso il target visivo. Per migliorare ulteriormente l'allineamento del punto di vista e il riconoscimento dell'obiettivo, introduciamo VGGT-adapter, un modulo geometrico leggero costruito sul modello VGGT pre-addestrato, che allinea le caratteristiche dell'osservazione e dell'obiettivo in uno spazio condiviso e consapevole della 3D. MG-Nav opera la pianificazione globale e il controllo locale a frequenze diverse, utilizzando una ri-localizzazione periodica per correggere gli errori. Esperimenti sui benchmark HM3D Instance-Image-Goal e MP3D Image-Goal dimostrano che MG-Nav raggiunge prestazioni zero-shot allo stato dell'arte e rimane robusto in condizioni di riarrangiamenti dinamici e scene non viste.
Questo articolo presenta DualCamCtrl, un innovativo modello di diffusione end-to-end per la generazione di video controllati da telecamera. I lavori recenti hanno fatto progredire questo campo rappresentando le pose della telecamera come condizioni basate su raggi, ma spesso mancano di una comprensione della scena e di una consapevolezza geometrica sufficienti. DualCamCtrl affronta specificamente questa limitazione introducendo un framework a doppio ramo che genera mutualmente sequenze RGB e di profondità consistenti con la telecamera. Per armonizzare queste due modalità, proponiamo ulteriormente il meccanismo di Allineamento Reciproco Guidato dalla Semantica (SIGMA), che esegue la fusione RGB-profondità in modo guidato semanticamente e rafforzato reciprocamente. Questi design consentono collettivamente a DualCamCtrl di separare meglio la modellazione dell'aspetto e della geometria, generando video che aderiscono più fedelmente alle traiettorie specificate della telecamera. Inoltre, analizziamo e riveliamo la distinta influenza della profondità e delle pose della telecamera attraverso le fasi di denoising e dimostriamo ulteriormente che gli stadi iniziali e finali svolgono ruoli complementari nella formazione della struttura globale e nel perfezionamento dei dettagli locali. Esperimenti estensivi dimostrano che DualCamCtrl raggiunge una generazione di video controllati da telecamera più consistente, con una riduzione di oltre il 40% degli errori di movimento della telecamera rispetto ai metodi precedenti. La nostra pagina del progetto: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
L'auto-evoluzione dell'IA è stata a lungo immaginata come un percorso verso la superintelligenza, in cui i modelli acquisiscono, affinano e interiorizzano autonomamente la conoscenza dalle proprie esperienze di apprendimento. Tuttavia, nella pratica, i sistemi di auto-evoluzione non guidati spesso raggiungono rapidamente un plateau o addirittura si degradano con il progredire dell'addestramento. Questi fallimenti derivano da problemi come il *concept drift*, il collasso della diversità e la *mis-evolution*, poiché i modelli rafforzano i propri bias e convergono verso comportamenti a bassa entropia. Per consentire ai modelli di auto-evolversi in modo stabile e controllabile, minimizzando al contempo la dipendenza dalla supervisione umana, introduciamo R-Few, un framework di auto-competizione (*Self-Play*) guidato "Challenger-Solver" che incorpora una supervisione umana leggera attraverso il *grounding* in contesto (*in-context grounding*) e l'addestramento misto. Ad ogni iterazione, il Challenger campiona un piccolo insieme di esempi etichettati dall'uomo per guidare la generazione sintetica di domande, mentre il Solver si addestra congiuntamente su esempi umani e sintetici seguendo un curriculum online basato sulla difficoltà. Su benchmark di matematica e ragionamento generale, R-Few ottiene miglioramenti consistenti e iterativi. Ad esempio, Qwen3-8B-Base migliora di +3,0 punti rispetto a R-Zero sui compiti matematici e raggiunge prestazioni pari a General-Reasoner, nonostante quest'ultimo sia stato addestrato su 20 volte più dati umani. Studi di *ablation* confermano i contributi complementari dell'addestramento del Challenger basato sul *grounding* e dell'addestramento del Solver basato sul curriculum, e un'analisi più approfondita mostra che R-Few mitiga il *drift*, producendo dinamiche co-evolutive più stabili e controllabili.
Nonostante i recenti progressi nei sistemi agente multimodali, gli approcci esistenti spesso trattano la manipolazione delle immagini e la ricerca web come capacità separate, si basano pesantemente su costosi apprendimenti per rinforzo e mancano di una pianificazione basata su tracce reali di esecuzione di strumenti. Per affrontare queste limitazioni, presentiamo Skywork-R1V4, un modello agente multimodale da 30B (A3B) parametri che unifica la pianificazione multimodale, la manipolazione attiva delle immagini ("pensare con le immagini"), la ricerca multimodale approfondita e, aspetto cruciale, un ragionamento intervallato che alterna dinamicamente operazioni visive e recupero di conoscenze esterne. Addestrato esclusivamente tramite fine-tuning supervisionato su meno di 30.000 traiettorie di alta qualità, consistenti nella pianificazione-esecuzione e convalidato tramite filtraggio della coerenza passo-passo, Skywork-R1V4 raggiunge risultati all'avanguardia in benchmark di percezione e ricerca multimodale: ottiene un punteggio di 66,1 su MMSearch e 67,2 su FVQA, superando Gemini 2.5 Flash in tutte le 11 metriche. Skywork-R1V4 mostra un ragionamento emergente a lungo orizzonte al momento dell'inferenza, riuscendo a orchestrare più di 10 chiamate a strumenti per risolvere compiti complessi e multi-step. I nostri risultati dimostrano che un'intelligenza agente multimodale sofisticata può essere ottenuta tramite il solo apprendimento supervisionato accuratamente curato, senza alcuna dipendenza dall'apprendimento per rinforzo.
Il raggiungimento di sistemi di guida completamente autonomi richiede l'apprendimento di decisioni razionali in un'ampia gamma di scenari, inclusi quelli critici per la sicurezza e fuori distribuzione. Tuttavia, tali casi sono sottorappresentati nel corpus del mondo reale raccolto da esperti umani. Per compensare la mancanza di diversità dei dati, introduciamo un framework di simulazione innovativo e scalabile in grado di sintetizzare stati non visti su larga scala a partire da log di guida esistenti. La nostra pipeline utilizza il neural rendering avanzato con un ambiente reattivo per generare osservazioni multi-vista ad alta fedeltà controllate dalla traiettoria ego perturbata. Inoltre, sviluppiamo un meccanismo di generazione di traiettorie pseudo-esperte per questi nuovi stati simulati, al fine di fornire una supervisione delle azioni. Utilizzando i dati sintetizzati, riscontriamo che una semplice strategia di co-addestramento su campioni sia reali che simulati può portare a miglioramenti significativi sia nella robustezza che nella generalizzazione per vari metodi di pianificazione su benchmark reali impegnativi, fino a +6,8 EPDMS su navhard e +2,9 su navtest. Ancora più importante, tale miglioramento delle politiche scala fluidamente aumentando solo i dati di simulazione, anche senza un flusso aggiuntivo di dati reali. Riveliamo inoltre diversi risultati cruciali di un tale sistema di apprendimento simulato-reale, che denominiamo SimScale, includendo la progettazione degli pseudo-esperti e le proprietà di scaling per diverse architetture di politiche. I nostri dati di simulazione e il codice verranno rilasciati.
I modelli linguistici di grandi dimensioni (LLM) e gli agenti hanno ottenuto progressi significativi nella generazione di codice, nel ragionamento matematico e nella scoperta scientifica. Tuttavia, i benchmark esistenti misurano principalmente la correttezza, tralasciando la diversità dei metodi alla base delle soluzioni. La vera innovazione dipende non solo dalla produzione di risposte corrette, ma anche dall'originalità dell'approccio. Presentiamo InnoGym, il primo benchmark e framework progettato per valutare sistematicamente il potenziale innovativo degli agenti di intelligenza artificiale. InnoGym introduce due metriche complementari: il guadagno di prestazione, che misura il miglioramento rispetto alle soluzioni più note, e la novità, che cattura le differenze metodologiche rispetto agli approcci precedenti. Il benchmark include 18 task accuratamente selezionati da domini ingegneristici e scientifici del mondo reale, ciascuno standardizzato attraverso filtraggio delle risorse, validazione dei valutatori e raccolta di soluzioni. Inoltre, forniamo iGym, un ambiente di esecuzione unificato per valutazioni riproducibili e a lungo termine. Esperimenti estensivi dimostrano che, sebbene alcuni agenti producano approcci innovativi, la loro mancanza di robustezza ne limita il guadagno prestazionale. Questi risultati evidenziano un divario cruciale tra creatività ed efficacia, sottolineando la necessità di benchmark che valutino entrambi gli aspetti.
I modelli di diffusione hanno ottenuto un notevole successo nella generazione di immagini, ma il loro dispiegamento rimane limitato dall'elevato costo computazionale e dalla necessità di numerosi passi inferenziali. I precedenti tentativi di distillazione con meno passi cercano di saltare i passi ridondanti addestrando modelli studente compatti, ma spesso soffrono di elevati costi di riaddestramento e di una generalizzazione degradata. In questo lavoro, adottiamo una prospettiva diversa: acceleriamo in modo intelligente, non uniforme, applicando accelerazioni minori alle fasi semantiche iniziali e maggiori alle fasi ridondanti successive. Istanziamo questa strategia consapevole delle fasi con due esperti specializzati rispettivamente nelle fasi di denoising lente e veloci. Sorprendentemente, invece di investire uno sforzo massiccio nel riaddestrare modelli studente, scopriamo che semplicemente dotando il modello base di adattatori LoRA leggeri si ottengono sia un'efficiente accelerazione che una forte generalizzazione. Ci riferiamo a questi due adattatori come Slow-LoRA e Fast-LoRA. Attraverso esperimenti estesi, il nostro metodo raggiunge un'accelerazione fino a 5 volte rispetto al modello base mantenendo una qualità visiva comparabile su benchmark diversificati. Notevolmente, gli esperti LoRA sono addestrati con soli 1 campione su una singola V100 in un'ora, eppure i modelli risultanti generalizzano fortemente su prompt non visti.
Nonostante i progressi nella generazione audio da video, il campo si concentra prevalentemente sull'output mono, mancando di immersività spaziale. Gli approcci binaurali esistenti rimangono vincolati a una pipeline in due fasi che genera prima l'audio mono e successivamente effettua la spazializzazione, con conseguente accumulo di errori e incoerenze spazio-temporali. Per superare questa limitazione, introduciamo il compito di generazione audio binaurale spaziale end-to-end direttamente da video silenziosi. A supporto di questo compito, presentiamo il dataset BiAudio, comprendente circa 97.000 coppie video-audio binaurale che abbracciano scenari del mondo reale e traiettorie di rotazione della fotocamera diversificati, costruito tramite una pipeline semi-automatizzata. Inoltre, proponiamo ViSAudio, un framework end-to-end che impiega il conditional flow matching con un'architettura di generazione audio a doppio ramo, in cui due rami dedicati modellano i flussi latenti audio. Integrato con un modulo condizionato spazio-temporale, esso bilancia la coerenza tra i canali preservando al contempo le caratteristiche spaziali distintive, garantendo un allineamento spazio-temporale preciso tra l'audio e il video in input. Esperimenti esaustivi dimostrano che ViSAudio supera i metodi state-of-the-art esistenti sia nelle metriche oggettive che nelle valutazioni soggettive, generando audio binaurale di alta qualità con immersività spaziale che si adatta efficacemente ai cambiamenti del punto di vista, al movimento delle sorgenti sonore e a diversi ambienti acustici. Sito web del progetto: https://kszpxxzmc.github.io/ViSAudio-project.
I recenti progressi nei modelli linguistici di grandi dimensioni per video hanno dimostrato notevoli capacità nella comprensione di clip brevi. Tuttavia, scalare tali modelli per video della durata di ore o giorni rimane estremamente impegnativo a causa della limitata capacità di contesto e della perdita di dettagli visivi critici durante l'astrazione. I metodi esistenti potenziati dalla memoria mitigano questo problema sfruttando riassunti testuali di segmenti video, ma si basano fortemente sul testo e non riescono a utilizzare evidenze visive durante il ragionamento su scene complesse. Inoltre, il recupero da scale temporali fisse limita ulteriormente la loro flessibilità nel catturare eventi che si estendono su durate variabili. Per affrontare ciò, introduciamo WorldMM, un innovativo agente di memoria multimodale che costruisce e recupera da memorie multiple complementari, comprendenti sia rappresentazioni testuali che visive. WorldMM comprende tre tipi di memoria: la memoria episodica indicizza eventi fattuali su scale temporali multiple, la memoria semantica aggiorna continuamente la conoscenza concettuale di alto livello e la memoria visiva preserva informazioni dettagliate sulle scene. Durante l'inferenza, un agente di recupero adattivo seleziona iterativamente la fonte di memoria più rilevante e sfrutta multiple granularità temporali in base alla query, continuando fino a determinare che sono state raccolte informazioni sufficienti. WorldMM supera significativamente i metodi baseline esistenti su cinque benchmark di question-answering per video lunghi, raggiungendo un miglioramento prestazionale medio dell'8,4% rispetto ai precedenti metodi state-of-the-art, dimostrando la sua efficacia nel ragionamento su video lunghi.
I modelli visione-linguaggio-azione (VLA) hanno dimostrato capacità notevoli nella manipolazione robotica, ma le loro prestazioni sono sensibili alla lunghezza del blocco d'azione utilizzato durante l'addestramento, denominata orizzonte. Il nostro studio empirico rivela un compromesso intrinseco: orizzonti più lunghi forniscono una maggiore capacità di previsione globale ma degradano la precisione fine, mentre quelli più corti affinano il controllo locale ma faticano nei compiti a lungo termine, implicando che la scelta fissa di un singolo orizzonte sia subottimale. Per mitigare questo compromesso, proponiamo una strategia a miscela di orizzonti (MoH). MoH riorganizza il blocco d'azione in diversi segmenti con orizzonti differenti, li elabora in parallelo con un transformer d'azione condiviso e fonde gli output con un leggero gate lineare. La strategia offre tre vantaggi fondamentali: 1) MoH sfrutta congiuntamente la previsione a lungo termine e la precisione a breve termine all'interno di un unico modello, migliorando sia le prestazioni che la generalizzabilità a compiti complessi. 2) MoH è plug-and-play per moduli d'azione con attenzione completa, con un overhead minimo in addestramento e inferenza. 3) MoH abilita un'inferenza dinamica con orizzonti adattativi, che seleziona azioni stabili attraverso un consenso incrociato tra orizzonti, raggiungendo un throughput 2,5 volte superiore rispetto ai baseline preservando prestazioni superiori. Esperimenti estesi sulle politiche basate su flusso π₀, π₀.₅ e sulla politica di regressione one-step π_reg dimostrano che MoH produce guadagni consistenti e significativi sia in simulazione che in compiti del mondo reale. In particolare, in uno scenario di compiti misti, π₀.₅ con MoH raggiunge un nuovo stato dell'arte con un tasso di successo medio del 99% su LIBERO dopo sole 30k iterazioni di addestramento. Pagina del progetto: https://github.com/Timsty1/MixtureOfHorizons
La quantizzazione a bassa larghezza di bit è un approccio standard per il deployment di grandi modelli linguistici. Tuttavia, alcuni pesi e attivazioni estremi ampliano l'intervallo dinamico e riducono la risoluzione effettiva del quantizzatore. Una comune strategia di mitigazione consiste nell'applicare alcune trasformazioni ortogonali fisse, come le matrici di Hadamard, prima della quantizzazione, operazione che tipicamente riduce l'intervallo dinamico. Ciononostante, queste trasformazioni ignorano le statistiche dei dati, e la loro ottimalità non è attualmente compresa. In questo lavoro, deriviamo per la prima volta trasformazioni lineari ottimali in forma chiusa, applicate a blocchi, per la quantizzazione congiunta di pesi e attivazioni, utilizzando quantizzatori standard senza dati per formati numerici comuni. Nello specifico, forniamo le derivazioni delle trasformazioni adattive (data-aware) ottimali per quantizzatori a blocchi con arrotondamento al valore più vicino (RTN) e scalati secondo il valore assoluto massimo (AbsMax), sia per formati interi che in virgola mobile. La costruzione risultante, che chiamiamo WUSH, combina una struttura base di Hadamard con una componente dipendente dai dati basata sui momenti del secondo ordine, producendo una trasformazione non ortogonale che è dimostrabilmente ottimale sotto lievi assunzioni e rimane strutturata per un'implementazione efficiente. I risultati sperimentali preliminari mostrano che il nostro approccio migliora costantemente la trasformazione di Hadamard per i formati comuni.
La modellazione dello spazio latente è stata lo standard per i Diffusion Transformer (DiT). Tuttavia, questo approccio si basa su una pipeline a due stadi in cui l'autoencoder preaddestrato introduce una ricostruzione con perdita di informazioni, portando a un accumulo di errori e ostacolando l'ottimizzazione congiunta. Per affrontare questi problemi, proponiamo PixelDiT, un modello monostadio end-to-end che elimina la necessità dell'autoencoder e apprende il processo di diffusione direttamente nello spazio dei pixel. PixelDiT adotta un'architettura interamente basata su transformer modellata da un design a doppio livello: un DiT a livello di patch che cattura la semantica globale e un DiT a livello di pixel che raffina i dettagli testurali, consentendo l'addestramento efficiente di un modello di diffusione nello spazio dei pixel preservando i dettagli fini. La nostra analisi rivela che una modellazione efficace dei token a livello di pixel è essenziale per il successo della diffusione sui pixel. PixelDiT raggiunge un FID di 1.61 su ImageNet 256x256, superando di ampio margine i modelli generativi su pixel esistenti. Estendiamo inoltre PixelDiT alla generazione text-to-image e lo preaddestriamo alla risoluzione 1024x1024 nello spazio dei pixel. Il modello raggiunge 0.74 su GenEval e 83.5 su DPG-bench, avvicinandosi alle prestazioni dei migliori modelli di diffusione latente.
I recenti sistemi generativi audio-video suggeriscono che l'accoppiamento delle modalità avvantaggia non solo la sincronia audio-video, ma anche la modalità video stessa. Ci poniamo una domanda fondamentale: l'addestramento congiunto di denoising audio-video migliora la generazione video, anche quando siamo interessati esclusivamente alla qualità video? Per studiarlo, introduciamo un'architettura Audio-Video Full DiT (AVFullDiT) efficiente in parametri che sfrutta moduli pre-addestrati text-to-video (T2V) e text-to-audio (T2A) per il denoising congiunto. Addestriamo (i) un modello T2AV con AVFullDiT e (ii) una controparte T2V-only in condizioni identiche. I nostri risultati forniscono la prima evidenza sistematica che il denoising congiunto audio-video può offrire più della semplice sincronia. Osserviamo miglioramenti consistenti su sottoinsiemi complessi caratterizzati da movimenti ampi e da contatto tra oggetti. Ipotesi che la previsione dell'audio agisca come un segnale privilegiato, incoraggiando il modello a internalizzare relazioni causali tra eventi visivi e le loro conseguenze acustiche (ad esempio, i tempi di collisione influenzano il suono), il che a sua volta regolarizza le dinamiche video. I nostri risultati suggeriscono che il co-addestramento cross-modale è un approccio promettente per sviluppare modelli del mondo più robusti e fisicamente fondati. Codice e dataset saranno resi pubblicamente disponibili.
Il ragionamento analogico è al centro della cognizione umana, rappresentando un importante fondamento per varie attività intellettuali. Sebbene ricerche precedenti abbiano dimostrato che i LLM possono rappresentare pattern di compiti e concetti superficiali, rimane poco chiaro se questi modelli possano codificare concetti relazionali di alto livello e applicarli a situazioni nuove attraverso confronti strutturati. In questo lavoro, esploriamo questo aspetto fondamentale utilizzando analogie proporzionali e narrative, identificando tre risultati chiave. Primo, i LLM codificano efficacemente le relazioni sottostanti tra entità analoghe; sia le informazioni attributive che relazionali si propagano attraverso gli strati medio-alti nei casi corretti, mentre i fallimenti del ragionamento riflettono l'assenza di informazioni relazionali in questi strati. Secondo, a differenza degli umani, i LLM spesso incontrano difficoltà non solo quando mancano informazioni relazionali, ma anche quando tentano di applicarle a nuove entità. In tali casi, la correzione strategica delle rappresentazioni nascoste in posizioni token critiche può facilitare il trasferimento di informazioni in una certa misura. Infine, un ragionamento analogico di successo nei LLM è caratterizzato da un forte allineamento strutturale tra situazioni analoghe, mentre i fallimenti spesso riflettono un allineamento degradato o fuori posto. Nel complesso, i nostri risultati rivelano che i LLM mostrano capacità emergenti ma limitate nella codifica e applicazione di concetti relazionali di alto livello, evidenziando sia parallelismi che lacune rispetto alla cognizione umana.
I grandi modelli linguistici (LLM) si sono rapidamente evoluti da generatori di testo a potenti risolutori di problemi. Tuttavia, molti compiti aperti richiedono pensiero critico, l'integrazione di molteplici fonti e output verificabili, caratteristiche che vanno oltre il prompting one-shot o la generazione aumentata dal recupero standard. Recentemente, numerosi studi hanno esplorato la Ricerca Approfondita (Deep Research, DR), che mira a combinare le capacità di ragionamento degli LLM con strumenti esterni, come i motori di ricerca, consentendo così agli LLM di agire come agenti di ricerca in grado di portare a termine compiti complessi e aperti. Questo survey fornisce una panoramica completa e sistematica dei sistemi di ricerca approfondita, includendo una roadmap chiara, i componenti fondamentali, le tecniche di implementazione pratica, le sfide importanti e le direzioni future. Nello specifico, i nostri principali contributi sono i seguenti: (i) formalizziamo una roadmap in tre fasi e distinguiamo la ricerca approfondita dai paradigmi correlati; (ii) introduciamo quattro componenti chiave: pianificazione delle query, acquisizione delle informazioni, gestione della memoria e generazione della risposta, ciascuna associata a sottotassonomie granulari; (iii) riassumiamo le tecniche di ottimizzazione, inclusi il prompting, il fine-tuning supervisionato e l'apprendimento per rinforzo agentivo; e (iv) consolidiamo i criteri di valutazione e le sfide aperte, con l'obiettivo di guidare e facilitare lo sviluppo futuro. Poiché il campo della ricerca approfondita continua a evolversi rapidamente, ci impegniamo ad aggiornare costantemente questo survey per riflettere i progressi più recenti in quest'area.
In questo articolo proponiamo CUDA-L2, un sistema che combina modelli linguistici di grandi dimensioni (LLM) e apprendimento per rinforzo (RL) per ottimizzare automaticamente i kernel CUDA Half-precision General Matrix Multiply (HGEMM). Utilizzando la velocità di esecuzione CUDA come ricompensa per l'RL, CUDA-L2 ottimizza automaticamente i kernel HGEMM su 1.000 configurazioni. CUDA-L2 supera sistematicamente i principali benchmark matmul fino ad oggi, dal diffusissimo {\it torch.matmul} alle librerie closed-source all'avanguardia di Nvidia, ovvero {\it cuBLAS} e {\it cuBLASLt}. In modalità offline, dove i kernel vengono eseguiti consecutivamente senza intervalli di tempo, CUDA-L2 produce un miglioramento medio del +22,0% rispetto a {\it torch.matmul}; +19,2% rispetto a {\it cuBLAS} utilizzando la configurazione di layout ottimale (normale-normale NN e trasposto-normale TN); +16,8% rispetto a {\it cuBLASLt-heuristic}, che interroga la libreria {\it cuBLASLt} e seleziona l'algoritmo in base al suggerimento dell'euristica; e +11,4% rispetto al più competitivo modello {\it cuBLASLt-AutoTuning}, che seleziona l'algoritmo più veloce tra fino a 100 candidati suggeriti da {\it cuBLASLt}. In modalità server, dove i kernel vengono eseguiti a intervalli casuali simulando l'inferenza in tempo reale, i miglioramenti di velocità aumentano ulteriormente a +28,7%, +26,0%, +22,4% e +15,9% rispettivamente per {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} e {\it cuBLASLt-AutoTuning}. CUDA-L2 dimostra che anche kernel estremamente critici per le prestazioni e pesantemente ottimizzati come HGEMM possono essere migliorati attraverso l'automazione RL guidata da LLM, esplorando sistematicamente spazi di configurazione su scale impraticabili per gli esseri umani. Il progetto e il codice sono disponibili su github.com/deepreinforce-ai/CUDA-L2.
I modelli Vision-Language-Action (VLA) addestrati con il flow matching hanno dimostrato capacità impressionanti nei compiti di manipolazione robotica. Tuttavia, le loro prestazioni spesso si degradano in presenza di uno shift distributivo e in compiti multi-step complessi, suggerendo che le rappresentazioni apprese potrebbero non catturare in modo robusto la semantica rilevante per il compito. Introduciamo DiG-Flow, un framework metodologico che migliora la robustezza dei modelli VLA attraverso una regolarizzazione geometrica. La nostra intuizione chiave è che la discrepanza distributiva tra gli embedding delle osservazioni e delle azioni fornisce un segnale geometrico significativo: un costo di trasporto inferiore indica rappresentazioni compatibili, mentre un costo più elevato suggerisce un potenziale disallineamento. DiG-Flow calcola una misura di discrepanza tra le distribuzioni empiriche degli embedding di osservazione e azione, la mappa su un peso di modulazione tramite una funzione monotona, e applica aggiornamenti residui agli embedding di osservazione prima del flow matching. Fondamentalmente, questo intervento opera a livello di rappresentazione senza modificare il percorso del flow matching o il campo vettoriale target. Forniamo garanzie teoriche che dimostrano come l'addestramento guidato dalla discrepanza riduca in modo dimostrabile la funzione obiettivo, e che il raffinamento inferenziale guidato converga con contrazione. Empiricamente, DiG-Flow si integra nelle architetture VLA esistenti con un overhead trascurabile e migliora costantemente le prestazioni, con guadagni particolarmente pronunciati nei compiti multi-step complessi e in condizioni di dati di addestramento limitati.
I recenti progressi nella generazione video hanno consentito la sintesi di video con una forte coerenza temporale e un'impressionante qualità visiva, segnando un passo cruciale verso i modelli fondazionali per la visione. Per valutare questi modelli di generazione video, i benchmark esistenti si concentrano principalmente su fattori legati alla percezione e comprensione visiva, come l'estetica visiva, l'aderenza alle istruzioni e la coerenza temporale. Tuttavia, le capacità di ragionamento basato su regole dei modelli di generazione video rimangono in gran parte inesplorate. Sebbene studi recenti abbiano condotto esplorazioni preliminari sulla possibilità che i modelli video funzionino come apprendisti zero-shot, essi mancano ancora di una scomposizione granulare delle capacità di ragionamento e di un protocollo di valutazione completo. Per colmare questa lacuna, introduciamo RULER-Bench, un benchmark progettato per valutare la capacità di ragionamento dei modelli di generazione video dalla prospettiva delle regole cognitive. Basato su due paradigmi fondamentali (text-to-video e image-to-video), RULER-Bench copre 40 task rappresentativi che abbracciano sei categorie di regole con 622 istanze annotate di alta qualità. Per la valutazione di ciascun video generato, costruiamo una checklist che copre quattro metriche e sfruttiamo GPT-4o per assegnare punteggi a ogni domanda, raggiungendo un'allineamento dell'85% con i giudizi umani. Esperimenti estensivi mostrano che il modello allo stato dell'arte raggiunge solo il 48.87% sulla metrica della coerenza regolare, evidenziando un margine di miglioramento significativo nella capacità di ragionamento dei modelli video di prossima generazione. Ci aspettiamo che le intuizioni ottenute da RULER-Bench facilitino ulteriori sviluppi nella generazione video consapevole del ragionamento, avvicinando i modelli di generazione video all'intelligenza fondazionale per la visione.
La riconoscimento di tabelle (TR) mira a trasformare immagini di tabelli in rappresentazioni semi-strutturate come HTML o Markdown. Come componente fondamentale del parsing documentale, il TR si è a lungo basato sull'apprendimento supervisionato, con recenti sforzi dominati dal fine-tuning di modelli vision-language (VLM) utilizzando dati etichettati. Sebbene i VLM abbiano portato il TR a un livello superiore, spingere ulteriormente le prestazioni richiede dati etichettati su larga scala che sono costosi da ottenere. Di conseguenza, sebbene i modelli proprietari abbiano continuamente spinto i limiti delle prestazioni, i modelli open-source, spesso addestrati con risorse limitate e, nella pratica, l'unica opzione praticabile per molti a causa delle normative sulla privacy, rimangono ancora molto indietro. Per colmare questa lacuna, introduciamo TRivia, un metodo di fine-tuning auto-supervisionato che consente ai VLM preaddestrati di apprendere il TR direttamente da immagini di tabelle non etichettate in contesti reali. Basato sul Group Relative Policy Optimization, TRivia identifica automaticamente campioni non etichettati che facilitano più efficacemente l'apprendimento ed elimina la necessità di annotazioni umane attraverso un meccanismo di ricompensa basato su domande e risposte. Un modulo guidato dall'attenzione genera domande diversificate per ogni immagine di tabella, e la capacità di interpretare i risultati del riconoscimento e rispondere correttamente fornisce feedback per ottimizzare il modello TR. Questo processo a ciclo chiuso consente al modello TR di apprendere autonomamente a riconoscere, strutturare e ragionare sulle tabelle senza dati etichettati. Sfruttando questa pipeline, presentiamo TRivia-3B, un modello TR open-source, compatto e all'avanguardia che supera i sistemi esistenti (ad esempio, Gemini 2.5 Pro, MinerU2.5) su tre benchmark popolari. Modello e codice sono rilasciati su: https://github.com/opendatalab/TRivia
Proponiamo MagicQuill V2, un sistema innovativo che introduce un paradigma di composizione a livelli nell'editing generativo di immagini, colmando il divario tra la potenza semantica dei modelli di diffusione e il controllo granulare dei software grafici tradizionali. Sebbene i transformer di diffusione eccellano nella generazione olistica, il loro uso di prompt singolari e monolitici non riesce a districare le distinte intenzioni dell'utente relative a contenuto, posizione e aspetto. Per superare questa limitazione, il nostro metodo scompone l'intento creativo in una pila di suggerimenti visivi controllabili: un livello di contenuto per *cosa* creare, un livello spaziale per *dove* posizionarlo, un livello strutturale per *come* è modellato e un livello colore per la sua palette. I nostri contributi tecnici includono una pipeline specializzata per la generazione di dati per l'integrazione di contenuti consapevole del contesto, un modulo di controllo unificato per elaborare tutti i suggerimenti visivi e un ramo spaziale messo a punto per un editing locale di precisione, inclusa la rimozione di oggetti. Esperimenti estensivi convalidano che questo approccio a livelli risolve efficacemente il divario dell'intenzione dell'utente, conferendo ai creativi un controllo diretto e intuitivo sul processo generativo.
Studiamo come diverse progettazioni di Chain-of-Thought (CoT) influenzino l'acquisizione di capacità di ragionamento visivo generalizzabile nei modelli visione-linguaggio (VLM). Sebbene i dati CoT, specialmente quelli lunghi o visivi come il "pensare con le immagini", siano ampiamente utilizzati per supervisionare il ragionamento intermedio, non è ancora chiaro il motivo per cui specifici design CoT siano d'aiuto e quali supportino veramente un ragionamento generalizzabile. Per valutarlo sistematicamente, ci concentriamo su un benchmark controllato di risoluzione di labirinti, dove le regole di ragionamento sono puramente visive, la difficoltà può essere modulata dalla dimensione della griglia e tutti i passaggi intermedi possono essere generati automaticamente. Utilizzando Qwen2.5-VL-7B all'interno di una pipeline standard SFT-seguito-da-RL, confrontiamo tre formati CoT rappresentativi: CoT Linguistico, CoT con Grounding (con traiettorie di coordinate spaziali) e CoT Visivo (con manipolazioni di immagini). I nostri esperimenti rivelano che i CoT visivi e più lunghi accelerano principalmente la convergenza ma non innalzano il limite prestazionale finale; i CoT concisi, contenenti solo i passi essenziali di grounding, superano le tracce più lunghe; e, in modo sorprendente, i CoT che mantengono solo i risultati minimi di grounding si generalizzano meglio attraverso diverse dimensioni di labirinto. Validiamo ulteriormente queste intuizioni su altri task incentrati sulla visione. Questi risultati evidenziano un effetto "il corto è lungo" e forniscono una guida pratica per costruire dataset SFT più generalizzabili per il ragionamento visivo.
L'Intelligenza Artificiale Fisica (Physical AI) mira a sviluppare modelli in grado di percepire e prevedere le dinamiche del mondo reale; tuttavia, la misura in cui gli attuali modelli linguistici di grandi dimensioni multimodali e i modelli generativi video supportino queste capacità non è ancora sufficientemente compresa. Introduciamo Physical AI Bench (PAI-Bench), un benchmark unificato e completo che valuta le capacità di percezione e previsione attraverso la generazione video, la generazione video condizionata e la comprensione video, comprendendo 2.808 casi del mondo reale con metriche allineate al compito progettate per catturare la plausibilità fisica e il ragionamento dominio-specifico. Il nostro studio fornisce una valutazione sistematica dei modelli recenti e mostra che i modelli generativi video, nonostante un'elevata fedeltà visiva, spesso faticano a mantenere dinamiche fisicamente coerenti, mentre i modelli linguistici di grandi dimensioni multimodali mostrano prestazioni limitate nella previsione e nell'interpretazione causale. Queste osservazioni suggeriscono che i sistemi attuali si trovano ancora in una fase iniziale nella gestione delle richieste percettive e predittive dell'Intelligenza Artificiale Fisica. In sintesi, PAI-Bench stabilisce una base realistica per valutare l'Intelligenza Artificiale Fisica ed evidenzia le lacune chiave che i sistemi futuri dovranno colmare.
Indaghiamo se i modelli generativi video possano esibire intelligenza visuospaziale, una capacità centrale nella cognizione umana, utilizzando esclusivamente dati visivi. A tal fine, presentiamo Video4Spatial, un framework che dimostra come modelli di diffusione video condizionati unicamente sul contesto scenico basato su video possano eseguire compiti spaziali complessi. Validiamo l'approccio su due compiti: navigazione scenica - seguire istruzioni di posa della camera mantenendo la coerenza con la geometria 3D della scena - e grounding di oggetti - che richiede localizzazione semantica, esecuzione di istruzioni e pianificazione. Entrambi i compiti utilizzano input esclusivamente video, senza modalità ausiliarie come dati di profondità o pose. Grazie a scelte progettuali semplici ma efficaci nel framework e nella cura dei dati, Video4Spatial dimostra una solida comprensione spaziale a partire dal contesto video: pianifica la navigazione e effettua il grounding di oggetti target end-to-end, segue le istruzioni sulla posa della camera mantenendo la coerenza spaziale e generalizza a contesti lunghi e ambienti fuori dominio. Nel complesso, questi risultati fanno progredire i modelli generativi video verso un ragionamento visuospaziale generale.
Mentre gli agenti IA basati su LLM/VLM hanno fatto rapidi progressi in matematica, programmazione e utilizzo del computer, le loro applicazioni in ambienti fisici e sociali complessi rimangono una sfida. La costruzione di agenti in grado di sopravvivere e prosperare nel mondo reale (ad esempio, guadagnando reddito in modo autonomo o gestendo un'impresa) richiede un'interazione, un ragionamento, un addestramento e una valutazione su larga scala attraverso scenari embodied diversificati. Tuttavia, i simulatori del mondo esistenti per tale sviluppo sono carenti: spesso si basano su ambienti limitati e creati manualmente, simulano fisiche e regole sociali semplificate simili a quelle dei giochi e mancano di un supporto nativo per gli agenti LLM/VLM. Introduciamo SimWorld, un nuovo simulatore basato su Unreal Engine 5, progettato per sviluppare e valutare agenti LLM/VLM in ambienti ricchi e simili al mondo reale. SimWorld offre tre capacità fondamentali: (1) una simulazione realistica e aperta del mondo, che include dinamiche fisiche e sociali accurate e una generazione procedurale di ambienti guidata dal linguaggio; (2) un'interfaccia ricca per gli agenti LLM/VLM, con input mondiali multimodali e azioni a vocabolario aperto a diversi livelli di astrazione; e (3) scenari di ragionamento fisico e sociale diversificati ed estensibili, facilmente personalizzabili dagli utenti. Dimostriamo SimWorld distribuendo agenti LLM all'avanguardia (ad esempio, GPT-4o, Gemini-2.5-Flash, Claude-3.5 e DeepSeek-Prover-V2) in compiti di consegna multi-agente a lungo termine che coinvolgono cooperazione e competizione strategica. I risultati rivelano distinti modelli di ragionamento e limitazioni tra i modelli. Rilasciamo SimWorld come open-source e speriamo che diventi una piattaforma fondamentale per far progredire l'intelligenza degli agenti nel mondo reale in tutte le discipline: https://simworld.org.
I modelli Vision-Language-Action (VLA) basati su modelli linguistici visivi (VLM) pre-addestrati mostrano un forte potenziale, ma sono limitati nella praticità a causa del loro elevato numero di parametri. Per mitigare questo problema, l'uso di un VLM leggero è stato esplorato, ma ciò compromette il ragionamento spaziotemporale. Sebbene alcuni metodi suggeriscano che l'incorporamento di input 3D aggiuntivi possa aiutare, questi solitamente si affidano a VLM di grandi dimensioni per fondere input 3D e 2D e mancano ancora di comprensione temporale. Pertanto, proponiamo SwiftVLA, un'architettura che potenzia un modello compatto con una comprensione 4D preservando l'efficienza progettuale. Nello specifico, il nostro approccio include un trasformatore di geometria visiva 4D pre-addestrato con una cache temporale che estrae caratteristiche 4D da immagini 2D. Quindi, per potenziare la capacità del VLM di sfruttare sia le immagini 2D che le caratteristiche 4D, introduciamo i Fusion Token, un insieme di token apprendibili addestrati con un obiettivo di predizione futura per generare rappresentazioni unificate per la generazione di azioni. Infine, introduciamo una strategia di mascheramento e ricostruzione che maschera gli input 4D al VLM e addestra il VLA a ricostruirli, consentendo al VLM di apprendere rappresentazioni 4D efficaci e permettendo di eliminare il ramo 4D durante l'inferenza con una perdita di prestazioni minima. Esperimenti in ambienti reali e simulati mostrano che SwiftVLA supera i baseline leggeri e rivaleggia con VLA fino a 7 volte più grandi, raggiungendo prestazioni comparabili su dispositivi edge mentre è 18 volte più veloce e riduce l'ingombro di memoria di 12 volte.
Sebbene i modelli di diffusione per la generazione di video di avatar guidati dall'audio abbiano ottenuto progressi significativi nella sintesi di sequenze lunghe con una sincronizzazione audio-visiva naturale e una consistenza dell'identità, la generazione di video di performance musicali con movimenti di camera rimane in gran parte inesplorata. Presentiamo YingVideo-MV, il primo framework a cascata per la generazione di video lunghi guidati dalla musica. Il nostro approccio integra l'analisi semantica dell'audio, un modulo interpretabile di pianificazione delle inquadrature (MV-Director), architetture di Transformer di diffusione temporale-consapevole e una modellizzazione della consistenza per sequenze lunghe, per abilitare la sintesi automatica di video di performance musicali di alta qualità a partire da segnali audio. Abbiamo costruito un dataset su larga scala "Music-in-the-Wild" raccogliendo dati dal web per supportare il raggiungimento di risultati diversificati e di alta qualità. Osservando che i metodi esistenti per la generazione di video lunghi mancano di un controllo esplicito del movimento della camera, introduciamo un modulo adattatore per la camera che incorpora le pose della camera nel rumore latente. Per migliorare la continuità tra i clip durante l'inferenza di sequenze lunghe, proponiamo inoltre una strategia dinamica e temporale-consapevole dell'intervallo della finestra che regola adattivamente i range di denoising basandosi sugli embedding audio. Test di benchmarking completi dimostrano che YingVideo-MV raggiunge prestazioni eccezionali nella generazione di video musicali coerenti ed espressivi e abilita una precisa sincronizzazione musica-movimento-camera. Altri video sono disponibili nella nostra pagina del progetto: https://giantailab.github.io/YingVideo-MV/.
Introduciamo Ovis-Image, un modello text-to-image da 7B parametri specificamente ottimizzato per il rendering di testo di alta qualità, progettato per operare efficientemente sotto stringenti vincoli computazionali. Basato sul nostro precedente framework Ovis-U1, Ovis-Image integra un decoder visivo di tipo diffusion con il più potente backbone multimodale Ovis 2.5, sfruttando una pipeline di addestramento incentrata sul testo che combina pre-training su larga scala con raffinatezze post-allenamento accuratamente calibrate. Nonostante l'architettura compatta, Ovis-Image raggiunge prestazioni di rendering del testo pari a modelli open significativamente più grandi come Qwen-Image e si avvicina a sistemi closed-source come Seedream e GPT4o. Fondamentalmente, il modello rimane distribuibile su una singola GPU high-end con memoria moderata, riducendo il divario tra il rendering di testo di livello avanzato e la distribuzione pratica. I nostri risultati indicano che combinare un backbone multimodale solido con una ricetta di addestramento attentamente progettata e focalizzata sul testo è sufficiente per ottenere un rendering di testo bilingue affidabile senza ricorrere a modelli sovradimensionati o proprietari.
La generazione di video della durata di un minuto rappresenta un passo cruciale verso lo sviluppo di modelli mondiali, fornendo una base per scene estese realistiche e simulatori di IA avanzati. Il paradigma emergente semi-autoregressivo (block diffusion) integra i punti di forza dei modelli diffusion e autoregressivi, consentendo la generazione di video di lunghezza arbitraria e migliorando l'efficienza inferenziale attraverso la KV caching e il campionamento parallelo. Tuttavia, esso deve ancora affrontare due sfide persistenti: (i) l'accumulo di errori a lungo orizzonte indotto dalla KV cache, e (ii) la mancanza di benchmark granulari per video lunghi e metriche basate sulla coerenza. Per superare queste limitazioni, proponiamo BlockVid, un nuovo framework di block diffusion dotato di una KV cache sparsa semanticamente consapevole, una strategia di training efficace chiamata Block Forcing, e dedicati meccanismi di schedulazione e shuffling del rumore per chunk, per ridurre la propagazione degli errori e migliorare la coerenza temporale. Introduciamo inoltre LV-Bench, un benchmark granulare per video della durata di un minuto, completo con nuove metriche per valutare la coerenza a lungo raggio. Esperimenti estensivi su VBench e LV-Bench dimostrano che BlockVid supera costantemente i metodi esistenti nella generazione di video di un minuto di alta qualità e coerenti. In particolare, registra un miglioramento del 22.2% su VDE Subject e del 19.4% su VDE Clarity in LV-Bench rispetto agli approcci state-of-the-art. Sito del progetto: https://ziplab.co/BlockVid. Inferix (Codice): https://github.com/alibaba-damo-academy/Inferix.
Oggi le persone possono facilmente registrare momenti memorabili, come concerti, eventi sportivi, lezioni, riunioni familiari e feste di compleanno, utilizzando molteplici videocamere consumer. Tuttavia, la sincronizzazione di questi flussi video multi-camera rimane una sfida. I metodi esistenti presuppongono ambienti controllati, soggetti specifici, correzioni manuali o hardware costoso. Presentiamo VisualSync, un framework di ottimizzazione basato sulla dinamica multi-vista che allinea video non preparati e non sincronizzati con precisione al millisecondo. La nostra intuizione chiave è che qualsiasi punto 3D in movimento, quando visibile contemporaneamente in due telecamere, obbedisce ai vincoli epipolari una volta sincronizzato correttamente. Per sfruttare ciò, VisualSync utilizza tecniche standard di ricostruzione 3D, corrispondenza di caratteristiche e tracciamento denso per estrarre traiettorie, pose relative e corrispondenze incrociate tra le viste. Successivamente, minimizza congiuntamente l'errore epipolare per stimare lo sfasamento temporale di ogni telecamera. Esperimenti su quattro dataset diversificati e complessi dimostrano che VisualSync supera i metodi baseline, raggiungendo un errore di sincronizzazione mediano inferiore a 50 ms.
La ricostruzione 3D da immagini multi-view è una sfida fondamentale nella visione artificiale. Recentemente, i metodi feed-forward sono emersi come alternative efficienti e robuste alle tradizionali tecniche di ottimizzazione per scena. Tra questi, modelli all'avanguardia come il Visual Geometry Grounding Transformer (VGGT) sfruttano l'auto-attenzione completa su tutti i token immagine per catturare relazioni globali. Tuttavia, questo approccio soffre di una scarsa scalabilità a causa della complessità quadratica dell'auto-attenzione e dell'elevato numero di token generati in sequenze di immagini lunghe. In questo lavoro, introduciamo FlashVGGT, un'alternativa efficiente che affronta questo collo di bottiglia attraverso un meccanismo di attenzione basato su descrittori. Invece di applicare un'attenzione globale densa su tutti i token, FlashVGGT comprime le informazioni spaziali di ogni fotogramma in un insieme compatto di token descrittori. L'attenzione globale viene quindi calcolata come cross-attention tra l'insieme completo dei token immagine e questo insieme di descrittori più piccolo, riducendo significativamente il sovraccarico computazionale. Inoltre, la compattezza dei descrittori consente l'inferenza online su sequenze lunghe tramite un meccanismo chunk-recursive che riutilizza i descrittori memorizzati nella cache dai chunk precedenti. I risultati sperimentali mostrano che FlashVGGT raggiunge un'accuratezza di ricostruzione competitiva con VGGT, riducendo il tempo di inferenza a solo il 9,3% di quello di VGGT per 1.000 immagini, e scalando efficientemente a sequenze che superano le 3.000 immagini. La nostra pagina del progetto è disponibile all'indirizzo https://wzpscott.github.io/flashvggt_page/.
I modelli linguistici autoregressivi (AR) e i Modelli Linguistici a Diffusione (DLM) costituiscono i due principali paradigmi dei grandi modelli linguistici. Tuttavia, entrambi i paradigmi soffrono di capacità di ragionamento insufficienti. Il ragionamento umano si basa intrinsecamente su conoscenze e pensieri causali, che si riflettono nel linguaggio naturale. Ma nel paradigma AR, il linguaggio è modellato come previsione del token successivo (un ordine strettamente da sinistra a destra, token per token), mentre il linguaggio naturale stesso presenta strutture causali più flessibili. Nel paradigma DLM, il meccanismo di attenzione è completamente connesso, il che ignora completamente l'ordine causale. Per colmare questa lacuna, proponiamo un **M**odello **L**inguistico a **D**iffusione **G**uidato da **C**oncetti **C**ausali (C²DLM). Partendo dall'attenzione completamente connessa del DLM, C²DLM ottiene prima un grafo causale a livello concettuale dal modello insegnante, per poi guidare esplicitamente l'attenzione ad apprendere le relazioni causali tra i concetti. Concentrandosi sulle relazioni causali ed evitando l'interferenza da sottobiettivi difficili che implicano inversioni causali, C²DLM migliora del 12% con un'accelerazione dell'addestramento di circa 3,2 volte nel task COT-OrderPerturb e ottiene un guadagno medio dell'1,31% su sei task di ragionamento downstream. Maggiori dettagli nel repository ~https://github.com/Kairong-Han/C-2-DLM{qui}.
I modelli linguistici basati su diffusione con mascheramento (MDLM, Masked Diffusion Language Models) sono recentemente emersi come una promettente alternativa ai modelli linguistici autoregressivi (ARLM, Autoregressive Language Models), sfruttando un obiettivo di denoising che, in linea di principio, dovrebbe consentire un utilizzo del contesto più uniforme. In questo lavoro, esaminiamo le capacità di comprensione del contesto degli MDLM e identifichiamo due limitazioni chiave. In primo luogo, nonostante il loro obiettivo di addestramento più globale e il meccanismo di attenzione bidirezionale, similmente agli ARLM, gli MDLM mostrano un forte bias di località: le prestazioni sono altamente sensibili alla posizione delle informazioni rilevanti all'interno dell'input, favorendo il contesto locale rispetto a quello distante. In secondo luogo, dimostriamo che l'aggiunta di un numero elevato di token di maschera – necessari per la generazione – può degradare significativamente la comprensione del contesto. Attraverso ablazioni sistematiche, scopriamo che queste maschere agiscono come distrattori, riducendo la capacità del modello di elaborare le informazioni rilevanti. Per affrontare questo problema, introduciamo una funzione di loss indipendente dalle maschere che incoraggia le previsioni a rimanere invariate rispetto al numero di maschere aggiunte. Il fine-tuning con questo obiettivo mitiga sostanzialmente l'effetto distraente delle maschere, migliorando la robustezza degli MDLM. Nel complesso, i nostri risultati rivelano limitazioni critiche dell'attuale paradigma di addestramento degli MDLM e forniscono spunti pratici per costruire modelli linguistici basati sulla diffusione con una comprensione del contesto più solida.
I modelli visione-linguaggio agentivi vengono sempre più addestrati a "pensare con le immagini" richiamando operazioni visive. Tuttavia, dimostriamo che un'elevata accuratezza nella risposta finale spesso nasconde un ragionamento visivo non fedele: i modelli possono invocare strumenti su regioni irrilevanti o ignorarne completamente gli output, pur indovinando la risposta corretta. In questo lavoro, proponiamo innanzitutto un protocollo di valutazione della fedeltà che misura se gli output visivi intermedi (ad esempio, ritagli) contengano effettivamente le evidenze richieste. Ciò rivela che i recenti agenti visivi raggiungono un'elevata accuratezza finale ma mostrano bassi tassi di utilizzo fedele degli strumenti su benchmark di ricerca visiva. Introduciamo quindi CodeV, un agente visivo basato su codice addestrato con Tool-Aware Policy Optimization (TAPO). TAPO è un framework di RL a livello di processo che potenzia GRPO con ricompense dense definite direttamente sugli input e output degli strumenti visivi, anziché sui token del ragionamento a catena, rendendo la supervisione più facile da verificare e meno suscettibile a manipolazioni del reward. CodeV rappresenta gli strumenti visivi come codice Python eseguibile, e TAPO assegna ricompense passo-passo basate esclusivamente sulla domanda e sull'output dello strumento, incoraggiando un utilizzo sia necessario che coerente con le evidenze. In una pipeline a due stadi SFT+RL, CodeV raggiunge un'accuratezza competitiva o superiore aumentando sostanzialmente i tassi di utilizzo fedele degli strumenti su benchmark di ricerca visiva correlati. Oltre alla ricerca visiva, CodeV ottiene prestazioni solide su una gamma di benchmark di ragionamento multimodale e matematico, suggerendo che la supervisione esplicita del comportamento intermedio degli strumenti sia cruciale per costruire sistemi di ragionamento visivo agentivi e affidabili.
La dimostrazione automatizzata di teoremi di geometria euclidea, in particolare per problemi di livello Olimpiadi Internazionali della Matematica (IMO), rimane una sfida significativa e un importante focus di ricerca nell'ambito dell'Intelligenza Artificiale. In questo articolo, presentiamo un metodo altamente efficiente per la dimostrazione di teoremi geometrici che viene eseguito interamente su CPU senza fare affidamento su inferenze basate su reti neurali. Il nostro studio iniziale dimostra che una semplice strategia casuale per l'aggiunta di punti ausiliari può raggiungere prestazioni pari a quelle umane di livello medaglia d'argento alle IMO. Sviluppando questo concetto, proponiamo HAGeo, un metodo euristico per l'aggiunta di costruzioni ausiliarie nella deduzione geometrica, che risolve 28 dei 30 problemi del benchmark IMO-30, raggiungendo prestazioni di livello medaglia d'oro e superando AlphaGeometry, un competitivo approccio basato su reti neurali, con un margine considerevole. Per valutare il nostro metodo e gli approcci esistenti in modo più completo, abbiamo inoltre costruito HAGeo-409, un benchmark composto da 409 problemi di geometria con livelli di difficoltà valutati da esseri umani. Rispetto al diffusamente utilizzato IMO-30, il nostro benchmark presenta sfide maggiori e fornisce una valutazione più precisa, stabilendo un livello più elevato per la dimostrazione automatizzata di teoremi geometrici.
La prossima frontiera per la generazione video risiede nello sviluppo di modelli capaci di ragionamento zero-shot, dove la comprensione delle leggi scientifiche del mondo reale è cruciale per una modellizzazione accurata degli esiti fisici in condizioni diverse. Tuttavia, i benchmark video esistenti si basano sul senso comune fisico, offrendo una visione limitata delle capacità di ragionamento scientifico dei modelli video. Introduciamo VideoScience-Bench, un benchmark progettato per valutare la comprensione scientifica di livello universitario nei modelli video. Ogni prompt codifica uno scenario scientifico composito che richiede la comprensione e il ragionamento su molteplici concetti scientifici per generare il fenomeno corretto. Il benchmark comprende 200 prompt accuratamente selezionati, che abbracciano 14 argomenti e 103 concetti di fisica e chimica. Conduciamo valutazioni annotate da esperti su sette modelli video all'avanguardia in contesti T2V e I2V lungo cinque dimensioni: Coerenza con il Prompt, Congruenza del Fenomeno, Dinamismo Corretto, Immutabilità e Continuità Spazio-Temporale. Utilizzando un VLM-as-a-Judge per valutare le generazioni video, osserviamo una forte correlazione con le valutazioni umane. Per quanto a nostra conoscenza, VideoScience-Bench è il primo benchmark che valuta i modelli video non solo come generatori ma anche come ragionatori, richiedendo che le loro generazioni dimostrino una comprensione scientifica coerente con i fenomeni fisici e chimici attesi. I nostri dati e il codice di valutazione sono disponibili al seguente indirizzo: https://github.com/hao-ai-lab/VideoScience.
La modifica di video ritratto è un compito impegnativo che richiede un controllo flessibile ma preciso su un'ampia gamma di modifiche, come cambiamenti d'aspetto, editing delle espressioni o aggiunta di oggetti. La difficoltà principale risiede nel preservare il comportamento temporale originale del soggetto, richiedendo che ogni fotogramma modificato rimanga perfettamente sincronizzato con il corrispondente fotogramma sorgente. Presentiamo Sync-LoRA, un metodo per l'editing di video ritratto che ottiene modifiche visive di alta qualità mantenendo una sincronizzazione precisa a livello di fotogramma e la coerenza dell'identità. Il nostro approccio utilizza un modello di diffusione da immagine a video, in cui la modifica viene definita agendo sul primo fotogramma e poi propagata all'intera sequenza. Per abilitare una sincronizzazione accurata, addestriamo un LoRA in-context utilizzando video accoppiati che raffigurano identiche traiettorie di movimento ma differiscono nell'aspetto. Queste coppie vengono generate e curate automaticamente attraverso un processo di filtraggio basato sulla sincronizzazione, che seleziona solo gli esempi temporalmente più allineati per l'addestramento. Questa configurazione di training insegna al modello a combinare gli indizi di movimento dal video sorgente con i cambiamenti visivi introdotti nel primo fotogramma modificato. Addestrato su un insieme compatto e altamente curato di ritratti umani sincronizzati, Sync-LoRA generalizza a identità non viste e a modifiche diverse (ad esempio, modifica dell'aspetto, aggiunta di oggetti o cambiamento dello sfondo), gestendo in modo robusto le variazioni di posa ed espressione. I nostri risultati dimostrano un'elevata fedeltà visiva e una forte coerenza temporale, raggiungendo un solido equilibrio tra fedeltà della modifica e preservazione precisa del movimento.
Con i rapidi progressi di potenti modelli multimodali come GPT-4o, Nano Banana e Seedream 4.0 nell'ambito dell'Image Editing, il divario prestazionale tra modelli closed-source e open-source si sta ampliando, principalmente a causa della scarsità di dati di addestramento su larga scala e di alta qualità, nonché di benchmark completi in grado di diagnosticare le debolezze dei modelli attraverso comportamenti di editing diversificati. I metodi esistenti per la costruzione di dati affrontano un compromesso tra scala e qualità: le annotazioni umane sono di alta qualità ma non scalabili, mentre le pipeline automatizzate soffrono di propagazione degli errori e rumore. Per affrontare questo problema, introduciamo una pipeline dati leggera che sostituisce le multi-toolchain con un modello end-to-end e una fase unificata di post-verifica. Per un controllo di qualità scalabile, addestriamo un modello esperto da 7B per doppio compito, Qwen-Verify, per il rilevamento efficiente degli errori e la nuova didascalia delle istruzioni. Questa pipeline produce UnicEdit-10M, un dataset di 10 milioni di elementi che abbraccia vari task di editing, sia basilari che complessi. Proponiamo anche UnicBench, un benchmark generale che si estende oltre le modifiche di base per valutare esplicitamente il ragionamento spaziale e guidato dalla conoscenza. Per consentire una diagnosi granulare, introduciamo nuove metriche, tra cui la Coerenza delle Non-modifiche e l'Accuratezza del Ragionamento. La nostra analisi dei modelli mainstream su UnicBench ne rivela i limiti e fornisce direzioni chiare per la ricerca futura.
Con il rapido sviluppo dei Large Vision Language Models, l'attenzione nei compiti degli agenti per interfacce grafiche (GUI) si sta spostando da attività su schermate singole a sfide complesse di navigazione tra schermi. Tuttavia, gli ambienti GUI reali, come i software per PC e le app mobili, sono spesso complessi e proprietari, rendendo difficile ottenere le informazioni ambientali complete necessarie per l'addestramento e la valutazione degli agenti. Questa limitazione ostacola un'indagine sistematica e un benchmarking delle capacità di navigazione degli agenti. Per affrontare questa limitazione, introduciamo GUI Exploration Lab, un motore di ambiente simulato per la ricerca sulla navigazione degli agenti GUI che consente la definizione e la composizione flessibile di schermate, icone e grafi di navigazione, fornendo al contempo accesso completo alle informazioni ambientali per un addestramento e una valutazione approfonditi degli agenti. Attraverso esperimenti estesi, abbiamo riscontrato che il supervised fine-tuning consente una memorizzazione efficace della conoscenza di base, fungendo da fondamento cruciale per l'addestramento successivo. Basandosi su questo, il reinforcement learning a turno singolo migliora ulteriormente la generalizzazione a scenari non visti. Infine, il reinforcement learning a turni multipli favorisce lo sviluppo di strategie di esplorazione attraverso tentativi ed errori interattivi, portando a ulteriori miglioramenti nelle prestazioni di navigazione tra schermi. Convalidiamo i nostri metodi su benchmark sia statici che interattivi, dimostrando che i nostri risultati si generalizzano efficacemente a scenari reali. Questi risultati evidenziano i vantaggi degli approcci di reinforcement learning nella navigazione GUI e offrono una guida pratica per costruire agenti GUI più capaci e generalizzabili.
I modelli multimodali di grandi dimensioni hanno compiuto progressi notevoli sia nella comprensione che nella generazione. Recenti sforzi mirano a realizzare modelli multimodali unificati che integrino componenti eterogenei per supportare entrambe le capacità all'interno di un unico framework. Tuttavia, tale unificazione introduce inefficienze nell'inferenza; ad esempio, specifici task o campioni potrebbero non richiedere la conoscenza o la capacità completa del modello unificato. Tuttavia, una comprensione sistematica di come queste inefficienze si manifestino attraverso i diversi componenti rimane limitata. In questo lavoro, conduciamo prima un'analisi sistematica dei componenti dei modelli multimodali unificati utilizzando il pruning *training-free* come metodologia di indagine, considerando sia il pruning in profondità che la riduzione in ampiezza. Il nostro studio rivela che il componente di comprensione mostra una notevole comprimibilità sia nei task di comprensione che di generazione, risultando più pronunciata in quest'ultimo caso. Al contrario, i componenti di generazione sono altamente sensibili alla compressione, con una performance che si deteriora bruscamente anche con modici rapporti di compressione. Per affrontare questa limitazione, proponiamo l'Adattamento a Miscela di Esperti (*Mixture-of-Experts, MoE*), ispirato dai pattern di attivazione dinamica osservati tra diversi campioni. Questo approccio suddivide il modulo di generazione in più esperti e abilita un'attivazione sparsa per ripristinare la qualità della generazione. Validiamo l'efficacia dell'attivazione sparsa attraverso una messa a punto con esperti congelati (*expert-frozen tuning*) e dimostriamo ulteriormente che un adattamento completamente addestrabile fornisce miglioramenti aggiuntivi. Di conseguenza, il modello BAGEL adattato raggiunge performance paragonabili al modello completo attivando solo circa la metà dei suoi parametri. Il codice è rilasciato all'indirizzo https://github.com/Shwai-He/SparseUnifiedModel{questo link}.
I recenti framework di apprendimento per rinforzo per politiche di percezione visiva hanno iniziato a incorporare catene di ragionamento intermedie espresse in linguaggio naturale. Osservazioni empiriche indicano che tali ragionamenti intermedi puramente linguistici spesso riducono le prestazioni sui compiti di percezione. Sosteniamo che il problema centrale non risieda nel ragionamento in sé, ma nella sua forma: mentre queste catene effettuano un ragionamento semantico in uno spazio linguistico non strutturato, la percezione visiva richiede un ragionamento in uno spazio spaziale e centrato sugli oggetti. In risposta, introduciamo Artemis, un framework di apprendimento per politiche di percezione che esegue un ragionamento strutturato basato su proposte, dove ogni passo intermedio è rappresentato come una coppia (etichetta, riquadro di delimitazione) che cattura uno stato visivo verificabile. Questo design consente il tracciamento esplicito degli stati intermedi, una supervisione diretta sulla qualità delle proposte ed evita l'ambiguità introdotta dal ragionamento basato sul linguaggio. Artemis è costruito su Qwen2.5-VL-3B, raggiunge prestazioni elevate nei compiti di grounding e rilevamento e mostra una sostanziale generalizzazione ai compiti di conteggio e percezione geometrica. I miglioramenti consistenti in questi diversi contesti confermano che l'allineamento del ragionamento con le rappresentazioni spaziali potenzia l'apprendimento delle politiche di percezione. Grazie al suo ragionamento visivo potenziato, Artemis raggiunge anche prestazioni competitive su benchmark MLLM generali, illustrando come un ragionamento spazialmente ancorato fornisca una via principiata verso politiche di percezione scalabili e generali.
La globalizzazione dell'istruzione e la rapida crescita dell'apprendimento online hanno reso la localizzazione dei contenuti educativi una sfida cruciale. I materiali didattici sono intrinsecamente multimodali, combinando audio parlato con slide visive, il che richiede sistemi in grado di elaborare molteplici modalità di input. Per fornire un'esperienza di apprendimento accessibile e completa, le traduzioni devono preservare tutte le modalità: testo per la lettura, slide per la comprensione visiva e parlato per l'apprendimento uditivo. Presentiamo BOOM, un compagno didattico multilingue e multimodale che traduce congiuntamente l'audio delle lezioni e le slide per produrre output sincronizzati su tre modalità: testo tradotto, slide localizzate con elementi visivi preservati e sintesi vocale. Questo approccio end-to-end consente agli studenti di accedere alle lezioni nella loro lingua madre preservando integralmente il contenuto originale. I nostri esperimenti dimostrano che le trascrizioni consapevoli delle slide producono anche benefici a cascata per compiti downstream come la riassunzione e il question answering. Rilasciamo il nostro codice per la traduzione delle slide all'indirizzo https://github.com/saikoneru/image-translator e lo integriamo in Lecture Translator all'indirizzo https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Tutto il codice e i modelli rilasciati sono concessi in licenza MIT License.}
I sistemi all'avanguardia per la Generazione di Scene Graph da Video (VSGG) forniscono una comprensione visiva strutturata, ma operano come pipeline chiuse e feed-forward, senza la capacità di incorporare una guida umana. Al contrario, i modelli di segmentazione promptable come SAM2 consentono un'interazione utente precisa, ma mancano di ragionamento semantico o relazionale. Introduciamo Click2Graph, il primo framework interattivo per la Generazione Panottica di Scene Graph da Video (PVSG) che unisce il prompting visivo con la comprensione spaziale, temporale e semantica. Partendo da un singolo input utente, come un click o un bounding box, Click2Graph segmenta e traccia il soggetto nel tempo, scopre autonomamente gli oggetti interagenti e predice triplette <soggetto, oggetto, predicato> per formare un scene graph temporalmente consistente. Il nostro framework introduce due componenti chiave: un Modulo di Scoperta Interattiva Dinamica che genera prompt di oggetti condizionati al soggetto, e una Testa di Classificazione Semantica che esegue un ragionamento congiunto su entità e predicati. Esperimenti sul benchmark OpenPVSG dimostrano che Click2Graph stabilisce una solida base per la PVSG guidata dall'utente, mostrando come il prompting umano possa essere combinato con il grounding panottico e l'inferenza relazionale per abilitare una comprensione delle scene video controllabile e interpretabile.