Articoli di ricerca IA selezionati quotidianamente con traduzioni
Negli ultimi anni, una moltitudine di modelli di base open-source è emersa, ottenendo progressi significativi in alcuni campi ampiamente seguiti, con prestazioni molto vicine a quelle dei modelli closed-source. Tuttavia, in campi scientifici professionali ad alto valore ma più impegnativi, si continua a fare affidamento su modelli specializzati o i progressi dei modelli di base generali rimangono significativamente indietro rispetto a quelli nelle aree più popolari, risultando ben lontani dall’essere sufficienti per trasformare la ricerca scientifica e lasciando un divario sostanziale tra i modelli open-source e quelli closed-source in questi ambiti scientifici. Per ridurre questo divario e fare un ulteriore passo verso l’Intelligenza Artificiale Generale (AGI), presentiamo Intern-S1, uno specialista generalista dotato di capacità di comprensione e ragionamento generale con competenze per analizzare dati multimodali scientifici. Intern-S1 è un modello multimodale Mixture-of-Experts (MoE) con 28 miliardi di parametri attivati e 241 miliardi di parametri totali, pre-addestrato continuamente su 5T di token, inclusi oltre 2.5T di token provenienti da domini scientifici. Nella fase di post-addestramento, Intern-S1 viene sottoposto a un apprendimento per rinforzo (RL) offline e poi online in InternBootCamp, dove proponiamo il Mixture-of-Rewards (MoR) per sinergizzare l’addestramento RL su più di 1000 task simultaneamente. Attraverso innovazioni integrate negli algoritmi, nei dati e nei sistemi di addestramento, Intern-S1 ha raggiunto prestazioni di primo livello nell’addestramento RL online. Su benchmark di valutazione completi, Intern-S1 dimostra prestazioni competitive nei task di ragionamento generale tra i modelli open-source e supera significativamente i modelli open-source nei domini scientifici, superando i modelli closed-source all’avanguardia in task professionali come la pianificazione della sintesi molecolare, la previsione delle condizioni di reazione e la previsione delle stabilità termodinamiche dei cristalli. I nostri modelli sono disponibili su https://huggingface.co/internlm/Intern-S1.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale nei compiti di ragionamento attraverso metodi di scalatura al momento del test come l'autoconsistenza con voto a maggioranza. Tuttavia, questo approccio spesso porta a rendimenti decrescenti in termini di accuratezza e a un elevato sovraccarico computazionale. Per affrontare queste sfide, introduciamo Deep Think with Confidence (DeepConf), un metodo semplice ma potente che migliora sia l'efficienza del ragionamento che le prestazioni al momento del test. DeepConf sfrutta i segnali di confidenza interni al modello per filtrare dinamicamente le tracce di ragionamento di bassa qualità durante o dopo la generazione. Non richiede ulteriori addestramenti del modello o ottimizzazione di iperparametri e può essere integrato senza soluzione di continuità nei framework di servizio esistenti. Valutiamo DeepConf su una varietà di compiti di ragionamento e sui più recenti modelli open-source, tra cui Qwen 3 e la serie GPT-OSS. In particolare, su benchmark impegnativi come AIME 2025, DeepConf@512 raggiunge un'accuratezza fino al 99,9% e riduce i token generati fino all'84,7% rispetto al pensiero parallelo completo.
Questo articolo introduce GUI-Owl, un modello di agente GUI fondamentale che raggiunge prestazioni all'avanguardia tra i modelli end-to-end open-source su dieci benchmark GUI, coprendo ambienti desktop e mobili, inclusi grounding, risposta a domande, pianificazione, decision-making e conoscenza procedurale. GUI-Owl-7B ottiene 66.4 su AndroidWorld e 29.4 su OSWorld. Basandoci su questo, proponiamo Mobile-Agent-v3, un framework di agente GUI generico che migliora ulteriormente le prestazioni a 73.3 su AndroidWorld e 37.7 su OSWorld, stabilendo un nuovo stato dell'arte per i framework di agenti GUI open-source. GUI-Owl incorpora tre innovazioni chiave: (1) Infrastruttura di Ambiente su Larga Scala: un ambiente virtuale basato su cloud che copre Android, Ubuntu, macOS e Windows, abilitando il nostro framework di Produzione di Traiettorie GUI Auto-Evolvente. Questo genera dati di interazione di alta qualità tramite generazione automatica di query e validazione della correttezza, sfruttando GUI-Owl per affinare iterativamente le traiettorie, formando un ciclo di auto-miglioramento. Supporta pipeline di dati diversificate e riduce l'annotazione manuale. (2) Capacità Fondamentali Diversificate dell'Agente: integrando grounding dell'interfaccia utente, pianificazione, semantica delle azioni e modelli di ragionamento, GUI-Owl supporta il decision-making end-to-end e può fungere da componente modulare in sistemi multi-agente. (3) RL Scalabile nell'Ambiente: sviluppiamo un framework di reinforcement learning scalabile con addestramento completamente asincrono per l'allineamento al mondo reale. Introduciamo anche l'ottimizzazione relativa della politica basata sulla traiettoria (TRPO) per il RL online, raggiungendo 34.9 su OSWorld. GUI-Owl e Mobile-Agent-v3 sono open-source su https://github.com/X-PLUG/MobileAgent.
La capacità di chiamare strumenti è emersa come una funzionalità cruciale per consentire agli agenti di intelligenza artificiale di interagire con il mondo reale e risolvere compiti complessi. Sebbene il Model Context Protocol (MCP) fornisca un potente framework standardizzato per l'integrazione di strumenti, esiste un divario significativo nella valutazione di quanto efficacemente gli agenti di IA possano risolvere compiti multi-step utilizzando strumenti MCP diversificati in scenari realistici e dinamici. In questo lavoro, presentiamo LiveMCP-101, un benchmark composto da 101 query del mondo reale accuratamente selezionate, perfezionate attraverso riscritture iterative tramite LLM e revisione manuale, che richiedono l'uso coordinato di più strumenti MCP, tra cui ricerca web, operazioni su file, ragionamento matematico e analisi dei dati. Inoltre, introduciamo un nuovo approccio di valutazione che sfrutta piani di esecuzione ground-truth anziché output grezzi delle API, riflettendo meglio la natura evolutiva degli ambienti reali. Gli esperimenti mostrano che anche i migliori LLM raggiungono un tasso di successo inferiore al 60%, evidenziando sfide significative nell'orchestrazione degli strumenti. Ablazioni dettagliate e analisi degli errori rivelano ulteriormente modalità di fallimento distinte e inefficienze nell'uso dei token, indicando direzioni concrete per il miglioramento dei modelli attuali. LiveMCP-101 stabilisce uno standard rigoroso per valutare le capacità degli agenti nel mondo reale, avanzando verso sistemi di IA autonomi che eseguono in modo affidabile compiti complessi attraverso l'uso di strumenti.
Presentiamo Waver, un modello di base ad alte prestazioni per la generazione unificata di immagini e video. Waver è in grado di generare direttamente video con una durata compresa tra 5 e 10 secondi a una risoluzione nativa di 720p, che vengono successivamente upscalati a 1080p. Il modello supporta contemporaneamente la generazione da testo a video (T2V), da immagine a video (I2V) e da testo a immagine (T2I) all'interno di un unico framework integrato. Introduciamo un'architettura Hybrid Stream DiT per migliorare l'allineamento delle modalità e accelerare la convergenza dell'addestramento. Per garantire la qualità dei dati di addestramento, abbiamo stabilito una pipeline completa di curatela dei dati e abbiamo annotato manualmente e addestrato un modello di qualità video basato su MLLM per filtrare i campioni di qualità più elevata. Inoltre, forniamo ricette dettagliate per l'addestramento e l'inferenza per facilitare la generazione di video di alta qualità. Basandoci su questi contributi, Waver eccelle nel catturare movimenti complessi, raggiungendo un'ampiezza del movimento superiore e una coerenza temporale nella sintesi video. In particolare, si colloca tra i primi 3 nelle classifiche T2V e I2V su Artificial Analysis (dati aggiornati al 30-07-2025 10:00 GMT+8), superando costantemente i modelli open-source esistenti e eguagliando o superando le soluzioni commerciali all'avanguardia. Speriamo che questo rapporto tecnico aiuti la comunità a addestrare in modo più efficiente modelli di generazione video di alta qualità e ad accelerare i progressi nelle tecnologie di generazione video. Pagina ufficiale: https://github.com/FoundationVision/Waver.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno consentito agli agenti di intelligenza artificiale di generare autonomamente proposte scientifiche, condurre esperimenti, redigere articoli e svolgere revisioni tra pari. Tuttavia, questa ondata di contenuti di ricerca generati dall'IA si scontra con un ecosistema di pubblicazione frammentato e in gran parte chiuso. Le riviste e le conferenze tradizionali si basano sulla revisione umana tra pari, rendendole difficili da scalare e spesso riluttanti ad accettare contenuti di ricerca generati dall'IA; i server di preprint esistenti (ad esempio arXiv) mancano di meccanismi rigorosi di controllo della qualità. Di conseguenza, una quantità significativa di ricerche di alta qualità generate dall'IA manca di sedi appropriate per la diffusione, ostacolandone il potenziale di avanzamento scientifico. Per affrontare queste sfide, introduciamo aiXiv, una piattaforma di accesso aperto di nuova generazione per scienziati umani e IA. La sua architettura multi-agente consente a proposte di ricerca e articoli di essere sottoposti, revisionati e perfezionati in modo iterativo sia da scienziati umani che da IA. Fornisce inoltre interfacce API e MCP che consentono l'integrazione senza soluzione di continuità di scienziati umani e IA eterogenei, creando un ecosistema scalabile ed estensibile per la scoperta scientifica autonoma. Attraverso esperimenti estensivi, dimostriamo che aiXiv è una piattaforma affidabile e robusta che migliora significativamente la qualità delle proposte di ricerca e degli articoli generati dall'IA dopo una revisione e un perfezionamento iterativi su aiXiv. Il nostro lavoro getta le basi per un ecosistema di accesso aperto di nuova generazione per scienziati IA, accelerando la pubblicazione e la diffusione di contenuti di ricerca di alta qualità generati dall'IA. Il codice è disponibile all'indirizzo https://github.com/aixiv-org. Il sito web è disponibile all'indirizzo https://forms.gle/DxQgCtXFsJ4paMtn8.
La generazione di contenuti 3D ha recentemente attirato un significativo interesse di ricerca grazie alle sue applicazioni in VR/AR e nell'AI incarnata. In questo lavoro, affrontiamo il compito impegnativo di sintetizzare più asset 3D all'interno di una singola immagine di scena. Nello specifico, i nostri contributi sono quattro: (i) presentiamo SceneGen, un nuovo framework che prende in input un'immagine di scena e le corrispondenti maschere degli oggetti, producendo simultaneamente più asset 3D con geometria e texture. È importante notare che SceneGen opera senza la necessità di ottimizzazione o recupero di asset; (ii) introduciamo un nuovo modulo di aggregazione delle feature che integra informazioni locali e globali della scena da encoder visivi e geometrici all'interno del modulo di estrazione delle feature. Accoppiato con una testa di posizione, ciò consente la generazione di asset 3D e delle loro posizioni spaziali relative in un unico passaggio in avanti; (iii) dimostriamo l'estensibilità diretta di SceneGen a scenari di input multi-immagine. Nonostante sia stato addestrato esclusivamente su input a singola immagine, il nostro design architetturale consente prestazioni di generazione migliorate con input multi-immagine; e (iv) valutazioni quantitative e qualitative estensive confermano l'efficienza e le robuste capacità di generazione del nostro approccio. Crediamo che questo paradigma offra una soluzione innovativa per la generazione di contenuti 3D di alta qualità, potenzialmente avanzando le sue applicazioni pratiche nei compiti a valle. Il codice e il modello saranno pubblicamente disponibili all'indirizzo: https://mengmouxu.github.io/SceneGen.
Negli ultimi anni, con il rapido sviluppo della profondità e dell'ampiezza delle capacità dei modelli linguistici di grandi dimensioni, sono emersi sempre più numerosi benchmark di valutazione corrispondenti. Come strumento di valutazione quantitativa delle prestazioni dei modelli, i benchmark non sono solo un mezzo fondamentale per misurare le capacità dei modelli, ma anche un elemento chiave nel guidare la direzione dello sviluppo dei modelli e nel promuovere l'innovazione tecnologica. Per la prima volta, esaminiamo sistematicamente lo stato attuale e lo sviluppo dei benchmark per i modelli linguistici di grandi dimensioni, classificando 283 benchmark rappresentativi in tre categorie: capacità generali, specifiche per dominio e specifiche per obiettivo. I benchmark di capacità generale coprono aspetti come la linguistica di base, la conoscenza e il ragionamento; i benchmark specifici per dominio si concentrano su campi come le scienze naturali, le discipline umanistiche e sociali e la tecnologia ingegneristica; i benchmark specifici per obiettivo si occupano di rischi, affidabilità, agenti, ecc. Sottolineiamo che i benchmark attuali presentano problemi come punteggi gonfiati a causa della contaminazione dei dati, valutazioni ingiuste dovute a pregiudizi culturali e linguistici, e la mancanza di valutazione sulla credibilità del processo e sugli ambienti dinamici, e forniamo un paradigma di progettazione di riferimento per l'innovazione futura dei benchmark.
I modelli parametrici del corpo offrono una rappresentazione 3D espressiva degli esseri umani in un'ampia gamma di pose, forme ed espressioni facciali, tipicamente derivata dall'apprendimento di una base su mesh 3D registrate. Tuttavia, gli approcci esistenti per la modellazione delle mesh umane faticano a catturare variazioni dettagliate tra diverse pose e forme del corpo, principalmente a causa della limitata diversità dei dati di addestramento e di ipotesi di modellazione restrittive. Inoltre, il paradigma comune ottimizza prima la superficie esterna del corpo utilizzando una base lineare, per poi regredire le articolazioni scheletriche interne dai vertici della superficie. Questo approccio introduce problematiche dipendenze tra lo scheletro interno e i tessuti molli esterni, limitando il controllo diretto sull'altezza del corpo e sulla lunghezza delle ossa. Per affrontare questi problemi, presentiamo ATLAS, un modello corporeo ad alta fedeltà appreso da 600k scansioni ad alta risoluzione acquisite utilizzando 240 telecamere sincronizzate. A differenza dei metodi precedenti, disaccoppiamo esplicitamente le basi della forma e dello scheletro ancorando la nostra rappresentazione mesh allo scheletro umano. Questo disaccoppiamento consente una maggiore espressività della forma, una personalizzazione fine degli attributi corporei e un adattamento dei punti chiave indipendente dalle caratteristiche dei tessuti molli esterni. ATLAS supera i metodi esistenti adattando soggetti non visti in pose diverse con maggiore precisione, e le valutazioni quantitative dimostrano che le nostre correzioni di pose non lineari catturano le pose complesse in modo più efficace rispetto ai modelli lineari.
La ricostruzione di corpi umani 3D da viste sparse è un argomento di grande interesse, cruciale per ampliare le relative applicazioni. In questo articolo, proponiamo un compito particolarmente impegnativo ma di grande valore: ricostruire il corpo umano utilizzando solo due immagini, ovvero la vista frontale e quella posteriore, il che può ridurre significativamente le barriere per gli utenti che desiderano creare i propri avatar digitali 3D. Le principali sfide risiedono nella difficoltà di costruire una coerenza 3D e nel recuperare le informazioni mancanti da un input estremamente sparso. Riprogettiamo un modello di ricostruzione geometrica basato su modelli di ricostruzione di base per prevedere nuvole di punti coerenti, anche quando le immagini di input hanno sovrapposizioni limitate, grazie a un ampio addestramento su dati umani. Inoltre, viene applicato un algoritmo di miglioramento per integrare le informazioni di colore mancanti, ottenendo così nuvole di punti umane complete con colori, che vengono direttamente trasformate in Gaussiane 3D per una migliore qualità di rendering. Gli esperimenti dimostrano che il nostro metodo può ricostruire l'intero corpo umano in 190 ms su una singola NVIDIA RTX 4090, utilizzando due immagini con una risoluzione di 1024x1024, mostrando prestazioni all'avanguardia sui dataset THuman2.0 e cross-dominio. Inoltre, il nostro metodo è in grado di completare la ricostruzione umana anche con immagini acquisite da dispositivi mobili a basso costo, riducendo i requisiti per la raccolta dei dati. Demo e codice sono disponibili all'indirizzo https://hustvl.github.io/Snap-Snap/.
I recenti progressi nei modelli di diffusione hanno portato una notevole fedeltà visiva all'editing di immagini guidato da istruzioni. Tuttavia, il loro processo globale di denoising intrinsecamente intreccia la regione modificata con l'intero contesto dell'immagine, portando a modifiche spurie indesiderate e a un compromesso nell'aderenza alle istruzioni di editing. Al contrario, i modelli autoregressivi offrono un paradigma distinto formulando la sintesi di immagini come un processo sequenziale su token visivi discreti. Il loro meccanismo causale e compositivo supera naturalmente le sfide di aderenza dei metodi basati sulla diffusione. In questo articolo, presentiamo VAREdit, un framework autoregressivo visivo (VAR) che riformula l'editing di immagini come un problema di previsione alla scala successiva. Condizionato sulle caratteristiche dell'immagine sorgente e sulle istruzioni testuali, VAREdit genera caratteristiche target multi-scala per ottenere modifiche precise. Una sfida centrale in questo paradigma è come condizionare efficacemente i token dell'immagine sorgente. Osserviamo che le caratteristiche sorgente alla scala più fine non possono guidare efficacemente la previsione delle caratteristiche target più grossolane. Per colmare questa lacuna, introduciamo un modulo di Riferimento Allineato alla Scala (SAR), che inietta informazioni di condizionamento corrispondenti alla scala nel primo livello di self-attention. VAREdit dimostra significativi progressi sia nell'aderenza all'editing che nell'efficienza. Su benchmark standard, supera i principali metodi basati sulla diffusione con un punteggio GPT-Balance superiore del 30%+. Inoltre, completa un editing 512x512 in 1,2 secondi, rendendolo 2,2 volte più veloce rispetto a UltraEdit di dimensioni simili. I modelli sono disponibili su https://github.com/HiDream-ai/VAREdit.
La compagnia AI, in cui gli utenti sviluppano legami emotivi con i sistemi di intelligenza artificiale, è emersa come un fenomeno significativo con implicazioni sia positive che preoccupanti. Introduciamo l'Interactions and Machine Attachment Benchmark (INTIMA), un benchmark per valutare i comportamenti di compagnia nei modelli linguistici. Basandoci su teorie psicologiche e dati degli utenti, sviluppiamo una tassonomia di 31 comportamenti suddivisi in quattro categorie e 368 prompt mirati. Le risposte a questi prompt vengono valutate come rafforzanti della compagnia, mantenenti i confini o neutrali. Applicando INTIMA a Gemma-3, Phi-4, o3-mini e Claude-4, emerge che i comportamenti che rafforzano la compagnia rimangono molto più comuni in tutti i modelli, sebbene si osservino differenze marcate tra di essi. Diversi fornitori commerciali privilegiano categorie diverse all'interno delle parti più sensibili del benchmark, il che è preoccupante poiché sia l'impostazione appropriata dei confini che il supporto emotivo sono cruciali per il benessere degli utenti. Questi risultati evidenziano la necessità di approcci più coerenti nella gestione delle interazioni cariche di emotività.
Lo sviluppo dei Large Speech-Language Models (LSLMs) è stato rallentato da architetture frammentate e da una mancanza di trasparenza, ostacolando il confronto sistematico e la riproducibilità della ricerca. A differenza del dominio vision-language, il campo degli LSLM soffre della pratica comune di rilasciare i pesi dei modelli senza i corrispondenti dati di addestramento e configurazioni. Per colmare queste lacune critiche, introduciamo LLaSO, il primo framework completamente aperto e end-to-end per il modeling su larga scala di speech-language. LLaSO fornisce alla comunità tre risorse essenziali: (1) LLaSO-Align, un corpus di allineamento speech-text da 12 milioni di istanze; (2) LLaSO-Instruct, un dataset multi-task per l'instruction-tuning da 13,5 milioni di istanze; e (3) LLaSO-Eval, un benchmark riproducibile per la valutazione standardizzata. Per validare il nostro framework, abbiamo costruito e rilasciato LLaSO-Base, un modello di riferimento da 3,8 miliardi di parametri addestrato esclusivamente sui nostri dati pubblici. Raggiunge un punteggio normalizzato di 0,72, stabilendo una baseline forte e riproducibile che supera modelli comparabili. La nostra analisi rivela che, sebbene una copertura più ampia dell'addestramento migliori le prestazioni, persistono significativi gap di generalizzazione su task non visti, in particolare in scenari puramente audio. Rilasciando l'intero stack di dati, benchmark e modelli, LLaSO stabilisce uno standard aperto di base per unificare gli sforzi di ricerca e accelerare il progresso guidato dalla comunità negli LSLM. Rilasciamo il codice, il dataset, i modelli pre-addestrati e i risultati su https://github.com/EIT-NLP/LLaSO.
Le mappe digitali interattive hanno rivoluzionato il modo in cui le persone viaggiano e apprendono il mondo; tuttavia, si basano su dati strutturati preesistenti nei database GIS (ad esempio, reti stradali, indici di punti di interesse), limitando la loro capacità di affrontare domande geo-visuali relative all'aspetto del mondo. Presentiamo la nostra visione per gli Agenti Geo-Visuali—agenti AI multimodali in grado di comprendere e rispondere a interrogativi visivo-spaziali complessi sul mondo analizzando vasti repository di immagini geospaziali, tra cui vedute stradali (ad esempio, Google Street View), foto basate su luoghi (ad esempio, TripAdvisor, Yelp) e immagini aeree (ad esempio, foto satellitari) combinate con fonti di dati GIS tradizionali. Definiamo la nostra visione, descriviamo approcci di rilevamento e interazione, forniamo tre esempi e elenchiamo le principali sfide e opportunità per il lavoro futuro.
I modelli di ricompensa basati sul processo (PRM) sono emersi come un quadro promettente per supervisionare il ragionamento intermedio nei grandi modelli linguistici (LLM). Tuttavia, i PRM esistenti sono principalmente addestrati su domini generali o STEM (Scienza, Tecnologia, Ingegneria e Matematica) e risultano carenti in contesti specifici come quello finanziario, dove il ragionamento è più strutturato, simbolico e sensibile alla correttezza fattuale e normativa. Introduciamo Fin-PRM, un PRM specializzato nel dominio e consapevole delle traiettorie, progettato per valutare i passaggi di ragionamento intermedi nei compiti finanziari. Fin-PRM integra una supervisione della ricompensa a livello di passaggio e di traiettoria, consentendo una valutazione granulare delle tracce di ragionamento allineate con la logica finanziaria. Applichiamo Fin-PRM sia in contesti di apprendimento della ricompensa offline che online, supportando tre applicazioni chiave: (i) selezionare traiettorie di ragionamento di alta qualità per il fine-tuning supervisionato basato sulla distillazione, (ii) fornire ricompense dense a livello di processo per l'apprendimento per rinforzo, e (iii) guidare l'inferenza Best-of-N informata dalla ricompensa al momento del test. I risultati sperimentali su benchmark di ragionamento finanziario, inclusi CFLUE e FinQA, dimostrano che Fin-PRM supera costantemente i PRM generici e i forti baseline di dominio nella qualità della selezione delle traiettorie. I modelli downstream addestrati con Fin-PRM mostrano miglioramenti sostanziali rispetto ai baseline, con guadagni del 12,9% nell'apprendimento supervisionato, del 5,2% nell'apprendimento per rinforzo e del 5,1% nelle prestazioni al momento del test. Questi risultati evidenziano il valore della modellazione della ricompensa specializzata nel dominio per allineare i LLM con il ragionamento finanziario di livello esperto. Le risorse del nostro progetto saranno disponibili all'indirizzo https://github.com/aliyun/qwen-dianjin.
Comprendere i video richiede più che rispondere a domande aperte; necessita della capacità di individuare quando si verificano gli eventi e come le entità interagiscono nel tempo. Sebbene i recenti Video LLM abbiano compiuto progressi notevoli nel ragionamento olistico, rimangono approssimativi nella percezione temporale: i timestamp sono codificati solo implicitamente, le caratteristiche a livello di frame sono deboli nel catturare la continuità, e l'allineamento tra linguaggio e visione spesso si discosta dalle entità di interesse. In questo articolo, presentiamo Grounded VideoDiT, un Video LLM progettato per superare queste limitazioni attraverso tre innovazioni chiave. Innanzitutto, un encoder Diffusion Temporal Latent (DTL) migliora la sensibilità ai confini e mantiene la coerenza temporale. In secondo luogo, rappresentazioni basate su oggetti legano esplicitamente le entità interrogate a evidenze visive localizzate, rafforzando l'allineamento. Terzo, uno schema di token misti con token temporali discreti fornisce una modellizzazione esplicita dei timestamp, consentendo un ragionamento temporale fine. Insieme, questi design dotano Grounded VideoDiT di robuste capacità di grounding, come dimostrato dai risultati all'avanguardia su Charades STA, NExT GQA e su molteplici benchmark di VideoQA.