Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Ling 2.0, una serie di modelli linguistici di base orientati al ragionamento, costruita sul principio per cui ogni attivazione potenzia la capacità di ragionamento. Progettata per scalare da decine di miliardi a un trilione di parametri sotto un paradigma unificato di Mixture-of-Experts (MoE), Ling 2.0 enfatizza un'elevata sparsità, una consistenza trasversale alle scale e un'efficienza guidata da leggi di scaling empiriche. La serie include tre modelli "non-thinking" (instruct) - Ling-mini-2.0, Ling-flash-2.0 e Ling-1T - che spaziano da 16B a 1T di parametri totali e raggiungono un'efficienza computazionale attiva fino a 7 volte superiore rispetto alle controparti dense. Ling 2.0 integra innovazioni coordinate nell'architettura del modello, nel pre-training, nel post-training e nelle infrastrutture: un MoE ad alta sparsità con MTP per un ragionamento efficiente, dati orientati al ragionamento e attivazione CoT a metà training, fine-tuning basato su rinforzo (DFT, Evo-CoT) e training full-scale in FP8 con pipeline eterogenee a grana fine. Alla scala del trilione, Ling-1T stabilisce una nuova frontiera di Pareto tra accuratezza nel ragionamento ed efficienza computazionale, dimostrando che l'attivazione sparsa, quando allineata correttamente con gli obiettivi di ragionamento, abilta un'intelligenza scalabile ed efficiente. Nel complesso, Ling 2.0 fornisce una base coerente, aperta ed efficiente per far progredire i futuri modelli di ragionamento e pensiero, inclusa la serie Ring costruita sulla stessa base.
Le politiche implicite parametrizzate da modelli generativi, come Diffusion Policy, sono diventate lo standard per l'apprendimento di politiche e i modelli Visione-Linguaggio-Azione (VLA) nella robotica. Tuttavia, questi approcci soffrono spesso di elevati costi computazionali, bias di esposizione e dinamiche di inferenza instabili, che portano a divergenze sotto shift distribuzionali. I Modelli Basati su Energia (EBM) affrontano questi problemi apprendendo landscape energetici end-to-end e modellando dinamiche di equilibrio, offrendo una maggiore robustezza e una riduzione del bias di esposizione. Nonostante ciò, le politiche parametrizzate da EBM hanno storicamente faticato a scalare efficacemente. Recenti lavori sugli Energy-Based Transformer (EBT) dimostrano la scalabilità degli EBM verso spazi ad alta dimensionalità, ma il loro potenziale per risolvere le sfide fondamentali nei modelli fisicamente incarnati rimane inesplorato. Introduciamo una nuova architettura basata su energia, EBT-Policy, che risolve problemi chiave in contesti robotici e del mondo reale. In varie attività sia simulate che nel mondo reale, EBT-Policy supera costantemente le politiche basate su diffusione, richiedendo al contempo meno calcolo durante l'addestramento e l'inferenza. Notevolmente, in alcune attività converge in soli due passi di inferenza, una riduzione di 50 volte rispetto ai 100 passi di Diffusion Policy. Inoltre, EBT-Policy mostra capacità emergenti non osservate nei modelli precedenti, come il recupero zero-shot da sequenze di azioni fallite utilizzando solo la clonazione del comportamento e senza un addestramento esplicito al ripristino. Sfruttando la sua energia scalare per inferenza consapevole dell'incertezza e allocazione dinamica del calcolo, EBT-Policy offre una strada promettente verso comportamenti robotici robusti e generalizzabili sotto shift distribuzionali.
Il Test-Time Scaling (TTS) migliora i grandi modelli linguistici (LLM) allocando calcolo aggiuntivo durante l'inferenza, tipicamente attraverso scaling parallelo, sequenziale o ibrido. Tuttavia, gli studi precedenti spesso assumono architetture di collaborazione fisse (ad esempio, topologie) e un utilizzo a modello singolo, trascurando il fatto che le architetture ottimali e le combinazioni di modelli possano variare a seconda dei task. Pertanto, studiamo il nuovo problema della ricerca di combinazioni di modelli e architetture computazionalmente ottimali nel TTS sotto un budget fisso. Lo formalizziamo come un grafo di collaborazione multi-LLM, in cui i nodi codificano ruoli e assegnazioni di modelli LLM, e gli archi catturano il flusso informativo. Questo problema è impegnativo perché (i) lo spazio combinatorio di ricerca è proibitivamente grande e (ii) i requisiti specifici del task richiedono progettazioni su misura. Per affrontarli, riformuliamo il problema come un'ottimizzazione probabilistica di grafi e, attraverso esperimenti pilota, ricaviamo tre intuizioni empiriche sui grafi di collaborazione TTS. Guidati da queste intuizioni, proponiamo Agent-REINFORCE, un framework potenziato da agenti LLM che rispecchia la pipeline REINFORCE mappando sampling-gradiente-aggiornamento in sampling-feedback-aggiornamento, dove il feedback funge da gradiente testuale per aggiornare il grafo probabilistico e cercare efficientemente grafi di collaborazione multi-LLM ottimali. Gli esperimenti mostrano che Agent-REINFORCE supera le baseline tradizionali e basate su LLM sia nell'efficienza campionaria che nelle prestazioni di ricerca, e identifica efficacemente grafi ottimali sotto obiettivi congiunti di accuratezza e latenza d'inferenza.
Introduciamo [Cosmos-Predict2.5], l'ultima generazione dei Modelli Fondamentali del Mondo Cosmos per l'Intelligenza Artificiale Fisica. Basato su un'architettura di tipo flow-based, [Cosmos-Predict2.5] unifica la generazione Text2World, Image2World e Video2World in un unico modello e sfrutta [Cosmos-Reason1], un modello visione-linguaggio per l'IA Fisica, per fornire una contestualizzazione testuale più ricca e un controllo più fine sulla simulazione del mondo. Addestrato su 200 milioni di clip video selezionati e raffinato con un post-addestramento basato su apprendimento per rinforzo, [Cosmos-Predict2.5] raggiunge miglioramenti sostanziali rispetto a [Cosmos-Predict1] nella qualità video e nell'allineamento alle istruzioni, con modelli rilasciati alle scale di 2B e 14B parametri. Queste capacità abilitano una generazione di dati sintetici, una valutazione delle policy e una simulazione a ciclo chiuso più affidabili per la robotica e i sistemi autonomi. Estendiamo ulteriormente la famiglia con [Cosmos-Transfer2.5], un framework in stile control-net per la traduzione del mondo Sim2Real e Real2Real. Nonostante sia 3,5 volte più piccolo di [Cosmos-Transfer1], offre una generazione video a lungo orizzonte con fedeltà superiore e robustezza. Nel complesso, questi progressi stabiliscono [Cosmos-Predict2.5] e [Cosmos-Transfer2.5] come strumenti versatili per lo scaling dell'intelligenza incarnata. Per accelerare la ricerca e lo sviluppo nell'IA Fisica, rilasciamo il codice sorgente, i checkpoint pre-addestrati e benchmark selezionati sotto la licenza NVIDIA Open Model License ai siti https://github.com/nvidia-cosmos/cosmos-predict2.5 e https://github.com/nvidia-cosmos/cosmos-transfer2.5. Speriamo che queste risorse open abbassino la barriera all'adozione e favoriscano l'innovazione nella costruzione della prossima generazione di intelligenza incarnata.
I recenti progressi nei modelli generativi multimodali hanno portato a sostanziali miglioramenti nell'editing delle immagini. Tuttavia, gli attuali modelli generativi continuano a incontrare difficoltà nella gestione di compiti di editing complessi e diversificati che richiedono ragionamento implicito, evidenziando la necessità di un benchmark completo per valutare sistematicamente le loro prestazioni in vari scenari di ragionamento. I benchmark esistenti si concentrano principalmente sulla trasformazione di attributi di oggetti singoli in scenari realistici, i quali, sebbene efficaci, presentano due sfide principali: (1) trascurano in larga misura le interazioni tra oggetti multipli e gli scenari di gioco che coinvolgono regole definite dall'uomo, comuni nelle applicazioni reali; (2) si basano esclusivamente su riferimenti testuali per valutare le immagini generate, rischiando potenziali giudizi errati sistematici, specialmente in scenari di ragionamento complessi. A tal fine, questo lavoro propone UniREditBench, un benchmark unificato per la valutazione dell'editing basato sul ragionamento. Comprende 2.700 campioni accuratamente curati, che coprono scenari reali e di gioco attraverso 8 dimensioni primarie e 18 sub-dimensioni. Per migliorare l'affidabilità della valutazione, introduciamo una valutazione multimodale a doppio riferimento, fornendo sia riferimenti testuali che immagini di ground-truth per ogni valutazione del campione. Inoltre, progettiamo una pipeline automatizzata di sintesi dati multi-scenario e costruiamo UniREdit-Data-100K, un ampio dataset sintetico con annotazioni di ragionamento a catena del pensiero (CoT) di alta qualità. Addestriamo Bagel su questo dataset e sviluppiamo UniREdit-Bagel, dimostrando sostanziali miglioramenti sia in contesti in-dominio che out-of-distribution. Attraverso un'analisi comparativa approfondita di modelli di editing open-source e closed-source, ne riveliamo punti di forza e debolezze in vari aspetti.
Le Reti Neurali su Grafi operano attraverso un meccanismo di passaggio di messaggi dal basso verso l'alto, differendo fondamentalmente dalla percezione visiva umana, che cattura intuitivamente prima le strutture globali. Indaghiamo il potenziale sottovalutato dei modelli visivi per la comprensione dei grafi, riscontrando che essi raggiungono prestazioni comparabili alle GNN su benchmark consolidati, pur mostrando pattern di apprendimento chiaramente differenti. Questi comportamenti divergenti, combinati con i limiti dei benchmark esistenti che confondono le caratteristiche del dominio con la comprensione topologica, motivano la nostra introduzione di GraphAbstract. Questo benchmark valuta la capacità dei modelli di percepire le proprietà globali dei grafi come fanno gli esseri umani: riconoscere archetipi organizzativi, rilevare simmetrie, percepire la forza della connettività e identificare elementi critici. I nostri risultati rivelano che i modelli visivi superano significativamente le GNN in compiti che richiedono una comprensione strutturale olistica e mantengono generalizzabilità su scale di grafi variabili, mentre le GNN faticano nell'astrazione di pattern globali e peggiorano con l'aumentare della dimensione del grafo. Questo lavoro dimostra che i modelli visivi possiedono capacità notevoli ma sottoutilizzate per la comprensione strutturale dei grafi, in particolare per problemi che richiedono consapevolezza topologica globale e ragionamento invariante alla scala. Questi risultati aprono nuove strade per sfruttare questo potenziale sottovalutato per sviluppare modelli di fondazione per grafi più efficaci in compiti dominati dal riconoscimento olistico di pattern.
La riluminazione è un compito cruciale con sia esigenze pratiche che valore artistico, e i recenti modelli di diffusione hanno mostrato un forte potenziale permettendo effetti di illuminazione ricchi e controllabili. Tuttavia, poiché sono tipicamente ottimizzati in uno spazio latente semantico, dove la prossimità non garantisce la correttezza fisica nello spazio visivo, spesso producono risultati irrealistici, come alteluci sovraesposte, ombre disallineate e occlusioni errate. Affrontiamo questo problema con UniLumos, un framework di riluminazione unificato per immagini e video che introduce un feedback geometrico nello spazio RGB in un'architettura basata sul flow matching. Supervisionando il modello con mappe di profondità e normali estratte dai suoi output, allineiamo esplicitamente gli effetti di illuminazione con la struttura della scena, migliorando la plausibilità fisica. Ciononostante, questo feedback richiede output di alta qualità per la supervisione nello spazio visivo, rendendo la standard denoising multi-step computazionalmente costosa. Per mitigare ciò, impieghiamo il path consistency learning, permettendo alla supervisione di rimanere efficace anche sotto regimi di addestramento con pochi step. Per abilitare un controllo e una supervisione della riluminazione granulari, progettiamo un protocollo di annotazione strutturato a sei dimensioni che cattura gli attributi fondamentali dell'illuminazione. Basandoci su questo, proponiamo LumosBench, un benchmark a livello di attributo disaccoppiato che valuta la controllabilità dell'illuminazione tramite grandi modelli visione-linguaggio, abilitando una valutazione automatica e interpretabile della precisione di riluminazione attraverso dimensioni individuali. Esperimenti estensivi dimostrano che UniLumos raggiunge una qualità di riluminazione allo stato dell'arte con una consistenza fisica significativamente migliorata, offrendo al contempo un incremento di velocità di 20x sia per la riluminazione di immagini che di video. Il codice è disponibile su https://github.com/alibaba-damo-academy/Lumos-Custom.
I grandi modelli di ragionamento (LRM) dimostrano notevoli capacità nel ragionamento complesso, ma i loro miglioramenti marginali su domande fattuali dipendenti da evidenze sono limitati. Riteniamo che questa limitazione sia parzialmente attribuibile a un divario di corrispondenza ragionamento-risposta (reasoning-answer hit gap), in cui il modello identifica i fatti corretti durante il ragionamento ma non riesce a incorporarli nella risposta finale, riducendo così la fedeltà fattuale. Per affrontare questo problema, proponiamo MR-ALIGN, un framework di allineamento basato sul meta-ragionamento (Meta-Reasoning) che migliora la fattualità senza fare affidamento su verificatori esterni. MR-ALIGN quantifica le probabilità di transizione di stato lungo il processo di pensiero del modello e costruisce una ricompensa implicita consapevole delle transizioni (transition-aware) che rinforza gli schemi di ragionamento vantaggiosi sopprimendo al contempo quelli difettosi a livello dei segmenti atomici del pensiero. Questa ripesatura rimodella i segnali a livello di token in punteggi di segmento consapevoli della probabilità, incoraggiando traiettorie di ragionamento coerenti più favorevoli alla correttezza fattuale. Valutazioni empiriche su quattro dataset di QA fattuali e un benchmark di fattualità per testi lunghi mostrano che MR-ALIGN migliora costantemente accuratezza e veridicità, riducendo al contempo il ragionamento fuorviante. Questi risultati evidenziano che allineare il processo di ragionamento stesso, piuttosto che solo i suoi output, è cruciale per far progredire la fattualità negli LRM.
I modelli multimodali unificati (UMM) sono emersi come un paradigma potente per unificare in modo fluido la comprensione e la generazione di testo e immagini. Tuttavia, le valutazioni prevalenti trattano queste capacità in modo isolato, cosicché i compiti con input e output multimodali vengono valutati principalmente attraverso ragionamenti unimodali, ad esempio i benchmark testuali enfatizzano il ragionamento basato sul linguaggio, mentre i benchmark visivi enfatizzano i risultati del ragionamento manifestati nei pixel. Introduciamo ROVER per soddisfare questa pressante necessità di testare il ragionamento reciproco cross-modale, ovvero l'uso di una modalità per guidare, verificare o affinare gli output nell'altra, un'abilità centrale per la visione di un'intelligenza multimodale unificata. ROVER è un benchmark annotato manualmente che mira esplicitamente al ragionamento reciproco cross-modale, contenente 1312 compiti basati su 1876 immagini, che abbracciano due contesti complementari. Il ragionamento verbalmente aumentato per la generazione visiva valuta se i modelli possono utilizzare prompt verbali e catene di ragionamento per guidare una sintesi fedele delle immagini. Il ragionamento visivamente aumentato per la generazione verbale valuta se i modelli possono generare visualizzazioni intermedie che rafforzino i propri processi di ragionamento per il question answering. Esperimenti su 17 modelli unificati rivelano due risultati chiave: (i) Il ragionamento cross-modale determina la qualità della generazione visiva, con i modelli interallacciati che superano significativamente quelli non interallacciati; è notevole che la combinazione di forti modelli unimodali non riesca a raggiungere un ragionamento comparabile. (ii) I modelli mostrano una dissociazione tra ragionamento fisico e simbolico: riescono a interpretare concetti percettivi in modo letterale ma falliscono nel costruire astrazioni visive per compiti simbolici, dove un ragionamento difettoso danneggia le prestazioni. Questi risultati evidenziano il ragionamento reciproco cross-modale come una frontiera critica per abilitare una vera generazione omnimodale.
L'imitazione del movimento è un approccio promettente per la locomozione umanoide, consentendo agli agenti di acquisire comportamenti simili a quelli umani. I metodi esistenti si basano tipicamente su dataset di motion capture di alta qualità come AMASS, ma questi sono scarsi e costosi, limitando scalabilità e diversità. Studi recenti tentano di scalare la raccolta dati convertendo video internet su larga scala, come dimostrato da Humanoid-X. Tuttavia, spesso introducono artefatti fisici come fluttuazione, penetrazione e scivolamento dei piedi, che ostacolano un'imitazione stabile. In risposta, presentiamo PHUMA, un dataset di locomozione umanoide fisicamente fondato (Physically-grounded HUMAnoid) che sfrutta video umani su larga scala, affrontando nel contempo gli artefatti fisici attraverso un'attenta curatela dei dati e un retargeting vincolato dalla fisica. PHUMA applica limiti articolari, garantisce il contatto con il terreno ed elimina lo scivolamento dei piedi, producendo movimenti sia su larga scala che fisicamente affidabili. Abbiamo valutato PHUMA in due serie di condizioni: (i) imitazione di movimenti non visti da video di test auto-registrati e (ii) seguimento di traiettorie con guida limitata al bacino. In entrambi i casi, le policy addestrate con PHUMA superano Humanoid-X e AMASS, ottenendo miglioramenti significativi nell'imitazione di movimenti diversificati. Il codice è disponibile su https://davian-robotics.github.io/PHUMA.
Gli attuali metodi di generazione video condizionata dal movimento soffrono di una latenza proibitiva (minuti per video) e di un'elaborazione non causale che impedisce l'interazione in tempo reale. Presentiamo MotionStream, che consente una latenza inferiore al secondo con generazione in streaming fino a 29 FPS su una singola GPU. Il nostro approccio inizia potenziando un modello text-to-video con controllo del movimento, che genera video di alta qualità aderenti al prompt testuale globale e alla guida motoria locale, ma non esegue inferenza on-the-fly. Pertanto, distilliamo questo insegnante bidirezionale in uno studente causale tramite Self Forcing con Distribution Matching Distillation, abilitando l'inferenza in streaming in tempo reale. Diverse sfide chiave emergono nella generazione di video con orizzonti temporali lunghi, potenzialmente infiniti: (1) colmare il divario di dominio dall'addestramento su lunghezze finite all'estrapolazione su orizzonti infiniti, (2) sostenere l'alta qualità prevenendo l'accumulo di errori e (3) mantenere un'inferenza veloce, senza incorrere in costi computazionali crescenti dovuti a finestre di contesto sempre più ampie. Un elemento chiave del nostro approccio è l'introduzione di un'attenzione causale a finestra scorrevole accuratamente progettata, combinata con attention sinks. Incorporando self-rollout con attention sinks e KV cache rolling durante l'addestramento, simuliamo correttamente le estrapolazioni al momento dell'inferenza con una finestra di contesto fissa, consentendo una generazione a velocità costante di video di lunghezza arbitraria. I nostri modelli raggiungono risultati all'avanguardia nel seguire il movimento e nella qualità video, essendo due ordini di grandezza più veloci e abilitando unicamente lo streaming a lunghezza infinita. Con MotionStream, gli utenti possono disegnare traiettorie, controllare telecamere o trasferire movimento, e vedere i risultati svolgersi in tempo reale, offrendo un'esperienza veramente interattiva.
Recentemente, i grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di problem-solving integrandosi autonomamente con strumenti esterni per ragionamenti collaborativi. Tuttavia, a causa della natura intrinsecamente complessa e diversificata delle informazioni multimodali, consentire ai grandi modelli linguistici multimodali (MLLM) di utilizzare strumenti esterni in modo flessibile ed efficiente durante il ragionamento rimane una sfida ancora poco esplorata. In questo lavoro presentiamo ToolScope, un framework agentico progettato per unificare la pianificazione globale con la percezione multimodale locale, adottando uno strumento specializzato Perceive per mitigare il degrado del contesto visivo nei task VQA a lungo orizzonte. ToolScope comprende tre componenti principali: il Navigatore Globale, l'Esecutore Agentico e il Sintetizzatore delle Risposte. Il Navigatore Globale funge da "telescopio", fornendo una guida strategica di alto livello. L'Esecutore Agentico opera iterativamente per potenziare l'MLLM con percezione locale attraverso l'integrazione di strumenti esterni - Search, Code e Perceive. Infine, il Sintetizzatore delle Risposte consolida e organizza il processo di ragionamento in un output coerente e user-friendly. Valutiamo ToolScope su quattro benchmark VQA in diversi domini, inclusi VQA 2.0, ScienceQA, MAT-Search e MathVista. Il framework dimostra solide capacità di generalizzazione, raggiungendo un miglioramento prestazionale medio fino al +6,69% su tutti i dataset.
Introduciamo LongCat-Flash-Omni, un modello open-source all'avanguardia di tipo omni-modale da 560 miliardi di parametri, che eccelle nell'interazione audio-visiva in tempo reale. Adottando una strategia di addestramento progressivo ispirata al *curriculum learning*, che passa da compiti di modellazione sequenziale di modalità più semplici a compiti via via più complessi, LongCat-Flash-Omni acquisisce capacità multimodali complete mantenendo al contempo solide capacità unimodali. Basandosi su LongCat-Flash, che utilizza un'architettura ad alte prestazioni di tipo *Mixture-of-Experts* (MoE) con connessioni *Shortcut* ed esperti a computazione zero, LongCat-Flash-Omni integra moduli efficienti per la percezione multimodale e la ricostruzione del parlato. Nonostante le immense dimensioni di 560B di parametri (di cui 27B attivati), LongCat-Flash-Omni raggiunge un'interazione audio-visiva in tempo reale a bassa latenza. Per l'infrastruttura di addestramento, abbiamo sviluppato uno schema di parallelismo a modalità disaccoppiate, progettato specificamente per gestire l'eterogeneità dei dati e del modello intrinseca nell'addestramento multimodale su larga scala. Questo approccio innovativo dimostra un'efficienza eccezionale mantenendo oltre il 90% della produttività ottenuta con l'addestramento su solo testo. Valutazioni estensive mostrano che LongCat-Flash-Omni raggiunge prestazioni all'avanguardia sui benchmark omni-modali tra i modelli open-source. Inoltre, fornisce risultati altamente competitivi su un'ampia gamma di task specifici per modalità, inclusi la comprensione di testo, immagini e video, nonché la comprensione e generazione audio. Forniamo una panoramica completa della progettazione dell'architettura del modello, delle procedure di addestramento e delle strategie sui dati, e rendiamo open-source il modello per promuovere la futura ricerca e sviluppo nella comunità.
I recenti progressi nel ragionamento dei grandi modelli linguistici (LLM) attraverso l'apprendimento per rinforzo si basano su dataset annotati per ricompense verificabili, il che può limitare la capacità dei modelli di superare le prestazioni umane. Sebbene l'auto-gioco offra un'alternativa promettente, gli approcci esistenti dipendono da verificatori esterni o non sono in grado di apprendere in modo aperto. Presentiamo Open-Ended Self-Improving Reasoner (OpenSIR), un framework di auto-gioco in cui un LLM impara a generare e risolvere problemi nuovi alternando i ruoli di insegnante e studente senza supervisione esterna. Per generare problemi nuovi, OpenSIR ottimizza sia la difficoltà che la diversità, premiando problemi che sfidano in modo appropriato mentre esplorano concetti distinti, consentendo una scoperta matematica aperta. Partendo da un unico problema seme banale, OpenSIR migliora sostanzialmente i modelli instruction: Llama-3.2-3B-Instruct avanza dal 73.9 al 78.3 su GSM8K e dal 28.8 al 34.4 su College Math, mentre Gemma-2-2B-Instruct sale dal 38.5 al 58.7 su GSM8K. Le nostre analisi rivelano che OpenSIR raggiunge un apprendimento aperto attraverso ruoli insegnante-studente che co-evolvono, calibrando adattivamente la difficoltà e guidando un'esplorazione diversificata, progredendo autonomamente dalla matematica di base a quella avanzata.
L'attuale paradigma di recupero video è strutturalmente disallineato, poiché benchmark ristretti incentivano dati limitati e addestramento single-task di conseguenza. Pertanto, la capacità universale è soppressa a causa dell'assenza di una valutazione diagnostica che definisca e richieda una generalizzazione multidimensionale. Per rompere questo ciclo, introduciamo un framework basato sulla co-progettazione di valutazione, dati e modellazione. In primo luogo, stabiliamo l'Universal Video Retrieval Benchmark (UVRB), una suite di 16 dataset progettata non solo per misurare le prestazioni ma anche per diagnosticare critiche lacune capacità attraverso task e domini. In secondo luogo, guidati dalle diagnosi di UVRB, introduciamo un workflow di sintesi scalabile che genera 1,55 milioni di coppie di alta qualità per popolare lo spazio semantico richiesto per l'universalità. Infine, concepiamo la Modality Pyramid, un curriculum che addestra il nostro General Video Embedder (GVE) sfruttando esplicitamente le interconnessioni latenti all'interno dei nostri dati diversificati. Esperimenti estensivi mostrano che GVE raggiunge una generalizzazione zero-shot allo stato dell'arte su UVRB. In particolare, la nostra analisi rivela che i benchmark popolari sono scarsi predittori di abilità generale e che il recupero parzialmente rilevante è uno scenario dominante ma trascurato. Nel complesso, il nostro framework co-progettato fornisce un percorso pratico per sfuggire allo scope limitato e avanzare verso un recupero video veramente universale.
La frontiera del ragionamento visivo si sta spostando verso modelli come OpenAI o3, in grado di creare e utilizzare strumenti in modo intelligente per trasformare le immagini ai fini della risoluzione di problemi, noto anche come "pensare-con-immagini" all'interno di una catena di ragionamento. Tuttavia, gli attuali benchmark non riescono a cogliere appieno questa capacità avanzata. Persino Visual Search, il benchmark più comune per i metodi di pensiero-con-immagini attuali, testa solo operazioni di base come la localizzazione e il ritaglio, offrendo poca informazione su ragionamenti più complessi, dinamici e dipendenti dall'uso di strumenti. Presentiamo TIR-Bench, un benchmark completo per valutare il pensiero-con-immagini agentico attraverso 13 task diversificati, ciascuno dei quali richiede l'uso innovativo di strumenti per l'elaborazione e la manipolazione delle immagini all'interno di una catena di ragionamento. Valutiamo 22 modelli linguistici multimodali di grandi dimensioni (MLLM), dai principali modelli open-source e proprietari a quelli dotati di esplicita aumentazione per l'uso di strumenti. I risultati mostrano che TIR-Bench è universalmente impegnativo e che prestazioni solide richiedono autentiche capacità di pensiero-con-immagini. Infine, presentiamo uno studio pilota che confronta il fine-tuning diretto con quello agentico.
I modelli visione-linguaggio dimostrano prestazioni e capacità di generalizzazione senza precedenti su un'ampia gamma di compiti e scenari. L'integrazione di questi modelli di fondazione nei sistemi di navigazione robotica apre la strada verso la realizzazione di robot a scopo generale. Tuttavia, la valutazione delle capacità di navigazione di questi modelli rimane limitata dai costosi test nel mondo reale, da simulazioni eccessivamente semplificate e da benchmark limitati. Presentiamo NaviTrace, un benchmark di alta qualità per il Visual Question Answering in cui un modello riceve un'istruzione e un tipo di embodiement (umano, robot a gambe, robot a ruote, bicicletta) e deve produrre una traccia di navigazione 2D nello spazio dell'immagine. Attraverso 1000 scenari e più di 3000 tracce esperte, valutiamo sistematicamente otto modelli VLMs all'avanguardia utilizzando un nuovo punteggio di traccia semantico. Questa metrica combina la distanza Dynamic Time Warping, l'errore del punto finale dell'obiettivo e penalità condizionate all'embodiement derivate dalla semantica per-pixel, e mostra correlazione con le preferenze umane. La nostra valutazione rivela un divario consistente rispetto alle prestazioni umane causato da uno scarco grounding spaziale e da una localizzazione imprecisa degli obiettivi. NaviTrace stabilisce un benchmark scalabile e riproducibile per la navigazione robotica nel mondo reale. Il benchmark e la classifica sono disponibili all'indirizzo https://leggedrobotics.github.io/navitrace_webpage/.
La comprensione dei rebus (puzzle che utilizzano immagini, simboli e lettere per rappresentare parole o frasi in modo creativo) richiede una varietà di competenze come il riconoscimento delle immagini, le abilità cognitive, il ragionamento basato sul senso comune, il ragionamento a più fasi, i giochi di parole basati su immagini, ecc., rendendo questo un compito impegnativo anche per gli attuali modelli visione-linguaggio. In questo articolo, presentiamo left|,circlearrowright,text{BUS},right|, un benchmark ampio e diversificato di 1.333 rebus in inglese che contiene diversi stili artistici e livelli di difficoltà, distribuiti in 18 categorie come cibo, modi di dire, sport, finanza, intrattenimento, ecc. Proponiamo inoltre RebusDescProgICE, un framework indipendente dal modello che utilizza una combinazione di una descrizione non strutturata e un ragionamento strutturato basato su codice, insieme a una migliore selezione di esempi in-context basata sul ragionamento, migliorando le prestazioni dei modelli visione-linguaggio su left|,circlearrowright,text{BUS},right| del 2,1-4,1% e del 20-30% utilizzando rispettivamente modelli closed-source e open-source rispetto al ragionamento a catena (Chain-of-Thought).
La lettura degli strumenti di misura risulta intuitiva per gli esseri umani e richiede competenze di dominio relativamente limitate, eppure si rivela sorprendentemente complessa per gli attuali modelli visione-linguaggio (VLM), come emerso dalla nostra valutazione preliminare. In questo lavoro presentiamo MeasureBench, un benchmark per la lettura visiva delle misurazioni che include sia immagini reali che sintetizzate di vari tipi di strumenti, accompagnato da una pipeline estensibile per la sintesi dei dati. La nostra pipeline genera proceduralmente un tipo specifico di quadrante con aspetti visivi controllabili, consentendo variazioni scalabili in dettagli chiave come indicatori, scale, caratteri tipografici, illuminazione ed elementi di disturbo. La valutazione su VLM popolari (proprietari e open-weight) dimostra che persino i modelli all'avanguardia più potenti incontrano difficoltà generalizzate nella lettura delle misurazioni. Una modalità di errore ricorrente è la localizzazione degli indicatori: i modelli sanno leggere cifre o etichette, ma identificano erroneamente le posizioni cruciali degli indicatori o dei allineamenti, portando a grandi errori numerici nonostante ragionamenti testuali plausibili. Abbiamo inoltre condotto esperimenti preliminari con apprendimento per rinforzo su dati sintetici, riscontrando risultati incoraggianti sul sottoinsieme sintetico in-domain, ma meno promettenti per le immagini reali. La nostra analisi evidenzia una limitazione fondamentale degli attuali VLM nel grounding spaziale di precisione. Speriamo che questa risorsa possa favorire futuri progressi nella numeracy visualmente ancorata e nella percezione spaziale precisa dei VLM, colmando il divario tra il riconoscere numeri e il misurare il mondo.
Presentiamo Trove, un toolkit di retrieval open-source e facile da usare che semplifica gli esperimenti di ricerca senza sacrificare flessibilità o velocità. Per la prima volta, introduciamo funzionalità efficienti di gestione dati che caricano ed elaborano (filtrano, selezionano, trasformano e combinano) i dataset di retrieval al volo, con poche righe di codice. Questo offre agli utenti la flessibilità di sperimentare facilmente diverse configurazioni di dataset senza dover calcolare e memorizzare multiple copie di dataset di grandi dimensioni. Trove è altamente personalizzabile: oltre a molte opzioni integrate, consente agli utenti di modificare liberamente i componenti esistenti o sostituirli completamente con oggetti definiti dall'utente. Fornisce inoltre una pipeline unificata a basso codice per la valutazione e l'estrazione di negativi difficili, che supporta l'esecuzione multi-nodo senza alcuna modifica al codice. Le funzionalità di gestione dati di Trove riducono il consumo di memoria di un fattore 2,6. Inoltre, la pipeline di inferenza user-friendly di Trove non introduce overhead, e i tempi di inferenza diminuiscono linearmente con il numero di nodi disponibili. Soprattutto, dimostriamo come Trove semplifichi gli esperimenti di retrieval e consenta personalizzazioni arbitrarie, facilitando così la ricerca esplorativa.
La selezione dei dati è un aspetto cruciale del Reinforcement Learning con Ricompense Verificabili (RLVR) per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). Gli attuali metodi di selezione dati sono prevalentemente basati su euristiche, privi di garanzie teoriche e generalizzabilità. Questo lavoro propone un approccio teoricamente fondato che utilizza le funzioni di influenza per stimare il contributo di ogni punto dati all'obiettivo di apprendimento. Per superare il costo computazionale proibitivo dei rollout della politica richiesti per la stima d'influenza online, introduciamo un metodo di stima d'influenza off-policy che approssima efficientemente l'influenza dei dati utilizzando traiettorie offline pre-raccolte. Inoltre, per gestire i gradienti ad alta dimensionalità degli LLM, impieghiamo la proiezione casuale sparsa per ridurre la dimensionalità e migliorare l'efficienza di archiviazione e calcolo. Sfruttando queste tecniche, sviluppiamo CROPI (Curriculum RL with Off-Policy Influence guidance), un framework RL multi-stadio che seleziona iterativamente i dati più influenti per la politica corrente. Esperimenti su modelli fino a 7 miliardi di parametri dimostrano che CROPI accelera significativamente l'addestramento. Su un modello da 1,5 miliardi, raggiunge un'accelerazione a livello di step di 2,66x utilizzando solo il 10% dei dati per stadio rispetto all'addestramento con dataset completo. I nostri risultati evidenziano il potenziale sostanziale della selezione dati basata sull'influenza per un RLVR efficiente.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLM) hanno migliorato significativamente la comprensione visiva 2D, stimolando l'interesse per la loro applicazione a compiti complessi di ragionamento 3D. Tuttavia, rimane poco chiaro se questi modelli possano catturare efficacemente le dettagliate informazioni spaziali necessarie per prestazioni robuste nel mondo reale, in particolare la coerenza cross-view, un requisito chiave per un ragionamento 3D accurato. Considerando questa problematica, introduciamo il Viewpoint Learning, un compito progettato per valutare e migliorare le capacità di ragionamento spaziale degli MLLM. Presentiamo il dataset Viewpoint-100K, composto da 100K coppie di immagini centrate su oggetti con punti di vista diversificati e corrispondenti coppie domanda-risposta. Il nostro approccio utilizza una strategia di fine-tuning a due stadi: in primo luogo, la conoscenza di base viene iniettata nell'MLLM di partenza tramite Fine-Tuning Supervisionato (SFT) su Viewpoint-100K, ottenendo miglioramenti significativi in molteplici compiti; in secondo luogo, la generalizzazione viene potenziata attraverso l'Apprendimento per Rinforzo utilizzando l'algoritmo di Ottimizzazione delle Politiche Relative di Gruppo (GRPO) su un insieme più ampio di domande. Inoltre, introduciamo un metodo di inizializzazione ibrido cold-start progettato per apprendere simultaneamente le rappresentazioni dei punti di vista e mantenere un pensiero di ragionamento coerente. I risultati sperimentali mostrano che il nostro approccio attiva significativamente la capacità di ragionamento spaziale dell'MLLM, migliorando le prestazioni sia in compiti di ragionamento in-dominio che out-of-domain. I nostri risultati evidenziano il valore dello sviluppo di abilità spaziali fondamentali negli MLLM, supportando i progressi futuri nella robotica, nei sistemi autonomi e nella comprensione di scene 3D.
Identificare le metriche di riferimento ottimali è di fondamentale importanza per far progredire le capacità di ragionamento matematico dei modelli di base, soprattutto considerando che le valutazioni esistenti sono troppo semplici o si concentrano esclusivamente sull’ottenimento di risposte brevi corrette. Per affrontare queste problematiche, presentiamo IMO-Bench, una suite di benchmark di ragionamento avanzato, validata da un panel di specialisti di alto livello e specificamente mirata al livello delle Olimpiadi Internazionali della Matematica (IMO), il più prestigioso contesto per giovani matematici. IMO-AnswerBench testa inizialmente i modelli su 400 problemi olimpici diversificati con risposte brevi verificabili. IMO-Proof Bench rappresenta la valutazione di livello superiore per le capacità di scrittura di dimostrazioni, includendo sia problemi di livello IMO base che avanzato, nonché linee guida di valutazione dettagliate per facilitare la correzione automatica. Questi benchmark hanno svolto un ruolo cruciale nel nostro storico risultato di performance a livello oro alle IMO 2025 con Gemini Deep Think (Luong e Lockhart, 2025). Il nostro modello ha ottenuto l'80,0% su IMO-AnswerBench e il 65,7% su IMO-Proof Bench avanzato, superando i migliori modelli non-Gemini con ampi margini rispettivamente del 6,9% e del 42,4%. Abbiamo inoltre dimostrato che i sistemi di correzione automatica costruiti con il ragionamento di Gemini correlano bene con le valutazioni umane e abbiamo creato IMO-GradingBench, con 1000 valutazioni umane su dimostrazioni, per favorire ulteriori progressi nella valutazione automatica di risposte estese. Confidiamo che IMO-Bench aiuterà la comunità a progredire verso un ragionamento matematico robusto e lo rendiamo disponibile all'indirizzo https://imobench.github.io/.
I modelli fondazionali nella generazione video stanno dimostrando capacità notevoli come potenziali modelli mondiali per simulare il mondo fisico. Tuttavia, la loro applicazione in domini ad alto rischio come la chirurgia, che richiedono una conoscenza causale profonda e specializzata piuttosto che regole fisiche generali, rimane un gap critico e inesplorato. Per affrontare sistematicamente questa sfida, presentiamo SurgVeo, il primo benchmark curato da esperti per la valutazione di modelli di generazione video in chirurgia, e la Piramide della Plausibilità Chirurgica (SPP), un nuovo framework a quattro livelli studiato per valutare gli output dei modelli dall'aspetto basilare alla strategia chirurgica complessa. Sulla base del benchmark SurgVeo, assegniamo al modello avanzato Veo-3 un compito di predizione zero-shot su clip chirurgiche provenienti da procedure laparoscopiche e neurochirurgiche. Un panel di quattro chirurghi certificati valuta i video generati secondo la SPP. I nostri risultati rivelano un distinto "divario di plausibilità": sebbene Veo-3 raggiunga un'eccezionale Plausibilità Percettiva Visiva, fallisce criticamente ai livelli superiori della SPP, inclusi la Plausibilità dell'Operatività Strumentale, la Plausibilità del Feedback Ambientale e la Plausibilità dell'Intento Chirurgico. Questo lavoro fornisce la prima evidenza quantitativa del divario tra una mimetizzazione visivamente convincente e la comprensione causale nell'IA chirurgica. Le nostre scoperte da SurgVeo e dalla SPP stabiliscono una base cruciale e una roadmap per sviluppare futuri modelli in grado di navigare le complessità di domini sanitari specializzati e reali.
I modelli visione-linguaggio-azione (VLA) mirano a comprendere istruzioni in linguaggio naturale e osservazioni visive per eseguire le corrispondenti azioni come agenti incarnati. Recenti lavori integrano immagini future nel ciclo di comprensione-azione, producendo VLA unificati che comprendono, generano e agiscono congiuntamente - leggendo testo e immagini e producendo immagini future e azioni. Tuttavia, questi modelli si affidano a esperti esterni per l'unificazione delle modalità o trattano la generazione di immagini e la previsione delle azioni come processi separati, limitando i benefici della sinergia diretta tra questi compiti. La nostra filosofia centrale è ottimizzare generazione e azione congiuntamente attraverso un processo di denoising sincrono, dove l'affinamento iterativo permette alle azioni di evolvere dall'inizializzazione, sotto una guida visiva costante e sufficiente. Incarniamo questa filosofia nella nostra proposta di VLA a Diffusione Unificata e Processo di Diffusione di Denoising Discreto Congiunto (JD3P), che è un processo di diffusione congiunto che integra multiple modalità in un'unica traiettoria di denoising per servire come meccanismo chiave che permette a comprensione, generazione e azione di essere intrinsecamente sinergici. Il nostro modello e la teoria sono costruiti su uno spazio tokenizzato unificato di tutte le modalità e un meccanismo di attenzione ibrido. Proponiamo inoltre una pipeline di addestramento in due stadi e diverse tecniche per il tempo di inferenza che ottimizzano prestazioni ed efficienza. Il nostro approccio raggiunge prestazioni allo stato dell'arte su benchmark come CALVIN, LIBERO e SimplerEnv con un'inferenza 4 volte più veloce dei metodi autoregressivi, e ne dimostriamo l'efficienza attraverso analisi approfondite e valutazioni nel mondo reale. La nostra pagina del progetto è disponibile all'indirizzo https://irpn-eai.github.io/UD-VLA.github.io/.
Il notevole successo dei modelli linguistici multimodali di grandi dimensioni (MLLM) ha favorito i progressi negli embedding multimodali, sebbene i modelli esistenti rimangano intrinsecamente discriminativi, limitando la loro capacità di trarre vantaggio dal paradigma generativo guidato dal ragionamento. In questo lavoro, apriamo la strada all'esplorazione degli embedding generativi, unificando i compiti di embedding all'interno di un paradigma generativo. Proponiamo UME-R1, un framework universale per l'embedding multimodale costituito da una strategia di addestramento in due fasi: un fine-tuning supervisionato iniziale (cold-start) fornisce al modello capacità di ragionamento e gli consente di generare sia embedding discriminativi che generativi; un successivo apprendimento per rinforzo potenzia il ragionamento e ottimizza ulteriormente la qualità degli embedding generativi. Questo lavoro pionieristico rivale quattro intuizioni chiave: 1) gli embedding generativi sbloccano miglioramenti prestazionali sostanziali rispetto agli embedding discriminativi convenzionali, sfruttando le potenti capacità di ragionamento generativo degli MLLM; 2) gli embedding discriminativi e generativi sono complementari, e la loro performance combinata (oracolo) supera di gran lunga quella di ciascuno singolarmente; 3) l'apprendimento per rinforzo può migliorare efficacemente gli embedding generativi, stabilendo un paradigma di ottimizzazione scalabile; 4) il campionamento ripetuto durante l'inferenza aumenta la copertura dei task downstream (pass@k), evidenziando il potenziale di scalabilità degli embedding generativi al momento dell'inferenza. Valutato sul benchmark MMEB-V2 attraverso 78 task che comprendono video, immagini e documenti visivi, UME-R1 supera significativamente i modelli di embedding discriminativi convenzionali e offre una base per embedding multimodali generativi più interpretabili e guidati dal ragionamento. Il nostro codice, modelli e dataset saranno pubblicamente disponibili all'indirizzo https://github.com/XMUDeepLIT/UME-R1.
Il grounding dell'interfaccia grafica utente (GUI) è una funzione chiave degli agenti di utilizzo del computer, che mappa le istruzioni in linguaggio naturale a regioni dello schermo azionabili. Gli approcci esistenti basati su Modelli Linguistici Multimodali di Grande Scala (MLLM) tipicamente lo formulano come un'attività di generazione di coordinate basata su testo, ma generare direttamente coordinate precise da input visivi rimane impegnativo e computazionalmente intensivo. Un modo intuitivo per implementare il grounding della GUI è selezionare prima patch visive rilevanti per le istruzioni e poi determinare la posizione precisa del clic all'interno di tali patch. Basandoci sull'osservazione che gli MLLM generici possiedono una capacità intrinseca di grounding, annidata nelle loro attenzioni, proponiamo GUI-AIMA, un framework di fine-tuning supervisionato basato sull'attenzione e privo di coordinate per un grounding efficiente della GUI. GUI-AIMA allinea l'attenzione multimodale intrinseca degli MLLM con segnali di grounding a livello di patch. Questi segnali sono calcolati in modo adattivo per diverse istruzioni utente mediante aggregazione multi-testa su matrici di attenzione query-visiva semplificate. Inoltre, la sua natura priva di coordinate può integrare facilmente una fase plug-and-play di zoom. GUI-AIMA-3B è stato addestrato con soli 85.000 screenshot, dimostrando un'eccellente efficienza dei dati e verificando che un addestramento leggero può innescare la capacità di grounding nativa degli MLLM. Raggiunge prestazioni all'avanguardia tra i modelli da 3B, ottenendo un'accuratezza media del 58,6% su ScreenSpot-Pro e del 62,2% su OSWorld-G. Pagina del progetto: https://github.com/sjz5202/GUI-AIMA
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato notevoli capacità nel ragionamento linguistico naturale, ma la loro applicazione all'Intelligence sulle Minacce Informatiche (CTI) rimane limitata. L'analisi CTI comporta la distillazione di grandi volumi di report non strutturati in conoscenza azionabile, un processo in cui gli LLM potrebbero ridurre significativamente il carico di lavoro degli analisti. CTIBench ha introdotto un benchmark completo per valutare gli LLM in molteplici attività CTI. In questo lavoro, estendiamo CTIBench sviluppando AthenaBench, un benchmark potenziato che include una pipeline migliorata per la creazione di dataset, la rimozione di duplicati, metriche di valutazione raffinate e un nuovo compito focalizzato sulle strategie di mitigazione del rischio. Valutiamo dodici LLM, inclusi modelli proprietari all'avanguardia come GPT-5 e Gemini-2.5 Pro, insieme a sette modelli open-source delle famiglie LLaMA e Qwen. Sebbene gli LLM proprietari ottengano risultati complessivamente più solidi, le loro prestazioni rimangono insoddisfacenti in compiti ad alta intensità di ragionamento, come l'attribuzione dei threat actor e la mitigazione del rischio, con i modelli open-source che risultano ulteriormente in ritardo. Questi risultati evidenziano limitazioni fondamentali nelle capacità di ragionamento degli LLM attuali e sottolineano la necessità di modelli esplicitamente progettati per i flussi di lavoro e l'automazione CTI.
Le spiegazioni in linguaggio naturale (NLE) descrivono come i grandi modelli linguistici (LLM) prendono decisioni, attingendo sia dalla Conoscenza Contestuale (CK) esterna che dalla Conoscenza Parametrica (PK) memorizzata nei pesi del modello. Comprenderne l'interazione è fondamentale per valutare l'ancoraggio alla realtà delle NLE, eppure rimane un ambito poco esplorato. I lavori precedenti hanno principalmente esaminato solo la generazione a singolo passo, tipicamente la risposta finale, e hanno modellato l'interazione tra PK e CK solo come una scelta binaria in un sottospazio di rango-1. Ciò trascura forme di interazione più ricche, come la conoscenza complementare o di supporto. Proponiamo un nuovo sottospazio di proiezione di rango-2 che districa i contributi di PK e CK in modo più accurato e lo utilizziamo per la prima analisi multi-passo delle interazioni di conoscenza attraverso sequenze di NLE più lunghe. Esperimenti su quattro dataset di domande e risposte e tre LLM addestrati con istruzioni e a pesi aperti mostrano che le diverse interazioni di conoscenza sono scarsamente rappresentate in un sottospazio di rango-1, ma sono efficacemente catturate nella nostra formulazione di rango-2. La nostra analisi multi-passo rivela che le NLE allucinate si allineano fortemente con la direzione PK, quelle fedeli al contesto bilanciano PK e CK, e il prompting a Catena di Pensiero per le NLE sposta le NLE generate verso la CK riducendo la dipendenza dalla PK. Questo lavoro fornisce il primo quadro metodologico per studi sistematici delle interazioni di conoscenza multi-passo negli LLM attraverso un più ricco districamento in un sottospazio di rango-2. Codice e dati: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
Nel campo del retrieval, la fusione di candidati provenienti da retriever eterogenei rappresenta una sfida di lunga data, in particolare per dati complessi e multimodali come i video. Sebbene le tecniche di fusione tipiche non richiedano addestramento, si basano esclusivamente su segnali di ranking o punteggio, trascurando le rappresentazioni dei candidati. Questo lavoro introduce Vote-in-Context (ViC), un framework generalizzato e senza addestramento che ripensa il reranking e la fusione di tipo list-wise come un compito di reasoning zero-shot per un Modello Visione-Linguaggio (VLM). L'intuizione fondamentale è serializzare sia l'evidenza contenutistica che i metadati del retriever direttamente all'interno del prompt del VLM, consentendo al modello di ponderare in modo adattivo il consenso del retriever rispetto al contenuto visivo-linguistico. Dimostriamo la generalità di questo framework applicandolo al dominio impegnativo del video retrieval cross-modale. A tal fine, introduciamo la S-Grid, una mappa di serializzazione compatta che rappresenta ogni video come una griglia di immagini, eventualmente associata a sottotitoli per abilitare il reasoning list-wise sui candidati video. ViC viene valutato sia come reranker per singola lista, dove migliora drasticamente la precisione dei singoli retriever, sia come fusore di ensemble, dove supera costantemente baseline solidi come CombSUM. Su benchmark di video retrieval inclusi ActivityNet e VATEX, il framework stabilisce nuove prestazioni state-of-the-art per il retrieval zero-shot, dimostrando la sua efficacia nella gestione di segnali visivi e temporali complessi insieme al testo. In contesti zero-shot, ViC raggiunge punteggi Recall@1 dell'87,1% (t2v) / 89,0% (v2t) su MSR-VTT e del 99,6% (v2t) su VATEX, rappresentando guadagni massivi fino a +40 punti Recall@1 rispetto ai precedenti baseline state-of-the-art. Presentiamo ViC come una ricetta semplice, riproducibile e altamente efficace per trasformare i VLM moderni in potenti strumenti di reranking e fusione zero-shot. Codice e risorse sono disponibili pubblicamente all'indirizzo: https://github.com/mohammad2012191/ViC