Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo TurboDiffusion, un framework per l'accelerazione della generazione video in grado di velocizzare la generazione diffusion end-to-end di 100-200 volte mantenendo la qualità video. TurboDiffusion si basa principalmente su diversi componenti per l'accelerazione: (1) Accelerazione dell'attention: TurboDiffusion utilizza SageAttention a basso bit e Sparse-Linear Attention (SLA) addestrabile per velocizzare il calcolo dell'attention. (2) Step distillation: TurboDiffusion adotta rCM per una efficiente step distillation. (3) Quantizzazione W8A8: TurboDiffusion quantizza i parametri del modello e le attivazioni a 8 bit per accelerare i layer lineari e comprimere il modello. Inoltre, TurboDiffusion incorpora diverse altre ottimizzazioni ingegneristiche. Abbiamo condotto esperimenti sui modelli Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P e Wan2.1-T2V-14B-480P. I risultati sperimentali mostrano che TurboDiffusion raggiunge un'accelerazione di 100-200 volte per la generazione video anche su una singola GPU RTX 5090, mantenendo una qualità video comparabile. Il repository GitHub, che include i checkpoint del modello e codice di facile utilizzo, è disponibile all'indirizzo https://github.com/thu-ml/TurboDiffusion.
I modelli visione-linguaggio (VLM) eccellono nella comprensione generale ma rimangono deboli nel ragionamento spaziale dinamico (DSR), ovvero nel ragionare sull'evoluzione della geometria e delle relazioni degli oggetti nello spazio 3D nel tempo, principalmente a causa della scarsità di risorse di addestramento scalabili e consapevoli della quarta dimensione. Per colmare questa lacuna negli aspetti di dataset, benchmark e modello, introduciamo DSR Suite. In primo luogo, proponiamo una pipeline automatizzata che genera coppie domanda-risposta a scelta multipla da video in contesti reali per il DSR. Sfruttando moderni modelli fondazionali per la visione, la pipeline estrae ricche informazioni geometriche e di movimento, incluse pose della telecamera, nuvole di punti locali, maschere degli oggetti, orientamenti e traiettorie 3D. Questi indizi geometrici consentono la costruzione di DSR-Train per l'apprendimento e di DSR-Bench, perfezionato da umani, per la valutazione. Rispetto ai lavori precedenti, i nostri dati enfatizzano (i) fonti video in contesti reali, (ii) requisiti 3D a livello di oggetto e scena, (iii) trasformazioni del punto di vista, (iv) interazioni multi-oggetto e (v) risposte procedurali e granulari. Oltre ai dati, proponiamo un modulo leggero di Selezione Geometrica (GSM) per integrare seamlessmente conoscenze geometriche pregresse nei VLM, il quale condensa la semantica della domanda ed estrae dalla conoscenza pre-addestrata di ricostruzione 4D le informazioni rilevanti per la domanda, racchiudendole in un insieme compatto di token geometrici. Questa estrazione mirata evita di sopraffare il modello con conoscenze irrilevanti. Gli esperimenti mostrano che l'integrazione di DSR-Train e GSM in Qwen2.5-VL-7B migliora significativamente la sua capacità di ragionamento spaziale dinamico, mantenendo al contempo l'accuratezza su benchmark di comprensione video generale.
La generazione Testo-Audio-Video (T2AV) mira a sintetizzare video temporalmente coerenti e audio semanticamente sincronizzati a partire da linguaggio naturale, ma la sua valutazione rimane frammentata, basandosi spesso su metriche unimodali o benchmark dallo scopo ristretto che non riescono a catturare l'allineamento cross-modale, l'aderenza alle istruzioni e il realismo percettivo con prompt complessi. Per affrontare questa limitazione, presentiamo T2AV-Compass, un benchmark unificato per la valutazione completa dei sistemi T2AV, costituito da 500 prompt diversificati e complessi costruiti attraverso una pipeline guidata da una tassonomia per garantire ricchezza semantica e plausibilità fisica. Inoltre, T2AV-Compass introduce un framework di valutazione a doppio livello che integra metriche oggettive a livello di segnale per la qualità video, la qualità audio e l'allineamento cross-modale con un protocollo soggettivo MLLM-as-a-Judge per valutare l'aderenza alle istruzioni e il realismo. Una valutazione estesa di 11 sistemi T2AV rappresentativi rivela che anche i modelli più potenti sono ancora notevolmente lontani dal realismo umano e dalla coerenza cross-modale, con fallimenti persistenti nel realismo audio, nella sincronizzazione fine, nell'aderenza alle istruzioni, ecc. Questi risultati indicano un margine di miglioramento significativo per i modelli futuri e sottolineano il valore di T2AV-Compass come banco di prova impegnativo e diagnostico per far progredire la generazione testo-audio-video.
La tecnica "one-shot" rappresenta un'estetica distintiva e sofisticata nella realizzazione cinematografica. Tuttavia, la sua realizzazione pratica è spesso ostacolata da costi proibitivi e complessi vincoli del mondo reale. Sebbene i modelli emergenti di generazione video offrano un'alternativa virtuale, gli approcci esistenti si basano tipicamente su una naïf concatenazione di clip, che spesso non riesce a mantenere fluidità visiva e coerenza temporale. In questo articolo presentiamo DreaMontage, un framework completo progettato per la generazione guidata da frame arbitrari, in grado di sintetizzare video one-shot senza soluzione di continuità, espressivi e di lunga durata a partire da input eterogenei forniti dall'utente. Per raggiungere questo obiettivo, affrontiamo la sfida attraverso tre dimensioni principali. (i) Integriamo un meccanismo di condizionamento intermedio leggero nell'architettura DiT. Impiegando una strategia di Adaptive Tuning che sfrutta efficacemente i dati di training di base, sblocchiamo solide capacità di controllo per frame arbitrari. (ii) Per migliorare la fedeltà visiva e l'espressività cinematografica, curiamo un dataset di alta qualità e implementiamo una fase di SFT per l'Espressione Visiva. Nell'affrontare problemi critici come la razionalità del movimento del soggetto e la fluidità delle transizioni, applichiamo uno schema DPO Su Misura, che migliora significativamente il tasso di successo e l'usabilità dei contenuti generati. (iii) Per facilitare la produzione di sequenze estese, progettiamo una strategia di inferenza Auto-Regressiva a Segmenti (SAR) che opera in modo efficiente dal punto di vista della memoria. Esperimenti estensivi dimostrano che il nostro approccio raggiunge effetti one-shot visivamente straordinari e perfettamente coerenti, mantenendo al contempo l'efficienza computazionale, consentendo agli utenti di trasformare materiali visivi frammentati in esperienze cinematografiche one-shot vivide e coese.
Rileviamo un significativo bias di popolarità nei modelli visione-linguaggio (VLM) allo stato dell'arte, che raggiungono un'accuratezza fino al 34% superiore sugli edifici famosi rispetto a quelli ordinari, indicando un affidamento sulla memorizzazione piuttosto che su una comprensione generalizzabile. Per indagare sistematicamente questo fenomeno, introduciamo il più ampio benchmark aperto per questo compito: il dataset YearGuessr, una raccolta di 55.546 immagini di edifici con attributi multimodali da 157 paesi, annotate con etichette ordinali continue del loro anno di costruzione (1001-2024), dati GPS e conteggi di visualizzazioni di pagina come proxy per la popolarità. Utilizzando questo dataset, inquadriamo il compito di previsione dell'anno di costruzione come una regressione ordinale e introduciamo metriche di accuratezza per intervallo consapevoli della popolarità per quantificare questo bias. Il nostro benchmark risultante, che include oltre 30 modelli, incluso il nostro modello YearCLIP, conferma che i VLM eccellono sugli elementi popolari e memorizzati, ma hanno notevoli difficoltà con soggetti non riconosciuti, esponendo una lacuna critica nelle loro capacità di ragionamento. Pagina del progetto: https://sytwu.github.io/BeyondMemo/
Presentiamo Nemotron 3 Nano 30B-A3B, un modello linguistico ibrido Mamba-Transformer a Mistura di Esperti. Nemotron 3 Nano è stato pre-addestrato su 25 trilioni di token testuali, inclusi oltre 3 trilioni di nuovi token unici rispetto a Nemotron 2, seguito da fine-tuning supervisionato e RL su larga scala in ambienti diversificati. Nemotron 3 Nano raggiunge una precisione superiore alla precedente generazione Nemotron 2 Nano attivando meno della metà dei parametri per ogni passaggio in avanti. Ottiene un throughput inferenziale fino a 3,3 volte superiore rispetto a modelli open di dimensioni simili come GPT-OSS-20B e Qwen3-30B-A3B-Thinking-2507, dimostrando anche una maggiore accuratezza sui benchmark più diffusi. Nemotron 3 Nano mostra capacità agentive, di ragionamento e di chat potenziate e supporta contesti lunghi fino a 1 milione di token. Rilasciamo sia i checkpoint Base pre-addestrati di Nemotron 3 Nano 30B-A3B che quelli post-addestrati su Hugging Face.
La generazione di video ad alta risoluzione, sebbene cruciale per i media digitali e il cinema, è limitata computazionalmente dalla complessità quadratica dei modelli di diffusione, rendendo l'inferenza pratica non fattibile. Per affrontare questo problema, introduciamo HiStream, un framework autoregressivo efficiente che riduce sistematicamente la ridondanza lungo tre assi: i) Compressione Spaziale: denoising a bassa risoluzione prima di affinare l'immagine ad alta risoluzione con feature memorizzate nella cache; ii) Compressione Temporale: una strategia chunk-by-chunk con una cache di ancore di dimensione fissa, che garantisce una velocità di inferenza stabile; e iii) Compressione degli Intervalli Temporali (Timestep): applicazione di meno passi di denoising ai chunk successivi, condizionati dalla cache. Su benchmark 1080p, il nostro modello HiStream primario (i+ii) raggiunge una qualità visiva allo stato dell'arte dimostrando un denoising fino a 76,2 volte più veloce rispetto al baseline Wan2.1 e una perdita di qualità trascurabile. La nostra variante più veloce, HiStream+, applica tutte e tre le ottimizzazioni (i+ii+iii), raggiungendo un'accelerazione di 107,5 volte rispetto al baseline, offrendo un compromesso convincente tra velocità e qualità, rendendo così la generazione di video ad alta risoluzione sia pratica che scalabile.
Presentiamo la famiglia di modelli Nemotron 3 - Nano, Super e Ultra. Questi modelli offrono solide capacità agentive, di ragionamento e conversazionali. La famiglia Nemotron 3 utilizza un'architettura ibrida Mixture-of-Experts di tipo Mamba-Transformer per garantire una velocità di elaborazione di prim'ordine e lunghezze di contesto fino a 1 milione di token. I modelli Super e Ultra sono addestrati con NVFP4 e incorporano LatentMoE, un approccio innovativo che migliora la qualità del modello. I due modelli più grandi includono anche livelli MTP per una generazione di testo più rapida. Tutti i modelli Nemotron 3 sono sottoposti a post-addestramento mediante apprendimento per rinforzo multi-ambiente, abilitando il ragionamento, l'uso di strumenti in più fasi e il supporto per un controllo granulare del budget computazionale per il ragionamento. Nano, il modello più piccolo, supera i modelli comparabili in accuratezza pur rimanendo estremamente efficiente in termini di costi per l'inferenza. Super è ottimizzato per agenti collaborativi e carichi di lavoro ad alto volume, come l'automazione dei ticket IT. Ultra, il modello più grande, offre prestazioni di accuratezza e ragionamento all'avanguardia. Nano viene rilasciato insieme al suo rapporto tecnico e a questo white paper, mentre Super e Ultra seguiranno nei prossimi mesi. Rilasceremo apertamente i pesi del modello, il software di pre e post-addestramento, le ricette e tutti i dati per i quali deteniamo i diritti di redistribuzione.
I tokenizzatori forniscono la base fondamentale attraverso la quale il testo viene rappresentato ed elaborato dai modelli linguistici (LM). Nonostante l'importanza della tokenizzazione, il suo ruolo nelle prestazioni e nel comportamento degli LM è scarsamente compreso a causa della difficoltà di misurare l'impatto della tokenizzazione in isolamento. Per far fronte a questa esigenza, presentiamo TokSuite, una raccolta di modelli e un benchmark che supporta la ricerca sull'influenza della tokenizzazione sugli LM. Nello specifico, addestriamo quattordici modelli che utilizzano tokenizzatori diversi ma che sono per il resto identici, impiegando la stessa architettura, dataset, budget di addestramento e inizializzazione. Inoltre, curiamo e rilasciamo un nuovo benchmark che misura specificamente le prestazioni del modello soggette a perturbazioni del mondo reale che potrebbero influenzare la tokenizzazione. Nel complesso, TokSuite consente un robusto disaccoppiamento dell'influenza del tokenizzatore di un modello, supportando una serie di nuove scoperte che chiariscono i rispettivi vantaggi e limiti di un'ampia gamma di tokenizzatori popolari.
L'apprendimento per rinforzo agentico dipende sempre più da metodi di scalabilità basati sull'esperienza, mentre gli ambienti del mondo reale rimangono non adattivi, limitati nella copertura e difficili da scalare. I modelli del mondo offrono una potenziale soluzione per migliorare l'efficienza dell'apprendimento attraverso esperienze simulate, ma rimane poco chiaro se i grandi modelli linguistici possano svolgere in modo affidabile questo ruolo e sotto quali condizioni apportino benefici significativi agli agenti. Studiamo queste questioni in ambienti testuali, che forniscono un contesto controllato per reinterpretare la modellazione linguistica come previsione dello stato successivo durante l'interazione. Introduciamo un framework a tre livelli per valutare i modelli del mondo basati su LLM: (i) fedeltà e coerenza, (ii) scalabilità e robustezza, e (iii) utilità per l'agente. In cinque ambienti rappresentativi, riscontriamo che modelli del mondo sufficientemente addestrati mantengono uno stato latente coerente, scalano in modo prevedibile con dati e dimensioni del modello, e migliorano le prestazioni degli agenti attraverso verifica delle azioni, generazione di traiettorie sintetiche e inizializzazione preliminare dell'apprendimento per rinforzo. Tuttavia, questi vantaggi dipendono criticamente dalla copertura comportamentale e dalla complessità ambientale, delineando confini precisi su quando la modellazione del mondo supporta efficacemente l'apprendimento degli agenti.
I recenti progressi nei modelli fondazionali generali preaddestrati hanno migliorato significativamente le prestazioni su un'ampia gamma di task downstream. Sebbene i modelli generativi autoregressivi (AR) come GPT abbiano rivoluzionato l'NLP, la maggior parte dei metodi di preaddestramento generativo visivo si basa ancora sulla modellazione mascherata in stile BERT, che spesso trascura le informazioni temporali essenziali per l'analisi video. I pochi metodi di preaddestramento visivo autoregressivo esistenti soffrono di problemi come localizzazione semantica imprecisa e scarsa qualità di generazione, portando a una semantica povera. In questo lavoro, proponiamo NExT-Vid, un nuovo framework di preaddestramento generativo visivo autoregressivo che utilizza la previsione mascherata del frame successivo per modellare congiuntamente immagini e video. NExT-Vid introduce un predittore autoregressivo a contesto isolato per disaccoppiare la rappresentazione semantica dalla decodifica del target, e un decodificatore a flusso condizionato per migliorare la qualità e la diversità della generazione. Attraverso il preaddestramento con flusso condizionato a contesto isolato, il nostro approccio raggiunge rappresentazioni solide. Esperimenti estensivi su modelli preaddestrati su larga scala dimostrano che il nostro metodo proposto supera costantemente i precedenti metodi di preaddestramento generativo per l'apprendimento di rappresentazioni visive tramite probing attento nella classificazione downstream.
Presentiamo Streamo, un LLM per video streaming in tempo reale che funge da assistente interattivo generico. A differenza dei modelli video online esistenti, che si concentrano in modo ristretto su domande-risposte o didascalie, Streamo esegue un'ampia gamma di attività di video streaming, tra cui narrazione in tempo reale, comprensione delle azioni, descrizione di eventi, localizzazione temporale di eventi e risposte a domande time-sensitive. Per sviluppare tale versatilità, abbiamo costruito Streamo-Instruct-465K, un dataset su larga scala di istruzioni specificamente progettato per la comprensione di video in streaming. Il dataset copre contesti temporali diversificati e supervisione multi-task, consentendo un addestramento unificato su attività eterogenee di streaming. Dopo un addestramento end-to-end sul dataset di istruzioni attraverso una pipeline semplificata, Streamo dimostra un solido ragionamento temporale, interazione reattiva e un'ampia generalizzazione su una varietà di benchmark di streaming. Esperimenti estensivi mostrano che Streamo colma il divario tra i modelli di percezione video offline e gli assistenti multimodali in tempo reale, compiendo un passo verso una comprensione video unificata e intelligente in flussi video continui.
Il Retrieval-Augmented Generation (RAG) è emerso come un paradigma potente per i Large Language Model (LLM) per affrontare query ad alta intensità di conoscenza che richiedono informazioni di dominio specifico o aggiornate. Per gestire complesse domande multi-hop, che sono difficili da risolvere con un recupero in un singolo passo, sono stati proposti approcci RAG iterativi che incorporano il reinforcement learning. Tuttavia, i sistemi RAG iterativi esistenti tipicamente pianificano la scomposizione delle domande senza sfruttare le informazioni relative al corpus di recupero disponibile, portando a catene di recupero e ragionamento inefficienti che si traducono in prestazioni subottimali. In questo articolo, introduciamo l'Early Knowledge Alignment (EKA), un modulo semplice ma efficace che allinea gli LLM con l'insieme di recupero prima della pianificazione nei sistemi RAG iterativi, utilizzando conoscenze rilevanti recuperate contestualmente. Esperimenti estesi su sei dataset RAG standard dimostrano che, stabilendo una base di ragionamento più solida, l'EKA migliora significativamente la precisione del recupero, riduce gli errori a cascata e potenzia sia le prestazioni che l'efficienza. La nostra analisi da una prospettiva entropica dimostra che l'incorporazione precoce della conoscenza riduce l'esplorazione non necessaria durante il processo di ragionamento, permettendo al modello di concentrarsi più efficacemente sui sottoinsiemi di informazioni rilevanti. Inoltre, l'EKA si rivela efficace come strategia di inferenza versatile e senza necessità di addestramento, che scala senza soluzione di continuità su modelli di grandi dimensioni. Test di generalizzazione su diversi dataset e corpora di recupero confermano la robustezza del nostro approccio. Nel complesso, l'EKA fa avanzare lo stato dell'arte nei sistemi RAG iterativi, illuminando al contempo l'interazione critica tra il ragionamento strutturato e l'esplorazione efficiente nei framework potenziati dal reinforcement learning. Il codice è rilasciato all'indirizzo https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}.
I benchmark esistenti per gli agenti di programmazione IA si concentrano su compiti isolati e monodimensionali, come la correzione di un bug o l'implementazione di una piccola funzionalità. Tuttavia, l'ingegneria del software nel mondo reale è fondamentalmente un'attività a lungo termine: gli sviluppatori devono interpretare requisiti di alto livello, pianificare modifiche coordinate su molti file ed evolvere le codebase attraverso multiple iterazioni, preservando nel contempo le funzionalità esistenti. Introduciamo SWE-EVO, un benchmark che valuta gli agenti su questa sfida dell'evoluzione software a lungo termine. Costruito dalle note di rilascio e dalle cronologie delle versioni di sette progetti Python open source maturi, SWE-EVO comprende 48 task di evoluzione che richiedono agli agenti di implementare modifiche multi-step che interessano in media 21 file, convalidati rispetto a suite di test complete con una media di 874 test per istanza. Esperimenti con modelli all'avanguardia rivelano un notevole divario prestazionale: anche GPT-4o con OpenHands raggiunge solo un tasso di risoluzione del 21 percento su SWE-EVO, rispetto al 65 percento sul benchmark a singolo problema SWE-Bench Verified. Ciò dimostra che gli agenti attuali faticano nel ragionamento sostenuto e multi-file. Proponiamo inoltre il Fix Rate, una metrica granulare che cattura i progressi parziali verso la risoluzione di questi complessi task a lungo termine.
In questo lavoro presentiamo PhononBench, il primo benchmark su larga scala per la stabilità dinamica nei cristalli generati dall'intelligenza artificiale. Sfruttando il potenziale interatomico MatterSim, recentemente sviluppato, che raggiunge un'accuratezza a livello DFT nelle previsioni dei fononi per oltre 10.000 materiali, PhononBench consente calcoli fononici su larga scala e analisi di stabilità dinamica efficienti per 108.843 strutture cristalline generate da sei modelli leader nella generazione di cristalli. PhononBench rivela una limitazione diffusa dei modelli generativi attuali nel garantire la stabilità dinamica: la percentuale media di stabilità dinamica attraverso tutte le strutture generate è solo del 25,83%, con il modello migliore, MatterGen, che raggiunge appena il 41,0%. Ulteriori casi di studio mostrano che nella generazione mirata alle proprietà - illustrata qui dal condizionamento del band gap con MatterGen - la percentuale di stabilità dinamica rimane bassa quanto il 23,5% anche nella condizione ottimale di band gap di 0,5 eV. Nella generazione controllata per gruppo spaziale, i cristalli con simmetria più alta mostrano una stabilità migliore (ad esempio, i sistemi cubici raggiungono percentuali fino al 49,2%), tuttavia la stabilità media attraverso tutte le generazioni controllate è ancora solo del 34,4%. Un risultato aggiuntivo importante di questo studio è l'identificazione di 28.119 strutture cristalline che sono fononicamente stabili in tutta la zona di Brillouin, fornendo un ampio bacino di candidati affidabili per la futura esplorazione di materiali. Stabilendo il primo benchmark su larga scala per la stabilità dinamica, questo lavoro evidenzia sistematicamente le attuali limitazioni dei modelli di generazione di cristalli e offre criteri di valutazione essenziali e linee guida per il loro sviluppo futuro verso la progettazione e la scoperta di materiali fisicamente realizzabili. Tutte le strutture cristalline generate dai modelli, i risultati dei calcoli fononici e i flussi di lavoro di valutazione ad alta produttività sviluppati in PhononBench saranno rilasciati apertamente all'indirizzo https://github.com/xqh19970407/PhononBench.
La rapida proliferazione di Large Language Model (LLM) e la diversificazione di benchmark specializzati richiedono un passaggio da metriche frammentate e specifiche per compito a un sistema di classificazione competitivo e olistico, che aggreghi efficacemente le prestazioni attraverso molteplici dimensioni di abilità. Basandosi principalmente su punteggi statici, i metodi di valutazione attuali sono fondamentalmente limitati. Essi faticano a determinare il corretto rapporto di miscelazione tra benchmark diversi e, in modo critico, non riescono a catturare l'idoneità competitiva dinamica di un modello o la sua vulnerabilità quando affronta compiti sequenziali ad alto rischio. Per affrontare questo problema, introduciamo il nuovo framework Competitive Swiss-System Dynamics (CSD). CSD simula un concorso sequenziale a più round in cui i modelli vengono accoppiati dinamicamente attraverso una sequenza curata di benchmark in base al loro record cumulativo di vittorie e sconfitte. Viene utilizzata una Simulazione Monte Carlo (N=100.000 iterazioni) per approssimare l'Expected Win Score (E[S_m]) statisticamente robusto, che elimina il rumore dell'accoppiamento casuale e della fortuna nei round iniziali. Inoltre, implementiamo una Failure Sensitivity Analysis parametrizzando la quantità di eliminazione per round (T_k), che ci permette di profilare i modelli in base alla loro propensione al rischio, distinguendo tra generalisti robusti e specialisti aggressivi. Dimostriamo che CSD fornisce una classificazione più sfumata e consapevole del contesto rispetto ai modelli tradizionali di punteggio aggregato e di confronto a coppie statico, rappresentando un passo cruciale verso una valutazione di prossima generazione degli LLM basata sul rischio.