Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei grandi modelli generativi multimodali hanno dimostrato capacità impressionanti nella generazione multimodale, inclusa la generazione di immagini e video. Questi modelli sono tipicamente costruiti su framework multi-step come la diffusione e il flow matching, il che limita intrinsecamente la loro efficienza inferenziale (richiedendo 40-100 Valutazioni di Funzione - NFE). Sebbene vari metodi a pochi step mirino ad accelerare l'inferenza, le soluzioni esistenti presentano chiare limitazioni. I metodi prominenti basati sulla distillazione, come la distillazione progressiva e consistency, richiedono o una procedura di distillazione iterativa o mostrano un significativo degrado con pochissimi step (<4-NFE). Nel frattempo, l'integrazione dell'addestramento adversarial nella distillazione (ad esempio, DMD/DMD2 e SANA-Sprint) per migliorare le prestazioni introduce instabilità nell'addestramento, complessità aggiuntiva e un elevato sovraccarico di memoria GPU a causa dei modelli addizionali addestrati. A tal fine, proponiamo TwinFlow, un framework semplice ma efficace per l'addestramento di modelli generativi a 1-step che bypassa la necessità di modelli insegnante pre-addestrati fissi ed evita le reti adversarial standard durante l'addestramento, rendendolo ideale per costruire modelli efficienti su larga scala. Su compiti di text-to-image, il nostro metodo raggiunge un punteggio GenEval di 0.83 in 1-NFE, superando baseline robuste come SANA-Sprint (un framework basato su perdita GAN) e RCGM (un framework basato sulla consistency). Notevolmente, dimostriamo la scalabilità di TwinFlow mediante l'addestramento full-parameter su Qwen-Image-20B e lo trasformiamo in un generatore efficiente a pochi step. Con soli 1-NFE, il nostro approccio eguaglia le prestazioni del modello originale a 100-NFE sia sui benchmark GenEval che DPG-Bench, riducendo il costo computazionale di 100 volte con una degradazione minima della qualità. La pagina del progetto è disponibile all'indirizzo https://zhenglin-cheng.com/twinflow.
L'editing di immagini basato su istruzioni è emerso come un'area di ricerca di primo piano, che, beneficiando di modelli di base per la generazione di immagini, ha raggiunto un'elevata qualità estetica, rendendo la capacità di seguire le istruzioni la sfida principale. Gli approcci esistenti migliorano l'aderenza alle istruzioni tramite apprendimento supervisionato o per rinforzo, ma i tassi di successo a singolo turno rimangono limitati a causa della stocasticità intrinseca e della mancanza di deliberazione. In questo lavoro, proponiamo un framework di editing deliberativo per "pensare" durante la modifica, che simula il ciclo cognitivo umano eseguendo iterativamente un ciclo Pensare-durante-Modificare: Criticare i risultati e Affinare le istruzioni, seguito dalla Ripetizione della generazione fino al soddisfacimento. Nello specifico, addestriamo un singolo MLLM, EditThinker, per fungere da motore di ragionamento di questo framework, che produce congiuntamente il punteggio di critica, il processo logico e le istruzioni raffinate. Utilizziamo l'apprendimento per rinforzo per allineare il pensiero di EditThinker con la sua azione di modifica, generando così miglioramenti delle istruzioni più mirati. Esperimenti estesi su quattro benchmark dimostrano che il nostro approccio migliora significativamente la capacità di seguire le istruzioni di qualsiasi modello di editing di immagini con un ampio margine. Rilasceremo la nostra struttura di costruzione dei dati, i dataset e i modelli a beneficio della comunità.
L'apprendimento per rinforzo è emerso come paradigma per il post-addestramento di grandi modelli linguistici, potenziandone le capacità di ragionamento. Tali approcci calcolano un valore di vantaggio per ogni campione, riflettendo prestazioni migliori o peggiori del previsto, fornendo così segnali sia positivi che negativi per l'addestramento. Tuttavia, la mescolanza indiscriminata dei due segnali nei metodi esistenti, specialmente dalle fasi iniziali, può portare a una guida ambigua e guadagni limitati. Per affrontare questo problema, proponiamo **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), un meccanismo di curriculum adattivo basato sui segnali di vantaggio. Il meccanismo proposto avvia l'apprendimento per imitazione con campioni di vantaggio esclusivamente positivi per stabilire basi solide, per poi introdurre segnali negativi per sviluppare capacità discriminative, migliorando così la generalizzazione in scenari complessi. Compatibile con vari metodi di ottimizzazione tra cui GRPO, PPO, RLOO e Reinforce++, il nostro metodo ottiene costantemente miglioramenti stabili e significativi in compiti di ragionamento matematico e si generalizza efficacemente anche a scenari di ragionamento multimodale su Interfacce Grafiche Utente (GUI), affermandosi come un framework di ottimizzazione versatile e robusto.
La generazione di immagini coerenti richiede la preservazione fedele di identità, stili e coerenza logica attraverso più immagini, un aspetto essenziale per applicazioni come lo storytelling e il character design. Gli approcci di training supervisionato incontrano difficoltà in questo compito a causa della mancanza di dataset su larga scala che catturino la coerenza visiva e della complessità nel modellare le preferenze percettive umane. In questo articolo, sosteniamo che il reinforcement learning (RL) rappresenta una valida alternativa, consentendo ai modelli di apprendere criteri visivi complessi e soggettivi in modo indipendente dai dati. Per raggiungere questo obiettivo, introduciamo PaCo-RL, un framework completo che combina un modello di ricompensa specializzato per la coerenza con un algoritmo RL efficiente. Il primo componente, PaCo-Reward, è un valutatore di coerenza a coppie addestrato su un dataset su larga scala costruito mediante l’abbinamento automatizzato di sotto-figure. Esso valuta la coerenza attraverso un meccanismo di punteggio generativo e autoregressivo potenziato da istruzioni task-aware e ragionamenti CoT. Il secondo componente, PaCo-GRPO, sfrutta una strategia di ottimizzazione disaccoppiata dalla risoluzione per ridurre sostanzialmente il costo del RL, insieme a un meccanismo di aggregazione multi-ricompensa con smussamento logaritmico che garantisce un'ottimizzazione bilanciata e stabile delle ricompense. Esperimenti estesi su due sottotask rappresentativi mostrano che PaCo-Reward migliora significativamente l'allineamento con le percezioni umane della coerenza visiva, e PaCo-GRPO raggiunge prestazioni state-of-the-art in coerenza con efficienza e stabilità di training migliorate. Nel complesso, questi risultati evidenziano il potenziale di PaCo-RL come soluzione pratica e scalabile per la generazione di immagini coerenti. La pagina del progetto è disponibile all'indirizzo https://x-gengroup.github.io/HomePage_PaCo-RL/.
Proponiamo EMMA, un'architettura efficiente e unificata per la comprensione, generazione e modifica multimodale. Nello specifico, EMMA è composta principalmente da: 1) Un autoencoder efficiente con un rapporto di compressione 32x, che riduce significativamente il numero di token necessari per la generazione. Ciò garantisce anche l'equilibrio di addestramento tra i compiti di comprensione e generazione applicando lo stesso rapporto di compressione alle immagini. 2) Una concatenazione per canali invece che per token tra i token di comprensione e generazione visiva, che riduce ulteriormente i token visivi nelle architetture unificate. 3) Una rete condivisa e disaccoppiata che consente miglioramenti reciproci tra i vari compiti, soddisfacendo al contempo i requisiti di modellazione specifici per ciascuno. 4) Un meccanismo misto di esperti adottato per l'encoder di comprensione visiva, che migliora sostanzialmente le capacità percettive con un modesto aumento dei parametri. Esperimenti estensivi hanno dimostrato che EMMA-4B può superare significativamente, sia in efficienza che in prestazioni, gli approcci multimodali unificati all'avanguardia (ad esempio, BAGEL-7B), raggiungendo al contempo risultati competitivi rispetto a recenti modelli specializzati in comprensione e generazione multimodale (ad esempio, Qwen3-VL e Qwen-Image). Riteniamo che EMMA ponga una solida base per lo sviluppo futuro di architetture multimodali unificate.
Il raggiungimento di animazioni di personaggi che soddisfino gli standard produttivi di livello studio rimane una sfida nonostante i recenti progressi. Gli approcci esistenti sono in grado di trasferire il movimento da un video guida a un'immagine di riferimento, ma spesso falliscono nel preservare la fedeltà strutturale e la coerenza temporale in scenari complessi che coinvolgono movimenti articolati e animazioni cross-identità. In questo lavoro, presentiamo SCAIL (Studio-grade Character Animation via In-context Learning), un framework concepito per affrontare queste criticità attraverso due innovazioni fondamentali. In primo luogo, proponiamo una nuova rappresentazione della posa 3D, che fornisce un segnale di movimento più robusto e flessibile. In secondo luogo, introduciamo un meccanismo di iniezione della posa a contesto completo all'interno di un'architettura diffusion-transformer, abilitando un ragionamento spazio-temporale efficace su intere sequenze di movimento. Per aderire ai requisiti di livello studio, sviluppiamo una pipeline di dati curata che garantisce sia diversità che qualità, e stabiliamo un benchmark completo per la valutazione sistematica. Gli esperimenti dimostrano che SCAIL raggiunge prestazioni allo stato dell'arte e avanza l'animazione dei personaggi verso l'affidabilità e il realismo di grado professionale.
L'addestramento post-allenamento dei grandi modelli linguistici si basa sull'apprendimento per rinforzo per migliorare le capacità del modello e la qualità dell'allineamento. Tuttavia, il paradigma di addestramento off-policy introduce uno spostamento della distribuzione, che spesso spinge la politica al di fuori della regione di fiducia, portando a instabilità nell'addestramento manifestate come fluttuazioni nell'entropia della politica e gradienti instabili. Sebbene PPO-Clip mitighi questo problema attraverso il clipping dell'importanza, esso trascura comunque lo spostamento distributivo globale delle azioni. Per affrontare queste sfide, proponiamo di utilizzare il rapporto di entropia tra le politiche corrente e precedente come nuova metrica globale che quantifica efficacemente il cambiamento relativo nell'esplorazione della politica durante gli aggiornamenti. Basandoci su questa metrica, introduciamo un meccanismo di Clipping del Rapporto di Entropia (ERC) che impone vincoli bidirezionali sul rapporto di entropia. Ciò stabilizza gli aggiornamenti della politica a livello di distribuzione globale e compensa l'incapacità di PPO-clip di regolare gli spostamenti di probabilità delle azioni non campionate. Integriamo l'ERC sia negli algoritmi di apprendimento per rinforzo DAPO che GPPO. Esperimenti su molteplici benchmark dimostrano che l'ERC migliora costantemente le prestazioni.
La generazione di scene 4D interattive e dinamiche a partire da una singola immagine statica rimane una sfida fondamentale. La maggior parte dei metodi esistenti di tipo "genera-e-ricostruisci" o "ricostruisci-e-genera" disaccoppia la geometria dal movimento, causando inconsistenze spazio-temporali e una scarsa generalizzazione. Per affrontare questi problemi, estendiamo il framework "ricostruisci-e-genera" per eseguire congiuntamente la generazione del movimento e la ricostruzione geometrica per la sintesi 4D (MoRe4D). Introduciamo innanzitutto TrajScene-60K, un dataset su larga scala di 60.000 campioni video con traiettorie dense di punti, che affronta la carenza di dati di scene 4D di alta qualità. Su questa base, proponiamo un Generatore di Traiettorie per Scene 4D (4D-STraG) basato su modelli di diffusione, per generare congiuntamente traiettorie di punti 4D geometricamente consistenti e con movimento plausibile. Per sfruttare i prior da vista singola, progettiamo una strategia di normalizzazione del movimento guidata dalla profondità e un modulo motion-aware per un'integrazione efficace di geometria e dinamica. Proponiamo quindi un Modulo di Sintesi di Viste 4D (4D-ViSM) per renderizzare video con traiettorie di camera arbitrarie a partire dalle rappresentazioni delle tracce di punti 4D. Gli esperimenti dimostrano che MoRe4D genera scene 4D di alta qualità con consistenza multi-vista e ricchi dettagli dinamici a partire da una singola immagine. Codice: https://github.com/Zhangyr2022/MoRe4D.
Con il continuo avanzamento della tecnologia di generazione di immagini, modelli avanzati come GPT-Image-1 e Qwen-Image hanno ottenuto risultati notevoli in termini di coerenza testo-immagine e conoscenza del mondo. Tuttavia, questi modelli presentano ancora carenze nella generazione di immagini fotorealistiche. Anche in compiti T2I semplici, tendono a produrre immagini "finte" con evidenti artefatti di IA, spesso caratterizzate da "pelle eccessivamente levigata" e "lucichii oleosi sul volto". Per riconquistare l'obiettivo originale della generazione "indistinguibile dalla realtà", proponiamo RealGen, un framework testo-immagine fotorealistico. RealGen integra un componente LLM per l'ottimizzazione dei prompt e un modello di diffusione per la generazione di immagini realistiche. Ispirandosi alla generazione avversaria, RealGen introduce un meccanismo di "Ricompensa del Rilevatore", che quantifica gli artefatti e valuta il realismo utilizzando rilevatori di immagini sintetiche a livello semantico e a livello di feature. Sfruttiamo questo segnale di ricompensa con l'algoritmo GRPO per ottimizzare l'intera pipeline di generazione, migliorando significativamente il realismo e il dettaglio dell'immagine. Inoltre, proponiamo RealBench, un benchmark di valutazione automatizzato che impiega il Punteggio del Rilevatore e il Punteggio Arena. Esso consente una valutazione del fotorealismo senza intervento umano, producendo risultati più accurati e allineati con la reale esperienza utente. Gli esperimenti dimostrano che RealGen supera significativamente i modelli generalisti come GPT-Image-1 e Qwen-Image, nonché i modelli specializzati in fotorealismo come FLUX-Krea, in termini di realismo, dettaglio ed estetica. Il codice è disponibile all'indirizzo https://github.com/yejy53/RealGen.
Valutatori efficaci dei Modelli Visione-Linguaggio (VLM) sono cruciali per lo sviluppo dei modelli. I metodi attuali per addestrare valutatori VLM si basano principalmente su annotazioni su larga scala di preferenze umane. Tuttavia, questo approccio è costoso e le annotazioni diventano facilmente obsolete con il rapido miglioramento dei modelli. In questo lavoro, presentiamo un framework per addestrare autonomamente un modello valutatore VLM senza alcuna annotazione di preferenza umana, utilizzando esclusivamente dati auto-sintetizzati. Il nostro metodo è iterativo e si articola in tre fasi: (1) generare coppie istruzione-risposta multimodali diversificate a diversi livelli di qualità, (2) generare tracce di ragionamento e giudizi per ogni coppia, rimuovendo quelle che non corrispondono ai nostri livelli di qualità attesi, e (3) addestrare il modello sulle risposte corrette del valutatore e sulle relative tracce di ragionamento. Valutiamo il valutatore risultante su Multimodal RewardBench e VL-RewardBench in diversi domini: correttezza, preferenza, ragionamento, sicurezza e question-answering visivo. Il nostro metodo migliora un valutatore multimodale Llama-3.2-11B, portandone l'accuratezza complessiva su VL-RewardBench da 0,38 a 0,51, superando spesso modelli molto più grandi come Llama-3.2-90B, GPT-4o e Claude 3.5 Sonnet, con guadagni particolarmente significativi nelle dimensioni generale, allucinazione e ragionamento. La solidità complessiva di questi risultati ottenuti senza annotazioni umane suggerisce il potenziale per un futuro sistema di autovalutazione che si evolva di pari passo con le capacità in rapido miglioramento dei VLM.
I metodi generativi per asset 3D hanno recentemente conseguito progressi notevoli, ma fornire un controllo intuitivo e preciso sulla geometria degli oggetti rimane una sfida fondamentale. Gli approcci esistenti si basano prevalentemente su prompt testuali o immagini, che spesso risultano carenti in specificità geometrica: il linguaggio può essere ambiguo e le immagini sono macchinose da modificare. In questo lavoro presentiamo SpaceControl, un metodo training-free che opera al momento del test per il controllo spaziale esplicito della generazione 3D. Il nostro approccio accetta un'ampia gamma di input geometrici, da primitive semplici a mesh dettagliate, e si integra perfettamente con modelli generativi pre-addestrati moderni senza richiedere alcuna formazione aggiuntiva. Un parametro controllabile consente agli utenti di bilanciare fedeltà geometrica e realismo dell'output. Una valutazione quantitativa estensiva e studi utente dimostrano che SpaceControl supera le baseline basate su training e ottimizzazione nella fedeltà geometrica, preservando al contempo un'elevata qualità visiva. Infine, presentiamo un'interfaccia utente interattiva che consente la modifica online di superquadriche per la conversione diretta in asset 3D texturizzati, facilitando l'implementazione pratica nei flussi di lavoro creativi. La pagina del progetto è disponibile all'indirizzo https://spacecontrol3d.github.io/
Il ragionamento visivo-spaziale è cruciale per consentire ai Modelli Linguistici Multimodali di Grande Dimensione (MLLM) di comprendere le proprietà degli oggetti e le relazioni spaziali, eppure i modelli attuali continuano a incontrare difficoltà con il ragionamento consapevole della tridimensionalità. Gli approcci esistenti generalmente migliorano la percezione, arricchendo gli input RGB con modalità ausiliarie come la profondità e la segmentazione, oppure potenziano il ragionamento, addestrando i modelli su dataset di VQA spaziale e applicando l'apprendimento per rinforzo, trattando quindi questi due aspetti in modo isolato. In questo lavoro, indaghiamo se un MLLM unificato possa sviluppare un'abilità intrinseca per potenziare la percezione spaziale e, attraverso un ragionamento intervallato adattivo, raggiungere un'intelligenza spaziale più robusta. Proponiamo COOPER, un MLLM unificato che utilizza la profondità e la segmentazione come modalità ausiliarie ed è addestrato in due fasi per acquisire capacità di generazione di modalità ausiliarie e di ragionamento adattivo e intervallato. COOPER ottiene un miglioramento medio del 6,91% nel ragionamento spaziale mantenendo al contempo le prestazioni generali. Inoltre, persino una variante addestrata solo per la generazione di modalità ausiliarie raggiunge un guadagno del 7,92% nella stima di distanze e dimensioni, suggerendo che imparare a generare modalità ausiliarie aiuta a internalizzare la conoscenza spaziale e a rafforzare la comprensione spaziale.
La segmentazione video di oggetti centrata sul ragionamento è un compito intrinsecamente complesso: la query spesso si riferisce a dinamiche, causalità e interazioni temporali, piuttosto che ad apparenze statiche. Tuttavia, le soluzioni esistenti generalmente comprimono questi fattori in ragionamenti semplificati con embedding latenti, rendendo la catena deduttiva opaca e sostanzialmente intrattabile. Adottiamo pertanto una prospettiva di scomposizione esplicita e introduciamo ReVSeg, che esegue il ragionamento come decisioni sequenziali nell'interfaccia nativa di modelli visione-linguaggio (VLM) preaddestrati. Invece di condensare tutto il ragionamento in una previsione a singolo passo, ReVSeg esegue tre operazioni esplicite - interpretazione semantica, selezione di evidenze temporali e grounding spaziale - allineando le capacità preesistenti. Utilizziamo inoltre l'apprendimento per rinforzo per ottimizzare la catena deduttiva multi-step, consentendo al modello di affinare autonomamente la qualità delle sue decisioni sulla base di segnali guidati dai risultati. I risultati sperimentali dimostrano che ReVSeg raggiunge prestazioni all'avanguardia sui benchmark standard di segmentazione video di oggetti e produce traiettorie di ragionamento interpretabili. La pagina del progetto è disponibile all'indirizzo https://clementine24.github.io/ReVSeg/.
I recenti progressi nei modelli video generativi hanno portato a significative svolte nella sintesi video ad alta fedeltà, in particolare nella generazione video controllabile dove il video generato è condizionato da input testuali e d'azione, ad esempio nell'editing video guidato da istruzioni e nella modellazione del mondo nella robotica. Nonostante queste capacità eccezionali, i modelli video controllabili spesso producono allucinazioni - generando fotogrammi video futuri che non sono allineati con la realtà fisica - il che solleva serie preoccupazioni in molti compiti come la valutazione e la pianificazione delle politiche robotiche. Tuttavia, i modelli video all'avanguardia mancano della capacità di valutare ed esprimere la propria confidenza, ostacolando la mitigazione delle allucinazioni. Per affrontare rigorosamente questa sfida, proponiamo C3, un metodo di quantificazione dell'incertezza (UQ) per addestrare modelli video controllabili calibrati a scala continua per la stima della confidenza densa a livello di sottopatch, localizzando precisamente l'incertezza in ogni fotogramma video generato. Il nostro metodo UQ introduce tre innovazioni fondamentali per permettere ai modelli video di stimare la propria incertezza. In primo luogo, il nostro metodo sviluppa una struttura innovativa che addestra i modelli video per la correttezza e la calibrazione tramite regole di punteggio strettamente proprie. In secondo luogo, stimiamo l'incertezza del modello video nello spazio latente, evitando l'instabilità dell'addestramento e i costi proibitivi associati agli approcci nello spazio dei pixel. In terzo luogo, mappiamo l'incertezza densa dello spazio latente in un'incertezza a livello di pixel interpretabile nello spazio RGB per una visualizzazione intuitiva, fornendo mappe di calore dell'incertezza ad alta risoluzione che identificano le regioni inaffidabili. Attraverso esperimenti approfonditi su dataset su larga scala per l'apprendimento robotico (Bridge e DROID) e valutazioni nel mondo reale, dimostriamo che il nostro metodo non solo fornisce stime dell'incertezza calibrate all'interno della distribuzione di addestramento, ma permette anche un'efficace rilevazione fuori distribuzione.
L'auto-miglioramento è un obiettivo che attualmente entusiasma il campo dell'IA, ma è carico di pericoli e potrebbe richiedere tempo per essere pienamente raggiunto. Sosteniamo che un obiettivo più realizzabile e migliore per l'umanità sia massimizzare il co-miglioramento: la collaborazione tra ricercatori umani e IA per raggiungere una co-superintelligenza. Ciò significa, specificamente, mirare a migliorare la capacità dei sistemi di IA di lavorare con i ricercatori umani per condurre insieme la ricerca sull'IA, dall'ideazione alla sperimentazione, al fine sia di accelerare la ricerca sull'IA che di dotare in generale sia le IA che gli esseri umani di una superintelligenza più sicura attraverso la loro simbiosi. Concentrarsi sull'includere il miglioramento della ricerca umana nel ciclo ci porterà più velocemente e in modo più sicuro a questo traguardo.
I sistemi di recupero multimodale di documenti hanno dimostrato significativi progressi nell'allineamento di contenuti visivi e testuali per la ricerca semantica. Tuttavia, la maggior parte degli approcci esistenti rimane fortemente incentrata sull'inglese, limitandone l'efficacia in contesti multilingue. In questo lavoro, presentiamo M3DR (Multilingual Multimodal Document Retrieval), un framework progettato per colmare questa lacuna tra le lingue, consentendo l'applicabilità in diversi contesti linguistici e culturali. M3DR sfrutta dati sintetici di documenti multilingue e generalizza diverse architetture visione-linguaggio e dimensioni di modello, abilitando un solido allineamento cross-linguale e cross-modale. Utilizzando l'addestramento contrastivo, i nostri modelli apprendono rappresentazioni unificate per il testo e le immagini dei documenti che si trasferiscono efficacemente tra le lingue. Convalidiamo questa capacità su 22 lingue tipologicamente diverse, dimostrando prestazioni consistenti e adattabilità attraverso variazioni linguistiche e di scrittura. Introduciamo inoltre un benchmark completo che cattura scenari multilingue del mondo reale, valutando i modelli in contesti monolingue, multilingue e con lingue miste. M3DR generalizza sia i paradigmi di recupero a vettore denso singolo che quelli multi-vettore a livello di token di tipo ColBERT. I nostri modelli, NetraEmbed e ColNetraEmbed, raggiungono prestazioni all'avanguardia con miglioramenti relativi di circa il 150% nel recupero cross-linguale.
La comprensione di video lunghi (LVU) è impegnativa poiché rispondere a query del mondo reale spesso dipende da indizi sparsi e temporalmente dispersi, sepolti in ore di contenuto per lo più ridondante e irrilevante. Sebbene le pipeline agent-based migliorino le capacità di ragionamento video, i framework prevalenti si affidano a sistemi di descrizione video agnostici rispetto alla query per percepire le informazioni, sprecando risorse computazionali su contenuti irrilevanti e sfocando dettagli temporali e spaziali fini. Ispirati dalla teoria della percezione attiva, sosteniamo che gli agenti LVU dovrebbero decidere attivamente cosa, quando e dove osservare, valutando continuamente se l'osservazione corrente sia sufficiente a rispondere alla query. Presentiamo Active Video Perception (AVP), un framework di ricerca evidenziale che tratta il video come un ambiente interattivo e acquisisce evidenze compatte e pertinenti alla query direttamente dai pixel. Nello specifico, AVP esegue un processo iterativo di pianificazione-osservazione-riflessione con agenti MLLM. In ogni ciclo, un pianificatore propone interazioni video mirate, un osservatore le esegue per estrarre evidenze temporizzate, e un riflettore valuta la sufficienza delle evidenze per la query, fermandosi con una risposta o attivando ulteriori osservazioni. Su cinque benchmark LVU, AVP raggiunge le massime prestazioni con miglioramenti significativi. In particolare, supera il miglior metodo agent-based del 5.7% in accuratezza media, richiedendo solo il 18.4% del tempo di inferenza e il 12.4% dei token di input.
La comprensione temporale nella guida autonoma (AD) rimane una sfida significativa, anche per i recenti modelli visione-linguaggio (VLM) all'avanguardia (SoTA). I lavori precedenti hanno introdotto dataset e benchmark mirati a migliorare il ragionamento temporale, ma questi si sono concentrati su altri contenuti video, come sport, cucina e film. Nessun benchmark esistente si concentra esclusivamente sulle sfide uniche della comprensione temporale nei filmati in prospettiva egocentrica della AD. Per colmare questa lacuna, viene presentato il benchmark Temporal Understanding in Autonomous Driving (TAD), che valuta la capacità dei VLM di cogliere le relazioni dinamiche tra le azioni nella AD. TAD comprende quasi 6.000 coppie domanda-risposta (QA), che abbracciano 7 task progettati da esseri umani. Inoltre, viene eseguita una valutazione che include 9 modelli generalisti, open-source e non, oltre a modelli specialisti SoTA per la AD. Quando applicati a TAD, gli attuali modelli SoTA hanno dimostrato accuratezze inferiori agli standard, principalmente a causa di una comprensione imperfetta del movimento a grana fine. Per migliorare la comprensione del movimento e l'accuratezza complessiva su TAD, vengono proposte due nuove soluzioni senza addestramento: Scene-CoT, che sfrutta il ragionamento a catena (Chain-of-Thought, CoT), e TCogMap, che incorpora una mappa cognitiva temporale egocentrica. Gli approcci proposti sono integrati con VLM esistenti e migliorano l'accuratezza media su TAD fino al 17,72%. Introducendo TAD, confrontando più modelli SoTA e proponendo miglioramenti efficaci, questo lavoro mira a catalizzare la futura ricerca sulla comprensione temporale nella AD. Il benchmark e il codice di valutazione sono disponibili rispettivamente su https://huggingface.co/datasets/vbdai/TAD{Hugging Face} e https://github.com/vbdi/tad_bench{Github}.
In questo studio presentiamo Colon-X, un'iniziativa aperta finalizzata a far progredire l'intelligenza multimodale in colonscopia. Iniziamo costruendo ColonVQA, il dataset multimodale più completo mai realizzato per la colonscopia, caratterizzato da oltre 1,1 milioni di voci di visual question answering relative a 76 reperti clinici e 18 task multimodali. Oltre a fungere da base dati per l'intera comunità, approfondiamo ulteriormente una transizione cruciale ma poco esplorata nella colonscopia: l'evoluzione dalla comprensione multimodale al ragionamento clinico: (a) Per catturare lo scenario attuale dei comportamenti di comprensione multimodale, valutiamo sistematicamente la generalizzabilità di 22 modelli linguistici di grandi dimensioni multimodali ed esaminiamo la loro affidabilità sotto perturbazioni di origine umana. I risultati rivelano che gli output clinici dei principali MLLM sono ancora lontani dall'essere robusti e affidabili. (b) Per colmare questa lacuna, esploriamo ulteriormente un'intelligenza centrata sul ragionamento specifica per la colonscopia. Nello specifico, curiamo ColonReason, un dataset di ragionamento basato su fondamenti clinici annotato attraverso una pipeline di dibattito multi-esperto, e sviluppiamo ColonR1, il primo modello in stile R1 che incorpora tecniche di rewarding adattivo al task e di ottimizzazione a gradiente stabile. In condizioni di scarsità di dati, il nostro ColonR1 raggiunge un'accuratezza complessiva del 56.61%, superando il fine-tuning supervisionato del 25.22%, e stabilisce un nuovo baseline abilitato al ragionamento per l'analisi multimodale in colonscopia. Tutti i dati e le risorse modellistiche sono pubblicamente disponibili all'indirizzo https://github.com/ai4colonoscopy/Colon-X.
I recenti progressi nella generazione video hanno mostrato un potenziale notevole per la costruzione di simulatori mondiali. Tuttavia, i modelli attuali continuano a incontrare difficoltà nel produrre risultati fisicamente coerenti, specialmente quando gestiscono dinamiche su larga scala o complesse. Questa limitazione sorge principalmente perché gli approcci esistenti rispondono in modo isotropo ai prompt fisici e trascurano l'allineamento granulare tra il contenuto generato e gli indizi fisici localizzati. Per affrontare queste sfide, proponiamo ProPhy, un Framework di Allineamento Fisico Progressivo che abilita un condizionamento esplicito consapevole della fisica e una generazione anisotropa. ProPhy impiega un meccanismo a due stadi di Mistura di Esperti di Fisica (MoPE) per l'estrazione discriminatoria di prior fisiche, dove Esperti Semantici inferiscono principi fisici a livello semantico dalle descrizioni testuali, ed Esperti di Raffinamento catturano le dinamiche fisiche a livello di token. Questo meccanismo consente al modello di apprendere rappresentazioni video granulari e consapevoli della fisica che riflettono meglio le leggi fisiche sottostanti. Inoltre, introduciamo una strategia di allineamento fisico che trasferisce le capacità di ragionamento fisico dei modelli visione-linguaggio (VLM) negli Esperti di Raffinamento, facilitando una rappresentazione più accurata dei fenomeni fisici dinamici. Esperimenti estesi su benchmark di generazione video consapevole della fisica dimostrano che ProPhy produce risultati più realistici, dinamici e fisicamente coerenti rispetto ai metodi state-of-the-art esistenti.
La quantizzazione post-addestramento (PTQ) svolge un ruolo cruciale nella democratizzazione dei grandi modelli linguistici (LLM). Tuttavia, le tecniche esistenti di quantizzazione a basso bit e sparsificazione faticano a bilanciare accuratezza ed efficienza a causa del limitato supporto hardware. Ad esempio, W4A8 può raggiungere solo lo stesso picco di TOPS di W8A8, mentre il formato di dati sparse supportato dalle GPU (sparsità semi-strutturata 2:4) è raramente adottato a causa della perdita di accuratezza. Per colmare questa lacuna, in questo articolo proponiamo il Formato Sparso-Quantizzato (SQ-format), un formato di dati unificato per quantizzazione e sparsificazione potenzialmente facile da supportare sia per nuovi hardware che per GPU esistenti. L'SQ-format sfrutta il fatto che le matrici sparse possono essere accelerate in alta precisione e che la moltiplicazione di matrici a bassa precisione può anch'essa essere accelerata di conseguenza. In tal modo, l'SQ-format è proposto per ottenere un miglioramento paretiano tra prestazioni e throughput. Questo formato è particolarmente adatto per attivazioni con stato di disuguaglianza degli outlier e rende possibile la loro compressione statica. Dimostriamo le prestazioni all'avanguardia della PTQ con l'SQ-format, proponiamo l'hardware necessario per supportarlo e offriamo inoltre un'esplorazione progettuale e spunti di riflessione per la prossima generazione di acceleratori per l'IA.
La riduzione efficace del rischio sismico si basa su valutazioni accurate specifiche per sito. Ciò richiede modelli in grado di rappresentare l'influenza delle condizioni locali del sito sulle caratteristiche del moto sismico. In questo contesto, gli approcci basati sui dati che apprendono le firme controllate dal sito dai moti sismici registrati rappresentano una direzione promettente. Affrontiamo la generazione di forti moti sismici a partire da registrazioni accelerometriche nel dominio del tempo e introduciamo TimesNet-Gen, un generatore condizionato nel dominio del tempo. L'approccio utilizza un collo di bottiglia latente specifico per stazione. Valutiamo la generazione confrontando le curve HVSR e le distribuzioni della frequenza fondamentale del sito f_0 tra i registri reali e quelli generati per stazione, e riassumiamo la specificità della stazione con un punteggio basato sulle matrici di confusione della distribuzione f_0. TimesNet-Gen raggiunge un forte allineamento per stazione e si confronta favorevolmente con una baseline VAE condizionata basata su spettrogrammi per la sintesi sito-specifica di forti moti sismici. I nostri codici sono disponibili all'indirizzo https://github.com/brsylmz23/TimesNet-Gen.
Con l'aumentare costante delle richieste computazionali, la valutazione dell'impronta ambientale dell'IA richiede di andare oltre il consumo di energia e acqua per includere le richieste di materiali dell'hardware specializzato. Questo studio quantifica l'impronta materiale dell'addestramento dell'IA collegando i carichi di lavoro computazionali alle necessità fisiche dell'hardware. La composizione elementare dell'unità di elaborazione grafica (GPU) Nvidia A100 SXM da 40 GB è stata analizzata mediante spettroscopia di emissione ottica al plasma accoppiato induttivamente, che ha identificato 32 elementi. I risultati mostrano che l'hardware per l'IA è composto per circa il 90% da metalli pesanti e solo da tracce di metalli preziosi. Gli elementi rame, ferro, stagno, silicio e nichel dominano la composizione della GPU in termini di massa. In una metodologia multi-step, integriamo queste misurazioni con la produttività computazionale per GPU lungo diversi cicli di vita, tenendo conto dei requisiti computazionali per l'addestramento di modelli di IA specifici in diversi regimi di efficienza. Analisi basate su scenari rivelano che, a seconda dell'Utilizzo dei FLOP del Modello (MFU) e della durata dell'hardware, l'addestramento di GPT-4 richiede tra 1.174 e 8.800 GPU A100, corrispondenti all'estrazione e allo smaltimento finale fino a 7 tonnellate di elementi tossici. Strategie combinate di ottimizzazione software e hardware possono ridurre la domanda di materiali: aumentare l'MFU dal 20% al 60% riduce i requisiti di GPU del 67%, mentre estendere la durata da 1 a 3 anni produce risparmi comparabili; l'implementazione congiunta di entrambe le misure riduce le necessità di GPU fino al 93%. I nostri risultati evidenziano che i guadagni incrementali di performance, come quelli osservati tra GPT-3.5 e GPT-4, comportano costi materiali sproporzionatamente alti. Lo studio sottolinea la necessità di incorporare le considerazioni sulle risorse materiali nelle discussioni sulla scalabilità dell'IA, enfatizzando che i progressi futuri nell'IA devono allinearsi ai principi di efficienza delle risorse e responsabilità ambientale.
I Large Language Model (LLM) sono tipicamente allineati per la sicurezza durante la fase di post-addestramento; tuttavia, possono comunque generare output inappropriati che potenzialmente potrebbero rappresentare rischi per gli utenti. Questa sfida sottolinea la necessità di robuste misure di sicurezza che operino sia sugli input che sugli output del modello. In questo lavoro, presentiamo Roblox Guard 1.0, un LLM all'avanguardia fine-tuned su istruzioni, progettato per migliorare la sicurezza dei sistemi di LLM attraverso una moderazione completa di input e output, utilizzando una pipeline di LLM per potenziare la capacità di moderazione. Costruito sull'architettura Llama-3.1-8B-Instruct, il nostro modello è stato sottoposto a fine-tuning su istruzioni per generalizzare su tassonomie della sicurezza precedentemente non viste e dimostra prestazioni solide su benchmark di sicurezza fuori dominio. Il processo di instruction fine-tuning utilizza un mix di dataset sintetici e open-source sulla sicurezza, arricchiti con ragionamenti a catena (chain-of-thought, CoT) e inversione dell'input per migliorare la comprensione contestuale e il processo decisionale. Per supportare una valutazione sistematica, rilasciamo anche RobloxGuard-Eval, un nuovo benchmark che presenta una tassonomia della sicurezza estensibile per valutare l'efficacia delle protezioni (guardrail) e dei framework di moderazione per LLM.