Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i Large Multimodal Model (LMM) abbiano compiuto progressi significativi, rimangono in larga misura incentrati sul testo, basandosi sul linguaggio come modalità di ragionamento principale. Di conseguenza, le loro capacità sono limitate nell'affrontare compiti di ragionamento prevalentemente visivi. Approcci recenti hanno cercato di risolvere questo problema supervisionando i passaggi visivi intermedi con immagini di supporto, mappe di profondità o ritagli di immagine. Tuttavia, queste strategie impongono preconcetti restrittivi su come dovrebbero apparire le astrazioni visive "utili", aggiungono costi di annotazione elevati e faticano a generalizzare tra diversi compiti. Per affrontare questa limitazione critica, proponiamo un meccanismo indipendente dal compito che addestra gli LMM a scoprire e utilizzare token di ragionamento visivo senza una supervisione esplicita. Questi token operano globalmente e ricodificano l'immagine in modo adattivo al compito, consentendo al modello di estrarre informazioni visive rilevanti senza una supervisione manuale. Il nostro approccio supera la messa a punto diretta (fine-tuning) e ottiene risultati allo stato dell'arte su un'ampia gamma di compiti incentrati sulla visione – inclusi quelli in cui le astrazioni intermedie sono difficili da specificare – generalizzando anche per la messa a punto su istruzioni multi-compito.
I modelli autoregressivi su larga scala, pre-addestrati sulla predizione del token successivo e perfezionati con l'apprendimento per rinforzo (RL), hanno ottenuto un successo senza precedenti in molti ambiti problematici. Durante la RL, questi modelli esplorano generando nuovi output, un token alla volta. Tuttavia, campionare le azioni token per token può risultare in un apprendimento altamente inefficiente, specialmente quando le ricompense sono sparse. Qui dimostriamo che è possibile superare questo problema agendo ed esplorando all'interno delle rappresentazioni interne di un modello autoregressivo. Nello specifico, per scoprire azioni temporalmente astratte, introduciamo un modello di sequenza di ordine superiore e non causale i cui output controllano le attivazioni del flusso residuo di un modello autoregressivo base. Su compiti basati su grid world e MuJoCo con struttura gerarchica, scopriamo che il modello di ordine superiore impara a comprimere lunghi chunk di sequenze di attivazione su controller interni. In modo cruciale, ogni controller esegue una sequenza di azioni comportamentalmente significative che si dispiegano su scale temporali lunghe e sono accompagnate da una condizione di terminazione appresa, in modo che la composizione di più controller nel tempo porti a un'esplorazione efficiente su compiti nuovi. Mostriamo che il rinforzo diretto del controller interno, un processo che definiamo "RL interna", consente l'apprendimento da ricompense sparse in casi in cui il perfezionamento RL standard fallisce. I nostri risultati dimostrano i vantaggi della generazione e del rinforzo di azioni latenti nei modelli autoregressivi, suggerendo la RL interna come una strada promettente per realizzare l'RL gerarchica all'interno dei modelli di fondazione.
I modelli esistenti per la generazione video faticano a mantenere una coerenza spaziale e temporale a lungo termine a causa della natura densa e ad alta dimensionalità dei segnali video. Per superare questa limitazione, proponiamo Spatia, un framework di generazione video con memoria spaziale che preserva esplicitamente una nuvola di punti 3D della scena come memoria spaziale persistente. Spatia genera iterativamente clip video condizionati da questa memoria spaziale e la aggiorna continuamente attraverso tecniche di SLAM visivo. Questo design di separazione dinamico-statico migliora la coerenza spaziale durante l'intero processo di generazione, preservando allo stesso tempo la capacità del modello di produrre entità dinamiche realistiche. Inoltre, Spatia consente applicazioni come il controllo esplicito della telecamera e l'editing interattivo 3D-aware, fornendo un framework geometricamente fondato per una generazione video scalabile guidata dalla memoria.
I modelli linguistici di grandi dimensioni espongono sempre più tracce di ragionamento, ma la loro struttura cognitiva sottostante e i passaggi rimangono difficili da identificare e analizzare oltre le statistiche superficiali. Adottiamo la Teoria degli Episodi di Schoenfeld come lente induttiva a scala intermedia e introduciamo ThinkARM (Anatomia del Ragionamento nei Modelli), un framework scalabile che astrae esplicitamente le tracce di ragionamento in passaggi funzionali come Analisi, Esplorazione, Implementazione, Verifica, ecc. Applicata alla risoluzione di problemi matematici da parte di modelli diversi, questa astrazione rivela dinamiche di pensiero riproducibili e differenze strutturali tra modelli con e senza ragionamento, che non sono evidenti dalle visualizzazioni a livello di token. Presentiamo inoltre due studi di caso diagnostici che mostrano come l'esplorazione funzioni da passaggio di diramazione critico associato alla correttezza, e come i metodi orientati all'efficienza sopprimano selettivamente i passaggi di feedback valutativo piuttosto che abbreviare uniformemente le risposte. Nel complesso, i nostri risultati dimostrano che le rappresentazioni a livello di episodio rendono espliciti i passaggi del ragionamento, consentendo un'analisi sistematica di come il ragionamento sia strutturato, stabilizzato e alterato nei moderni modelli linguistici.
La generazione visiva autoregressiva (AR) si basa su tokenizer per mappare le immagini da e verso sequenze discrete. Tuttavia, i tokenizer sono addestrati per ricostruire immagini pulite a partire da token di ground-truth, mentre i generatori AR sono ottimizzati solo per la verosimiglianza dei token. Questo disallineamento porta a sequenze di token generate che possono decodificarsi in immagini di bassa qualità, senza una supervisione diretta dallo spazio dei pixel. Proponiamo VA-π, un framework leggero post-addestramento che ottimizza direttamente i modelli AR con un obiettivo principiato nello spazio dei pixel. VA-π formula l'allineamento generatore-tokenizer come un'ottimizzazione variazionale, derivando un lower bound dell'evidenza (ELBO) che unifica la ricostruzione dei pixel e la modellazione autoregressiva. Per ottimizzare nello spazio discreto dei token, VA-π introduce una strategia di allineamento basata sul reinforcement learning che tratta il generatore AR come una policy e utilizza la qualità della ricostruzione nello spazio dei pixel come ricompensa intrinseca. La ricompensa è misurata da quanto bene le sequenze di token predette possono ricostruire l'immagine originale sotto teacher forcing, fornendo al modello una guida diretta a livello di pixel senza costosi campionamenti free-running. Il termine di regolarizzazione dell'ELBO funge da regolarizzante naturale, mantenendo la consistenza distributiva dei token. VA-π consente una rapida adattazione di generatori AR esistenti, senza necessità di riaddestrare il tokenizer né di modelli di ricompensa esterni. Con solo l'1% dei dati di ImageNet-1K e 25 minuti di tuning, riduce l'FID da 14.36 a 7.65 e migliora l'IS da 86.55 a 116.70 su LlamaGen-XXL, producendo anche guadagni significativi nel task text-to-image su GenEval sia per il modello di generazione visiva (LlamaGen: da 0.306 a 0.339) che per il modello multimodale unificato (Janus-Pro: da 0.725 a 0.744). Il codice è disponibile all'indirizzo https://github.com/Lil-Shake/VA-Pi.
I video sono proiezioni 2D continue di mondi 3D. Dopo l'addestramento su grandi quantità di dati video, la comprensione globale del 3D emergerà naturalmente? Lo studiamo quantificando la comprensione del 3D di modelli video fondazionali (VidFM) esistenti pre-addestrati su vaste raccolte di dati video. Proponiamo il primo framework modello-agnostico che misura la consapevolezza 3D di vari VidFM stimando multiple proprietà 3D dalle loro feature tramite read-out superficiali. Il nostro studio presenta risultati significativi riguardo la consapevolezza 3D dei VidFM su molteplici assi. In particolare, dimostriamo che i modelli all'avanguardia per la generazione video mostrano una forte comprensione di oggetti e scene 3D, nonostante non siano stati addestrati su alcun dato 3D. Tale comprensione può persino superare quella di grandi modelli specialistici addestrati specificamente per compiti 3D. I nostri risultati, insieme al benchmarking 3D dei principali VidFM, forniscono osservazioni preziose per la costruzione di modelli 3D scalabili.
L'apprendimento per rinforzo (RL) multi-turn per agenti multimodali basati su modelli visione-linguaggio (VLM) è ostacolato da ricompense sparse e da un assegnamento del credito a lungo termine. I metodi recenti addensano la ricompensa interrogando un "teacher" che fornisce un feedback a livello di step, ad esempio Guided Thought Reinforcement (GTR) e On-Policy Distillation, ma si basano su modelli teacher costosi e spesso privilegiati, limitando praticità e riproducibilità. Introduciamo GTR-Turbo, un aggiornamento altamente efficiente di GTR, che eguaglia le prestazioni senza addestrare o interrogare un costoso modello teacher. Nello specifico, GTR-Turbo fonde i pesi dei checkpoint prodotti durante l'addestramento RL in corso, per poi utilizzare questo modello fuso come un teacher "gratuito" per guidare il RL successivo tramite fine-tuning supervisionato o distillazione soft dei logit. Questo design elimina la dipendenza da VLM privilegiati (ad es., GPT o Gemini), mitiga il "collasso dell'entropia" osservato in lavori precedenti e mantiene stabile l'addestramento. In varie task di agenti visivi, GTR-Turbo migliora l'accuratezza del modello baseline del 10-30% riducendo contemporaneamente il tempo di addestramento wall-clock del 50% e il costo computazionale del 60% rispetto a GTR.