Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sora ha rivelato l'enorme potenziale dell'architettura Diffusion Transformer (DiT) nella generazione di video a scena singola. Tuttavia, il compito più impegnativo della generazione di video multi-scena, che offre applicazioni più ampie, rimane relativamente poco esplorato. Per colmare questa lacuna, proponiamo Mask^2DiT, un approccio innovativo che stabilisce un allineamento granulare e uno-a-uno tra segmenti video e le relative annotazioni testuali. Nello specifico, introduciamo una maschera binaria simmetrica in ogni livello di attenzione all'interno dell'architettura DiT, garantendo che ogni annotazione testuale si applichi esclusivamente al rispettivo segmento video, preservando al contempo la coerenza temporale tra i token visivi. Questo meccanismo di attenzione consente un preciso allineamento testuale-visivo a livello di segmento, permettendo all'architettura DiT di gestire efficacemente compiti di generazione video con un numero fisso di scene. Per dotare ulteriormente l'architettura DiT della capacità di generare scene aggiuntive basandosi su quelle esistenti, incorporiamo una maschera condizionale a livello di segmento, che condiziona ogni nuovo segmento generato sui segmenti video precedenti, abilitando così l'estensione auto-regressiva delle scene. Sia gli esperimenti qualitativi che quantitativi confermano che Mask^2DiT eccelle nel mantenere la coerenza visiva tra i segmenti, assicurando al contempo l'allineamento semantico tra ogni segmento e la relativa descrizione testuale. La nostra pagina del progetto è https://tianhao-qi.github.io/Mask2DiTProject.
In questo rapporto presentiamo Qwen2.5-Omni, un modello multimodale end-to-end progettato per percepire diverse modalità, tra cui testo, immagini, audio e video, generando simultaneamente risposte in testo e linguaggio naturale in modalità streaming. Per abilitare lo streaming degli input di informazioni multimodali, sia gli encoder audio che quelli visivi utilizzano un approccio di elaborazione a blocchi. Per sincronizzare i timestamp degli input video con l'audio, organizziamo l'audio e il video in modo sequenziale e intercalato, proponendo un nuovo approccio di embedding posizionale denominato TMRoPE (Time-aligned Multimodal RoPE). Per generare contemporaneamente testo e parlato evitando interferenze tra le due modalità, proponiamo l'architettura Thinker-Talker. In questo framework, Thinker funziona come un modello linguistico di grandi dimensioni incaricato della generazione del testo, mentre Talker è un modello autoregressivo a doppio binario che utilizza direttamente le rappresentazioni nascoste di Thinker per produrre token audio come output. Sia il modello Thinker che Talker sono progettati per essere addestrati e inferiti in modalità end-to-end. Per decodificare i token audio in modalità streaming, introduciamo un DiT a finestra scorrevole che limita il campo recettivo, con l'obiettivo di ridurre il ritardo iniziale del pacchetto. Qwen2.5-Omni è paragonabile a Qwen2.5-VL di dimensioni simili e supera Qwen2-Audio. Inoltre, Qwen2.5-Omni raggiunge prestazioni all'avanguardia su benchmark multimodali come Omni-Bench. È degno di nota che le prestazioni di Qwen2.5-Omni nel seguire istruzioni vocali end-to-end siano paragonabili alle sue capacità con input di testo, come dimostrato da benchmark come MMLU e GSM8K. Per quanto riguarda la generazione del parlato, il Talker in streaming di Qwen2.5-Omni supera la maggior parte delle alternative esistenti, sia in streaming che non, in termini di robustezza e naturalezza.
Questo rapporto presenta Wan, una suite completa e aperta di modelli di base per video progettata per spingere i confini della generazione video. Costruito sul paradigma mainstream del diffusion transformer, Wan raggiunge significativi progressi nelle capacità generative attraverso una serie di innovazioni, tra cui il nostro nuovo VAE, strategie di pre-addestramento scalabili, cura di dati su larga scala e metriche di valutazione automatizzate. Questi contributi migliorano collettivamente le prestazioni e la versatilità del modello. Nello specifico, Wan è caratterizzato da quattro caratteristiche chiave: Prestazioni Leader: Il modello 14B di Wan, addestrato su un vasto dataset comprendente miliardi di immagini e video, dimostra le leggi di scala della generazione video rispetto sia ai dati che alle dimensioni del modello. Supera costantemente i modelli open-source esistenti e le soluzioni commerciali all'avanguardia in molteplici benchmark interni ed esterni, dimostrando una chiara e significativa superiorità nelle prestazioni. Completezza: Wan offre due modelli capaci, rispettivamente da 1.3B e 14B parametri, per efficienza ed efficacia. Copre inoltre molteplici applicazioni downstream, tra cui immagine-a-video, editing video guidato da istruzioni e generazione di video personalizzati, comprendendo fino a otto task. Efficienza di Livello Consumer: Il modello 1.3B dimostra un'eccellente efficienza delle risorse, richiedendo solo 8.19 GB di VRAM, rendendolo compatibile con una vasta gamma di GPU di livello consumer. Apertura: Rendiamo open-source l'intera serie di Wan, inclusi il codice sorgente e tutti i modelli, con l'obiettivo di favorire la crescita della comunità di generazione video. Questa apertura mira a espandere significativamente le possibilità creative della produzione video nell'industria e a fornire al mondo accademico modelli di base per video di alta qualità. Tutto il codice e i modelli sono disponibili su https://github.com/Wan-Video/Wan2.1.
Presentiamo Gemma 3, un'aggiunta multimodale alla famiglia Gemma di modelli open leggeri, che spaziano in scala da 1 a 27 miliardi di parametri. Questa versione introduce capacità di comprensione visiva, una copertura più ampia di lingue e un contesto più lungo - almeno 128K token. Modifichiamo inoltre l'architettura del modello per ridurre la memoria della KV-cache che tende a esplodere con contesti lunghi. Questo è ottenuto aumentando il rapporto tra strati di attenzione locale e globale e mantenendo breve l'estensione dell'attenzione locale. I modelli Gemma 3 sono addestrati con distillazione e raggiungono prestazioni superiori a Gemma 2 sia per le versioni pre-addestrate che per quelle fine-tuned su istruzioni. In particolare, la nostra nuova ricetta di post-training migliora significativamente le capacità matematiche, di chat, di seguire istruzioni e multilingue, rendendo Gemma3-4B-IT competitivo con Gemma2-27B-IT e Gemma3-27B-IT paragonabile a Gemini-1.5-Pro nei benchmark. Rilasciamo tutti i nostri modelli alla comunità.
Mentre i recenti modelli visione-linguaggio-azione addestrati su dataset robotici diversificati mostrano promettenti capacità di generalizzazione con dati in dominio limitati, la loro dipendenza da testine di azione compatte per prevedere azioni discretizzate o continue limita l'adattabilità a spazi di azione eterogenei. Presentiamo Dita, un framework scalabile che sfrutta architetture Transformer per denoisare direttamente sequenze di azioni continue attraverso un processo di diffusione multimodale unificato. Diversamente dai metodi precedenti che condizionano il denoising su embedding fusi tramite reti superficiali, Dita impiega il condizionamento in-context, consentendo un allineamento granulare tra azioni denoisate e token visivi grezzi provenienti da osservazioni storiche. Questo design modella esplicitamente i delta delle azioni e le sfumature ambientali. Scalando il denoiser di azioni a diffusione insieme alla scalabilità del Transformer, Dita integra efficacemente dataset cross-embodiment attraverso diverse prospettive della telecamera, scene di osservazione, compiti e spazi di azione. Tale sinergia migliora la robustezza contro varie varianze e facilita l'esecuzione con successo di compiti a lungo termine. Le valutazioni su ampi benchmark dimostrano prestazioni all'avanguardia o comparabili in simulazione. In particolare, Dita raggiunge un adattamento robusto nel mondo reale alle varianze ambientali e ai compiti complessi a lungo termine attraverso il fine-tuning a 10-shot, utilizzando solo input da telecamere in terza persona. L'architettura stabilisce una baseline versatile, leggera e open-source per l'apprendimento di politiche robotiche generaliste. Pagina del progetto: https://robodita.github.io.
Introduciamo Open Deep Search (ODS) per colmare il crescente divario tra le soluzioni proprietarie di ricerca basate sull'IA, come Sonar Reasoning Pro di Perplexity e GPT-4o Search Preview di OpenAI, e le loro controparti open-source. L'innovazione principale introdotta in ODS consiste nel potenziare le capacità di ragionamento degli ultimi modelli linguistici open-source (LLM) con agenti di ragionamento che possono utilizzare in modo giudizioso strumenti di ricerca web per rispondere alle query. Nello specifico, ODS è composto da due componenti che lavorano con un LLM di base scelto dall'utente: Open Search Tool e Open Reasoning Agent. Open Reasoning Agent interpreta il compito assegnato e lo completa orchestrando una sequenza di azioni che include la chiamata di strumenti, uno dei quali è Open Search Tool. Open Search Tool è un nuovo strumento di ricerca web che supera le controparti proprietarie. Insieme a potenti LLM open-source per il ragionamento, come DeepSeek-R1, ODS raggiunge e talvolta supera i migliori benchmark esistenti su due valutazioni: SimpleQA e FRAMES. Ad esempio, sul benchmark di valutazione FRAMES, ODS migliora del 9,7% in accuratezza il miglior risultato esistente del recentemente rilasciato GPT-4o Search Preview. ODS è un framework generale per potenziare in modo fluido qualsiasi LLM — ad esempio, DeepSeek-R1 che raggiunge l'82,4% su SimpleQA e il 30,1% su FRAMES — con capacità di ricerca e ragionamento per ottenere prestazioni all'avanguardia: 88,3% su SimpleQA e 75,3% su FRAMES.
Il ragionamento spaziale multi-step implica la comprensione e il ragionamento sulle relazioni spaziali attraverso più passaggi sequenziali, un aspetto cruciale per affrontare applicazioni complesse del mondo reale, come la manipolazione robotica, la navigazione autonoma e l'assemblaggio automatizzato. Per valutare quanto bene i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) attuali abbiano acquisito questa capacità fondamentale, introduciamo LEGO-Puzzles, un benchmark scalabile progettato per valutare sia la comprensione spaziale che il ragionamento sequenziale negli MLLMs attraverso attività basate su LEGO. LEGO-Puzzles consiste in 1.100 campioni curati con attenzione di domande e risposte visive (VQA) che coprono 11 compiti distinti, che vanno dalla comprensione spaziale di base al ragionamento multi-step complesso. Basandoci su LEGO-Puzzles, conduciamo una valutazione completa degli MLLMs più avanzati e scopriamo significative limitazioni nelle loro capacità di ragionamento spaziale: anche i MLLMs più potenti riescono a rispondere correttamente solo a circa la metà dei casi di test, mentre i partecipanti umani raggiungono un'accuratezza superiore al 90%. Oltre ai compiti VQA, valutiamo le capacità degli MLLMs di generare immagini LEGO seguendo illustrazioni di assemblaggio. I nostri esperimenti mostrano che solo Gemini-2.0-Flash e GPT-4o dimostrano una capacità limitata di seguire queste istruzioni, mentre altri MLLMs replicano l'immagine di input o generano output completamente irrilevanti. Nel complesso, LEGO-Puzzles mette in luce carenze critiche nella comprensione spaziale e nelle capacità di ragionamento sequenziale degli MLLMs esistenti, e sottolinea la necessità di ulteriori progressi nel ragionamento spaziale multimodale.
I recenti progressi nei modelli multimodali di grandi dimensioni hanno portato all'emergere di capacità generaliste straordinarie nei domini digitali, ma la loro trasposizione in agenti fisici come i robot rimane una sfida significativa. Questo rapporto introduce una nuova famiglia di modelli di IA progettati specificamente per la robotica e costruiti sulle fondamenta di Gemini 2.0. Presentiamo Gemini Robotics, un avanzato modello generalista Visione-Linguaggio-Azione (VLA) in grado di controllare direttamente i robot. Gemini Robotics esegue movimenti fluidi e reattivi per affrontare un'ampia gamma di compiti di manipolazione complessi, dimostrando robustezza rispetto a variazioni nei tipi e nelle posizioni degli oggetti, gestendo ambienti non visti e seguendo istruzioni diverse e a vocabolario aperto. Mostriamo che, con un ulteriore affinamento, Gemini Robotics può essere specializzato per nuove capacità, tra cui la risoluzione di compiti a lungo termine e altamente destrorsi, l'apprendimento di nuovi compiti a breve termine da appena 100 dimostrazioni e l'adattamento a incarnazioni robotiche completamente nuove. Ciò è reso possibile perché Gemini Robotics si basa sul modello Gemini Robotics-ER, il secondo modello che introduciamo in questo lavoro. Gemini Robotics-ER (Ragionamento Incorporato) estende le capacità di ragionamento multimodale di Gemini nel mondo fisico, con una comprensione spaziale e temporale potenziata. Ciò abilita capacità rilevanti per la robotica, tra cui il rilevamento di oggetti, il puntamento, la previsione di traiettorie e prese, nonché la corrispondenza multi-vista e la previsione di bounding box 3D. Mostriamo come questa combinazione innovativa possa supportare una varietà di applicazioni robotiche. Discutiamo e affrontiamo inoltre importanti considerazioni sulla sicurezza relative a questa nuova classe di modelli di base per la robotica. La famiglia Gemini Robotics rappresenta un passo significativo verso lo sviluppo di robot a scopo generale che realizzano il potenziale dell'IA nel mondo fisico.
Il Classifier-Free Guidance (CFG) è una tecnica fondamentale nell'addestramento di modelli di diffusione condizionata. La pratica comune per l'addestramento basato su CFG consiste nell'utilizzare una singola rete per apprendere sia la previsione del rumore condizionato che quella non condizionata, con un tasso di dropout ridotto per il condizionamento. Tuttavia, osserviamo che l'apprendimento congiunto del rumore non condizionato con una larghezza di banda limitata durante l'addestramento porta a prior scadenti per il caso non condizionato. Ancora più importante, queste previsioni scadenti del rumore non condizionato diventano una seria ragione per il degrado della qualità della generazione condizionata. Ispirati dal fatto che la maggior parte dei modelli condizionati basati su CFG vengono addestrati tramite fine-tuning di un modello base con una migliore generazione non condizionata, dimostriamo innanzitutto che semplicemente sostituendo il rumore non condizionato nel CFG con quello previsto dal modello base si può migliorare significativamente la generazione condizionata. Inoltre, mostriamo che un modello di diffusione diverso da quello su cui è stato addestrato il modello fine-tuned può essere utilizzato per la sostituzione del rumore non condizionato. Verifichiamo sperimentalmente la nostra affermazione con una gamma di modelli condizionati basati su CFG per la generazione di immagini e video, tra cui Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter e InstructPix2Pix.
La sinergia tra modelli generativi e discriminativi sta ricevendo crescente attenzione. Mentre il Contrastive Language-Image Pre-Training (CLIP) discriminativo eccelle nella semantica di alto livello, fatica a percepire dettagli visivi di livello fine. In generale, per migliorare le rappresentazioni, i modelli generativi utilizzano le caratteristiche visive di CLIP come condizioni per la ricostruzione. Tuttavia, il principio sottostante rimane poco esplorato. In questo lavoro, abbiamo empiricamente scoperto che generazioni visivamente perfette non sono sempre ottimali per il miglioramento delle rappresentazioni. L'essenza risiede nell'estrarre efficacemente conoscenze di livello fine dai modelli generativi mitigando le informazioni irrilevanti. Per esplorare i fattori critici, ci siamo concentrati su tre aspetti: (1) Meccanismi di condizionamento: abbiamo scoperto che anche un piccolo numero di token locali può ridurre drasticamente la difficoltà della ricostruzione, portando a un collasso dell'addestramento. Abbiamo quindi concluso che utilizzare solo token visivi globali come condizioni è la strategia più efficace. (2) Configurazioni di denoising: abbiamo osservato che l'addestramento end-to-end introduce informazioni estranee. Per affrontare questo problema, proponiamo una strategia di addestramento in due fasi per dare priorità all'apprendimento di conoscenze visive utili. Inoltre, dimostriamo che denoiser leggeri possono portare a miglioramenti significativi. (3) Paradigmi di generazione: esploriamo sia denoiser continui che discreti con risultati desiderabili, validando la versatilità del nostro metodo. Attraverso le nostre esplorazioni approfondite, siamo finalmente arrivati a un metodo efficace, denominato GenHancer, che supera costantemente le tecniche precedenti sul benchmark MMVP-VLM, ad esempio, del 6.0% su OpenAICLIP. Il CLIP migliorato può essere ulteriormente integrato in modelli linguistici multimodali di grandi dimensioni per ottenere prestazioni migliori centrate sulla visione. Tutti i modelli e i codici sono resi pubblicamente disponibili.
Recentemente, i modelli all'avanguardia per la generazione di immagini da testo, come Flux e Ideogram 2.0, hanno compiuto progressi significativi nel rendering visivo di testo a livello di frase. In questo articolo, ci concentriamo sugli scenari più complessi del rendering visivo di testo a livello di articolo e affrontiamo un nuovo compito: la generazione di contenuti aziendali di alta qualità, inclusi infografiche e slide, basati su prompt descrittivi a livello di articolo forniti dall'utente e layout ultra-densi. Le sfide fondamentali sono due: contesti significativamente più lunghi e la scarsità di dati di contenuti aziendali di alta qualità. A differenza della maggior parte dei lavori precedenti che si concentrano su un numero limitato di sotto-regioni e prompt a livello di frase, garantire un'aderenza precisa a layout ultra-densi con decine o addirittura centinaia di sotto-regioni nei contenuti aziendali è molto più impegnativo. Facciamo due contributi tecnici chiave: (i) la costruzione di un dataset scalabile e di alta qualità per contenuti aziendali, ovvero Infographics-650K, dotato di layout ultra-densi e prompt implementando uno schema di generazione di infografiche aumentato con il recupero a livelli; e (ii) uno schema di cross attention guidato dal layout, che inietta decine di prompt specifici per regione in un insieme di spazi latenti ritagliati in base ai layout ultra-densi, e perfeziona ogni sotto-regione in modo flessibile durante l'inferenza utilizzando un CFG condizionato dal layout. Dimostriamo i risultati solidi del nostro sistema rispetto ai precedenti sistemi SOTA come Flux e SD3 sul nostro set di prompt BizEval. Inoltre, conduciamo esperimenti di ablazione approfonditi per verificare l'efficacia di ciascun componente. Speriamo che il nostro Infographics-650K e BizEval possano incoraggiare la comunità più ampia a progredire nel campo della generazione di contenuti aziendali.
Presentiamo LogQuant, una tecnica rivoluzionaria di quantizzazione a 2 bit per la KV Cache nell'inferenza di modelli linguistici di grandi dimensioni (LLM), che offre un notevole risparmio di memoria mantenendo prestazioni superiori. I metodi precedenti presuppongono che i token successivi siano più importanti o tentano di prevedere i token rilevanti basandosi sui modelli di attenzione precedenti. Entrambi gli approcci, tuttavia, possono portare a colli di bottiglia nelle prestazioni o a frequenti errori di previsione. LogQuant adotta un approccio diverso. Applicando un meccanismo di filtraggio basato su logaritmi, comprime selettivamente la KV Cache in tutto il contesto, ottenendo prestazioni migliori con lo stesso o addirittura un ridotto utilizzo di memoria rispetto ai metodi esistenti. Nei test di benchmark, aumenta il throughput del 25% e incrementa la dimensione del batch del 60% senza aumentare il consumo di memoria. Per compiti complessi come il completamento di problemi matematici o di codice, LogQuant migliora l'accuratezza dal 40% al 200% allo stesso rapporto di compressione, superando le tecniche comparabili. LogQuant si integra facilmente con framework di inferenza popolari come la libreria transformers di Python. L'implementazione è disponibile su https://github.com/Concyclics/LogQuantKV.
Introduciamo MCTS-RAG, un approccio innovativo che potenzia le capacità di ragionamento dei modelli linguistici di piccole dimensioni su compiti ad alta intensità di conoscenza, sfruttando la generazione aumentata da recupero (RAG) per fornire contesto rilevante e la ricerca ad albero Monte Carlo (MCTS) per affinare i percorsi di ragionamento. MCTS-RAG integra dinamicamente il recupero e il ragionamento attraverso un processo decisionale iterativo. A differenza dei metodi RAG standard, che tipicamente recuperano informazioni indipendentemente dal ragionamento e quindi integrano la conoscenza in modo subottimale, o del ragionamento MCTS convenzionale, che dipende esclusivamente dalla conoscenza interna del modello senza fatti esterni, MCTS-RAG combina il ragionamento strutturato con il recupero adattivo. Questo approccio integrato migliora il processo decisionale, riduce le allucinazioni e garantisce una maggiore accuratezza fattuale e coerenza delle risposte. I risultati sperimentali su più dataset di ragionamento e ad alta intensità di conoscenza (ad esempio, ComplexWebQA, GPQA e FoolMeTwice) dimostrano che il nostro metodo consente ai modelli linguistici di piccole dimensioni di raggiungere prestazioni paragonabili a quelle dei modelli linguistici all'avanguardia come GPT-4, scalando efficacemente il calcolo al momento dell'inferenza e stabilendo un nuovo standard per il ragionamento nei modelli di piccole dimensioni.
I modelli di diffusione hanno ottenuto progressi significativi nel campo della generazione video. Tuttavia, la loro natura iterativa di rimozione del rumore richiede un numero elevato di passaggi di inferenza per generare un video, rendendo il processo lento e computazionalmente costoso. In questo articolo, iniziamo con un'analisi dettagliata delle sfide presenti nei metodi esistenti di distillazione della diffusione e proponiamo un nuovo metodo efficiente, denominato AccVideo, per ridurre i passaggi di inferenza e accelerare i modelli di diffusione video utilizzando un dataset sintetico. Sfruttiamo il modello di diffusione video pre-addestrato per generare molteplici traiettorie valide di rimozione del rumore come nostro dataset sintetico, eliminando così l'uso di punti dati inutili durante la distillazione. Basandoci sul dataset sintetico, progettiamo una guida a pochi passaggi basata sulle traiettorie che utilizza punti dati chiave dalle traiettorie di rimozione del rumore per apprendere la mappatura dal rumore al video, consentendo la generazione di video in meno passaggi. Inoltre, poiché il dataset sintetico cattura la distribuzione dei dati in ogni passo temporale della diffusione, introduciamo una strategia di addestramento avversario per allineare la distribuzione di output del modello studente con quella del nostro dataset sintetico, migliorando così la qualità del video. Esperimenti estensivi dimostrano che il nostro modello raggiunge un miglioramento di 8,5x nella velocità di generazione rispetto al modello insegnante, mantenendo prestazioni comparabili. Rispetto ai metodi di accelerazione precedenti, il nostro approccio è in grado di generare video con qualità e risoluzione superiori, ovvero 5 secondi, 720x1280, 24fps.
La transizione dal ragionamento di Sistema 1 a quello di Sistema 2 nei grandi modelli linguistici (LLM) ha segnato progressi significativi nella gestione di compiti complessi attraverso un pensiero deliberato e iterativo. Tuttavia, questo progresso spesso avviene a scapito dell'efficienza, poiché i modelli tendono a "pensare troppo", generando passaggi di ragionamento ridondanti senza miglioramenti proporzionali nella qualità dell'output. Il ragionamento da Lungo a Breve (Long-to-Short, L2S) è emerso come una soluzione promettente a questa sfida, mirando a bilanciare la profondità del ragionamento con l'efficienza pratica. Mentre approcci esistenti, come il fine-tuning supervisionato (SFT), l'apprendimento per rinforzo (RL) e l'ingegneria dei prompt, hanno mostrato potenziale, sono o computazionalmente costosi o instabili. La fusione di modelli, d'altro canto, offre un'alternativa economica e robusta integrando le capacità di pensiero rapido dei modelli di Sistema 1 con il ragionamento metodico dei modelli di Sistema 2. In questo lavoro, presentiamo uno studio empirico completo sulla fusione di modelli per il ragionamento L2S, esplorando diverse metodologie, tra cui la fusione basata su vettori di task, su SVD e su attivazioni informate. I nostri esperimenti rivelano che la fusione di modelli può ridurre la lunghezza media delle risposte fino al 55% preservando o addirittura migliorando le prestazioni di base. Identifichiamo inoltre una forte correlazione tra la scala del modello e l'efficacia della fusione attraverso valutazioni estese su modelli da 1,5B/7B/14B/32B. Inoltre, indaghiamo la capacità del modello fuso di autocriticarsi e autocorreggersi, nonché la sua lunghezza di risposta adattiva in base alla complessità del task. I nostri risultati evidenziano la fusione di modelli come un paradigma altamente efficiente ed efficace per il ragionamento L2S, offrendo una soluzione pratica al problema del "pensare troppo" mantenendo la robustezza del ragionamento di Sistema 2. Questo lavoro è disponibile su Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
I recenti progressi nei Modelli Multimodali di Grande Scala (LMM) hanno mostrato promettenti applicazioni nei Sistemi di Guida Autonoma (ADS). Tuttavia, la loro applicazione diretta agli ADS è ostacolata da sfide come la comprensione errata delle conoscenze sul traffico, le condizioni stradali complesse e gli stati diversi dei veicoli. Per affrontare queste sfide, proponiamo l'uso della Modifica della Conoscenza, che consente modifiche mirate al comportamento di un modello senza la necessità di un addestramento completo. Nel frattempo, introduciamo ADS-Edit, un dataset di modifica della conoscenza multimodale specificamente progettato per gli ADS, che include vari scenari del mondo reale, molteplici tipi di dati e metriche di valutazione complete. Abbiamo condotto esperimenti approfonditi e derivato diverse conclusioni interessanti. Speriamo che il nostro lavoro contribuisca all'ulteriore avanzamento delle applicazioni di modifica della conoscenza nel campo della guida autonoma. Codice e dati sono disponibili su https://github.com/zjunlp/EasyEdit.
I modelli di ricompensa supervisionati basati sul processo fungono da funzioni granulari che forniscono un feedback dettagliato passo-passo alle risposte del modello, facilitando una selezione efficace delle traiettorie di ragionamento per compiti complessi. Nonostante i loro vantaggi, la valutazione sui PRM rimane poco esplorata, specialmente nel dominio multimodale. Per colmare questa lacuna, questo articolo confronta innanzitutto gli attuali modelli linguistici di grandi dimensioni per la visione (VLLM) come due tipi di modelli di ricompensa: modelli di ricompensa sull'output (ORM) e modelli di ricompensa sul processo (PRM) su diversi benchmark visione-linguaggio, rivelando che né ORM né PRM superano costantemente in tutti i compiti, e che VLLM superiori non necessariamente producono prestazioni di ricompensa migliori. Per avanzare ulteriormente nella valutazione, introduciamo ViLBench, un benchmark visione-linguaggio progettato per richiedere segnali di ricompensa sul processo intensivi. In particolare, GPT-4o di OpenAI con Chain-of-Thought (CoT) raggiunge solo il 27,3% di accuratezza, indicando la sfida del benchmark per gli attuali VLLM. Infine, mostriamo preliminarmente una promettente via per colmare il divario tra VLLM generali e modelli di ricompensa -- raccogliendo 73,6K dati di ricompensa sul processo visione-linguaggio utilizzando un algoritmo di ricerca ad albero migliorato, il nostro modello da 3B è in grado di ottenere un miglioramento medio del 3,3% rispetto al CoT standard e fino al 2,5% rispetto alla sua controparte non addestrata su ViLBench selezionando le generazioni di OpenAI o1. Rilasciamo le implementazioni su https://ucsc-vlaa.github.io/ViLBench con il nostro codice, modello e dati.
È stato dimostrato che i modelli di computer vision manifestano e amplificano i bias su un'ampia gamma di dataset e task. I metodi esistenti per quantificare i bias nei modelli di classificazione si concentrano principalmente sulla distribuzione del dataset e sulle prestazioni del modello sui sottogruppi, trascurando il funzionamento interno del modello. Introduciamo la metrica Attention-IoU (Attention Intersection over Union) e i punteggi correlati, che utilizzano le mappe di attenzione per rivelare i bias all'interno delle rappresentazioni interne di un modello e identificare le caratteristiche delle immagini che potrebbero causare i bias. In primo luogo, validiamo Attention-IoU sul dataset sintetico Waterbirds, dimostrando che la metrica misura accuratamente i bias del modello. Successivamente, analizziamo il dataset CelebA, scoprendo che Attention-IoU rivela correlazioni che vanno oltre le disparità di accuratezza. Attraverso un'indagine sugli attributi individuali tramite l'attributo protetto "Maschio", esaminiamo i diversi modi in cui i bias sono rappresentati in CelebA. Infine, sottocampionando il training set per modificare le correlazioni degli attributi, dimostriamo che Attention-IoU rivela potenziali variabili confondenti non presenti nelle etichette del dataset.
In molte applicazioni robotiche e di realtà virtuale/aumentata, i movimenti rapidi della telecamera causano un elevato livello di sfocatura da movimento, portando i metodi esistenti di stima della posa della telecamera a fallire. In questo lavoro, proponiamo un nuovo framework che sfrutta la sfocatura da movimento come un'indicazione ricca per la stima del movimento, anziché trattarla come un artefatto indesiderato. Il nostro approccio funziona prevedendo un campo di flusso del movimento denso e una mappa di profondità monoculare direttamente da una singola immagine sfocata dal movimento. Successivamente, recuperiamo la velocità istantanea della telecamera risolvendo un problema di minimi quadrati lineari sotto l'assunzione di piccoli movimenti. In sostanza, il nostro metodo produce una misurazione simile a quella di un IMU che cattura in modo robusto movimenti rapidi e aggressivi della telecamera. Per addestrare il nostro modello, abbiamo costruito un dataset su larga scala con sfocatura da movimento sintetica realistica derivata da ScanNet++v2 e abbiamo ulteriormente affinato il nostro modello addestrandolo end-to-end su dati reali utilizzando la nostra pipeline completamente differenziabile. Valutazioni estensive su benchmark del mondo reale dimostrano che il nostro metodo raggiunge stime all'avanguardia per la velocità angolare e traslazionale, superando i metodi attuali come MASt3R e COLMAP.
La distillazione della conoscenza può rappresentare una tecnica economicamente vantaggiosa per trasferire la conoscenza nei Large Language Models, qualora i logit di output del modello insegnante possano essere pre-calcolati e memorizzati. Tuttavia, l'applicazione efficace di questo approccio durante la fase di pre-training rimane in gran parte inesplorata. In questo lavoro, dimostriamo che approcci ingenui per la distillazione della conoscenza sparsa, come la memorizzazione delle probabilità Top-K, sebbene intuitivi, forniscono stime distorte della distribuzione di probabilità del modello insegnante allo studente, portando a prestazioni e calibrazione subottimali. Proponiamo un metodo basato sul campionamento per importanza, denominato `Random Sampling Knowledge Distillation', che fornisce stime non distorte, preserva il gradiente in attesa e richiede la memorizzazione di logit significativamente più sparsi. Il nostro metodo consente un addestramento più rapido dei modelli studente con un sovraccarico marginale (<10%) rispetto all'addestramento basato sull'entropia incrociata, mantenendo prestazioni competitive rispetto alla distillazione completa, su una gamma di dimensioni del modello che va da 300M a 3B.
I recenti progressi nei modelli autoregressivi e di diffusione hanno portato a prestazioni eccellenti nella generazione di immagini con brevi parole di testo in scena. Tuttavia, generare testi lunghi e coerenti nelle immagini, come paragrafi in slide o documenti, rimane una sfida significativa per i modelli generativi attuali. Presentiamo il primo lavoro specificamente focalizzato sulla generazione di immagini con testo lungo, affrontando una lacuna critica nei sistemi esistenti di testo-immagine che tipicamente gestiscono solo frasi brevi o singole proposizioni. Attraverso un'analisi completa dei modelli di generazione autoregressiva all'avanguardia, identifichiamo il tokenizer delle immagini come un collo di bottiglia critico per la qualità della generazione del testo. Per risolvere questo problema, introduciamo un nuovo tokenizer binario focalizzato sul testo, ottimizzato per catturare dettagliate caratteristiche del testo in scena. Sfruttando il nostro tokenizer, sviluppiamo \ModelName, un modello autoregressivo multimodale che eccelle nella generazione di immagini con testo lungo di alta qualità con una fedeltà senza precedenti. Il nostro modello offre una robusta controllabilità, consentendo la personalizzazione delle proprietà del testo come stile del carattere, dimensione, colore e allineamento. Esperimenti estensivi dimostrano che \ModelName supera significativamente SD3.5 Large~sd3 e GPT4o~gpt4o con DALL-E 3~dalle3 nella generazione accurata, coerente e flessibile di testo lungo. Oltre ai suoi risultati tecnici, \ModelName apre nuove entusiasmanti opportunità per applicazioni innovative come la generazione intervallata di documenti e PowerPoint, stabilendo una nuova frontiera nella generazione di immagini con testo lungo.
L'apprendimento per rinforzo (Reinforcement Learning, RL) è un componente cruciale del post-addestramento dei grandi modelli linguistici (Large Language Models, LLM). Tuttavia, gli algoritmi on-policy esistenti utilizzati per il post-addestramento sono intrinsecamente incompatibili con l'uso di buffer di esperienza replay, che possono essere popolati in modo scalabile da attori off-policy distribuiti per migliorare l'esplorazione all'aumentare della capacità di calcolo. Proponiamo di ottenere in modo efficiente questo vantaggio dei buffer di replay tramite Trajectory Balance with Asynchrony (TBA), un sistema RL per LLM altamente scalabile. A differenza degli approcci esistenti, TBA utilizza una frazione maggiore di risorse computazionali per la ricerca, generando costantemente dati off-policy per un buffer di replay centrale. Un nodo di addestramento campiona simultaneamente dati da questo buffer in base alla ricompensa o alla recentezza per aggiornare la politica utilizzando Trajectory Balance (TB), un obiettivo RL orientato alla diversità introdotto per le GFlowNets. TBA offre tre vantaggi chiave: (1) addestramento e ricerca disaccoppiati, accelerando il tempo di addestramento di 4 volte o più; (2) miglioramento della diversità attraverso il campionamento off-policy su larga scala; e (3) ricerca scalabile per contesti con ricompense sparse. Nel ragionamento matematico, nella sintonizzazione delle preferenze e nel red-teaming automatizzato (compiti di post-addestramento diversificati e rappresentativi), TBA produce miglioramenti in termini di velocità e prestazioni rispetto a baseline solide.
La stima della posa 3D/6D a livello di categoria è un passo cruciale verso una comprensione completa delle scene 3D, che abiliterebbe una vasta gamma di applicazioni nella robotica e nell'AI incarnata. Recenti lavori hanno esplorato modelli neurali a mesh che affrontano una serie di compiti 2D e 3D da una prospettiva di analisi per sintesi. Nonostante la maggiore robustezza alle occlusioni parziali e ai cambiamenti di dominio, questi metodi dipendevano fortemente da annotazioni 3D per l'apprendimento contrastivo delle parti, il che li confina a un insieme ristretto di categorie e ostacola una scalabilità efficiente. In questo lavoro, presentiamo DINeMo, un nuovo modello neurale a mesh che viene addestrato senza annotazioni 3D sfruttando pseudo-corrispondenze ottenute da grandi modelli visivi di base. Adottiamo un metodo bidirezionale di generazione di pseudo-corrispondenze, che produce pseudo-corrispondenze utilizzando sia caratteristiche locali di aspetto che informazioni contestuali globali. I risultati sperimentali su dataset di automobili dimostrano che il nostro DINeMo supera ampiamente i precedenti metodi di stima della posa 3D zero-shot e few-shot, riducendo il divario con i metodi completamente supervisionati del 67,3%. Il nostro DINeMo scala anche in modo efficace ed efficiente quando vengono incorporate più immagini non etichettate durante l'addestramento, dimostrando i vantaggi rispetto ai metodi di apprendimento supervisionato che si basano su annotazioni 3D. La nostra pagina del progetto è disponibile all'indirizzo https://analysis-by-synthesis.github.io/DINeMo/.
La stima del movimento nei video è un problema fondamentale della visione artificiale con numerose applicazioni a valle, tra cui la generazione controllata di video e la robotica. Le soluzioni attuali sono principalmente addestrate utilizzando dati sintetici o richiedono l'ottimizzazione di euristiche specifiche per ogni situazione, il che limita intrinsecamente le capacità di questi modelli in contesti reali. Nonostante i recenti progressi nell'apprendimento auto-supervisionato su larga scala da video, lo sfruttamento di tali rappresentazioni per la stima del movimento rimane relativamente poco esplorato. In questo lavoro, sviluppiamo Opt-CWM, una tecnica auto-supervisionata per la stima del flusso ottico e dell'occlusione a partire da un modello pre-addestrato per la predizione del frame successivo. Opt-CWM funziona imparando a ottimizzare sonde controfattuali che estraggono informazioni sul movimento da un modello video di base, evitando la necessità di euristiche fisse durante l'addestramento su input video non vincolati. Raggiungiamo prestazioni all'avanguardia per la stima del movimento su video reali senza richiedere dati etichettati.
I modelli basati su punteggi o diffusione generano dati tabulari di alta qualità, superando i modelli basati su GAN e VAE. Tuttavia, questi metodi richiedono un tempo di addestramento sostanziale. In questo articolo, introduciamo RecTable, che utilizza la modellazione del flusso rettificato, applicata in contesti come la generazione di immagini da testo e la generazione di video da testo. RecTable presenta un'architettura semplice composta da pochi blocchi di unità lineari con gate. Inoltre, le nostre strategie di addestramento sono altrettanto semplici, incorporando una distribuzione di rumore di tipo misto e una distribuzione logit-normale dei passaggi temporali. I nostri esperimenti dimostrano che RecTable raggiunge prestazioni competitive rispetto a diversi modelli all'avanguardia basati su diffusione e punteggi, riducendo al contempo il tempo di addestramento richiesto. Il nostro codice è disponibile all'indirizzo https://github.com/fmp453/rectable.
L'analisi della struttura dei documenti, nota anche come analisi del layout dei documenti, è fondamentale per comprendere sia il layout fisico che la struttura logica dei documenti, supportando il recupero delle informazioni, la sintesi dei documenti, l'estrazione di conoscenze, ecc. L'Analisi della Struttura Gerarchica dei Documenti (HDSA) mira specificamente a ripristinare la struttura gerarchica dei documenti creati utilizzando software di authoring con schemi gerarchici. Le ricerche precedenti hanno seguito principalmente due approcci: uno si concentra sull'affrontare specifici sottocompiti dell'HDSA in modo isolato, come il rilevamento delle tabelle o la previsione dell'ordine di lettura, mentre l'altro adotta un framework unificato che utilizza più rami o moduli, ciascuno progettato per affrontare un compito distinto. In questo lavoro, proponiamo un approccio unificato di previsione delle relazioni per l'HDSA, chiamato UniHDSA, che tratta vari sottocompiti dell'HDSA come problemi di previsione delle relazioni e consolida le etichette di previsione delle relazioni in uno spazio di etichette unificato. Ciò consente a un singolo modulo di previsione delle relazioni di gestire più compiti contemporaneamente, sia a livello di analisi della struttura di una pagina che di un intero documento. Per validare l'efficacia di UniHDSA, sviluppiamo un sistema end-to-end multimodale basato su architetture Transformer. I risultati sperimentali estesi dimostrano che il nostro approccio raggiunge prestazioni all'avanguardia su un benchmark di analisi della struttura gerarchica dei documenti, Comp-HRDoc, e risultati competitivi su un dataset su larga scala di analisi del layout dei documenti, DocLayNet, illustrando efficacemente la superiorità del nostro metodo in tutti i sottocompiti. Il benchmark Comp-HRDoc e le configurazioni di UniHDSA sono disponibili pubblicamente all'indirizzo https://github.com/microsoft/CompHRDoc.
La previsione della sopravvivenza nel cancro al seno in patologia computazionale rappresenta una sfida notevole a causa dell'eterogeneità tumorale. Ad esempio, diverse regioni dello stesso tumore nell'immagine patologica possono mostrare caratteristiche morfologiche e molecolari distinte. Ciò rende difficile estrarre caratteristiche rappresentative dalle immagini a tutto vetrino (WSI) che riflettano veramente il potenziale aggressivo del tumore e i probabili esiti di sopravvivenza. In questo articolo, presentiamo PathoHR, una nuova pipeline per la previsione accurata della sopravvivenza nel cancro al seno che migliora immagini patologiche di qualsiasi dimensione per consentire un apprendimento delle caratteristiche più efficace. Il nostro approccio prevede (1) l'integrazione di un Vision Transformer (ViT) ad alta risoluzione plug-and-play per migliorare la rappresentazione patch-wise delle WSI, consentendo un'estrazione delle caratteristiche più dettagliata e completa, (2) la valutazione sistematica di molteplici metriche di similarità avanzate per confrontare le caratteristiche estratte dalle WSI, ottimizzando il processo di apprendimento della rappresentazione per catturare meglio le caratteristiche del tumore, (3) la dimostrazione che patch di immagini più piccole migliorate seguendo la pipeline proposta possono raggiungere un'accuratezza di previsione equivalente o superiore rispetto a patch più grandi grezze, riducendo significativamente il sovraccarico computazionale. I risultati sperimentali confermano che PathoHR offre un potenziale modo di integrare una risoluzione delle immagini migliorata con un apprendimento delle caratteristiche ottimizzato per avanzare la patologia computazionale, proponendo una direzione promettente per una previsione della sopravvivenza nel cancro al seno più accurata ed efficiente. Il codice sarà disponibile all'indirizzo https://github.com/AIGeeksGroup/PathoHR.
Gli assistenti di scrittura (ad esempio, Grammarly, Microsoft Copilot) tradizionalmente generano didascalie per immagini diverse impiegando variazioni sintattiche e semantiche per descrivere i componenti dell'immagine. Tuttavia, le didascalie scritte da esseri umani privilegiano la trasmissione di un messaggio centrale insieme a descrizioni visive utilizzando indizi pragmatici. Per migliorare la diversità pragmatica, è essenziale esplorare modalità alternative di comunicare questi messaggi in congiunzione con il contenuto visivo. Per affrontare questa sfida, proponiamo RONA, una nuova strategia di prompt per Modelli Linguistici Multimodali di Grande Scala (MLLM) che sfrutta le Relazioni di Coerenza come asse di variazione. Dimostriamo che RONA genera didascalie con una migliore diversità complessiva e allineamento con la verità di riferimento, rispetto ai modelli MLLM di base in più domini. Il nostro codice è disponibile all'indirizzo: https://github.com/aashish2000/RONA