Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo lavoro, discutiamo la costruzione di Modelli Linguistici Multimodali ad alte prestazioni (MLLMs). In particolare, studiamo l'importanza di vari componenti architetturali e scelte relative ai dati. Attraverso ablazioni accurate e complete dell'encoder di immagini, del connettore visione-linguaggio e di varie scelte di dati di pre-training, abbiamo identificato diverse lezioni cruciali per il design. Ad esempio, dimostriamo che per il pre-training multimodale su larga scala, l'uso di un mix accurato di dati con didascalie di immagini, testi intervallati da immagini e dati solo testuali è fondamentale per ottenere risultati few-shot all'avanguardia (SOTA) su più benchmark, rispetto ad altri risultati di pre-training pubblicati. Inoltre, mostriamo che l'encoder di immagini, insieme alla risoluzione delle immagini e al numero di token delle immagini, ha un impatto sostanziale, mentre il design del connettore visione-linguaggio è di importanza relativamente trascurabile. Scalando la ricetta presentata, costruiamo MM1, una famiglia di modelli multimodali fino a 30 miliardi di parametri, composta sia da modelli densi che da varianti a miscela di esperti (MoE), che sono SOTA nelle metriche di pre-training e raggiungono prestazioni competitive dopo il fine-tuning supervisionato su una gamma di benchmark multimodali consolidati. Grazie al pre-training su larga scala, MM1 gode di proprietà interessanti come un migliorato apprendimento in-context e il ragionamento su più immagini, abilitando il prompting few-shot a catena di pensiero.
Quando scrivono e parlano, le persone talvolta si fermano a riflettere. Sebbene i lavori focalizzati sul ragionamento lo abbiano spesso inquadrato come un metodo per rispondere a domande o completare compiti agentici, il ragionamento è implicito in quasi tutti i testi scritti. Ad esempio, questo si applica ai passaggi non dichiarati tra le righe di una dimostrazione o alla teoria della mente sottostante a una conversazione. Nel Self-Taught Reasoner (STaR, Zelikman et al. 2022), il pensiero utile viene appreso inferendo giustificazioni da esempi few-shot nel contesto di domande e risposte e imparando da quelli che portano a una risposta corretta. Questo è un contesto altamente vincolato: idealmente, un modello linguistico potrebbe invece imparare a inferire giustificazioni non dichiarate in testi arbitrari. Presentiamo Quiet-STaR, una generalizzazione di STaR in cui i modelli linguistici imparano a generare giustificazioni a ogni token per spiegare il testo futuro, migliorando le loro previsioni. Affrontiamo sfide chiave, tra cui 1) il costo computazionale della generazione di continuazioni, 2) il fatto che il modello linguistico inizialmente non sappia come generare o utilizzare pensieri interni, e 3) la necessità di prevedere oltre i singoli token successivi. Per risolverle, proponiamo un algoritmo di campionamento parallelo token per token, utilizzando token apprendibili che indicano l'inizio e la fine di un pensiero, e una tecnica estesa di teacher forcing. In modo incoraggiante, le giustificazioni generate aiutano in modo sproporzionato a modellare token difficili da prevedere e migliorano la capacità del modello linguistico di rispondere direttamente a domande difficili. In particolare, dopo un ulteriore pre-addestramento di un modello linguistico su un corpus di testo internet con Quiet-STaR, osserviamo miglioramenti zero-shot su GSM8K (5,9% → 10,9%) e CommonsenseQA (36,3% → 47,2%) e un miglioramento della perplessità per i token difficili nel testo naturale. Crucialmente, questi miglioramenti non richiedono alcun fine-tuning su questi compiti. Quiet-STaR rappresenta un passo verso modelli linguistici che possono imparare a ragionare in modo più generale e scalabile.
L'utilizzo di modelli visione-linguaggio (VLMs) nello sviluppo web rappresenta una strategia promettente per aumentare l'efficienza e sbloccare soluzioni no-code: fornendo uno screenshot o uno schizzo di un'interfaccia utente, un VLM potrebbe generare il codice per riprodurla, ad esempio in un linguaggio come HTML. Nonostante i progressi nei VLMs per varie attività, la sfida specifica di convertire uno screenshot in un corrispondente HTML è stata esplorata in misura minima. Riteniamo che ciò sia principalmente dovuto all'assenza di un dataset adatto e di alta qualità. Questo lavoro introduce WebSight, un dataset sintetico composto da 2 milioni di coppie di codici HTML e i relativi screenshot. Addestriamo un VLM di base sul nostro dataset e dimostriamo competenza nella conversione di screenshot di pagine web in codice HTML funzionale. Per accelerare la ricerca in questo ambito, rendiamo open-source WebSight.
L'enorme successo dei modelli di diffusione nella sintesi di immagini da testo li ha resi candidati promettenti per la prossima generazione di applicazioni per utenti finali nella generazione e modifica di immagini. I lavori precedenti si sono concentrati sul miglioramento dell'usabilità dei modelli di diffusione riducendo il tempo di inferenza o aumentando l'interattività dell'utente attraverso nuovi controlli granulari come prompt testuali basati su regioni. Tuttavia, empiricamente riscontriamo che integrare entrambi i filoni di ricerca non è banale, limitando il potenziale dei modelli di diffusione. Per risolvere questa incompatibilità, presentiamo StreamMultiDiffusion, il primo framework in tempo reale per la generazione di immagini da testo basata su regioni. Stabilizzando tecniche di inferenza veloce e ristrutturando il modello in una nuova architettura batch multi-prompt stream, otteniamo una generazione di panoramiche 10 volte più veloce rispetto alle soluzioni esistenti e una velocità di generazione di 1,57 FPS nella sintesi di immagini da testo basata su regioni su una singola GPU RTX 2080 Ti. La nostra soluzione apre un nuovo paradigma per la generazione interattiva di immagini chiamato tavolozza semantica, in cui immagini di alta qualità vengono generate in tempo reale da più regioni disegnate a mano, codificando significati semantici prescritti (ad esempio, aquila, ragazza). Il nostro codice e l'applicazione demo sono disponibili su https://github.com/ironjr/StreamMultiDiffusion.
Questo articolo propone un framework semplice ma efficace, chiamato GiT, simultaneamente applicabile a vari compiti visivi utilizzando esclusivamente un ViT standard. Ispirati dall'universalità dell'architettura Multi-layer Transformer (ad esempio, GPT) ampiamente utilizzata nei grandi modelli linguistici (LLM), cerchiamo di ampliarne l'ambito per servire come un potente modello di base visivo (VFM). Tuttavia, a differenza della modellazione linguistica, i compiti visivi richiedono tipicamente moduli specifici, come le teste per il rilevamento delle bounding box e i decoder di pixel per la segmentazione, ostacolando notevolmente l'applicazione dei potenti trasformatori multi-strato nel dominio visivo. Per risolvere questo problema, progettiamo un'interfaccia linguistica universale che consente il successo del decoding auto-regressivo per unificare abilmente vari compiti visivi, dalla comprensione a livello di immagine (ad esempio, captioning), alla percezione sparsa (ad esempio, rilevamento), fino alla predizione densa (ad esempio, segmentazione). Sulla base di questi progetti, l'intero modello è composto esclusivamente da un ViT, senza alcuna aggiunta specifica, offrendo una notevole semplificazione architetturale. GiT è un modello visivo multi-task, addestrato congiuntamente su cinque benchmark rappresentativi senza fine-tuning specifico per compito. Interessantemente, il nostro GiT stabilisce un nuovo benchmark nelle prestazioni generaliste e favorisce un miglioramento reciproco tra i compiti, portando a significativi miglioramenti rispetto all'addestramento isolato. Ciò riflette un impatto simile osservato negli LLM. Arricchendo ulteriormente l'addestramento con 27 dataset, GiT ottiene forti risultati zero-shot su vari compiti. Grazie al suo design semplice, questo paradigma promette di ridurre il divario architetturale tra visione e linguaggio. Codice e modelli saranno disponibili su https://github.com/Haiyang-W/GiT.
Presentiamo Emu Video Edit (EVE), un modello che stabilisce un nuovo stato dell'arte nell'editing video senza fare affidamento su dati supervisionati di editing video. Per sviluppare EVE, addestriamo separatamente un adattatore per l'editing di immagini e un adattatore per la generazione di video, collegandoli entrambi allo stesso modello text-to-image. Successivamente, per allineare gli adattatori verso l'editing video, introduciamo una nuova procedura di distillazione non supervisionata, chiamata Factorized Diffusion Distillation. Questa procedura estrae conoscenza da uno o più insegnanti contemporaneamente, senza l'uso di dati supervisionati. Utilizziamo questa procedura per insegnare a EVE a modificare i video distillando congiuntamente la conoscenza per (i) modificare con precisione ogni singolo fotogramma tramite l'adattatore di editing di immagini, e (ii) garantire la coerenza temporale tra i fotogrammi modificati utilizzando l'adattatore di generazione video. Infine, per dimostrare il potenziale del nostro approccio nello sbloccare altre capacità, allineiamo ulteriori combinazioni di adattatori.
I moduli di attenzione efficaci hanno svolto un ruolo cruciale nel successo dei modelli linguistici di grandi dimensioni (LLM) basati su Transformer, ma le complessità quadratiche in termini di tempo e memoria di questi moduli di attenzione rappresentano anche una sfida durante l'elaborazione di sequenze lunghe. Una potenziale soluzione al problema delle sequenze lunghe è quella di utilizzare cluster distribuiti per parallelizzare il calcolo dei moduli di attenzione su più dispositivi (ad esempio, GPU). Tuttavia, l'adozione di un approccio distribuito introduce inevitabilmente sovraccarichi di memoria aggiuntivi per memorizzare i risultati locali dell'attenzione e comporta costi di comunicazione aggiuntivi per aggregare i risultati locali in risultati globali. In questo articolo, proponiamo un framework di attenzione distribuito denominato "BurstAttention" per ottimizzare l'accesso alla memoria e le operazioni di comunicazione sia a livello di cluster globale che di dispositivo locale. Nei nostri esperimenti, confrontiamo BurstAttention con altre soluzioni competitive di attenzione distribuita per l'elaborazione di sequenze lunghe. I risultati sperimentali in diverse configurazioni di lunghezza dimostrano che BurstAttention offre vantaggi significativi per l'elaborazione di sequenze lunghe rispetto a queste baseline competitive, riducendo del 40% i sovraccarichi di comunicazione e ottenendo un aumento di velocità di 2 X durante l'addestramento di sequenze di lunghezza 32K su 8 X A100.
Il rendering visivo del testo rappresenta una sfida fondamentale per i modelli contemporanei di generazione di immagini da testo, con il problema principale che risiede nelle carenze degli encoder di testo. Per ottenere un rendering accurato del testo, identifichiamo due requisiti cruciali per gli encoder di testo: consapevolezza dei caratteri e allineamento con i glifi. La nostra soluzione prevede la creazione di una serie di encoder di testo personalizzati, Glyph-ByT5, ottimizzando l'encoder ByT5, consapevole dei caratteri, utilizzando un dataset accuratamente curato di coppie glifo-testo. Presentiamo un metodo efficace per integrare Glyph-ByT5 con SDXL, dando vita al modello Glyph-SDXL per la generazione di immagini di design. Ciò migliora significativamente l'accuratezza del rendering del testo, portandola da meno del 20% a quasi il 90% sul nostro benchmark di immagini di design. Degna di nota è la nuova capacità di Glyph-SDXL di eseguire il rendering di paragrafi di testo, raggiungendo un'elevata accuratezza ortografica per decine o centinaia di caratteri con layout multi-linea automatizzati. Infine, attraverso la messa a punto di Glyph-SDXL con un piccolo insieme di immagini fotorealistiche di alta qualità contenenti testo visivo, dimostriamo un sostanziale miglioramento nelle capacità di rendering del testo in scene di immagini reali in domini aperti. Questi risultati convincenti mirano a incoraggiare ulteriori esplorazioni nella progettazione di encoder di testo personalizzati per compiti diversificati e impegnativi.
La comprensione dei video rappresenta una delle direzioni fondamentali nella ricerca di computer vision, con sforzi significativi dedicati all'esplorazione di varie architetture come RNN, 3D CNN e Transformers. La nuova architettura proposta del modello a spazio di stati, ad esempio Mamba, mostra caratteristiche promettenti per estendere il suo successo nella modellazione di sequenze lunghe alla modellazione video. Per valutare se Mamba possa rappresentare un'alternativa valida ai Transformers nel dominio della comprensione video, in questo lavoro conduciamo un'ampia serie di studi, esplorando i diversi ruoli che Mamba può svolgere nella modellazione dei video, mentre investigiamo vari compiti in cui Mamba potrebbe dimostrare superiorità. Classifichiamo Mamba in quattro ruoli per la modellazione video, derivando una Video Mamba Suite composta da 14 modelli/moduli, e li valutiamo su 12 compiti di comprensione video. I nostri esperimenti estensivi rivelano il forte potenziale di Mamba sia su compiti esclusivamente video che su compiti video-linguaggio, mostrando promettenti compromessi tra efficienza e prestazioni. Speriamo che questo lavoro possa fornire dati e intuizioni preziosi per future ricerche sulla comprensione video. Il codice è pubblico: https://github.com/OpenGVLab/video-mamba-suite.
I grandi modelli linguistici visivi hanno raggiunto una percezione fine degli oggetti, ma la limitazione della risoluzione delle immagini rimane un ostacolo significativo per superare le prestazioni degli esperti specifici per compiti in scenari complessi e densi. Tale limitazione restringe ulteriormente il potenziale del modello di ottenere un riferimento visivo e linguistico sfumato in domini come gli agenti GUI, il conteggio e \etc. Per affrontare questo problema, introduciamo un modello generalista ad alta risoluzione unificato, Griffon v2, che consente un riferimento flessibile agli oggetti con prompt visivi e testuali. Per scalare in modo efficiente la risoluzione delle immagini, progettiamo un proiettore di down-sampling semplice e leggero per superare il vincolo dei token di input nei grandi modelli linguistici. Questo design preserva intrinsecamente i contesti completi e i dettagli fini, e migliora significativamente la capacità di percezione multimodale, specialmente per gli oggetti piccoli. Basandoci su questo, dotiamo ulteriormente il modello di capacità di co-riferimento visivo-linguistico attraverso un tokenizzatore visivo plug-and-play. Ciò consente un'interazione user-friendly con immagini target flessibili, testi liberi e persino coordinate. Gli esperimenti dimostrano che Griffon v2 può localizzare qualsiasi oggetto di interesse con riferimento visivo e testuale, raggiungere prestazioni all'avanguardia nei compiti REC, phrase grounding e REG, e superare i modelli esperti nel rilevamento e nel conteggio degli oggetti. Dati, codici e modelli saranno rilasciati su https://github.com/jefferyZhan/Griffon.
I recenti modelli visione-linguaggio-azione (VLA) si basano su input 2D, mancando di integrazione con il più ampio regno del mondo fisico 3D. Inoltre, eseguono la previsione delle azioni apprendendo una mappatura diretta dalla percezione all'azione, trascurando le vaste dinamiche del mondo e le relazioni tra azioni e dinamiche. Al contrario, gli esseri umani sono dotati di modelli del mondo che descrivono immaginazioni su scenari futuri per pianificare le azioni di conseguenza. A tal fine, proponiamo 3D-VLA introducendo una nuova famiglia di modelli fondazionali incarnati che collegano in modo fluido percezione 3D, ragionamento e azione attraverso un modello generativo del mondo. Nello specifico, 3D-VLA è costruito su un modello linguistico di grandi dimensioni (LLM) basato su 3D, e viene introdotto un insieme di token di interazione per interagire con l'ambiente incarnato. Inoltre, per infondere capacità di generazione nel modello, addestriamo una serie di modelli di diffusione incarnati e li allineiamo all'LLM per prevedere le immagini obiettivo e le nuvole di punti. Per addestrare il nostro 3D-VLA, curiamo un ampio dataset di istruzioni incarnate 3D estraendo una vasta quantità di informazioni relative al 3D da dataset robotici esistenti. I nostri esperimenti su dataset trattenuti dimostrano che 3D-VLA migliora significativamente le capacità di ragionamento, generazione multimodale e pianificazione in ambienti incarnati, mostrando il suo potenziale nelle applicazioni del mondo reale.
Recentemente, i ricercatori nel campo dell'intelligenza artificiale hanno mostrato un forte interesse per l'integrazione tra linguaggio e visione, portando allo sviluppo di modelli multimodali che mirano a combinare in modo fluido informazioni testuali e visive. I modelli multimodali, un'estensione dei Large Language Models (LLM), hanno dimostrato capacità notevoli nell'affrontare una vasta gamma di compiti, dalla generazione di didascalie per immagini e il visual question answering (VQA) al visual grounding. Nonostante questi modelli abbiano mostrato progressi significativi, permangono sfide nell'interpretazione accurata delle immagini e nella risposta alle domande, un aspetto comune negli scenari reali. Questo articolo introduce un approccio innovativo per potenziare le capacità multimodali dei modelli esistenti. In risposta ai limiti osservati negli attuali Vision Language Models (VLM) e Multimodal Large Language Models (MLLM), il nostro modello proposto, Veagle, incorpora un meccanismo unico ispirato dai successi e dalle intuizioni di lavori precedenti. Veagle sfrutta un meccanismo dinamico per proiettare direttamente le informazioni visive codificate nel modello linguistico. Questo approccio dinamico consente una comprensione più sfumata dei dettagli complessi presenti nei contesti visivi. Per validare l'efficacia di Veagle, abbiamo condotto esperimenti completi su dataset di riferimento, concentrandoci su compiti come il visual question answering e la comprensione delle immagini. I nostri risultati indicano un miglioramento del 5-6% nelle prestazioni, con Veagle che supera i modelli esistenti con un margine significativo. I risultati sottolineano la versatilità e l'applicabilità del modello oltre i benchmark tradizionali.
L'evoluzione dei componenti da testo a visivi facilita la vita quotidiana delle persone, come la generazione di immagini e video da testo e l'identificazione degli elementi desiderati all'interno delle immagini. I modelli di computer vision che coinvolgono abilità multimodali in passato si concentravano sul rilevamento e la classificazione delle immagini basati su oggetti ben definiti. I grandi modelli linguistici (LLM) introducono la trasformazione dal linguaggio naturale a oggetti visivi, presentando il layout visivo per contesti testuali. OpenAI GPT-4 è emerso come il vertice negli LLM, mentre il dominio della computer vision (CV) vanta una pletora di modelli e algoritmi all'avanguardia (SOTA) per convertire immagini 2D nelle loro rappresentazioni 3D. Tuttavia, la mancata corrispondenza tra gli algoritmi e il problema potrebbe portare a risultati indesiderati. In risposta a questa sfida, proponiamo un framework unificato VisionGPT-3D per consolidare i modelli di visione all'avanguardia, facilitando così lo sviluppo dell'IA orientata alla visione. VisionGPT-3D fornisce un framework multimodale versatile che si basa sui punti di forza dei modelli di fondazione multimodali. Integra senza soluzione di continuità vari modelli di visione SOTA e introduce l'automazione nella selezione dei modelli di visione SOTA, identifica gli algoritmi di creazione di mesh 3D adatti corrispondenti all'analisi delle mappe di profondità 2D e genera risultati ottimali basati su input multimodali diversi come prompt testuali. Parole chiave: VisionGPT-3D, comprensione della visione 3D, agente multimodale
I recenti progressi nei modelli a spazio di stato, in particolare Mamba, hanno dimostrato significativi avanzamenti nella modellazione di sequenze lunghe per compiti come la comprensione del linguaggio. Tuttavia, la loro applicazione nei compiti visivi non ha superato in modo marcato le prestazioni delle tradizionali Reti Neurali Convoluzionali (CNN) e dei Vision Transformer (ViT). Questo articolo sostiene che la chiave per migliorare il Vision Mamba (ViM) risiede nell'ottimizzazione delle direzioni di scansione per la modellazione delle sequenze. Gli approcci tradizionali di ViM, che appiattiscono i token spaziali, trascurano la preservazione delle dipendenze locali 2D, allungando così la distanza tra token adiacenti. Introduciamo una nuova strategia di scansione locale che divide le immagini in finestre distinte, catturando efficacemente le dipendenze locali mantenendo una prospettiva globale. Inoltre, riconoscendo le diverse preferenze per i pattern di scansione tra i vari strati della rete, proponiamo un metodo dinamico per cercare in modo indipendente le scelte di scansione ottimali per ciascuno strato, migliorando sostanzialmente le prestazioni. Esperimenti estesi su modelli sia semplici che gerarchici evidenziano la superiorità del nostro approccio nel catturare efficacemente le rappresentazioni delle immagini. Ad esempio, il nostro modello supera significativamente Vim-Ti del 3.1% su ImageNet con gli stessi 1.5G FLOP. Il codice è disponibile all'indirizzo: https://github.com/hunto/LocalMamba.