Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo SUPIR (Scaling-UP Image Restoration), un metodo rivoluzionario per il ripristino delle immagini che sfrutta il prior generativo e la potenza del ridimensionamento del modello. Utilizzando tecniche multi-modali e un prior generativo avanzato, SUPIR rappresenta un significativo progresso nel ripristino intelligente e realistico delle immagini. Come catalizzatore fondamentale all'interno di SUPIR, il ridimensionamento del modello ne migliora drasticamente le capacità e dimostra nuove potenzialità per il ripristino delle immagini. Abbiamo raccolto un dataset composto da 20 milioni di immagini ad alta risoluzione e di alta qualità per l'addestramento del modello, ciascuna arricchita con annotazioni testuali descrittive. SUPIR offre la capacità di ripristinare le immagini guidato da prompt testuali, ampliando il suo ambito di applicazione e le sue potenzialità. Inoltre, introduciamo prompt di qualità negativa per migliorare ulteriormente la qualità percettiva. Abbiamo anche sviluppato un metodo di campionamento guidato dal ripristino per sopprimere il problema di fedeltà riscontrato nel ripristino basato su generazione. Gli esperimenti dimostrano gli effetti eccezionali di ripristino di SUPIR e la sua nuova capacità di manipolare il ripristino attraverso prompt testuali.
I modelli linguistici senza token apprendono direttamente da byte grezzi ed eliminano il bias della tokenizzazione a livello di sottoparola. Operare sui byte, tuttavia, comporta sequenze significativamente più lunghe, e i Transformer autoregressivi standard scalano male in tali contesti. Sperimentiamo con MambaByte, un adattamento senza token del modello a spazio di stati Mamba, addestrato autoregressivamente su sequenze di byte. I nostri esperimenti indicano l'efficienza computazionale di MambaByte rispetto ad altri modelli a livello di byte. Troviamo inoltre che MambaByte è competitivo e addirittura supera i Transformer a sottoparola all'avanguardia. Inoltre, grazie alla scalabilità lineare in lunghezza, MambaByte beneficia di un'inferenza veloce rispetto ai Transformer. I nostri risultati stabiliscono la fattibilità di MambaByte nell'abilitare la modellazione linguistica senza token.
Nell'ultimo anno, i Modelli Linguistici Multimodali di Grande Dimensione (MM-LLMs) hanno compiuto progressi significativi, potenziando i modelli linguistici preesistenti per supportare input o output multimodali attraverso strategie di formazione economicamente vantaggiose. I modelli risultanti non solo preservano le capacità intrinseche di ragionamento e decisione dei LLM, ma abilitano anche una vasta gamma di attività multimodali. In questo articolo, forniamo una rassegna completa finalizzata a facilitare ulteriori ricerche sugli MM-LLMs. Nello specifico, delineiamo prima di tutto le formulazioni generali per l'architettura del modello e la pipeline di addestramento. Successivamente, presentiamo brevi introduzioni di 26 MM-LLMs esistenti, ciascuno caratterizzato dalle sue specifiche formulazioni. Inoltre, esaminiamo le prestazioni degli MM-LLMs sui benchmark principali e sintetizziamo le ricette chiave per potenziare l'efficacia degli MM-LLMs. Infine, esploriamo direzioni promettenti per gli MM-LLMs, mantenendo contemporaneamente un sito web di tracciamento in tempo reale per gli ultimi sviluppi nel campo. Speriamo che questa rassegna contribuisca al progresso continuo del dominio degli MM-LLMs.
Il progresso dei grandi modelli linguistici (LLM) inaugura una nuova era caratterizzata dallo sviluppo di applicazioni autonome nel mondo reale, che stimola l'innovazione nella creazione di agenti web avanzati. Gli attuali agenti web gestiscono tipicamente una sola modalità di input e vengono valutati solo in simulatori web semplificati o in istantanee statiche di pagine web, limitando notevolmente la loro applicabilità in scenari reali. Per colmare questa lacuna, introduciamo WebVoyager, un innovativo agente web basato su un Large Multimodal Model (LMM) in grado di completare le istruzioni dell'utente end-to-end interagendo con siti web reali. Inoltre, proponiamo un nuovo protocollo di valutazione per gli agenti web per affrontare le sfide della valutazione automatica di compiti aperti, sfruttando le robuste capacità di comprensione multimodale di GPT-4V. Creiamo un nuovo benchmark raccogliendo compiti reali da 15 siti web ampiamente utilizzati per valutare i nostri agenti. Dimostriamo che WebVoyager raggiunge un tasso di successo del 55,7%, superando significativamente le prestazioni sia di GPT-4 (All Tools) che delle configurazioni WebVoyager (solo testo), evidenziando l'eccezionale capacità di WebVoyager nelle applicazioni pratiche. Abbiamo riscontrato che la nostra valutazione automatica proposta raggiunge un accordo dell'85,3% con il giudizio umano, aprendo la strada a ulteriori sviluppi degli agenti web in contesti reali.
I recenti modelli di generazione di immagini da testo hanno dimostrato un incredibile successo nel produrre immagini che seguono fedelmente i prompt di input. Tuttavia, la necessità di utilizzare parole per descrivere un concetto desiderato offre un controllo limitato sull'aspetto dei concetti generati. In questo lavoro, affrontiamo questa limitazione proponendo un approccio per abilitare capacità di personalizzazione nei modelli di diffusione testo-immagine esistenti. Proponiamo una nuova architettura (BootPIG) che consente a un utente di fornire immagini di riferimento di un oggetto per guidare l'aspetto di un concetto nelle immagini generate. L'architettura BootPIG apporta modifiche minime a un modello di diffusione testo-immagine preaddestrato e utilizza un modello UNet separato per orientare le generazioni verso l'aspetto desiderato. Introduciamo una procedura di addestramento che ci permette di implementare capacità di personalizzazione nell'architettura BootPIG utilizzando dati generati da modelli testo-immagine preaddestrati, agenti di chat LLM e modelli di segmentazione delle immagini. A differenza dei metodi esistenti che richiedono diversi giorni di preaddestramento, l'architettura BootPIG può essere addestrata in circa 1 ora. Esperimenti sul dataset DreamBooth dimostrano che BootPIG supera i metodi zero-shot esistenti, risultando comparabile con approcci di fine-tuning al momento del test. Attraverso uno studio con utenti, validiamo la preferenza per le generazioni di BootPIG rispetto ai metodi esistenti, sia nel mantenere la fedeltà all'aspetto dell'oggetto di riferimento che nell'allinearsi ai prompt testuali.
È noto che il pre-training di modelli linguistici di grandi dimensioni sia estremamente dispendioso in termini di risorse e spesso inefficiente, sottoutilizzando le informazioni contenute nelle sequenze di testo di addestramento. In questo articolo, presentiamo SpacTor, una nuova procedura di addestramento composta da (1) un obiettivo ibrido che combina la corruzione di span (SC) e il rilevamento della sostituzione di token (RTD), e (2) un curriculum in due fasi che ottimizza l'obiettivo ibrido per le prime iterazioni tau, per poi passare alla perdita SC standard. Dimostriamo empiricamente che l'efficacia dell'obiettivo ibrido è legata al programma di pre-training in due fasi e forniamo un'analisi approfondita del motivo per cui ciò avviene. Nei nostri esperimenti con architetture encoder-decoder (T5) su una varietà di task NLP, SpacTor-T5 raggiunge le stesse prestazioni downstream del pre-training SC standard, consentendo una riduzione del 50% delle iterazioni di pre-training e del 40% del totale di FLOPs. In alternativa, dato lo stesso budget computazionale, troviamo che SpacTor porta a un miglioramento significativo delle prestazioni sui benchmark downstream.
Recentemente, gli approcci di generazione 3D da testo hanno raggiunto la creazione di contenuti 3D ad alta fedeltà utilizzando descrizioni testuali. Tuttavia, gli oggetti generati sono stocastici e mancano di un controllo fine. Gli schizzi forniscono un metodo economico per introdurre tale controllo fine. Ciononostante, è difficile ottenere un controllo flessibile da questi schizzi a causa della loro astrazione e ambiguità. In questo articolo, presentiamo un framework di generazione 3D da testo guidato da schizzi multi-vista (denominato Sketch2NeRF) per aggiungere il controllo degli schizzi alla generazione 3D. Nello specifico, il nostro metodo sfrutta modelli di diffusione 2D pre-addestrati (ad esempio, Stable Diffusion e ControlNet) per supervisionare l'ottimizzazione di una scena 3D rappresentata da un campo di radianza neurale (NeRF). Proponiamo un nuovo metodo di generazione e ricostruzione sincronizzata per ottimizzare efficacemente il NeRF. Negli esperimenti, abbiamo raccolto due tipi di dataset di schizzi multi-vista per valutare il metodo proposto. Dimostriamo che il nostro metodo può sintetizzare contenuti 3D coerenti con un controllo fine degli schizzi, mantenendo al contempo un'elevata fedeltà ai prompt testuali. I risultati estesi mostrano che il nostro metodo raggiunge prestazioni all'avanguardia in termini di somiglianza degli schizzi e allineamento al testo.
I grandi modelli linguistici hanno fatto avanzare lo stato dell'arte nell'elaborazione del linguaggio naturale. Tuttavia, il loro design prevalentemente orientato all'inglese o a un numero limitato di lingue crea un divario significativo nella loro efficacia per le lingue a bassa risorsa. Per colmare questo divario, introduciamo MaLA-500, un nuovo grande modello linguistico progettato per coprire un'ampia gamma di 534 lingue. Per addestrare MaLA-500, utilizziamo l'estensione del vocabolario e il pretraining continuato su LLaMA 2 con Glot500-c. I nostri esperimenti su SIB-200 dimostrano che MaLA-500 raggiunge risultati all'avanguardia nell'apprendimento in contesto. Rilasciamo MaLA-500 all'indirizzo https://huggingface.co/MaLA-LM.
I recenti progressi nell'IA hanno portato allo sviluppo di modelli multimodali di grandi dimensioni (LMM) in grado di elaborare compiti complessi che richiedono un ragionamento congiunto su testo e contenuti visivi nelle immagini (ad esempio, navigare mappe in luoghi pubblici). Questo articolo introduce ConTextual, un nuovo benchmark composto da istruzioni progettate specificamente per valutare la capacità degli LMM di eseguire ragionamenti visivi sensibili al contesto e ricchi di testo. ConTextual enfatizza scenari reali diversificati (ad esempio, lettura dell'ora, navigazione, shopping e altro) che richiedono una comprensione più profonda delle interazioni tra elementi testuali e visivi. I nostri risultati rivelano un significativo divario di prestazioni del 30,8% tra il miglior LMM, GPT-4V(ision), e le capacità umane, valutate tramite giudizi umani, indicando un ampio margine di miglioramento nel ragionamento visivo sensibile al contesto e ricco di testo. In particolare, mentre GPT-4V ha eccelso in categorie astratte come l'interpretazione di meme e citazioni, le sue prestazioni complessive sono rimaste inferiori a quelle umane. Oltre alle valutazioni umane, abbiamo anche utilizzato metriche di valutazione automatica basate su GPT-4, riscontrando tendenze simili nelle disparità di prestazioni. Abbiamo inoltre condotto una valutazione granulare in diversi contesti visivi e fornito un'analisi qualitativa che offre un solido framework per i futuri progressi nella progettazione degli LMM. https://con-textual.github.io/
I modelli di diffusione testo-immagine esistenti generano principalmente immagini a partire da prompt testuali. Tuttavia, la concisione intrinseca delle descrizioni testuali pone sfide nella sintesi fedele di immagini con dettagli intricati, come entità o scene specifiche. Questo articolo presenta UNIMO-G, un semplice framework di diffusione condizionale multimodale che opera su prompt multimodali con input testuali e visivi intervallati, dimostrando un'abilità unificata sia per la generazione di immagini guidata da testo che da soggetto. UNIMO-G comprende due componenti principali: un Modello Linguistico Multimodale di Grande Scala (MLLM) per codificare i prompt multimodali, e una rete di diffusione condizionale di denoising per generare immagini basate sull'input multimodale codificato. Utilizziamo una strategia di addestramento in due fasi per formare efficacemente il framework: inizialmente pre-addestrando su coppie testo-immagine su larga scala per sviluppare capacità di generazione condizionale di immagini, e poi ottimizzando con istruzioni su prompt multimodali per raggiungere una competenza unificata nella generazione di immagini. Viene impiegata una pipeline di elaborazione dei dati ben progettata che coinvolge il grounding linguistico e la segmentazione delle immagini per costruire prompt multimodali. UNIMO-G eccelle sia nella generazione testo-immagine che nella sintesi guidata da soggetto in zero-shot, ed è particolarmente efficace nel generare immagini ad alta fedeltà da prompt multimodali complessi che coinvolgono più entità immagine.
I modelli generativi su larga scala per la sintesi di immagini a partire da testo hanno compiuto progressi impressionanti, dimostrando la capacità di generare un'ampia gamma di immagini di alta qualità. Tuttavia, l'adattamento di questi modelli per l'editing artistico delle immagini presenta due sfide significative. In primo luogo, gli utenti faticano a creare prompt testuali che descrivano meticolosamente gli elementi visivi dell'immagine di input. In secondo luogo, i modelli prevalenti, quando modificano zone specifiche, spesso alterano lo stile artistico complessivo, rendendo difficile ottenere opere coese ed esteticamente unificate. Per superare questi ostacoli, abbiamo sviluppato il framework innovativo e unificato CreativeSynth, basato su un modello di diffusione in grado di coordinare input multimodali e svolgere multitask nel campo della generazione di immagini artistiche. Integrando caratteristiche multimodali con meccanismi di attenzione personalizzati, CreativeSynth facilita l'importazione di contenuti semantici del mondo reale nel dominio artistico attraverso inversioni e trasferimenti di stile in tempo reale. Ciò consente una manipolazione precisa dello stile e del contenuto dell'immagine, preservando l'integrità dei parametri originali del modello. Valutazioni qualitative e quantitative rigorose evidenziano che CreativeSynth eccelle nel migliorare la fedeltà delle immagini artistiche e nel preservarne l'essenza estetica intrinseca. Colmando il divario tra modelli generativi e raffinatezza artistica, CreativeSynth diventa una tavolozza digitale personalizzata.