HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

11 papers found

Scalare verso l'Eccellenza: Praticare il Ridimensionamento dei Modelli per il Restauro Foto-Realistico di Immagini in Ambienti Reali
Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

Jan 24

ByFanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, Chao Dong

Presentiamo SUPIR (Scaling-UP Image Restoration), un metodo rivoluzionario per il ripristino delle immagini che sfrutta il prior generativo e la potenza del ridimensionamento del modello. Utilizzando tecniche multi-modali e un prior generativo avanzato, SUPIR rappresenta un significativo progresso nel ripristino intelligente e realistico delle immagini. Come catalizzatore fondamentale all'interno di SUPIR, il ridimensionamento del modello ne migliora drasticamente le capacità e dimostra nuove potenzialità per il ripristino delle immagini. Abbiamo raccolto un dataset composto da 20 milioni di immagini ad alta risoluzione e di alta qualità per l'addestramento del modello, ciascuna arricchita con annotazioni testuali descrittive. SUPIR offre la capacità di ripristinare le immagini guidato da prompt testuali, ampliando il suo ambito di applicazione e le sue potenzialità. Inoltre, introduciamo prompt di qualità negativa per migliorare ulteriormente la qualità percettiva. Abbiamo anche sviluppato un metodo di campionamento guidato dal ripristino per sopprimere il problema di fedeltà riscontrato nel ripristino basato su generazione. Gli esperimenti dimostrano gli effetti eccezionali di ripristino di SUPIR e la sua nuova capacità di manipolare il ripristino attraverso prompt testuali.

MambaByte: Modello a Spazio di Stati Selettivo senza Token
MambaByte: Token-free Selective State Space Model

Jan 24

ByJunxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M Rush

I modelli linguistici senza token apprendono direttamente da byte grezzi ed eliminano il bias della tokenizzazione a livello di sottoparola. Operare sui byte, tuttavia, comporta sequenze significativamente più lunghe, e i Transformer autoregressivi standard scalano male in tali contesti. Sperimentiamo con MambaByte, un adattamento senza token del modello a spazio di stati Mamba, addestrato autoregressivamente su sequenze di byte. I nostri esperimenti indicano l'efficienza computazionale di MambaByte rispetto ad altri modelli a livello di byte. Troviamo inoltre che MambaByte è competitivo e addirittura supera i Transformer a sottoparola all'avanguardia. Inoltre, grazie alla scalabilità lineare in lunghezza, MambaByte beneficia di un'inferenza veloce rispetto ai Transformer. I nostri risultati stabiliscono la fattibilità di MambaByte nell'abilitare la modellazione linguistica senza token.

MM-LLMs: Progressi Recenti nei Modelli Linguistici Multimodali di Grande Dimensione
MM-LLMs: Recent Advances in MultiModal Large Language Models

Jan 24

ByDuzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu

Nell'ultimo anno, i Modelli Linguistici Multimodali di Grande Dimensione (MM-LLMs) hanno compiuto progressi significativi, potenziando i modelli linguistici preesistenti per supportare input o output multimodali attraverso strategie di formazione economicamente vantaggiose. I modelli risultanti non solo preservano le capacità intrinseche di ragionamento e decisione dei LLM, ma abilitano anche una vasta gamma di attività multimodali. In questo articolo, forniamo una rassegna completa finalizzata a facilitare ulteriori ricerche sugli MM-LLMs. Nello specifico, delineiamo prima di tutto le formulazioni generali per l'architettura del modello e la pipeline di addestramento. Successivamente, presentiamo brevi introduzioni di 26 MM-LLMs esistenti, ciascuno caratterizzato dalle sue specifiche formulazioni. Inoltre, esaminiamo le prestazioni degli MM-LLMs sui benchmark principali e sintetizziamo le ricette chiave per potenziare l'efficacia degli MM-LLMs. Infine, esploriamo direzioni promettenti per gli MM-LLMs, mantenendo contemporaneamente un sito web di tracciamento in tempo reale per gli ultimi sviluppi nel campo. Speriamo che questa rassegna contribuisca al progresso continuo del dominio degli MM-LLMs.

WebVoyager: Costruire un Agente Web End-to-End con Modelli Multimodali di Grande Scala
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

Jan 25

ByHongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu

Il progresso dei grandi modelli linguistici (LLM) inaugura una nuova era caratterizzata dallo sviluppo di applicazioni autonome nel mondo reale, che stimola l'innovazione nella creazione di agenti web avanzati. Gli attuali agenti web gestiscono tipicamente una sola modalità di input e vengono valutati solo in simulatori web semplificati o in istantanee statiche di pagine web, limitando notevolmente la loro applicabilità in scenari reali. Per colmare questa lacuna, introduciamo WebVoyager, un innovativo agente web basato su un Large Multimodal Model (LMM) in grado di completare le istruzioni dell'utente end-to-end interagendo con siti web reali. Inoltre, proponiamo un nuovo protocollo di valutazione per gli agenti web per affrontare le sfide della valutazione automatica di compiti aperti, sfruttando le robuste capacità di comprensione multimodale di GPT-4V. Creiamo un nuovo benchmark raccogliendo compiti reali da 15 siti web ampiamente utilizzati per valutare i nostri agenti. Dimostriamo che WebVoyager raggiunge un tasso di successo del 55,7%, superando significativamente le prestazioni sia di GPT-4 (All Tools) che delle configurazioni WebVoyager (solo testo), evidenziando l'eccezionale capacità di WebVoyager nelle applicazioni pratiche. Abbiamo riscontrato che la nostra valutazione automatica proposta raggiunge un accordo dell'85,3% con il giudizio umano, aprendo la strada a ulteriori sviluppi degli agenti web in contesti reali.

BootPIG: Avvio di Capacità di Generazione di Immagini Personalizzate Zero-shot nei Modelli di Diffusione Pre-addestrati
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

Jan 25

BySenthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik

I recenti modelli di generazione di immagini da testo hanno dimostrato un incredibile successo nel produrre immagini che seguono fedelmente i prompt di input. Tuttavia, la necessità di utilizzare parole per descrivere un concetto desiderato offre un controllo limitato sull'aspetto dei concetti generati. In questo lavoro, affrontiamo questa limitazione proponendo un approccio per abilitare capacità di personalizzazione nei modelli di diffusione testo-immagine esistenti. Proponiamo una nuova architettura (BootPIG) che consente a un utente di fornire immagini di riferimento di un oggetto per guidare l'aspetto di un concetto nelle immagini generate. L'architettura BootPIG apporta modifiche minime a un modello di diffusione testo-immagine preaddestrato e utilizza un modello UNet separato per orientare le generazioni verso l'aspetto desiderato. Introduciamo una procedura di addestramento che ci permette di implementare capacità di personalizzazione nell'architettura BootPIG utilizzando dati generati da modelli testo-immagine preaddestrati, agenti di chat LLM e modelli di segmentazione delle immagini. A differenza dei metodi esistenti che richiedono diversi giorni di preaddestramento, l'architettura BootPIG può essere addestrata in circa 1 ora. Esperimenti sul dataset DreamBooth dimostrano che BootPIG supera i metodi zero-shot esistenti, risultando comparabile con approcci di fine-tuning al momento del test. Attraverso uno studio con utenti, validiamo la preferenza per le generazioni di BootPIG rispetto ai metodi esistenti, sia nel mantenere la fedeltà all'aspetto dell'oggetto di riferimento che nell'allinearsi ai prompt testuali.

SpacTor-T5: Pre-addestramento di modelli T5 con Corruzione di Span e Rilevamento di Token Sostituiti
SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

Jan 24

ByKe Ye, Heinrich Jiang, Afshin Rostamizadeh, Ayan Chakrabarti, Giulia DeSalvo, Jean-François Kagy, Lazaros Karydas, Gui Citovsky, Sanjiv Kumar

È noto che il pre-training di modelli linguistici di grandi dimensioni sia estremamente dispendioso in termini di risorse e spesso inefficiente, sottoutilizzando le informazioni contenute nelle sequenze di testo di addestramento. In questo articolo, presentiamo SpacTor, una nuova procedura di addestramento composta da (1) un obiettivo ibrido che combina la corruzione di span (SC) e il rilevamento della sostituzione di token (RTD), e (2) un curriculum in due fasi che ottimizza l'obiettivo ibrido per le prime iterazioni tau, per poi passare alla perdita SC standard. Dimostriamo empiricamente che l'efficacia dell'obiettivo ibrido è legata al programma di pre-training in due fasi e forniamo un'analisi approfondita del motivo per cui ciò avviene. Nei nostri esperimenti con architetture encoder-decoder (T5) su una varietà di task NLP, SpacTor-T5 raggiunge le stesse prestazioni downstream del pre-training SC standard, consentendo una riduzione del 50% delle iterazioni di pre-training e del 40% del totale di FLOPs. In alternativa, dato lo stesso budget computazionale, troviamo che SpacTor porta a un miglioramento significativo delle prestazioni sui benchmark downstream.

Sketch2NeRF: Generazione Testo-a-3D Guidata da Schizzi Multi-vista
Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

Jan 25

ByMinglin Chen, Longguang Wang, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo

Recentemente, gli approcci di generazione 3D da testo hanno raggiunto la creazione di contenuti 3D ad alta fedeltà utilizzando descrizioni testuali. Tuttavia, gli oggetti generati sono stocastici e mancano di un controllo fine. Gli schizzi forniscono un metodo economico per introdurre tale controllo fine. Ciononostante, è difficile ottenere un controllo flessibile da questi schizzi a causa della loro astrazione e ambiguità. In questo articolo, presentiamo un framework di generazione 3D da testo guidato da schizzi multi-vista (denominato Sketch2NeRF) per aggiungere il controllo degli schizzi alla generazione 3D. Nello specifico, il nostro metodo sfrutta modelli di diffusione 2D pre-addestrati (ad esempio, Stable Diffusion e ControlNet) per supervisionare l'ottimizzazione di una scena 3D rappresentata da un campo di radianza neurale (NeRF). Proponiamo un nuovo metodo di generazione e ricostruzione sincronizzata per ottimizzare efficacemente il NeRF. Negli esperimenti, abbiamo raccolto due tipi di dataset di schizzi multi-vista per valutare il metodo proposto. Dimostriamo che il nostro metodo può sintetizzare contenuti 3D coerenti con un controllo fine degli schizzi, mantenendo al contempo un'elevata fedeltà ai prompt testuali. I risultati estesi mostrano che il nostro metodo raggiunge prestazioni all'avanguardia in termini di somiglianza degli schizzi e allineamento al testo.

MaLA-500: Adattamento Massiccio dei Modelli Linguistici di Grande Scala
MaLA-500: Massive Language Adaptation of Large Language Models

Jan 24

ByPeiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze

I grandi modelli linguistici hanno fatto avanzare lo stato dell'arte nell'elaborazione del linguaggio naturale. Tuttavia, il loro design prevalentemente orientato all'inglese o a un numero limitato di lingue crea un divario significativo nella loro efficacia per le lingue a bassa risorsa. Per colmare questo divario, introduciamo MaLA-500, un nuovo grande modello linguistico progettato per coprire un'ampia gamma di 534 lingue. Per addestrare MaLA-500, utilizziamo l'estensione del vocabolario e il pretraining continuato su LLaMA 2 con Glot500-c. I nostri esperimenti su SIB-200 dimostrano che MaLA-500 raggiunge risultati all'avanguardia nell'apprendimento in contesto. Rilasciamo MaLA-500 all'indirizzo https://huggingface.co/MaLA-LM.

ConTextual: Valutazione del ragionamento visivo su testi contestuali nei grandi modelli multimodali
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

Jan 24

ByRohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng

I recenti progressi nell'IA hanno portato allo sviluppo di modelli multimodali di grandi dimensioni (LMM) in grado di elaborare compiti complessi che richiedono un ragionamento congiunto su testo e contenuti visivi nelle immagini (ad esempio, navigare mappe in luoghi pubblici). Questo articolo introduce ConTextual, un nuovo benchmark composto da istruzioni progettate specificamente per valutare la capacità degli LMM di eseguire ragionamenti visivi sensibili al contesto e ricchi di testo. ConTextual enfatizza scenari reali diversificati (ad esempio, lettura dell'ora, navigazione, shopping e altro) che richiedono una comprensione più profonda delle interazioni tra elementi testuali e visivi. I nostri risultati rivelano un significativo divario di prestazioni del 30,8% tra il miglior LMM, GPT-4V(ision), e le capacità umane, valutate tramite giudizi umani, indicando un ampio margine di miglioramento nel ragionamento visivo sensibile al contesto e ricco di testo. In particolare, mentre GPT-4V ha eccelso in categorie astratte come l'interpretazione di meme e citazioni, le sue prestazioni complessive sono rimaste inferiori a quelle umane. Oltre alle valutazioni umane, abbiamo anche utilizzato metriche di valutazione automatica basate su GPT-4, riscontrando tendenze simili nelle disparità di prestazioni. Abbiamo inoltre condotto una valutazione granulare in diversi contesti visivi e fornito un'analisi qualitativa che offre un solido framework per i futuri progressi nella progettazione degli LMM. https://con-textual.github.io/

UNIMO-G: Generazione Unificata di Immagini tramite Diffusione Condizionata Multimodale
UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

Jan 24

ByWei Li, Xue Xu, Jiachen Liu, Xinyan Xiao

I modelli di diffusione testo-immagine esistenti generano principalmente immagini a partire da prompt testuali. Tuttavia, la concisione intrinseca delle descrizioni testuali pone sfide nella sintesi fedele di immagini con dettagli intricati, come entità o scene specifiche. Questo articolo presenta UNIMO-G, un semplice framework di diffusione condizionale multimodale che opera su prompt multimodali con input testuali e visivi intervallati, dimostrando un'abilità unificata sia per la generazione di immagini guidata da testo che da soggetto. UNIMO-G comprende due componenti principali: un Modello Linguistico Multimodale di Grande Scala (MLLM) per codificare i prompt multimodali, e una rete di diffusione condizionale di denoising per generare immagini basate sull'input multimodale codificato. Utilizziamo una strategia di addestramento in due fasi per formare efficacemente il framework: inizialmente pre-addestrando su coppie testo-immagine su larga scala per sviluppare capacità di generazione condizionale di immagini, e poi ottimizzando con istruzioni su prompt multimodali per raggiungere una competenza unificata nella generazione di immagini. Viene impiegata una pipeline di elaborazione dei dati ben progettata che coinvolge il grounding linguistico e la segmentazione delle immagini per costruire prompt multimodali. UNIMO-G eccelle sia nella generazione testo-immagine che nella sintesi guidata da soggetto in zero-shot, ed è particolarmente efficace nel generare immagini ad alta fedeltà da prompt multimodali complessi che coinvolgono più entità immagine.

CreativeSynth: Fusione Creativa e Sintesi delle Arti Visive basata su Diffusione Multimodale
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion

Jan 25

ByNisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Changsheng Xu

I modelli generativi su larga scala per la sintesi di immagini a partire da testo hanno compiuto progressi impressionanti, dimostrando la capacità di generare un'ampia gamma di immagini di alta qualità. Tuttavia, l'adattamento di questi modelli per l'editing artistico delle immagini presenta due sfide significative. In primo luogo, gli utenti faticano a creare prompt testuali che descrivano meticolosamente gli elementi visivi dell'immagine di input. In secondo luogo, i modelli prevalenti, quando modificano zone specifiche, spesso alterano lo stile artistico complessivo, rendendo difficile ottenere opere coese ed esteticamente unificate. Per superare questi ostacoli, abbiamo sviluppato il framework innovativo e unificato CreativeSynth, basato su un modello di diffusione in grado di coordinare input multimodali e svolgere multitask nel campo della generazione di immagini artistiche. Integrando caratteristiche multimodali con meccanismi di attenzione personalizzati, CreativeSynth facilita l'importazione di contenuti semantici del mondo reale nel dominio artistico attraverso inversioni e trasferimenti di stile in tempo reale. Ciò consente una manipolazione precisa dello stile e del contenuto dell'immagine, preservando l'integrità dei parametri originali del modello. Valutazioni qualitative e quantitative rigorose evidenziano che CreativeSynth eccelle nel migliorare la fedeltà delle immagini artistiche e nel preservarne l'essenza estetica intrinseca. Colmando il divario tra modelli generativi e raffinatezza artistica, CreativeSynth diventa una tavolozza digitale personalizzata.

BootPIG: Avvio di Capacità di Generazione di Immagini Personalizzate Zero-shot nei Modelli di Diffusione Pre-addestrati
BootPIG: Bootstrapping Zero-shot Personalized Image Generation Capabilities in Pretrained Diffusion Models

Jan 25

BySenthil Purushwalkam, Akash Gokul, Shafiq Joty, Nikhil Naik