HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

19 papers found

StemGen: Un modello di generazione musicale che ascolta
StemGen: A music generation model that listens

Dec 14

ByJulian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le

La generazione end-to-end di audio musicale utilizzando tecniche di deep learning ha visto un'esplosione di attività recentemente. Tuttavia, la maggior parte dei modelli si concentra sulla generazione di musica completamente mixata in risposta a informazioni di condizionamento astratte. In questo lavoro, presentiamo un paradigma alternativo per produrre modelli di generazione musicale in grado di ascoltare e rispondere al contesto musicale. Descriviamo come un tale modello possa essere costruito utilizzando un'architettura basata su transformer non autoregressiva e presentiamo una serie di miglioramenti architetturali e di campionamento innovativi. Addestriamo l'architettura descritta sia su un dataset open-source che su uno proprietario. Valutiamo i modelli prodotti utilizzando metriche di qualità standard e un nuovo approccio basato su descrittori di music information retrieval. Il modello risultante raggiunge la qualità audio dei modelli all'avanguardia condizionati da testo, oltre a mostrare una forte coerenza musicale con il suo contesto.

TinyGSM: raggiungimento di oltre l'80% su GSM8k con modelli linguistici di piccole dimensioni
TinyGSM: achieving >80% on GSM8k with small language models

Dec 14

ByBingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang

I modelli su piccola scala offrono vari vantaggi computazionali, eppure rimane una questione aperta fino a che punto la dimensione sia critica per le capacità di risoluzione dei problemi. Nello specifico, per risolvere problemi di matematica di livello scolastico, la dimensione minima del modello finora necessaria per superare la barriera dell'80\% sul benchmark GSM8K rimane di 34B. Il nostro lavoro studia come dataset di alta qualità possano essere la chiave affinché piccoli modelli linguistici acquisiscano ragionamento matematico. Introduciamo TinyGSM, un dataset sintetico di 12,3 milioni di problemi di matematica di livello scolastico accoppiati con soluzioni in Python, generato interamente da GPT-3.5. Dopo il fine-tuning su TinyGSM, scopriamo che una coppia composta da un modello di generazione da 1,3B e un modello di verifica da 1,3B può raggiungere un'accuratezza dell'81,5\%, superando modelli esistenti che sono di ordini di grandezza più grandi. Questo risultato rivaleggia anche con le prestazioni del modello "insegnante" GPT-3.5 (77,4\%), da cui sono stati generati i dati di addestramento del nostro modello. Il nostro approccio è semplice e ha due componenti chiave: 1) il dataset di alta qualità TinyGSM, 2) l'uso di un verificatore, che seleziona gli output finali tra più generazioni candidate.

CogAgent: Un Modello Linguistico Visivo per Agenti GUI
CogAgent: A Visual Language Model for GUI Agents

Dec 14

ByWenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang

Le persone trascorrono un'enorme quantità di tempo su dispositivi digitali attraverso interfacce grafiche (GUI), come schermi di computer o smartphone. I grandi modelli linguistici (LLM) come ChatGPT possono assistere le persone in compiti come la scrittura di email, ma faticano a comprendere e interagire con le GUI, limitando così il loro potenziale per aumentare i livelli di automazione. In questo articolo, presentiamo CogAgent, un modello linguistico visivo (VLM) da 18 miliardi di parametri specializzato nella comprensione e navigazione delle GUI. Utilizzando sia encoder di immagini a bassa risoluzione che ad alta risoluzione, CogAgent supporta input a una risoluzione di 1120*1120, consentendogli di riconoscere elementi di pagina e testo di piccole dimensioni. Come modello linguistico visivo generalista, CogAgent raggiunge lo stato dell'arte su cinque benchmark ricchi di testo e quattro benchmark generali di VQA, tra cui VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet e POPE. CogAgent, utilizzando solo screenshot come input, supera i metodi basati su LLM che consumano testo HTML estratto in compiti di navigazione GUI su PC e Android -- Mind2Web e AITW, avanzando lo stato dell'arte. Il modello e i codici sono disponibili su https://github.com/THUDM/CogVLM.

VideoLCM: Modello di Consistenza Latente per Video
VideoLCM: Video Latent Consistency Model

Dec 14

ByXiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang

I modelli di consistenza hanno dimostrato una potente capacità nella generazione efficiente di immagini e hanno permesso la sintesi in pochi passaggi di campionamento, riducendo l'elevato costo computazionale nei modelli di diffusione. Tuttavia, il modello di consistenza nella generazione di video, un ambito più impegnativo e dispendioso in termini di risorse, è ancora poco esplorato. In questo rapporto, presentiamo il framework VideoLCM per colmare questa lacuna, che sfrutta il concetto di modelli di consistenza dalla generazione di immagini per sintetizzare in modo efficiente video con un numero minimo di passaggi, mantenendo un'elevata qualità. VideoLCM si basa su modelli di diffusione latente per video esistenti e incorpora tecniche di distillazione della consistenza per l'addestramento del modello di consistenza latente. I risultati sperimentali rivelano l'efficacia di VideoLCM in termini di efficienza computazionale, fedeltà e coerenza temporale. In particolare, VideoLCM raggiunge una sintesi video ad alta fedeltà e fluida con soli quattro passaggi di campionamento, dimostrando il potenziale per la sintesi in tempo reale. Speriamo che VideoLCM possa servire come una baseline semplice ma efficace per le ricerche successive. Il codice sorgente e i modelli saranno resi pubblicamente disponibili.

Un'immagine vale più di 77 token di testo: valutazione dei modelli in stile CLIP su descrizioni dense
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Dec 14

ByJack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano

I metodi di curatela per i massicci dataset visione-linguaggio bilanciano tra dimensione del dataset e qualità. Tuttavia, anche le descrizioni curate di più alta qualità disponibili sono troppo brevi per catturare i dettagli visivi ricchi di un'immagine. Per dimostrare il valore di coppie immagine-testo dense e altamente allineate, abbiamo raccolto il dataset Densely Captioned Images (DCI), contenente 8012 immagini naturali annotate manualmente con descrizioni allineate a maschere che superano in media le 1000 parole ciascuna. Con descrizioni precise e affidabili associate a parti specifiche di un'immagine, possiamo valutare la comprensione del contenuto delle immagini da parte dei modelli visione-linguaggio (VLM) con un nuovo compito che abbina ogni descrizione al suo corrispondente ritaglio. Poiché i modelli attuali sono spesso limitati a 77 token di testo, introduciamo anche una versione riassunta (sDCI) in cui la lunghezza di ogni descrizione è limitata. Mostriamo che le tecniche moderne che fanno progressi sui benchmark standard non corrispondono a un miglioramento significativo sul nostro benchmark basato su sDCI. Infine, ottimizziamo CLIP utilizzando sDCI e mostriamo miglioramenti significativi rispetto alla baseline nonostante un piccolo set di addestramento. Rilasciando il primo dataset di descrizioni dense di immagini annotato manualmente, speriamo di favorire lo sviluppo di nuovi benchmark o ricette di ottimizzazione per la prossima generazione di VLM.

Mosaic-SDF per Modelli Generativi 3D
Mosaic-SDF for 3D Generative Models

Dec 14

ByLior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman

I modelli generativi basati su diffusione o flusso per le forme 3D attualmente si dividono in due categorie: la distillazione di modelli di diffusione pre-addestrati su immagini 2D e l'addestramento diretto su forme 3D. Quando si addestra un modello di diffusione o flusso su forme 3D, una scelta progettuale cruciale è la rappresentazione della forma. Una rappresentazione efficace delle forme deve rispettare tre principi progettuali: deve consentire una conversione efficiente di grandi dataset 3D nella forma di rappresentazione; deve offrire un buon compromesso tra potere di approssimazione e numero di parametri; e deve avere una forma tensoriale semplice compatibile con le potenti architetture neurali esistenti. Mentre le rappresentazioni standard delle forme 3D, come griglie volumetriche e nuvole di punti, non rispettano simultaneamente tutti questi principi, in questo articolo sosteniamo una nuova rappresentazione che lo fa. Introduciamo Mosaic-SDF (M-SDF): una semplice rappresentazione delle forme 3D che approssima la Funzione di Distanza con Segno (SDF) di una data forma utilizzando un insieme di griglie locali distribuite vicino al confine della forma. La rappresentazione M-SDF è veloce da calcolare per ogni singola forma, rendendola facilmente parallelizzabile; è efficiente in termini di parametri poiché copre solo lo spazio intorno al confine della forma; e ha una forma matriciale semplice, compatibile con architetture basate su Transformer. Dimostriamo l'efficacia della rappresentazione M-SDF utilizzandola per addestrare un modello generativo di flusso 3D, inclusa la generazione condizionata alla classe con il dataset 3D Warehouse e la generazione da testo a 3D utilizzando un dataset di circa 600k coppie didascalia-forma.

Modelli Linguistici Allineati a Livello di Pixel
Pixel Aligned Language Models

Dec 14

ByJiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid

I grandi modelli linguistici hanno ottenuto un grande successo negli ultimi anni, così come le loro varianti nel campo della visione. I modelli esistenti di visione e linguaggio sono in grado di descrivere immagini in linguaggio naturale, rispondere a domande relative al visivo o eseguire ragionamenti complessi sull'immagine. Tuttavia, non è ancora chiaro come i compiti di localizzazione, come il grounding di parole o la localizzazione referenziale, possano essere eseguiti utilizzando grandi modelli linguistici. In questo lavoro, miriamo a sviluppare un modello di visione e linguaggio che possa utilizzare localizzazioni, ad esempio un insieme di punti o riquadri, come input o output. Quando le localizzazioni vengono utilizzate come input, il modello esegue la generazione di didascalie condizionate alla posizione, producendo descrizioni per l'oggetto o la regione indicata. Quando genera localizzazioni come output, il nostro modello regredisce le coordinate dei pixel per ogni parola generata dal modello linguistico, eseguendo così un grounding denso delle parole. Il nostro modello è pre-addestrato sul dataset Localized Narrative, che contiene didascalie allineate a livello di pixel-parola basate sull'attenzione umana. Dimostriamo che il nostro modello può essere applicato a vari compiti di visione e linguaggio consapevoli della posizione, inclusi la localizzazione referenziale, la generazione di didascalie condizionate alla posizione e la descrizione densa di oggetti, raggiungendo prestazioni all'avanguardia su RefCOCO e Visual Genome. Pagina del progetto: https://jerryxu.net/PixelLLM.

SEEAvatar: Generazione fotorealistica di avatar 3D da testo con geometria e aspetto vincolati
SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained Geometry and Appearance

Dec 13

ByYuanyou Xu, Zongxin Yang, Yi Yang

Guidati da modelli su larga scala di generazione di immagini da testo, la generazione di avatar 3D da testo ha compiuto progressi promettenti. Tuttavia, la maggior parte dei metodi non riesce a produrre risultati fotorealistici, limitati da geometrie imprecise e qualità visiva insufficiente. Verso una generazione di avatar più pratica, presentiamo SEEAvatar, un metodo per generare avatar 3D fotorealistici da testo con vincoli di SElf-Evolving per geometria e aspetto disaccoppiati. Per la geometria, proponiamo di vincolare l'avatar ottimizzato in una forma globale adeguata utilizzando un avatar template. L'avatar template viene inizializzato con un priore umano e può essere aggiornato periodicamente dall'avatar ottimizzato come template evolutivo, consentendo una generazione di forme più flessibile. Inoltre, la geometria è vincolata anche da un priore umano statico per parti locali come il viso e le mani, per mantenere strutture delicate. Per la generazione dell'aspetto, utilizziamo un modello di diffusione potenziato dall'ingegneria dei prompt per guidare una pipeline di rendering basata sulla fisica, generando texture realistiche. Il vincolo di luminosità viene applicato sulla texture albedo per sopprimere effetti di illuminazione errati. Gli esperimenti dimostrano che il nostro metodo supera di gran lunga i metodi precedenti sia nella qualità della geometria globale e locale che nell'aspetto. Poiché il nostro metodo può produrre mesh e texture di alta qualità, tali asset possono essere direttamente applicati nella classica pipeline grafica per rendering realistici in qualsiasi condizione di illuminazione. Pagina del progetto: https://seeavatar3d.github.io.

Zebra: Estensione della Finestra di Contesto con Attenzione Locale-Globale a Gruppi Stratificati
Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention

Dec 14

ByKaiqiang Song, Xiaoyang Wang, Sangwoo Cho, Xiaoman Pan, Dong Yu

Questo articolo introduce un approccio innovativo per potenziare le capacità dei Large Language Models (LLM) nell'elaborazione e comprensione di sequenze testuali estese, un aspetto cruciale per applicazioni che richiedono una profonda comprensione e sintesi di grandi volumi di informazioni. Riconoscendo le sfide intrinseche nell'estendere la finestra contestuale per i LLM, principalmente basati sull'architettura Transformer, proponiamo una nuova architettura di modello, denominata Zebra. Questa architettura gestisce in modo efficiente i problemi di complessità quadratica in termini di tempo e memoria associati all'attenzione completa nel Transformer, impiegando strati di attenzione locale-globale raggruppati. Il nostro modello, simile alle strisce alternate di una zebra, bilancia strati di attenzione locale e globale, riducendo significativamente i requisiti computazionali e il consumo di memoria. Sono stati condotti esperimenti completi, tra cui pretraining da zero, continuazione dell'adattamento a contesti lunghi e tuning su istruzioni lunghe, per valutare le prestazioni di Zebra. I risultati dimostrano che Zebra raggiunge prestazioni comparabili o superiori su benchmark sia per sequenze brevi che lunghe, migliorando al contempo l'efficienza durante l'addestramento e l'inferenza.

I Modelli Visione-Linguaggio come Fonte di Ricompense
Vision-Language Models as a Source of Rewards

Dec 14

ByKate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang

La creazione di agenti generalisti in grado di raggiungere molteplici obiettivi in ambienti ricchi e aperti rappresenta una delle frontiere della ricerca nell'apprendimento per rinforzo. Un fattore limitante chiave per lo sviluppo di agenti generalisti con RL è stata la necessità di un gran numero di funzioni di ricompensa per il raggiungimento di obiettivi diversi. Investigiamo la fattibilità di utilizzare modelli visione-linguaggio preesistenti, o VLMs, come fonti di ricompensa per agenti di apprendimento per rinforzo. Dimostriamo come le ricompense per il raggiungimento visivo di una varietà di obiettivi linguistici possano essere derivate dalla famiglia di modelli CLIP e utilizzate per addestrare agenti RL in grado di raggiungere una gamma di obiettivi linguistici. Illustriamo questo approccio in due domini visivi distinti e presentiamo una tendenza di scalabilità che mostra come VLMs più grandi portino a ricompense più accurate per il raggiungimento di obiettivi visivi, producendo a loro volta agenti RL più capaci.

FineControlNet: Controllo Testuale a Livello Fine per la Generazione di Immagini con Iniezione di Controllo Testuale Allineato Spazialmente
FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection

Dec 14

ByHongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil Chavan-Dafle, Volkan Isler

Il recentemente introdotto ControlNet possiede la capacità di guidare il processo di generazione di immagini basato su testo con input geometrici come la posa umana 2D o le caratteristiche dei bordi. Sebbene ControlNet fornisca un controllo sulla forma geometrica delle istanze nell'immagine generata, manca della capacità di dettare l'aspetto visivo di ciascuna istanza. Presentiamo FineControlNet per offrire un controllo fine sull'aspetto di ciascuna istanza, mantenendo al contempo la precisa capacità di controllo della posa. Nello specifico, sviluppiamo e dimostriamo FineControlNet con controllo geometrico tramite immagini di pose umane e controllo dell'aspetto tramite prompt di testo a livello di istanza. L'allineamento spaziale dei prompt di testo specifici per istanza e delle pose 2D nello spazio latente abilita le capacità di controllo fine di FineControlNet. Valutiamo le prestazioni di FineControlNet con un confronto rigoroso rispetto ai modelli di diffusione testo-immagine condizionati alla posa all'avanguardia. FineControlNet raggiunge prestazioni superiori nella generazione di immagini che seguono i prompt di testo specifici per istanza e le pose fornite dall'utente rispetto ai metodi esistenti. Pagina web del progetto: https://samsunglabs.github.io/FineControlNet-project-page

Modello Fondamentale Generale per Oggetti su Immagini e Video su Scala Ampia
General Object Foundation Model for Images and Videos at Scale

Dec 14

ByJunfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai

In questo lavoro presentiamo GLEE, un modello fondazionale a livello di oggetti per localizzare e identificare oggetti in immagini e video. Attraverso un framework unificato, GLEE realizza il rilevamento, la segmentazione, il tracciamento, il grounding e l'identificazione di oggetti arbitrari nello scenario open world per varie attività di percezione degli oggetti. Adottando una strategia di apprendimento coesa, GLEE acquisisce conoscenza da fonti di dati diversificate con diversi livelli di supervisione per formulare rappresentazioni generali degli oggetti, eccellendo nel trasferimento zero-shot a nuovi dati e compiti. Nello specifico, utilizziamo un codificatore di immagini, un codificatore di testo e un prompt visivo per gestire input multimodali, consentendo di risolvere simultaneamente varie attività downstream centrate sugli oggetti mantenendo prestazioni all'avanguardia. Dimostrato attraverso un addestramento estensivo su oltre cinque milioni di immagini provenienti da benchmark diversificati, GLEE mostra una notevole versatilità e migliori prestazioni di generalizzazione, affrontando in modo efficiente le attività downstream senza la necessità di adattamenti specifici per compito. Integrando grandi volumi di dati etichettati automaticamente, miglioriamo ulteriormente le sue capacità di generalizzazione zero-shot. Inoltre, GLEE è in grado di essere integrato in Modelli Linguistici di Grande Scala, fungendo da modello fondazionale per fornire informazioni universali a livello di oggetti per compiti multimodali. Speriamo che la versatilità e l'universalità del nostro metodo segnino un passo significativo nello sviluppo di modelli fondazionali visivi efficienti per sistemi AGI. Il modello e il codice saranno rilasciati su https://glee-vision.github.io.

ZeroQuant(4+2): Ridefinire la Quantizzazione dei Modelli Linguistici con una Nuova Strategia Centrata su FP6 per Compiti Generativi Diversificati
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Dec 14

ByXiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao

Questo studio esamina i metodi di quantizzazione a 4 bit come GPTQ nei grandi modelli linguistici (LLM), evidenziando l'overfitting di GPTQ e il limitato miglioramento nei compiti Zero-Shot. Mentre i lavori precedenti si concentravano esclusivamente sulla misurazione zero-shot, estendiamo l'ambito dei compiti a categorie più generative come la generazione di codice e la sintesi astrattiva, in cui abbiamo riscontrato che la quantizzazione INT4 può risultare significativamente inferiore. Tuttavia, il semplice passaggio a formati di precisione superiore come FP6 è stato particolarmente impegnativo, e quindi trascurato, a causa delle scarse prestazioni dovute alla mancanza di integrazione sofisticata e di strategie di accelerazione del sistema sull'attuale hardware AI. I nostri risultati mostrano che FP6, anche con uno schema di quantizzazione a grana grossa, si comporta in modo robusto su vari algoritmi e compiti, dimostrando la sua superiorità in termini di accuratezza e versatilità. In particolare, con la quantizzazione FP6, il modello \codestar-15B si comporta in modo comparabile alla sua controparte FP16 nella generazione di codice, e per modelli più piccoli come il 406M si avvicina molto ai loro baseline nella sintesi. Nessuno di questi risultati può essere raggiunto con INT4. Per adattarsi meglio a vari hardware AI e ottenere le migliori prestazioni del sistema, proponiamo un nuovo design 4+2 per FP6 per ottenere una latenza simile alla quantizzazione fine-grain INT4 allo stato dell'arte. Con il nostro design, FP6 può diventare una soluzione promettente rispetto agli attuali metodi di quantizzazione a 4 bit utilizzati negli LLM.

UniDream: Unificazione dei Priori di Diffusione per la Generazione di Oggetti 3D Rilluminabili da Testo
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

Dec 14

ByZexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang

I recenti progressi nella tecnologia di generazione da testo a 3D hanno significativamente migliorato la conversione di descrizioni testuali in oggetti 3D immaginativi, ben strutturati geometricamente e con texture raffinate. Nonostante questi sviluppi, una limitazione prevalente deriva dall'uso di dati RGB nei modelli di diffusione o ricostruzione, che spesso risultano in modelli con effetti di illuminazione e ombre intrinseci che compromettono il loro realismo, limitando così la loro utilizzabilità in applicazioni che richiedono capacità accurate di riluminazione. Per colmare questa lacuna, presentiamo UniDream, un framework di generazione da testo a 3D che incorpora priorità di diffusione unificate. Il nostro approccio si compone di tre componenti principali: (1) un processo di addestramento in due fasi per ottenere modelli di diffusione e ricostruzione multi-vista allineati con albedo e normali, (2) una procedura di generazione progressiva per la geometria e le texture di albedo basata su Score Distillation Sample (SDS) utilizzando i modelli di ricostruzione e diffusione addestrati, e (3) un'applicazione innovativa di SDS per finalizzare la generazione PBR mantenendo un albedo fisso basato sul modello Stable Diffusion. Valutazioni estensive dimostrano che UniDream supera i metodi esistenti nella generazione di oggetti 3D con texture di albedo più nitide, superfici più lisce, realismo migliorato e capacità superiori di riluminazione.

LIME: Modifica Localizzata delle Immagini tramite Regolarizzazione dell'Attenzione nei Modelli di Diffusione
LIME: Localized Image Editing via Attention Regularization in Diffusion Models

Dec 14

ByEnis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari

I modelli di diffusione (DMs) hanno guadagnato importanza grazie alla loro capacità di generare immagini di alta qualità e variate, con recenti progressi nella generazione di immagini da testo. L'attenzione della ricerca si sta ora spostando verso la controllabilità dei DMs. Una sfida significativa in questo ambito è l'editing localizzato, dove aree specifiche di un'immagine vengono modificate senza influenzare il resto del contenuto. Questo articolo introduce LIME per l'editing localizzato di immagini nei modelli di diffusione che non richiedono regioni di interesse (RoI) specificate dall'utente o ulteriori input testuali. Il nostro metodo utilizza caratteristiche da metodi pre-addestrati e una semplice tecnica di clustering per ottenere mappe di segmentazione semantica precise. Quindi, sfruttando le mappe di cross-attention, affina questi segmenti per effettuare modifiche localizzate. Infine, proponiamo una nuova tecnica di regolarizzazione della cross-attention che penalizza i punteggi di cross-attention non correlati nella RoI durante i passaggi di denoising, garantendo modifiche localizzate. Il nostro approccio, senza ri-addestramento e fine-tuning, migliora costantemente le prestazioni dei metodi esistenti in vari benchmark di editing.

VL-GPT: Un Transformer Pre-addestrato Generativo per la Comprensione e Generazione di Visione e Linguaggio
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

Dec 14

ByJinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan

In questo lavoro, introduciamo il Vision-Language Generative Pre-trained Transformer (VL-GPT), un modello transformer in grado di percepire e generare simultaneamente dati visivi e linguistici. VL-GPT raggiunge un approccio di pre-training unificato per entrambe le modalità immagine e testo utilizzando un semplice obiettivo auto-regressivo, consentendo così al modello di elaborare immagini e testo in modo fluido, come un modello linguistico elabora il testo. Per realizzare ciò, proponiamo inizialmente un nuovo framework di tokenizer-detokenizer per i dati visivi, progettato specificamente per trasformare immagini grezze in una sequenza di embedding continui e ricostruirle di conseguenza. In combinazione con l’esistente tokenizer e detokenizer per il testo, questo framework consente la codifica di dati immagine-testo intervallati in una sequenza multimodale, che può poi essere alimentata al modello transformer. Di conseguenza, VL-GPT può eseguire un pre-training su larga scala su corpora multimodali utilizzando un obiettivo auto-regressivo unificato (ad esempio, la previsione del token successivo). Al termine del pre-training, VL-GPT dimostra prestazioni notevoli in contesti zero-shot e few-shot su un’ampia gamma di attività di comprensione e generazione visiva e linguistica, tra cui generazione di didascalie per immagini, risposta a domande visive, generazione di immagini da testo e altro ancora. Inoltre, il modello pre-addestrato mantiene capacità di apprendimento in-context quando viene fornito con prompt multimodali. Abbiamo inoltre condotto un’ottimizzazione tramite istruzioni (instruction tuning) sul nostro VL-GPT, evidenziandone il potenziale eccezionale per l’assistenza multimodale. Il codice sorgente e i pesi del modello verranno rilasciati.

Aiutare o guidare? Gli ensemble di modelli di ricompensa mitigano ma non eliminano il fenomeno dell'hacking delle ricompense
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant

I modelli di ricompensa svolgono un ruolo chiave nell'allineare le applicazioni dei modelli linguistici alle preferenze umane. Tuttavia, questa configurazione crea un incentivo per il modello linguistico a sfruttare gli errori nel modello di ricompensa per ottenere una ricompensa stimata elevata, un fenomeno spesso definito "reward hacking". Una mitigazione naturale consiste nell'addestrare un insieme di modelli di ricompensa, aggregando i loro output per ottenere una stima della ricompensa più robusta. Esploriamo l'applicazione degli ensemble di ricompensa all'allineamento sia durante l'addestramento (attraverso l'apprendimento per rinforzo) che durante l'inferenza (attraverso il riordinamento). In primo luogo, dimostriamo che i modelli di ricompensa sono sottospecificati: modelli di ricompensa che performano in modo simile in-distribuzione possono produrre ricompense molto diverse quando utilizzati per l'allineamento, a causa dello spostamento della distribuzione. In secondo luogo, la sottospecificazione porta a un'ottimizzazione eccessiva, in cui l'allineamento a un modello di ricompensa non migliora la ricompensa misurata da un altro modello di ricompensa addestrato sugli stessi dati. In terzo luogo, l'ottimizzazione eccessiva è mitigata dall'uso di ensemble di ricompensa, e gli ensemble che variano in base ai semi di pre-addestramento portano a una migliore generalizzazione rispetto agli ensemble che differiscono solo per i semi di fine-tuning, con entrambi che superano i singoli modelli di ricompensa. Tuttavia, anche gli ensemble di pre-addestramento non eliminano il reward hacking: mostriamo diversi fenomeni qualitativi di reward hacking che non sono mitigati dall'ensembling perché tutti i modelli di ricompensa nell'insieme presentano schemi di errore simili.

SHAP-EDITOR: Modifica Latente 3D Guidata da Istruzioni in Secondi
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

Dec 14

ByMinghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi

Proponiamo un nuovo framework di editing 3D feed-forward chiamato Shap-Editor. Le ricerche precedenti sull'editing di oggetti 3D si sono principalmente concentrate sulla modifica di singoli oggetti sfruttando reti di editing di immagini 2D preesistenti. Questo viene ottenuto attraverso un processo chiamato distillazione, che trasferisce la conoscenza dalla rete 2D agli asset 3D. La distillazione richiede almeno decine di minuti per asset per ottenere risultati di editing soddisfacenti, e quindi non è molto pratica. Al contrario, ci chiediamo se l'editing 3D possa essere eseguito direttamente da una rete feed-forward, evitando l'ottimizzazione al momento del test. In particolare, ipotizziamo che l'editing possa essere notevolmente semplificato codificando prima gli oggetti 3D in uno spazio latente appropriato. Validiamo questa ipotesi basandoci sullo spazio latente di Shap-E. Dimostriamo che l'editing 3D diretto in questo spazio è possibile ed efficiente costruendo una rete editor feed-forward che richiede solo circa un secondo per modifica. I nostri esperimenti mostrano che Shap-Editor generalizza bene sia per asset 3D in-distribuzione che out-of-distribuzione con diversi prompt, mostrando prestazioni comparabili con metodi che eseguono l'ottimizzazione al momento del test per ogni istanza modificata.

TigerBot: Un Modello Linguistico Multilingue e Multitask Open Source
TigerBot: An Open Multilingual Multitask LLM

Dec 14

ByYe Chen, Wei Cai, Liangmin Wu, Xiaowei Li, Zhanxuan Xin, Cong Fu

Presentiamo e rilasciamo la famiglia di modelli linguistici di grandi dimensioni (LLM) TigerBot, composta da modelli base e di chat, con dimensioni che vanno da 7, 13, 70 e 180 miliardi di parametri. Sviluppiamo i nostri modelli partendo da Llama-2 e BLOOM, spingendo ulteriormente i confini in termini di dati, algoritmi di addestramento, infrastruttura e strumenti applicativi. I nostri modelli mostrano un significativo miglioramento delle prestazioni rispetto ai modelli open-source all'avanguardia (SOTA), come Llama-2, con un guadagno del 6% in inglese e del 20% in cinese. La famiglia di modelli TigerBot raggiunge anche prestazioni leader nei principali benchmark accademici e industriali e nelle classifiche. Crediamo che TigerBot rappresenti solo un'istantanea del progresso rapidissimo nella comunità open-source degli LLM. Pertanto, siamo entusiasti di contribuire rilasciando pubblicamente i nostri modelli e condividendo il nostro approccio, con un'attenzione particolare alla costruzione di LLM all'avanguardia in modo democratizzato e all'utilizzo degli LLM in applicazioni reali.

Aiutare o guidare? Gli ensemble di modelli di ricompensa mitigano ma non eliminano il fenomeno dell'hacking delle ricompense
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant