Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Magicoder, una serie di modelli linguistici di grandi dimensioni (LLM) per il codice completamente open-source (codice, pesi e dati) che riduce significativamente il divario con i migliori modelli per il codice pur avendo non più di 7 miliardi di parametri. I modelli Magicoder sono addestrati su 75.000 dati di istruzioni sintetiche utilizzando OSS-Instruct, un approccio innovativo che sfrutta snippet di codice open-source per illuminare gli LLM e generare dati di istruzioni di alta qualità per il codice. La nostra motivazione principale è mitigare il bias intrinseco dei dati sintetici generati dagli LLM, dotandoli di un'ampia gamma di riferimenti open-source per produrre dati più diversificati, realistici e controllabili. L'ortogonalità di OSS-Instruct rispetto ad altri metodi di generazione dati come Evol-Instruct ci consente inoltre di costruire un MagicoderS potenziato. Sia Magicoder che MagicoderS superano sostanzialmente i modelli per il codice all'avanguardia di dimensioni simili o persino maggiori in un'ampia gamma di benchmark di programmazione, tra cui la generazione di codice da testo in Python, la programmazione multilingue e il completamento di programmi di data science. In particolare, MagicoderS-CL-7B basato su CodeLlama supera persino il noto ChatGPT su HumanEval+ (66,5 contro 65,9 in pass@1). Nel complesso, OSS-Instruct apre una nuova direzione per il tuning delle istruzioni a basso bias e di alta qualità utilizzando abbondanti riferimenti open-source.
I modelli di diffusione text-to-video hanno fatto avanzare significativamente la generazione di video. Tuttavia, personalizzare questi modelli per generare video con movimenti specifici rappresenta una sfida considerevole. In particolare, incontrano difficoltà nel (a) riprodurre accuratamente il movimento da un video di riferimento e (b) creare variazioni visive diversificate. Ad esempio, estensioni dirette dei metodi di personalizzazione delle immagini statiche ai video spesso portano a intricati intrecci tra dati di aspetto e movimento. Per affrontare questo problema, presentiamo qui il framework Video Motion Customization (VMC), un approccio innovativo di ottimizzazione one-shot progettato per adattare i livelli di attenzione temporale all'interno dei modelli di diffusione video. Il nostro approccio introduce un nuovo obiettivo di distillazione del movimento utilizzando vettori residui tra frame consecutivi come riferimento di movimento. Il processo di diffusione preserva quindi le traiettorie di movimento a bassa frequenza, mitigando il rumore ad alta frequenza non correlato al movimento nello spazio delle immagini. Validiamo il nostro metodo confrontandolo con i migliori modelli generativi video in una varietà di movimenti e contesti del mondo reale. I nostri codici, dati e la demo del progetto sono disponibili su https://video-motion-customization.github.io.
Questo studio indaga la sintesi di immagini che preservano l'identità, un compito affascinante nella generazione di immagini che mira a mantenere l'identità di un soggetto mentre aggiunge un tocco stilistico personalizzato. Metodi tradizionali, come Textual Inversion e DreamBooth, hanno fatto progressi nella creazione di immagini personalizzate, ma presentano significativi inconvenienti. Questi includono la necessità di risorse e tempo estesi per il fine-tuning, nonché il requisito di più immagini di riferimento. Per superare queste sfide, la nostra ricerca introduce un nuovo approccio alla sintesi che preserva l'identità, con un particolare focus sulle immagini umane. Il nostro modello sfrutta un meccanismo di feed-forward diretto, evitando la necessità di un fine-tuning intensivo, facilitando così una generazione di immagini rapida ed efficiente. Al centro della nostra innovazione c'è un framework di guida ibrido, che combina immagini stilizzate, immagini facciali e prompt testuali per guidare il processo di generazione delle immagini. Questa combinazione unica consente al nostro modello di produrre una varietà di applicazioni, come ritratti artistici e immagini con identità miscelate. I nostri risultati sperimentali, inclusi sia valutazioni qualitative che quantitative, dimostrano la superiorità del nostro metodo rispetto ai modelli di base esistenti e ai lavori precedenti, in particolare per la sua notevole efficienza e capacità di preservare l'identità del soggetto con alta fedeltà.
Il processo di allineamento dei grandi modelli linguistici (LLM) coinvolge tipicamente l'apprendimento di istruzioni attraverso il fine-tuning supervisionato (SFT) e la regolazione delle preferenze tramite l'apprendimento per rinforzo basato sul feedback umano (RLHF). Uno studio recente, LIMA (Zhou et al. 2023), mostra che utilizzando appena 1.000 esempi per l'SFT è possibile ottenere comunque prestazioni significative di allineamento, suggerendo che l'effetto della regolazione dell'allineamento potrebbe essere "superficiale". Ciò solleva interrogativi su come esattamente la regolazione dell'allineamento trasformi un LLM di base. Analizziamo l'effetto della regolazione dell'allineamento esaminando lo spostamento della distribuzione dei token tra gli LLM di base e le loro controparti allineate. I nostri risultati rivelano che gli LLM di base e le loro versioni allineate si comportano in modo quasi identico nella decodifica sulla maggior parte delle posizioni dei token. La maggior parte degli spostamenti di distribuzione si verifica con token stilistici. Queste evidenze dirette supportano fortemente l'Ipotesi di Allineamento Superficiale suggerita da LIMA. Sulla base di questi risultati, ripensiamo all'allineamento degli LLM ponendo la domanda di ricerca: quanto efficacemente possiamo allineare gli LLM di base senza SFT o RLHF? Per affrontare questo problema, introduciamo un metodo semplice e senza regolazione, URIAL. URIAL raggiunge un allineamento efficace esclusivamente attraverso l'apprendimento contestuale (ICL) con LLM di base, richiedendo appena tre esempi stilistici costanti e un prompt di sistema. Eseguiamo una valutazione granulare e interpretabile su un insieme diversificato di esempi, denominato JUST-EVAL-INSTRUCT. I risultati dimostrano che gli LLM di base con URIAL possono eguagliare o addirittura superare le prestazioni degli LLM allineati con SFT o SFT+RLHF. Mostriamo che il divario tra i metodi di allineamento senza regolazione e quelli basati sulla regolazione può essere significativamente ridotto attraverso prompt strategici e ICL. Le nostre scoperte sulla natura superficiale della regolazione dell'allineamento e i risultati con URIAL suggeriscono che un'analisi più approfondita e una comprensione teorica dell'allineamento sono cruciali per la futura ricerca sugli LLM.
I modelli di diffusione hanno recentemente ottenuto un'attenzione senza precedenti nel campo della sintesi di immagini grazie alle loro straordinarie capacità generative. Nonostante la loro potenza, questi modelli spesso comportano costi computazionali significativi, principalmente attribuiti al processo sequenziale di rimozione del rumore e alle dimensioni ingombranti del modello. I metodi tradizionali per comprimere i modelli di diffusione tipicamente richiedono un ampio riaddestramento, presentando sfide in termini di costi e fattibilità. In questo articolo, introduciamo DeepCache, un nuovo paradigma senza necessità di addestramento che accelera i modelli di diffusione dal punto di vista dell'architettura del modello. DeepCache sfrutta la ridondanza temporale intrinseca osservata nei passaggi sequenziali di rimozione del rumore dei modelli di diffusione, memorizzando e recuperando le caratteristiche attraverso fasi adiacenti di rimozione del rumore, riducendo così i calcoli ridondanti. Utilizzando le proprietà della U-Net, riutilizziamo le caratteristiche di alto livello mentre aggiorniamo quelle di basso livello in modo molto economico. Questa strategia innovativa consente un fattore di accelerazione di 2,3 volte per Stable Diffusion v1.5 con solo un calo di 0,05 nel CLIP Score, e di 4,1 volte per LDM-4-G con una leggera diminuzione di 0,22 nell'FID su ImageNet. I nostri esperimenti dimostrano anche la superiorità di DeepCache rispetto ai metodi esistenti di pruning e distillazione che richiedono riaddestramento, e la sua compatibilità con le tecniche di campionamento attuali. Inoltre, scopriamo che con la stessa velocità di elaborazione, DeepCache raggiunge risultati comparabili o addirittura leggermente migliori con DDIM o PLMS. Il codice è disponibile all'indirizzo https://github.com/horseee/DeepCache.
L'editing video basato su modelli di diffusione attualmente si concentra principalmente sull'editing che preserva la struttura, utilizzando varie corrispondenze dense per garantire la coerenza temporale e l'allineamento del movimento. Tuttavia, questi approcci si rivelano spesso inefficaci quando la modifica desiderata comporta un cambiamento di forma. Per affrontare l'editing video con cambiamenti di forma, in questo lavoro esploriamo lo scambio personalizzato di soggetti video, dove l'obiettivo è sostituire il soggetto principale in un video sorgente con un soggetto target che ha un'identità distinta e potenzialmente una forma diversa. A differenza dei metodi precedenti che si basano su corrispondenze dense, introduciamo il framework VideoSwap che sfrutta corrispondenze di punti semantici, ispirati dalla nostra osservazione che solo un piccolo numero di punti semantici è necessario per allineare la traiettoria del movimento del soggetto e modificarne la forma. Introduciamo inoltre varie interazioni utente-punti (\eg, rimozione di punti e trascinamento di punti) per gestire diverse corrispondenze di punti semantici. Esperimenti estensivi dimostrano risultati all'avanguardia nello scambio di soggetti video su una varietà di video del mondo reale.
Proponiamo un metodo per dotare in modo efficiente il Segment Anything Model (SAM) della capacità di generare didascalie regionali. SAM presenta una forte generalizzabilità nel segmentare qualsiasi cosa, ma è carente nella comprensione semantica. Introducendo un miscelatore di feature basato su query leggero, allineiamo le feature specifiche della regione con lo spazio di embedding dei modelli linguistici per la successiva generazione di didascalie. Poiché il numero di parametri addestrabili è ridotto (tipicamente nell'ordine delle decine di milioni), ciò comporta un minor costo computazionale, un minor utilizzo di memoria e una minore larghezza di banda di comunicazione, risultando in un addestramento sia veloce che scalabile. Per affrontare il problema della scarsità di dati di didascalie regionali, proponiamo di pre-addestrare prima il nostro modello su compiti di rilevamento e segmentazione di oggetti. Chiamiamo questo passaggio pre-addestramento con supervisione debole poiché i dati di pre-addestramento contengono solo nomi di categorie invece di descrizioni complete. Il pre-addestramento con supervisione debole ci consente di sfruttare molti dataset pubblicamente disponibili per il rilevamento e la segmentazione di oggetti. Condividiamo esperimenti estesi per dimostrare la superiorità del nostro metodo e convalidare ogni scelta progettuale. Questo lavoro rappresenta un passo avanti verso l'ampliamento dei dati di didascalie regionali e getta luce sull'esplorazione di modi efficienti per arricchire SAM con semantica regionale. La pagina del progetto, insieme al codice associato, può essere consultata al seguente link: https://xk-huang.github.io/segment-caption-anything/.
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è emerso come il paradigma principale per allineare i grandi modelli linguistici (LLM) alle preferenze umane. Tipicamente, l'RLHF prevede un passaggio iniziale di apprendimento di un modello di ricompensa dal feedback umano, spesso espresso come preferenze tra coppie di generazioni di testo prodotte da un LLM pre-addestrato. Successivamente, la politica dell'LLM viene affinata ottimizzandola per massimizzare il modello di ricompensa attraverso un algoritmo di apprendimento per rinforzo. Tuttavia, una limitazione intrinseca dei modelli di ricompensa attuali è la loro incapacità di rappresentare appieno la ricchezza delle preferenze umane e la loro dipendenza dalla distribuzione di campionamento. In questo studio, introduciamo una pipeline alternativa per l'affinamento degli LLM utilizzando il feedback umano a coppie. Il nostro approccio prevede l'apprendimento iniziale di un modello di preferenza, che è condizionato su due input dati un prompt, seguito dalla ricerca di una politica che genera costantemente risposte preferite rispetto a quelle generate da qualsiasi altra politica concorrente, definendo così l'equilibrio di Nash di questo modello di preferenza. Definiamo questo approccio come apprendimento di Nash basato sul feedback umano (NLHF). Nel contesto di una rappresentazione tabulare della politica, presentiamo una nuova soluzione algoritmica, Nash-MD, basata sui principi della discesa speculare. Questo algoritmo produce una sequenza di politiche, con l'ultima iterazione che converge all'equilibrio di Nash regolarizzato. Inoltre, esploriamo rappresentazioni parametriche delle politiche e introduciamo algoritmi di discesa del gradiente per architetture di deep learning. Per dimostrare l'efficacia del nostro approccio, presentiamo risultati sperimentali relativi all'affinamento di un LLM per un'attività di riassunto di testo. Crediamo che l'NLHF offra una prospettiva convincente per l'apprendimento delle preferenze e l'ottimizzazione delle politiche, con il potenziale di far progredire il campo dell'allineamento degli LLM alle preferenze umane.
Nonostante i recenti progressi nella generazione di video da testo, gli studi esistenti spesso trascurano il fatto che nei video sintetizzati solo i contenuti spaziali, e non i movimenti temporali, sono controllati dal testo. Per affrontare questa sfida, questo lavoro presenta un sistema pratico, denominato LivePhoto, che consente agli utenti di animare un'immagine di loro interesse con descrizioni testuali. Inizialmente, stabiliamo una solida baseline che permette a un generatore testo-immagine ben addestrato (ad esempio, Stable Diffusion) di accettare un'immagine come input aggiuntivo. Successivamente, dotiamo il generatore migliorato di un modulo di movimento per la modellazione temporale e proponiamo una pipeline di addestramento accuratamente progettata per collegare meglio testi e movimenti. In particolare, considerando i fatti che (1) il testo può descrivere i movimenti solo in modo approssimativo (ad esempio, senza considerare la velocità di movimento) e (2) il testo può includere sia descrizioni di contenuti che di movimenti, introduciamo un modulo di stima dell'intensità del movimento e un modulo di ri-ponderazione del testo per ridurre l'ambiguità nella mappatura testo-movimento. Le evidenze empiriche suggeriscono che il nostro approccio è in grado di decodificare efficacemente le istruzioni testuali relative al movimento in video, come azioni, movimenti della fotocamera o persino evocare nuovi contenuti dal nulla (ad esempio, versare acqua in un bicchiere vuoto). Interessante è il fatto che, grazie al meccanismo di apprendimento dell'intensità proposto, il nostro sistema offre agli utenti un segnale di controllo aggiuntivo (ovvero, l'intensità del movimento) oltre al testo per la personalizzazione del video.
I modelli di diffusione, con la loro potente espressività e l'elevata qualità dei campioni, hanno abilitato molte nuove applicazioni e casi d'uso in vari domini. Per la generazione di campioni, questi modelli si basano su una rete neurale di denoising che genera immagini attraverso un processo iterativo di rimozione del rumore. Tuttavia, il ruolo dell'architettura della rete di denoising non è stato ampiamente studiato, con la maggior parte degli sforzi che si affidano a U-Net residuali convoluzionali. In questo articolo, studiamo l'efficacia dei vision transformer nell'apprendimento generativo basato sulla diffusione. Nello specifico, proponiamo un nuovo modello, denominato Diffusion Vision Transformers (DiffiT), che consiste in un'architettura ibrida gerarchica con un encoder e un decoder a forma di U. Introduciamo un nuovo modulo di self-attention dipendente dal tempo che consente ai livelli di attenzione di adattare il loro comportamento in diverse fasi del processo di denoising in modo efficiente. Introduciamo anche il DiffiT latente, che consiste in un modello transformer con i livelli di self-attention proposti, per la generazione di immagini ad alta risoluzione. I nostri risultati mostrano che DiffiT è sorprendentemente efficace nella generazione di immagini ad alta fedeltà e raggiunge benchmark state-of-the-art (SOTA) in una varietà di task di sintesi condizionata e non condizionata. Nello spazio latente, DiffiT raggiunge un nuovo punteggio SOTA FID di 1.73 sul dataset ImageNet-256. Repository: https://github.com/NVlabs/DiffiT
In che modo due insiemi di immagini differiscono? Discernere le differenze a livello di insieme è cruciale per comprendere i comportamenti dei modelli e analizzare i dataset, tuttavia esaminare manualmente migliaia di immagini è impraticabile. Per facilitare questo processo di scoperta, esploriamo il compito di descrivere automaticamente le differenze tra due insiemi di immagini, che definiamo Set Difference Captioning. Questo compito prende in input due insiemi di immagini D_A e D_B e produce una descrizione che è più spesso vera su D_A rispetto a D_B. Proponiamo un approccio in due fasi che prima genera descrizioni candidate delle differenze dagli insiemi di immagini e poi le riordina verificando quanto bene riescono a distinguere i due insiemi. Introduciamo VisDiff, che prima descrive le immagini e sollecita un modello linguistico a proporre descrizioni candidate, poi riordina queste descrizioni utilizzando CLIP. Per valutare VisDiff, raccogliamo VisDiffBench, un dataset con 187 coppie di insiemi di immagini con descrizioni delle differenze di riferimento. Applichiamo VisDiff a vari domini, come il confronto tra dataset (ad esempio, ImageNet vs. ImageNetV2), il confronto tra modelli di classificazione (ad esempio, CLIP zero-shot vs. ResNet supervisionato), la sintesi delle modalità di fallimento dei modelli (ResNet supervisionato), la caratterizzazione delle differenze tra modelli generativi (ad esempio, StableDiffusionV1 e V2) e la scoperta di ciò che rende le immagini memorabili. Utilizzando VisDiff, siamo in grado di trovare differenze interessanti e precedentemente sconosciute nei dataset e nei modelli, dimostrando la sua utilità nel rivelare intuizioni sfumate.
I riordinatori listwise basati su modelli linguistici di grandi dimensioni (LLM) rappresentano lo stato dell'arte in modalità zero-shot. Tuttavia, i lavori attuali in questa direzione dipendono tutti dai modelli GPT, rendendoli un punto di fallimento unico nella riproducibilità scientifica. Inoltre, sollevano il dubbio che i risultati della ricerca attuale siano validi solo per i modelli GPT e non per gli LLM in generale. In questo lavoro, rimuoviamo questa precondizione e costruiamo per la prima volta riordinatori listwise efficaci senza alcuna forma di dipendenza da GPT. I nostri esperimenti di recupero di passaggi dimostrano che il nostro miglior riordinatore listwise supera quelli basati su GPT-3.5 del 13% e raggiunge il 97% dell'efficacia di quelli costruiti su GPT-4. I nostri risultati mostrano anche che i dataset di addestramento esistenti, costruiti espressamente per il ranking pointwise, sono insufficienti per costruire tali riordinatori listwise. Invece, sono necessari e cruciali dati di ranking listwise di alta qualità, richiedendo ulteriori lavori per la costruzione di risorse dati listwise annotate manualmente.
Con i recenti e significativi progressi nei grandi modelli multi-modali (LMM), l'importanza della loro capacità di grounding nel contesto del visual chat è sempre più riconosciuta. Nonostante i recenti sforzi per consentire agli LMM di supportare il grounding, le loro capacità di grounding e chat sono solitamente separate, e le prestazioni nella chat diminuiscono drasticamente quando viene richiesto il grounding. Il problema risiede nella mancanza di un dataset per il grounded visual chat (GVC). I dataset esistenti per il grounding contengono solo brevi didascalie. Per affrontare questa questione, abbiamo creato dati GVC che consentono la combinazione delle capacità di grounding e chat. Per valutare meglio le capacità GVC, abbiamo introdotto un benchmark chiamato Grounding-Bench. Inoltre, abbiamo proposto un design di modello che può supportare il GVC e vari tipi di prompt visivi collegando modelli di segmentazione con modelli linguistici. I risultati sperimentali dimostrano che il nostro modello supera altri LMM su Grounding-Bench. Inoltre, il nostro modello raggiunge prestazioni competitive su benchmark classici di grounding come RefCOCO/+/g e Flickr30K Entities. Il nostro codice sarà rilasciato su https://github.com/UX-Decoder/LLaVA-Grounding.
Presentiamo un approccio che formula il riconoscimento di oggetti come previsione del token successivo. L'idea è applicare un decodificatore linguistico che prevede in modo auto-regressivo i token testuali a partire dagli embedding delle immagini per formare le etichette. Per ancorare questo processo di previsione all'auto-regressione, personalizziamo una maschera di attenzione non causale per il decodificatore, incorporando due caratteristiche chiave: modellare i token provenienti da etichette diverse come indipendenti e trattare i token delle immagini come un prefisso. Questo meccanismo di mascheramento ispira un metodo efficiente - campionamento one-shot - per campionare simultaneamente in parallelo i token di più etichette e classificare le etichette generate in base alle loro probabilità durante l'inferenza. Per migliorare ulteriormente l'efficienza, proponiamo una strategia semplice per costruire un decodificatore compatto scartando semplicemente i blocchi intermedi di un modello linguistico preaddestrato. Questo approccio produce un decodificatore che eguaglia le prestazioni del modello completo pur essendo notevolmente più efficiente. Il codice è disponibile all'indirizzo https://github.com/kaiyuyue/nxtp.
Presentiamo un nuovo approccio, denominato GPS-Gaussian, per sintetizzare nuove viste di un personaggio in tempo reale. Il metodo proposto consente il rendering a risoluzione 2K in un contesto di acquisizione con telecamere a vista sparsa. A differenza dei metodi originali di Gaussian Splatting o del rendering neurale implicito che richiedono ottimizzazioni specifiche per ogni soggetto, introduciamo mappe di parametri Gaussiani definite sulle viste sorgente e regrediamo direttamente le proprietà del Gaussian Splatting per la sintesi istantanea di nuove viste senza alcuna messa a punto o ottimizzazione. A tal fine, addestriamo il nostro modulo di regressione dei parametri Gaussiani su una vasta quantità di dati di scansione umana, insieme a un modulo di stima della profondità per sollevare le mappe di parametri 2D nello spazio 3D. Il framework proposto è completamente differenziabile e gli esperimenti su diversi dataset dimostrano che il nostro metodo supera gli approcci all'avanguardia, raggiungendo una velocità di rendering eccezionale.
La generazione di video da testo ha mostrato risultati promettenti. Tuttavia, utilizzando solo linguaggi naturali come input, gli utenti spesso incontrano difficoltà nel fornire informazioni dettagliate per controllare con precisione l'output del modello. In questo lavoro, proponiamo la generazione di video controllabile a livello fine (FACTOR) per ottenere un controllo dettagliato. Nello specifico, FACTOR mira a controllare l'aspetto e il contesto degli oggetti, inclusa la loro posizione e categoria, in combinazione con il prompt testuale. Per ottenere un controllo dettagliato, proponiamo un framework unificato per iniettare congiuntamente segnali di controllo nel modello esistente di generazione di video da testo. Il nostro modello è composto da un encoder congiunto e strati di cross-attention adattivi. Ottimizzando l'encoder e lo strato inserito, adattiamo il modello per generare video allineati sia con i prompt testuali che con il controllo fine. Rispetto ai metodi esistenti che si basano su segnali di controllo densi come mappe di contorno, forniamo un'interfaccia più intuitiva e user-friendly per consentire un controllo fine a livello di oggetto. Il nostro metodo raggiunge la controllabilità dell'aspetto degli oggetti senza fine-tuning, riducendo gli sforzi di ottimizzazione per soggetto da parte degli utenti. Esperimenti estesi su dataset di benchmark standard e input forniti dagli utenti validano che il nostro modello ottiene un miglioramento del 70% nelle metriche di controllabilità rispetto alle baseline competitive.
Introduciamo i trasformatori generativi a vocabolario infinito (GIVT) che generano sequenze di vettori con valori reali, anziché token discreti provenienti da un vocabolario finito. A tal fine, proponiamo due modifiche sorprendentemente semplici ai trasformatori di tipo decoder-only: 1) all'ingresso, sostituiamo la tabella di ricerca a vocabolario finito con una proiezione lineare dei vettori di input; e 2) all'uscita, sostituiamo la previsione dei logit (solitamente mappata a una distribuzione categorica) con i parametri di un modello di miscela gaussiana multivariato. Ispirati dal paradigma di generazione di immagini di VQ-GAN e MaskGIT, in cui i trasformatori sono utilizzati per modellare le sequenze latenti discrete di un VQ-VAE, utilizziamo GIVT per modellare le sequenze latenti a valori reali non quantizzate di un VAE. Applicando GIVT alla generazione di immagini condizionata alla classe con modellazione iterativa mascherata, mostriamo risultati competitivi rispetto a MaskGIT, mentre il nostro approccio supera sia VQ-GAN che MaskGIT quando utilizzato per la modellazione causale. Infine, otteniamo risultati competitivi al di fuori della generazione di immagini applicando il nostro approccio alla segmentazione panottica e alla stima della profondità con una variante basata su VAE del framework UViM.
La sintesi di nuove viste da un video in condizioni reali è difficile a causa di sfide come la dinamicità della scena e la mancanza di parallasse. Sebbene i metodi esistenti abbiano mostrato risultati promettenti con campi di radianza neurali impliciti, sono lenti nell'addestramento e nel rendering. Questo articolo riprende le rappresentazioni video esplicite per sintetizzare in modo efficiente nuove viste di alta qualità da un video monoculare. Trattiamo separatamente il contenuto statico e dinamico del video. Nello specifico, costruiamo un modello globale della scena statica utilizzando una rappresentazione della scena basata su piani estesa per sintetizzare un video coerente temporalmente. La nostra rappresentazione della scena basata su piani è arricchita con armoniche sferiche e mappe di spostamento per catturare effetti dipendenti dalla vista e modellare geometrie superficiali complesse non piane. Optiamo per rappresentare il contenuto dinamico come nuvole di punti per fotogramma per efficienza. Sebbene tali rappresentazioni siano soggette a incoerenze, piccole incoerenze temporali sono mascherate percettivamente a causa del movimento. Sviluppiamo un metodo per stimare rapidamente tale rappresentazione video ibrida e renderizzare nuove viste in tempo reale. I nostri esperimenti mostrano che il nostro metodo può renderizzare nuove viste di alta qualità da un video in condizioni reali con una qualità comparabile ai metodi all'avanguardia, essendo 100 volte più veloce nell'addestramento e consentendo il rendering in tempo reale.
I tradizionali strumenti di creazione di contenuti 3D consentono agli utenti di dare vita alla propria immaginazione fornendo loro un controllo diretto sulla geometria, l'aspetto, il movimento e il percorso della telecamera di una scena. Tuttavia, la creazione di video generati al computer è un processo manuale tedioso, che può essere automatizzato dai modelli di diffusione testo-video emergenti. Nonostante le grandi promesse, i modelli di diffusione video sono difficili da controllare, ostacolando l'utente nell'applicare la propria creatività piuttosto che amplificarla. Per affrontare questa sfida, presentiamo un approccio innovativo che combina la controllabilità delle mesh 3D dinamiche con l'espressività e l'editabilità dei modelli di diffusione emergenti. A tal fine, il nostro approccio prende in input una mesh animata e renderizzata a bassa fedeltà e inietta le informazioni di corrispondenza della verità di base ottenute dalla mesh dinamica in varie fasi di un modello pre-addestrato di generazione di immagini da testo, per produrre fotogrammi di alta qualità e temporalmente coerenti. Dimostriamo il nostro approccio su vari esempi in cui il movimento può essere ottenuto animando asset riggati o modificando il percorso della telecamera.
I modelli linguistici di grandi dimensioni (LLM) risolvono i problemi in modo più accurato e interpretabile quando vengono istruiti a elaborare la risposta passo dopo passo utilizzando un prompt a "catena di pensiero" (CoT). È anche possibile migliorare le prestazioni degli LLM su un compito specifico attraverso la messa a punto supervisionata, ovvero utilizzando l'ascesa del gradiente su alcuni parametri regolabili per massimizzare la log-verosimiglianza media delle risposte corrette da un insieme di addestramento etichettato. Combinare in modo ingenuo il CoT con la messa a punto supervisionata richiede non solo la supervisione delle risposte corrette, ma anche delle ragioni dettagliate che portano a tali risposte; queste ragioni sono costose da produrre manualmente. Proponiamo invece una strategia di messa a punto che cerca di massimizzare la log-verosimiglianza marginale di generare una risposta corretta utilizzando il prompting CoT, approssimando la media su tutte le possibili ragioni. La sfida principale è campionare dalla distribuzione a posteriori sulle ragioni condizionata alla risposta corretta; affrontiamo questo problema utilizzando un semplice algoritmo di massimizzazione delle aspettazioni (EM) basato su catene di Markov Monte Carlo (MCMC), ispirato dal ragionatore auto-apprendente (STaR), dal metodo memoized wake-sleep, dalla scalata del punteggio markoviano e dalla divergenza contrastiva persistente. Questo algoritmo ammette anche una nuova tecnica di controllo delle variabili che riduce la varianza delle nostre stime del gradiente a zero man mano che il modello migliora. Applicando la nostra tecnica a GSM8K e ai compiti di BIG-Bench Hard, scopriamo che questa tecnica di messa a punto MCMC-EM migliora tipicamente l'accuratezza del modello sugli esempi di test più di STaR o del prompt-tuning con o senza CoT.
Nel campo della generazione da testo a 3D, l'utilizzo di modelli di diffusione 2D attraverso il campionamento per distillazione del punteggio (SDS) spesso porta a problemi come aspetti sfocati e geometrie multi-facciali, principalmente a causa della natura intrinsecamente rumorosa della perdita SDS. La nostra analisi identifica il cuore di queste sfide nell'interazione tra i livelli di rumore nel processo di diffusione 2D, l'architettura della rete di diffusione e la rappresentazione del modello 3D. Per superare queste limitazioni, presentiamo StableDreamer, una metodologia che incorpora tre avanzamenti. Innanzitutto, ispirati da InstructNeRF2NeRF, formalizziamo l'equivalenza del prior generativo SDS e di una semplice perdita di ricostruzione L2 supervisionata. Questa scoperta fornisce un nuovo strumento per il debug di SDS, che utilizziamo per mostrare l'impatto dei livelli di rumore con annealing temporale sulla riduzione delle geometrie multi-facciali. In secondo luogo, la nostra analisi dimostra che mentre la diffusione nello spazio delle immagini contribuisce alla precisione geometrica, la diffusione nello spazio latente è cruciale per una resa cromatica vivida. Sulla base di questa osservazione, StableDreamer introduce una strategia di addestramento in due fasi che combina efficacemente questi aspetti, ottenendo modelli 3D ad alta fedeltà. In terzo luogo, adottiamo una rappresentazione anisotropa di Gaussiane 3D, sostituendo i Campi di Radianza Neurale (NeRF), per migliorare la qualità complessiva, ridurre l'uso della memoria durante l'addestramento, accelerare le velocità di rendering e catturare meglio oggetti semi-trasparenti. StableDreamer riduce le geometrie multi-facciali, genera dettagli fini e converge in modo stabile.
I modelli su larga scala di Text-to-Image (T2I) hanno rapidamente acquisito importanza in vari ambiti creativi, generando output visivamente accattivanti a partire da prompt testuali. Tuttavia, controllare questi modelli per garantire uno stile coerente rimane una sfida, con i metodi esistenti che richiedono fine-tuning e interventi manuali per separare contenuto e stile. In questo articolo, introduciamo StyleAligned, una tecnica innovativa progettata per stabilire un allineamento stilistico tra una serie di immagini generate. Utilizzando un minimo di "condivisione dell'attenzione" durante il processo di diffusione, il nostro metodo mantiene la coerenza stilistica tra le immagini all'interno dei modelli T2I. Questo approccio consente la creazione di immagini con stile coerente utilizzando uno stile di riferimento attraverso una semplice operazione di inversione. La valutazione del nostro metodo su una varietà di stili e prompt testuali dimostra una sintesi di alta qualità e fedeltà, evidenziando la sua efficacia nel raggiungere uno stile coerente su vari input.
La segmentazione interattiva 3D nei campi di radianza è un compito affascinante data la sua importanza nella comprensione e manipolazione delle scene 3D. Tuttavia, i metodi esistenti affrontano sfide nel raggiungere una segmentazione fine e multi-granularità o nel gestire un sovraccarico computazionale significativo, impedendo un'interazione in tempo reale. In questo articolo, introduciamo Segment Any 3D GAussians (SAGA), un nuovo approccio di segmentazione interattiva 3D che combina armoniosamente un modello di base di segmentazione 2D con il 3D Gaussian Splatting (3DGS), una recente innovazione nei campi di radianza. SAGA incorpora in modo efficiente i risultati di segmentazione 2D multi-granularità generati dal modello di base di segmentazione nelle caratteristiche dei punti 3D Gaussian attraverso un addestramento contrastivo ben progettato. La valutazione su benchmark esistenti dimostra che SAGA può raggiungere prestazioni competitive con i metodi all'avanguardia. Inoltre, SAGA realizza una segmentazione multi-granularità e si adatta a vari prompt, inclusi punti, scarabocchi e maschere 2D. È degno di nota che SAGA possa completare la segmentazione 3D in millisecondi, ottenendo un'accelerazione di quasi 1000x rispetto ai precedenti SOTA. La pagina del progetto è disponibile all'indirizzo https://jumpat.github.io/SAGA.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno eccelso nella comprensione e generazione di immagini 2D e testo, ma la loro comprensione del mondo 3D è notevolmente carente, limitando i progressi nella comprensione e generazione del linguaggio 3D. Per risolvere questo problema, introduciamo GPT4Point, un innovativo modello multimodale punto-linguistico progettato specificamente per la comprensione e generazione unificata di oggetti 3D all'interno del framework MLLM. GPT4Point, come potente MLLM 3D, può eseguire senza soluzione di continuità una varietà di task di riferimento punto-testo come la descrizione di nuvole di punti e domande e risposte. Inoltre, GPT4Point è dotato di capacità avanzate per la generazione controllata di contenuti 3D, ottenendo risultati di alta qualità attraverso caratteristiche punto-testo di bassa qualità, mantenendo le forme geometriche e i colori. Per supportare le ampie esigenze di coppie oggetto-testo 3D, abbiamo sviluppato Pyramid-XL, un motore di annotazione di dataset punto-linguistico. Esso costruisce un database su larga scala con oltre 1 milione di oggetti di vari livelli di granularità testuale dal dataset Objaverse-XL, essenziale per l'addestramento di GPT4Point. È stato proposto un benchmark completo per valutare le capacità di comprensione punto-linguistico 3D. In valutazioni estensive, GPT4Point ha dimostrato prestazioni superiori nella comprensione e generazione.
Le straordinarie capacità dei grandi modelli linguistici (LLM) come GPT-4 derivano in parte da processi di post-addestramento come il Reinforcement Learning from Human Feedback (RLHF), che coinvolge preferenze umane codificate in un modello di ricompensa. Tuttavia, questi modelli di ricompensa (RM) spesso non possiedono una conoscenza diretta del perché, o in base a quali principi, siano state effettuate le annotazioni delle preferenze. In questo studio, identifichiamo i principi che guidano i RM per allinearli meglio alle preferenze umane, e sviluppiamo quindi un framework assiomatico per generare una varietà ricca di segnali di preferenza che li sostengano. Utilizziamo questi segnali assiomatici per addestrare un modello per valutare le risposte a domande di tipo longform. Il nostro approccio produce un Modello di Preferenza con soli circa 220 milioni di parametri che concorda con le etichette di preferenza annotate da esseri umani più spesso rispetto a GPT-4. I contributi di questo lavoro includono: l'addestramento di un modello di preferenza autonomo in grado di valutare risposte generate da esseri umani e da LLM sulla stessa scala; lo sviluppo di un framework assiomatico per generare coppie di dati di addestramento personalizzate per determinati principi; e la dimostrazione che una piccola quantità di segnali assiomatici può aiutare modelli di piccole dimensioni a superare GPT-4 nella valutazione delle preferenze. Rilasciamo il nostro modello su huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
I Neural Radiance Fields (NeRFs) eccellono nel rendering fotorealistico di scene statiche. Tuttavia, il rendering di campi di radianza dinamici e di lunga durata su dispositivi ubiqui rimane una sfida, a causa dei vincoli di archiviazione dei dati e di calcolo. In questo articolo, introduciamo VideoRF, il primo approccio che consente lo streaming e il rendering in tempo reale di campi di radianza dinamici su piattaforme mobili. Al centro di questo approccio c'è un flusso serializzato di immagini di feature 2D che rappresenta il campo di radianza 4D in un'unica soluzione. Introduciamo uno schema di training specifico applicato direttamente a questo dominio 2D per imporre la ridondanza temporale e spaziale del flusso di immagini di feature. Sfruttando questa ridondanza, dimostriamo che il flusso di immagini di feature può essere compresso in modo efficiente utilizzando codec video 2D, il che ci permette di sfruttare gli acceleratori hardware video per ottenere una decodifica in tempo reale. D'altra parte, basandoci sul flusso di immagini di feature, proponiamo una nuova pipeline di rendering per VideoRF, che utilizza mappature spaziali specializzate per interrogare in modo efficiente le proprietà di radianza. Abbinato a un modello di shading differito, VideoRF è in grado di eseguire il rendering in tempo reale su dispositivi mobili grazie alla sua efficienza. Abbiamo sviluppato un lettore interattivo in tempo reale che consente lo streaming e il rendering online di scene dinamiche, offrendo un'esperienza fluida e immersiva di visualizzazione libera su una gamma di dispositivi, dai desktop ai telefoni cellulari.
Presentiamo un metodo che utilizza un modello text-to-image per generare contenuti coerenti su più scale di immagine, consentendo zoom semantici estremi all'interno di una scena, ad esempio passando da una vista panoramica di un paesaggio forestale a un'immagine macro di un insetto posato su uno dei rami degli alberi. Raggiungiamo questo obiettivo attraverso un approccio di campionamento diffusion congiunto su più scale che promuove la coerenza tra le diverse scale preservando l'integrità di ciascun processo di campionamento individuale. Poiché ogni scala generata è guidata da un prompt testuale diverso, il nostro metodo consente livelli di zoom più profondi rispetto ai tradizionali metodi di super-risoluzione, che possono avere difficoltà a creare nuova struttura contestuale su scale molto diverse. Confrontiamo qualitativamente il nostro metodo con tecniche alternative nella super-risoluzione e nell'outpainting di immagini, dimostrando che il nostro approccio è più efficace nella generazione di contenuti coerenti su più scale.
L'addestramento su più modalità di input può potenziare le capacità di un modello linguistico. In questo lavoro, ci chiediamo se un tale regime di addestramento possa anche migliorare la qualità e l'efficienza di questi sistemi. Ci concentriamo sulla combinazione testo-audio e introduciamo Whisbert, ispirato dall'approccio testo-immagine di FLAVA (singh_flava_2022). In conformità con le linee guida di Babylm (warstadt2023papers), pre-addestriamo Whisbert su un dataset composto da soli 100 milioni di parole, più i corrispondenti segmenti audio tratti dalla versione allineata delle parole del dataset People's Speech (galvez_peoples_2021). Per valutare l'impatto della multimodalità, confrontiamo versioni del modello addestrate solo su testo e su entrambe le modalità audio e testo simultaneamente. Scopriamo che, sebbene Whisbert sia in grado di ottenere buoni risultati nel masked modeling multimodale e superi i benchmark di Babylm nella maggior parte dei task, fatica a ottimizzare il suo obiettivo complesso e a superare la sua baseline Whisbert addestrata solo su testo.
Questo articolo migliora l'image-GPT (iGPT), uno dei lavori pionieristici che introduce il pre-addestramento autoregressivo per prevedere i pixel successivi nell'apprendimento di rappresentazioni visive. Vengono apportate due modifiche semplici ma essenziali. Innanzitutto, spostiamo l'obiettivo di previsione dai pixel grezzi ai token semantici, consentendo una comprensione di livello superiore del contenuto visivo. In secondo luogo, integriamo la modellazione autoregressiva istruendo il modello a prevedere non solo i token successivi ma anche i token visibili. Questa pipeline è particolarmente efficace quando i token semantici sono codificati da modelli addestrati in modo discriminativo, come CLIP. Introduciamo questo approccio innovativo come D-iGPT. Esperimenti estesi dimostrano che D-iGPT eccelle come un forte apprenditore di rappresentazioni visive: un risultato degno di nota di D-iGPT è la sua prestazione convincente sul dataset ImageNet-1K — addestrando su dataset pubblicamente disponibili, D-iGPT raggiunge un'accuratezza top-1 del 89,5% con un semplice modello ViT-Large. Questo modello mostra anche una forte generalizzazione sul task downstream e robustezza su campioni fuori distribuzione. Il codice è disponibile all'indirizzo https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
Recentemente, il Segment Anything Model (SAM) ha dimostrato capacità eccezionali nella segmentazione zero-shot, mentre NeRF (Neural Radiance Fields) ha guadagnato popolarità come metodo per vari problemi 3D oltre alla sintesi di nuove viste. Sebbene esistano tentativi iniziali di integrare questi due metodi nella segmentazione 3D, essi affrontano la sfida di segmentare oggetti in modo accurato e coerente in scenari complessi. In questo articolo, introduciamo il Segment Anything for NeRF in High Quality (SANeRF-HQ) per ottenere una segmentazione 3D di alta qualità di qualsiasi oggetto in una scena data. SANeRF-HQ utilizza SAM per la segmentazione di oggetti in un contesto aperto guidata da prompt forniti dall'utente, sfruttando al contempo NeRF per aggregare informazioni da diverse prospettive. Per superare le sfide menzionate, impieghiamo il campo di densità e la similarità RGB per migliorare l'accuratezza del confine di segmentazione durante l'aggregazione. Concentrandoci sull'accuratezza della segmentazione, valutiamo il nostro metodo quantitativamente su più dataset NeRF dove sono disponibili o annotati manualmente ground-truth di alta qualità. SANeRF-HQ mostra un significativo miglioramento della qualità rispetto ai precedenti metodi all'avanguardia nella segmentazione di oggetti NeRF, offre una maggiore flessibilità per la localizzazione degli oggetti e consente una segmentazione più coerente degli oggetti attraverso più viste. Ulteriori informazioni sono disponibili all'indirizzo https://lyclyc52.github.io/SANeRF-HQ/.
I grandi modelli linguistici (LLM) hanno attirato un enorme interesse per applicazioni pratiche, grazie alle loro risposte sempre più accurate e alle capacità di ragionamento coerente. Data la loro natura di scatole nere che utilizzano processi di ragionamento complessi sugli input, è inevitabile che la richiesta di spiegazioni scalabili e fedeli per i contenuti generati dagli LLM continui a crescere. Negli ultimi dieci anni ci sono stati importanti sviluppi nell'interpretabilità dei modelli di rete neurale. Tra questi, i metodi di spiegabilità post-hoc, in particolare i valori di Shapley, si sono dimostrati efficaci per interpretare i modelli di deep learning. Tuttavia, ci sono sfide significative nel ridimensionare i valori di Shapley per gli LLM, specialmente quando si ha a che fare con contesti di input lunghi contenenti migliaia di token e sequenze di output generate in modo autoregressivo. Inoltre, spesso non è chiaro come utilizzare efficacemente le spiegazioni generate per migliorare le prestazioni degli LLM. In questo articolo, introduciamo TextGenSHAP, un metodo di spiegazione post-hoc efficiente che incorpora tecniche specifiche per i modelli linguistici. Dimostriamo che ciò porta a un aumento significativo della velocità rispetto ai calcoli convenzionali dei valori di Shapley, riducendo i tempi di elaborazione da ore a minuti per le spiegazioni a livello di token e a pochi secondi per le spiegazioni a livello di documento. Inoltre, dimostriamo come i valori di Shapley in tempo reale possano essere utilizzati in due scenari importanti: fornendo una migliore comprensione delle risposte a domande su documenti lunghi localizzando parole e frasi importanti; e migliorando i sistemi esistenti di recupero di documenti attraverso l'aumento dell'accuratezza dei passaggi selezionati e, in definitiva, delle risposte finali.
In questo articolo, affrontiamo il compito di modifica adattiva di scene 3D guidata dalla sorgente proponendo un modello CustomNeRF che unisce una descrizione testuale o un'immagine di riferimento come prompt di modifica. Tuttavia, ottenere risultati di modifica desiderati conformi al prompt non è banale, poiché esistono due sfide significative: la modifica accurata delle sole regioni in primo piano e la coerenza multi-vista data un'immagine di riferimento a singola vista. Per affrontare la prima sfida, proponiamo uno schema di addestramento chiamato Local-Global Iterative Editing (LGIE) che alterna la modifica delle regioni in primo piano e la modifica dell'intera immagine, mirando a manipolare solo il primo piano preservando lo sfondo. Per la seconda sfida, progettiamo anche una regolarizzazione guidata dalla classe che sfrutta i priori di classe all'interno del modello generativo per alleviare il problema di incoerenza tra le diverse viste nella modifica guidata da immagini. Esperimenti estensivi dimostrano che il nostro CustomNeRF produce risultati di modifica precisi in varie scene reali sia per impostazioni guidate da testo che da immagini.
Trovare modi per accelerare l'immissione di testo per individui con gravi disabilità motorie è da tempo un'area di ricerca attiva. Ridurre il divario di velocità nei dispositivi di comunicazione aumentativa e alternativa (AAC), come le tastiere con eye-tracking, è fondamentale per migliorare la qualità della vita di queste persone. I recenti progressi nelle reti neurali per il linguaggio naturale offrono nuove opportunità per ripensare le strategie e le interfacce utente per un'immissione di testo potenziata negli utenti AAC. In questo articolo, presentiamo SpeakFaster, che combina modelli linguistici di grandi dimensioni (LLM) e un'interfaccia utente co-progettata per l'immissione di testo in forma altamente abbreviata, consentendo un risparmio del 57% di azioni motorie rispetto alle tastiere predittive tradizionali in simulazioni offline. Uno studio pilota con 19 partecipanti non-AAC che digitavano su un dispositivo mobile manualmente ha dimostrato guadagni in termini di risparmio motorio in linea con la simulazione offline, introducendo effetti relativamente piccoli sulla velocità complessiva di digitazione. Test di laboratorio e sul campo condotti su due utenti con sclerosi laterale amiotrofica (ALS) che utilizzavano la digitazione con lo sguardo hanno mostrato tassi di immissione di testo dal 29% al 60% più veloci rispetto ai baselines tradizionali, grazie al significativo risparmio di pressioni di tasti costose ottenuto attraverso la previsione di frasi e parole da parte di LLM consapevoli del contesto. Questi risultati forniscono una solida base per ulteriori esplorazioni di una comunicazione testuale sostanzialmente accelerata per utenti con disabilità motorie e dimostrano una direzione per l'applicazione degli LLM alle interfacce utente basate su testo.