HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

13 papers found

Avatar 3D Gaussiani Guidabili
Drivable 3D Gaussian Avatars

Nov 14

ByWojciech Zielonka, Timur Bagautdinov, Shunsuke Saito, Michael Zollhöfer, Justus Thies, Javier Romero

Presentiamo Drivable 3D Gaussian Avatars (D3GA), il primo modello 3D controllabile per corpi umani renderizzato con splatting gaussiano. Gli attuali avatar fotorealistici controllabili richiedono durante l'addestramento registrazioni 3D accurate, immagini di input dense durante il testing, o entrambe. Quelli basati su campi di radianza neurale tendono inoltre a essere eccessivamente lenti per applicazioni di telepresenza. Questo lavoro utilizza la tecnica di 3D Gaussian Splatting (3DGS), recentemente proposta, per renderizzare esseri umani realistici a frame rate in tempo reale, utilizzando come input video multi-vista calibrati e densi. Per deformare queste primitive, ci allontaniamo dal metodo comunemente usato di deformazione a punti tramite linear blend skinning (LBS) e adottiamo un classico metodo di deformazione volumetrica: le deformazioni a gabbia. Data la loro dimensione ridotta, guidiamo queste deformazioni con angoli articolari e keypoint, che sono più adatti per applicazioni di comunicazione. I nostri esperimenti su nove soggetti con forme corporee, abiti e movimenti variati ottengono risultati di qualità superiore rispetto ai metodi state-of-the-art quando si utilizzano gli stessi dati di addestramento e test.

Digitalizzazione 3D di esseri umani da singola immagine con diffusione guidata dalla forma
Single-Image 3D Human Digitization with Shape-Guided Diffusion

Nov 15

ByBadour AlBahar, Shunsuke Saito, Hung-Yu Tseng, Changil Kim, Johannes Kopf, Jia-Bin Huang

Presentiamo un approccio per generare una vista a 360 gradi di una persona con un aspetto coerente e ad alta risoluzione a partire da una singola immagine in input. NeRF e le sue varianti richiedono tipicamente video o immagini da diversi punti di vista. La maggior parte degli approcci esistenti che utilizzano input monoculare si basano su scansioni 3D di riferimento per la supervisione o mancano di coerenza 3D. Sebbene i recenti modelli generativi 3D mostrino promettenti capacità di digitalizzazione umana con coerenza 3D, questi approcci non generalizzano bene a diverse apparenze di abbigliamento e i risultati mancano di fotorealismo. A differenza del lavoro esistente, utilizziamo modelli di diffusione 2D ad alta capacità pre-addestrati per compiti di sintesi di immagini generali come prior di aspetto per umani vestiti. Per ottenere una migliore coerenza 3D mantenendo l'identità dell'input, sintetizziamo progressivamente più viste della persona nell'immagine di input ricostruendo le regioni mancanti con una diffusione guidata dalla forma, condizionata su silhouette e normale della superficie. Successivamente, fondiamo queste immagini multi-vista sintetizzate tramite rendering inverso per ottenere una mesh 3D completamente texturizzata e ad alta risoluzione della persona data. Gli esperimenti dimostrano che il nostro approccio supera i metodi precedenti e raggiunge una sintesi fotorealistica a 360 gradi di una vasta gamma di umani vestiti con texture complesse a partire da una singola immagine.

DMV3D: Denoising Multi-View Diffusion utilizzando un Modello di Ricostruzione 3D su Larga Scala
DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction Model

Nov 15

ByYinghao Xu, Hao Tan, Fujun Luan, Sai Bi, Peng Wang, Jiahao Li, Zifan Shi, Kalyan Sunkavalli, Gordon Wetzstein, Zexiang Xu, Kai Zhang

Proponiamo DMV3D, un innovativo approccio per la generazione 3D che utilizza un modello di ricostruzione 3D su larga scala basato su transformer per denoisare la diffusione multi-vista. Il nostro modello di ricostruzione incorpora una rappresentazione NeRF a triplano ed è in grado di denoisare immagini multi-vista rumorose attraverso la ricostruzione e il rendering NeRF, raggiungendo una generazione 3D in un'unica fase in circa 30 secondi su una singola GPU A100. Addestriamo DMV3D su dataset di immagini multi-vista su larga scala di oggetti altamente diversificati, utilizzando solo perdite di ricostruzione delle immagini, senza accesso ad asset 3D. Dimostriamo risultati all'avanguardia per il problema della ricostruzione da singola immagine, dove la modellazione probabilistica delle parti non visibili degli oggetti è necessaria per generare ricostruzioni diversificate con texture nitide. Mostriamo inoltre risultati di alta qualità nella generazione da testo a 3D, superando i precedenti modelli di diffusione 3D. Il sito web del nostro progetto è disponibile all'indirizzo: https://justimyhxu.github.io/projects/dmv3d/.

EDMSound: Modelli di Diffusione Basati su Spettrogrammi per la Sintesi Audio Efficiente e di Alta Qualità
EDMSound: Spectrogram Based Diffusion Models for Efficient and High-Quality Audio Synthesis

Nov 15

ByGe Zhu, Yutong Wen, Marc-André Carbonneau, Zhiyao Duan

I modelli di diffusione audio possono sintetizzare un'ampia varietà di suoni. I modelli esistenti spesso operano nel dominio latente con moduli di recupero della fase in cascata per ricostruire la forma d'onda. Ciò pone delle sfide quando si genera audio ad alta fedeltà. In questo articolo, proponiamo EDMSound, un modello generativo basato sulla diffusione nel dominio dello spettrogramma all'interno del framework dei modelli di diffusione chiarificati (EDM). Combinando un campionatore deterministico efficiente, abbiamo ottenuto un punteggio Fréchet Audio Distance (FAD) simile a quello dei migliori modelli di riferimento con soli 10 passi e abbiamo raggiunto prestazioni all'avanguardia con 50 passi nel benchmark di generazione di suoni foley DCASE2023. Abbiamo anche evidenziato una potenziale preoccupazione riguardo ai modelli di generazione audio basati sulla diffusione, ovvero che tendono a generare campioni con un'elevata somiglianza percettiva ai dati di addestramento. Pagina del progetto: https://agentcooper2002.github.io/EDMSound/

GRIM: Visualizzazione narrativa interattiva basata su grafi per i giochi
GRIM: GRaph-based Interactive narrative visualization for gaMes

Nov 15

ByJorge Leandro, Sudha Rao, Michael Xu, Weijia Xu, Nebosja Jojic, Chris Brockett, Bill Dolan

I giochi di ruolo basati sul dialogo (RPG) richiedono una narrazione potente. Le trame di questi giochi possono richiedere anni per essere scritte e tipicamente coinvolgono un ampio team creativo. In questo lavoro, dimostriamo il potenziale dei modelli generativi di testo su larga scala per assistere questo processo. GRIM, un prototipo di sistema GRaph-based Interactive narrative visualization per giochi, genera un ricco grafo narrativo con trame ramificate che corrispondono a una descrizione narrativa di alto livello e ai vincoli forniti dal designer. I game designer possono modificare interattivamente il grafo generando automaticamente nuovi sotto-grafi che si adattano alle modifiche all'interno della narrazione originale e dei vincoli. Illustriamo l'uso di GRIM in combinazione con GPT-4, generando trame ramificate per quattro storie ben note con diversi vincoli contestuali.

Routing verso l'Esperto: Un Efficiente Ensemble Guidato dalla Ricompensa di Modelli Linguistici di Grandi Dimensioni
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models

Nov 15

ByKeming Lu, Hongyi Yuan, Runji Lin, Junyang Lin, Zheng Yuan, Chang Zhou, Jingren Zhou

Il potenziale complementare dei Large Language Models (LLM) presuppone che i modelli LLM preesistenti abbiano competenze eterogenee in un'ampia gamma di domini e task, in modo che un insieme di LLM possa ottenere prestazioni costantemente migliori. I metodi di ensemble esistenti per i LLM si concentrano principalmente sul ranking degli output tramite modelli di reward, portando a un significativo sovraccarico computazionale. Per affrontare questo problema, esploriamo nuovamente il potenziale complementare dei LLM e lo elaboriamo ulteriormente estraendo competenze latenti utilizzando modelli di reward preesistenti. Proponiamo Zooter, un metodo di routing guidato dai reward che distilla i reward sulle query di addestramento per allenare una funzione di routing, in grado di distribuire con precisione ogni query al LLM con competenze specifiche su di essa. Integriamo inoltre un potenziamento delle etichette basato su tag per mitigare il rumore derivante dall'incertezza quando si utilizzano i reward come supervisione silver. Zooter dimostra efficienza computazionale durante l'inferenza, poiché introduce solo un lieve sovraccarico computazionale dovuto alla funzione di routing rispetto ai metodi di ranking basati sui modelli di reward. Valutiamo Zooter su una raccolta completa di benchmark con 26 sottoinsiemi relativi a diversi domini e task. Zooter supera in media il miglior modello singolo e si classifica al primo posto nel 44% dei task, superando persino diversi metodi di ranking basati sui modelli di reward.

Ragionamento non comune: Ragionamento abduttivo su situazioni insolite
UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations

Nov 14

ByWenting Zhao, Justin T Chiu, Jena D. Hwang, Faeze Brahman, Jack Hessel, Sanjiban Choudhury, Yejin Choi, Xiang Lorraine Li, Alane Suhr

Le tecnologie linguistiche che modellano accuratamente la dinamica degli eventi devono eseguire ragionamenti di senso comune. Il lavoro esistente che valuta il ragionamento di senso comune si concentra sull'effettuare inferenze su situazioni comuni e quotidiane. Per indagare invece la capacità di modellare situazioni insolite, inaspettate e improbabili, esploriamo il compito del ragionamento abduttivo non comune. Dato un contesto con un esito inaspettato, questo compito richiede di ragionare in modo abduttivo per generare una spiegazione in linguaggio naturale che renda l'esito inaspettato più probabile nel contesto. A tal fine, curiamo e rilasciamo un nuovo corpus in lingua inglese chiamato UNcommonsense. Caratterizziamo le differenze tra le prestazioni di spiegatori umani e i migliori modelli linguistici di grandi dimensioni, riscontrando che le spiegazioni scritte da umani e migliorate dai modelli raggiungono la qualità più elevata bilanciando specificità e diversità. Infine, sperimentiamo con diversi algoritmi di apprendimento per imitazione online per addestrare modelli linguistici aperti e accessibili su questo compito. Rispetto all'approccio di fine-tuning supervisionato standard, questi metodi riducono costantemente i tassi di perdita sia nel ragionamento abduttivo comune che non comune, secondo il giudizio di valutatori umani.

SiRA: Miscela Sparsa di Adattamento a Basso Rango
SiRA: Sparse Mixture of Low Rank Adaptation

Nov 15

ByYun Zhu, Nevan Wichers, Chu-Cheng Lin, Xinyi Wang, Tianlong Chen, Lei Shu, Han Lu, Canoee Liu, Liangchen Luo, Jindong Chen, Lei Meng

Il Parameter Efficient Tuning è stato un approccio di rilievo per adattare i Large Language Model ai task downstream. La maggior parte dei lavori precedenti considera l'aggiunta di parametri addestrabili densi, dove tutti i parametri vengono utilizzati per adattarsi a un determinato task. Abbiamo riscontrato empiricamente che questo approccio è meno efficace, utilizzando l'esempio di LoRA, dove l'introduzione di più parametri addestrabili non apporta benefici. Motivati da ciò, abbiamo investigato l'importanza di sfruttare il calcolo "sparso" e proponiamo SiRA: una miscela sparsa di adattamento a basso rango. SiRA sfrutta la Sparse Mixture of Expert (SMoE) per migliorare le prestazioni di LoRA. Nello specifico, impone il routing dei top k esperti con un limite di capacità che restringe il numero massimo di token che ciascun esperto può elaborare. Proponiamo un nuovo e semplice dropout sugli esperti applicato alla rete di gating per ridurre il problema dell'overfitting. Attraverso esperimenti estensivi, verifichiamo che SiRA performa meglio di LoRA e di altri approcci basati su miscela di esperti in diversi contesti di task singoli e multitask.

UT5: Pre-addestramento di T5 non autoregressivo con denoising srotolato
UT5: Pretraining Non autoregressive T5 with unrolled denoising

Nov 14

ByMahmoud G. Salem, Jiayu Ye, Chu-Cheng Lin, Frederick Liu

I recenti progressi nei modelli linguistici di grandi dimensioni basati su Transformer hanno compiuto notevoli passi avanti nella generazione del linguaggio naturale. Tuttavia, per decodificare K token, un modello autoregressivo richiede K passaggi in avanti sequenziali, il che può rappresentare un collo di bottiglia per le prestazioni dei modelli linguistici di grandi dimensioni. Molte ricerche sui modelli non autoregressivi (NAR) mirano a risolvere questo problema di sequenzialità, sebbene molte si siano concentrate su architetture dedicate in benchmark supervisionati. In questo lavoro, abbiamo studiato il pretraining non supervisionato per modelli T5 non autoregressivi tramite denoising srotolato e dimostrato i suoi risultati all'avanguardia in compiti di generazione downstream come la generazione di domande su SQuAD e XSum.

PEARL: Personalizzazione degli assistenti di scrittura basati su modelli linguistici di grandi dimensioni con retriever calibrati sulla generazione
PEARL: Personalizing Large Language Model Writing Assistants with Generation-Calibrated Retrievers

Nov 15

BySheshera Mysore, Zhuoran Lu, Mengting Wan, Longqi Yang, Steve Menezes, Tina Baghaee, Emmanuel Barajas Gonzalez, Jennifer Neville, Tara Safavi

I potenti modelli linguistici di grandi dimensioni hanno facilitato lo sviluppo di assistenti di scrittura che promettono di migliorare significativamente la qualità e l'efficienza della composizione e della comunicazione. Tuttavia, un ostacolo a un'assistenza efficace è la mancanza di personalizzazione negli output dei modelli linguistici rispetto allo stile comunicativo e alle conoscenze specializzate dell'autore. In questo articolo, affrontiamo questa sfida proponendo PEARL, un assistente di scrittura basato su modelli linguistici aumentati con un sistema di recupero calibrato per la generazione. Il nostro sistema di recupero è addestrato a selezionare documenti storici scritti dall'utente per aumentare i prompt, in modo che siano probabilmente i più adatti a personalizzare le generazioni del modello linguistico per una richiesta dell'utente. Proponiamo due innovazioni chiave per l'addestramento del nostro sistema di recupero: 1) Un metodo di selezione dei dati di addestramento che identifica le richieste dell'utente che potrebbero trarre vantaggio dalla personalizzazione e i documenti che forniscono tale vantaggio; e 2) Un obiettivo di divergenza KL calibrato su scala che assicura che il nostro sistema di recupero segua da vicino il vantaggio di un documento per la generazione personalizzata. Dimostriamo l'efficacia di PEARL nella generazione di post personalizzati sui social media aziendali e di commenti su Reddit. Infine, mostriamo il potenziale di un sistema di recupero calibrato per la generazione di fungere anche da predittore di prestazioni e di migliorare ulteriormente le generazioni di bassa qualità tramite il concatenamento di modelli linguistici.

Filamento del Pensiero che Svela Contesti Caotici
Thread of Thought Unraveling Chaotic Contexts

Nov 15

ByYucheng Zhou, Xiubo Geng, Tao Shen, Chongyang Tao, Guodong Long, Jian-Guang Lou, Jianbing Shen

I Large Language Models (LLMs) hanno inaugurato un'era trasformativa nel campo dell'elaborazione del linguaggio naturale, eccellendo in compiti legati alla comprensione e alla generazione di testo. Tuttavia, incontrano difficoltà quando si confrontano con contesti caotici (ad esempio, distrattori piuttosto che contesti lunghi e irrilevanti), portando all'omissione involontaria di alcuni dettagli all'interno del contesto caotico. In risposta a queste sfide, introduciamo la strategia "Thread of Thought" (ThoT), che trae ispirazione dai processi cognitivi umani. ThoT segmenta e analizza sistematicamente contesti estesi, selezionando abilmente le informazioni pertinenti. Questa strategia funge da modulo versatile "plug-and-play", integrandosi perfettamente con vari LLM e tecniche di prompting. Negli esperimenti, utilizziamo i dataset PopQA e EntityQ, nonché un dataset di risposte a conversazioni multi-turn (MTCR) da noi raccolto, per dimostrare che ThoT migliora significativamente le prestazioni di ragionamento rispetto ad altre tecniche di prompting.

I Lama Sanno Ciò che i GPT Non Mostrano: Modelli Surrogati per la Stima della Confidenza
Llamas Know What GPTs Don't Show: Surrogate Models for Confidence Estimation

Nov 15

ByVaishnavi Shrivastava, Percy Liang, Ananya Kumar

Per mantenere la fiducia degli utenti, i grandi modelli linguistici (LLM) dovrebbero segnalare una bassa confidenza negli esempi in cui sono errati, invece di indurre in errore l'utente. L'approccio standard per stimare la confidenza consiste nell'utilizzare le probabilità softmax di questi modelli, ma a novembre 2023, gli LLM all'avanguardia come GPT-4 e Claude-v1.3 non forniscono accesso a queste probabilità. Inizialmente, studiamo l'elicitazione della confidenza in modo linguistico — chiedendo a un LLM di esprimere la sua confidenza nella risposta — che ottiene risultati ragionevoli (80,5% di AUC su GPT-4, mediato su 12 dataset di domande e risposte — 7% al di sopra di una baseline casuale) ma lascia spazio a miglioramenti. Successivamente, esploriamo l'uso di un modello surrogato di confidenza — utilizzando un modello per cui abbiamo accesso alle probabilità per valutare la confidenza del modello originale in una determinata domanda. Sorprendentemente, anche se queste probabilità provengono da un modello diverso e spesso meno performante, questo metodo porta a un AUC più elevato rispetto alle confidenze linguistiche in 9 dei 12 dataset. Il nostro miglior metodo, che combina confidenze linguistiche e probabilità del modello surrogato, fornisce stime di confidenza all'avanguardia su tutti i 12 dataset (84,6% di AUC medio su GPT-4).

Fusion-Eval: Integrazione di Valutatori con Modelli Linguistici di Grandi Dimensioni
Fusion-Eval: Integrating Evaluators with LLMs

Nov 15

ByLei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng

Valutare i modelli linguistici di grandi dimensioni (LLM) è un compito complesso, soprattutto considerando le intricate sfaccettature della comprensione del linguaggio naturale e le aspettative di ragionamento di alto livello. Le valutazioni tradizionali si basano tipicamente su paradigmi basati su esseri umani, su modelli o su metriche automatiche, ciascuno con i propri vantaggi e limiti. Introduciamo "Fusion-Eval", un sistema che impiega gli LLM non solo per valutazioni dirette, ma per integrare abilmente le intuizioni provenienti da diversi valutatori. Ciò conferisce a Fusion-Eval flessibilità, consentendogli di operare efficacemente su una vasta gamma di compiti e di sfruttare al meglio molteplici riferimenti. Nei test condotti sul dataset SummEval, Fusion-Eval ha raggiunto una correlazione di Spearman di 0,96, superando altri valutatori. Il successo di Fusion-Eval sottolinea il potenziale degli LLM nel produrre valutazioni che si allineano strettamente alle prospettive umane, stabilendo un nuovo standard nel campo della valutazione degli LLM.

PEARL: Personalizzazione degli assistenti di scrittura basati su modelli linguistici di grandi dimensioni con retriever calibrati sulla generazione
PEARL: Personalizing Large Language Model Writing Assistants with Generation-Calibrated Retrievers

Nov 15

BySheshera Mysore, Zhuoran Lu, Mengting Wan, Longqi Yang, Steve Menezes, Tina Baghaee, Emmanuel Barajas Gonzalez, Jennifer Neville, Tara Safavi