Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Drivable 3D Gaussian Avatars (D3GA), il primo modello 3D controllabile per corpi umani renderizzato con splatting gaussiano. Gli attuali avatar fotorealistici controllabili richiedono durante l'addestramento registrazioni 3D accurate, immagini di input dense durante il testing, o entrambe. Quelli basati su campi di radianza neurale tendono inoltre a essere eccessivamente lenti per applicazioni di telepresenza. Questo lavoro utilizza la tecnica di 3D Gaussian Splatting (3DGS), recentemente proposta, per renderizzare esseri umani realistici a frame rate in tempo reale, utilizzando come input video multi-vista calibrati e densi. Per deformare queste primitive, ci allontaniamo dal metodo comunemente usato di deformazione a punti tramite linear blend skinning (LBS) e adottiamo un classico metodo di deformazione volumetrica: le deformazioni a gabbia. Data la loro dimensione ridotta, guidiamo queste deformazioni con angoli articolari e keypoint, che sono più adatti per applicazioni di comunicazione. I nostri esperimenti su nove soggetti con forme corporee, abiti e movimenti variati ottengono risultati di qualità superiore rispetto ai metodi state-of-the-art quando si utilizzano gli stessi dati di addestramento e test.
Presentiamo un approccio per generare una vista a 360 gradi di una persona con un aspetto coerente e ad alta risoluzione a partire da una singola immagine in input. NeRF e le sue varianti richiedono tipicamente video o immagini da diversi punti di vista. La maggior parte degli approcci esistenti che utilizzano input monoculare si basano su scansioni 3D di riferimento per la supervisione o mancano di coerenza 3D. Sebbene i recenti modelli generativi 3D mostrino promettenti capacità di digitalizzazione umana con coerenza 3D, questi approcci non generalizzano bene a diverse apparenze di abbigliamento e i risultati mancano di fotorealismo. A differenza del lavoro esistente, utilizziamo modelli di diffusione 2D ad alta capacità pre-addestrati per compiti di sintesi di immagini generali come prior di aspetto per umani vestiti. Per ottenere una migliore coerenza 3D mantenendo l'identità dell'input, sintetizziamo progressivamente più viste della persona nell'immagine di input ricostruendo le regioni mancanti con una diffusione guidata dalla forma, condizionata su silhouette e normale della superficie. Successivamente, fondiamo queste immagini multi-vista sintetizzate tramite rendering inverso per ottenere una mesh 3D completamente texturizzata e ad alta risoluzione della persona data. Gli esperimenti dimostrano che il nostro approccio supera i metodi precedenti e raggiunge una sintesi fotorealistica a 360 gradi di una vasta gamma di umani vestiti con texture complesse a partire da una singola immagine.
Proponiamo DMV3D, un innovativo approccio per la generazione 3D che utilizza un modello di ricostruzione 3D su larga scala basato su transformer per denoisare la diffusione multi-vista. Il nostro modello di ricostruzione incorpora una rappresentazione NeRF a triplano ed è in grado di denoisare immagini multi-vista rumorose attraverso la ricostruzione e il rendering NeRF, raggiungendo una generazione 3D in un'unica fase in circa 30 secondi su una singola GPU A100. Addestriamo DMV3D su dataset di immagini multi-vista su larga scala di oggetti altamente diversificati, utilizzando solo perdite di ricostruzione delle immagini, senza accesso ad asset 3D. Dimostriamo risultati all'avanguardia per il problema della ricostruzione da singola immagine, dove la modellazione probabilistica delle parti non visibili degli oggetti è necessaria per generare ricostruzioni diversificate con texture nitide. Mostriamo inoltre risultati di alta qualità nella generazione da testo a 3D, superando i precedenti modelli di diffusione 3D. Il sito web del nostro progetto è disponibile all'indirizzo: https://justimyhxu.github.io/projects/dmv3d/.
I modelli di diffusione audio possono sintetizzare un'ampia varietà di suoni. I modelli esistenti spesso operano nel dominio latente con moduli di recupero della fase in cascata per ricostruire la forma d'onda. Ciò pone delle sfide quando si genera audio ad alta fedeltà. In questo articolo, proponiamo EDMSound, un modello generativo basato sulla diffusione nel dominio dello spettrogramma all'interno del framework dei modelli di diffusione chiarificati (EDM). Combinando un campionatore deterministico efficiente, abbiamo ottenuto un punteggio Fréchet Audio Distance (FAD) simile a quello dei migliori modelli di riferimento con soli 10 passi e abbiamo raggiunto prestazioni all'avanguardia con 50 passi nel benchmark di generazione di suoni foley DCASE2023. Abbiamo anche evidenziato una potenziale preoccupazione riguardo ai modelli di generazione audio basati sulla diffusione, ovvero che tendono a generare campioni con un'elevata somiglianza percettiva ai dati di addestramento. Pagina del progetto: https://agentcooper2002.github.io/EDMSound/
I giochi di ruolo basati sul dialogo (RPG) richiedono una narrazione potente. Le trame di questi giochi possono richiedere anni per essere scritte e tipicamente coinvolgono un ampio team creativo. In questo lavoro, dimostriamo il potenziale dei modelli generativi di testo su larga scala per assistere questo processo. GRIM, un prototipo di sistema GRaph-based Interactive narrative visualization per giochi, genera un ricco grafo narrativo con trame ramificate che corrispondono a una descrizione narrativa di alto livello e ai vincoli forniti dal designer. I game designer possono modificare interattivamente il grafo generando automaticamente nuovi sotto-grafi che si adattano alle modifiche all'interno della narrazione originale e dei vincoli. Illustriamo l'uso di GRIM in combinazione con GPT-4, generando trame ramificate per quattro storie ben note con diversi vincoli contestuali.
Il potenziale complementare dei Large Language Models (LLM) presuppone che i modelli LLM preesistenti abbiano competenze eterogenee in un'ampia gamma di domini e task, in modo che un insieme di LLM possa ottenere prestazioni costantemente migliori. I metodi di ensemble esistenti per i LLM si concentrano principalmente sul ranking degli output tramite modelli di reward, portando a un significativo sovraccarico computazionale. Per affrontare questo problema, esploriamo nuovamente il potenziale complementare dei LLM e lo elaboriamo ulteriormente estraendo competenze latenti utilizzando modelli di reward preesistenti. Proponiamo Zooter, un metodo di routing guidato dai reward che distilla i reward sulle query di addestramento per allenare una funzione di routing, in grado di distribuire con precisione ogni query al LLM con competenze specifiche su di essa. Integriamo inoltre un potenziamento delle etichette basato su tag per mitigare il rumore derivante dall'incertezza quando si utilizzano i reward come supervisione silver. Zooter dimostra efficienza computazionale durante l'inferenza, poiché introduce solo un lieve sovraccarico computazionale dovuto alla funzione di routing rispetto ai metodi di ranking basati sui modelli di reward. Valutiamo Zooter su una raccolta completa di benchmark con 26 sottoinsiemi relativi a diversi domini e task. Zooter supera in media il miglior modello singolo e si classifica al primo posto nel 44% dei task, superando persino diversi metodi di ranking basati sui modelli di reward.
Le tecnologie linguistiche che modellano accuratamente la dinamica degli eventi devono eseguire ragionamenti di senso comune. Il lavoro esistente che valuta il ragionamento di senso comune si concentra sull'effettuare inferenze su situazioni comuni e quotidiane. Per indagare invece la capacità di modellare situazioni insolite, inaspettate e improbabili, esploriamo il compito del ragionamento abduttivo non comune. Dato un contesto con un esito inaspettato, questo compito richiede di ragionare in modo abduttivo per generare una spiegazione in linguaggio naturale che renda l'esito inaspettato più probabile nel contesto. A tal fine, curiamo e rilasciamo un nuovo corpus in lingua inglese chiamato UNcommonsense. Caratterizziamo le differenze tra le prestazioni di spiegatori umani e i migliori modelli linguistici di grandi dimensioni, riscontrando che le spiegazioni scritte da umani e migliorate dai modelli raggiungono la qualità più elevata bilanciando specificità e diversità. Infine, sperimentiamo con diversi algoritmi di apprendimento per imitazione online per addestrare modelli linguistici aperti e accessibili su questo compito. Rispetto all'approccio di fine-tuning supervisionato standard, questi metodi riducono costantemente i tassi di perdita sia nel ragionamento abduttivo comune che non comune, secondo il giudizio di valutatori umani.
Il Parameter Efficient Tuning è stato un approccio di rilievo per adattare i Large Language Model ai task downstream. La maggior parte dei lavori precedenti considera l'aggiunta di parametri addestrabili densi, dove tutti i parametri vengono utilizzati per adattarsi a un determinato task. Abbiamo riscontrato empiricamente che questo approccio è meno efficace, utilizzando l'esempio di LoRA, dove l'introduzione di più parametri addestrabili non apporta benefici. Motivati da ciò, abbiamo investigato l'importanza di sfruttare il calcolo "sparso" e proponiamo SiRA: una miscela sparsa di adattamento a basso rango. SiRA sfrutta la Sparse Mixture of Expert (SMoE) per migliorare le prestazioni di LoRA. Nello specifico, impone il routing dei top k esperti con un limite di capacità che restringe il numero massimo di token che ciascun esperto può elaborare. Proponiamo un nuovo e semplice dropout sugli esperti applicato alla rete di gating per ridurre il problema dell'overfitting. Attraverso esperimenti estensivi, verifichiamo che SiRA performa meglio di LoRA e di altri approcci basati su miscela di esperti in diversi contesti di task singoli e multitask.
I recenti progressi nei modelli linguistici di grandi dimensioni basati su Transformer hanno compiuto notevoli passi avanti nella generazione del linguaggio naturale. Tuttavia, per decodificare K token, un modello autoregressivo richiede K passaggi in avanti sequenziali, il che può rappresentare un collo di bottiglia per le prestazioni dei modelli linguistici di grandi dimensioni. Molte ricerche sui modelli non autoregressivi (NAR) mirano a risolvere questo problema di sequenzialità, sebbene molte si siano concentrate su architetture dedicate in benchmark supervisionati. In questo lavoro, abbiamo studiato il pretraining non supervisionato per modelli T5 non autoregressivi tramite denoising srotolato e dimostrato i suoi risultati all'avanguardia in compiti di generazione downstream come la generazione di domande su SQuAD e XSum.
I potenti modelli linguistici di grandi dimensioni hanno facilitato lo sviluppo di assistenti di scrittura che promettono di migliorare significativamente la qualità e l'efficienza della composizione e della comunicazione. Tuttavia, un ostacolo a un'assistenza efficace è la mancanza di personalizzazione negli output dei modelli linguistici rispetto allo stile comunicativo e alle conoscenze specializzate dell'autore. In questo articolo, affrontiamo questa sfida proponendo PEARL, un assistente di scrittura basato su modelli linguistici aumentati con un sistema di recupero calibrato per la generazione. Il nostro sistema di recupero è addestrato a selezionare documenti storici scritti dall'utente per aumentare i prompt, in modo che siano probabilmente i più adatti a personalizzare le generazioni del modello linguistico per una richiesta dell'utente. Proponiamo due innovazioni chiave per l'addestramento del nostro sistema di recupero: 1) Un metodo di selezione dei dati di addestramento che identifica le richieste dell'utente che potrebbero trarre vantaggio dalla personalizzazione e i documenti che forniscono tale vantaggio; e 2) Un obiettivo di divergenza KL calibrato su scala che assicura che il nostro sistema di recupero segua da vicino il vantaggio di un documento per la generazione personalizzata. Dimostriamo l'efficacia di PEARL nella generazione di post personalizzati sui social media aziendali e di commenti su Reddit. Infine, mostriamo il potenziale di un sistema di recupero calibrato per la generazione di fungere anche da predittore di prestazioni e di migliorare ulteriormente le generazioni di bassa qualità tramite il concatenamento di modelli linguistici.
I Large Language Models (LLMs) hanno inaugurato un'era trasformativa nel campo dell'elaborazione del linguaggio naturale, eccellendo in compiti legati alla comprensione e alla generazione di testo. Tuttavia, incontrano difficoltà quando si confrontano con contesti caotici (ad esempio, distrattori piuttosto che contesti lunghi e irrilevanti), portando all'omissione involontaria di alcuni dettagli all'interno del contesto caotico. In risposta a queste sfide, introduciamo la strategia "Thread of Thought" (ThoT), che trae ispirazione dai processi cognitivi umani. ThoT segmenta e analizza sistematicamente contesti estesi, selezionando abilmente le informazioni pertinenti. Questa strategia funge da modulo versatile "plug-and-play", integrandosi perfettamente con vari LLM e tecniche di prompting. Negli esperimenti, utilizziamo i dataset PopQA e EntityQ, nonché un dataset di risposte a conversazioni multi-turn (MTCR) da noi raccolto, per dimostrare che ThoT migliora significativamente le prestazioni di ragionamento rispetto ad altre tecniche di prompting.
Per mantenere la fiducia degli utenti, i grandi modelli linguistici (LLM) dovrebbero segnalare una bassa confidenza negli esempi in cui sono errati, invece di indurre in errore l'utente. L'approccio standard per stimare la confidenza consiste nell'utilizzare le probabilità softmax di questi modelli, ma a novembre 2023, gli LLM all'avanguardia come GPT-4 e Claude-v1.3 non forniscono accesso a queste probabilità. Inizialmente, studiamo l'elicitazione della confidenza in modo linguistico — chiedendo a un LLM di esprimere la sua confidenza nella risposta — che ottiene risultati ragionevoli (80,5% di AUC su GPT-4, mediato su 12 dataset di domande e risposte — 7% al di sopra di una baseline casuale) ma lascia spazio a miglioramenti. Successivamente, esploriamo l'uso di un modello surrogato di confidenza — utilizzando un modello per cui abbiamo accesso alle probabilità per valutare la confidenza del modello originale in una determinata domanda. Sorprendentemente, anche se queste probabilità provengono da un modello diverso e spesso meno performante, questo metodo porta a un AUC più elevato rispetto alle confidenze linguistiche in 9 dei 12 dataset. Il nostro miglior metodo, che combina confidenze linguistiche e probabilità del modello surrogato, fornisce stime di confidenza all'avanguardia su tutti i 12 dataset (84,6% di AUC medio su GPT-4).
Valutare i modelli linguistici di grandi dimensioni (LLM) è un compito complesso, soprattutto considerando le intricate sfaccettature della comprensione del linguaggio naturale e le aspettative di ragionamento di alto livello. Le valutazioni tradizionali si basano tipicamente su paradigmi basati su esseri umani, su modelli o su metriche automatiche, ciascuno con i propri vantaggi e limiti. Introduciamo "Fusion-Eval", un sistema che impiega gli LLM non solo per valutazioni dirette, ma per integrare abilmente le intuizioni provenienti da diversi valutatori. Ciò conferisce a Fusion-Eval flessibilità, consentendogli di operare efficacemente su una vasta gamma di compiti e di sfruttare al meglio molteplici riferimenti. Nei test condotti sul dataset SummEval, Fusion-Eval ha raggiunto una correlazione di Spearman di 0,96, superando altri valutatori. Il successo di Fusion-Eval sottolinea il potenziale degli LLM nel produrre valutazioni che si allineano strettamente alle prospettive umane, stabilendo un nuovo standard nel campo della valutazione degli LLM.