Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo rapporto introduce una nuova famiglia di modelli multimodali, Gemini, che dimostrano capacità straordinarie nella comprensione di immagini, audio, video e testo. La famiglia Gemini è composta dalle versioni Ultra, Pro e Nano, adatte a un'ampia gamma di applicazioni, dai compiti di ragionamento complesso ai casi d'uso con vincoli di memoria su dispositivi. La valutazione su un'ampia gamma di benchmark mostra che il nostro modello più potente, Gemini Ultra, avanza lo stato dell'arte in 30 dei 32 benchmark analizzati, diventando in particolare il primo modello a raggiungere prestazioni pari a quelle di un esperto umano nel benchmark MMLU, ampiamente studiato, e migliorando lo stato dell'arte in ognuno dei 20 benchmark multimodali esaminati. Riteniamo che le nuove capacità dei modelli Gemini nel ragionamento cross-modale e nella comprensione del linguaggio abiliteranno una vasta gamma di casi d'uso e discutiamo il nostro approccio per un loro utilizzo responsabile verso gli utenti.
Presentiamo VecFusion, una nuova architettura neurale in grado di generare font vettoriali con strutture topologiche variabili e posizioni precise dei punti di controllo. Il nostro approccio è un modello di diffusione a cascata composto da un modello di diffusione raster seguito da un modello di diffusione vettoriale. Il modello raster genera font rasterizzati a bassa risoluzione con informazioni ausiliarie sui punti di controllo, catturando lo stile globale e la forma del font, mentre il modello vettoriale sintetizza font vettoriali condizionati dai font raster a bassa risoluzione della prima fase. Per sintetizzare curve lunghe e complesse, il nostro modello di diffusione vettoriale utilizza un'architettura transformer e una nuova rappresentazione vettoriale che consente la modellazione di geometrie vettoriali diverse e la previsione precisa dei punti di controllo. I nostri esperimenti dimostrano che, a differenza dei precedenti modelli generativi per la grafica vettoriale, il nostro nuovo modello di diffusione vettoriale a cascata genera font vettoriali di qualità superiore, con strutture complesse e stili diversificati.
I grandi modelli linguistici (LLM) hanno dimostrato una notevole competenza nelle capacità di ragionamento e generazione a livello umano, incoraggiando un'ampia ricerca sulla loro applicazione nella risoluzione di problemi matematici. Tuttavia, il lavoro attuale si è concentrato principalmente su problemi matematici basati su testo, con un'indagine limitata sui problemi che coinvolgono informazioni geometriche. Per colmare questa lacuna, miriamo a consentire agli LLM di risolvere problemi geometrici comprendendo input di immagini. Iniziamo analizzando i limiti degli attuali Modelli Linguistici Multimodali (MLLM) in questo ambito: faticano a comprendere accuratamente gli elementi geometrici di base e le loro relazioni. Per superare queste sfide, sfruttiamo le caratteristiche uniche dei problemi geometrici (come la forma logica geometrica unica e la scalabilità geometrica) e la capacità degli LLM testuali per costruire un dataset multimodale arricchito basato su dati esistenti. Il dataset ampliato, Geo170K, contiene oltre 170K coppie immagine-didascalia e domanda-risposta geometriche. Utilizzando il nostro dataset Geo170K, sviluppiamo G-LLaVA, che dimostra prestazioni eccezionali nella risoluzione di problemi geometrici, superando significativamente GPT-4-V sul benchmark MathVista con soli 7B parametri.
I modelli di diffusione di immagini sono stati utilizzati in vari compiti, come la generazione di immagini da testo e la sintesi controllata di immagini. Ricerche recenti hanno introdotto metodi di tuning che apportano aggiustamenti sottili ai modelli originali, ottenendo risultati promettenti in specifici adattamenti di modelli generativi di diffusione di base. Piuttosto che modificare la struttura principale del modello di diffusione, approfondiamo il ruolo delle connessioni skip nella U-Net e riveliamo che le caratteristiche gerarchiche che aggregano informazioni a lunga distanza tra encoder e decoder hanno un impatto significativo sul contenuto e sulla qualità della generazione di immagini. Sulla base di questa osservazione, proponiamo un framework efficiente di tuning generativo, denominato SCEdit, che integra e modifica le connessioni skip utilizzando un modulo di tuning leggero chiamato SC-Tuner. Inoltre, il framework proposto consente un'estensione diretta alla sintesi controllata di immagini iniettando diverse condizioni con il Controllable SC-Tuner, semplificando e unificando la progettazione della rete per input multi-condizione. Il nostro SCEdit riduce sostanzialmente i parametri di addestramento, l'uso della memoria e il costo computazionale grazie ai suoi tuner leggeri, con la propagazione all'indietro che passa solo ai blocchi del decoder. Esperimenti estensivi condotti su compiti di generazione di immagini da testo e sintesi controllata di immagini dimostrano la superiorità del nostro metodo in termini di efficienza e prestazioni. Pagina del progetto: https://scedit.github.io/
I recenti modelli di generazione da testo a immagine (Text-to-Image, T2I) come Stable Diffusion e Imagen hanno compiuto progressi significativi nella creazione di immagini ad alta risoluzione basate su descrizioni testuali. Tuttavia, molte immagini generate presentano ancora problemi come artefatti/implausibilità, disallineamento con le descrizioni testuali e bassa qualità estetica. Ispirati dal successo del Reinforcement Learning con Feedback Umano (RLHF) per i grandi modelli linguistici, lavori precedenti hanno raccolto punteggi forniti da esseri umani come feedback sulle immagini generate e hanno addestrato un modello di ricompensa per migliorare la generazione T2I. In questo articolo, arricchiamo il segnale di feedback (i) evidenziando le regioni dell'immagine che sono implausibili o disallineate con il testo, e (ii) annotando quali parole nel prompt testuale sono mal rappresentate o assenti nell'immagine. Raccogliamo tale feedback umano dettagliato su 18.000 immagini generate e addestriamo un trasformatore multimodale per prevedere automaticamente il feedback arricchito. Dimostriamo che il feedback umano arricchito previsto può essere sfruttato per migliorare la generazione delle immagini, ad esempio selezionando dati di addestramento di alta qualità per affinare e migliorare i modelli generativi, o creando maschere con mappe di calore previste per riempire le regioni problematiche. È degno di nota che i miglioramenti si generalizzano a modelli (Muse) oltre a quelli utilizzati per generare le immagini su cui sono stati raccolti i dati di feedback umano (varianti di Stable Diffusion).
Lo splatting gaussiano è emerso come una potente rappresentazione 3D che sfrutta i vantaggi sia delle rappresentazioni 3D esplicite (mesh) che implicite (NeRF). In questo articolo, cerchiamo di utilizzare lo splatting gaussiano per generare avatar animabili realistici a partire da descrizioni testuali, affrontando le limitazioni (ad esempio, flessibilità ed efficienza) imposte dalle rappresentazioni basate su mesh o NeRF. Tuttavia, un'applicazione ingenua dello splatting gaussiano non può generare avatar animabili di alta qualità e soffre di instabilità nell'apprendimento; inoltre, non è in grado di catturare geometrie fini degli avatar e spesso porta a parti del corpo degenerate. Per affrontare questi problemi, proponiamo innanzitutto una rappresentazione 3D gaussiana basata su primitive, in cui le gaussiane sono definite all'interno di primitive guidate dalla posa per facilitare l'animazione. In secondo luogo, per stabilizzare e ammortizzare l'apprendimento di milioni di gaussiane, proponiamo di utilizzare campi impliciti neurali per prevedere gli attributi delle gaussiane (ad esempio, i colori). Infine, per catturare geometrie fini degli avatar ed estrarre mesh dettagliate, proponiamo un nuovo approccio di apprendimento implicito di mesh basato su SDF per le gaussiane 3D che regolarizza le geometrie sottostanti ed estrae mesh testurizzate altamente dettagliate. Il nostro metodo proposto, GAvatar, consente la generazione su larga scala di avatar animabili diversi utilizzando solo prompt testuali. GAvatar supera significativamente i metodi esistenti in termini di qualità sia dell'aspetto che della geometria e raggiunge un rendering estremamente veloce (100 fps) a risoluzione 1K.
Recentemente, la comprensione 3D è diventata popolare per facilitare gli agenti autonomi nel prendere decisioni ulteriori. Tuttavia, i dataset e i metodi 3D esistenti sono spesso limitati a compiti specifici. D'altra parte, i recenti progressi nei Large Language Models (LLM) e nei Multimodal Language Models (MLM) hanno dimostrato prestazioni eccezionali in compiti linguistici e di elaborazione delle immagini di carattere generale. Pertanto, è interessante sbloccare il potenziale degli MLM per diventare generalisti 3D in compiti più ampi. Tuttavia, la ricerca attuale sugli MLM si è concentrata meno sui compiti 3D a causa della mancanza di dataset su larga scala che seguono istruzioni in 3D. In questo lavoro, introduciamo un dataset completo di istruzioni 3D chiamato M3DBench, che possiede le seguenti caratteristiche: 1) Supporta istruzioni multimodali generali intervallate da testo, immagini, oggetti 3D e altri prompt visivi. 2) Unifica compiti 3D diversificati a livello di regione e di scena, coprendo una varietà di abilità fondamentali in ambienti 3D del mondo reale. 3) È un dataset su larga scala di istruzioni 3D con oltre 320k coppie istruzione-risposta. Inoltre, stabiliamo un nuovo benchmark per valutare le prestazioni dei modelli di grandi dimensioni nella comprensione di prompt multimodali 3D. Esperimenti estesi dimostrano l'efficacia del nostro dataset e della linea di base, supportando compiti generali centrati sul 3D, che possono ispirare future ricerche.
Il crescente interesse verso i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), come GPT-4V(ision) di OpenAI, ha segnato una tendenza significativa sia in ambito accademico che industriale. Questi modelli dotano i Modelli Linguistici di Grandi Dimensioni (LLM) di potenti capacità di comprensione visiva, consentendo loro di affrontare una vasta gamma di compiti multimodali. Recentemente, Google ha rilasciato Gemini, il suo MLLM più recente e avanzato, progettato da zero per la multimodalità. Alla luce delle superiori capacità di ragionamento, Gemini può sfidare la posizione di leadership di GPT-4V nell'apprendimento multimodale? In questo articolo, presentiamo un'esplorazione preliminare della competenza di comprensione visiva di Gemini Pro, che copre in modo esaustivo quattro domini: percezione di base, cognizione avanzata, compiti visivi complessi e varie capacità specialistiche. Confrontiamo Gemini Pro con lo stato dell'arte GPT-4V per valutarne i limiti superiori, insieme al più recente MLLM open-source, Sphinx, che rivela il divario tra gli sforzi manuali e i sistemi a scatola chiusa. I campioni qualitativi indicano che, sebbene GPT-4V e Gemini mostrino stili e preferenze di risposta diversi, possono esibire capacità di ragionamento visivo comparabili, mentre Sphinx rimane ancora indietro rispetto a loro per quanto riguarda la generalizzabilità di dominio. In particolare, GPT-4V tende a elaborare spiegazioni dettagliate e passaggi intermedi, mentre Gemini preferisce fornire una risposta diretta e concisa. La valutazione quantitativa sul popolare benchmark MME dimostra anche il potenziale di Gemini di essere un forte sfidante per GPT-4V. La nostra indagine preliminare su Gemini osserva anche alcuni problemi comuni degli MLLM, indicando che rimane ancora una distanza considerevole verso l'intelligenza artificiale generale. Il nostro progetto per monitorare i progressi degli MLLM è disponibile all'indirizzo https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
La narrazione visiva spesso utilizza immagini con rapporti d'aspetto non convenzionali come dipinti a rotolo, strisce di fumetti e panorami per creare una narrazione espressiva e coinvolgente. Sebbene l'IA generativa abbia ottenuto un grande successo e dimostrato il potenziale di trasformare l'industria creativa, rimane una sfida generare contenuti coerenti e coinvolgenti con dimensioni arbitrarie e uno stile, un concetto e un layout controllabili, tutti elementi essenziali per la narrazione visiva. Per superare le carenze dei metodi precedenti, tra cui contenuti ripetitivi, incoerenza stilistica e mancanza di controllabilità, proponiamo MagicScroll, un framework di generazione di immagini basato su diffusione progressiva a più livelli con un nuovo processo di denoising semantico. Il modello consente un controllo fine sull'immagine generata a livello di oggetti, scene e sfondi con condizioni di testo, immagine e layout. Abbiamo inoltre stabilito il primo benchmark per la generazione di immagini con rapporti d'aspetto non convenzionali per la narrazione visiva, includendo mezzi come dipinti, fumetti e panorami cinematografici, con metriche personalizzate per una valutazione sistematica. Attraverso studi comparativi e di ablazione, MagicScroll mostra risultati promettenti nell'allineamento con il testo narrativo, nel migliorare la coerenza visiva e nel coinvolgere il pubblico. Prevediamo di rilasciare il codice e il benchmark nella speranza di una migliore collaborazione tra ricercatori di IA e professionisti creativi coinvolti nella narrazione visiva.
I modelli linguistici (LM) comunemente riportano la perplessità su dati monolitici esclusi dall'addestramento. Implicitamente o esplicitamente, questi dati sono composti da domini – distribuzioni variabili del linguaggio. Piuttosto che assumere che la perplessità su una distribuzione si estrapoli ad altre, Perplexity Analysis for Language Model Assessment (Paloma) misura l'adattamento del modello linguistico a 585 domini di testo, che vanno da nytimes.com a r/depression su Reddit. Invitiamo a presentare contributi al nostro benchmark e organizziamo i risultati in base alla comparabilità, considerando il rispetto di linee guida come la rimozione della contaminazione del benchmark dal pre-addestramento. I contributi possono anche registrare il numero di parametri e di token di addestramento per consentire confronti di efficienza di Pareto in termini di prestazioni in funzione di queste misure di costo. Popoliamo il nostro benchmark con i risultati di 6 baseline pre-addestrate su corpora popolari. In casi di studio, dimostriamo analisi possibili con Paloma, come scoprire che il pre-addestramento senza dati oltre Common Crawl porta a un adattamento incoerente a molti domini.
Questo articolo esplora la distillazione delle preferenze per i grandi modelli linguistico-visivi (LVLM), migliorando la loro capacità di generare risposte utili e fedeli ancorate al contesto visivo. Inizialmente, costruiamo un dataset di feedback visivo-linguistico (VLFeedback) utilizzando annotazioni AI. Nello specifico, le risposte sono generate da modelli campionati da 12 LVLM, condizionati da istruzioni multimodali provenienti da vari dataset. Adottiamo GPT-4V per valutare gli output generati in termini di utilità, fedeltà visiva e considerazioni etiche. Inoltre, la supervisione delle preferenze viene distillata in Qwen-VL-Chat attraverso il metodo di ottimizzazione diretta delle preferenze (DPO). Il modello risultante, Silkie, ottiene un miglioramento relativo del 6,9% e del 9,5% sul benchmark MME per quanto riguarda le capacità di percezione e cognizione, rispettivamente. Silkie dimostra anche una riduzione delle allucinazioni stabilendo un nuovo punteggio state-of-the-art di 3,02 sul benchmark MMHal-Bench. Un'ulteriore analisi mostra che il DPO con il nostro dataset VLFeedback migliora principalmente la percezione fine e le capacità cognitive complesse dei LVLM, portando a miglioramenti più completi rispetto ai dataset di preferenze annotati manualmente.
I modelli di diffusione hanno compiuto progressi significativi nella generazione di immagini di alta qualità, ma la loro applicazione alla generazione di video è rimasta impegnativa a causa della complessità del movimento temporale. L'editing video zero-shot offre una soluzione sfruttando modelli di diffusione di immagini pre-addestrati per tradurre video sorgente in nuovi video. Tuttavia, i metodi esistenti faticano a mantenere una rigorosa coerenza temporale e un consumo efficiente della memoria. In questo lavoro, proponiamo un approccio innovativo per migliorare la coerenza temporale nei video generati unendo i token di self-attention tra i frame. Allineando e comprimendo i token temporalmente ridondanti tra i frame, il nostro metodo migliora la coerenza temporale e riduce il consumo di memoria nei calcoli di self-attention. La strategia di unione abbina e allinea i token in base alla corrispondenza temporale tra i frame, facilitando una coerenza temporale naturale nei frame video generati. Per gestire la complessità dell'elaborazione video, dividiamo i video in segmenti e sviluppiamo un'unione locale dei token all'interno dei segmenti e un'unione globale dei token tra i segmenti, garantendo sia la continuità video a breve termine che la coerenza del contenuto a lungo termine. Il nostro approccio all'editing video estende senza soluzione di continuità i progressi nell'editing delle immagini all'editing video, ottenendo risultati favorevoli in termini di coerenza temporale rispetto ai metodi all'avanguardia.
I recenti approcci di editing basati su modelli di diffusione hanno dimostrato capacità impressionanti nel modificare immagini con composizioni semplici. Tuttavia, l'editing localizzato in scenari complessi non è stato ampiamente studiato in letteratura, nonostante la crescente domanda nel mondo reale. I metodi esistenti di inpainting basati su maschere non riescono a preservare la struttura sottostante all'interno della regione da modificare. Nel frattempo, i metodi basati sull'attenzione senza maschera spesso mostrano perdite di editing e disallineamenti in composizioni più complesse. In questo lavoro, sviluppiamo MAG-Edit, un metodo di ottimizzazione in fase di inferenza che non richiede addestramento, che consente l'editing localizzato di immagini in scenari complessi. In particolare, MAG-Edit ottimizza la caratteristica latente del rumore nei modelli di diffusione massimizzando due vincoli di cross-attention basati su maschera del token di editing, migliorando gradualmente l'allineamento locale con il prompt desiderato. Esperimenti quantitativi e qualitativi estesi dimostrano l'efficacia del nostro metodo nel raggiungere sia l'allineamento testuale che la preservazione della struttura per l'editing localizzato in scenari complessi.
Il decoding speculativo migliora l'efficienza dei grandi modelli linguistici (LLM) sfruttando un modello di bozza per generare proposte che un modello target più grande può poi revisionare. Tuttavia, la generazione di bozze nel decoding speculativo comporta una lenta generazione autoregressiva e l'allocazione dello stesso tempo per token di diversa importanza. Queste due inefficienze portano a prestazioni subottimali. Per affrontare questo problema, introduciamo il Cascade Speculative Drafting (CS. Drafting), un approccio innovativo che utilizza due tipi di cascate. La Cascata Verticale elimina la generazione autoregressiva dai modelli neurali. La Cascata Orizzontale garantisce un'allocazione efficiente del tempo nella generazione di bozze, con la sua ottimalità supportata dalla nostra analisi teorica. Combinando entrambe le cascate, il nostro algoritmo CS. Drafting ha ottenuto un incremento di velocità fino al 72% rispetto al decoding speculativo nei nostri esperimenti, mantenendo la stessa distribuzione di output.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati per compiti di pianificazione complessi e multi-step, in cui il passaggio di recupero degli strumenti (TR) è cruciale per ottenere risultati di successo. Due approcci prevalenti per il TR sono il recupero a singolo step, che utilizza la query completa, e il recupero sequenziale basato sulla scomposizione del task (TD), in cui una query completa viene segmentata in sottotask atomici discreti. Mentre il recupero a singolo step manca della flessibilità necessaria per gestire la "dipendenza inter-strumenti", l'approccio TD richiede di mantenere l'"allineamento atomicità sottotask-strumenti", poiché la toolbox può evolversi dinamicamente. Per affrontare queste limitazioni, introduciamo il framework Progressive Tool retrieval to Improve Planning (ProTIP). ProTIP è un framework leggero basato sull'apprendimento contrastivo che esegue implicitamente la TD senza la necessità esplicita di etichette per i sottotask, mantenendo contemporaneamente l'atomicità sottotask-strumenti. Sul dataset ToolBench, ProTIP supera l'approccio basato sulla scomposizione del task di ChatGPT con un margine significativo, ottenendo un miglioramento del 24% nel Recall@K=10 per il TR e un incremento del 41% nell'accuratezza degli strumenti per la generazione del piano.
Il successo dei grandi modelli linguistici ha modificato i paradigmi di valutazione nel campo dell'elaborazione del linguaggio naturale (NLP). L'interesse della comunità si è spostato verso il confronto dei modelli NLP su molteplici task, domini e dataset, spesso su scala estremamente ampia. Ciò impone nuove sfide ingegneristiche: gli sforzi nella costruzione di dataset e modelli sono stati frammentati, e i loro formati e interfacce sono incompatibili. Di conseguenza, spesso sono necessari sforzi significativi di (ri)implementazione per effettuare confronti equi e controllati su larga scala. Catwalk mira a risolvere questi problemi. Catwalk fornisce un'interfaccia unificata per una vasta gamma di dataset e modelli NLP esistenti, che vanno dal classico addestramento supervisionato e fine-tuning, a paradigmi più moderni come l'apprendimento in-context. Le sue astrazioni progettate con cura consentono facili estensioni a molti altri. Catwalk riduce sostanzialmente le barriere per condurre esperimenti controllati su larga scala. Ad esempio, abbiamo eseguito il fine-tuning e valutato oltre 64 modelli su più di 86 dataset con un singolo comando, senza scrivere alcun codice. Mantenuto dal team AllenNLP presso l'Allen Institute for Artificial Intelligence (AI2), Catwalk è uno sforzo open-source in corso: https://github.com/allenai/catwalk.
I metodi di distillazione della conoscenza hanno recentemente dimostrato di essere una direzione promettente per accelerare la sintesi di modelli di diffusione su larga scala, richiedendo solo pochi passaggi di inferenza. Sebbene siano stati proposti recentemente diversi metodi di distillazione potenti, la qualità complessiva dei campioni dello studente è tipicamente inferiore rispetto a quelli del docente, il che ne ostacola l'uso pratico. In questo lavoro, indaghiamo la qualità relativa dei campioni prodotti dal modello di diffusione testo-immagine docente e dalla sua versione distillata dello studente. Come principale risultato empirico, scopriamo che una porzione significativa dei campioni dello studente mostra una fedeltà superiore rispetto a quelli del docente, nonostante la natura "approssimata" dello studente. Sulla base di questa scoperta, proponiamo una collaborazione adattiva tra modelli di diffusione studente e docente per una sintesi efficace di testo-immagine. Nello specifico, il modello distillato produce il campione iniziale, e poi un oracolo decide se necessita di ulteriori miglioramenti con un modello docente lento. Esperimenti estesi dimostrano che la pipeline progettata supera le alternative state-of-the-art per la sintesi testo-immagine per vari budget di inferenza in termini di preferenza umana. Inoltre, l'approccio proposto può essere naturalmente utilizzato in applicazioni popolari come l'editing di immagini guidato da testo e la generazione controllata.
Il campionamento guidato senza addestramento nei modelli di diffusione sfrutta reti pre-addestrate già disponibili, come un modello di valutazione estetica, per guidare il processo di generazione. Gli attuali algoritmi di campionamento guidato senza addestramento ottengono la funzione di energia di guida basandosi su una stima a un passo dell'immagine pulita. Tuttavia, poiché le reti pre-addestrate disponibili sono state addestrate su immagini pulite, la procedura di stima a un passo dell'immagine pulita potrebbe essere imprecisa, specialmente nelle fasi iniziali del processo di generazione nei modelli di diffusione. Ciò rende la guida nei primi passi temporali inaccurata. Per superare questo problema, proponiamo la Symplectic Adjoint Guidance (SAG), che calcola il gradiente di guida in due fasi interne. In primo luogo, la SAG stima l'immagine pulita tramite n chiamate di funzione, dove n funge da iperparametro flessibile che può essere adattato per soddisfare specifici requisiti di qualità dell'immagine. In secondo luogo, la SAG utilizza il metodo aggiunto simplettico per ottenere i gradienti in modo accurato ed efficiente in termini di requisiti di memoria. Esperimenti estensivi dimostrano che la SAG genera immagini di qualità superiore rispetto ai metodi di riferimento sia nei compiti di generazione guidata di immagini che di video.
Questo articolo introduce un innovativo codificatore volumetrico 3D progettato per la generazione di modelli 3D da testo. Per ampliare i dati di addestramento del modello di diffusione, è stata sviluppata una rete leggera per acquisire in modo efficiente volumi di feature da immagini multi-vista. I volumi 3D vengono poi addestrati su un modello di diffusione per la generazione di modelli 3D da testo utilizzando una 3D U-Net. La ricerca affronta inoltre le sfide legate alle descrizioni imprecise degli oggetti e ai volumi di feature ad alta dimensionalità. Il modello proposto, addestrato sul dataset pubblico Objaverse, dimostra risultati promettenti nella produzione di campioni diversificati e riconoscibili a partire da prompt testuali. In particolare, consente un controllo più fine sulle caratteristiche delle parti degli oggetti attraverso suggerimenti testuali, favorendo la creatività del modello mediante la combinazione fluida di più concetti all'interno di un singolo oggetto. Questa ricerca contribuisce significativamente al progresso della generazione 3D introducendo una metodologia di rappresentazione efficiente, flessibile e scalabile. Il codice è disponibile all'indirizzo https://github.com/tzco/VolumeDiffusion.
Proponiamo un metodo per la ricostruzione dinamica di scene utilizzando Gaussiane 3D deformabili, specificamente progettato per video monoculari. Basandoci sull'efficienza dello splatting Gaussiano, il nostro approccio estende la rappresentazione per includere elementi dinamici attraverso un insieme deformabile di Gaussiane situate in uno spazio canonico, e un campo di deformazione dipendente dal tempo definito da un perceptron multistrato (MLP). Inoltre, partendo dall'assunzione che la maggior parte delle scene naturali presenti ampie regioni statiche, permettiamo all'MLP di concentrare la sua capacità rappresentativa includendo anche una nuvola di punti Gaussiana statica. Le nuvole di punti dinamiche e statiche concatenate formano l'input per il rasterizzatore di Gaussian Splatting, consentendo il rendering in tempo reale. La pipeline differenziabile viene ottimizzata end-to-end con una funzione di perdita di rendering auto-supervisionata. Il nostro metodo ottiene risultati comparabili ai metodi all'avanguardia basati su campi di radianza neurali dinamici, consentendo al contempo un'ottimizzazione e un rendering molto più rapidi. Sito web del progetto: https://lynl7130.github.io/gaufre/index.html