Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante i recenti progressi nella ricerca sulla ricostruzione di esseri umani vestiti a partire da una singola immagine, il ripristino accurato delle "regioni non visibili" con dettagli di alto livello rimane una sfida irrisolta che riceve poca attenzione. I metodi esistenti spesso generano superfici posteriori eccessivamente levigate con texture sfocate. Ma come catturare efficacemente tutti gli attributi visivi di un individuo da una singola immagine, sufficienti a ricostruire le aree non visibili (ad esempio, la vista posteriore)? Ispirati dalla potenza dei modelli di base, TeCH ricostruisce l'umano 3D sfruttando 1) prompt testuali descrittivi (ad esempio, abbigliamento, colori, acconciature) generati automaticamente tramite un modello di analisi dell'abbigliamento e Visual Question Answering (VQA), 2) un modello di diffusione Text-to-Image (T2I) personalizzato e fine-tuned che apprende l'aspetto "indescrivibile". Per rappresentare esseri umani vestiti in 3D ad alta risoluzione a un costo accessibile, proponiamo una rappresentazione 3D ibrida basata su DMTet, che consiste in una griglia esplicita della forma del corpo e un campo di distanza implicito. Guidati dai prompt descrittivi e dal modello di diffusione T2I personalizzato, la geometria e la texture degli umani 3D vengono ottimizzate attraverso il campionamento di distillazione del punteggio multi-vista (SDS) e le perdite di ricostruzione basate sull'osservazione originale. TeCH produce esseri umani vestiti in 3D ad alta fedeltà con texture coerenti e raffinate, e una geometria corporea dettagliata. Esperimenti quantitativi e qualitativi dimostrano che TeCH supera i metodi all'avanguardia in termini di accuratezza di ricostruzione e qualità di rendering. Il codice sarà pubblicamente disponibile per scopi di ricerca all'indirizzo https://huangyangyi.github.io/tech.
La generazione di testi personalizzati è un'area di ricerca emergente che ha attirato molta attenzione negli ultimi anni. La maggior parte degli studi in questo ambito si concentra su un dominio specifico, progettando caratteristiche o modelli su misura. In questo lavoro, proponiamo un approccio generale per la generazione di testi personalizzati utilizzando modelli linguistici di grandi dimensioni (LLM). Ispirati dalla pratica dell'educazione alla scrittura, sviluppiamo un framework multistadio e multitask per insegnare agli LLM la generazione personalizzata. Nell'istruzione alla scrittura, il compito di scrivere a partire da fonti viene spesso scomposto in più fasi che includono la ricerca, la valutazione, la sintesi, l'integrazione e la rielaborazione delle informazioni. Analogamente, il nostro approccio alla generazione di testi personalizzati consiste in più fasi: recupero, classificazione, riassunto, sintesi e generazione. Inoltre, introduciamo un'impostazione multitask che aiuta ulteriormente il modello a migliorare la sua capacità di generazione, ispirata dall'osservazione nell'ambito educativo che la competenza di lettura e la capacità di scrittura di uno studente sono spesso correlate. Valutiamo il nostro approccio su tre dataset pubblici, ciascuno dei quali copre un dominio diverso e rappresentativo. I nostri risultati mostrano miglioramenti significativi rispetto a una varietà di baseline.
Con l'emergere dei modelli di diffusione, recentemente la generazione di video da testo ha attirato un'attenzione crescente. Tuttavia, un importante collo di bottiglia è che i video generati tendono spesso a presentare alcuni sfarfallii e artefatti. In questo lavoro, proponiamo una rete di diffusione a doppio flusso (DSDN) per migliorare la coerenza delle variazioni di contenuto nella generazione di video. In particolare, i due flussi di diffusione progettati, i rami del contenuto video e del movimento, non solo possono operare separatamente nei loro spazi privati per produrre variazioni video personalizzate e contenuti, ma possono anche essere ben allineati tra i domini del contenuto e del movimento sfruttando il nostro modulo di interazione cross-transformer progettato, il quale favorisce la fluidità dei video generati. Inoltre, introduciamo anche un decompositore e un combinatore di movimento per facilitare le operazioni sul movimento video. Esperimenti qualitativi e quantitativi dimostrano che il nostro metodo è in grado di produrre video continui sorprendenti con meno sfarfallii.
La generazione controllata di video ha attirato una significativa attenzione negli ultimi anni. Tuttavia, persistono due principali limitazioni: in primo luogo, la maggior parte dei lavori esistenti si concentra sul controllo basato su testo, immagini o traiettorie, portando a un'incapacità di ottenere un controllo fine nei video. In secondo luogo, la ricerca sul controllo delle traiettorie è ancora nelle sue fasi iniziali, con la maggior parte degli esperimenti condotti su dataset semplici come Human3.6M. Questo vincolo limita la capacità dei modelli di elaborare immagini di dominio aperto e gestire efficacemente traiettorie curve complesse. In questo articolo, proponiamo DragNUWA, un modello di generazione video basato su diffusione per dominio aperto. Per affrontare il problema dell'insufficiente granularità di controllo nei lavori esistenti, introduciamo simultaneamente informazioni testuali, visive e di traiettoria per fornire un controllo fine sul contenuto video da prospettive semantiche, spaziali e temporali. Per risolvere il problema del controllo limitato delle traiettorie in dominio aperto nella ricerca attuale, proponiamo una modellazione delle traiettorie con tre aspetti: un Campionatore di Traiettorie (TS) per abilitare il controllo in dominio aperto di traiettorie arbitrarie, una Fusione Multiscala (MF) per controllare le traiettorie con diverse granularità, e una strategia di Addestramento Adattivo (AT) per generare video coerenti seguendo le traiettorie. I nostri esperimenti convalidano l'efficacia di DragNUWA, dimostrando le sue prestazioni superiori nel controllo fine nella generazione di video. Il link alla homepage è https://www.microsoft.com/en-us/research/project/dragnuwa/.
I modelli di immagini auto-supervisionati e supervisionati dal linguaggio contengono una ricca conoscenza del mondo che è cruciale per la generalizzazione. Tuttavia, molte attività robotiche richiedono una comprensione dettagliata della geometria 3D, che spesso manca nelle caratteristiche delle immagini 2D. Questo lavoro colma il divario tra 2D e 3D per la manipolazione robotica sfruttando campi di caratteristiche distillati per combinare una geometria 3D precisa con una semantica ricca proveniente da modelli di base 2D. Presentiamo un metodo di apprendimento con pochi esempi per la presa e il posizionamento a 6 gradi di libertà che sfrutta questi forti preconcetti spaziali e semantici per ottenere una generalizzazione in contesti reali su oggetti mai visti. Utilizzando caratteristiche distillate da un modello visione-linguaggio, CLIP, presentiamo un modo per designare nuovi oggetti per la manipolazione tramite linguaggio naturale in testo libero, e dimostriamo la sua capacità di generalizzare a espressioni non viste e a nuove categorie di oggetti.
I metodi esistenti per la ricostruzione 4D di oggetti generali e non rigidamente deformati si concentrano sulla sintesi di nuove visualizzazioni e trascurano le corrispondenze. Tuttavia, la coerenza temporale abilita compiti avanzati come l'editing 3D, l'analisi del movimento o la creazione di asset virtuali. Proponiamo SceNeRFlow per ricostruire una scena generale e non rigida in modo temporalmente coerente. Il nostro metodo dynamic-NeRF prende in input video RGB multi-vista e immagini di sfondo provenienti da telecamere statiche con parametri noti. Ricostruisce quindi le deformazioni di un modello canonico stimato della geometria e dell'aspetto in modalità online. Poiché questo modello canonico è invariante nel tempo, otteniamo corrispondenze anche per movimenti a lungo termine e su larga scala. Utilizziamo rappresentazioni neurali della scena per parametrizzare i componenti del nostro metodo. Come i precedenti metodi dynamic-NeRF, utilizziamo un modello di deformazione inversa. Abbiamo riscontrato la necessità di adattamenti non banali di questo modello per gestire movimenti più ampi: scomponiamo le deformazioni in una componente grossolana fortemente regolarizzata e una componente fine debolmente regolarizzata, dove la componente grossolana estende anche il campo di deformazione nello spazio circostante l'oggetto, consentendo il tracking nel tempo. Mostriamo sperimentalmente che, a differenza dei lavori precedenti che gestiscono solo piccoli movimenti, il nostro metodo consente la ricostruzione di movimenti su scala da studio.