Articoli di ricerca IA selezionati quotidianamente con traduzioni
Con il progredire dello sviluppo dei grandi modelli linguistici (LLM), allinearli alle preferenze umane è diventato sempre più importante. Proponiamo lo sDPO (stepwise DPO), un'estensione dell'ottimizzazione diretta delle preferenze (DPO), recentemente popolarizzata per la messa a punto dell'allineamento. Questo approccio prevede di suddividere i dataset di preferenze disponibili e di utilizzarli in modo graduale, anziché impiegarli tutti in una sola volta. Dimostriamo che questo metodo facilita l'uso di modelli di riferimento più precisamente allineati all'interno del framework di addestramento DPO. Inoltre, lo sDPO addestra il modello finale a essere più performante, superando persino altri LLM popolari con un numero maggiore di parametri.
Il 3D Gaussian Splatting (GS) ha ottenuto miglioramenti significativi rispetto ai Neural Radiance Fields in termini di fedeltà di adattamento 3D e velocità di rendering. Tuttavia, questa rappresentazione non strutturata con Gaussiane sparse rappresenta una sfida significativa per la modellazione generativa. Per affrontare il problema, introduciamo GaussianCube, una rappresentazione strutturata di GS che è sia potente che efficiente per la modellazione generativa. Raggiungiamo questo obiettivo proponendo innanzitutto un algoritmo di adattamento GS modificato con vincoli di densificazione, che può produrre risultati di adattamento di alta qualità utilizzando un numero fisso di Gaussiane libere, e poi riorganizzando le Gaussiane in una griglia di voxel predefinita tramite Optimal Transport. La rappresentazione strutturata su griglia ci consente di utilizzare una standard 3D U-Net come backbone nella modellazione generativa basata su diffusione senza necessità di progettazioni elaborate. Esperimenti estensivi condotti su ShapeNet e OmniObject3D dimostrano che il nostro modello raggiunge risultati di generazione all'avanguardia sia qualitativamente che quantitativamente, evidenziando il potenziale di GaussianCube come rappresentazione 3D potente e versatile.
Ci sono stati enormi progressi nei modelli linguistici multimodali di grandi dimensioni (LLM). Recenti lavori hanno esteso questi modelli all'input video, dimostrando promettenti capacità di seguire istruzioni. Tuttavia, un importante elemento mancante è la localizzazione temporale. Questi modelli non sono in grado di rispondere accuratamente alle domande sul "Quando?". Identifichiamo tre aspetti chiave che limitano le loro capacità di localizzazione temporale: (i) rappresentazione del tempo, (ii) architettura e (iii) dati. Affrontiamo queste carenze proponendo Language Instructed Temporal-Localization Assistant (LITA) con le seguenti caratteristiche: (1) Introduciamo token temporali che codificano timestamp relativi alla durata del video per rappresentare meglio il tempo nei video. (2) Introduciamo token SlowFast nell'architettura per catturare informazioni temporali con una risoluzione temporale fine. (3) Poniamo enfasi sui dati di localizzazione temporale per LITA. Oltre a sfruttare i dataset video esistenti con timestamp, proponiamo un nuovo compito, Reasoning Temporal Localization (RTL), insieme al dataset ActivityNet-RTL, per l'apprendimento e la valutazione di questo compito. La localizzazione temporale ragionata richiede sia il ragionamento che la localizzazione temporale dei Video LLM. LITA dimostra prestazioni solide in questo compito impegnativo, quasi raddoppiando la media temporale dell'intersezione sull'unione (mIoU) rispetto ai baseline. Inoltre, mostriamo che la nostra enfasi sulla localizzazione temporale migliora sostanzialmente anche la generazione di testo basata su video rispetto agli attuali Video LLM, inclusa un miglioramento relativo del 36% nella comprensione temporale. Il codice è disponibile all'indirizzo: https://github.com/NVlabs/LITA.
I modelli generativi testo-immagine basati su diffusione, come Stable Diffusion, hanno rivoluzionato il campo della generazione di contenuti, consentendo progressi significativi in aree come l'editing di immagini e la sintesi video. Nonostante le loro formidabili capacità, questi modelli non sono privi di limitazioni. È ancora impegnativo sintetizzare un'immagine che si allinei bene con il testo di input, e sono necessarie molteplici esecuzioni con prompt accuratamente progettati per ottenere risultati soddisfacenti. Per mitigare queste limitazioni, numerosi studi si sono impegnati a perfezionare i modelli di diffusione pre-addestrati, come UNet, utilizzando varie tecnologie. Tuttavia, in mezzo a questi sforzi, una domanda cruciale sull'addestramento dei modelli di diffusione testo-immagine è rimasta in gran parte inesplorata: è possibile e fattibile perfezionare l'encoder di testo per migliorare le prestazioni dei modelli di diffusione testo-immagine? Le nostre scoperte rivelano che, invece di sostituire l'encoder di testo CLIP utilizzato in Stable Diffusion con altri modelli linguistici di grandi dimensioni, possiamo migliorarlo attraverso il nostro approccio di perfezionamento proposto, TextCraftor, portando a miglioramenti sostanziali nei benchmark quantitativi e nelle valutazioni umane. È interessante notare che la nostra tecnica consente anche la generazione controllata di immagini attraverso l'interpolazione di diversi encoder di testo perfezionati con varie ricompense. Dimostriamo inoltre che TextCraftor è ortogonale al perfezionamento di UNet e può essere combinato per migliorare ulteriormente la qualità generativa.
Presentiamo Mesh2NeRF, un approccio per derivare campi di radianza di riferimento da mesh testurizzate per compiti di generazione 3D. Molti metodi generativi 3D rappresentano scene 3D come campi di radianza per l'addestramento. I loro campi di radianza di riferimento sono solitamente adattati da rendering multi-vista provenienti da un ampio dataset sintetico 3D, il che spesso porta ad artefatti dovuti a occlusioni o problemi di under-fitting. In Mesh2NeRF, proponiamo una soluzione analitica per ottenere direttamente campi di radianza di riferimento da mesh 3D, caratterizzando il campo di densità con una funzione di occupazione che presenta uno spessore superficiale definito, e determinando il colore dipendente dalla vista attraverso una funzione di riflessione che considera sia la mesh che l'illuminazione ambientale. Mesh2NeRF estrae campi di radianza accurati che forniscono una supervisione diretta per l'addestramento di NeRF generativi e la rappresentazione di scene singole. Validiamo l'efficacia di Mesh2NeRF in vari compiti, ottenendo un miglioramento significativo di 3.12 dB in PSNR per la sintesi di viste nella rappresentazione di scene singole sul dataset ABO, un incremento di 0.69 PSNR nella generazione condizionata da singola vista di ShapeNet Cars, e un notevole miglioramento nell'estrazione di mesh da NeRF nella generazione non condizionata di Objaverse Mugs.