Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo GAIA, un benchmark per Assistenti AI Generali che, se risolto, rappresenterebbe una pietra miliare nella ricerca sull'IA. GAIA propone domande del mondo reale che richiedono un insieme di abilità fondamentali come il ragionamento, la gestione della multimodalità, la navigazione web e, in generale, la competenza nell'uso di strumenti. Le domande di GAIA sono concettualmente semplici per gli esseri umani ma rappresentano una sfida per la maggior parte delle IA avanzate: dimostriamo che i rispondenti umani ottengono il 92\% rispetto al 15\% di GPT-4 dotato di plugin. Questo notevole divario di prestazione contrasta con la recente tendenza dei modelli linguistici di grandi dimensioni (LLM) che superano gli esseri umani in compiti che richiedono competenze professionali, ad esempio nel diritto o nella chimica. La filosofia di GAIA si discosta dalla tendenza attuale nei benchmark di IA che suggeriscono di puntare a compiti sempre più difficili per gli esseri umani. Sosteniamo che l'avvento dell'Intelligenza Artificiale Generale (AGI) dipenda dalla capacità di un sistema di dimostrare una robustezza simile a quella dell'essere umano medio su tali domande. Utilizzando la metodologia di GAIA, abbiamo elaborato 466 domande e le relative risposte. Rilasciamo le nostre domande mantenendo riservate le risposte a 300 di esse per alimentare una classifica disponibile all'indirizzo https://huggingface.co/gaia-benchmark.
I metodi di generazione multimediale occupano un posto di rilievo nella ricerca sull'intelligenza artificiale. I modelli di testo-immagine hanno raggiunto risultati di alta qualità negli ultimi anni. Tuttavia, i metodi di sintesi video hanno iniziato a svilupparsi solo recentemente. Questo articolo presenta una nuova architettura di generazione video da testo basata su un modello di diffusione latente in due fasi, derivato dal modello di diffusione testo-immagine. La prima fase riguarda la sintesi dei fotogrammi chiave per delineare la trama di un video, mentre la seconda è dedicata alla generazione di fotogrammi di interpolazione per rendere fluidi i movimenti della scena e degli oggetti. Confrontiamo diversi approcci di condizionamento temporale per la generazione dei fotogrammi chiave. I risultati mostrano il vantaggio dell'uso di blocchi temporali separati rispetto agli strati temporali in termini di metriche che riflettono gli aspetti della qualità della generazione video e la preferenza umana. Il design del nostro modello di interpolazione riduce significativamente i costi computazionali rispetto ad altri approcci di interpolazione di fotogrammi mascherati. Inoltre, valutiamo diverse configurazioni dello schema di decodifica video basato su MoVQ per migliorare la coerenza e ottenere punteggi più elevati in PSNR, SSIM, MSE e LPIPS. Infine, confrontiamo la nostra pipeline con le soluzioni esistenti e raggiungiamo i punteggi top-2 complessivi e top-1 tra le soluzioni open-source: CLIPSIM = 0.2976 e FVD = 433.054. Pagina del progetto: https://ai-forever.github.io/kandinsky-video/
Con l'ampia diffusione di dispositivi e contenuti VR, le richieste per tecniche di generazione di scene 3D stanno diventando sempre più popolari. I modelli esistenti per la generazione di scene 3D, tuttavia, limitano la scena target a domini specifici, principalmente a causa delle loro strategie di addestramento che utilizzano dataset di scansioni 3D lontani dal mondo reale. Per affrontare tale limitazione, proponiamo LucidDreamer, una pipeline di generazione di scene senza vincoli di dominio, sfruttando appieno la potenza dei modelli generativi basati su diffusione su larga scala esistenti. Il nostro LucidDreamer prevede due passaggi alternati: Dreaming e Alignment. Innanzitutto, per generare immagini coerenti da più prospettive a partire dagli input, utilizziamo la nuvola di punti come guida geometrica per la generazione di ciascuna immagine. Nello specifico, proiettiamo una porzione della nuvola di punti nella vista desiderata e forniamo la proiezione come guida per l'inpainting utilizzando il modello generativo. Le immagini ricostruite vengono elevate nello spazio 3D con mappe di profondità stimate, componendo nuovi punti. In secondo luogo, per aggregare i nuovi punti nella scena 3D, proponiamo un algoritmo di allineamento che integra armoniosamente le porzioni di scene 3D appena generate. La scena 3D ottenuta alla fine serve come punti iniziali per ottimizzare gli splat gaussiani. LucidDreamer produce splat gaussiani altamente dettagliati rispetto ai precedenti metodi di generazione di scene 3D, senza vincoli sul dominio della scena target.
I grandi modelli linguistici (LLM) vengono affinati utilizzando dati di confronto umano con metodi di Reinforcement Learning from Human Feedback (RLHF) per renderli meglio allineati alle preferenze degli utenti. Al contrario dei LLM, l'apprendimento delle preferenze umane non è stato ampiamente esplorato nei modelli di diffusione testo-immagine; il miglior approccio esistente consiste nell'affinare un modello pre-addestrato utilizzando immagini e didascalie di alta qualità accuratamente selezionate per migliorare l'attrattiva visiva e l'allineamento al testo. Proponiamo Diffusion-DPO, un metodo per allineare i modelli di diffusione alle preferenze umane ottimizzando direttamente i dati di confronto umano. Diffusion-DPO è adattato dal recentemente sviluppato Direct Preference Optimization (DPO), un'alternativa più semplice all'RLHF che ottimizza direttamente una politica che soddisfa al meglio le preferenze umane sotto un obiettivo di classificazione. Riformuliamo il DPO per tenere conto di una nozione di verosimiglianza per i modelli di diffusione, utilizzando il limite inferiore dell'evidenza per derivare un obiettivo differenziabile. Utilizzando il dataset Pick-a-Pic di 851K preferenze pairwise crowdsourced, affiniamo il modello base dello stato dell'arte Stable Diffusion XL (SDXL)-1.0 con Diffusion-DPO. Il nostro modello base affinato supera significativamente sia il modello base SDXL-1.0 che il modello più grande SDXL-1.0 composto da un ulteriore modello di raffinamento nella valutazione umana, migliorando l'attrattiva visiva e l'allineamento al prompt. Sviluppiamo anche una variante che utilizza feedback AI e ha prestazioni comparabili all'addestramento sulle preferenze umane, aprendo la strada alla scalabilità dei metodi di allineamento dei modelli di diffusione.
I metodi per il fine-tuning di modelli generativi per la personalizzazione guidata da concetti ottengono generalmente risultati solidi per la generazione guidata da soggetti o stili. Recentemente, sono state proposte adattamenti a basso rango (LoRA) come un approccio efficiente in termini di parametri per raggiungere la personalizzazione guidata da concetti. Mentre lavori recenti esplorano la combinazione di LoRA separati per ottenere la generazione congiunta di stili e soggetti appresi, le tecniche esistenti non affrontano in modo affidabile il problema; spesso compromettono la fedeltà al soggetto o allo stile. Proponiamo ZipLoRA, un metodo per unire in modo economico ed efficace LoRA di stile e soggetto addestrati in modo indipendente, al fine di ottenere la generazione di qualsiasi soggetto fornito dall'utente in qualsiasi stile fornito dall'utente. Esperimenti su un'ampia gamma di combinazioni di soggetti e stili dimostrano che ZipLoRA può generare risultati convincenti con miglioramenti significativi rispetto ai baseline nella fedeltà al soggetto e allo stile, preservando la capacità di ricontestualizzare. Pagina del progetto: https://ziplora.github.io
L'utilizzo del reinforcement learning con feedback umano (RLHF) ha dimostrato un potenziale significativo nel fine-tuning dei modelli di diffusione. I metodi precedenti iniziano addestrando un modello di ricompensa allineato alle preferenze umane, per poi sfruttare tecniche di RL per ottimizzare i modelli sottostanti. Tuttavia, la creazione di un modello di ricompensa efficiente richiede dataset estesi, architetture ottimali e una regolazione manuale degli iperparametri, rendendo il processo sia dispendioso in termini di tempo che di costi. Il metodo di ottimizzazione diretta delle preferenze (DPO), efficace nel fine-tuning di grandi modelli linguistici, elimina la necessità di un modello di ricompensa. Tuttavia, l'elevato requisito di memoria GPU del processo di denoising dei modelli di diffusione ostacola l'applicazione diretta del metodo DPO. Per affrontare questo problema, introduciamo il metodo Direct Preference for Denoising Diffusion Policy Optimization (D3PO) per ottimizzare direttamente i modelli di diffusione. L'analisi teorica dimostra che, sebbene D3PO ometta l'addestramento di un modello di ricompensa, funziona efficacemente come il modello di ricompensa ottimale addestrato utilizzando dati di feedback umano per guidare il processo di apprendimento. Questo approccio non richiede l'addestramento di un modello di ricompensa, risultando più diretto, economico e riducendo al minimo l'overhead computazionale. Negli esperimenti, il nostro metodo utilizza la scala relativa degli obiettivi come proxy per le preferenze umane, ottenendo risultati comparabili a quelli dei metodi che utilizzano ricompense reali. Inoltre, D3PO dimostra la capacità di ridurre i tassi di distorsione delle immagini e di generare immagini più sicure, superando le sfide legate alla mancanza di modelli di ricompensa robusti.
Estendere i Large Multimodal Models (LMM) basati su immagini ai video è una sfida a causa della complessità intrinseca dei dati video. Gli approcci recenti che estendono i LMM basati su immagini ai video mancano di capacità di grounding (ad esempio, VideoChat, Video-ChatGPT, Video-LLaMA) o non utilizzano i segnali audio per una migliore comprensione del video (ad esempio, Video-ChatGPT). Per colmare queste lacune, proponiamo Video-LLaVA, il primo LMM con capacità di grounding a livello di pixel, che integra gli indizi audio trascrivendoli in testo per arricchire la comprensione del contesto video. Il nostro framework utilizza un tracker preesistente e un nuovo modulo di grounding, consentendogli di localizzare oggetti nei video sia spazialmente che temporalmente seguendo le istruzioni dell'utente. Valutiamo Video-LLaVA utilizzando benchmark generativi e di risposta alle domande basati su video e introduciamo nuovi benchmark specificamente progettati per misurare le prestazioni di grounding degli oggetti nei video basati su prompt. Inoltre, proponiamo l'uso di Vicuna rispetto a GPT-3.5, utilizzato in Video-ChatGPT, per il benchmarking delle conversazioni basate su video, garantendo la riproducibilità dei risultati, che è un problema a causa della natura proprietaria di GPT-3.5. Il nostro framework si basa sul modello LLaVA basato su immagini SoTA e ne estende i vantaggi al dominio video, ottenendo promettenti miglioramenti nelle attività di conversazione e grounding basate su video. Pagina del progetto: https://github.com/mbzuai-oryx/Video-LLaVA
Il prompting in-context nei grandi modelli linguistici (LLM) è diventato un approccio diffuso per migliorare le capacità zero-shot, ma questa idea è meno esplorata nel dominio visivo. I metodi esistenti di prompting visivo si concentrano sulla segmentazione referenziale per isolare l'oggetto più rilevante, risultando insufficienti per affrontare molti compiti generici di visione come la segmentazione e il rilevamento in contesti open-set. In questo articolo, introduciamo un framework universale di prompting visivo in-context per entrambi i compiti. In particolare, ci basiamo su un'architettura encoder-decoder e sviluppiamo un prompt encoder versatile in grado di supportare una varietà di prompt come tratti, riquadri e punti. Lo miglioriamo ulteriormente per accettare un numero arbitrario di segmenti di immagini di riferimento come contesto. Le nostre ampie esplorazioni dimostrano che il prompting visivo in-context proposto stimola capacità straordinarie di segmentazione referenziale e generica per riferire e rilevare, ottenendo prestazioni competitive su dataset in-domain a set chiuso e mostrando risultati promettenti su molti dataset di segmentazione open-set. Addestrando congiuntamente su COCO e SA-1B, il nostro modello raggiunge 57.7 PQ su COCO e 23.2 PQ su ADE20K. Il codice sarà disponibile su https://github.com/UX-Decoder/DINOv.
Questo è un rapporto tecnico sul compito di generazione di immagini panoramiche a 360 gradi basato su modelli di diffusione. A differenza delle normali immagini 2D, le immagini panoramiche a 360 gradi catturano l'intero campo visivo di 360^circ × 180^circ. Pertanto, i lati più a destra e più a sinistra dell'immagine panoramica a 360 gradi dovrebbero essere continui, il che rappresenta la principale sfida in questo campo. Tuttavia, l'attuale pipeline di diffusione non è adatta per generare un'immagine panoramica a 360 gradi senza soluzione di continuità. A tal fine, proponiamo una strategia di fusione circolare sia nelle fasi di denoising che di decodifica VAE per mantenere la continuità geometrica. Sulla base di ciò, presentiamo due modelli per i compiti di Text-to-360-panorami e Single-Image-to-360-panorami. Il codice è stato rilasciato come progetto open-source su https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} e https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}.