Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'ottimizzazione è onnipresente. Sebbene gli algoritmi basati sulle derivate siano stati strumenti potenti per vari problemi, l'assenza di gradiente pone sfide in molte applicazioni del mondo reale. In questo lavoro, proponiamo l'Ottimizzazione tramite PROmpting (OPRO), un approccio semplice ed efficace per sfruttare i grandi modelli linguistici (LLM) come ottimizzatori, dove il compito di ottimizzazione è descritto in linguaggio naturale. In ogni passo di ottimizzazione, l'LLM genera nuove soluzioni dal prompt che contiene le soluzioni precedentemente generate con i loro valori, poi le nuove soluzioni vengono valutate e aggiunte al prompt per il passo di ottimizzazione successivo. Mostriamo prima OPRO su problemi di regressione lineare e del commesso viaggiatore, per poi passare all'ottimizzazione dei prompt, dove l'obiettivo è trovare istruzioni che massimizzino l'accuratezza del compito. Con una varietà di LLM, dimostriamo che i migliori prompt ottimizzati da OPRO superano i prompt progettati da esseri umani fino all'8% su GSM8K e fino al 50% sui task di Big-Bench Hard.
I grandi modelli linguistici (LLM) hanno ottenuto un successo straordinario nei compiti di NLP e multimodali. Nonostante questi successi, il loro sviluppo affronta due principali sfide: (i) l'elevato costo computazionale; e (ii) la difficoltà nel condurre valutazioni eque e oggettive. Gli LLM sono proibitivamente costosi, rendendo fattibile il loro addestramento solo per pochi grandi attori, limitando così sia le opportunità di ricerca che di applicazione. Ciò sottolinea l'importanza di un addestramento degli LLM economicamente vantaggioso. In questo articolo, utilizziamo una strategia di crescita per ridurre significativamente il costo di addestramento degli LLM. Dimostriamo che un LLM con 101 miliardi di parametri e 0,31 terabyte di token può essere addestrato con un budget di 100 mila dollari. Adottiamo inoltre un paradigma di valutazione sistematico per la valutazione del QI degli LLM, complementare alle valutazioni esistenti che si concentrano maggiormente sulle abilità orientate alla conoscenza. Introduciamo il nostro benchmark includendo valutazioni su aspetti importanti dell'intelligenza come la mappatura simbolica, la comprensione delle regole, l'estrazione di pattern e l'anti-interferenza. Tali valutazioni minimizzano il potenziale impatto della memorizzazione. I risultati sperimentali mostrano che il nostro modello FLM-101B, addestrato con un budget di 100 mila dollari, raggiunge prestazioni comparabili a modelli potenti e ben noti, come GPT-3 e GLM-130B, specialmente nelle valutazioni del benchmark QI con contesti non visti nei dati di addestramento. Il checkpoint di FLM-101B sarà open-source su https://huggingface.co/CofeAI/FLM-101B.
Nonostante le loro impressionanti capacità, i grandi modelli linguistici (LLM) sono inclini a generare allucinazioni, ovvero contenuti che si discostano dai fatti osservati durante il pre-addestramento. Proponiamo una semplice strategia di decodifica per ridurre le allucinazioni nei LLM pre-addestrati che non richiede il condizionamento su conoscenze esterne recuperate né un ulteriore fine-tuning. Il nostro approccio ottiene la distribuzione del token successivo confrontando le differenze nei logit ottenuti proiettando gli strati più profondi rispetto a quelli più superficiali nello spazio del vocabolario, sfruttando il fatto che la conoscenza fattuale in un LLM è generalmente localizzata in specifici strati del trasformatore. Scopriamo che questo approccio di Decodifica per Contrasto degli Strati (DoLa) è in grado di far emergere meglio la conoscenza fattuale e ridurre la generazione di fatti errati. DoLa migliora costantemente la veridicità in compiti a scelta multipla e in compiti di generazione aperta, ad esempio migliorando le prestazioni dei modelli della famiglia LLaMA su TruthfulQA del 12-17% in punti assoluti, dimostrando il suo potenziale nel far sì che i LLM generino fatti veritieri in modo affidabile.
La propagazione basata sul flusso ottico e il Transformer spaziotemporale sono due meccanismi principali nel campo del video inpainting (VI). Nonostante l'efficacia di questi componenti, essi presentano ancora alcune limitazioni che ne influenzano le prestazioni. Gli approcci precedenti basati sulla propagazione sono stati eseguiti separatamente nel dominio dell'immagine o delle feature. La propagazione globale dell'immagine, isolata dall'apprendimento, può causare disallineamenti spaziali a causa di flussi ottici imprecisi. Inoltre, vincoli di memoria o computazionali limitano l'intervallo temporale della propagazione delle feature e del Transformer video, impedendo l'esplorazione delle informazioni di corrispondenza da frame distanti. Per affrontare questi problemi, proponiamo un framework migliorato, chiamato ProPainter, che include una propagazione potenziata e un Transformer efficiente. Nello specifico, introduciamo una propagazione a doppio dominio che combina i vantaggi del warping dell'immagine e delle feature, sfruttando in modo affidabile le corrispondenze globali. Proponiamo inoltre un Transformer video sparso guidato da maschera, che raggiunge un'elevata efficienza scartando token non necessari e ridondanti. Grazie a questi componenti, ProPainter supera i precedenti metodi con un ampio margine di 1.46 dB in PSNR, mantenendo un'efficienza attraente.
I dati di addestramento per la segmentazione video sono costosi da annotare. Ciò ostacola l'estensione degli algoritmi end-to-end a nuove attività di segmentazione video, specialmente in contesti con un ampio vocabolario. Per "tracciare qualsiasi cosa" senza addestrare su dati video per ogni singola attività, sviluppiamo un approccio di segmentazione video disaccoppiato (DEVA), composto da una segmentazione a livello di immagine specifica per il compito e una propagazione temporale bidirezionale agnostica rispetto alla classe o al compito. Grazie a questa progettazione, abbiamo bisogno solo di un modello a livello di immagine per il compito target (che è più economico da addestrare) e di un modello universale di propagazione temporale che viene addestrato una volta e si generalizza su diversi compiti. Per combinare efficacemente questi due moduli, utilizziamo la propagazione bidirezionale per la fusione (semi-)online delle ipotesi di segmentazione provenienti da frame diversi, al fine di generare una segmentazione coerente. Dimostriamo che questa formulazione disaccoppiata si confronta favorevolmente con gli approcci end-to-end in diverse attività con scarsi dati, tra cui la segmentazione panottica video con ampio vocabolario, la segmentazione video in mondo aperto, la segmentazione video riferita e la segmentazione video non supervisionata degli oggetti. Il codice è disponibile all'indirizzo: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
Presentiamo ImageBind-LLM, un metodo di ottimizzazione delle istruzioni multimodale per i grandi modelli linguistici (LLM) tramite ImageBind. I lavori esistenti si concentrano principalmente sull'ottimizzazione delle istruzioni per linguaggio e immagini, mentre il nostro ImageBind-LLM è in grado di rispondere a condizioni multimodali, inclusi audio, nuvole di punti 3D, video e la loro aritmetica nello spazio di embedding, attraverso un addestramento basato solo sull'allineamento immagine-testo. Durante l'addestramento, adottiamo una rete di binding apprendibile per allineare lo spazio di embedding tra LLaMA e l'encoder di immagini di ImageBind. Successivamente, le caratteristiche delle immagini trasformate dalla rete di binding vengono aggiunte ai token di parole di tutti i livelli in LLaMA, iniettando progressivamente istruzioni visive attraverso un meccanismo di gate senza attenzione e inizializzato a zero. Grazie all'embedding congiunto di ImageBind, il semplice addestramento immagine-testo consente al nostro modello di esibire capacità superiori di seguire istruzioni multimodali. Durante l'inferenza, gli input multimodali vengono inseriti nei corrispondenti encoder di ImageBind e processati da un modello di cache visiva proposto per un ulteriore miglioramento dell'embedding cross-modale. Il modello di cache, che non richiede addestramento, recupera da tre milioni di caratteristiche di immagini estratte da ImageBind, mitigando efficacemente la discrepanza tra le modalità di addestramento e inferenza. È importante notare che, con il nostro approccio, ImageBind-LLM è in grado di rispondere a istruzioni di diverse modalità e dimostrare una qualità significativa nella generazione del linguaggio. Il codice è disponibile all'indirizzo https://github.com/OpenGVLab/LLaMA-Adapter.
Presentiamo InstructDiffusion, un framework unificante e generico per allineare i compiti di visione artificiale con le istruzioni umane. A differenza degli approcci esistenti che integrano conoscenze pregresse e predefiniscono lo spazio di output (ad esempio, categorie e coordinate) per ogni task di visione, trasformiamo vari compiti di visione in un processo intuitivo di manipolazione delle immagini il cui spazio di output è uno spazio di pixel flessibile e interattivo. Nello specifico, il modello è basato sul processo di diffusione ed è addestrato a prevedere i pixel in base alle istruzioni dell'utente, come cerchiare in rosso la spalla sinistra di un uomo o applicare una maschera blu all'auto a sinistra. InstructDiffusion è in grado di gestire una varietà di task di visione, inclusi compiti di comprensione (come segmentazione e rilevamento di punti chiave) e compiti generativi (come modifica e miglioramento). Dimostra persino la capacità di gestire task non visti in precedenza e supera i metodi precedenti su nuovi dataset. Questo rappresenta un passo significativo verso un'interfaccia di modellazione generalista per i task di visione, avanzando l'intelligenza artificiale generale nel campo della visione artificiale.
In questo articolo, presentiamo un nuovo modello di diffusione chiamato SyncDreamer che genera immagini multivista coerenti a partire da un'immagine a singola vista. Utilizzando modelli di diffusione 2D su larga scala pre-addestrati, il recente lavoro Zero123 dimostra la capacità di generare nuove viste plausibili da un'immagine a singola vista di un oggetto. Tuttavia, mantenere la coerenza nella geometria e nei colori per le immagini generate rimane una sfida. Per affrontare questo problema, proponiamo un modello di diffusione multivista sincronizzato che modella la distribuzione di probabilità congiunta delle immagini multivista, consentendo la generazione di immagini multivista coerenti in un singolo processo inverso. SyncDreamer sincronizza gli stati intermedi di tutte le immagini generate a ogni passo del processo inverso attraverso un meccanismo di attenzione delle feature 3D che correla le feature corrispondenti tra diverse viste. Gli esperimenti dimostrano che SyncDreamer genera immagini con un'elevata coerenza tra diverse viste, rendendolo particolarmente adatto a varie attività di generazione 3D come la sintesi di nuove viste, il testo-a-3D e l'immagine-a-3D.
I recenti progressi nei modelli di diffusione come ControlNet hanno reso possibile la generazione di immagini ad alta fedeltà da testo con controllo geometrico. Tuttavia, nessuno di questi affronta la questione di aggiungere tale controllabilità alla generazione di modelli 3D da testo. In risposta, proponiamo Text2Control3D, un metodo controllabile per la generazione di avatar 3D da testo, in cui l'espressione facciale è controllabile a partire da un video monoculare acquisito casualmente con una telecamera portatile. La nostra strategia principale consiste nel costruire l'avatar 3D in Neural Radiance Fields (NeRF) ottimizzato con un insieme di immagini controllate e dipendenti dal punto di vista che generiamo da ControlNet, il cui input condizionale è la mappa di profondità estratta dal video in ingresso. Durante la generazione delle immagini dipendenti dal punto di vista, utilizziamo l'attenzione cross-reference per iniettare un'espressione facciale e un aspetto ben controllati e referenziali tramite l'attenzione incrociata. Eseguiamo inoltre un filtraggio passa-basso del latente gaussiano del modello di diffusione per mitigare il problema della texture indipendente dal punto di vista osservato nella nostra analisi empirica, in cui le immagini dipendenti dal punto di vista contengono texture identiche su posizioni di pixel identiche che risultano incomprensibili in 3D. Infine, per addestrare NeRF con immagini che sono dipendenti dal punto di vista ma non strettamente consistenti nella geometria, il nostro approccio considera la variazione geometrica per immagine come una vista di deformazione da uno spazio canonico 3D condiviso. Di conseguenza, costruiamo l'avatar 3D in uno spazio canonico di NeRF deformabile apprendendo un insieme di deformazioni per immagine tramite una tabella di campi di deformazione. Dimostriamo i risultati empirici e discutiamo l'efficacia del nostro metodo.
I modelli linguistici di grandi dimensioni (LLM) sono diventati onnipresenti in vari ambiti, trasformando il modo in cui interagiamo con le informazioni e conduciamo ricerche. Tuttavia, la maggior parte degli LLM ad alte prestazioni rimane confinata dietro barriere proprietarie, ostacolando il progresso scientifico. D'altra parte, la maggior parte degli LLM open-source è limitata nella capacità di supportare sequenze più lunghe, un requisito chiave per molti compiti che richiedono inferenza su un contesto di input. Per affrontare questo problema, abbiamo addestrato XGen, una serie di modelli da 7 miliardi di parametri su sequenze fino a 8K token per un totale di 1,5 trilioni di token. Abbiamo inoltre perfezionato i modelli XGen su dati didattici di dominio pubblico, creando le loro versioni ottimizzate per istruzioni (XGen-Inst). Rendiamo open-source i nostri modelli sia per avanzamenti nella ricerca che per applicazioni commerciali. La nostra valutazione su benchmark standard mostra che i modelli XGen raggiungono risultati comparabili o migliori rispetto agli LLM open-source all'avanguardia. La nostra valutazione mirata su compiti di modellazione di sequenze lunghe evidenzia i vantaggi dei nostri modelli a 8K token rispetto agli LLM open-source a 2K token.
Presentiamo un'analisi approfondita di un sistema di apprendimento robotico del mondo reale che, in lavori precedenti, ha dimostrato di essere in grado di eseguire centinaia di scambi di ping pong con un essere umano e di restituire con precisione la palla a bersagli desiderati. Questo sistema combina un sottosistema di percezione altamente ottimizzato, un controller robotico ad alta velocità e bassa latenza, un paradigma di simulazione che può prevenire danni nel mondo reale e addestrare politiche per il trasferimento zero-shot, e reset automatici dell'ambiente reale che consentono l'addestramento e la valutazione autonoma su robot fisici. Integriamo una descrizione completa del sistema, includendo numerose decisioni progettuali che tipicamente non vengono ampiamente divulgate, con una raccolta di studi che chiariscono l'importanza di mitigare varie fonti di latenza, tenere conto degli spostamenti delle distribuzioni durante l'addestramento e il dispiegamento, la robustezza del sistema di percezione, la sensibilità agli iperparametri delle politiche e la scelta dello spazio delle azioni. Un video che dimostra i componenti del sistema e i dettagli dei risultati sperimentali è disponibile all'indirizzo https://youtu.be/uFcnWjB42I0.
Ispirati dal notevole successo dei Modelli di Diffusione Latente (LDMs) per la sintesi di immagini, studiamo l'applicazione degli LDMs per la generazione di video da testo, una sfida impegnativa a causa dei vincoli computazionali e di memoria durante sia l'addestramento che l'inferenza del modello. Un singolo LDM è generalmente in grado di generare solo un numero molto limitato di fotogrammi video. Alcuni lavori esistenti si concentrano su modelli di previsione separati per generare più fotogrammi video, ma questi soffrono di costi aggiuntivi di addestramento e di instabilità a livello di fotogramma. In questo articolo, proponiamo un framework chiamato "Reuse and Diffuse", denominato VidRD, per produrre più fotogrammi seguendo quelli già generati da un LDM. Condizionato da un clip video iniziale con un numero ridotto di fotogrammi, fotogrammi aggiuntivi vengono generati iterativamente riutilizzando le caratteristiche latenti originali e seguendo il precedente processo di diffusione. Inoltre, per l'autoencoder utilizzato per la traduzione tra lo spazio dei pixel e lo spazio latente, iniettiamo strati temporali nel suo decoder e ottimizziamo questi strati per una maggiore coerenza temporale. Proponiamo anche una serie di strategie per comporre dati video-testo che includono contenuti diversificati da più dataset esistenti, tra cui dataset video per il riconoscimento di azioni e dataset immagine-testo. Esperimenti estensivi dimostrano che il nostro metodo ottiene buoni risultati sia nelle valutazioni quantitative che qualitative. La nostra pagina del progetto è disponibile {qui} https://anonymous0x233.github.io/ReuseAndDiffuse/.