HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

12 papers found

Grandi Modelli Linguistici come Ottimizzatori
Large Language Models as Optimizers

Sep 7

ByChengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen

L'ottimizzazione è onnipresente. Sebbene gli algoritmi basati sulle derivate siano stati strumenti potenti per vari problemi, l'assenza di gradiente pone sfide in molte applicazioni del mondo reale. In questo lavoro, proponiamo l'Ottimizzazione tramite PROmpting (OPRO), un approccio semplice ed efficace per sfruttare i grandi modelli linguistici (LLM) come ottimizzatori, dove il compito di ottimizzazione è descritto in linguaggio naturale. In ogni passo di ottimizzazione, l'LLM genera nuove soluzioni dal prompt che contiene le soluzioni precedentemente generate con i loro valori, poi le nuove soluzioni vengono valutate e aggiunte al prompt per il passo di ottimizzazione successivo. Mostriamo prima OPRO su problemi di regressione lineare e del commesso viaggiatore, per poi passare all'ottimizzazione dei prompt, dove l'obiettivo è trovare istruzioni che massimizzino l'accuratezza del compito. Con una varietà di LLM, dimostriamo che i migliori prompt ottimizzati da OPRO superano i prompt progettati da esseri umani fino all'8% su GSM8K e fino al 50% sui task di Big-Bench Hard.

FLM-101B: Un LLM Open Source e Come Addestrarlo con un Budget di $100K
FLM-101B: An Open LLM and How to Train It with $100K Budget

Sep 7

ByXiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan, Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang

I grandi modelli linguistici (LLM) hanno ottenuto un successo straordinario nei compiti di NLP e multimodali. Nonostante questi successi, il loro sviluppo affronta due principali sfide: (i) l'elevato costo computazionale; e (ii) la difficoltà nel condurre valutazioni eque e oggettive. Gli LLM sono proibitivamente costosi, rendendo fattibile il loro addestramento solo per pochi grandi attori, limitando così sia le opportunità di ricerca che di applicazione. Ciò sottolinea l'importanza di un addestramento degli LLM economicamente vantaggioso. In questo articolo, utilizziamo una strategia di crescita per ridurre significativamente il costo di addestramento degli LLM. Dimostriamo che un LLM con 101 miliardi di parametri e 0,31 terabyte di token può essere addestrato con un budget di 100 mila dollari. Adottiamo inoltre un paradigma di valutazione sistematico per la valutazione del QI degli LLM, complementare alle valutazioni esistenti che si concentrano maggiormente sulle abilità orientate alla conoscenza. Introduciamo il nostro benchmark includendo valutazioni su aspetti importanti dell'intelligenza come la mappatura simbolica, la comprensione delle regole, l'estrazione di pattern e l'anti-interferenza. Tali valutazioni minimizzano il potenziale impatto della memorizzazione. I risultati sperimentali mostrano che il nostro modello FLM-101B, addestrato con un budget di 100 mila dollari, raggiunge prestazioni comparabili a modelli potenti e ben noti, come GPT-3 e GLM-130B, specialmente nelle valutazioni del benchmark QI con contesti non visti nei dati di addestramento. Il checkpoint di FLM-101B sarà open-source su https://huggingface.co/CofeAI/FLM-101B.

DoLa: Decodifica per Contrasto degli Strati Migliora la Fattualità nei Modelli Linguistici di Grande Dimensione
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

Sep 7

ByYung-Sung Chuang, Yujia Xie, Hongyin Luo, Yoon Kim, James Glass, Pengcheng He

Nonostante le loro impressionanti capacità, i grandi modelli linguistici (LLM) sono inclini a generare allucinazioni, ovvero contenuti che si discostano dai fatti osservati durante il pre-addestramento. Proponiamo una semplice strategia di decodifica per ridurre le allucinazioni nei LLM pre-addestrati che non richiede il condizionamento su conoscenze esterne recuperate né un ulteriore fine-tuning. Il nostro approccio ottiene la distribuzione del token successivo confrontando le differenze nei logit ottenuti proiettando gli strati più profondi rispetto a quelli più superficiali nello spazio del vocabolario, sfruttando il fatto che la conoscenza fattuale in un LLM è generalmente localizzata in specifici strati del trasformatore. Scopriamo che questo approccio di Decodifica per Contrasto degli Strati (DoLa) è in grado di far emergere meglio la conoscenza fattuale e ridurre la generazione di fatti errati. DoLa migliora costantemente la veridicità in compiti a scelta multipla e in compiti di generazione aperta, ad esempio migliorando le prestazioni dei modelli della famiglia LLaMA su TruthfulQA del 12-17% in punti assoluti, dimostrando il suo potenziale nel far sì che i LLM generino fatti veritieri in modo affidabile.

ProPainter: Miglioramento della Propagazione e del Transformer per il Video Inpainting
ProPainter: Improving Propagation and Transformer for Video Inpainting

Sep 7

ByShangchen Zhou, Chongyi Li, Kelvin C. K. Chan, Chen Change Loy

La propagazione basata sul flusso ottico e il Transformer spaziotemporale sono due meccanismi principali nel campo del video inpainting (VI). Nonostante l'efficacia di questi componenti, essi presentano ancora alcune limitazioni che ne influenzano le prestazioni. Gli approcci precedenti basati sulla propagazione sono stati eseguiti separatamente nel dominio dell'immagine o delle feature. La propagazione globale dell'immagine, isolata dall'apprendimento, può causare disallineamenti spaziali a causa di flussi ottici imprecisi. Inoltre, vincoli di memoria o computazionali limitano l'intervallo temporale della propagazione delle feature e del Transformer video, impedendo l'esplorazione delle informazioni di corrispondenza da frame distanti. Per affrontare questi problemi, proponiamo un framework migliorato, chiamato ProPainter, che include una propagazione potenziata e un Transformer efficiente. Nello specifico, introduciamo una propagazione a doppio dominio che combina i vantaggi del warping dell'immagine e delle feature, sfruttando in modo affidabile le corrispondenze globali. Proponiamo inoltre un Transformer video sparso guidato da maschera, che raggiunge un'elevata efficienza scartando token non necessari e ridondanti. Grazie a questi componenti, ProPainter supera i precedenti metodi con un ampio margine di 1.46 dB in PSNR, mantenendo un'efficienza attraente.

Tracciamento di Oggetti con Segmentazione Video Disaccoppiata
Tracking Anything with Decoupled Video Segmentation

Sep 7

ByHo Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee

I dati di addestramento per la segmentazione video sono costosi da annotare. Ciò ostacola l'estensione degli algoritmi end-to-end a nuove attività di segmentazione video, specialmente in contesti con un ampio vocabolario. Per "tracciare qualsiasi cosa" senza addestrare su dati video per ogni singola attività, sviluppiamo un approccio di segmentazione video disaccoppiato (DEVA), composto da una segmentazione a livello di immagine specifica per il compito e una propagazione temporale bidirezionale agnostica rispetto alla classe o al compito. Grazie a questa progettazione, abbiamo bisogno solo di un modello a livello di immagine per il compito target (che è più economico da addestrare) e di un modello universale di propagazione temporale che viene addestrato una volta e si generalizza su diversi compiti. Per combinare efficacemente questi due moduli, utilizziamo la propagazione bidirezionale per la fusione (semi-)online delle ipotesi di segmentazione provenienti da frame diversi, al fine di generare una segmentazione coerente. Dimostriamo che questa formulazione disaccoppiata si confronta favorevolmente con gli approcci end-to-end in diverse attività con scarsi dati, tra cui la segmentazione panottica video con ampio vocabolario, la segmentazione video in mondo aperto, la segmentazione video riferita e la segmentazione video non supervisionata degli oggetti. Il codice è disponibile all'indirizzo: https://hkchengrex.github.io/Tracking-Anything-with-DEVA

ImageBind-LLM: Sintonizzazione Multi-modale su Istruzioni
ImageBind-LLM: Multi-modality Instruction Tuning

Sep 7

ByJiaming Han, Renrui Zhang, Wenqi Shao, Peng Gao, Peng Xu, Han Xiao, Kaipeng Zhang, Chris Liu, Song Wen, Ziyu Guo, Xudong Lu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Xiangyu Yue, Hongsheng Li, Yu Qiao

Presentiamo ImageBind-LLM, un metodo di ottimizzazione delle istruzioni multimodale per i grandi modelli linguistici (LLM) tramite ImageBind. I lavori esistenti si concentrano principalmente sull'ottimizzazione delle istruzioni per linguaggio e immagini, mentre il nostro ImageBind-LLM è in grado di rispondere a condizioni multimodali, inclusi audio, nuvole di punti 3D, video e la loro aritmetica nello spazio di embedding, attraverso un addestramento basato solo sull'allineamento immagine-testo. Durante l'addestramento, adottiamo una rete di binding apprendibile per allineare lo spazio di embedding tra LLaMA e l'encoder di immagini di ImageBind. Successivamente, le caratteristiche delle immagini trasformate dalla rete di binding vengono aggiunte ai token di parole di tutti i livelli in LLaMA, iniettando progressivamente istruzioni visive attraverso un meccanismo di gate senza attenzione e inizializzato a zero. Grazie all'embedding congiunto di ImageBind, il semplice addestramento immagine-testo consente al nostro modello di esibire capacità superiori di seguire istruzioni multimodali. Durante l'inferenza, gli input multimodali vengono inseriti nei corrispondenti encoder di ImageBind e processati da un modello di cache visiva proposto per un ulteriore miglioramento dell'embedding cross-modale. Il modello di cache, che non richiede addestramento, recupera da tre milioni di caratteristiche di immagini estratte da ImageBind, mitigando efficacemente la discrepanza tra le modalità di addestramento e inferenza. È importante notare che, con il nostro approccio, ImageBind-LLM è in grado di rispondere a istruzioni di diverse modalità e dimostrare una qualità significativa nella generazione del linguaggio. Il codice è disponibile all'indirizzo https://github.com/OpenGVLab/LLaMA-Adapter.

InstructDiffusion: Un'interfaccia di modellazione generalista per compiti visivi
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

Sep 7

ByZigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang, Jianmin Bao, Zheng Zhang, Han Hu, Dong Chen, Baining Guo

Presentiamo InstructDiffusion, un framework unificante e generico per allineare i compiti di visione artificiale con le istruzioni umane. A differenza degli approcci esistenti che integrano conoscenze pregresse e predefiniscono lo spazio di output (ad esempio, categorie e coordinate) per ogni task di visione, trasformiamo vari compiti di visione in un processo intuitivo di manipolazione delle immagini il cui spazio di output è uno spazio di pixel flessibile e interattivo. Nello specifico, il modello è basato sul processo di diffusione ed è addestrato a prevedere i pixel in base alle istruzioni dell'utente, come cerchiare in rosso la spalla sinistra di un uomo o applicare una maschera blu all'auto a sinistra. InstructDiffusion è in grado di gestire una varietà di task di visione, inclusi compiti di comprensione (come segmentazione e rilevamento di punti chiave) e compiti generativi (come modifica e miglioramento). Dimostra persino la capacità di gestire task non visti in precedenza e supera i metodi precedenti su nuovi dataset. Questo rappresenta un passo significativo verso un'interfaccia di modellazione generalista per i task di visione, avanzando l'intelligenza artificiale generale nel campo della visione artificiale.

SyncDreamer: Generazione di immagini multivista coerenti a partire da un'immagine a singola vista
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image

Sep 7

ByYuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang

In questo articolo, presentiamo un nuovo modello di diffusione chiamato SyncDreamer che genera immagini multivista coerenti a partire da un'immagine a singola vista. Utilizzando modelli di diffusione 2D su larga scala pre-addestrati, il recente lavoro Zero123 dimostra la capacità di generare nuove viste plausibili da un'immagine a singola vista di un oggetto. Tuttavia, mantenere la coerenza nella geometria e nei colori per le immagini generate rimane una sfida. Per affrontare questo problema, proponiamo un modello di diffusione multivista sincronizzato che modella la distribuzione di probabilità congiunta delle immagini multivista, consentendo la generazione di immagini multivista coerenti in un singolo processo inverso. SyncDreamer sincronizza gli stati intermedi di tutte le immagini generate a ogni passo del processo inverso attraverso un meccanismo di attenzione delle feature 3D che correla le feature corrispondenti tra diverse viste. Gli esperimenti dimostrano che SyncDreamer genera immagini con un'elevata coerenza tra diverse viste, rendendolo particolarmente adatto a varie attività di generazione 3D come la sintesi di nuove viste, il testo-a-3D e l'immagine-a-3D.

Text2Control3D: Generazione Controllabile di Avatar 3D nei Campi di Radianza Neurale utilizzando un Modello di Diffusione Testo-Immagine Guidato dalla Geometria
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model

Sep 7

BySungwon Hwang, Junha Hyung, Jaegul Choo

I recenti progressi nei modelli di diffusione come ControlNet hanno reso possibile la generazione di immagini ad alta fedeltà da testo con controllo geometrico. Tuttavia, nessuno di questi affronta la questione di aggiungere tale controllabilità alla generazione di modelli 3D da testo. In risposta, proponiamo Text2Control3D, un metodo controllabile per la generazione di avatar 3D da testo, in cui l'espressione facciale è controllabile a partire da un video monoculare acquisito casualmente con una telecamera portatile. La nostra strategia principale consiste nel costruire l'avatar 3D in Neural Radiance Fields (NeRF) ottimizzato con un insieme di immagini controllate e dipendenti dal punto di vista che generiamo da ControlNet, il cui input condizionale è la mappa di profondità estratta dal video in ingresso. Durante la generazione delle immagini dipendenti dal punto di vista, utilizziamo l'attenzione cross-reference per iniettare un'espressione facciale e un aspetto ben controllati e referenziali tramite l'attenzione incrociata. Eseguiamo inoltre un filtraggio passa-basso del latente gaussiano del modello di diffusione per mitigare il problema della texture indipendente dal punto di vista osservato nella nostra analisi empirica, in cui le immagini dipendenti dal punto di vista contengono texture identiche su posizioni di pixel identiche che risultano incomprensibili in 3D. Infine, per addestrare NeRF con immagini che sono dipendenti dal punto di vista ma non strettamente consistenti nella geometria, il nostro approccio considera la variazione geometrica per immagine come una vista di deformazione da uno spazio canonico 3D condiviso. Di conseguenza, costruiamo l'avatar 3D in uno spazio canonico di NeRF deformabile apprendendo un insieme di deformazioni per immagine tramite una tabella di campi di deformazione. Dimostriamo i risultati empirici e discutiamo l'efficacia del nostro metodo.

Rapporto Tecnico su XGen-7B
XGen-7B Technical Report

Sep 7

ByErik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong

I modelli linguistici di grandi dimensioni (LLM) sono diventati onnipresenti in vari ambiti, trasformando il modo in cui interagiamo con le informazioni e conduciamo ricerche. Tuttavia, la maggior parte degli LLM ad alte prestazioni rimane confinata dietro barriere proprietarie, ostacolando il progresso scientifico. D'altra parte, la maggior parte degli LLM open-source è limitata nella capacità di supportare sequenze più lunghe, un requisito chiave per molti compiti che richiedono inferenza su un contesto di input. Per affrontare questo problema, abbiamo addestrato XGen, una serie di modelli da 7 miliardi di parametri su sequenze fino a 8K token per un totale di 1,5 trilioni di token. Abbiamo inoltre perfezionato i modelli XGen su dati didattici di dominio pubblico, creando le loro versioni ottimizzate per istruzioni (XGen-Inst). Rendiamo open-source i nostri modelli sia per avanzamenti nella ricerca che per applicazioni commerciali. La nostra valutazione su benchmark standard mostra che i modelli XGen raggiungono risultati comparabili o migliori rispetto agli LLM open-source all'avanguardia. La nostra valutazione mirata su compiti di modellazione di sequenze lunghe evidenzia i vantaggi dei nostri modelli a 8K token rispetto agli LLM open-source a 2K token.

Tennis da tavolo robotico: uno studio di caso su un sistema di apprendimento ad alta velocità
Robotic Table Tennis: A Case Study into a High Speed Learning System

Sep 6

ByDavid B. D'Ambrosio, Jonathan Abelian, Saminda Abeyruwan, Michael Ahn, Alex Bewley, Justin Boyd, Krzysztof Choromanski, Omar Cortes, Erwin Coumans, Tianli Ding, Wenbo Gao, Laura Graesser, Atil Iscen, Navdeep Jaitly, Deepali Jain, Juhana Kangaspunta, Satoshi Kataoka, Gus Kouretas, Yuheng Kuang, Nevena Lazic, Corey Lynch, Reza Mahjourian, Sherry Q. Moore, Thinh Nguyen, Ken Oslund, Barney J Reed, Krista Reymann, Pannag R. Sanketi, Anish Shankar, Pierre Sermanet, Vikas Sindhwani, Avi Singh, Vincent Vanhoucke, Grace Vesom, Peng Xu

Presentiamo un'analisi approfondita di un sistema di apprendimento robotico del mondo reale che, in lavori precedenti, ha dimostrato di essere in grado di eseguire centinaia di scambi di ping pong con un essere umano e di restituire con precisione la palla a bersagli desiderati. Questo sistema combina un sottosistema di percezione altamente ottimizzato, un controller robotico ad alta velocità e bassa latenza, un paradigma di simulazione che può prevenire danni nel mondo reale e addestrare politiche per il trasferimento zero-shot, e reset automatici dell'ambiente reale che consentono l'addestramento e la valutazione autonoma su robot fisici. Integriamo una descrizione completa del sistema, includendo numerose decisioni progettuali che tipicamente non vengono ampiamente divulgate, con una raccolta di studi che chiariscono l'importanza di mitigare varie fonti di latenza, tenere conto degli spostamenti delle distribuzioni durante l'addestramento e il dispiegamento, la robustezza del sistema di percezione, la sensibilità agli iperparametri delle politiche e la scelta dello spazio delle azioni. Un video che dimostra i componenti del sistema e i dettagli dei risultati sperimentali è disponibile all'indirizzo https://youtu.be/uFcnWjB42I0.

Riutilizzo e Diffusione: Denoising Iterativo per la Generazione di Video da Testo
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation

Sep 7

ByJiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang Jiang, Hang Xu

Ispirati dal notevole successo dei Modelli di Diffusione Latente (LDMs) per la sintesi di immagini, studiamo l'applicazione degli LDMs per la generazione di video da testo, una sfida impegnativa a causa dei vincoli computazionali e di memoria durante sia l'addestramento che l'inferenza del modello. Un singolo LDM è generalmente in grado di generare solo un numero molto limitato di fotogrammi video. Alcuni lavori esistenti si concentrano su modelli di previsione separati per generare più fotogrammi video, ma questi soffrono di costi aggiuntivi di addestramento e di instabilità a livello di fotogramma. In questo articolo, proponiamo un framework chiamato "Reuse and Diffuse", denominato VidRD, per produrre più fotogrammi seguendo quelli già generati da un LDM. Condizionato da un clip video iniziale con un numero ridotto di fotogrammi, fotogrammi aggiuntivi vengono generati iterativamente riutilizzando le caratteristiche latenti originali e seguendo il precedente processo di diffusione. Inoltre, per l'autoencoder utilizzato per la traduzione tra lo spazio dei pixel e lo spazio latente, iniettiamo strati temporali nel suo decoder e ottimizziamo questi strati per una maggiore coerenza temporale. Proponiamo anche una serie di strategie per comporre dati video-testo che includono contenuti diversificati da più dataset esistenti, tra cui dataset video per il riconoscimento di azioni e dataset immagine-testo. Esperimenti estensivi dimostrano che il nostro metodo ottiene buoni risultati sia nelle valutazioni quantitative che qualitative. La nostra pagina del progetto è disponibile {qui} https://anonymous0x233.github.io/ReuseAndDiffuse/.

Text2Control3D: Generazione Controllabile di Avatar 3D nei Campi di Radianza Neurale utilizzando un Modello di Diffusione Testo-Immagine Guidato dalla Geometria
Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance Fields using Geometry-Guided Text-to-Image Diffusion Model

Sep 7

BySungwon Hwang, Junha Hyung, Jaegul Choo