HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

17 papers found

Livelli di AGI: Operazionalizzare il Progresso sul Percorso verso l'AGI
Levels of AGI: Operationalizing Progress on the Path to AGI

Nov 4

ByMeredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg

Proponiamo un quadro concettuale per classificare le capacità e il comportamento dei modelli di Intelligenza Artificiale Generale (AGI) e dei loro precursori. Questo quadro introduce livelli di prestazione, generalità e autonomia dell'AGI. Speriamo che questo quadro possa essere utile in modo analogo ai livelli di guida autonoma, fornendo un linguaggio comune per confrontare i modelli, valutare i rischi e misurare i progressi lungo il percorso verso l'AGI. Per sviluppare il nostro quadro, analizziamo le definizioni esistenti di AGI e distilliamo sei principi che un'ontologia utile per l'AGI dovrebbe soddisfare. Questi principi includono il concentrarsi sulle capacità piuttosto che sui meccanismi; valutare separatamente la generalità e le prestazioni; e definire fasi lungo il percorso verso l'AGI, piuttosto che concentrarsi sul punto di arrivo. Con questi principi in mente, proponiamo i "Livelli di AGI" basati sulla profondità (prestazione) e ampiezza (generalità) delle capacità, e riflettiamo su come i sistemi attuali si inseriscono in questa ontologia. Discutiamo i requisiti impegnativi per i futuri benchmark che quantificano il comportamento e le capacità dei modelli di AGI rispetto a questi livelli. Infine, discutiamo come questi livelli di AGI interagiscano con considerazioni di implementazione come l'autonomia e il rischio, e sottolineiamo l'importanza di selezionare con attenzione i paradigmi di Interazione Uomo-AI per un impiego responsabile e sicuro di sistemi di IA altamente capaci.

GLaMM: Modello Multimodale di Grande Scala con Ancoraggio a Livello di Pixel
GLaMM: Pixel Grounding Large Multimodal Model

Nov 6

ByHanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan

I Large Multimodal Models (LMM) estendono i Large Language Models al dominio visivo. I primi sforzi verso gli LMM utilizzavano immagini olistiche e prompt testuali per generare risposte testuali non ancorate visivamente. Molto recentemente, gli LMM a livello di regione sono stati utilizzati per generare risposte visivamente ancorate. Tuttavia, sono limitati a riferirsi a una sola categoria di oggetti alla volta, richiedono che gli utenti specifichino le regioni negli input o non possono offrire un ancoraggio denso a livello di pixel. In questo lavoro, presentiamo Grounding LMM (GLaMM), il primo modello in grado di generare risposte in linguaggio naturale perfettamente intrecciate con le corrispondenti maschere di segmentazione degli oggetti. GLaMM non solo ancoraggio visivamente gli oggetti che compaiono nelle conversazioni, ma è anche abbastanza flessibile da accettare sia prompt testuali che opzionali prompt visivi (regioni di interesse) come input. Ciò consente agli utenti di interagire con il modello a vari livelli di granularità, sia nel dominio testuale che visivo. A causa della mancanza di benchmark standard per la nuova impostazione di generare conversazioni dettagliate e visivamente ancorate, introduciamo un protocollo di valutazione completo con le nostre conversazioni ancorate curate. Il nostro compito proposto di Generazione di Conversazioni Ancorate (GCG) richiede concetti densamente ancorati in scene naturali su larga scala. A tal fine, proponiamo un dataset densamente annotato, Grounding-anything Dataset (GranD), utilizzando la nostra pipeline di annotazione automatica proposta che comprende 7,5 milioni di concetti unici ancorati in un totale di 810 milioni di regioni disponibili con maschere di segmentazione. Oltre al GCG, GLaMM si dimostra efficace anche in diversi compiti downstream, come la segmentazione delle espressioni di riferimento, la descrizione di immagini e regioni e le conversazioni visivo-linguistiche. Pagina del progetto: https://mbzuai-oryx.github.io/groundingLMM.

I2VGen-XL: Sintesi Video di Alta Qualità da Immagini tramite Modelli di Diffusione a Cascata
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

Nov 7

ByShiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou

La sintesi video ha recentemente compiuto progressi significativi grazie al rapido sviluppo dei modelli di diffusione. Tuttavia, incontra ancora sfide in termini di accuratezza semantica, chiarezza e continuità spazio-temporale. Queste difficoltà derivano principalmente dalla scarsità di dati testo-video ben allineati e dalla complessa struttura intrinseca dei video, rendendo difficile per il modello garantire simultaneamente eccellenza semantica e qualitativa. In questo rapporto, proponiamo un approccio a cascata denominato I2VGen-XL che migliora le prestazioni del modello separando questi due fattori e assicurando l'allineamento dei dati di input utilizzando immagini statiche come forma di guida cruciale. I2VGen-XL si compone di due fasi: i) la fase base garantisce una semantica coerente e preserva il contenuto delle immagini di input utilizzando due encoder gerarchici, e ii) la fase di raffinamento migliora i dettagli del video incorporando un breve testo aggiuntivo e aumenta la risoluzione a 1280x720. Per migliorare la diversità, abbiamo raccolto circa 35 milioni di coppie testo-video a singolo scatto e 6 miliardi di coppie testo-immagine per ottimizzare il modello. In questo modo, I2VGen-XL può simultaneamente migliorare l'accuratezza semantica, la continuità dei dettagli e la chiarezza dei video generati. Attraverso esperimenti estensivi, abbiamo investigato i principi sottostanti di I2VGen-XL e lo abbiamo confrontato con i metodi attualmente più avanzati, dimostrandone l'efficacia su dati diversi. Il codice sorgente e i modelli saranno pubblicamente disponibili all'indirizzo https://i2vgen-xl.github.io.

S-LoRA: Gestione di Migliaia di Adattatori LoRA Concorrenti
S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Nov 6

ByYing Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E. Gonzalez, Ion Stoica

Il paradigma "pretrain-then-finetune" è comunemente adottato nell'implementazione di modelli linguistici di grandi dimensioni. La Low-Rank Adaptation (LoRA), un metodo di fine-tuning efficiente in termini di parametri, è spesso utilizzata per adattare un modello di base a una moltitudine di task, risultando in una vasta raccolta di adattatori LoRA derivati da un unico modello di base. Osserviamo che questo paradigma offre significative opportunità per l'inferenza in batch durante il servizio. Per sfruttare queste opportunità, presentiamo S-LoRA, un sistema progettato per il servizio scalabile di molti adattatori LoRA. S-LoRA memorizza tutti gli adattatori nella memoria principale e trasferisce gli adattatori utilizzati dalle query attualmente in esecuzione nella memoria GPU. Per utilizzare in modo efficiente la memoria GPU e ridurre la frammentazione, S-LoRA propone Unified Paging. Unified Paging utilizza un pool di memoria unificato per gestire i pesi dinamici degli adattatori con ranghi diversi e i tensori della cache KV con lunghezze di sequenza variabili. Inoltre, S-LoRA impiega una nuova strategia di parallelismo tensoriale e kernel CUDA personalizzati altamente ottimizzati per il batch eterogeneo del calcolo LoRA. Nel complesso, queste funzionalità consentono a S-LoRA di servire migliaia di adattatori LoRA su una singola GPU o su più GPU con un sovraccarico minimo. Rispetto a librerie all'avanguardia come HuggingFace PEFT e vLLM (con supporto rudimentale del servizio LoRA), S-LoRA può migliorare il throughput fino a 4 volte e aumentare il numero di adattatori serviti di diversi ordini di grandezza. Di conseguenza, S-LoRA abilita il servizio scalabile di molti modelli fine-tuned specifici per task e offre il potenziale per servizi di fine-tuning personalizzati su larga scala.

CogVLM: Esperto Visivo per Modelli Linguistici Pre-addestrati
CogVLM: Visual Expert for Pretrained Language Models

Nov 6

ByWeihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

Presentiamo CogVLM, un potente modello di base open-source per il linguaggio visivo. A differenza del popolare metodo di allineamento superficiale che mappa le caratteristiche dell'immagine nello spazio di input del modello linguistico, CogVLM colma il divario tra il modello linguistico pre-addestrato congelato e l'encoder di immagini attraverso un modulo esperto visivo addestrabile negli strati di attenzione e FFN. Di conseguenza, CogVLM consente una fusione profonda delle caratteristiche visive e linguistiche senza sacrificare le prestazioni nelle attività NLP. CogVLM-17B raggiunge prestazioni all'avanguardia su 10 benchmark cross-modali classici, tra cui NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA e TDIUC, e si posiziona al 2° posto su VQAv2, OKVQA, TextVQA, COCO captioning, ecc., superando o eguagliando PaLI-X 55B. I codici e i checkpoint sono disponibili all'indirizzo https://github.com/THUDM/CogVLM.

Relax: Astrazioni Componibili per l'Apprendimento Automatico Dinamico End-to-End
Relax: Composable Abstractions for End-to-End Dynamic Machine Learning

Nov 1

ByRuihang Lai, Junru Shao, Siyuan Feng, Steven S. Lyubomirsky, Bohan Hou, Wuwei Lin, Zihao Ye, Hongyi Jin, Yuchen Jin, Jiawei Liu, Lesheng Jin, Yaxing Cai, Ziheng Jiang, Yong Wu, Sunghyun Park, Prakalp Srivastava, Jared G. Roesch, Todd C. Mowry, Tianqi Chen

I calcoli dinamici delle forme sono diventati cruciali nei carichi di lavoro del machine learning moderno, in particolare nei modelli linguistici di grandi dimensioni emergenti. Il successo di questi modelli ha aumentato la richiesta di distribuirli in un insieme diversificato di ambienti backend. In questo articolo, presentiamo Relax, un'astrazione del compilatore per ottimizzare i carichi di lavoro di machine learning dinamici end-to-end. Relax introduce annotazioni simboliche di forma di prima classe per tracciare i calcoli dinamici delle forme in modo globale attraverso il programma. Introduce inoltre un'astrazione cross-level che incapsula grafi computazionali, programmi tensoriali a livello di ciclo e chiamate di libreria in una singola rappresentazione, consentendo ottimizzazioni cross-level. Abbiamo costruito un framework di compilazione end-to-end utilizzando l'approccio proposto per ottimizzare i modelli con forme dinamiche. I risultati sperimentali sui modelli linguistici di grandi dimensioni mostrano che Relax offre prestazioni competitive rispetto ai sistemi ottimizzati manualmente all'avanguardia su diverse piattaforme e consente la distribuzione di modelli dinamici emergenti in un insieme più ampio di ambienti, inclusi telefoni cellulari, dispositivi embedded e browser web.

Ziya2: L'apprendimento centrato sui dati è tutto ciò di cui hanno bisogno gli LLM
Ziya2: Data-centric Learning is All LLMs Need

Nov 6

ByRuyi Gan, Ziwei Wu, Renliang Sun, Junyu Lu, Xiaojun Wu, Dixiang Zhang, Kunhao Pan, Ping Yang, Qi Yang, Jiaxing Zhang, Yan Song

Negli ultimi anni sono stati proposti vari modelli linguistici di grandi dimensioni (LLM), sia open-source che proprietari, che continuano a stabilire nuovi record su molteplici benchmark. Tuttavia, lo sviluppo degli LLM deve ancora affrontare diverse problematiche, come l’elevato costo dell’addestramento da zero e il pre-training continuo che porta a fenomeni di dimenticanza catastrofica. Sebbene molte di queste questioni siano state affrontate nel corso della ricerca sugli LLM, una limitazione importante e pratica è che molti studi si concentrano eccessivamente sull’aumento delle dimensioni del modello senza analizzare e ottimizzare in modo completo l’uso dei dati di pre-training nel loro processo di apprendimento, né sull’organizzazione e lo sfruttamento appropriato di tali dati nell’addestramento degli LLM in contesti economicamente sostenibili. In questo lavoro, proponiamo Ziya2, un modello con 13 miliardi di parametri basato su LLaMA2 come modello di partenza, ulteriormente pre-addestrato su 700 miliardi di token, dove ci concentriamo sulle tecniche di pre-training e utilizziamo un’ottimizzazione centrata sui dati per migliorare il processo di apprendimento di Ziya2 in diverse fasi. Gli esperimenti dimostrano che Ziya2 supera significativamente altri modelli in molteplici benchmark, ottenendo risultati promettenti rispetto ai modelli open-source rappresentativi. Ziya2 (Base) è disponibile all’indirizzo https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base e https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.

VR-NeRF: Spazi Virtuali Camminabili ad Alta Fedeltà
VR-NeRF: High-Fidelity Virtualized Walkable Spaces

Nov 5

ByLinning Xu, Vasu Agrawal, William Laney, Tony Garcia, Aayush Bansal, Changil Kim, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Aljaž Božič, Dahua Lin, Michael Zollhöfer, Christian Richardt

Presentiamo un sistema end-to-end per l'acquisizione ad alta fedeltà, la ricostruzione del modello e il rendering in tempo reale di spazi percorribili in realtà virtuale utilizzando campi di radianza neurale. A tal fine, abbiamo progettato e costruito un'apparecchiatura multi-fotocamera personalizzata per acquisire in modo denso spazi percorribili con immagini multi-vista ad alto intervallo dinamico (HDR) di qualità e densità senza precedenti. Estendiamo le primitive neurali istantanee per la grafica con un nuovo spazio colore percettivo per apprendere un aspetto HDR accurato e un meccanismo efficiente di mip-mapping per il rendering a livelli di dettaglio con anti-aliasing, ottimizzando attentamente il compromesso tra qualità e velocità. Il nostro renderer multi-GPU consente il rendering volumetrico ad alta fedeltà del nostro modello di campo di radianza neurale alla risoluzione VR completa di dual 2K×2K a 36 Hz sulla nostra macchina demo personalizzata. Dimostriamo la qualità dei nostri risultati sui nostri dataset ad alta fedeltà e confrontiamo il nostro metodo e i dataset con le baseline esistenti. Rilasciamo il nostro dataset sul sito web del progetto.

Indica al tuo modello dove prestare attenzione: guida post-hoc dell'attenzione per i LLM
Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs

Nov 3

ByQingru Zhang, Chandan Singh, Liyuan Liu, Xiaodong Liu, Bin Yu, Jianfeng Gao, Tuo Zhao

Negli articoli scritti da esseri umani, sfruttiamo spesso le sottigliezze dello stile testuale, come il grassetto e il corsivo, per guidare l'attenzione dei lettori. Questi enfasi testuali sono fondamentali affinché i lettori possano cogliere le informazioni trasmesse. Quando interagiamo con i grandi modelli linguistici (LLM), abbiamo un'esigenza simile: indirizzare il modello a prestare maggiore attenzione alle informazioni specificate dall'utente, ad esempio un'istruzione. I metodi esistenti, tuttavia, sono limitati a elaborare testo semplice e non supportano un tale meccanismo. Questo ci ha spinto a introdurre PASTA - Post-hoc Attention STeering Approach, un metodo che consente agli LLM di leggere il testo con enfasi specificate dall'utente. A tal fine, PASTA identifica un piccolo sottoinsieme di testate di attenzione e applica un preciso ri-ponderazione dell'attenzione su di esse, dirigendo l'attenzione del modello verso le parti specificate dall'utente. Come il prompting, PASTA viene applicato al momento dell'inferenza e non richiede la modifica di alcun parametro del modello. Gli esperimenti dimostrano che PASTA può migliorare sostanzialmente la capacità di un LLM di seguire le istruzioni dell'utente o integrare nuove conoscenze dagli input dell'utente, portando a un significativo miglioramento delle prestazioni in una varietà di compiti, ad esempio un miglioramento medio dell'accuratezza del 22% per LLAMA-7B. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/QingruZhang/PASTA.

MFTCoder: Potenziamento dei Modelli Linguistici per il Codice attraverso il Fine-Tuning Multitask
MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning

Nov 4

ByBingchang Liu, Chaoyu Chen, Cong Liao, Zi Gong, Huan Wang, Zhichao Lei, Ming Liang, Dajun Chen, Min Shen, Hailian Zhou, Hang Yu, Jianguo Li

I Code LLM sono emersi come un campo di ricerca specializzato, con studi notevoli dedicati al miglioramento delle capacità di codifica dei modelli attraverso il fine-tuning su modelli pre-addestrati. Gli approcci precedenti di fine-tuning erano tipicamente adattati a specifici task o scenari downstream, il che significava un fine-tuning separato per ogni task, richiedendo risorse di addestramento estese e ponendo sfide in termini di distribuzione e manutenzione. Inoltre, questi approcci non riuscivano a sfruttare l'intrinseca interconnessione tra i diversi task legati al codice. Per superare queste limitazioni, presentiamo un framework di fine-tuning multi-task, MFTcoder, che consente un fine-tuning simultaneo e parallelo su più task. Incorporando varie funzioni di perdita, affrontiamo efficacemente le comuni sfide dell'apprendimento multi-task, come lo squilibrio dei dati, i diversi livelli di difficoltà e le velocità di convergenza inconsistenti. Esperimenti estensivi hanno dimostrato in modo conclusivo che il nostro approccio di fine-tuning multi-task supera sia il fine-tuning individuale su singoli task che il fine-tuning su un insieme misto di task. Inoltre, MFTcoder offre capacità di addestramento efficienti, inclusi modalità di tokenizzazione dei dati efficienti e il fine-tuning PEFT, risultando in un miglioramento significativo della velocità rispetto ai metodi di fine-tuning tradizionali. MFTcoder si integra perfettamente con diversi LLM open-source mainstream, come CodeLLama e Qwen. Sfruttando la base di CodeLLama, il nostro modello fine-tuned MFTcoder, CodeFuse-CodeLLama-34B, raggiunge un impressionante punteggio pass@1 del 74,4\% sul benchmark HumaneEval, superando le prestazioni di GPT-4 (67\%, zero-shot). MFTCoder è open-source all'indirizzo https://github.com/codefuse-ai/MFTCOder.

LDM3D-VR: Modello di Diffusione Latente per la Realtà Virtuale 3D
LDM3D-VR: Latent Diffusion Model for 3D VR

Nov 6

ByGabriela Ben Melech Stan, Diana Wofk, Estelle Aflalo, Shao-Yen Tseng, Zhipeng Cai, Michael Paulitsch, Vasudev Lal

I modelli di diffusione latente si sono dimostrati all'avanguardia nella creazione e manipolazione di output visivi. Tuttavia, per quanto ne sappiamo, la generazione congiunta di mappe di profondità e immagini RGB è ancora limitata. Introduciamo LDM3D-VR, una suite di modelli di diffusione orientati allo sviluppo della realtà virtuale che include LDM3D-pano e LDM3D-SR. Questi modelli consentono rispettivamente la generazione di immagini RGBD panoramiche basate su prompt testuali e l'upscaling di input a bassa risoluzione in RGBD ad alta risoluzione. I nostri modelli sono affinati a partire da modelli pre-addestrati esistenti su dataset contenenti immagini RGB panoramiche/ad alta risoluzione, mappe di profondità e didascalie. Entrambi i modelli vengono valutati in confronto a metodi correlati esistenti.

Co-addestramento e Co-distillazione per il Miglioramento della Qualità e la Compressione dei Modelli Linguistici
Co-training and Co-distillation for Quality Improvement and Compression of Language Models

Nov 6

ByHayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Hongbo Zhang, Sung Ju Hwang, Alexander Min

Il Knowledge Distillation (KD) comprime modelli linguistici pre-addestrati (PLM) computazionalmente costosi trasferendo la loro conoscenza a modelli più piccoli, consentendone l'uso in contesti con risorse limitate o in tempo reale. Tuttavia, la maggior parte dei modelli più piccoli non riesce a superare le prestazioni del modello originale più grande, portando a un compromesso tra prestazioni e velocità di inferenza. Per affrontare questo problema, proponiamo Co-Training and Co-Distillation (CTCD), un nuovo framework che migliora contemporaneamente le prestazioni e la velocità di inferenza co-addestrando due modelli mentre si distillano reciprocamente la conoscenza. Il framework CTCD raggiunge questo obiettivo basandosi su due risultati significativi: 1) La distillazione della conoscenza dal modello più piccolo al modello più grande durante il co-training migliora le prestazioni del modello più grande. 2) Le prestazioni migliorate del modello più grande potenziano ulteriormente le prestazioni del modello più piccolo. Il framework CTCD si dimostra promettente poiché può essere combinato con tecniche esistenti come la progettazione dell'architettura o l'aumento dei dati, sostituendo i metodi di KD unidirezionali, per ottenere ulteriori miglioramenti delle prestazioni. Estesi studi di ablazione dimostrano l'efficacia di CTCD, e il modello piccolo distillato da CTCD supera il modello originale più grande con un margine significativo di 1,66 sul benchmark GLUE.

Attenzione o Convoluzione: Encoder Transformer nei Modelli Linguistici Audio per l'Efficienza nell'Inferenza
Attention or Convolution: Transformer Encoders in Audio Language Models for Inference Efficiency

Nov 5

BySungho Jeon, Ching-Feng Yeh, Hakan Inan, Wei-Ning Hsu, Rashi Rungta, Yashar Mehdad, Daniel Bikel

In questo articolo, dimostriamo che un semplice modello audio pre-addestrato con auto-supervisione può raggiungere un'efficienza inferenziale comparabile a modelli pre-addestrati più complessi dotati di encoder basati su transformer per il parlato. Questi transformer per il parlato si basano sulla combinazione di moduli convoluzionali con moduli di self-attention, ottenendo prestazioni all'avanguardia nell'ASR con un'efficienza ottimale. Inizialmente mostriamo che l'utilizzo di questi transformer come encoder migliora significativamente anche l'efficienza dei modelli audio pre-addestrati. Tuttavia, il nostro studio rivela che è possibile ottenere un'efficienza comparabile utilizzando esclusivamente la self-attention avanzata. Dimostriamo che questo approccio più semplice è particolarmente vantaggioso quando combinato con una tecnica di quantizzazione a basso bit dei pesi di una rete neurale per migliorare l'efficienza. Ipotesizziamo che ciò prevenga la propagazione degli errori tra diversi moduli quantizzati, a differenza dei recenti transformer per il parlato che mescolano convoluzioni quantizzate e moduli di self-attention quantizzati.

CoVLM: Comporre Entità Visive e Relazioni nei Modelli Linguistici di Grande Scala tramite Decodifica Comunicativa
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

Nov 6

ByJunyan Li, Delin Chen, Yining Hong, Zhenfang Chen, Peihao Chen, Yikang Shen, Chuang Gan

Una straordinaria capacità degli esseri umani risiede nel ragionamento composizionale, ovvero la capacità di fare "uso infinito di mezzi finiti". Tuttavia, gli attuali modelli di base visione-linguaggio (VLMs) di grandi dimensioni non raggiungono tali abilità composizionali a causa dei loro comportamenti "a sacco di parole" e dell'incapacità di costruire parole che rappresentino correttamente le entità visive e le relazioni tra di esse. A tal fine, proponiamo CoVLM, che può guidare il LLM a comporre esplicitamente entità visive e relazioni nel testo e a comunicare dinamicamente con l'encoder visivo e la rete di rilevamento per ottenere una decodifica comunicativa visione-linguaggio. Nello specifico, progettiamo innanzitutto un insieme di nuovi token di comunicazione per il LLM, per una comunicazione dinamica tra il sistema di rilevamento visivo e il sistema linguistico. Un token di comunicazione viene generato dal LLM in seguito a un'entità visiva o a una relazione, per informare la rete di rilevamento di proporre regioni rilevanti rispetto alla frase generata fino a quel momento. Le regioni di interesse (ROI) proposte vengono quindi reinserite nel LLM per una migliore generazione del linguaggio in base alle regioni pertinenti. Il LLM è così in grado di comporre le entità visive e le relazioni attraverso i token di comunicazione. La comunicazione visione-linguaggio e linguaggio-visione viene eseguita in modo iterativo fino alla generazione dell'intera frase. Il nostro framework colma perfettamente il divario tra percezione visiva e LLM e supera di gran lunga i precedenti VLMs nei benchmark di ragionamento composizionale (ad esempio, ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy e ~3% in ARO top-1 accuracy). Otteniamo inoltre prestazioni all'avanguardia in compiti tradizionali visione-linguaggio come la comprensione delle espressioni di riferimento e la risposta a domande visive.

Personalizzazione degli Auto-Razionalizzatori con Distillazione Multi-Ricompensa
Tailoring Self-Rationalizers with Multi-Reward Distillation

Nov 6

BySahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren

I grandi modelli linguistici (LM) sono in grado di generare razionalizzazioni in testo libero per supportare il rispondere a domande. Tuttavia, lavori precedenti 1) suggeriscono che una utile auto-razionalizzazione emerge solo a scale significative (ad esempio, GPT-3 con 175 miliardi di parametri); e 2) si concentrano principalmente sulle prestazioni a valle, ignorando la semantica delle razionalizzazioni stesse, ad esempio, sono fedeli, vere e utili per gli esseri umani? In questo lavoro, consentiamo a LM di piccole dimensioni (circa 200 volte più piccoli di GPT-3) di generare razionalizzazioni che non solo migliorano le prestazioni delle attività a valle, ma sono anche più plausibili, coerenti e diversificate, valutate sia automaticamente che da esseri umani. Il nostro metodo, MaRio (Multi-rewArd RatIOnalization), è un algoritmo di auto-razionalizzazione condizionato a più ricompense che ottimizza proprietà distinte come plausibilità, diversità e coerenza. I risultati su cinque difficili dataset di risposta alle domande (StrategyQA, QuaRel, OpenBookQA, NumerSense e QASC) mostrano che non solo MaRio migliora l'accuratezza delle attività, ma migliora anche la qualità dell'auto-razionalizzazione dei piccoli LM lungo gli assi sopra menzionati, superando una baseline di fine-tuning supervisionato (SFT). Valutazioni umane estensive confermano che le razionalizzazioni di MaRio sono preferite rispetto a quelle SFT, con miglioramenti qualitativi in termini di plausibilità e coerenza.

Consistent4D: Generazione Dinamica e Coerente di Oggetti a 360° da Video Monoculare
Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

Nov 6

ByYanqin Jiang, Li Zhang, Jin Gao, Weimin Hu, Yao Yao

In questo articolo presentiamo Consistent4D, un approccio innovativo per la generazione di oggetti dinamici 4D a partire da video monoculari non calibrati. In modo unico, affrontiamo la ricostruzione di oggetti dinamici a 360 gradi come un problema di generazione 4D, eliminando la necessità di una laboriosa raccolta di dati multivista e calibrazione della telecamera. Questo è reso possibile sfruttando un modello di diffusione di immagini 3D-aware a livello di oggetto come segnale di supervisione principale per l'addestramento di Dynamic Neural Radiance Fields (DyNeRF). Nello specifico, proponiamo un Cascade DyNeRF per facilitare una convergenza stabile e una continuità temporale sotto un segnale di supervisione che è discreto lungo l'asse temporale. Per ottenere coerenza spaziale e temporale, introduciamo ulteriormente una Interpolation-driven Consistency Loss. Questa viene ottimizzata minimizzando la discrepanza tra i frame renderizzati da DyNeRF e i frame interpolati da un modello pre-addestrato di interpolazione video. Esperimenti estensivi dimostrano che il nostro Consistent4D può competere con le alternative dello stato dell'arte, aprendo nuove possibilità per la generazione di oggetti dinamici 4D da video monoculari, mostrando inoltre vantaggi anche per le tradizionali attività di generazione da testo a 3D. La pagina del nostro progetto è https://consistent4d.github.io/.

Trasformatore Distribuito per Sequenze Ultra-Lunghe
Ultra-Long Sequence Distributed Transformer

Nov 4

ByXiao Wang, Isaac Lyngaas, Aristeidis Tsaris, Peng Chen, Sajal Dash, Mayanka Chandra Shekar, Tao Luo, Hong-Jun Yoon, Mohamed Wahib, John Gouley

I modelli Transformer addestrati su sequenze lunghe spesso raggiungono una maggiore accuratezza rispetto a sequenze brevi. Sfortunatamente, i transformer convenzionali incontrano difficoltà nell'addestramento su sequenze lunghe a causa degli eccessivi requisiti di calcolo e memoria. I metodi esistenti per l'addestramento su sequenze lunghe offrono un limitato aumento di velocità e riduzione della memoria, e possono compromettere l'accuratezza. Questo articolo presenta un metodo innovativo ed efficiente per l'addestramento distribuito, il Long Short-Sequence Transformer (LSS Transformer), progettato per addestrare transformer su sequenze lunghe. Esso suddivide una sequenza lunga in segmenti distribuiti tra le GPU, con ciascuna GPU che calcola un'attenzione parziale (self-attention) per il proprio segmento. Successivamente, utilizza una comunicazione fusa e una nuova tecnica di mediazione doppia del gradiente per evitare la necessità di aggregare le attenzioni parziali e minimizzare l'overhead di comunicazione. Abbiamo valutato le prestazioni tra LSS Transformer e il parallelismo di sequenza all'avanguardia di Nvidia su un dataset Wikipedia enwik8. I risultati mostrano che il nostro metodo proposto porta a un'implementazione 5,6 volte più veloce e 10,2 volte più efficiente in termini di memoria rispetto al parallelismo di sequenza all'avanguardia su 144 GPU Nvidia V100. Inoltre, il nostro algoritmo scala fino a una lunghezza estrema della sequenza di 50.112 su 3.456 GPU, raggiungendo un'efficienza parallela super-lineare del 161% e una velocità di elaborazione di 32 petaflop.

GLaMM: Modello Multimodale di Grande Scala con Ancoraggio a Livello di Pixel
GLaMM: Pixel Grounding Large Multimodal Model

Nov 6

ByHanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan