HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

23 papers found

"Dammi BF16 o dammi la morte"? Scambi tra accuratezza e prestazioni nella quantizzazione di LLM
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

Nov 4

ByEldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh

Nonostante la popolarità della quantizzazione dei grandi modelli linguistici (LLM) per l'accelerazione dell'inferezza, rimane significativa incertezza riguardo ai compromessi tra accuratezza e prestazioni associati a vari formati di quantizzazione. Presentiamo uno studio empirico completo sull'accuratezza quantizzata, valutando formati di quantizzazione popolari (FP8, INT8, INT4) su benchmark accademici e compiti reali, sull'intera famiglia di modelli Llama-3.1. Inoltre, il nostro studio esamina le differenze nel testo generato dai modelli quantizzati rispetto ai loro corrispettivi non compressi. Oltre ai benchmark, presentiamo anche un paio di miglioramenti nella quantizzazione che ci hanno permesso di ottenere risultati di recupero dell'accuratezza all'avanguardia. La nostra indagine, che comprende oltre 500.000 valutazioni individuali, porta a diverse conclusioni chiave: (1) la quantizzazione dei pesi e delle attivazioni in FP8 (W8A8-FP) è senza perdita su tutte le scale del modello, (2) la quantizzazione dei pesi e delle attivazioni in INT8 (W8A8-INT), quando correttamente tarata, comporta una degradazione dell'accuratezza sorprendentemente bassa dell'1-3%, e (3) la quantizzazione solo dei pesi in INT4 (W4A16-INT) è competitiva con la quantizzazione dei pesi e delle attivazioni in interi a 8 bit. Per affrontare la questione del "miglior" formato per un determinato ambiente di distribuzione, conduciamo un'analisi delle prestazioni di inferenza utilizzando il popolare framework open-source vLLM su varie architetture GPU. Troviamo che W4A16 offre la migliore efficienza economica per distribuzioni sincrone e per distribuzioni asincrone su GPU di fascia media. Allo stesso tempo, i formati W8A8 eccellono nella distribuzione asincrona "batching continuo" di modelli di dimensioni medie e grandi su GPU di fascia alta. I nostri risultati forniscono un insieme di linee guida pratiche per distribuire LLM quantizzati su diverse scale e requisiti di prestazioni.

AndroidLab: Addestramento e Valutazione Sistematica di Agenti Autonomi Android
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

Oct 31

ByYifan Xu, Xiao Liu, Xueqiao Sun, Siyi Cheng, Hao Yu, Hanyu Lai, Shudan Zhang, Dan Zhang, Jie Tang, Yuxiao Dong

Gli agenti autonomi sono diventati sempre più importanti per interagire con il mondo reale. Gli agenti Android, in particolare, sono stati di recente un metodo di interazione spesso menzionato. Tuttavia, gli studi esistenti per addestrare e valutare agenti Android mancano di una ricerca sistematica su modelli sia open-source che closed-source. In questo lavoro, proponiamo AndroidLab come un framework sistematico per agenti Android. Esso include un ambiente operativo con diverse modalità, spazio di azione e un benchmark riproducibile. Supporta sia grandi modelli linguistici (LLM) che modelli multimodali (LMM) nello stesso spazio di azione. Il benchmark di AndroidLab include dispositivi virtuali Android predefiniti e 138 compiti su nove app costruite su questi dispositivi. Utilizzando l'ambiente AndroidLab, sviluppiamo un dataset di istruzioni Android e addestriamo sei LLM e LMM open-source, aumentando i tassi di successo medi dal 4,59% al 21,50% per i LLM e dal 1,93% al 13,28% per i LMM. AndroidLab è open-source e disponibile pubblicamente su https://github.com/THUDM/Android-Lab.

WebRL: Addestramento degli Agenti Web LLM tramite un Curriculum Online Auto-evolutivo basato sull'Apprendimento per Rinforzo
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Nov 4

ByZehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong

I grandi modelli linguistici (LLM) hanno mostrato un notevole potenziale come agenti autonomi, in particolare nelle attività basate sul web. Tuttavia, gli attuali agenti web LLM dipendono pesantemente da costose API LLM proprietarie, mentre i LLM aperti mancano delle necessarie capacità decisionali. Questo articolo introduce WebRL, un framework di apprendimento per rinforzo con curriculum online auto-evolutivo progettato per addestrare agenti web ad alte prestazioni utilizzando LLM aperti. WebRL affronta tre sfide chiave nella costruzione di agenti web LLM, tra cui la scarsità di compiti di addestramento, i segnali di feedback sparsi e la deriva della distribuzione delle politiche nell'apprendimento online. In particolare, WebRL incorpora 1) un curriculum auto-evolutivo che genera nuovi compiti dai tentativi non riusciti, 2) un modello di ricompensa supervisionato da risultati robusto (ORM) e 3) strategie di apprendimento per rinforzo adattive per garantire miglioramenti costanti. Applichiamo WebRL per trasformare i modelli aperti Llama-3.1 e GLM-4 in agenti web competenti. Su WebArena-Lite, WebRL migliora il tasso di successo di Llama-3.1-8B dal 4,8% al 42,4% e da 6,1% al 43% per GLM-4-9B. Questi modelli aperti superano significativamente le prestazioni di GPT-4-Turbo (17,6%) e GPT-4o (13,9%) e superano i precedenti agenti web all'avanguardia addestrati su LLM aperti (AutoWebGLM, 18,2%). I nostri risultati dimostrano l'efficacia di WebRL nel colmare il divario tra agenti web basati su LLM aperti e proprietari, aprendo la strada a sistemi di interazione web autonomi più accessibili e potenti.

DynaSaur: Agenti Linguistici di Ampie Dimensioni Oltre alle Azioni Predefinite
DynaSaur: Large Language Agents Beyond Predefined Actions

Nov 4

ByDang Nguyen, Viet Dac Lai, Seunghyun Yoon, Ryan A. Rossi, Handong Zhao, Ruiyi Zhang, Puneet Mathur, Nedim Lipka, Yu Wang, Trung Bui, Franck Dernoncourt, Tianyi Zhou

I sistemi di agenti LLM esistenti solitamente selezionano azioni da un insieme fisso e predefinito ad ogni passo. Sebbene questo approccio sia efficace in ambienti chiusi e dal campo d'azione limitato, sosteniamo che presenta due sfide principali quando si dispiegano agenti LLM in scenari reali: (1) la selezione da un insieme fisso di azioni limita significativamente le capacità di pianificazione e azione degli agenti LLM, e (2) questo approccio richiede uno sforzo umano sostanziale per enumerare e implementare tutte le possibili azioni, il che diventa impraticabile in ambienti complessi con un vasto numero di azioni potenziali. In questo lavoro, proponiamo un framework di agenti LLM che consente la creazione dinamica e la composizione di azioni in modo online. In questo framework, l'agente interagisce con l'ambiente generando ed eseguendo programmi scritti in un linguaggio di programmazione generale ad ogni passo. Inoltre, le azioni generate vengono accumulate nel tempo per un utilizzo futuro. I nostri ampi esperimenti sul benchmark GAIA dimostrano che questo framework offre una flessibilità significativamente maggiore e supera i metodi precedenti. In particolare, consente a un agente LLM di recuperare in scenari in cui non esiste un'azione rilevante nell'insieme predefinito o quando le azioni esistenti falliscono a causa di casi limite imprevisti. Al momento della stesura, deteniamo la posizione di vertice nella classifica pubblica di GAIA. Il nostro codice è disponibile su https://github.com/adobe-research/dynasaur.

Quanto è lontana la Generazione di Video dal Modello del Mondo: Una Prospettiva delle Leggi Fisiche
How Far is Video Generation from World Model: A Physical Law Perspective

Nov 4

ByBingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng

Sora di OpenAI mette in evidenza il potenziale della generazione video per lo sviluppo di modelli del mondo che rispettino le leggi fisiche fondamentali. Tuttavia, la capacità dei modelli di generazione video di scoprire tali leggi esclusivamente dai dati visivi senza preconcetti umani può essere messa in discussione. Un modello del mondo che apprende la vera legge dovrebbe fornire previsioni robuste ai dettagli e fare corrette estrapolazioni su scenari non visti. In questo lavoro, valutiamo attraverso tre scenari chiave: in distribuzione, fuori distribuzione e generalizzazione combinatoria. Abbiamo sviluppato una piattaforma di test di simulazione 2D per il movimento degli oggetti e le collisioni per generare video deterministicamente regolati da una o più leggi di meccanica classica. Questo fornisce un'offerta illimitata di dati per sperimentazioni su larga scala e consente una valutazione quantitativa del rispetto delle leggi fisiche nei video generati. Abbiamo addestrato modelli di generazione video basati sulla diffusione per prevedere i movimenti degli oggetti basati sui frame iniziali. I nostri esperimenti di scalabilità mostrano una generalizzazione perfetta all'interno della distribuzione, un comportamento di scalabilità misurabile per la generalizzazione combinatoria, ma un fallimento nei casi fuori distribuzione. Ulteriori esperimenti rivelano due chiavi di lettura sui meccanismi di generalizzazione di questi modelli: (1) i modelli non riescono ad astrarre regole fisiche generali e invece mostrano un comportamento di generalizzazione "basato sui casi", cioè imitando il caso di addestramento più simile; (2) quando si generalizza a nuovi casi, si osserva che i modelli danno priorità a diversi fattori nel fare riferimento ai dati di addestramento: colore > dimensione > velocità > forma. Il nostro studio suggerisce che la sola scalabilità non è sufficiente affinché i modelli di generazione video possano scoprire leggi fisiche fondamentali, nonostante il suo ruolo nel successo più ampio di Sora. Consulta la nostra pagina del progetto su https://phyworld.github.io

Promozione regionale senza addestramento per i trasformatori a diffusione
Training-free Regional Prompting for Diffusion Transformers

Nov 4

ByAnthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang

I modelli di diffusione hanno dimostrato eccellenti capacità nella generazione di testo-immagine. La loro capacità di comprensione semantica (cioè, prompt successivi) è stata notevolmente migliorata anche con grandi modelli linguistici (ad es., T5, Llama). Tuttavia, i modelli esistenti non riescono a gestire perfettamente prompt di testo lunghi e complessi, specialmente quando i prompt di testo contengono vari oggetti con numerosi attributi e relazioni spaziali interconnesse. Sebbene siano stati proposti molti metodi di prompting regionale per modelli basati su UNet (SD1.5, SDXL), non ci sono ancora implementazioni basate sull'architettura del Transformer di Diffusione (DiT) recente, come SD3 e FLUX. In questo rapporto, proponiamo e implementiamo il prompting regionale per FLUX.1 basato sulla manipolazione dell'attenzione, che abilita DiT con la capacità di generazione di testo-immagine composito a grana fine in modo privo di addestramento. Il codice è disponibile su https://github.com/antonioo-c/Regional-Prompting-FLUX.

Hunyuan-Large: Un modello MoE open-source con 52 miliardi di parametri attivati da Tencent.
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

Nov 4

ByXingwu Sun, Yanfeng Chen, Yiqing Huang, Ruobing Xie, Jiaqi Zhu, Kai Zhang, Shuaipeng Li, Zhen Yang, Jonny Han, Xiaobo Shu, Jiahao Bu, Zhongzhi Chen, Xuemeng Huang, Fengzong Lian, Saiyong Yang, Jianfeng Yan, Yuyuan Zeng, Xiaoqin Ren, Chao Yu, Lulu Wu, Yue Mao, Tao Yang, Suncong Zheng, Kan Wu, Dian Jiao, Jinbao Xue, Xipeng Zhang, Decheng Wu, Kai Liu, Dengpeng Wu, Guanghui Xu, Shaohua Chen, Shuang Chen, Xiao Feng, Yigeng Hong, Junqiang Zheng, Chengcheng Xu, Zongwei Li, Xiong Kuang, Jianglu Hu, Yiqi Chen, Yuchi Deng, Guiyang Li, Ao Liu, Chenchen Zhang, Shihui Hu, Zilong Zhao, Zifan Wu, Yao Ding, Weichao Wang, Han Liu, Roberts Wang, Hao Fei, Peijie She, Ze Zhao, Xun Cao, Hai Wang, Fusheng Xiang, Mengyuan Huang, Zhiyuan Xiong, Bin Hu, Xuebin Hou, Lei Jiang, Jiajia Wu, Yaping Deng, Yi Shen, Qian Wang, Weijie Liu, Jie Liu, Meng Chen, Liang Dong, Weiwen Jia, Hu Chen, Feifei Liu, Rui Yuan, Huilin Xu, Zhenxiang Yan, Tengfei Cao, Zhichao Hu, Xinhua Feng, Dong Du, Tinghao She, Yangyu Tao, Feng Zhang, Jianchen Zhu, Chengzhong Xu, Xirui Li, Chong Zha, Wen Ouyang, Yinben Xia, Xiang Li, Zekun He, Rongpeng Chen, Jiawei Song, Ruibin Chen, Fan Jiang, Chongqing Zhao, Bo Wang, Hao Gong, Rong Gan, Winston Hu, Zhanhui Kang, Yong Yang, Yuhong Liu, Di Wang, Jie Jiang

In questo articolo, presentiamo Hunyuan-Large, attualmente il più grande modello open-source basato su Transformer con una somma totale di 389 miliardi di parametri e 52 miliardi di parametri di attivazione, in grado di gestire fino a 256K token. Conduciamo una valutazione approfondita delle prestazioni superiori di Hunyuan-Large su vari benchmark, inclusi comprensione e generazione del linguaggio, ragionamento logico, risoluzione di problemi matematici, coding, contesti lunghi e compiti aggregati, dove supera LLama3.1-70B e mostra prestazioni comparabili rispetto al modello significativamente più grande LLama3.1-405B. Le pratiche chiave di Hunyuan-Large includono dati sintetici su larga scala che sono di ordini di grandezza superiori rispetto alla letteratura precedente, una strategia di routing esperto misto, una tecnica di compressione della cache chiave-valore e una strategia di tasso di apprendimento specifica per esperto. Inoltre, investighiamo le leggi di scalabilità e il programma di tassi di apprendimento dei modelli a miscela di esperti, fornendo preziose intuizioni e indicazioni per lo sviluppo e l'ottimizzazione futura dei modelli. Il codice e i checkpoint di Hunyuan-Large sono rilasciati per agevolare future innovazioni e applicazioni. Codici: https://github.com/Tencent/Hunyuan-Large Modelli: https://huggingface.co/tencent/Tencent-Hunyuan-Large

MVPaint: Diffusione Multi-View Sincronizzata per Dipingere Oggetti 3D
MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

Nov 4

ByWei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu, Ziwei Liu, Liang Pan

Il texturizzazione è un passaggio cruciale nel flusso di produzione di asset 3D, che migliora l'attrattiva visiva e la diversità degli asset 3D. Nonostante i recenti progressi nella generazione Testo-a-Texture (T2T), i metodi esistenti spesso producono risultati scadenti, principalmente a causa di discontinuità locali, incongruenze tra diverse visualizzazioni e della loro forte dipendenza dai risultati dell'UV unwrapping. Per affrontare queste sfide, proponiamo un innovativo framework di texturizzazione 3D di generazione-raffinamento chiamato MVPaint, in grado di generare texture senza soluzione di continuità ad alta risoluzione, enfatizzando la coerenza multi-visualizzazione. MVPaint è principalmente composto da tre moduli chiave. 1) Generazione Sincronizzata Multi-visualizzazione (SMG). Dato un modello di mesh 3D, MVPaint genera prima simultaneamente immagini multi-visualizzazione impiegando un modello SMG, che porta a risultati di texturizzazione grossolani con parti non dipinte a causa di osservazioni mancanti. 2) Riempiemento 3D consapevole dello spazio (S3I). Per garantire una texturizzazione 3D completa, introduciamo il metodo S3I, progettato specificamente per texturizzare efficacemente aree precedentemente non osservate. 3) Perfezionamento UV (UVR). Inoltre, MVPaint impiega un modulo UVR per migliorare la qualità della texture nello spazio UV, che prima esegue una Super-Risoluzione nello spazio UV, seguita da un algoritmo di Smoothing dei Margini consapevole dello spazio per correggere le discontinuità spaziali della texturizzazione causate dall'UV unwrapping. Inoltre, istituiamo due benchmark di valutazione T2T: il benchmark T2T di Objaverse e il benchmark T2T di GSO, basati su selezionati mesh 3D di alta qualità rispettivamente dal dataset di Objaverse e dall'intero dataset di GSO. Estesi risultati sperimentali dimostrano che MVPaint supera i metodi esistenti all'avanguardia. In particolare, MVPaint potrebbe generare texture ad alta fedeltà con minimi problemi di Janus e una coerenza tra visualizzazioni notevolmente migliorata.

Indagine sulla Consapevolezza Culturale nei Modelli Linguistici: Testo e Oltre
Survey of Cultural Awareness in Language Models: Text and Beyond

Oct 30

BySiddhesh Pawar, Junyeong Park, Jiho Jin, Arnav Arora, Junho Myung, Srishti Yadav, Faiz Ghifari Haznitrama, Inhwa Song, Alice Oh, Isabelle Augenstein

Il dispiegamento su larga scala dei grandi modelli linguistici (LLM) in varie applicazioni, come chatbot e assistenti virtuali, richiede che i LLM siano culturalmente sensibili all'utente per garantire l'inclusività. La cultura è stata ampiamente studiata in psicologia e antropologia, e c'è stato di recente un aumento della ricerca per rendere i LLM più culturalmente inclusivi, andando oltre la multilinguismo e basandosi sui risultati della psicologia e dell'antropologia. In questo articolo, esaminiamo gli sforzi per incorporare la consapevolezza culturale nei LLM basati su testo e multimodali. Iniziamo definendo la consapevolezza culturale nei LLM, prendendo le definizioni di cultura dall'antropologia e dalla psicologia come punto di partenza. Successivamente esaminiamo le metodologie adottate per la creazione di dataset interculturali, le strategie per l'inclusione culturale nelle attività derivate e le metodologie utilizzate per il benchmarking della consapevolezza culturale nei LLM. Inoltre, discutiamo le implicazioni etiche dell'allineamento culturale, il ruolo dell'Interazione Uomo-Computer nel promuovere l'inclusione culturale nei LLM e il ruolo dell'allineamento culturale nella guida della ricerca in scienze sociali. Infine, forniamo indicazioni per la ricerca futura basate sulle nostre scoperte riguardo alle lacune nella letteratura.

Caching Adattivo per una Generazione Video più Veloce con Trasformatori a Diffusione
Adaptive Caching for Faster Video Generation with Diffusion Transformers

Nov 4

ByKumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie

Generare video ad alta fedeltà temporalmente consistenti può essere computazionalmente costoso, specialmente su periodi temporali più lunghi. Le più recenti Trasformazioni a Diffusione (DiTs) - nonostante abbiano compiuto progressi significativi in questo contesto - hanno solo accentuato tali sfide poiché si basano su modelli più grandi e meccanismi di attenzione più pesanti, risultando in velocità di inferenza più lente. In questo articolo, presentiamo un metodo privo di addestramento per accelerare i video DiTs, denominato Caching Adattivo (AdaCache), che è motivato dal fatto che "non tutti i video sono creati uguali": ciò significa che alcuni video richiedono meno passaggi di denoising per ottenere una qualità accettabile rispetto ad altri. Sfruttando questo concetto, non solo memorizziamo calcoli attraverso il processo di diffusione, ma progettiamo anche un programma di caching adattato a ciascuna generazione video, massimizzando il compromesso qualità-latency. Introduciamo inoltre uno schema di Regolarizzazione del Movimento (MoReg) per utilizzare le informazioni video all'interno di AdaCache, controllando essenzialmente l'allocazione di calcolo in base al contenuto del movimento. Nel complesso, i nostri contributi plug-and-play offrono significativi miglioramenti nella velocità di inferenza (ad es. fino a 4,7 volte nella generazione video di Open-Sora 720p - 2s) senza compromettere la qualità della generazione, su diversi baselines di video DiT.

GenXD: Generazione di Qualsiasi Scena 3D e 4D
GenXD: Generating Any 3D and 4D Scenes

Nov 4

ByYuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang

Gli sviluppi recenti nella generazione visuale 2D sono stati straordinariamente riusciti. Tuttavia, la generazione 3D e 4D rimane una sfida nelle applicazioni del mondo reale a causa della mancanza di dati 4D su larga scala e di un design efficace del modello. In questo articolo, proponiamo di investigare congiuntamente la generazione generale 3D e 4D sfruttando i movimenti della telecamera e degli oggetti comunemente osservati nella vita quotidiana. A causa della mancanza di dati 4D del mondo reale nella comunità, proponiamo innanzitutto un flusso di lavoro per la cura dei dati per ottenere pose della telecamera e intensità del movimento dell'oggetto dai video. Sulla base di questo flusso di lavoro, introduciamo un dataset di scene 4D del mondo reale su larga scala: CamVid-30K. Sfruttando tutti i dati 3D e 4D, sviluppiamo il nostro framework, GenXD, che ci consente di produrre qualsiasi scena 3D o 4D. Proponiamo moduli multivista-temporali, che disentangolano i movimenti della telecamera e degli oggetti, per apprendere in modo fluido sia dai dati 3D che 4D. Inoltre, GenXD utilizza condizioni latenti mascherate per supportare una varietà di viste condizionate. GenXD può generare video che seguono la traiettoria della telecamera così come viste 3D coerenti che possono essere trasformate in rappresentazioni 3D. Effettuiamo valutazioni approfondite su vari dataset del mondo reale e sintetici, dimostrando l'efficacia e la versatilità di GenXD rispetto ai metodi precedenti nella generazione 3D e 4D.

AutoVFX: Modifica Video Fisicamente Realistica da Linguaggio Naturale Istruzioni
AutoVFX: Physically Realistic Video Editing from Natural Language Instructions

Nov 4

ByHao-Yu Hsu, Zhi-Hao Lin, Albert Zhai, Hongchi Xia, Shenlong Wang

I moderni software di effetti visivi (VFX) hanno reso possibile per artisti esperti creare immagini di praticamente qualsiasi cosa. Tuttavia, il processo di creazione rimane laborioso, complesso e in gran parte inaccessibile agli utenti comuni. In questo lavoro, presentiamo AutoVFX, un framework che crea automaticamente video VFX realistici e dinamici da un singolo video e istruzioni in linguaggio naturale. Integrando attentamente la modellazione neurale della scena, la generazione di codice basata su LLM e la simulazione fisica, AutoVFX è in grado di fornire effetti di editing fotorealistici e basati su principi fisici che possono essere controllati direttamente utilizzando istruzioni in linguaggio naturale. Conduciamo ampi esperimenti per convalidare l'efficacia di AutoVFX su un ampio spettro di video e istruzioni. I risultati quantitativi e qualitativi suggeriscono che AutoVFX supera di gran lunga tutti i metodi concorrenti in termini di qualità generativa, allineamento delle istruzioni, versatilità dell'editing e plausibilità fisica.

DynaMath: un benchmark visivo dinamico per valutare la robustezza del ragionamento matematico dei modelli di linguaggio visivo
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

I rapidi progressi nei Modelli Visione-Linguaggio (VLM) hanno mostrato un grande potenziale nel affrontare compiti di ragionamento matematico che coinvolgono contesti visivi. A differenza degli esseri umani che possono applicare in modo affidabile passaggi di soluzione a problemi simili con modifiche minori, abbiamo scoperto che i VLM di ultima generazione come GPT-4o possono fallire in modo consistente in questi scenari, rivelando limitazioni nelle loro capacità di ragionamento matematico. In questo articolo, investighiamo la robustezza del ragionamento matematico nei VLM e valutiamo quanto bene questi modelli si comportano sotto diverse varianti della stessa domanda, come cambiamenti nei valori numerici visivi o nei grafici di funzioni. Mentre sono stati sviluppati diversi benchmark matematici basati sulla visione per valutare le capacità di risoluzione dei problemi dei VLM, questi benchmark contengono solo insiemi statici di problemi e non possono valutare facilmente la robustezza del ragionamento matematico. Per colmare questa lacuna, presentiamo DynaMath, un benchmark matematico visivo dinamico progettato per una valutazione approfondita dei VLM. DynaMath include 501 domande seed di alta qualità su vari argomenti, ognuna rappresentata come un programma Python. Questi programmi sono attentamente progettati e annotati per consentire la generazione automatica di un insieme molto più ampio di domande concrete, inclusi molti tipi diversi di variazioni visive e testuali. DynaMath ci consente di valutare la capacità di generalizzazione dei VLM, valutando le loro prestazioni in condizioni di input variabili di una domanda seed. Abbiamo valutato 14 VLM di ultima generazione con 5.010 domande concrete generate. I nostri risultati mostrano che l'accuratezza del modello nel caso peggiore, definita come la percentuale di domande seed risposte correttamente in tutte e 10 le varianti, è significativamente più bassa rispetto all'accuratezza nel caso medio. La nostra analisi sottolinea la necessità di studiare la robustezza delle capacità di ragionamento dei VLM, e DynaMath fornisce preziose intuizioni per guidare lo sviluppo di modelli più affidabili per il ragionamento matematico.

Legge della sparizione: Verso modelli linguistici di grandi dimensioni con una maggiore attivazione Sparità
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity

Nov 4

ByYuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

La sparità dell'attivazione indica l'esistenza di elementi debolmente contribuiti significativi all'interno delle uscite di attivazione che possono essere eliminati, beneficiando molte importanti applicazioni legate ai grandi modelli linguistici (LLM). Sebbene promuovere una maggiore sparità di attivazione all'interno dei LLM meriti approfonditi studi, i lavori esistenti mancano di una ricerca completa e quantitativa sulla correlazione tra la sparità di attivazione e i fattori potenzialmente influenti. In questo articolo, presentiamo uno studio completo sulle proprietà quantitative di ridimensionamento e sui fattori influenti della sparità di attivazione all'interno dei LLM basati solo sul decoder Transformer. In particolare, proponiamo la sparità PPL-p%, una metrica di sparità di attivazione precisa e consapevole delle prestazioni che è applicabile a qualsiasi funzione di attivazione. Attraverso estesi esperimenti, troviamo diversi importanti fenomeni. In primo luogo, diverse funzioni di attivazione mostrano prestazioni comparabili ma opposte tendenze di sparità nel tempo di addestramento. Il rapporto di attivazione (cioè, il rapporto di sparità 1) si evolve come una potenza crescente convergente e come una potenza decrescente in logaritmo con la quantità di dati di addestramento per i LLM attivati con SiLU e ReLU, rispettivamente. Questo dimostra che ReLU è più efficiente come funzione di attivazione rispetto a SiLU e può sfruttare più dati di addestramento per migliorare la sparità di attivazione. In secondo luogo, il rapporto di attivazione aumenta linearmente con il rapporto larghezza-profondità al di sotto di un certo punto di strozzatura, indicando il potenziale vantaggio di un'architettura più profonda a una scala di parametri fissa. Infine, a rapporti larghezza-profondità simili, troviamo sorprendentemente che il valore limite della sparità di attivazione varia debolmente con la scala dei parametri, cioè i modelli di attivazione all'interno dei LLM sono insensibili alla scala dei parametri. Queste leggi empiriche verso i LLM con maggiore sparità di attivazione hanno importanti implicazioni per rendere i LLM più efficienti e interpretabili.

PPLLaVA: Comprensione Variegata delle Sequenze Video con Guida Prompt
PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Nov 4

ByRuyang Liu, Haoran Tang, Haibo Liu, Yixiao Ge, Ying Shan, Chen Li, Jiankun Yang

L'anno scorso ha visto un significativo progresso dei modelli linguistici su larga scala basati su video. Tuttavia, la sfida di sviluppare un modello unificato per la comprensione di video brevi e lunghi rimane irrisolta. La maggior parte dei modelli linguistici su video esistenti non riesce a gestire video di un'ora, mentre i metodi personalizzati per video lunghi tendono ad essere inefficaci per video e immagini più brevi. In questo articolo identifichiamo il problema chiave come il contenuto ridondante nei video. Per affrontare questo problema, proponiamo una nuova strategia di pooling che raggiunge contemporaneamente la compressione dei token e l'aggregazione delle caratteristiche visive consapevoli delle istruzioni. Il nostro modello è denominato PPLLaVA (Prompt-guided Pooling LLaVA). In particolare, PPLLaVA è composto da tre componenti principali: l'allineamento visivo basato su prompt CLIP che estrae informazioni visive rilevanti per le istruzioni dell'utente, il pooling guidato dal prompt che comprime la sequenza visiva a scale arbitrarie utilizzando il pooling in stile convoluzionale, e l'estensione del contesto clip progettata per prompt lunghi comuni nei dialoghi visivi. Inoltre, il nostro codice integra anche l'ottimizzazione delle preferenze dirette (DPO) su video e l'addestramento visivo intercalato più avanzato. Estesi esperimenti hanno convalidato le prestazioni del nostro modello. Con un throughput superiore e solo 1024 contesti visivi, PPLLaVA ottiene risultati migliori sui benchmark delle immagini come modello linguistico su video, raggiungendo contemporaneamente prestazioni all'avanguardia su vari benchmark video, eccellendo in compiti che vanno dalla generazione di didascalie a domande a risposta multipla, gestendo lunghezze video da secondi a ore. Il codice è disponibile su https://github.com/farewellthree/PPLLaVA.

LIBMoE: Una libreria per il benchmarking completo di Mixture of Experts in Grandi Modelli Linguistici
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

Il Mixture of Experts (MoE) gioca un ruolo importante nello sviluppo di modelli linguistici di grandi dimensioni (LLM) più efficienti ed efficaci. A causa dei considerevoli requisiti di risorse, lo studio degli algoritmi MoE su larga scala rimane inaccessibile a molti ricercatori. Questo lavoro sviluppa LibMoE, un framework completo e modulare per ottimizzare la ricerca, l'addestramento e la valutazione degli algoritmi MoE. Basato su tre principi fondamentali: (i) design modulare, (ii) addestramento efficiente; (iii) valutazione esaustiva, LibMoE rende i MoE nei LLM più accessibili a un'ampia gamma di ricercatori standardizzando i percorsi di addestramento e valutazione. Utilizzando LibMoE, abbiamo ampiamente testato cinque algoritmi MoE all'avanguardia su tre diversi LLM e 11 set di dati nell'impostazione zero-shot. I risultati mostrano che nonostante le caratteristiche uniche, tutti gli algoritmi MoE si comportano approssimativamente allo stesso modo quando mediati su una vasta gamma di compiti. Con il design modulare e la valutazione approfondita, riteniamo che LibMoE sarà prezioso per i ricercatori per compiere progressi significativi verso la prossima generazione di MoE e LLM. Pagina del progetto: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

SALSA: Apprendimento dell'allineamento basato su zuppe per un'adattamento più forte in RLHF
SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF

Nov 4

ByAtoosa Chegini, Hamid Kazemi, Iman Mirzadeh, Dong Yin, Maxwell Horton, Moin Nabi, Mehrdad Farajtabar, Keivan Alizadeh

Nello sviluppo dei Large Language Model (LLM), il Reinforcement Learning from Human Feedback (RLHF) è cruciale per allineare i modelli con i valori umani e le preferenze. RLHF tradizionalmente si basa sulla divergenza Kullback-Leibler (KL) tra la policy attuale e una policy iniziale congelata come riferimento, che viene aggiunta come penalità negli algoritmi di ottimizzazione della policy come il Proximal Policy Optimization (PPO). Sebbene questo vincolo impedisca ai modelli di deviare troppo dal checkpoint iniziale, limita l'esplorazione del paesaggio dei premi, riducendo la capacità del modello di scoprire soluzioni di qualità superiore. Di conseguenza, l'ottimizzazione della policy è spesso intrappolata in una regione ristretta dello spazio dei parametri, portando a un allineamento e a una performance subottimali. Questo articolo presenta SALSA (Soup-based Alignment Learning for Stronger Adaptation), un approccio innovativo progettato per superare tali limitazioni creando un modello di riferimento più flessibile e meglio posizionato attraverso la media nello spazio dei pesi di due modelli supervisionati fine-tuned (SFT) indipendenti. Questa "zuppa" di modelli consente una maggiore deviazione nella divergenza KL ed esplora una regione promettente dello spazio delle soluzioni senza sacrificare la stabilità. Sfruttando questo modello di riferimento più robusto, SALSA favorisce una migliore esplorazione, raggiungendo premi più elevati e migliorando la robustezza del modello, la generalizzazione fuori distribuzione e le performance. Convalidiamo l'efficacia di SALSA attraverso ampi esperimenti su modelli aperti popolari (Llama2-7B, Mistral-7B e Gemma-2B) su vari benchmark (MT-Bench, Arena-Hard, UltraFeedback), dove supera costantemente il PPO promuovendo una maggiore esplorazione e ottenendo un allineamento superiore nei LLM.

IGOR: Le Rappresentazioni dell'Obiettivo delle Immagini sono le Unità di Controllo Atomiche per i Modelli Fondamentali nell'AI Incarnata
IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI

Oct 17

ByXiaoyu Chen, Junliang Guo, Tianyu He, Chuheng Zhang, Pushi Zhang, Derek Cathera Yang, Li Zhao, Jiang Bian

Introduciamo le Rappresentazioni di Obiettivi Immagine (IGOR), con l'obiettivo di apprendere uno spazio d'azione unificato e semanticamente coerente tra esseri umani e vari robot. Attraverso questo spazio d'azione latente unificato, IGOR consente il trasferimento di conoscenze tra dati di attività di robot e umani su larga scala. Otteniamo ciò comprimendo i cambiamenti visivi tra un'immagine iniziale e il suo stato obiettivo in azioni latenti. IGOR ci permette di generare etichette di azioni latenti per dati video su scala internet. Questo spazio d'azione latente unificato consente l'addestramento di politiche fondamentali e modelli del mondo su una vasta gamma di compiti eseguiti sia da robot che da esseri umani. Dimostriamo che: (1) IGOR apprende uno spazio d'azione semanticamente coerente sia per umani che per robot, caratterizzando vari possibili movimenti degli oggetti che rappresentano la conoscenza dell'interazione fisica; (2) IGOR può "migrare" i movimenti dell'oggetto in un video ad altri video, anche tra umani e robot, utilizzando congiuntamente il modello di azione latente e il modello del mondo; (3) IGOR può apprendere ad allineare azioni latenti con il linguaggio naturale attraverso il modello di politica fondamentale, e integrare azioni latenti con un modello di politica a basso livello per ottenere un controllo efficace del robot. Crediamo che IGOR apra nuove possibilità per il trasferimento di conoscenze e il controllo da umano a robot.

Decodifica della Materia Oscura: Autoencoder Sparsi Specializzati per l'Interpretazione di Concetti Rari nei Modelli Fondamentali
Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models

Nov 1

ByAashiq Muhamed, Mona Diab, Virginia Smith

La comprensione e la mitigazione dei potenziali rischi associati ai modelli fondamentali (FMs) dipendono dallo sviluppo di metodi di interpretabilità efficaci. Gli Autoencoder Sparsi (SAEs) sono emersi come uno strumento promettente per svelare le rappresentazioni dei FM, ma faticano a catturare concetti rari ma cruciali nei dati. Introduciamo gli Autoencoder Sparsi Specializzati (SSAEs), progettati per illuminare questi elusivi concetti dark matter concentrandosi su specifici subdomini. Presentiamo una ricetta pratica per addestrare gli SSAEs, dimostrando l'efficacia del recupero denso per la selezione dei dati e i benefici della Minimizzazione dell'Errore Empirico Inclinato come obiettivo di addestramento per migliorare il richiamo concettuale. La nostra valutazione degli SSAEs su metriche standard, come la perplessità a valle e la sparsetà L_0, mostra che catturano efficacemente i concetti di coda del subdominio, superando le capacità degli SAE generalisti. Mostriamo l'utilità pratica degli SSAEs in uno studio di caso sul dataset Bias in Bios, dove gli SSAEs ottengono un aumento del 12,5\% nell'accuratezza di classificazione del peggior gruppo quando vengono utilizzati per rimuovere informazioni di genere spurie. Gli SSAEs forniscono un potente nuovo strumento per scrutare il funzionamento interno dei FM nei subdomini.

La multi-espertezza nell'incoraggiamento migliora l'affidabilità, la sicurezza e l'utilità dei grandi modelli linguistici.
Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models

Nov 1

ByDo Xuan Long, Duong Ngoc Yen, Anh Tuan Luu, Kenji Kawaguchi, Min-Yen Kan, Nancy F. Chen

Presentiamo il Multi-expert Prompting, un nuovo miglioramento di ExpertPrompting (Xu et al., 2023), progettato per migliorare la generazione del grande modello linguistico (LLM). In particolare, guida un LLM a soddisfare un'istruzione in ingresso simulando diversi esperti, aggregando le loro risposte e selezionando la migliore tra le risposte individuali e aggregate. Questo processo viene eseguito in una singola catena di pensieri attraverso i nostri sette sotto-compiti attentamente progettati derivati dalla Tecnica del Gruppo Nominale (Ven e Delbecq, 1974), un framework decisionale ben consolidato. Le nostre valutazioni dimostrano che il Multi-expert Prompting supera significativamente ExpertPrompting e baselines comparabili nel migliorare la veridicità, la factualità, l'informatività e l'utilità delle risposte riducendo al contempo la tossicità e l'offensività. Inoltre, raggiunge la veridicità all'avanguardia superando il miglior baseline del 8,69% con ChatGPT. Il Multi-expert Prompting è efficiente, spiegabile e altamente adattabile a scenari diversi, eliminando la necessità di costruzione manuale delle istruzioni.

Modelli Impliciti a Diffusione Vincolata
Constrained Diffusion Implicit Models

Nov 1

ByVivek Jayaram, Ira Kemelmacher-Shlizerman, Steven M. Seitz, John Thickstun

Questo articolo descrive un algoritmo efficiente per risolvere problemi inversi lineari rumorosi utilizzando modelli di diffusione preaddestrati. Estendendo il paradigma dei modelli impliciti di diffusione per la rimozione del rumore (DDIM), proponiamo modelli impliciti di diffusione vincolati (CDIM) che modificano gli aggiornamenti di diffusione per imporre un vincolo sull'output finale. Per problemi inversi senza rumore, CDIM soddisfa esattamente i vincoli; nel caso rumoroso, generalizziamo CDIM per soddisfare un vincolo esatto sulla distribuzione residua del rumore. Gli esperimenti su una varietà di compiti e metriche mostrano un'elevata performance di CDIM, con un'accelerazione dell'inferezza analoga a DDIM non vincolato: da 10 a 50 volte più veloce rispetto ai metodi di diffusione condizionale precedenti. Dimostriamo la versatilità del nostro approccio su molti problemi, inclusi sovracampionamento, rimozione del rumore, inpainting, sfocatura e ricostruzione di nuvole di punti in 3D.

Swan e ArabicMTEB: Modelli e benchmark di incorporamento consapevoli dei dialetti, centrati sull'arabo, cross-linguistici e cross-culturali
Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks

Nov 2

ByGagan Bhatia, El Moatez Billah Nagoudi, Abdellah El Mekki, Fakhraddin Alwajih, Muhammad Abdul-Mageed

Introduciamo Swan, una famiglia di modelli di embedding incentrati sulla lingua araba, che affrontano casi d'uso di piccola e grande scala. Swan include due varianti: Swan-Small, basato su ARBERTv2, e Swan-Large, costruito su ArMistral, un modello di lingua araba di grandi dimensioni preaddestrato. Per valutare questi modelli, proponiamo ArabicMTEB, una suite di benchmark completa che valuta le prestazioni dell'embedding di testo arabo cross-linguistico, multi-dialettale, multi-dominio e multi-culturale, coprendo otto compiti diversi e spaziando su 94 set di dati. Swan-Large raggiunge risultati all'avanguardia, superando Multilingual-E5-large nella maggior parte dei compiti arabi, mentre Swan-Small supera costantemente Multilingual-E5 base. Le nostre valutazioni approfondite dimostrano che i modelli Swan sono consapevoli sia dialettalmente che culturalmente, eccellendo in vari domini arabi offrendo al contempo un'efficienza monetaria significativa. Questo lavoro fa avanzare significativamente il campo della modellazione della lingua araba e fornisce risorse preziose per la ricerca futura e le applicazioni nel trattamento automatico del linguaggio naturale arabo. I nostri modelli e il benchmark saranno resi pubblicamente accessibili per la ricerca.

LoRA - Contestualizzazione dell'Adattamento di Grandi Modelli Multimodali per la Comprensione di Documenti Lunghi
LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding

Nov 2

ByJian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun

I grandi modelli multimodali (LMM) hanno recentemente mostrato grandi progressi nella comprensione delle immagini ricche di testo, ma faticano ancora con documenti complessi, multi-pagina e ricchi di immagini. I metodi tradizionali che utilizzano parser di documenti per la generazione potenziata da recupero presentano limitazioni in termini di prestazioni ed efficienza, mentre presentare direttamente tutte le pagine ai LMM porta a inefficienze, specialmente con documenti lunghi. In questo lavoro, presentiamo un nuovo framework chiamato LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), che amplia le capacità di qualsiasi LMM per supportare la comprensione di documenti lunghi. Dimostriamo che i LMM possono servire efficacemente come recuperatori multimodali, recuperando pagine rilevanti per rispondere alle domande degli utenti basate su tali pagine. LoCAL è implementato con due adattatori LMM specifici: uno per il recupero delle pagine di prova e un altro per la risposta alle domande. I risultati empirici mostrano prestazioni all'avanguardia su benchmark pubblici, dimostrando l'efficacia di LoCAL.