HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

34 papers found

Generatore di Film: Un Cast di Modelli di Fondazione Media
Movie Gen: A Cast of Media Foundation Models

Oct 17

ByAdam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du

Presentiamo Movie Gen, un insieme di modelli fondamentali che genera video ad alta qualità in HD a 1080p con diversi rapporti di aspetto e audio sincronizzato. Mostriamo inoltre capacità aggiuntive come il montaggio video preciso basato su istruzioni e la generazione di video personalizzati basati sull'immagine di un utente. I nostri modelli stabiliscono un nuovo stato dell'arte su molteplici compiti: sintesi testo-video, personalizzazione video, montaggio video, generazione video-audio e generazione testo-audio. Il nostro modello di generazione video più grande è un transformer con 30 miliardi di parametri addestrato con una lunghezza massima del contesto di 73.000 token video, corrispondente a un video generato di 16 secondi a 16 fotogrammi al secondo. Mostriamo diverse innovazioni tecniche e semplificazioni sull'architettura, spazi latenti, obiettivi e ricette di addestramento, cura dei dati, protocolli di valutazione, tecniche di parallelizzazione e ottimizzazioni dell'inferenza che ci consentono di sfruttare i vantaggi della scalabilità dei dati di pre-addestramento, delle dimensioni del modello e del calcolo di addestramento per modelli di generazione di media su larga scala. Speriamo che questo articolo aiuti la comunità di ricerca ad accelerare il progresso e l'innovazione nei modelli di generazione di media. Tutti i video di questo articolo sono disponibili su https://go.fb.me/MovieGenResearchVideos.

MixEval-X: Valutazioni da Qualsiasi a Qualsiasi da Miste di Dati del Mondo Reale
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Oct 17

ByJinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

Percepire e generare diverse modalità sono cruciali per i modelli di intelligenza artificiale per apprendere in modo efficace e interagire con segnali del mondo reale, rendendo necessarie valutazioni affidabili per il loro sviluppo. Identifichiamo due principali problematiche nelle valutazioni attuali: (1) standard inconsistente, plasmato da diverse comunità con protocolli e livelli di maturità variabili; e (2) significativi bias di interrogazione, valutazione e generalizzazione. Per affrontare queste questioni, presentiamo MixEval-X, il primo benchmark del mondo reale any-to-any progettato per ottimizzare e standardizzare le valutazioni tra modalità di input e output. Proponiamo miscele di benchmark multi-modalità e pipeline di adattamento-rettifica per ricostruire distribuzioni di compiti del mondo reale, garantendo che le valutazioni si generalizzino efficacemente ai casi d'uso reali. Estese meta-valutazioni mostrano che il nostro approccio allinea efficacemente campioni di benchmark con distribuzioni di compiti del mondo reale e i ranking dei modelli correlano fortemente con quelli delle valutazioni del mondo reale raccolte dalla folla (fino a 0.98). Forniamo classifiche complete per riassegnare i modelli e le organizzazioni esistenti e offriamo spunti per migliorare la comprensione delle valutazioni multi-modalità e per informare la ricerca futura.

JudgeBench: un benchmark per valutare i giudici basati su LLM.
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Oct 16

BySijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

I giudici basati su LLM sono emersi come un'alternativa scalabile alla valutazione umana e vengono sempre più utilizzati per valutare, confrontare e migliorare i modelli. Tuttavia, la affidabilità dei giudici basati su LLM stessi è raramente scrutinata. Man mano che gli LLM diventano più avanzati, le loro risposte diventano più sofisticate, richiedendo giudici più robusti per valutarli. I benchmark esistenti si concentrano principalmente sull'allineamento di un giudice con le preferenze umane, ma spesso non tengono conto di compiti più impegnativi in cui le preferenze umane raccolte in crowd sono un povero indicatore di correttezza fattuale e logica. Per affrontare questo problema, proponiamo un nuovo framework di valutazione per valutare oggettivamente i giudici basati su LLM. Basandoci su questo framework, proponiamo JudgeBench, un benchmark per valutare i giudici basati su LLM su coppie di risposte impegnative che spaziano dalla conoscenza, al ragionamento, alla matematica e alla codifica. JudgeBench sfrutta un nuovo processo per convertire dataset difficili esistenti in coppie di risposte impegnative con etichette di preferenza che riflettono la correttezza oggettiva. La nostra valutazione completa su una serie di giudici sollecitati, giudici ottimizzati, giudici multi-agente e modelli di ricompensa mostra che JudgeBench presenta una sfida significativamente maggiore rispetto ai benchmark precedenti, con molti modelli robusti (ad esempio, GPT-4o) che si comportano appena leggermente meglio di un'ipotesi casuale. In generale, JudgeBench offre una piattaforma affidabile per valutare giudici basati su LLM sempre più avanzati. I dati e il codice sono disponibili su https://github.com/ScalerLab/JudgeBench.

Fluidità: Scaling dei Modelli Generativi Autoregressivi Testo-immagine con Token Continui
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Oct 17

ByLijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

L'ingrandimento dei modelli autoregressivi in visione non ha dimostrato di essere altrettanto vantaggioso come nei grandi modelli linguistici. In questo lavoro, investighiamo questo problema di scalabilità nel contesto della generazione di testo-immagine, concentrandoci su due fattori critici: se i modelli utilizzano token discreti o continui e se i token vengono generati in un ordine raster casuale o fisso utilizzando architetture trasformative simili a BERT o GPT. I nostri risultati empirici mostrano che, sebbene tutti i modelli scalino efficacemente in termini di perdita di validazione, le loro prestazioni di valutazione - misurate da FID, punteggio GenEval e qualità visiva - seguono tendenze diverse. I modelli basati su token continui raggiungono una qualità visiva significativamente migliore rispetto a quelli che utilizzano token discreti. Inoltre, l'ordine di generazione e i meccanismi di attenzione influenzano significativamente il punteggio GenEval: i modelli in ordine casuale ottengono punteggi GenEval notevolmente migliori rispetto ai modelli in ordine raster. Ispirati da questi risultati, addestriamo Fluid, un modello autoregressivo in ordine casuale su token continui. Il modello Fluid 10.5B raggiunge un nuovo stato dell'arte con un FID zero-shot di 6.16 su MS-COCO 30K e un punteggio complessivo di 0.69 sul benchmark GenEval. Speriamo che i nostri risultati incoraggino futuri sforzi per colmare ulteriormente il divario di scalabilità tra i modelli di visione e linguaggio.

Janus: Decodifica visiva disaccoppiata per una comprensione e generazione multimodale unificate
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Oct 17

ByChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

In questo articolo, presentiamo Janus, un framework autoregressivo che unifica la comprensione e la generazione multimodale. La ricerca precedente spesso si basa su un singolo codificatore visivo per entrambi i compiti, come Chameleon. Tuttavia, a causa dei diversi livelli di granularità dell'informazione richiesti dalla comprensione e generazione multimodale, questo approccio può portare a prestazioni non ottimali, in particolare nella comprensione multimodale. Per affrontare questo problema, suddividiamo la codifica visiva in percorsi separati, pur sfruttando un'unica architettura trasformatore unificata per l'elaborazione. La suddivisione non solo allevia il conflitto tra i ruoli del codificatore visivo nella comprensione e nella generazione, ma potenzia anche la flessibilità del framework. Ad esempio, sia i componenti di comprensione multimodale che di generazione possono selezionare in modo indipendente i loro metodi di codifica più adatti. Gli esperimenti mostrano che Janus supera il modello unificato precedente e eguaglia o supera le prestazioni dei modelli specifici per compiti. La semplicità, l'alta flessibilità e l'efficacia di Janus lo rendono un forte candidato per i modelli multimodali unificati di prossima generazione.

Percorso verso la Comprensione del Linguaggio Orale Superumano utilizzando Modelli Linguistici di Grandi Dimensioni
Roadmap towards Superhuman Speech Understanding using Large Language Models

Oct 17

ByFan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

Il successo dei grandi modelli linguistici (LLM) ha spinto a sforzi per integrare dati vocali e audio, con l'obiettivo di creare modelli fondamentali generali capaci di elaborare sia input testuali che non testuali. Gli avanzamenti recenti, come il GPT-4o, mettono in evidenza il potenziale per modelli vocali LLM end-to-end, che conservano informazioni non semantiche e conoscenze del mondo per una comprensione più approfondita del linguaggio parlato. Per guidare lo sviluppo dei modelli vocali LLM, proponiamo una roadmap a cinque livelli, che va dall'elaborazione automatica di riconoscimento vocale (ASR) a modelli superumani avanzati capaci di integrare informazioni non semantiche con conoscenze acustiche astratte per compiti complessi. Inoltre, progettiamo un benchmark, il Benchmark SAGI, che standardizza aspetti critici tra vari compiti in questi cinque livelli, mettendo in luce le sfide nell'uso di conoscenze acustiche astratte e nella completezza delle capacità. Le nostre scoperte rivelano lacune nel gestire segnali paralinguistici e conoscenze acustiche astratte, e offriamo indicazioni per future direzioni. Questo articolo delinea una roadmap per far progredire i modelli vocali LLM, introduce un benchmark per la valutazione e fornisce importanti approfondimenti sulle attuali limitazioni e potenzialità di tali modelli.

MobA: Un sistema di agenti a due livelli per un'automazione efficiente dei compiti mobili
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Oct 17

ByZichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

Gli attuali assistenti mobili sono limitati dalla dipendenza dalle API di sistema o faticano con istruzioni utente complesse e interfacce diverse a causa delle limitate capacità di comprensione e di decisione. Per affrontare queste sfide, proponiamo MobA, un nuovo Agente per telefoni cellulari alimentato da modelli di linguaggio multimodali di grandi dimensioni che migliorano le capacità di comprensione e pianificazione attraverso un sofisticato' architettura a due livelli. L'Agente Globale (GA) di alto livello è responsabile della comprensione dei comandi dell'utente, del tracciamento delle memorie storiche e della pianificazione delle attività. L'Agente Locale (LA) di basso livello prevede azioni dettagliate sotto forma di chiamate di funzione, guidate da sotto-attività e memoria del GA. L'integrazione di un Modulo di Riflessione consente un completamento efficiente dei compiti e permette al sistema di gestire compiti complessi precedentemente non visti. MobA dimostra significativi miglioramenti nell'efficienza dell'esecuzione dei compiti e nel tasso di completamento nelle valutazioni della vita reale, sottolineando il potenziale degli assistenti mobili potenziati da MLLM.

WorldCuisines: un benchmark su larga scala per il Question Answering Visivo multilingue e multiculturale sulle Cucine Globali
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Oct 16

ByGenta Indra Winata, Frederikus Hudi, Patrick Amadeus Irawan, David Anugraha, Rifki Afina Putri, Yutong Wang, Adam Nohejl, Ubaidillah Ariq Prathama, Nedjma Ousidhoum, Afifa Amriani, Anar Rzayev, Anirban Das, Ashmari Pramodya, Aulia Adila, Bryan Wilie, Candy Olivia Mawalim, Ching Lam Cheng, Daud Abolade, Emmanuele Chersoni, Enrico Santus, Fariz Ikhwantri, Garry Kuwanto, Hanyang Zhao, Haryo Akbarianto Wibowo, Holy Lovenia, Jan Christian Blaise Cruz, Jan Wira Gotama Putra, Junho Myung, Lucky Susanto, Maria Angelica Riera Machin, Marina Zhukova, Michael Anugraha, Muhammad Farid Adilazuarda, Natasha Santosa, Peerat Limkonchotiwat, Raj Dabre, Rio Alexander Audino, Samuel Cahyawijaya, Shi-Xiong Zhang, Stephanie Yulia Salim, Yi Zhou, Yinxuan Gui, David Ifeoluwa Adelani, En-Shiun Annie Lee, Shogo Okada, Ayu Purwarianti, Alham Fikri Aji, Taro Watanabe, Derry Tanti Wijaya, Alice Oh, Chong-Wah Ngo

I Modelli di Linguaggio Visivo (VLM) spesso faticano con le conoscenze specifiche della cultura, in particolare in lingue diverse dall'inglese e in contesti culturali sottorappresentati. Per valutare la loro comprensione di tali conoscenze, introduciamo WorldCuisines, un benchmark su larga scala per la comprensione del linguaggio multilingue e multiculturale, basato su immagini. Questo benchmark include un dataset di domande e risposte visive (VQA) con coppie di testo e immagini in 30 lingue e dialetti, che coprono 9 famiglie linguistiche e presentano oltre 1 milione di punti dati, rendendolo il più grande benchmark VQA multiculturale fino ad oggi. Include compiti per identificare i nomi dei piatti e le loro origini. Forniamo dataset di valutazione in due dimensioni (12k e 60k istanze) insieme a un dataset di addestramento (1 milione di istanze). Le nostre scoperte mostrano che, sebbene i VLM si comportino meglio con il contesto di localizzazione corretto, faticano con contesti avversari e nella previsione di specifiche cucine regionali e lingue. Per supportare la ricerca futura, rilasciamo una base di conoscenza con voci alimentari annotate e immagini insieme ai dati VQA.

Sfruttare le interfacce utente delle pagine Web per la comprensione visuale di testi ricchi.
Harnessing Webpage UIs for Text-Rich Visual Understanding

Oct 17

ByJunpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

La comprensione visiva ricca di testo, ovvero la capacità di elaborare ambienti in cui il contenuto testuale denso è integrato con elementi visivi, è fondamentale affinché i modelli di linguaggio multimodali di grandi dimensioni (MLLM) possano interagire in modo efficace con ambienti strutturati. Per potenziare questa capacità, proponiamo di sintetizzare istruzioni multimodali generali dalle interfacce utente delle pagine web utilizzando modelli di linguaggio di grandi dimensioni basati sul testo (LLM). Nonostante la mancanza di un input visivo diretto, i LLM basati sul testo sono in grado di elaborare rappresentazioni testuali strutturate dagli alberi di accessibilità delle pagine web. Queste istruzioni vengono poi accoppiate con screenshot delle interfacce utente per addestrare modelli multimodali. Presentiamo MultiUI, un dataset contenente 7,3 milioni di campioni da 1 milione di siti web, che copre diverse attività multimodali e layout delle interfacce utente. I modelli addestrati su MultiUI eccellono non solo nelle attività delle interfacce utente web, raggiungendo fino al 48% di miglioramento su VisualWebBench e un aumento del 19,1% nell'accuratezza delle azioni su un dataset di agenti web Mind2Web, ma si generalizzano sorprendentemente bene anche per attività non legate alle interfacce utente web e persino a domini non legati alle interfacce utente, come la comprensione dei documenti, l'OCR e l'interpretazione dei grafici. Questi risultati evidenziano l'ampia applicabilità dei dati delle interfacce utente web per far progredire la comprensione visiva ricca di testo in vari scenari.

DreamVideo-2: Personalizzazione video guidata dal soggetto senza bisogno di addestramento con controllo preciso del movimento
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Oct 17

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan

I recenti progressi nella generazione personalizzata di video hanno permesso agli utenti di creare video su misura sia per soggetti specifici che per traiettorie di movimento. Tuttavia, i metodi esistenti spesso richiedono un complicato adattamento fine-tempo e faticano nel bilanciare l'apprendimento del soggetto e il controllo del movimento, limitando le loro applicazioni nel mondo reale. In questo articolo, presentiamo DreamVideo-2, un framework di personalizzazione video a zero-shot in grado di generare video con un soggetto specifico e una traiettoria di movimento, guidati rispettivamente da un'immagine singola e da una sequenza di bounding box, senza la necessità di adattamenti fine-tempo. In particolare, introduciamo l'attenzione di riferimento, che sfrutta le capacità intrinseche del modello per l'apprendimento del soggetto, e progettiamo un modulo di movimento guidato da maschere per ottenere un controllo preciso del movimento sfruttando appieno il robusto segnale di movimento delle maschere di box derivate dalle bounding box. Mentre questi due componenti raggiungono le loro funzioni previste, osserviamo empiricamente che il controllo del movimento tende a dominare sull'apprendimento del soggetto. Per affrontare questo problema, proponiamo due design chiave: 1) l'attenzione di riferimento mascherata, che integra uno schema di modellazione di maschere latenti mescolate nell'attenzione di riferimento per potenziare le rappresentazioni del soggetto nelle posizioni desiderate, e 2) una perdita di diffusione ripesata, che differenzia i contributi delle regioni all'interno e all'esterno delle bounding box per garantire un equilibrio tra controllo del soggetto e del movimento. Estesi risultati sperimentali su un dataset appena curato dimostrano che DreamVideo-2 supera i metodi all'avanguardia sia nella personalizzazione del soggetto che nel controllo del movimento. Il dataset, il codice e i modelli saranno resi pubblicamente disponibili.

MMed-RAG: Sistema RAG Multimodale Versatile per Modelli di Visione e Linguaggio Medico
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Oct 16

ByPeng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao

L'Intelligenza Artificiale (IA) ha dimostrato un significativo potenziale nel settore sanitario, in particolare nella diagnosi delle malattie e nella pianificazione del trattamento. I recenti progressi nei Modelli Medici Multimodali Visione-Linguaggio (Med-LVLMs) hanno aperto nuove possibilità per strumenti diagnostici interattivi. Tuttavia, questi modelli soffrono spesso di allucinazioni factuali, che possono portare a diagnosi errate. Il raffinamento e la generazione potenziata da recupero (RAG) sono emersi come metodi per affrontare questi problemi. Tuttavia, la quantità di dati di alta qualità e gli scostamenti di distribuzione tra i dati di addestramento e i dati di implementazione limitano l'applicazione dei metodi di raffinamento. Anche se RAG è leggero ed efficace, gli approcci basati su RAG esistenti non sono sufficientemente generali per i diversi domini medici e possono potenzialmente causare problemi di disallineamento, sia tra le modalità che tra il modello e la verità di riferimento. In questo articolo, proponiamo un sistema RAG multimodale versatile, MMed-RAG, progettato per migliorare la factualità dei Med-LVLMs. Il nostro approccio introduce un meccanismo di recupero consapevole del dominio, un metodo di selezione adattiva dei contesti recuperati e una strategia di raffinamento delle preferenze basata su RAG dimostrabile. Queste innovazioni rendono il processo RAG sufficientemente generale e affidabile, migliorando significativamente l'allineamento durante l'introduzione dei contesti recuperati. I risultati sperimentali su cinque set di dati medici (radiologia, oftalmologia, patologia) relativi a VQA medico e generazione di report dimostrano che MMed-RAG può ottenere un miglioramento medio del 43,8% nell'accuratezza fattuale dei Med-LVLMs. I nostri dati e codici sono disponibili su https://github.com/richard-peng-xia/MMed-RAG.

MoH: Attenzione Multi-Head come Attenzione a Mischia di Teste
MoH: Multi-Head Attention as Mixture-of-Head Attention

Oct 15

ByPeng Jin, Bo Zhu, Li Yuan, Shuicheng Yan

In questo lavoro, aggiorniamo il meccanismo di attenzione multi-testa, il nucleo del modello Transformer, per migliorare l'efficienza mantenendo o superando il livello di precisione precedente. Mostriamo che l'attenzione multi-testa può essere espressa nella forma di sommatoria. Basandoci sull'idea che non tutte le teste di attenzione hanno la stessa importanza, proponiamo l'attenzione Mixture-of-Head (MoH), una nuova architettura che tratta le teste di attenzione come esperti nel meccanismo Mixture-of-Experts (MoE). MoH ha due significativi vantaggi: in primo luogo, MoH consente a ciascun token di selezionare le teste di attenzione appropriate, migliorando l'efficienza inferenziale senza compromettere la precisione o aumentare il numero di parametri. In secondo luogo, MoH sostituisce la sommatoria standard nell'attenzione multi-testa con una sommatoria pesata, introducendo flessibilità nel meccanismo di attenzione e sbloccando un potenziale di prestazioni aggiuntivo. Esperimenti approfonditi su ViT, DiT e LLMs dimostrano che MoH supera l'attenzione multi-testa utilizzando solo il 50%-90% delle teste di attenzione. Inoltre, dimostriamo che i modelli di attenzione multi-testa preaddestrati, come LLaMA3-8B, possono essere ulteriormente adattati ai nostri modelli MoH. In particolare, MoH-LLaMA3-8B raggiunge una precisione media del 64,0% su 14 benchmark, superando LLaMA3-8B del 2,4% utilizzando solo il 75% delle teste di attenzione. Riteniamo che il MoH proposto sia una promettente alternativa all'attenzione multi-testa e fornisca una solida base per lo sviluppo di modelli avanzati ed efficienti basati sull'attenzione.

BenTo: Riduzione dei compiti di benchmark con trasferibilità contestuale
BenTo: Benchmark Task Reduction with In-Context Transferability

Oct 17

ByHongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou

Valutare i grandi modelli linguistici (LLM) è costoso: richiede la generazione e l'esame delle uscite dei LLM su un ampio benchmark di varie attività. Questo articolo indaga su come ridurre efficientemente le attività utilizzate per valutare i LLM senza influire sulla qualità della valutazione. Il nostro studio rivela che la trasferibilità e la rilevanza delle attività forniscono informazioni cruciali per identificare il sottoinsieme più rappresentativo di attività tramite l'ottimizzazione di una funzione di localizzazione delle strutture. Proponiamo una metrica praticamente efficiente per stimare la trasferibilità tra due attività tramite apprendimento in contesto (ICL). Analizzando la trasferibilità a coppie, possiamo ridurre le attività in un moderno benchmark LLM (ad esempio, MMLU o FLAN) al 5% causando solo una differenza <4% rispetto alla valutazione sul benchmark originale. Rispetto ai lavori precedenti, il nostro metodo è privo di addestramento, privo di gradienti ed estremamente efficiente richiedendo solo ICL.

PopAlign: Diversificare i Pattern Contrapposti per un Allineamento più Completo
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

Oct 17

ByZekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang

L'allineamento dei grandi modelli linguistici (LLM) coinvolge l'addestramento dei modelli su coppie di output preferenziali-contrastive per regolare le loro risposte in base alle preferenze umane. Per ottenere tali coppie contrastive, i metodi tradizionali come RLHF e RLAIF si basano su schemi contrastivi limitati, come varianti del modello variabili o temperature di decodifica. Questa singolarità porta a due problemi: (1) l'allineamento non è esaustivo; e quindi (2) i modelli sono suscettibili ad attacchi di jailbreaking. Per affrontare questi problemi, indaghiamo su come costruire schemi contrastivi più completi e diversificati per migliorare i dati di preferenza (RQ1) e verifichiamo l'impatto della diversificazione degli schemi contrastivi sull'allineamento del modello (RQ2). Per RQ1, proponiamo PopAlign, un framework che integra schemi contrastivi diversificati a livello di prompt, modello e pipeline, introducendo sei strategie contrastive che non richiedono procedure aggiuntive di etichettatura del feedback. Riguardo a RQ2, conduciamo esperimenti approfonditi dimostrando che PopAlign supera significativamente i metodi esistenti, portando a un allineamento più completo.

Uno Studio Comparativo sui Pattern di Ragionamento del Modello o1 di OpenAI
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

Oct 17

BySiwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu

Abilitare i Large Language Models (LLM) a gestire una gamma più ampia di compiti complessi (ad esempio, codifica, matematica) ha attirato grande attenzione da parte di molti ricercatori. Mentre i LLM continuano a evolversi, aumentare semplicemente il numero di parametri del modello porta a miglioramenti delle prestazioni in diminuzione e a pesanti costi computazionali. Recentemente, il modello o1 di OpenAI ha dimostrato che le strategie di inferenza (cioè, i metodi di calcolo al momento del test) possono anche migliorare significativamente le capacità di ragionamento dei LLM. Tuttavia, i meccanismi dietro questi metodi sono ancora inesplorati. Nel nostro lavoro, per indagare sui modelli di ragionamento di o1, confrontiamo o1 con i metodi esistenti di calcolo al momento del test (BoN, BoN passo-passo, Workflow dell'Agente e Auto-raffinamento) utilizzando il GPT-4o di OpenAI come base su benchmark di ragionamento generale in tre domini (matematica, codifica, ragionamento di buon senso). In particolare, i nostri esperimenti mostrano che il modello o1 ha ottenuto le migliori prestazioni sulla maggior parte dei dataset. Per quanto riguarda i metodi di ricerca di risposte diverse (ad esempio, BoN), abbiamo scoperto che le capacità dei modelli di ricompensa e lo spazio di ricerca limitano entrambi il limite superiore di questi metodi. Per quanto riguarda i metodi che suddividono il problema in molti sotto-problemi, il Workflow dell'Agente ha ottenuto prestazioni migliori rispetto a BoN passo-passo grazie alla richiesta di sistema specifica del dominio per pianificare processi di ragionamento migliori. È importante sottolineare che abbiamo riassunto sei modelli di ragionamento di o1 e fornito un'analisi dettagliata su diversi benchmark di ragionamento.

Una Visione Unificata della Modifica dei Parametri Delta nei Modelli su Larga Scala Post-Allenamento
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

Oct 17

ByQiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun

Il post-addestramento è emerso come un paradigma cruciale per adattare modelli pre-addestrati su larga scala a varie attività, i cui effetti sono pienamente riflessi dai parametri delta (cioè, la disparità tra i parametri post-addestramento e pre-addestramento). Mentre numerosi studi hanno esplorato le proprietà dei parametri delta tramite operazioni come potatura, quantizzazione, approssimazione a basso rango ed estrapolazione, manca un quadro unificato per esaminare sistematicamente queste caratteristiche. In questo articolo, proponiamo una prospettiva innovativa basata sull'approssimazione della somma di Riemann della funzione di perdita per chiarire le operazioni di modifica dei parametri delta. La nostra analisi categorizza i metodi esistenti in tre classi in base alle loro prestazioni post-modifica: competitiva, diminuita e migliorata, spiegando come siano espressi dal termine di approssimazione della somma di Riemann e come alterino le prestazioni del modello. Estesi esperimenti su modelli visivi e linguistici, inclusi ViT, LLaMA 3, Qwen 2 e Mistral, confermano le nostre conclusioni teoriche. Inoltre, introduciamo estensioni alle tecniche esistenti come DARE e BitDelta, evidenziando i loro limiti nel sfruttare le proprietà dei parametri delta e riorganizzandoli in espressioni generali per migliorare l'applicabilità e l'efficacia della modifica dei parametri delta nei modelli post-addestramento.

FlatQuant: l'importanza della planarità per la quantizzazione LLM
FlatQuant: Flatness Matters for LLM Quantization

Oct 12

ByYuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao

Recentemente, la quantizzazione è stata ampiamente utilizzata per la compressione e l'accelerazione dei grandi modelli linguistici~(LLM). A causa degli outlier nei LLM, è cruciale appiattire i pesi e le attivazioni per minimizzare l'errore di quantizzazione con punti di quantizzazione equamente spaziati. Ricerche precedenti esplorano varie trasformazioni pre-quantizzazione per sopprimere gli outlier, come la scalatura per canale e la trasformazione di Hadamard. Tuttavia, osserviamo che questi pesi e attivazioni trasformati possono ancora rimanere ripidi e dispersi. In questo articolo, proponiamo FlatQuant (Trasformazione Affine Veloce e Apprendibile), un nuovo approccio di quantizzazione post-training per migliorare l'appiattimento dei pesi e delle attivazioni. Il nostro approccio identifica trasformazioni affini ottimali adattate a ciascuno strato lineare, calibrate in ore attraverso un obiettivo leggero. Per ridurre l'overhead di runtime, applichiamo la decomposizione di Kronecker alle matrici di trasformazione e fondiamo tutte le operazioni in FlatQuant in un unico kernel. Estesi esperimenti mostrano che FlatQuant stabilisce un nuovo benchmark di quantizzazione all'avanguardia. Ad esempio, raggiunge una diminuzione di accuratezza inferiore al 1% per la quantizzazione W4A4 sul modello LLaMA-3-70B, superando SpinQuant del 7.5%. Per la latenza di inferenza, FlatQuant riduce il rallentamento indotto dalla trasformazione pre-quantizzazione da 0.26x di QuaRot a soli 0.07x, portando a un aumento di velocità fino a 2.3x per il prefill e 1.7x per la decodifica, rispettivamente. Il codice è disponibile su: https://github.com/ruikangliu/FlatQuant.

VidPanos: Video Panoramici Generativi da Video di Scorrimento Casuale
VidPanos: Generative Panoramic Videos from Casual Panning Videos

Oct 17

ByJingwei Ma, Erika Lu, Roni Paiss, Shiran Zada, Aleksander Holynski, Tali Dekel, Brian Curless, Michael Rubinstein, Forrester Cole

L'unione di immagini panoramiche fornisce una visione unificata e ampia di una scena che si estende oltre il campo visivo della fotocamera. Unire i frame di un video panoramico in una fotografia panoramica è un problema ben compreso per scene stazionarie, ma quando gli oggetti si muovono, una panoramica statica non può catturare la scena. Presentiamo un metodo per sintetizzare un video panoramico da un video panoramico ripreso casualmente, come se il video originale fosse stato catturato con una telecamera grandangolare. Poniamo la sintesi della panoramica come un problema di outpainting spazio-temporale, dove miriamo a creare un video panoramico completo della stessa durata del video di input. Il completamento coerente del volume spazio-temporale richiede un potente e realistico prior su contenuti video e movimento, per il quale adattiamo modelli generativi di video. I modelli generativi esistenti, tuttavia, non si estendono immediatamente al completamento della panoramica, come dimostriamo. Applichiamo invece la generazione di video come componente del nostro sistema di sintesi della panoramica e mostriamo come sfruttare i punti di forza dei modelli minimizzando le loro limitazioni. Il nostro sistema può creare video panoramiche per una varietà di scene naturali, tra cui persone, veicoli e acqua in movimento, nonché caratteristiche di sfondo stazionarie.

Gli LLM hanno correttezza politica? Analisi dei bias etici e delle vulnerabilità di jailbreak nei sistemi di intelligenza artificiale.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

Oct 17

ByIsack Lee, Haebin Seong

Sebbene i grandi modelli linguistici (LLM) dimostrino un'eccezionale competenza in varie attività, presentano potenziali rischi per la sicurezza, come i 'jailbreak', in cui input maliziosi possono costringere i LLM a generare contenuti dannosi. Per affrontare tali problematiche, molti sviluppatori di LLM hanno implementato varie misure di sicurezza per allineare tali modelli. Questo allineamento coinvolge diverse tecniche, tra cui il filtraggio dei dati durante la preformazione, il raffinamento supervisionato, il apprendimento per rinforzo dal feedback umano e esercitazioni di red-teaming. Questi metodi spesso introducono pregiudizi deliberati e intenzionali simili alla Correttezza Politica (PC) per garantire il comportamento etico dei LLM. In questo articolo, approfondiamo i pregiudizi intenzionali iniettati nei LLM a fini di sicurezza ed esaminiamo metodi per aggirare queste tecniche di allineamento della sicurezza. In particolare, tali pregiudizi intenzionali portano a un tasso di successo del jailbreaking nei modelli GPT-4o che differisce del 20% tra parole non binarie e cisgender e del 16% tra parole bianche e nere, anche quando le altre parti delle istruzioni sono identiche. Introduciamo il concetto di PCJailbreak, evidenziando i rischi intrinseci posti da questi pregiudizi indotti dalla sicurezza. Inoltre, proponiamo un efficiente metodo di difesa, PCDefense, che impedisce tentativi di jailbreak iniettando prompt di difesa prima della generazione. PCDefense si presenta come un'alternativa interessante ai Modelli di Guardia, come Llama-Guard, che richiedono costi aggiuntivi di inferenza dopo la generazione del testo. Le nostre conclusioni sottolineano l'urgente necessità per gli sviluppatori di LLM di adottare un approccio più responsabile nella progettazione e implementazione delle misure di sicurezza.

Possono i Modelli Linguaggio Multilingua a Grande Scala comprendere le profonde implicazioni dietro le immagini cinesi?
Can MLLMs Understand the Deep Implication Behind Chinese Images?

Oct 17

ByChenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni

Con il miglioramento delle capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs), cresce la necessità di valutare le capacità di ordine superiore dei MLLMs. Tuttavia, manca un lavoro di valutazione dei MLLM per la percezione e la comprensione di ordine superiore dei contenuti visivi cinesi. Per colmare questa lacuna, presentiamo il **B**enchmark di **C**omprensione delle **I**mplicazioni delle **I**mmagini cinesi, **CII-Bench**, che mira a valutare le capacità di percezione e comprensione di ordine superiore dei MLLMs per le immagini cinesi. CII-Bench si distingue in diversi modi rispetto ai benchmark esistenti. In primo luogo, per garantire l'autenticità del contesto cinese, le immagini in CII-Bench sono tratte da Internet cinese e revisionate manualmente, con le relative risposte anche create manualmente. Inoltre, CII-Bench incorpora immagini che rappresentano la cultura tradizionale cinese, come famose pitture tradizionali cinesi, che possono riflettere profondamente la comprensione della cultura tradizionale cinese da parte del modello. Attraverso ampi esperimenti su CII-Bench su vari MLLMs, abbiamo fatto importanti scoperte. Inizialmente, si osserva un divario significativo tra le prestazioni dei MLLMs e degli esseri umani su CII-Bench. La massima accuratezza dei MLLMs raggiunge il 64,4%, mentre l'accuratezza umana si attesta in media al 78,2%, raggiungendo un impressionante 81,0%. Successivamente, i MLLMs si comportano peggio sulle immagini della cultura tradizionale cinese, suggerendo limiti nella loro capacità di comprendere semantica di alto livello e la mancanza di una base di conoscenza approfondita della cultura tradizionale cinese. Infine, si osserva che la maggior parte dei modelli mostra un'accuratezza migliorata quando vengono incorporati suggerimenti emotivi delle immagini nei prompt. Crediamo che CII-Bench consentirà ai MLLMs di acquisire una migliore comprensione della semantica cinese e delle immagini specifiche cinesi, avanzando nel percorso verso un'intelligenza artificiale generale (AGI) esperta. Il nostro progetto è disponibile pubblicamente su https://cii-bench.github.io/.

Apprendimento retrospettivo dalle interazioni
Retrospective Learning from Interactions

Oct 17

ByZizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi

Le interazioni a più turni tra i grandi modelli linguistici (LLM) e gli utenti includono naturalmente segnali impliciti di feedback. Se un LLM risponde in modo inaspettato a un'istruzione, è probabile che l'utente lo segnali riphrasing la richiesta, esprimendo frustrazione o passando a un compito alternativo. Tali segnali sono indipendenti dal compito e occupano uno spazio relativamente limitato del linguaggio, consentendo all'LLM di identificarli anche se non riesce nel compito effettivo. Questo crea una via per apprendere continuamente dalle interazioni senza annotazioni aggiuntive. Presentiamo ReSpect, un metodo per apprendere da tali segnali nelle interazioni passate tramite retrospezione. Implementiamo ReSpect in uno scenario di interazione multimodale, in cui gli esseri umani istruiscono un LLM a risolvere un compito di ragionamento astratto con uno spazio di soluzione combinatorio. Attraverso migliaia di interazioni con gli esseri umani, mostriamo come ReSpect migliori gradualmente il tasso di completamento del compito dal 31% all'82%, tutto senza alcuna annotazione esterna.

Avanzare nonostante i fallimenti: Migliorare la correzione degli errori generativi per ASR con dati sintetici e ampliamento del recupero
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

Oct 17

BySreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li

La correzione degli errori generativi (GEC) è emersa come un potente metodo di post-elaborazione per migliorare le prestazioni dei sistemi di riconoscimento vocale automatico (ASR). Tuttavia, dimostriamo che i modelli GEC faticano a generalizzare oltre i tipi specifici di errori incontrati durante l'addestramento, limitando la loro capacità di correggere nuovi errori non visti al momento del test, in particolare in scenari out-of-domain (OOD). Questo fenomeno si amplifica con le entità nominate (NE), dove, oltre a informazioni contestuali o conoscenze insufficienti sulle NE, continuano a emergere nuove NE. Per affrontare questi problemi, proponiamo DARAG (Data- and Retrieval-Augmented Generative Error Correction), un approccio innovativo progettato per migliorare la GEC per ASR in scenari in-domain (ID) e OOD. Arricchiamo il dataset di addestramento GEC con dati sintetici generati mediante la sollecitazione di LLM e modelli di text-to-speech, simulando così errori aggiuntivi da cui il modello può apprendere. Per scenari OOD, simuliamo errori al momento del test da nuovi domini in modo simile e in maniera non supervisionata. Inoltre, per gestire meglio le entità nominate, introduciamo una correzione arricchita da recupero, aggiungendo all'input entità recuperate da un database. Il nostro approccio è semplice, scalabile e agnostico rispetto al dominio e alla lingua. Sperimentiamo su più dataset e impostazioni, dimostrando che DARAG supera tutti i nostri baselines, ottenendo miglioramenti del WER relativi dell'8% al 30% in ID e del 10% al 33% in impostazioni OOD.

Ricorda, Recupera e Genera: Comprendere Concetti Visivi Infiniti come il Tuo Assistente Personale
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

Oct 17

ByHaoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue

Lo sviluppo dei grandi modelli linguistici (LLM) ha notevolmente potenziato le capacità dei modelli linguistici multimodali (MLLM) come assistenti generali. Tuttavia, la mancanza di conoscenze specifiche dell'utente limita ancora la loro applicazione nella vita quotidiana umana. In questo articolo, presentiamo il framework di Personalizzazione potenziata da Recupero (RAP) per la personalizzazione dei MLLM. Partendo da un MLLM generale, lo trasformiamo in un assistente personalizzato in tre fasi. (a) Ricorda: Progettiamo un database chiave-valore per memorizzare informazioni relative all'utente, come il nome dell'utente, l'avatar e altri attributi. (b) Recupera: Quando l'utente avvia una conversazione, RAP recupererà informazioni rilevanti dal database utilizzando un recuperatore multimodale. (c) Genera: La query di input e le informazioni sui concetti recuperati vengono alimentate nei MLLM per generare risposte personalizzate, arricchite di conoscenza. A differenza dei metodi precedenti, RAP consente la modifica in tempo reale dei concetti tramite l'aggiornamento del database esterno. Per migliorare ulteriormente la qualità della generazione e l'allineamento con le informazioni specifiche dell'utente, progettiamo un flusso di lavoro per la raccolta dati e creiamo un dataset specializzato per l'addestramento personalizzato dei MLLM. Sulla base del dataset, addestriamo una serie di MLLM come assistenti multimodali personalizzati. Attraverso il preaddestramento su un dataset su larga scala, i RAP-MLLM possono generalizzare a infiniti concetti visivi senza ulteriori raffinamenti. I nostri modelli dimostrano un'eccezionale flessibilità e qualità di generazione in una varietà di compiti, come la descrizione personalizzata di immagini, il rispondere a domande e il riconoscimento visivo. Il codice, i dati e i modelli sono disponibili su https://github.com/Hoar012/RAP-MLLM.

MuVi: Generazione Video-Musica con Allineamento Semantico e Sincronizzazione Ritmica
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

Oct 16

ByRuiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao

Generare musica che si allinea con i contenuti visivi di un video è stata un'attività impegnativa, poiché richiede una profonda comprensione della semantica visiva e implica la generazione di musica la cui melodia, ritmo e dinamiche armonizzino con le narrazioni visive. Questo articolo presenta MuVi, un nuovo framework che affronta efficacemente tali sfide per migliorare la coesione e l'esperienza immersiva dei contenuti audio-visivi. MuVi analizza i contenuti video attraverso un adattatore visivo appositamente progettato per estrarre caratteristiche rilevanti dal contesto e temporalmente pertinenti. Queste caratteristiche sono utilizzate per generare musica che non solo si adatta all'umore e al tema del video, ma anche al suo ritmo e alla sua cadenza. Introduciamo inoltre uno schema di pre-addestramento contrastivo musica-visivo per garantire la sincronizzazione, basato sulla natura periodica delle frasi musicali. Inoltre, dimostriamo che il nostro generatore di musica basato sul matching di flusso ha la capacità di apprendimento in contesto, consentendoci di controllare lo stile e il genere della musica generata. I risultati sperimentali mostrano che MuVi dimostra prestazioni superiori sia in termini di qualità audio che di sincronizzazione temporale. Gli esempi di video musicali generati sono disponibili su https://muvi-v2m.github.io.

MedMobile: Un modello linguistico delle dimensioni di un dispositivo mobile con capacità cliniche di livello esperto
MedMobile: A mobile-sized language model with expert-level clinical capabilities

Oct 11

ByKrithik Vishwanath, Jaden Stryker, Anton Alaykin, Daniel Alexander Alber, Eric Karl Oermann

I modelli linguistici (LM) hanno dimostrato capacità di ragionamento e recupero a livello esperto in medicina. Tuttavia, i costi computazionali e le preoccupazioni sulla privacy stanno diventando ostacoli sempre più grandi per un'implementazione su vasta scala. Presentiamo un'adattamento parsimonioso di phi-3-mini, MedMobile, un LM con 3,8 miliardi di parametri in grado di funzionare su un dispositivo mobile, per applicazioni mediche. Dimostriamo che MedMobile ottiene un punteggio del 75,7% sul MedQA (USMLE), superando il punteggio di superamento per i medici (~60%), e avvicinandosi ai punteggi dei modelli 100 volte più grandi. Successivamente eseguiamo un attento insieme di ablation, e dimostriamo che la concatenazione di pensieri, l'ensemble e il fine-tuning portano ai maggiori miglioramenti delle prestazioni, mentre inaspettatamente la generazione aumentata dal recupero non riesce a dimostrare miglioramenti significativi.

γ-MoD: Esplorazione dell'Adattamento a Miscela di Profondità per Modelli Linguistici Multimodali di Grandi Dimensioni
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

Oct 17

ByYaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji

Nonostante i significativi progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM), il loro elevato costo computazionale rimane un ostacolo alla distribuzione pratica. Ispirandoci alla miscela di profondità (MoDs) nel trattamento del linguaggio naturale, miriamo ad affrontare questa limitazione dal punto di vista dei "token attivati". La nostra intuizione chiave è che se la maggior parte dei token è ridondante per il calcolo del livello, allora possono essere saltati direttamente tramite il livello MoD. Tuttavia, la conversione diretta dei livelli densi dei MLLM in livelli MoD porta a un degrado delle prestazioni sostanziale. Per affrontare questo problema, proponiamo una strategia di adattamento MoD innovativa per i MLLM esistenti chiamata gamma-MoD. In gamma-MoD, viene proposto un nuovo metrico per guidare la distribuzione dei MoD nel MLLM, ovvero il rango delle mappe di attenzione (ARank). Attraverso ARank, possiamo identificare efficacemente quale livello è ridondante e dovrebbe essere sostituito con il livello MoD. Sulla base di ARank, proponiamo inoltre due nuovi design per massimizzare la sparità computazionale del MLLM mantenendone le prestazioni, ovvero router condiviso visione-linguaggio e apprendimento del routing mascherato. Con questi design, più del 90% dei livelli densi del MLLM possono essere efficacemente convertiti in quelli MoD. Per convalidare il nostro metodo, lo applichiamo a tre popolari MLLM e conduciamo ampi esperimenti su 9 set di dati di benchmark. I risultati sperimentali non solo convalidano il significativo beneficio di efficienza di gamma-MoD rispetto ai MLLM esistenti, ma confermano anche la sua capacità di generalizzazione su vari MLLM. Ad esempio, con una lieve diminuzione delle prestazioni, cioè -1,5%, gamma-MoD può ridurre il tempo di addestramento e inferenza di LLaVA-HR rispettivamente del 31,0% e del 53,2%.

LoLDU: Adattamento a basso rango tramite decomposizione inferiore-diagonale-superiore per un fine-tuning efficiente dei parametri
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

Oct 17

ByYiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang

L'ampia crescita della scala del modello ha reso necessarie consistenti risorse computazionali per il raffinamento. Approcci esistenti come l'Adattamento a Bassa Gradazione (LoRA) hanno cercato di affrontare il problema della gestione dei numerosi parametri aggiornati nel pieno raffinamento. Tuttavia, LoRA utilizza inizializzazione casuale e ottimizzazione di matrici a bassa gradazione per approssimare i pesi aggiornati, il che può portare a una convergenza subottimale e a uno scostamento di accuratezza rispetto al pieno raffinamento. Per affrontare queste problematiche, proponiamo LoLDU, un approccio di Raffinamento Fine a Parametri-Efficienti (PEFT) che riduce significativamente i parametri addestrabili di 2600 volte rispetto ai metodi PEFT regolari mantenendo prestazioni comparabili. LoLDU sfrutta la Decomposizione Inferiore-Diagonale-Superiore (LDU) per inizializzare matrici a bassa gradazione per una convergenza più rapida e ortogonalità. Ci concentriamo sull'ottimizzazione della matrice diagonale per le trasformazioni di scala. A quanto ci risulta, LoLDU ha il minor numero di parametri tra tutti gli approcci PEFT. Abbiamo condotto ampi esperimenti su 4 set di dati di istruzioni, 6 set di dati di comprensione del linguaggio naturale (NLU), 8 set di dati di classificazione delle immagini e set di dati di generazione di immagini con vari tipi di modelli (LLaMA2, RoBERTa, ViT e Stable Diffusion), fornendo un'analisi completa e dettagliata. Il nostro codice open-source è disponibile su https://github.com/SKDDJ/LoLDU.

Dataset e Modelli di Materiali Inorganici Open Materials 2024 (OMat24)
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models

Oct 16

ByLuis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi

La capacità di scoprire nuovi materiali con proprietà desiderabili è fondamentale per numerose applicazioni, dal contribuire a mitigare il cambiamento climatico ai progressi nell'hardware informatico di prossima generazione. L'Intelligenza Artificiale ha il potenziale per accelerare la scoperta e il design dei materiali esplorando in modo più efficace lo spazio chimico rispetto ad altri metodi computazionali o al tentativo ed errore. Nonostante siano stati compiuti progressi significativi sull'uso dell'IA per i dati, i benchmark e i modelli dei materiali, è emerso un ostacolo rappresentato dalla mancanza di dati di addestramento pubblicamente disponibili e modelli pre-addestrati aperti. Per affrontare questo problema, presentiamo una versione Meta FAIR del dataset aperto su larga scala Open Materials 2024 (OMat24) e un insieme di modelli pre-addestrati correlati. OMat24 contiene oltre 110 milioni di calcoli di teoria funzionale della densità (DFT) focalizzati sulla diversità strutturale e compositiva. I nostri modelli EquiformerV2 raggiungono prestazioni all'avanguardia nella classifica Matbench Discovery e sono in grado di prevedere la stabilità dello stato fondamentale e le energie di formazione con un punteggio F1 superiore a 0,9 e un'accuratezza di 20 meV/atomo, rispettivamente. Esploriamo l'impatto delle dimensioni del modello, degli obiettivi ausiliari di denoising e del fine-tuning sulle prestazioni su una serie di dataset tra cui OMat24, MPtraj e Alexandria. Il rilascio aperto del dataset OMat24 e dei modelli consente alla comunità di ricerca di basarsi sui nostri sforzi e promuovere ulteriori progressi nella scienza dei materiali assistita dall'IA.

LRM lungo: Modello di Ricostruzione di Lunghe Sequenze per Copertura Ampia di Splat Gaussiani
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

Oct 16

ByChen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu

Proponiamo Long-LRM, un modello di ricostruzione gaussiana 3D generalizzabile in grado di ricostruire una vasta scena da una lunga sequenza di immagini di input. In particolare, il nostro modello può elaborare 32 immagini di origine a risoluzione 960x540 in soli 1,3 secondi su una singola GPU A100 80G. La nostra architettura presenta una combinazione dei recenti blocchi Mamba2 e dei classici blocchi transformer che hanno permesso di elaborare molti più token rispetto ai lavori precedenti, potenziati da efficienti passaggi di unione dei token e potatura gaussiana che bilanciano tra qualità ed efficienza. A differenza dei modelli feed-forward precedenti limitati a elaborare 1-4 immagini di input e in grado di ricostruire solo una piccola porzione di una vasta scena, Long-LRM ricostruisce l'intera scena in un singolo passaggio feed-forward. Su dataset di scene su larga scala come DL3DV-140 e Tanks and Temples, il nostro metodo raggiunge prestazioni paragonabili agli approcci basati sull'ottimizzazione pur essendo due ordini di grandezza più efficiente. Pagina del progetto: https://arthurhero.github.io/projects/llrm

Regolazione Minima per Sbloccare Output Prolungati da LLM con Dati di Alta Qualità come Chiave
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

Oct 14

ByYingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao

Con l'evoluzione rapida dei grandi modelli linguistici per supportare contesti più lunghi, si osserva una disparità significativa nella loro capacità di generare output di maggiori lunghezze. Uno studio recente suggerisce che la causa principale di questo squilibrio potrebbe derivare dalla mancanza di dati con output lunghi durante l'addestramento all'allineamento. Alla luce di questa osservazione, vengono effettuati tentativi per riallineare i modelli di base con dati che colmino il divario, il che porta a modelli capaci di generare output di lunghezza considerevole quando istruiti. In questo articolo, esploriamo l'impatto della qualità dei dati nel tarare un modello per output lunghi e la possibilità di farlo partendo dai punti di partenza dei modelli allineati all'umano (per istruzioni o chat). Con una cura attenta dei dati, dimostriamo che è possibile ottenere un miglioramento delle prestazioni simile nei nostri modelli tarati, utilizzando solo una piccola frazione delle istanze di dati di addestramento e delle risorse computazionali. Inoltre, valutiamo la generalizzabilità di tali approcci applicando le nostre ricette di taratura a diversi modelli. I nostri risultati suggeriscono che, sebbene le capacità di generare output lungo varino tra i diversi modelli di base, il nostro approccio per tararli con dati di alta qualità utilizzando risorse computazionali leggere produce costantemente un notevole miglioramento su tutti i modelli su cui abbiamo sperimentato. Abbiamo reso pubblici il nostro dataset curato per tarare la capacità di scrittura lunga, le implementazioni del taratura e valutazione del modello, così come i modelli tarati, tutti i quali possono essere liberamente accessibili.

Verso la Generazione Visiva AR Senza Guida tramite Allineamento Contrastivo delle Condizioni
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

Oct 12

ByHuayu Chen, Hang Su, Peize Sun, Jun Zhu

La Guida Senza Classificatore (CFG) è una tecnica critica per migliorare la qualità del campione dei modelli generativi visivi. Tuttavia, nella generazione multimodale autoregressiva (AR), CFG introduce inconsistenze progettuali tra il linguaggio e i contenuti visivi, contraddicendo la filosofia progettuale di unificare diverse modalità per l'AR visivo. Motivati dai metodi di allineamento dei modelli linguistici, proponiamo l'Allineamento Contrastivo Condizionale (CCA) per facilitare la generazione visiva AR senza guida con elevate prestazioni e analizzare la sua connessione teorica con i metodi di campionamento guidato. A differenza dei metodi di guida che modificano il processo di campionamento per raggiungere la distribuzione ideale del campionamento, CCA ottimizza direttamente i modelli preaddestrati per adattarsi allo stesso obiettivo di distribuzione. I risultati sperimentali mostrano che CCA può migliorare significativamente le prestazioni senza guida di tutti i modelli testati con un solo epoch di raffinamento (circa l'1\% degli epoch di preaddestramento) sul dataset di preaddestramento, alla pari con i metodi di campionamento guidato. Ciò elimina in gran parte la necessità di campionamento guidato nella generazione visiva AR e riduce del 50\% il costo del campionamento. Inoltre, regolando i parametri di addestramento, CCA può ottenere compromessi tra diversità del campione e fedeltà simili a CFG. Questo conferma sperimentalmente la forte connessione teorica tra l'allineamento mirato al linguaggio e i metodi di guida mirati alla visione, unificando due campi di ricerca precedentemente indipendenti. Codice e pesi del modello: https://github.com/thu-ml/CCA.

AERO: Modelli di Linguaggio a Moltiplicatori Softmax per un'Inferenza Privata Efficient.
AERO: Softmax-Only LLMs for Efficient Private Inference

Oct 16

ByNandan Kumar Jha, Brandon Reagen

La diffusione diffusa dei modelli linguistici proprietari ha sollevato preoccupazioni sulla privacy per i dati sensibili degli utenti, sottolineando la necessità di inferenza privata (PI), dove l'inferenza viene eseguita direttamente su input crittografati. Tuttavia, i metodi attuali di PI affrontano sovraccarichi di comunicazione e latenza proibitivamente più elevati, principalmente a causa delle operazioni non lineari. In questo articolo, presentiamo un'analisi esaustiva per comprendere il ruolo delle non linearità nei modelli linguistici basati su trasformatori con soli decoder. Introduciamo AERO, un framework di ottimizzazione architetturale a quattro fasi che perfeziona l'architettura esistente di LLM per un'efficiente PI rimuovendo sistematicamente non linearità come LayerNorm e GELU e riducendo il conteggio di FLOPs. Per la prima volta, proponiamo un'architettura basata solo su Softmax con un numero significativamente inferiore di FLOPs progettata per un'efficiente PI. Inoltre, ideiamo una nuova tecnica di regolarizzazione dell'entropia per migliorare le prestazioni dei modelli basati solo su Softmax. AERO raggiunge fino a 4,23 volte di riduzione della comunicazione e 1,94 volte di riduzione della latenza. Confermiamo l'efficacia di AERO confrontandola con lo stato dell'arte.

TransAgent: Trasferimento di modelli di base di visione-linguaggio con collaborazione di agenti eterogenei
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Oct 16

ByYiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang

I modelli fondamentali visione-linguaggio (come CLIP) hanno recentemente mostrato la loro potenza nel trasferimento di apprendimento, grazie al pre-addestramento su larga scala di immagini e testi. Tuttavia, i dati del dominio di destinazione nei compiti successivi possono essere molto diversi dalla fase di pre-addestramento, rendendo difficile per un singolo modello generalizzare bene. Alternativamente, esiste una vasta gamma di modelli esperti che contengono conoscenze di visione e/o linguaggio diversificate pre-addestrate su diverse modalità, compiti, reti e insiemi di dati. Purtroppo, questi modelli sono "agenti isolati" con strutture eterogenee, e come integrare le loro conoscenze per generalizzare modelli simili a CLIP non è stato completamente esplorato. Per colmare questa lacuna, proponiamo un framework TransAgent generale e conciso, che trasporta le conoscenze degli agenti isolati in modo unificato e guida efficacemente CLIP a generalizzare con distillazione di conoscenze da più fonti. Con un framework così distinto, collaboriamo in modo flessibile con 11 agenti eterogenei per potenziare i modelli fondamentali visione-linguaggio, senza ulteriori costi nella fase di inferenza. Infine, il nostro TransAgent raggiunge prestazioni all'avanguardia su 11 set di dati di riconoscimento visivo. Nello stesso contesto di pochi esempi, supera il popolare CoOp di circa il 10% in media e del 20% su EuroSAT che contiene ampi spostamenti di dominio.

SBI-RAG: Migliorare la Risoluzione dei Problemi Matematici per gli Studenti tramite Istruzione Basata sugli Schema e Generazione Potenziata dal Recupero
SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation

Oct 17

ByPrakhar Dixit, Tim Oates

Molti studenti faticano con i problemi di matematica espressi in forma verbale (MWPs), spesso trovando difficile identificare le informazioni chiave e selezionare le operazioni matematiche appropriate. L'istruzione basata su schema (SBI) è una strategia basata su evidenze che aiuta gli studenti a categorizzare i problemi in base alla loro struttura, migliorando l'accuratezza nella risoluzione dei problemi. Sviluppando questo concetto, proponiamo un framework di Istruzione Basata su Schema con Recupero e Generazione potenziato (SBI-RAG) che incorpora un grande modello linguistico (LLM). Il nostro approccio enfatizza il ragionamento passo dopo passo sfruttando gli schemi per guidare la generazione della soluzione. Valutiamo le prestazioni su un dataset GSM8K, confrontandolo con GPT-4 e GPT-3.5 Turbo, e introduciamo una metrica di "punteggio di ragionamento" per valutare la qualità della soluzione. I nostri risultati suggeriscono che SBI-RAG migliora la chiarezza del ragionamento e l'accuratezza nella risoluzione dei problemi, offrendo potenziali benefici educativi agli studenti.