HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

23 papers found

VidEgoThink: Valutazione delle capacità di comprensione video egocentrico per l'AI incorporata
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

Oct 15

BySijie Cheng, Kechen Fang, Yangyang Yu, Sicheng Zhou, Bohao Li, Ye Tian, Tingguang Li, Lei Han, Yang Liu

I recenti progressi nei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) hanno aperto nuove vie per applicazioni nell'AI Incarnata. Basandoci sul lavoro precedente, EgoThink, presentiamo VidEgoThink, un benchmark esaustivo per valutare le capacità di comprensione video egocentrica. Per colmare il divario tra MLLMs e il controllo a basso livello nell'AI Incarnata, progettiamo quattro compiti chiave interconnessi: risposta a domande video, pianificazione gerarchica, ancoraggio visuale e modellazione del reward. Per ridurre al minimo i costi di annotazione manuale, sviluppiamo un flusso automatico di generazione dati basato sul dataset Ego4D, sfruttando le conoscenze pregresse e le capacità multimodali di GPT-4o. Successivamente, tre annotatori umani filtrano i dati generati per garantire diversità e qualità, dando luogo al benchmark VidEgoThink. Conduciamo ampi esperimenti con tre tipi di modelli: MLLMs basati su API, MLLMs basati su immagini open-source e MLLMs basati su video open-source. I risultati sperimentali indicano che tutti i MLLMs, inclusi GPT-4o, hanno prestazioni scadenti in tutti i compiti legati alla comprensione video egocentrica. Questi risultati suggeriscono che i modelli fondamentali richiedono ancora significativi progressi per essere applicati efficacemente a scenari in prima persona nell'AI Incarnata. In conclusione, VidEgoThink riflette una tendenza di ricerca verso l'utilizzo di MLLMs per la visione egocentrica, simile alle capacità umane, consentendo un'osservazione attiva e un'interazione negli ambienti reali complessi.

HumanEval-V: Valutazione delle capacità di comprensione visiva e di ragionamento di modelli multimodali di grandi dimensioni attraverso compiti di codifica
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Oct 16

ByFengji Zhang, Linquan Wu, Huiyu Bai, Guancheng Lin, Xiao Li, Xiao Yu, Yue Wang, Bei Chen, Jacky Keung

Le attività di codifica sono state preziose per valutare i Large Language Models (LLM), poiché richiedono la comprensione di istruzioni di alto livello, ragionamento complesso e l'implementazione di programmi funzionali - capacità fondamentali per lo sviluppo dell'Intelligenza Artificiale Generale. Nonostante i progressi nei Large Multimodal Models (LMM), che estendono i LLM con capacità di percezione e comprensione visiva, permane una notevole mancanza di benchmark di codifica che valutino rigorosamente questi modelli, in particolare in compiti che enfatizzano il ragionamento visivo. Per affrontare questa lacuna, presentiamo HumanEval-V, un benchmark innovativo e leggero progettato specificamente per valutare le capacità di comprensione e ragionamento visivo dei LMM attraverso la generazione di codice. HumanEval-V include 108 attività di codifica in Python di livello base, accuratamente create, derivate da piattaforme come CodeForces e Stack Overflow. Ogni attività è adattata modificando il contesto e i pattern algoritmici dei problemi originali, con elementi visivi ridisegnati per garantire distinzione dalla fonte, prevenendo potenziali fughe di dati. I LMM devono completare la soluzione del codice basandosi sul contesto visivo fornito e su una firma di funzione Python predefinita che descrive i requisiti dell'attività. Ogni attività è dotata di casi di test meticolosamente creati per garantire una valutazione accurata e affidabile delle soluzioni generate dal modello. Valutiamo 19 LMM all'avanguardia utilizzando HumanEval-V, rivelando significativi ostacoli. Modelli proprietari come GPT-4o raggiungono solo il 13% di successo@1 e il 36,4% di successo@10, mentre modelli open-weight con 70 miliardi di parametri ottengono meno del 4% di successo@1. Studi di ablation rivelano ulteriormente i limiti attuali dei LMM nel ragionamento visivo e nelle capacità di codifica. Questi risultati sottolineano aree chiave per futuri studi volti a potenziare le capacità dei LMM. Abbiamo reso open source il nostro codice e il benchmark su https://github.com/HumanEval-V/HumanEval-V-Benchmark.

DocLayout-YOLO: Miglioramento dell'Analisi del Layout dei Documenti attraverso Dati Sintetici Diversificati e Percezione Adattiva Globale-a-Locale
DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

Oct 16

ByZhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He

L'analisi del layout del documento è cruciale per i sistemi di comprensione dei documenti del mondo reale, ma si trova di fronte a un difficile compromesso tra velocità e precisione: i metodi multimodali che sfruttano sia le caratteristiche testuali che visive raggiungono una maggiore precisione ma soffrono di un'elevata latenza, mentre i metodi unimodali che si basano esclusivamente sulle caratteristiche visive offrono velocità di elaborazione più veloci a scapito della precisione. Per affrontare questo dilemma, presentiamo DocLayout-YOLO, un nuovo approccio che migliora la precisione pur mantenendo i vantaggi di velocità attraverso ottimizzazioni specifiche del documento sia nella preformazione che nel design del modello. Per una preformazione robusta del documento, introduciamo l'algoritmo Mesh-candidate BestFit, che inquadra la sintesi del documento come un problema di imballaggio bin-dimensionale, generando il dataset DocSynth-300K su larga scala e diversificato. La preformazione sul dataset risultante DocSynth-300K migliora significativamente le prestazioni di messa a punto su vari tipi di documenti. In termini di ottimizzazione del modello, proponiamo un Modulo Reattivo Globale-a-Locale Controllabile che è in grado di gestire meglio le variazioni multi-scala degli elementi del documento. Inoltre, per convalidare le prestazioni su diversi tipi di documenti, introduciamo un benchmark complesso e sfidante chiamato DocStructBench. Estesi esperimenti su dataset derivati dimostrano che DocLayout-YOLO eccelle sia in velocità che in precisione. Codice, dati e modelli sono disponibili su https://github.com/opendatalab/DocLayout-YOLO.

La Maledizione delle Multi-Modalità: Valutare le Allucinazioni dei Grandi Modelli Multimodali tra Linguaggio, Visivo e Audio
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

Oct 16

BySicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

I recenti progressi nei grandi modelli multimodali (LMM) hanno notevolmente migliorato le prestazioni in diverse attività, con sforzi in corso per integrare ulteriori modalità come video e audio. Tuttavia, la maggior parte dei LMM esistenti rimane vulnerabile alle allucinazioni, la discrepanza tra l'input multimodale effettivo e l'output testuale generato, limitando la loro applicabilità in vari scenari reali. Questo articolo presenta la prima indagine sistematica sulle allucinazioni nei LMM che coinvolgono le tre modalità più comuni: linguaggio, visivo e audio. Il nostro studio rivela due principali fattori contribuenti alle allucinazioni: eccessiva dipendenza da priori unimodali e correlazioni spurie tra modalità. Per affrontare queste sfide, introduciamo il benchmark "La Maledizione delle Multi-Modalità" (CMM), che valuta in modo esaustivo le allucinazioni nei LMM, fornendo un'analisi dettagliata dei loro problemi sottostanti. Le nostre scoperte evidenziano vulnerabilità chiave, inclusi squilibri nell'integrazione delle modalità e pregiudizi dai dati di addestramento, sottolineando la necessità di un apprendimento croso-modale bilanciato e strategie potenziate di mitigazione delle allucinazioni. Sulla base delle nostre osservazioni e scoperte, suggeriamo possibili direzioni di ricerca che potrebbero migliorare l'affidabilità dei LMM.

Rivelazione delle Barriere degli Agenti Linguistici nella Pianificazione
Revealing the Barriers of Language Agents in Planning

Oct 16

ByJian Xie, Kexun Zhang, Jiangjie Chen, Siyu Yuan, Kai Zhang, Yikai Zhang, Lei Li, Yanghua Xiao

La pianificazione autonoma è stata una ricerca in corso fin dall'inizio dell'intelligenza artificiale. Basandosi su risolutori di problemi selezionati, i primi agenti di pianificazione potevano fornire soluzioni precise per compiti specifici ma mancavano di generalizzazione. L'emergere dei grandi modelli linguistici (LLM) e le loro potenti capacità di ragionamento hanno riacceso l'interesse per la pianificazione autonoma generando automaticamente soluzioni ragionevoli per compiti specifici. Tuttavia, ricerche precedenti e i nostri esperimenti mostrano che gli attuali agenti linguistici ancora mancano delle capacità di pianificazione di livello umano. Anche il modello di ragionamento all'avanguardia, OpenAI o1, raggiunge solo il 15,6% in uno dei complessi benchmark di pianificazione del mondo reale. Questo mette in evidenza una domanda critica: Cosa impedisce agli agenti linguistici di raggiungere una pianificazione di livello umano? Anche se studi esistenti hanno evidenziato una scarsa performance nella pianificazione degli agenti, le questioni sottostanti più profonde e i meccanismi e le limitazioni delle strategie proposte per affrontarle rimangono insufficientemente compresi. In questo lavoro, applichiamo lo studio di attribuzione delle caratteristiche e identifichiamo due fattori chiave che ostacolano la pianificazione degli agenti: il ruolo limitato dei vincoli e l'influenza ridotta delle domande. Troviamo anche che, sebbene le strategie attuali aiutino a mitigare queste sfide, non le risolvono completamente, indicando che gli agenti hanno ancora molta strada da fare prima di raggiungere un'intelligenza di livello umano.

Esplorazione della Parentela dei Modelli per la Fusione di Grandi Modelli Linguistici
Exploring Model Kinship for Merging Large Language Models

Oct 16

ByYedi Hu, Yunzhi Yao, Ningyu Zhang, Shumin Deng, Huajun Chen

La fusione di modelli è diventata una delle tecnologie chiave per potenziare le capacità e l'efficienza dei Grandi Modelli Linguistici (LLM). Tuttavia, la nostra comprensione dei guadagni di prestazioni attesi e dei principi quando si fondono due modelli rimane limitata. In questo lavoro, introduciamo la parentela dei modelli, il grado di similarità o parentela tra LLM, analogo all'evoluzione biologica. Attraverso un'analisi empirica esaustiva, scopriamo che esiste una certa relazione tra la parentela dei modelli e i guadagni di prestazioni dopo la fusione dei modelli, che può aiutare a guidare la selezione dei modelli candidati. Ispirati da ciò, proponiamo una nuova strategia di fusione dei modelli: Fusione Greedy Top-k con Parentela dei Modelli, che può produrre migliori prestazioni su set di dati di riferimento. In particolare, scopriamo che l'utilizzo della parentela dei modelli come criterio può aiutarci a eseguire continuamente la fusione dei modelli, alleviando il degrado (ottimi locali) nell'evoluzione del modello, mentre la parentela dei modelli può fungere da guida per evitare queste trappole. Il codice è disponibile su https://github.com/zjunlp/ModelKinship.

Semplificazione, Stabilizzazione e Scalabilità dei Modelli di Coerenza nel Tempo Continuo
Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models

Oct 14

ByCheng Lu, Yang Song

I modelli di consistenza (CMs) sono una potente classe di modelli generativi basati sulla diffusione ottimizzati per un campionamento rapido. La maggior parte dei CMs esistenti viene addestrata utilizzando passaggi discretizzati nel tempo, che introducono iperparametri aggiuntivi e sono soggetti a errori di discretizzazione. Sebbene le formulazioni a tempo continuo possano attenuare tali problemi, il loro successo è stato limitato dall'instabilità dell'addestramento. Per affrontare ciò, proponiamo un quadro teorico semplificato che unifica le precedenti parametrizzazioni dei modelli di diffusione e dei CMs, identificando le cause principali dell'instabilità. Sulla base di questa analisi, introduciamo miglioramenti chiave nella parametrizzazione del processo di diffusione, nell'architettura della rete e negli obiettivi di addestramento. Questi cambiamenti ci consentono di addestrare CMs a tempo continuo su una scala senza precedenti, raggiungendo 1,5 miliardi di parametri su ImageNet 512x512. Il nostro algoritmo di addestramento proposto, utilizzando solo due passaggi di campionamento, raggiunge punteggi FID di 2,06 su CIFAR-10, 1,48 su ImageNet 64x64 e 1,88 su ImageNet 512x512, riducendo il divario nei punteggi FID rispetto ai migliori modelli di diffusione esistenti al di sotto del 10%.

Valutazione di grandi modelli linguistici tramite la norma nucleare della matrice
Large Language Model Evaluation via Matrix Nuclear-Norm

Oct 14

ByYahan Li, Tingyu Xia, Yi Chang, Yuan Wu

Con l'evoluzione dei grandi modelli linguistici (LLM), metriche di valutazione efficienti sono fondamentali per valutare la loro capacità di comprimere informazioni e ridurre la ridondanza. Mentre metriche tradizionali come l'Entropia della Matrice offrono preziose intuizioni, sono computazionalmente intensive per modelli su larga scala a causa della loro complessità temporale \( O(n^3) \) con la Decomposizione ai Valori Singolari (SVD). Per mitigare questo problema, introduciamo la Norma Nucleare della Matrice, che non solo funge da metrica per quantificare l'efficienza di compressione dei dati del LLM, ma fornisce anche un'approssimazione convessa del rango della matrice per catturare sia la discriminabilità predittiva che la diversità. Utilizzando la \( L_{1,2}-norma \) per approssimare ulteriormente la norma nucleare, possiamo valutare efficacemente le capacità di compressione delle informazioni del modello. Questo approccio riduce la complessità temporale a \( O(n^2) \) ed elimina la necessità di calcoli SVD. Di conseguenza, la Norma Nucleare della Matrice raggiunge velocità 8-24 volte superiori rispetto all'Entropia della Matrice per il modello CEREBRAS-GPT all'aumentare delle dimensioni da 111M a 6.7B. Questo divario di prestazioni diventa più evidente con modelli più grandi, come confermato nei test con altri modelli come Pythia. Inoltre, le valutazioni su benchmark e risposte del modello confermano che la nostra proposta di Norma Nucleare della Matrice è uno strumento affidabile, scalabile ed efficiente per valutare le prestazioni dei LLM, trovando un equilibrio tra precisione ed efficienza computazionale. Il codice è disponibile su https://github.com/MLGroupJLU/MatrixNuclearNorm.

Miglioramento dell'allineamento di testi lunghi per modelli di diffusione testo-immagine
Improving Long-Text Alignment for Text-to-Image Diffusion Models

Oct 15

ByLuping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu

Il rapido avanzamento dei modelli di diffusione testo-immagine (T2I) ha reso possibile generare risultati senza precedenti da testi forniti. Tuttavia, all'aumentare della lunghezza dei testi in input, i metodi di codifica esistenti come CLIP incontrano limitazioni, e allineare le immagini generate con testi lunghi diventa una sfida. Per affrontare questi problemi, proponiamo LongAlign, che include un metodo di codifica a livello di segmento per elaborare testi lunghi e un metodo di ottimizzazione delle preferenze decomposto per un efficace addestramento allineamento. Per la codifica a livello di segmento, i testi lunghi vengono divisi in segmenti multipli e elaborati separatamente. Questo metodo supera i limiti di lunghezza massima dell'input dei modelli di codifica preaddestrati. Per l'ottimizzazione delle preferenze, forniamo modelli di preferenza basati su CLIP decomposti per perfezionare i modelli di diffusione. In particolare, per utilizzare i modelli di preferenza basati su CLIP per l'allineamento T2I, approfondiamo i loro meccanismi di punteggio e scopriamo che i punteggi di preferenza possono essere decomposti in due componenti: una parte rilevante per il testo che misura l'allineamento T2I e una parte non rilevante per il testo che valuta altri aspetti visivi della preferenza umana. Inoltre, scopriamo che la parte non rilevante per il testo contribuisce a un comune problema di sovradattamento durante il perfezionamento. Per affrontare questo problema, proponiamo una strategia di ripesatura che assegna pesi diversi a queste due componenti, riducendo così il sovradattamento e migliorando l'allineamento. Dopo aver perfezionato 512 volte 512 Stable Diffusion (SD) v1.5 per circa 20 ore utilizzando il nostro metodo, il SD perfezionato supera modelli di base più solidi nell'allineamento T2I, come PixArt-alpha e Kandinsky v2.2. Il codice è disponibile su https://github.com/luping-liu/LongAlign.

Allineamento della Sicurezza Controllabile: Adattamento in Tempo di Inferenza a Diverse Requisiti di Sicurezza
Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

Oct 11

ByJingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

Il paradigma attuale per l'allineamento della sicurezza dei grandi modelli linguistici (LLM) segue un approccio universale: il modello rifiuta di interagire con qualsiasi contenuto ritenuto non sicuro dal fornitore del modello. Questo approccio manca di flessibilità di fronte alle varie norme sociali tra culture e regioni diverse. Inoltre, gli utenti possono avere diverse esigenze di sicurezza, rendendo un modello con standard di sicurezza statici troppo restrittivo per essere utile, oltre che troppo costoso da riallineare. Proponiamo Controllable Safety Alignment (CoSA), un framework progettato per adattare i modelli a diverse esigenze di sicurezza senza la necessità di un nuovo addestramento. Invece di allineare un modello fisso, allineiamo i modelli a seguire configurazioni di sicurezza - descrizioni in linguaggio naturale dei comportamenti di sicurezza desiderati - fornite come parte dell'input di sistema. Per regolare il comportamento di sicurezza del modello, gli utenti autorizzati devono solo modificare tali configurazioni di sicurezza al momento dell'inferenza. Per consentire ciò, proponiamo CoSAlign, un metodo basato sui dati per allineare i LLM in modo da adattarsi facilmente a diverse configurazioni di sicurezza. Inoltre, ideiamo un nuovo protocollo di valutazione della controllabilità che considera sia l'utilità che la sicurezza configurata, riassumendoli in un punteggio CoSA, e costruiamo CoSApien, un benchmark redatto da umani che consiste in casi d'uso reali di LLM con diverse esigenze di sicurezza e relativi input di valutazione. Dimostriamo che CoSAlign porta a guadagni sostanziali di controllabilità rispetto a basi solide, inclusa l'allineamento in contesto. Il nostro framework incoraggia una migliore rappresentazione e adattamento ai valori umani pluralistici nei LLM, aumentandone così la praticità.

DyVo: Vocabolari Dinamici per il Recupero Sparso Appreso con Entità
DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities

Oct 10

ByThong Nguyen, Shubham Chatterjee, Sean MacAvaney, Iain Mackie, Jeff Dalton, Andrew Yates

I modelli di Recupero Sparso Appreso (LSR) utilizzano vocabolari da trasformatori pre-addestrati, che spesso suddividono le entità in frammenti senza senso. La suddivisione delle entità può ridurre l'accuratezza del recupero e limitare la capacità del modello di incorporare conoscenze mondiali aggiornate non incluse nei dati di addestramento. In questo lavoro, arricchiamo il vocabolario LSR con concetti ed entità di Wikipedia, consentendo al modello di risolvere ambiguità in modo più efficace e rimanere aggiornato con le conoscenze in evoluzione. Al centro del nostro approccio c'è una testa di Vocabolario Dinamico (DyVo), che sfrutta gli embedding di entità esistenti e un componente di recupero di entità che identifica entità rilevanti per una query o un documento. Utilizziamo la testa DyVo per generare pesi delle entità, che vengono poi uniti ai pesi delle parti di parole per creare rappresentazioni congiunte per un'indicizzazione e un recupero efficienti utilizzando un indice invertito. Negli esperimenti su tre set di dati di classificazione di documenti ricchi di entità, il modello DyVo risultante supera sostanzialmente le baselines all'avanguardia.

ProSA: Valutazione e Comprensione della Sensibilità alla Richiesta delle LLM
ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs

Oct 16

ByJingming Zhuo, Songyang Zhang, Xinyu Fang, Haodong Duan, Dahua Lin, Kai Chen

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità impressionanti in varie attività, ma le loro prestazioni sono altamente sensibili ai prompt utilizzati. Questa variabilità pone sfide per una valutazione accurata e la soddisfazione dell'utente. La ricerca attuale spesso trascura le variazioni dei prompt a livello di istanza e le loro implicazioni sulle valutazioni soggettive. Per affrontare queste lacune, presentiamo ProSA, un framework progettato per valutare e comprendere la sensibilità ai prompt nei LLM. ProSA incorpora una nuova metrica di sensibilità, PromptSensiScore, e sfrutta la fiducia nella decodifica per chiarire i meccanismi sottostanti. Il nostro ampio studio, che copre diverse attività, rivela che la sensibilità ai prompt varia tra i dataset e i modelli, con i modelli più grandi che mostrano una maggiore robustezza. Osserviamo che gli esempi a pochi colpi possono alleviare questo problema di sensibilità, e le valutazioni soggettive sono anche suscettibili alle sensibilità dei prompt, in particolare nelle attività complesse orientate al ragionamento. Inoltre, i nostri risultati indicano che una maggiore fiducia del modello correla con una maggiore robustezza del prompt. Crediamo che questo lavoro possa servire come uno strumento utile nello studio della sensibilità ai prompt dei LLM. Il progetto è disponibile su: https://github.com/open-compass/ProSA.

ZipVL: Modelli efficienti di grandi dimensioni visione-linguaggio con sparsificazione dinamica dei token e compressione della cache KV
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

Oct 11

ByYefei He, Feng Chen, Jing Liu, Wenqi Shao, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

L'efficienza dei grandi modelli di visione-linguaggio (LVLM) è limitata dal collo di bottiglia computazionale del meccanismo di attenzione durante la fase di precaricamento e dal collo di bottiglia di memoria del recupero della cache chiave-valore (KV) nella fase di decodifica, specialmente in scenari che coinvolgono immagini o video ad alta risoluzione. Il contenuto visivo spesso mostra una notevole ridondanza, che si traduce in mappe di attenzione altamente sparse all'interno dei LVLM. Questa sparità può essere sfruttata per accelerare il calcolo dell'attenzione o comprimere la cache KV attraverso vari approcci. Tuttavia, la maggior parte degli studi si concentra solo su uno di questi collo di bottiglia e non supporta adeguatamente l'adattamento dinamico della sparità riguardo a diversi strati o compiti. In questo articolo, presentiamo ZipVL, un framework di inferenza efficiente progettato per i LVLM che risolve sia i collo di bottiglia computazionale che di memoria attraverso una strategia di allocazione dinamica del rapporto di token importanti. Questo rapporto è determinato in modo adattivo in base alla distribuzione specifica dello strato dei punteggi di attenzione, anziché iperparametri fissi, migliorando così l'efficienza per compiti meno complessi mantenendo alte prestazioni per quelli più impegnativi. Successivamente selezioniamo i token importanti in base ai loro punteggi di attenzione normalizzati e eseguiamo il meccanismo di attenzione solo su quei token importanti per accelerare la fase di precaricamento. Per mitigare il collo di bottiglia di memoria nella fase di decodifica, utilizziamo la quantizzazione a precisione mista per la cache KV, dove la quantizzazione ad alta bit è utilizzata per le cache dei token importanti, mentre la quantizzazione a basso bit è applicata a quelli di minore importanza. I nostri esperimenti dimostrano che ZipVL può accelerare la fase di precaricamento di 2,6 volte e ridurre l'utilizzo della memoria GPU del 50,0%, con una riduzione minima dell'accuratezza di soli 0,2% sul benchmark Video-MME rispetto al modello LongVA-7B, migliorando efficacemente l'efficienza di generazione dei LVLM.

Stabilizzare lo Spazio Latente per la Modellazione Autoregressiva delle Immagini: Una Prospettiva Unificata
Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

Oct 16

ByYongxin Zhu, Bocheng Li, Hang Zhang, Xin Li, Linli Xu, Lidong Bing

I modelli generativi di immagini basati su latenti, come i Modelli di Diffusione Latenti (LDMs) e i Modelli di Immagini a Maschera (MIMs), hanno ottenuto un notevole successo nei compiti di generazione di immagini. Tipicamente, questi modelli sfruttano autoencoder ricostruttivi come VQGAN o VAE per codificare i pixel in uno spazio latente più compatto e apprendere la distribuzione dei dati nello spazio latente anziché direttamente dai pixel. Tuttavia, questa pratica solleva una domanda rilevante: è davvero la scelta ottimale? In risposta, partiamo da un'osservazione intrigante: nonostante condividano lo stesso spazio latente, i modelli autoregressivi rimangono significativamente indietro rispetto a LDMs e MIMs nella generazione di immagini. Questa scoperta contrasta nettamente con il campo dell'NLP, dove il modello autoregressivo GPT ha stabilito una presenza dominante. Per affrontare questa discrepanza, introduciamo una prospettiva unificata sulla relazione tra lo spazio latente e i modelli generativi, sottolineando la stabilità dello spazio latente nella modellazione generativa di immagini. Inoltre, proponiamo un tokenizzatore di immagini discreto semplice ma efficace per stabilizzare lo spazio latente per la modellazione generativa di immagini. I risultati sperimentali mostrano che la modellazione autoregressiva di immagini con il nostro tokenizzatore (DiGIT) beneficia sia della comprensione delle immagini che della generazione di immagini con il principio della previsione del token successivo, che è intrinsecamente semplice per i modelli GPT ma impegnativo per altri modelli generativi. Notevolmente, per la prima volta, un modello autoregressivo in stile GPT per immagini supera LDMs, che mostra anche un miglioramento sostanziale simile a GPT quando si scala la dimensione del modello. Le nostre scoperte sottolineano il potenziale di uno spazio latente ottimizzato e l'integrazione della tokenizzazione discreta nel migliorare le capacità dei modelli generativi di immagini. Il codice è disponibile su https://github.com/DAMO-NLP-SG/DiGIT.

ChroKnowledge: Svelare la Conoscenza Cronologica dei Modelli Linguistici in Diversi Domini
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

Oct 13

ByYein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang

I grandi modelli linguistici (LLM) hanno avuto un impatto significativo su molti aspetti delle nostre vite. Tuttavia, valutare e garantire la loro conoscenza cronologica rimane una sfida. Gli approcci esistenti non riescono a affrontare la natura cumulativa della conoscenza, spesso basandosi su un singolo timestamp. Per superare questo ostacolo, presentiamo ChroKnowBench, un dataset di benchmark progettato per valutare la conoscenza accumulata cronologicamente su tre aspetti chiave: multipli domini, dipendenza temporale, stato temporale. Il nostro benchmark distingue tra la conoscenza che si evolve (ad esempio, scoperte scientifiche, leggi emendate) e la conoscenza che rimane costante (ad esempio, verità matematiche, fatti di buon senso). Basandoci su questo benchmark, presentiamo ChroKnowledge (Categorizzazione Cronologica della Conoscenza), un nuovo framework basato su campionamento per valutare e aggiornare la conoscenza cronologica non parametrica dei LLM. La nostra valutazione mostra: (1) La capacità di evocare la conoscenza temporale varia a seconda del formato dei dati su cui il modello è stato addestrato. (2) I LLM richiamano parzialmente la conoscenza o mostrano un'interruzione ai confini temporali anziché richiamare correttamente tutti gli aspetti della conoscenza. Pertanto, applichiamo il nostro ChroKnowPrompt, una sollecitazione approfondita per evocare la conoscenza cronologica attraverso un attraversamento passo dopo passo degli intervalli temporali circostanti. Osserviamo che il nostro framework aggiorna con successo la conoscenza complessiva lungo l'intera linea temporale sia nel dominio biomedico (+11,9%) che nel dominio generale (+2,8%), dimostrandone l'efficacia nel perfezionare la conoscenza temporale. Questo approccio non parametrico consente anche aggiornamenti della conoscenza non solo nei modelli open-source ma anche nei LLM proprietari, garantendo un'applicabilità completa tra i tipi di modelli. Effettuiamo un'analisi approfondita basata sulle caratteristiche temporali di ChroKnowPrompt e convalidiamo il potenziale di vari modelli nell'evocare la conoscenza temporale intrinseca attraverso il nostro metodo.

Metamorfosi Neurale
Neural Metamorphosis

Oct 10

ByXingyi Yang, Xinchao Wang

Questo articolo introduce un nuovo paradigma di apprendimento denominato Metamorfosi Neurale (NeuMeta), che mira a costruire reti neurali auto-mutabili. Contrariamente alla creazione di modelli separati per diverse architetture o dimensioni, NeuMeta apprende direttamente il continuo spazio dei pesi delle reti neurali. Una volta addestrato, possiamo campionare i pesi per reti di qualsiasi dimensione direttamente dallo spazio, anche per configurazioni precedentemente non viste, senza dover riallenare. Per raggiungere questo ambizioso obiettivo, NeuMeta addestra funzioni neurali implicite come iperreti. Queste accettano coordinate nello spazio del modello come input e generano valori di peso corrispondenti nello spazio. In altre parole, la funzione implicita è appresa in modo che i pesi predetti siano ben eseguiti attraverso varie dimensioni dei modelli. Nell'addestramento di questi modelli, notiamo che le prestazioni finali sono strettamente legate alla regolarità dello spazio appreso. Nella ricerca di migliorare questa regolarità, adottiamo due strategie. In primo luogo, permutiamo le matrici di peso per ottenere regolarità intra-modello, risolvendo il problema del Percorso Hamiltoniano più breve. Inoltre, aggiungiamo un rumore alle coordinate di input durante l'addestramento della funzione implicita, garantendo che i modelli con varie dimensioni mostrino output coerenti. In tal modo, NeuMeta mostra risultati promettenti nella sintesi dei parametri per varie configurazioni di rete. I nostri ampi test nella classificazione delle immagini, nella segmentazione semantica e nella generazione di immagini rivelano che NeuMeta mantiene prestazioni a dimensioni complete anche con un tasso di compressione del 75%.

WorldMedQA-V: un dataset di esame medico multilingue e multimodale per la valutazione dei modelli linguistici multimodali
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation

Oct 16

ByJoão Matos, Shan Chen, Siena Placino, Yingya Li, Juan Carlos Climent Pardo, Daphna Idan, Takeshi Tohyama, David Restrepo, Luis F. Nakayama, Jose M. M. Pascual-Leone, Guergana Savova, Hugo Aerts, Leo A. Celi, A. Ian Wong, Danielle S. Bitterman, Jack Gallifant

I modelli multimodali di lingua/visione (VLM) vengono sempre più utilizzati negli ambienti sanitari in tutto il mondo, rendendo necessari solidi benchmark per garantirne la sicurezza, l'efficacia e l'equità. I dataset di domande a risposta multipla (QA) derivati dagli esami medici nazionali hanno a lungo funzionato come preziosi strumenti di valutazione, ma i dataset esistenti sono principalmente basati sul testo e disponibili solo in un limitato sottoinsieme di lingue e paesi. Per affrontare queste sfide, presentiamo WorldMedQA-V, un aggiornato dataset di benchmark multilingue e multimodale progettato per valutare i VLM nel settore sanitario. WorldMedQA-V include 568 QA a scelta multipla etichettate abbinate a 568 immagini mediche provenienti da quattro paesi (Brasile, Israele, Giappone e Spagna), coprendo le lingue originali e le traduzioni in inglese validate da medici madrelingua, rispettivamente. Le prestazioni di base per i comuni modelli open source e closed source sono fornite nella lingua locale e nelle traduzioni in inglese, sia con che senza immagini fornite al modello. Il benchmark WorldMedQA-V mira a far corrispondere meglio i sistemi AI agli ambienti sanitari diversificati in cui vengono implementati, promuovendo applicazioni più equilibrate, efficaci e rappresentative.

Tracciamento delle Caratteristiche Universali Attraverso il Fine-Tuning e la Fusione dei Modelli
Tracking Universal Features Through Fine-Tuning and Model Merging

Oct 16

ByNiels Horn, Desmond Elliott

Studiamo come le caratteristiche emergono, scompaiono e persistono attraverso modelli ottimizzati su diversi domini di testo. Più specificamente, partiamo da un modello linguistico Transformer a un solo strato che è addestrato su una combinazione del corpus BabyLM e una raccolta di codice Python da The Stack. Questo modello base è adattato a due nuovi domini di testo: TinyStories e il linguaggio di programmazione Lua, rispettivamente; e poi questi due modelli sono fusi utilizzando l'interpolazione lineare sferica. La nostra esplorazione mira a fornire approfondimenti più dettagliati sulla stabilità e trasformazione delle caratteristiche attraverso scenari tipici di trasferimento di apprendimento utilizzando modelli su piccola scala e autoencoder sparsi.

Approfondimenti dall'inverso: Ricostruzione degli Obiettivi di Addestramento di LLM Attraverso RL Inversa
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL

Oct 16

ByJared Joselowitz, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo

I grandi modelli linguistici (LLM) addestrati con Apprendimento per Rinforzo da Feedback Umano (RLHF) hanno dimostrato capacità notevoli, ma le loro funzioni di ricompensa sottostanti e i processi decisionali rimangono oscuri. Questo articolo introduce un nuovo approccio per interpretare i LLM applicando l'Apprendimento per Rinforzo Inverso (IRL) per recuperare le loro funzioni di ricompensa implicite. Conduciamo esperimenti su LLM allineati alla tossicità di dimensioni variabili, estraendo modelli di ricompensa che raggiungono fino all'80,40% di accuratezza nella previsione delle preferenze umane. La nostra analisi rivela importanti approfondimenti sulla non identificabilità delle funzioni di ricompensa, sulla relazione tra dimensione del modello e interpretabilità, e sui possibili rischi nel processo RLHF. Dimostriamo che i modelli di ricompensa derivati dall'IRL possono essere utilizzati per ottimizzare nuovi LLM, ottenendo prestazioni comparabili o migliorate nei benchmark di tossicità. Questo lavoro fornisce un nuovo punto di vista per comprendere e migliorare l'allineamento dei LLM, con implicazioni per lo sviluppo e la distribuzione responsabile di questi potenti sistemi.

OMCAT: Trasformatore Onnicontesto Consapevole
OMCAT: Omni Context Aware Transformer

Oct 15

ByArushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro

I Large Language Models (LLM) hanno compiuto progressi significativi nella generazione e comprensione di testo, con recenti sviluppi che si estendono ai LLM multimodali che integrano input visivi e audio. Tuttavia, questi modelli continuano a incontrare difficoltà nella comprensione temporale fine e cross-modale, in particolare nel correlare eventi attraverso flussi audio e video. Affrontiamo queste sfide con due contributi chiave: un nuovo dataset e un modello, chiamati rispettivamente OCTAV e OMCAT. OCTAV (Omni Context and Temporal Audio Video) è un dataset innovativo progettato per catturare le transizioni degli eventi attraverso audio e video. In secondo luogo, OMCAT (Omni Context Aware Transformer) è un modello potente che sfrutta RoTE (Rotary Time Embeddings), un'estensione innovativa di RoPE, per migliorare l'ancoraggio temporale e l'efficienza computazionale in compiti ancorati nel tempo. Attraverso un robusto processo di addestramento in tre fasi - allineamento delle caratteristiche, ottimizzazione delle istruzioni e addestramento specifico di OCTAV - OMCAT eccelle nella comprensione temporale cross-modale. Il nostro modello dimostra prestazioni all'avanguardia nei compiti di domande e risposte audio-visive (AVQA) e nel benchmark OCTAV, mostrando significativi progressi nel ragionamento temporale e nell'allineamento cross-modale, come confermato attraverso esperimenti completi e studi di ablation. Il nostro dataset e il codice saranno resi pubblicamente disponibili. Il link alla nostra pagina demo è https://om-cat.github.io.

FLARE: Ragionamento ed Esplorazione Assistiti dalla Logica Fedele
FLARE: Faithful Logic-Aided Reasoning and Exploration

Oct 14

ByErik Arakelyan, Pasquale Minervini, Pat Verga, Patrick Lewis, Isabelle Augenstein

Gli approcci moderni di Question Answering (QA) e Reasoning basati su Large Language Models (LLMs) utilizzano comunemente tecniche di prompting, come Chain-of-Thought (CoT), assumendo che la generazione risultante esplorerà in modo più dettagliato e ragionerà sullo spazio e l'ambito delle domande. Tuttavia, tali metodi faticano a generare output fedeli alla catena di ragionamento intermedia prodotta dal modello. All'altro estremo dello spettro, i metodi neuro-simbolici come Faithful CoT (F-CoT) propongono di combinare LLMs con risolutori simbolici esterni. Sebbene tali approcci vantino un alto grado di fedeltà, di solito richiedono un modello addestrato per la generazione di codice e faticano con compiti ambigui o difficili da formalizzare in modo rigoroso. Introduciamo Faithful Logic-Aided Reasoning and Exploration (\ours), un nuovo approccio interpretabile per attraversare lo spazio del problema utilizzando decomposizioni delle attività. Utilizziamo il LLM per pianificare una soluzione, formalizziamo in modo soft la query in fatti e predicati utilizzando un codice di programmazione logica e simuliamo l'esecuzione di quel codice utilizzando una ricerca esaustiva multi-hop nello spazio definito. Il nostro metodo ci consente di calcolare la fedeltà del processo di ragionamento rispetto al codice generato e di analizzare i passaggi della ricerca multi-hop senza dipendere da risolutori esterni. I nostri metodi raggiungono risultati SOTA su 7 su 9 diversi benchmark di ragionamento. Dimostriamo inoltre che la fedeltà del modello correla positivamente con le prestazioni complessive e dimostriamo ulteriormente che {\ours} consente di individuare i fattori decisivi sufficienti per e che portano alla risposta corretta con un ragionamento ottimale durante la ricerca multi-hop.

Domare la sovrastima nei LLM: Calibrazione delle Ricompense in RLHF
Taming Overconfidence in LLMs: Reward Calibration in RLHF

Oct 13

ByJixuan Leng, Chengsong Huang, Banghua Zhu, Jiaxin Huang

La calibrazione del modello linguistico si riferisce all'allineamento tra la fiducia del modello e le effettive prestazioni delle sue risposte. Mentre studi precedenti evidenziano il fenomeno della sovrafiducia nei Grandi Modelli Linguistici (LLM) e mostrano che i LLM addestrati con Apprendimento per Rinforzo da Feedback Umano (RLHF) sono sovrafiduciosi con una probabilità di output più accentuata, in questo studio riveliamo che RLHF tende a portare i modelli a esprimere una sovrafiducia verbalizzata nelle proprie risposte. Indaghiamo la causa sottostante di questa sovrafiducia e dimostriamo che i modelli di ricompensa utilizzati per l'ottimizzazione delle politiche prossimali (PPO) mostrano dei pregiudizi intrinseci verso punteggi ad alta fiducia indipendentemente dalla qualità effettiva delle risposte. Basandoci su questa intuizione, proponiamo due varianti di PPO: PPO-M: PPO con Modellazione della Ricompensa Calibrata e PPO-C: PPO con Calcolo della Ricompensa Calibrato. PPO-M integra punteggi di fiducia espliciti nell'addestramento del modello di ricompensa, il che calibra i modelli di ricompensa per catturare meglio l'allineamento tra la qualità della risposta e la fiducia verbalizzata. PPO-C regola il punteggio di ricompensa durante PPO in base alla differenza tra la ricompensa attuale e la media mobile delle ricompense passate. Entrambi PPO-M e PPO-C possono essere integrati senza problemi nel flusso di lavoro attuale di PPO e non richiedono etichette d'oro aggiuntive. Valutiamo i nostri metodi sia su Llama3-8B che su Mistral-7B su sei set di dati diversi, inclusi generazione a scelta multipla e aperta. I risultati sperimentali dimostrano che entrambi i nostri metodi possono ridurre l'errore di calibrazione e mantenere prestazioni paragonabili a PPO standard. Mostriamo inoltre che non compromettono le capacità del modello in contesti di conversazione aperta.

Dai Comandi agli Input: Sistema di File Semantico basato su LLM per AIOS
From Commands to Prompts: LLM-based Semantic File System for AIOS

Sep 23

ByZeru Shi, Kai Mei, Mingyu Jin, Yongye Su, Chaoji Zuo, Wenyue Hua, Wujiang Xu, Yujie Ren, Zirui Liu, Mengnan Du, Dong Deng, Yongfeng Zhang

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un significativo potenziale nello sviluppo di applicazioni intelligenti e sistemi come agenti basati su LLM e sistemi operativi per agenti (AIOS). Tuttavia, quando queste applicazioni e sistemi interagiscono con il sistema di file sottostante, il sistema di file rimane ancora il paradigma tradizionale: dipendente dalla navigazione manuale attraverso comandi precisi. Questo paradigma rappresenta un collo di bottiglia per l'usabilità di questi sistemi poiché gli utenti devono navigare in gerarchie di cartelle complesse e ricordare nomi di file criptici. Per affrontare questa limitazione, proponiamo un sistema di file semantico basato su LLM (LSFS) per la gestione dei file guidata da prompt. A differenza degli approcci convenzionali, LSFS incorpora LLM per consentire agli utenti o agli agenti di interagire con i file attraverso prompt in linguaggio naturale, facilitando la gestione semantica dei file. A livello macroscopico, sviluppiamo un set completo di API per raggiungere funzionalità di gestione semantica dei file, come il recupero semantico dei file, il monitoraggio e la sintesi dell'aggiornamento dei file e il ripristino semantico dei file. A livello microscopico, archiviamo i file costruendo indici semantici per essi, progettiamo e implementiamo chiamate di sistema di diverse operazioni semantiche (ad esempio, CRUD, raggruppamento, join) alimentate da un database vettoriale. I nostri esperimenti mostrano che LSFS offre significativi miglioramenti rispetto ai tradizionali sistemi di file in termini di comodità per l'utente, la diversità delle funzioni supportate e l'accuratezza e l'efficienza delle operazioni sui file. Inoltre, con l'integrazione di LLM, il nostro sistema consente compiti di gestione dei file più intelligenti, come la sintesi dei contenuti e il confronto delle versioni, potenziando ulteriormente le sue capacità.