HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

15 papers found

Migliorare la capacità di ragionamento dei modelli di linguaggio multimodali di grandi dimensioni tramite ottimizzazione delle preferenze miste
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

Nov 15

ByWeiyun Wang, Zhe Chen, Wenhai Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Jinguo Zhu, Xizhou Zhu, Lewei Lu, Yu Qiao, Jifeng Dai

I modelli di linguaggio multimodali di grandi dimensioni (MLLM) open-source esistenti generalmente seguono un processo di addestramento che coinvolge la preformazione e il fine-tuning supervisionato. Tuttavia, questi modelli soffrono di spostamenti di distribuzione, che limitano il loro ragionamento multimodale, in particolare nelle prestazioni della Catena di Pensiero (CoT). Per affrontare questo problema, introduciamo un processo di ottimizzazione delle preferenze (PO) per potenziare le capacità di ragionamento multimodale dei MLLM. In particolare, (1) sul lato dei dati, progettiamo un flusso di lavoro automatizzato per la costruzione dei dati di preferenza per creare MMPR, un dataset di preferenze di ragionamento multimodale di alta qualità e di grandi dimensioni, e (2) sul lato del modello, esploriamo l'integrazione di PO con i MLLM, sviluppando un metodo semplice ma efficace, chiamato Ottimizzazione Mista delle Preferenze (MPO), che migliora le prestazioni multimodali della CoT. Il nostro approccio dimostra un miglioramento delle prestazioni su diversi benchmark, in particolare nei compiti di ragionamento multimodale. In particolare, il nostro modello, InternVL2-8B-MPO, raggiunge un'accuratezza del 67,0 su MathVista, superando InternVL2-8B di 8,7 punti e ottenendo prestazioni paragonabili al modello InternVL2-76B, 10 volte più grande. Speriamo che questo studio possa ispirare ulteriori progressi nei MLLM. Il codice, i dati e il modello saranno resi pubblici.

Marco-o1: Verso Modelli di Ragionamento Aperti per Soluzioni Aperte
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Nov 21

ByYu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang

Attualmente OpenAI o1 ha suscitato un'impennata di interesse nello studio dei grandi modelli di ragionamento (LRM). Approfittando di questo slancio, Marco-o1 non si concentra solo su discipline con risposte standard, come matematica, fisica e programmazione - che si prestano bene al reinforcement learning (RL) - ma pone anche maggiore enfasi su risoluzioni aperte. Ci proponiamo di affrontare la domanda: "Il modello o1 può generalizzare efficacemente a domini più ampi in cui mancano standard chiari e le ricompense sono difficili da quantificare?" Marco-o1 è alimentato dal fine-tuning Chain-of-Thought (CoT), dalla ricerca ad albero Monte Carlo (MCTS), da meccanismi di riflessione e da strategie di ragionamento innovative - ottimizzate per compiti complessi di risoluzione di problemi del mondo reale.

Pre-addestramento autoregressivo multimodale di grandi codificatori visivi
Multimodal Autoregressive Pre-training of Large Vision Encoders

Nov 21

ByEnrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby

Introduciamo un nuovo metodo per il pre-addestramento di encoder visivi su larga scala. Basandoci sui recenti progressi nel pre-addestramento autoregressivo di modelli visivi, estendiamo questo framework a un contesto multimodale, cioè immagini e testo. In questo articolo, presentiamo AIMV2, una famiglia di encoder visivi generalisti caratterizzati da un processo di pre-addestramento diretto, scalabilità e prestazioni notevoli su una serie di compiti successivi. Ciò è ottenuto accoppiando l'encoder visivo con un decoder multimodale che genera in modo autoregressivo patch di immagini grezze e token di testo. I nostri encoder eccellono non solo nelle valutazioni multimodali ma anche nei benchmark visivi come localizzazione, grounding e classificazione. In particolare, il nostro encoder AIMV2-3B raggiunge un'accuratezza del 89,5% su ImageNet-1k con un tronco congelato. Inoltre, AIMV2 supera costantemente i modelli contrastivi all'avanguardia (ad esempio, CLIP, SigLIP) nella comprensione multimodale delle immagini in contesti diversi.

Hymba: Un'architettura ibrida per modelli linguistici di piccole dimensioni
Hymba: A Hybrid-head Architecture for Small Language Models

Nov 20

ByXin Dong, Yonggan Fu, Shizhe Diao, Wonmin Byeon, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Shih-Yang Liu, Matthijs Van Keirsbilck, Min-Hung Chen, Yoshi Suhara, Yingyan Lin, Jan Kautz, Pavlo Molchanov

Proponiamo Hymba, una famiglia di modelli linguistici di piccole dimensioni che presentano un'architettura parallela ibrida che integra meccanismi di attenzione del trasformatore con modelli dello spazio di stato (SSM) per una maggiore efficienza. Le testate di attenzione forniscono un richiamo ad alta risoluzione, mentre le testate SSM consentono una sintesi efficiente del contesto. Inoltre, introduciamo meta-token apprendibili che vengono anteposti alle istruzioni, memorizzando informazioni critiche e alleviando il peso del "forzato ad attenzione" associato ai meccanismi di attenzione. Questo modello è ulteriormente ottimizzato incorporando la condivisione di chiavi-valore (KV) tra strati e l'attenzione a finestra scorrevole parziale, risultando in una dimensione della cache compatta. Durante lo sviluppo, abbiamo condotto uno studio controllato confrontando varie architetture in impostazioni identiche e osservato significativi vantaggi della nostra architettura proposta. In particolare, Hymba raggiunge risultati all'avanguardia per i piccoli modelli linguistici: il nostro modello Hymba-1.5B-Base supera tutti i modelli pubblici inferiori a 2B in termini di prestazioni e batte persino Llama-3.2-3B con una precisione media superiore del 1,32%, una riduzione della dimensione della cache di 11,67 volte e un throughput di 3,49 volte superiore.

OpenScholar: Sintetizzare la letteratura scientifica con LM potenziati dal recupero
OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

Nov 21

ByAkari Asai, Jacqueline He, Rulin Shao, Weijia Shi, Amanpreet Singh, Joseph Chee Chang, Kyle Lo, Luca Soldaini, Sergey Feldman, Mike D'arcy, David Wadden, Matt Latzke, Minyang Tian, Pan Ji, Shengyan Liu, Hao Tong, Bohao Wu, Yanyu Xiong, Luke Zettlemoyer, Graham Neubig, Dan Weld, Doug Downey, Wen-tau Yih, Pang Wei Koh, Hannaneh Hajishirzi

Il progresso scientifico dipende dalla capacità dei ricercatori di sintetizzare il crescente corpus di letteratura. Possono i grandi modelli linguistici (LM) assistere gli scienziati in questo compito? Presentiamo OpenScholar, un LM di recupero specializzato che risponde a interrogazioni scientifiche identificando passaggi rilevanti da 45 milioni di articoli in accesso aperto e sintetizzando risposte supportate da citazioni. Per valutare OpenScholar, sviluppiamo ScholarQABench, il primo benchmark multi-dominio su larga scala per la ricerca di letteratura, comprendente 2.967 interrogazioni scritte da esperti e 208 risposte di lunghezza estesa nei settori dell'informatica, della fisica, delle neuroscienze e della biomedicina. Su ScholarQABench, OpenScholar-8B supera GPT-4o del 5% e PaperQA2 del 7% in correttezza, nonostante sia un modello più piccolo e aperto. Mentre GPT-4o produce citazioni erronee dal 78 al 90% delle volte, OpenScholar raggiunge un'accuratezza delle citazioni paragonabile a quella degli esperti umani. Il datastore, il recupero e il ciclo di feedback automatico di OpenScholar migliorano anche i LM pronti all'uso: ad esempio, OpenScholar-GPT4o migliora la correttezza di GPT-4o del 12%. Nelle valutazioni umane, gli esperti hanno preferito le risposte di OpenScholar-8B e OpenScholar-GPT4o rispetto a quelle scritte dagli esperti il 51% e il 70% delle volte, rispettivamente, rispetto al 32% di GPT-4o. Mettiamo a disposizione tutto il nostro codice, modelli, datastore, dati e una demo pubblica in open source.

Insight-V: Esplorazione della Ragionamento Visivo a Lungo Raggio con Modelli Linguistici Multimodali di Grandi Dimensioni
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

Nov 21

ByYuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu

I Large Language Models (LLM) dimostrano capacità e affidabilità avanzate ragionando di più, evolvendo dalla sollecitazione Chain-of-Thought a soluzioni a livello di prodotto come OpenAI o1. Nonostante vari sforzi per migliorare il ragionamento di LLM, i dati di ragionamento a catena lunga di alta qualità e i flussi di addestramento ottimizzati rimangono ancora insufficientemente esplorati nei compiti visione-linguaggio. In questo articolo, presentiamo Insight-V, un primo sforzo per 1) produrre in modo scalabile dati di ragionamento lunghi e robusti per compiti multi-modalità complessi, e 2) un efficace flusso di addestramento per potenziare le capacità di ragionamento dei grandi modelli di linguaggio multi-modalità (MLLM). In particolare, per creare dati di ragionamento lunghi e strutturati senza lavoro umano, progettiamo un flusso di lavoro a due fasi con una strategia progressiva per generare percorsi di ragionamento sufficientemente lunghi e diversificati e un metodo di valutazione multi-granularità per garantire la qualità dei dati. Osserviamo che supervisionare direttamente MLLM con dati di ragionamento così lunghi e complessi non porterà a capacità di ragionamento ideali. Per affrontare questo problema, progettiamo un sistema multi-agente composto da un agente di ragionamento dedicato a eseguire ragionamenti a catena lunga e un agente di sintesi addestrato a valutare e riassumere i risultati del ragionamento. Incorporiamo inoltre un algoritmo DPO iterativo per potenziare la stabilità e la qualità di generazione dell'agente di ragionamento. Basandoci sul popolare modello LLaVA-NeXT e sul nostro solido MLLM di base, dimostriamo significativi miglioramenti delle prestazioni su sfide multi-modalità che richiedono ragionamento visivo. Beneficiando del nostro sistema multi-agente, Insight-V può anche mantenere o migliorare facilmente le prestazioni su compiti multi-modalità focalizzati sulla percezione.

Apprendimento per Rinforzo con Linguaggio Naturale
Natural Language Reinforcement Learning

Nov 21

ByXidong Feng, Ziyu Wan, Haotian Fu, Bo Liu, Mengyue Yang, Girish A. Koushik, Zhiyuan Hu, Ying Wen, Jun Wang

Il Reinforcement Learning (RL) formula matematicamente il processo decisionale con il Processo Decisionale di Markov (MDP). Con i MDP, i ricercatori hanno ottenuto notevoli progressi in vari settori, tra cui giochi, robotica e modelli linguistici. Questo articolo cerca una nuova possibilità, il Reinforcement Learning basato sul Linguaggio Naturale (NLRL), estendendo il tradizionale MDP allo spazio di rappresentazione basato sul linguaggio naturale. In particolare, il NLRL ridefinisce in modo innovativo i principi del RL, inclusi gli obiettivi del compito, la policy, la funzione di valore, l'equazione di Bellman e l'iterazione della policy, nei loro corrispettivi linguistici. Con i recenti progressi nei grandi modelli linguistici (LLM), il NLRL può essere implementato praticamente per ottenere un miglioramento della policy e del valore simile al RL tramite semplici sollecitazioni o addestramento basato su gradienti. Gli esperimenti su giochi come Maze, Breakthrough e Tris dimostrano l'efficacia, l'efficienza e l'interpretabilità del framework NLRL tra diversi casi d'uso. Il nostro codice sarà rilasciato su https://github.com/waterhorse1/Natural-language-RL.

Rete di Memoria Ultra-Scarsa
Ultra-Sparse Memory Network

Nov 19

ByZihao Huang, Qiyang Min, Hongzhi Huang, Defa Zhu, Yutao Zeng, Ran Guo, Xun Zhou

È ampiamente riconosciuto che le prestazioni dei modelli Transformer sono correlati in modo esponenziale al loro numero di parametri e complessità computazionale. Mentre approcci come Mixture of Experts (MoE) separano il conteggio dei parametri dalla complessità computazionale, affrontano comunque sfide nell'inferenza a causa dei costi elevati di accesso alla memoria. Questo lavoro introduce UltraMem, che incorpora uno strato di memoria ultra-sparsa su larga scala per affrontare tali limitazioni. Il nostro approccio riduce significativamente la latenza dell'inferenza pur mantenendo le prestazioni del modello. Esaminiamo anche le leggi di scalabilità di questa nuova architettura, dimostrando che non solo presenta proprietà di scalabilità favorevoli ma supera i modelli tradizionali. Nei nostri esperimenti, addestriamo reti con fino a 20 milioni di slot di memoria. I risultati mostrano che il nostro metodo raggiunge velocità di inferenza all'avanguardia e prestazioni del modello entro un determinato budget computazionale.

Flusso Stabile: Strati Vitali per la Modifica di Immagini Senza Addestramento
Stable Flow: Vital Layers for Training-Free Image Editing

Nov 21

ByOmri Avrahami, Or Patashnik, Ohad Fried, Egor Nemchinov, Kfir Aberman, Dani Lischinski, Daniel Cohen-Or

I modelli di diffusione hanno rivoluzionato il campo della sintesi e modifica dei contenuti. I modelli recenti hanno sostituito l'architettura UNet tradizionale con il Transformer di Diffusione (DiT) e hanno utilizzato il flow-matching per un miglioramento dell'addestramento e del campionamento. Tuttavia, mostrano una limitata diversità nella generazione. In questo lavoro, sfruttiamo questa limitazione per eseguire modifiche coerenti alle immagini tramite l'iniezione selettiva delle caratteristiche di attenzione. La sfida principale è che, a differenza dei modelli basati su UNet, DiT manca di una struttura di sintesi da grossolana a fine, rendendo poco chiaro in quali livelli eseguire l'iniezione. Pertanto, proponiamo un metodo automatico per identificare "livelli vitali" all'interno di DiT, cruciali per la formazione dell'immagine, e dimostriamo come questi livelli facilitino una serie di modifiche stabili controllate, da modifiche non rigide all'aggiunta di oggetti, utilizzando lo stesso meccanismo. Successivamente, per consentire la modifica di immagini reali, introduciamo un metodo di inversione delle immagini migliorato per i modelli di flusso. Infine, valutiamo il nostro approccio attraverso confronti qualitativi e quantitativi, insieme a uno studio utente, e dimostriamo la sua efficacia in diverse applicazioni. La pagina del progetto è disponibile su https://omriavrahami.com/stable-flow.

DINO-X: Un modello di visione unificato per la rilevazione e comprensione degli oggetti in un mondo aperto
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

Nov 21

ByTianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang

In questo articolo, presentiamo DINO-X, che è un modello unificato di visione centrato sugli oggetti sviluppato da IDEA Research con le migliori prestazioni di rilevamento degli oggetti in un ambiente aperto fino ad oggi. DINO-X utilizza la stessa architettura codificatore-decodificatore basata su Transformer di Grounding DINO 1.5 per perseguire una rappresentazione a livello di oggetto per la comprensione degli oggetti in un ambiente aperto. Per facilitare il rilevamento degli oggetti a lunga coda, DINO-X estende le sue opzioni di input per supportare prompt di testo, prompt visivo e prompt personalizzato. Con tali opzioni di prompt flessibili, sviluppiamo un prompt universale per gli oggetti per supportare il rilevamento senza prompt in un ambiente aperto, rendendo possibile rilevare qualsiasi cosa in un'immagine senza richiedere agli utenti di fornire alcun prompt. Per potenziare la capacità di base del modello di grounding, abbiamo costruito un dataset su larga scala con oltre 100 milioni di campioni di grounding di alta qualità, denominato Grounding-100M, per migliorare le prestazioni del modello nel rilevamento del vocabolario aperto. Il pre-training su un dataset di grounding su larga scala porta a una rappresentazione a livello di oggetto fondamentale, che consente a DINO-X di integrare più testine di percezione per supportare contemporaneamente più compiti di percezione e comprensione degli oggetti, tra cui rilevamento, segmentazione, stima della posa, didascalia degli oggetti, QA basato sugli oggetti, ecc. I risultati sperimentali dimostrano le prestazioni superiori di DINO-X. In particolare, il modello DINO-X Pro raggiunge 56.0 AP, 59.8 AP e 52.4 AP rispettivamente sui benchmark di rilevamento degli oggetti COCO, LVIS-minival e LVIS-val a zero-shot. In particolare, ottiene 63.3 AP e 56.5 AP sulle classi rare dei benchmark LVIS-minival e LVIS-val, migliorando entrambe le prestazioni SOTA precedenti di 5.8 AP. Tale risultato sottolinea la sua capacità significativamente migliorata di riconoscere oggetti a lunga coda.

Conosco Questa Entità? Consapevolezza della Conoscenza e Allucinazioni nei Modelli Linguistici
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

Nov 21

ByJavier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda

Le allucinazioni nei grandi modelli linguistici sono un problema diffuso, tuttavia i meccanismi alla base della presenza di allucinazioni nei modelli sono poco compresi, limitando la nostra capacità di risolvere questo problema. Utilizzando autoencoder sparsi come strumento di interpretazione, scopriamo che una parte chiave di tali meccanismi è il riconoscimento delle entità, dove il modello rileva se un'entità è una di cui può ricordare dei fatti. Gli autoencoder sparsi rivelano direzioni significative nello spazio di rappresentazione, che individuano se il modello riconosce un'entità, ad esempio rilevando che non conosce un atleta o un film. Ciò suggerisce che i modelli possono avere auto-conoscenza: rappresentazioni interne sulle proprie capacità. Queste direzioni sono causalmente rilevanti: capaci di guidare il modello a rifiutarsi di rispondere a domande su entità conosciute, o di allucinare attributi di entità sconosciute quando altrimenti si rifiuterebbe. Dimostriamo che nonostante gli autoencoder sparsi siano stati addestrati sul modello di base, queste direzioni hanno un effetto causale sul comportamento di rifiuto del modello di chat, suggerendo che il raffinamento della chat ha riutilizzato questo meccanismo esistente. Inoltre, forniamo una prima esplorazione del ruolo meccanicistico di queste direzioni nel modello, scoprendo che disturbano l'attenzione delle testate a valle che tipicamente spostano gli attributi dell'entità al token finale.

MagicDriveDiT: Generazione di video lunghi ad alta risoluzione per la guida autonoma con controllo adattivo
MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control

Nov 21

ByRuiyuan Gao, Kai Chen, Bo Xiao, Lanqing Hong, Zhenguo Li, Qiang Xu

Il rapido avanzamento dei modelli di diffusione ha notevolmente migliorato la sintesi video, specialmente nella generazione di video controllabili, essenziale per applicazioni come la guida autonoma. Tuttavia, i metodi esistenti sono limitati dalla scalabilità e dall'integrazione delle condizioni di controllo, non riuscendo a soddisfare le esigenze di video ad alta risoluzione e di lunga durata per le applicazioni di guida autonoma. In questo articolo, presentiamo MagicDriveDiT, un nuovo approccio basato sull'architettura DiT, e affrontiamo queste sfide. Il nostro metodo potenzia la scalabilità attraverso il matching di flussi e utilizza una strategia di addestramento progressiva per gestire scenari complessi. Integrando la codifica condizionale spazio-temporale, MagicDriveDiT ottiene un controllo preciso sui latenti spazio-temporali. Esperimenti esaustivi mostrano le sue prestazioni superiori nella generazione di video realistici di scene stradali con maggiore risoluzione e più fotogrammi. MagicDriveDiT migliora significativamente la qualità della generazione video e i controlli spazio-temporali, espandendo le sue potenziali applicazioni in varie attività di guida autonoma.

Integrare lo Splatting Gaussiano nel Denoiser a Diffusione per una Generazione Rapida e Scalabile di Immagini in 3D in un Singolo Stadio
Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

Nov 21

ByYuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Zhe Lin, Alan Yuille

I metodi esistenti di trasformazione di immagini in 3D basati su feed-forward si affidano principalmente a modelli di diffusione multi-visivi 2D che non possono garantire la coerenza in 3D. Questi metodi collassano facilmente quando si cambia la direzione della vista di partenza e gestiscono principalmente immagini di prompt incentrate sugli oggetti. In questo articolo, proponiamo un nuovo modello di diffusione 3D in un unico stadio, DiffusionGS, per la generazione di oggetti e scene da una singola vista. DiffusionGS produce direttamente nuvole di punti gaussiani in 3D ad ogni passaggio temporale per garantire la coerenza della vista e consentire al modello di generare in modo robusto date viste di prompt in qualsiasi direzione, oltre agli input incentrati sugli oggetti. Inoltre, per migliorare la capacità e l'abilità di generalizzazione di DiffusionGS, aumentiamo i dati di addestramento in 3D sviluppando una strategia di addestramento mista scena-oggetto. Gli esperimenti mostrano che il nostro metodo gode di una migliore qualità di generazione (2,20 dB più alta in PSNR e 23,25 inferiore in FID) e una velocità oltre 5 volte più veloce (~6s su una GPU A100) rispetto ai metodi SOTA. Lo studio degli utenti e le applicazioni di testo in 3D rivelano anche i valori pratici del nostro metodo. La nostra pagina del progetto su https://caiyuanhao1998.github.io/project/DiffusionGS/ mostra il video e i risultati interattivi di generazione.

La pazienza è la chiave per il ragionamento dei grandi modelli linguistici.
Patience Is The Key to Large Language Model Reasoning

Nov 20

ByYijiong Yu

Gli avanzamenti recenti nel campo dei grandi modelli linguistici, in particolare attraverso l'approccio Chain of Thought (CoT), hanno dimostrato miglioramenti significativi nella risoluzione di problemi complessi. Tuttavia, i modelli esistenti tendono o a sacrificare il ragionamento dettagliato per la concisione a causa delle preferenze dell'utente, o richiedono dati di addestramento estesi e costosi per apprendere capacità di ragionamento complesse, limitando il loro potenziale nella risoluzione di compiti complessi. Per colmare questa lacuna, seguendo il concetto di scalare il test temporale, proponiamo un metodo semplice incoraggiando i modelli ad adottare uno stile di ragionamento più paziente senza la necessità di introdurre nuove conoscenze o abilità. Per impiegare un approccio di ottimizzazione delle preferenze, generiamo processi di ragionamento dettagliati come esempi positivi e risposte semplici come esempi negativi, addestrando così il modello a favorire la completezza nelle sue risposte. I nostri risultati dimostrano un aumento delle prestazioni fino al 6,7% su GSM8k addestrando solo su un dataset leggero.

UnifiedCrawl: Common Crawl Aggregato per l'Adattamento Accessibile di LLM su Lingue a Risorse Limitate
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

Nov 21

ByBethel Melesse Tessema, Akhil Kedia, Tae-Sun Chung

I modelli linguistici di grandi dimensioni (LLM) hanno prestazioni inferiori nelle lingue a risorse limitate a causa dei dati di addestramento limitati. Presentiamo un metodo per raccogliere in modo efficiente dati testuali per le lingue a risorse limitate dall'intero corpus di Common Crawl. Il nostro approccio, UnifiedCrawl, filtra ed estrae Common Crawl utilizzando risorse di calcolo minime, producendo set di dati monolingui molto più ampi rispetto alle fonti precedentemente disponibili. Dimostriamo che sfruttare questi dati per il raffinamento dei LLM multilingue tramite metodi di adattamento efficienti (QLoRA) migliora significativamente le prestazioni nella lingua a risorse limitate, riducendo al minimo l'uso della VRAM. I nostri esperimenti mostrano ampi miglioramenti nella perplessità del modellamento linguistico e un aumento nei punteggi di prompting a pochi colpi. Il nostro lavoro e il codice sorgente rilasciato forniscono un approccio conveniente per migliorare i LLM per le lingue a risorse limitate utilizzando hardware per consumatori. Il nostro codice sorgente è disponibile qui su https://github.com/bethelmelesse/unifiedcrawl.

DINO-X: Un modello di visione unificato per la rilevazione e comprensione degli oggetti in un mondo aperto
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding

Nov 21