HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

15 papers found

Leggi di Scalabilità con il Vocabolario: Modelli più Grandi Meritano Vocabolari più Ampi
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

Jul 18

ByChaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

La ricerca sul ridimensionamento dei grandi modelli linguistici (LLM) si è concentrata principalmente sui parametri del modello e sulla dimensione dei dati di addestramento, trascurando il ruolo della dimensione del vocabolario. Intuitivamente, vocabolari più ampi consentono una tokenizzazione più efficiente rappresentando le frasi con meno token, ma aumentano anche il rischio di underfitting delle rappresentazioni per i token rari. Investigiamo come la dimensione del vocabolario influenzi le leggi di ridimensionamento degli LLM addestrando modelli che vanno da 33M a 3B di parametri su fino a 500B di caratteri con varie configurazioni di vocabolario. Proponiamo tre approcci complementari per prevedere la dimensione ottimale del vocabolario in termini di calcolo: analisi IsoFLOPs, stima della derivata e adattamento parametrico della funzione di perdita. I nostri approcci convergono sullo stesso risultato, ovvero che la dimensione ottimale del vocabolario dipende dal budget di calcolo disponibile e che modelli più grandi meritano vocabolari più ampi. Tuttavia, la maggior parte degli LLM utilizza dimensioni del vocabolario troppo ridotte. Ad esempio, prevediamo che la dimensione ottimale del vocabolario di Llama2-70B avrebbe dovuto essere almeno 216K, 7 volte più grande del suo vocabolario di 32K. Validiamo empiricamente le nostre previsioni addestrando modelli con 3B di parametri su diversi budget di FLOPs. Adottare la nostra dimensione ottimale prevista del vocabolario migliora costantemente le prestazioni downstream rispetto alle dimensioni del vocabolario comunemente utilizzate. Aumentando la dimensione del vocabolario dai convenzionali 32K a 43K, miglioriamo le prestazioni su ARC-Challenge da 29.1 a 32.0 con gli stessi 2.3e21 FLOPs. Il nostro lavoro sottolinea la necessità di considerare congiuntamente i parametri del modello e la dimensione del vocabolario per un ridimensionamento efficiente.

Scalabilità dei Modelli Linguistici Basati su Recupero con un Archivio Dati da Mille Miliardi di Token
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore

Jul 9

ByRulin Shao, Jacqueline He, Akari Asai, Weijia Shi, Tim Dettmers, Sewon Min, Luke Zettlemoyer, Pang Wei Koh

Le leggi di scala rispetto alla quantità di dati di addestramento e al numero di parametri ci permettono di prevedere i compromessi costo-beneficio del pre-addestramento di modelli linguistici (LM) in diverse configurazioni. In questo articolo, consideriamo un'altra dimensione della scalabilità: la quantità di dati disponibili al momento dell'inferenza. Nello specifico, scopriamo che aumentare le dimensioni del datastore utilizzato da un LM basato su retrieval migliora in modo monotono la modellazione del linguaggio e diverse attività downstream senza evidenti saturazioni, tanto che un modello più piccolo potenziato con un datastore di grandi dimensioni supera un modello LM più grande su compiti ad alta intensità di conoscenza. Tracciando curve di scala ottimali in termini di calcolo con dimensioni variabili del datastore, del modello e dei dati di pre-addestramento, dimostriamo che l'uso di datastore più grandi può migliorare significativamente le prestazioni del modello per lo stesso budget di calcolo di addestramento. Portiamo avanti il nostro studio costruendo un datastore da 1,4 trilioni di token chiamato MassiveDS, che è il datastore open-source più grande e diversificato per LM basati su retrieval fino ad oggi, e progettando una pipeline efficiente per studiare la scalabilità del datastore in modo computazionalmente accessibile. Infine, analizziamo l'effetto del miglioramento del retriever, del filtraggio della qualità del datastore e di altre scelte progettuali sulle tendenze di scala osservate. Nel complesso, i nostri risultati dimostrano che le dimensioni del datastore dovrebbero essere considerate come parte integrante dei compromessi tra efficienza e prestazioni dei LM. Per facilitare la ricerca futura, rendiamo open-source il nostro datastore e il codice all'indirizzo https://github.com/RulinShao/retrieval-scaling.

Forma del Movimento: Ricostruzione 4D da un Singolo Video
Shape of Motion: 4D Reconstruction from a Single Video

Jul 18

ByQianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa

La ricostruzione dinamica monoculare è un problema di visione complesso e di lunga data a causa della natura altamente mal posta del compito. Gli approcci esistenti sono limitati in quanto dipendono da modelli, sono efficaci solo in scene quasi statiche o non riescono a modellare esplicitamente il movimento 3D. In questo lavoro, introduciamo un metodo in grado di ricostruire scene dinamiche generiche, caratterizzate da un movimento 3D esplicito e di lunga durata, a partire da video monoculari acquisiti casualmente. Affrontiamo la natura sottodeterminata del problema con due intuizioni chiave: in primo luogo, sfruttiamo la struttura a bassa dimensionalità del movimento 3D rappresentando il movimento della scena con un insieme compatto di basi di movimento SE3. Il movimento di ciascun punto è espresso come una combinazione lineare di queste basi, facilitando una decomposizione soft della scena in più gruppi in movimento rigido. In secondo luogo, utilizziamo un insieme completo di prior guidati dai dati, inclusi mappe di profondità monoculari e tracce 2D a lungo raggio, e sviluppiamo un metodo per consolidare efficacemente questi segnali di supervisione rumorosi, ottenendo una rappresentazione globalmente coerente della scena dinamica. Gli esperimenti dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia sia per la stima del movimento 3D/2D a lungo raggio che per la sintesi di nuove viste su scene dinamiche. Pagina del progetto: https://shape-of-motion.github.io/

Scalabilità dei Modelli di Codice Granite a Contesti di 128K
Scaling Granite Code Models to 128K Context

Jul 18

ByMatt Stallone, Vaibhav Saxena, Leonid Karlinsky, Bridget McGinn, Tim Bula, Mayank Mishra, Adriana Meza Soria, Gaoyuan Zhang, Aditya Prasad, Yikang Shen, Saptha Surendran, Shanmukha Guttula, Hima Patel, Parameswaran Selvam, Xuan-Hong Dang, Yan Koyfman, Atin Sood, Rogerio Feris, Nirmit Desai, David D. Cox, Ruchir Puri, Rameswar Panda

Questo articolo introduce i modelli di codice Granite a contesto lungo, che supportano finestre di contesto efficaci fino a 128K token. La nostra soluzione per scalare la lunghezza del contesto dei modelli di codice Granite 3B/8B da 2K/4K a 128K consiste in un pre-addestramento continuo leggero, aumentando gradualmente la frequenza base del RoPE con il packing di file a livello di repository e dati a contesto lungo con upsampling della lunghezza. Inoltre, rilasciamo anche modelli ottimizzati per istruzioni con supporto per contesto lungo, derivati da un ulteriore fine-tuning dei modelli base a contesto lungo su un mix di coppie istruzione-risposta a contesto breve e lungo con licenza permissiva. Rispetto ai modelli originali di codice Granite a contesto breve, i nostri modelli a contesto lungo raggiungono miglioramenti significativi nei compiti a contesto lungo senza alcun degrado evidente delle prestazioni nei benchmark standard di completamento del codice (ad esempio, HumanEval). Rilasciamo tutti i nostri modelli di codice Granite a contesto lungo sotto licenza Apache 2.0 per uso sia di ricerca che commerciale.

Paesaggi Urbani: Generazione Coerente su Larga Scala di Vedute Stradali Utilizzando la Diffusione Autoregressiva di Video
Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Jul 18

ByBoyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein

Presentiamo un metodo per generare sequenze di vedute urbane (Streetscapes) attraverso una scena sintetizzata in tempo reale su scala cittadina. La nostra generazione è condizionata da input linguistici (ad esempio, nome della città, condizioni meteorologiche), nonché da una mappa/layout sottostante che ospita la traiettoria desiderata. Rispetto ai modelli recenti per la generazione di video o la sintesi di viste 3D, il nostro metodo può scalare a traiettorie della fotocamera molto più lunghe, che coprono diversi isolati cittadini, mantenendo qualità visiva e coerenza. Per raggiungere questo obiettivo, ci basiamo su lavori recenti sulla diffusione video, utilizzati all'interno di un framework autoregressivo che può facilmente scalare a sequenze lunghe. In particolare, introduciamo un nuovo metodo di interpolazione temporale che impedisce al nostro approccio autoregressivo di discostarsi dalla distribuzione di immagini urbane realistiche. Addestriamo il nostro sistema Streetscapes su una fonte convincente di dati: immagini geolocalizzate da Google Street View, insieme a dati contestuali della mappa, che consentono agli utenti di generare viste cittadine condizionate su qualsiasi layout urbano desiderato, con pose della fotocamera controllabili. Per ulteriori risultati, consultate la pagina del nostro progetto all'indirizzo https://boyangdeng.com/streetscapes.

Comprensione delle Politiche di Riferimento nell'Ottimizzazione Diretta delle Preferenze
Understanding Reference Policies in Direct Preference Optimization

Jul 18

ByYixin Liu, Pengfei Liu, Arman Cohan

L'ottimizzazione diretta delle preferenze (Direct Preference Optimization, DPO) è diventata un metodo di addestramento ampiamente utilizzato per il fine-tuning su istruzioni di grandi modelli linguistici (Large Language Models, LLMs). In questo lavoro, esploriamo un aspetto poco studiato della DPO: la sua dipendenza dal modello o politica di riferimento. Tali politiche di riferimento, tipicamente istanziate come il modello da sottoporre a ulteriore fine-tuning, sono importanti poiché possono imporre un limite superiore all'efficacia della DPO. Pertanto, affrontiamo tre domande di ricerca correlate in questo lavoro. Innanzitutto, esploriamo l'intensità ottimale del vincolo di divergenza KL nella DPO, che penalizza le deviazioni dalla politica di riferimento, e scopriamo che la DPO è sensibile a questa intensità. Successivamente, esaminiamo la necessità delle politiche di riferimento per il fine-tuning su istruzioni, fornendo confronti sia teorici che empirici tra la DPO e obiettivi di apprendimento correlati, dimostrando la superiorità della DPO. Inoltre, indaghiamo se la DPO trae vantaggio da politiche di riferimento più forti, scoprendo che una politica di riferimento più forte può portare a prestazioni migliorate, ma solo quando è simile al modello in fase di fine-tuning. I nostri risultati evidenziano il ruolo confondente delle politiche di riferimento nella DPO e offrono spunti per le migliori pratiche, identificando al contempo domande di ricerca aperte per studi futuri.

Valutazione dell'Affidabilità dei Modelli Linguistici Multimodali di Grande Scala: Uno Studio Completo
Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

Jun 11

ByYichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

Nonostante le capacità superiori dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) in una vasta gamma di compiti, essi continuano a presentare significative sfide in termini di affidabilità. Tuttavia, la letteratura attuale sulla valutazione della fiducia negli MLLMs rimane limitata, mancando di una valutazione olistica che offra approfondimenti completi per futuri miglioramenti. In questo lavoro, introduciamo MultiTrust, il primo benchmark completo e unificato sulla fiducia degli MLLMs, che copre cinque aspetti principali: veridicità, sicurezza, robustezza, equità e privacy. Il nostro benchmark utilizza una strategia di valutazione rigorosa che affronta sia i rischi multimodali che gli impatti cross-modali, comprendendo 32 compiti diversi con dataset curati autonomamente. Esperimenti estesi condotti su 21 MLLMs moderni rivelano alcuni problemi e rischi di affidabilità precedentemente inesplorati, evidenziando le complessità introdotte dalla multimodalità e sottolineando la necessità di metodologie avanzate per migliorare la loro affidabilità. Ad esempio, i modelli proprietari tipici continuano a lottare con la percezione di immagini visivamente confuse e sono vulnerabili a jailbreaking multimodali e attacchi avversari; gli MLLMs sono più inclini a rivelare informazioni private nel testo e a mostrare pregiudizi ideologici e culturali anche quando accoppiati con immagini irrilevanti durante l'inferenza, indicando che la multimodalità amplifica i rischi interni derivanti dai modelli linguistici di base. Inoltre, rilasciamo un toolbox scalabile per la ricerca standardizzata sulla fiducia, con l'obiettivo di facilitare futuri progressi in questo importante campo. Codice e risorse sono disponibili pubblicamente al seguente indirizzo: https://multi-trust.github.io/.

CLAY: Un Modello Generativo Controllabile su Larga Scala per la Creazione di Asset 3D di Alta Qualità
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

May 30

ByLongwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu

Nel campo della creatività digitale, la nostra capacità di creare mondi 3D complessi partendo dall'immaginazione è spesso ostacolata dai limiti degli strumenti digitali esistenti, che richiedono competenze approfondite e sforzi considerevoli. Per ridurre questo divario, presentiamo CLAY, un generatore di geometrie e materiali 3D progettato per trasformare senza sforzo l'immaginazione umana in strutture digitali 3D intricate. CLAY supporta input classici come testo o immagini, nonché controlli 3D-aware derivati da diverse primitive (immagini multi-vista, voxel, bounding box, nuvole di punti, rappresentazioni implicite, ecc.). Al suo cuore si trova un modello generativo su larga scala composto da un Variational Autoencoder (VAE) multi-risoluzione e un minimalistico latent Diffusion Transformer (DiT), per estrarre prior 3D ricchi direttamente da una vasta gamma di geometrie 3D. Nello specifico, adotta campi neurali per rappresentare superfici continue e complete e utilizza un modulo generativo di geometria con blocchi di puro transformer nello spazio latente. Presentiamo uno schema di addestramento progressivo per allenare CLAY su un dataset ultra ampio di modelli 3D ottenuto attraverso una pipeline di elaborazione accuratamente progettata, risultando in un generatore di geometrie 3D nativo con 1,5 miliardi di parametri. Per la generazione dell'aspetto, CLAY si propone di produrre texture basate su rendering fisicamente realistico (PBR) impiegando un modello di diffusione di materiali multi-vista in grado di generare texture a risoluzione 2K con modalità diffuse, di ruvidità e metalliche. Dimostriamo l'uso di CLAY per una gamma di creazioni controllabili di asset 3D, da disegni concettuali abbozzati ad asset pronti per la produzione con dettagli intricati. Anche gli utenti alle prime armi possono facilmente utilizzare CLAY per dare vita alle loro vivide immaginazioni 3D, liberando una creatività illimitata.

BRIGHT: Un Benchmark Realistico e Impegnativo per il Recupero Basato su Ragionamento Intensivo
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16

ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu

I benchmark di retrieval esistenti consistono principalmente in query di ricerca di informazioni (ad esempio, domande aggregate da motori di ricerca) dove il retrieval basato su parole chiave o semantica è solitamente sufficiente. Tuttavia, molte query complesse del mondo reale richiedono un ragionamento approfondito per identificare documenti rilevanti che vanno oltre il semplice matching superficiale. Ad esempio, trovare la documentazione per una domanda di codifica richiede la comprensione della logica e della sintassi delle funzioni coinvolte. Per valutare meglio il retrieval su query così impegnative, introduciamo BRIGHT, il primo benchmark di retrieval testuale che richiede un ragionamento intensivo per recuperare documenti rilevanti. BRIGHT è costruito a partire da 1.398 query del mondo reale raccolte da domini diversi (come economia, psicologia, robotica, ingegneria del software, scienze della terra, ecc.), provenienti da dati umani naturalmente occorrenti o accuratamente curati. Una valutazione estensiva rivela che anche i modelli di retrieval all'avanguardia performano male su BRIGHT. Il modello leader nella classifica MTEB [38], che ottiene un punteggio di 59.0 nDCG@10, produce un punteggio di nDCG@10 di 18.0 su BRIGHT. Dimostriamo inoltre che arricchire le query con il ragionamento a catena di pensiero (Chain-of-Thought) generato da modelli linguistici di grandi dimensioni (LLM) migliora le prestazioni fino a 12.2 punti. Inoltre, BRIGHT è robusto contro la perdita di dati durante il pretraining dei modelli valutati, come validiamo mostrando prestazioni simili anche quando i documenti del benchmark sono inclusi nei dati di addestramento. Crediamo che BRIGHT apra la strada a future ricerche sui sistemi di retrieval in contesti più realistici e impegnativi. Il nostro codice e i dati sono disponibili su https://brightbenchmark.github.io.

Overflow dell'Attenzione: Sfocatura dell'Input nei Modelli Linguistici durante Contesti Lunghi Raccomandazione di Elementi Mancanti
Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

Jul 18

ByDamien Sileo

I modelli linguistici di grandi dimensioni (LLM) possono suggerire elementi mancanti da elementi elencati in un prompt, che possono essere utilizzati per il completamento di liste o raccomandazioni basate sulla cronologia degli utenti. Tuttavia, le loro prestazioni si degradano quando vengono presentati troppi elementi, poiché iniziano a suggerire elementi già inclusi nella lista di input. Questo fenomeno si verifica intorno ai 100 elementi per i principali LLM di metà 2024. Valutiamo questo fenomeno sia su problemi sintetici (ad esempio, trovare numeri mancanti in un intervallo di numeri interi mescolati) che su scenari realistici di raccomandazione di film. Ci riferiamo a questo problema come overflow dell'attenzione, poiché prevenire la ripetizione richiede di prestare attenzione a tutti gli elementi simultaneamente. Sebbene cicli iterativi possano mitigare questo problema, i loro costi aumentano con il tasso di ripetizione, influenzando la capacità dei modelli linguistici di derivare novità da input lunghi.

CodeV: Potenziamento dei LLM per la Generazione di Verilog attraverso la Summarizzazione Multi-Livello
CodeV: Empowering LLMs for Verilog Generation through Multi-Level Summarization

Jul 15

ByYang Zhao, Di Huang, Chongxiao Li, Pengwei Jin, Ziyuan Nan, Tianyun Ma, Lei Qi, Yansong Pan, Zhenxing Zhang, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen

La crescente complessità e gli elevati costi associati alla progettazione dei processori moderni hanno portato a un aumento della domanda di automazione nella progettazione dei processori. I grandi modelli linguistici (LLM) ottimizzati per le istruzioni hanno dimostrato prestazioni notevoli nella generazione automatica di codice per linguaggi di programmazione generici come Python. Tuttavia, questi metodi falliscono con i linguaggi di descrizione hardware (HDL) come Verilog a causa della scarsità di dati di alta qualità per l'ottimizzazione delle istruzioni, poiché anche LLM avanzati come GPT-3.5 mostrano prestazioni limitate nella generazione di Verilog. Riguardo a questo problema, osserviamo che (1) il codice Verilog raccolto dal mondo reale ha una qualità superiore rispetto a quello generato dagli LLM. (2) LLM come GPT-3.5 eccellono nel riassumere il codice Verilog piuttosto che nel generarlo. Sulla base di queste osservazioni, questo articolo introduce CodeV, una serie di LLM open-source ottimizzati per le istruzioni nella generazione di Verilog. Invece di generare prima le descrizioni e poi ottenere il codice corrispondente da LLM avanzati, forniamo all'LLM il codice Verilog e lasciamo che l'LLM generi la descrizione in linguaggio naturale corrispondente attraverso un riassunto multilivello. I risultati sperimentali mostrano che CodeV supera rispettivamente del 14,4% (BetterV in VerilogEval) e dell'11,3% (RTLCoder in RTLLM) il precedente SOTA open-source, e supera anche del 22,1% il precedente SOTA commerciale GPT-4 in VerilogEval.

Apprendimento Automatico Potenziato dal Recupero: Sintesi e Opportunità
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

Jul 17

ByTo Eun Kim, Alireza Salemi, Andrew Drozdov, Fernando Diaz, Hamed Zamani

Nel campo della modellazione del linguaggio, i modelli potenziati con componenti di recupero sono emersi come una soluzione promettente per affrontare diverse sfide nel campo dell'elaborazione del linguaggio naturale (NLP), tra cui il grounding della conoscenza, l'interpretabilità e la scalabilità. Nonostante l'attenzione primaria sia rivolta al NLP, ipotizziamo che il paradigma del potenziamento tramite recupero possa essere esteso a uno spettro più ampio di apprendimento automatico (ML), come la visione artificiale, la previsione di serie temporali e la biologia computazionale. Pertanto, questo lavoro introduce un framework formale di questo paradigma, il Machine Learning Potenziato dal Recupero (REML), sintetizzando la letteratura in vari domini del ML con notazioni coerenti, attualmente assenti nella letteratura esistente. Inoltre, abbiamo riscontrato che, sebbene numerosi studi utilizzino componenti di recupero per potenziare i loro modelli, manca un'integrazione con la ricerca fondamentale nel campo del Recupero delle Informazioni (IR). Colmiamo questo divario tra la ricerca seminale in IR e gli studi contemporanei su REML analizzando ciascun componente che costituisce il framework REML. L'obiettivo finale di questo lavoro è fornire ai ricercatori di varie discipline un framework completo e formalmente strutturato per i modelli potenziati dal recupero, favorendo così future ricerche interdisciplinari.

Test di Accordo sui Benchmark Fatto Bene: Una Guida per la Valutazione dei Benchmark per Modelli Linguistici di Grande Dimensione
Benchmark Agreement Testing Done Right: A Guide for LLM Benchmark Evaluation

Jul 18

ByYotam Perlitz, Ariel Gera, Ofir Arviv, Asaf Yehudai, Elron Bandel, Eyal Shnarch, Michal Shmueli-Scheuer, Leshem Choshen

I recenti progressi nei Modelli Linguistici (LMs) hanno catalizzato la creazione di numerosi benchmark, progettati per valutare le capacità generali di questi modelli. Un compito cruciale, tuttavia, è valutare la validità dei benchmark stessi. Questo viene comunemente fatto attraverso il Benchmark Agreement Testing (BAT), dove i nuovi benchmark vengono validati rispetto a quelli consolidati utilizzando una metrica di accordo (ad esempio, la correlazione di rango). Nonostante il ruolo cruciale del BAT per i creatori e i consumatori di benchmark, non esistono procedure standardizzate per tale test di accordo. Questa carenza può portare a conclusioni non valide, alimentando la sfiducia nei benchmark e compromettendo la capacità di scegliere correttamente il benchmark appropriato da utilizzare. Analizzando oltre 40 benchmark di rilievo, dimostriamo come alcune scelte metodologiche trascurate possano influenzare significativamente i risultati del BAT, potenzialmente minando la validità delle conclusioni. Per affrontare queste incongruenze, proponiamo una serie di best practice per il BAT e dimostriamo come l'utilizzo di queste metodologie migliori notevolmente la robustezza e la validità del BAT. Per favorire l'adozione e facilitare la ricerca futura, introduciamo BenchBench, un pacchetto Python per il BAT, e rilasciamo il BenchBench-leaderboard, un meta-benchmark progettato per valutare i benchmark utilizzando i loro pari. Le nostre scoperte sottolineano la necessità di un BAT standardizzato, garantendo la robustezza e la validità delle valutazioni dei benchmark nel panorama in evoluzione della ricerca sui modelli linguistici. Pacchetto BenchBench: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench

Uno Studio Comparativo sulla Codifica Automatica di Lettere Mediche con Spiegabilità
A Comparative Study on Automatic Coding of Medical Letters with Explainability

Jul 18

ByJamie Glen, Lifeng Han, Paul Rayson, Goran Nenadic

Questo studio mira a esplorare l'implementazione di tecniche di Elaborazione del Linguaggio Naturale (NLP) e di apprendimento automatico (ML) per automatizzare la codifica di lettere mediche con spiegabilità visualizzata e configurazioni leggere su computer locali. Attualmente, negli ambienti clinici, la codifica è un processo manuale che prevede l'assegnazione di codici a ciascuna condizione, procedura e farmaco nella documentazione di un paziente (ad esempio, 56265001 malattia cardiaca utilizzando il codice SNOMED CT). Esistono ricerche preliminari sulla codifica automatica in questo campo che utilizzano modelli ML all'avanguardia; tuttavia, a causa della complessità e delle dimensioni dei modelli, il dispiegamento nel mondo reale non è stato raggiunto. Per facilitare ulteriormente la possibilità di pratiche di codifica automatica, esploriamo alcune soluzioni in un ambiente informatico locale; inoltre, esploriamo la funzione di spiegabilità per la trasparenza dei modelli di intelligenza artificiale. Abbiamo utilizzato il database pubblico MIMIC-III e i modelli di rete HAN/HLAN per scopi di previsione dei codici ICD. Abbiamo anche sperimentato la mappatura tra le basi di conoscenza ICD e SNOMED CT. Nei nostri esperimenti, i modelli hanno fornito informazioni utili per il 97,98% dei codici. Il risultato di questa indagine può gettare luce sull'implementazione della codifica clinica automatica nella pratica, ad esempio in contesti ospedalieri, sui computer locali utilizzati dai clinici, pagina del progetto https://github.com/Glenj01/Medical-Coding.

PM-LLM-Benchmark: Valutazione di Modelli Linguistici di Grandi Dimensioni su Attività di Process Mining
PM-LLM-Benchmark: Evaluating Large Language Models on Process Mining Tasks

Jul 18

ByAlessandro Berti, Humam Kourani, Wil M. P. van der Aalst

I Large Language Model (LLM) hanno il potenziale di semi-automatizzare alcune analisi di process mining (PM). Sebbene i modelli commerciali siano già adeguati per molte attività analitiche, il livello competitivo degli LLM open-source nei compiti di PM è sconosciuto. In questo articolo, proponiamo PM-LLM-Benchmark, il primo benchmark completo per il PM che si concentra sulla conoscenza del dominio (specifica del process mining e specifica del processo) e su diverse strategie di implementazione. Ci concentriamo anche sulle sfide nella creazione di un tale benchmark, legate alla disponibilità pubblica dei dati e ai bias di valutazione degli LLM. In generale, osserviamo che la maggior parte degli LLM considerati può eseguire alcuni compiti di process mining a un livello soddisfacente, ma i modelli di piccole dimensioni che potrebbero funzionare su dispositivi edge sono ancora inadeguati. Concludiamo inoltre che, sebbene il benchmark proposto sia utile per identificare gli LLM adeguati per i compiti di process mining, sono necessarie ulteriori ricerche per superare i bias di valutazione e ottenere una classifica più approfondita degli LLM competitivi.

BRIGHT: Un Benchmark Realistico e Impegnativo per il Recupero Basato su Ragionamento Intensivo
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

Jul 16

ByHongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu