Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Rapporto Tecnico di Qwen2.5-VL
Qwen2.5-VL Technical Report

Feb 19, 2025

Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin

1997

Presentiamo Qwen2.5-VL, il modello di punta più recente della serie vision-language di Qwen, che dimostra significativi progressi sia nelle capacità fondamentali che nelle funzionalità innovative. Qwen2.5-VL compie un importante balzo in avanti nella comprensione e interazione con il mondo attraverso un migliorato riconoscimento visivo, una precisa localizzazione degli oggetti, un robusto parsing di documenti e una comprensione di video di lunga durata. Una caratteristica distintiva di Qwen2.5-VL è la sua capacità di localizzare oggetti utilizzando bounding box o punti in modo accurato. Offre un'estrazione robusta di dati strutturati da fatture, moduli e tabelle, nonché un'analisi dettagliata di grafici, diagrammi e layout. Per gestire input complessi, Qwen2.5-VL introduce l'elaborazione a risoluzione dinamica e la codifica temporale assoluta, consentendogli di elaborare immagini di dimensioni variabili e video di durata estesa (fino a ore) con localizzazione di eventi a livello di secondo. Ciò permette al modello di percepire nativamente le scale spaziali e le dinamiche temporali senza fare affidamento su tecniche di normalizzazione tradizionali. Addestrando un Vision Transformer (ViT) a risoluzione dinamica nativa da zero e incorporando la Window Attention, riduciamo il sovraccarico computazionale mantenendo la risoluzione nativa. Di conseguenza, Qwen2.5-VL eccelle non solo nella comprensione di immagini statiche e documenti, ma anche come agente visivo interattivo capace di ragionamento, utilizzo di strumenti ed esecuzione di compiti in scenari reali come l'operazione di computer e dispositivi mobili. Qwen2.5-VL è disponibile in tre dimensioni, affrontando casi d'uso diversi dall'AI edge all'high-performance computing. Il modello di punta Qwen2.5-VL-72B eguaglia i modelli all'avanguardia come GPT-4o e Claude 3.5 Sonnet, eccellendo in particolare nella comprensione di documenti e diagrammi. Inoltre, Qwen2.5-VL mantiene una robusta performance linguistica, preservando le competenze linguistiche fondamentali del Qwen2.5 LLM.

Sull'affidabilità dei modelli generativi di base: Linee guida, valutazione e prospettive
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Feb 20, 2025

Yue Huang, Chujie Gao, Siyuan Wu, Haoran Wang, Xiangqi Wang, Yujun Zhou, Yanbo Wang, Jiayi Ye, Jiawen Shi, Qihui Zhang, Yuan Li, Han Bao, Zhaoyi Liu, Tianrui Guan, Dongping Chen, Ruoxi Chen, Kehan Guo, Andy Zou, Bryan Hooi Kuen-Yew, Caiming Xiong, Elias Stengel-Eskin, Hongyang Zhang, Hongzhi Yin, Huan Zhang, Huaxiu Yao, Jaehong Yoon, Jieyu Zhang, Kai Shu, Kaijie Zhu, Ranjay Krishna, Swabha Swayamdipta, Taiwei Shi, Weijia Shi, Xiang Li, Yiwei Li, Yuexing Hao, Yuexing Hao, Zhihao Jia, Zhize Li, Xiuying Chen, Zhengzhong Tu, Xiyang Hu, Tianyi Zhou, Jieyu Zhao, Lichao Sun, Furong Huang, Or Cohen Sasson, Prasanna Sattigeri, Anka Reuel, Max Lamparth, Yue Zhao, Nouha Dziri, Yu Su, Huan Sun, Heng Ji, Chaowei Xiao, Mohit Bansal, Nitesh V. Chawla, Jian Pei, Jianfeng Gao, Michael Backes, Philip S. Yu, Neil Zhenqiang Gong, Pin-Yu Chen, Bo Li, Xiangliang Zhang

462

I Modelli Fondamentali Generativi (GenFMs) sono emersi come strumenti trasformativi. Tuttavia, la loro ampia adozione solleva preoccupazioni critiche riguardo all'affidabilità su più dimensioni. Questo articolo presenta un quadro completo per affrontare queste sfide attraverso tre contributi chiave. In primo luogo, esaminiamo sistematicamente le leggi e le politiche globali di governance dell'IA da parte di governi e organismi di regolamentazione, nonché le pratiche e gli standard del settore. Sulla base di questa analisi, proponiamo un insieme di principi guida per i GenFMs, sviluppati attraverso un'ampia collaborazione multidisciplinare che integra prospettive tecniche, etiche, legali e sociali. In secondo luogo, introduciamo TrustGen, la prima piattaforma di benchmarking dinamica progettata per valutare l'affidabilità su più dimensioni e tipi di modelli, inclusi modelli testo-immagine, linguaggio su larga scala e visione-linguaggio. TrustGen sfrutta componenti modulari—curation dei metadati, generazione di casi di test e variazione contestuale—per consentire valutazioni adattive e iterative, superando i limiti dei metodi di valutazione statici. Utilizzando TrustGen, riveliamo progressi significativi nell'affidabilità mentre identifichiamo sfide persistenti. Infine, forniamo una discussione approfondita delle sfide e delle direzioni future per i GenFMs affidabili, che rivela la natura complessa ed evolutiva dell'affidabilità, evidenziando i compromessi sfumati tra utilità e affidabilità, e considerazioni per varie applicazioni a valle, identificando sfide persistenti e fornendo una roadmap strategica per la ricerca futura. Questo lavoro stabilisce un quadro olistico per promuovere l'affidabilità nella GenAI, aprendo la strada a un'integrazione più sicura e responsabile dei GenFMs in applicazioni critiche. Per facilitare il progresso nella comunità, rilasciamo il toolkit per la valutazione dinamica.

SongGen: Un Trasformatore Auto-regressivo a Singolo Stadio per la Generazione di Canzoni da Testo
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Feb 18, 2025

Zihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

422

La generazione di canzoni da testo, il compito di creare voci e accompagnamenti a partire da input testuali, presenta sfide significative a causa della complessità del dominio e della scarsità di dati. Gli approcci esistenti spesso impiegano procedure di generazione multi-stadio, risultando in pipeline di addestramento e inferenza macchinose. In questo articolo, proponiamo SongGen, un trasformatore auto-regressivo a singolo stadio completamente open-source, progettato per la generazione controllata di canzoni. Il modello proposto facilita un controllo fine su diversi attributi musicali, inclusi i testi e le descrizioni testuali di strumentazione, genere, umore e timbro, offrendo anche un clip di riferimento opzionale di tre secondi per il clonaggio della voce. All'interno di un framework auto-regressivo unificato, SongGen supporta due modalità di output: la modalità mista, che genera direttamente un mix di voci e accompagnamento, e la modalità dual-track, che li sintetizza separatamente per una maggiore flessibilità nelle applicazioni a valle. Esploriamo diverse strategie di pattern di token per ciascuna modalità, ottenendo miglioramenti significativi e intuizioni preziose. Inoltre, progettiamo una pipeline di pre-elaborazione dei dati automatizzata con un efficace controllo di qualità. Per favorire il coinvolgimento della comunità e la ricerca futura, rilasceremo i pesi del nostro modello, il codice di addestramento, i dati annotati e la pipeline di pre-elaborazione. I campioni generati sono mostrati sulla nostra pagina del progetto all'indirizzo https://liuzh-19.github.io/SongGen/, e il codice sarà disponibile all'indirizzo https://github.com/LiuZH-19/SongGen.

RAD: Addestramento di una Politica di Guida End-to-End tramite Apprendimento per Rinforzo su Larga Scala basato su 3DGS
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Feb 18, 2025

Hao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang

392

Gli algoritmi esistenti di guida autonoma end-to-end (AD) seguono tipicamente il paradigma dell'Apprendimento per Imitazione (IL), che affronta sfide come la confusione causale e il divario in open-loop. In questo lavoro, stabiliamo un paradigma di addestramento basato su Apprendimento per Rinforzo (RL) in closed-loop, fondato su tecniche 3DGS. Sfruttando le tecniche 3DGS, costruiamo una replica digitale fotorealistica del mondo fisico reale, consentendo alla politica AD di esplorare estensivamente lo spazio degli stati e di imparare a gestire scenari fuori distribuzione attraverso un ampio processo di prova ed errore. Per migliorare la sicurezza, progettiamo ricompense specializzate che guidano la politica a rispondere efficacemente a eventi critici per la sicurezza e a comprendere le relazioni causali del mondo reale. Per un migliore allineamento con il comportamento di guida umana, l'IL viene incorporato nell'addestramento RL come termine di regolarizzazione. Introduciamo un benchmark di valutazione in closed-loop composto da ambienti 3DGS diversificati e mai visti prima. Rispetto ai metodi basati su IL, RAD raggiunge prestazioni più solide nella maggior parte delle metriche in closed-loop, in particolare con un tasso di collisione 3 volte inferiore. Risultati abbondanti in closed-loop sono presentati su https://hgao-cv.github.io/RAD.

I modelli di piccole dimensioni faticano ad apprendere da ragionatori potenti.
Small Models Struggle to Learn from Strong Reasoners

Feb 17, 2025

Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran

396

I grandi modelli linguistici (LLM) eccellono in compiti di ragionamento complesso, e il distillare le loro capacità di ragionamento in modelli più piccoli ha mostrato risultati promettenti. Tuttavia, abbiamo scoperto un fenomeno interessante, che abbiamo denominato Small Model Learnability Gap: i modelli piccoli (≤3B parametri) non traggono beneficio in modo consistente da lunghi ragionamenti a catena (CoT) o dalla distillazione da modelli più grandi. Invece, ottengono prestazioni migliori quando vengono addestrati su catene di ragionamento più brevi e semplici, che si allineano meglio alla loro capacità di apprendimento intrinseca. Per affrontare questo problema, proponiamo Mix Distillation, una strategia semplice ma efficace che bilancia la complessità del ragionamento combinando esempi di CoT lunghi e corti o ragionamenti provenienti sia da modelli più grandi che da modelli più piccoli. I nostri esperimenti dimostrano che Mix Distillation migliora significativamente le prestazioni di ragionamento dei modelli piccoli rispetto all'addestramento su un solo tipo di dati. Questi risultati evidenziano i limiti della distillazione diretta da modelli forti e sottolineano l'importanza di adattare la complessità del ragionamento per un trasferimento efficace delle capacità di ragionamento.

MMTEB: Benchmark per l'Embedding di Testo Multilingue su Larga Scala
MMTEB: Massive Multilingual Text Embedding Benchmark

Feb 19, 2025

Kenneth Enevoldsen, Isaac Chung, Imene Kerboua, Márton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzemiński, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystrøm, Roman Solomatin, Ömer Çağatan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafał Poświata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Björn Plüster, Jan Philipp Harries, Loïc Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek Šuppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael Günther, Mengzhou Xia, Weijia Shi, Xing Han Lù, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff

383

Gli embedding di testo sono tipicamente valutati su un insieme limitato di task, vincolati da lingua, dominio e diversità dei compiti. Per affrontare queste limitazioni e fornire una valutazione più completa, introduciamo il Massive Multilingual Text Embedding Benchmark (MMTEB) - un'espansione su larga scala e guidata dalla comunità di MTEB, che copre oltre 500 task di valutazione controllati per qualità in più di 250 lingue. MMTEB include un insieme diversificato di task impegnativi e innovativi, come il seguire istruzioni, il recupero di documenti lunghi e il recupero di codice, rappresentando la più vasta collezione multilingue di task di valutazione per modelli di embedding fino ad oggi. Utilizzando questa collezione, sviluppiamo diversi benchmark altamente multilingue, che utilizziamo per valutare un insieme rappresentativo di modelli. Scopriamo che, sebbene i grandi modelli linguistici (LLM) con miliardi di parametri possano raggiungere prestazioni all'avanguardia su determinati sottoinsiemi di lingue e categorie di task, il modello pubblicamente disponibile con le migliori prestazioni è multilingual-e5-large-instruct con soli 560 milioni di parametri. Per facilitare l'accessibilità e ridurre i costi computazionali, introduciamo un nuovo metodo di downsampling basato sulla correlazione inter-task, garantendo una selezione diversificata preservando al contempo i ranking relativi dei modelli. Inoltre, ottimizziamo task come il recupero campionando negativi difficili, creando split più piccoli ma efficaci. Queste ottimizzazioni ci permettono di introdurre benchmark che riducono drasticamente le richieste computazionali. Ad esempio, il nostro nuovo benchmark zero-shot in inglese mantiene un ordine di ranking simile alla versione su larga scala, ma a una frazione del costo computazionale.

MoM: Modellazione di Sequenze Lineari con Miscela di Memorie
MoM: Linear Sequence Modeling with Mixture-of-Memories

Feb 19, 2025

Jusen Du, Weigao Sun, Disen Lan, Jiaxi Hu, Yu Cheng

362

I metodi di modellazione di sequenze lineari, come l'attenzione lineare, la modellazione dello spazio degli stati e le RNN lineari, offrono significativi miglioramenti in termini di efficienza riducendo la complessità dell'addestramento e dell'inferenza. Tuttavia, questi metodi comprimono tipicamente l'intera sequenza di input in un unico stato di memoria di dimensione fissa, il che porta a prestazioni subottimali nei task downstream intensivi di richiamo. Traendo ispirazione dalle neuroscienze, in particolare dalla capacità del cervello di mantenere una memoria a lungo termine robusta mitigando l'"interferenza di memoria", introduciamo una nuova architettura chiamata Mixture-of-Memories (MoM). MoM utilizza più stati di memoria indipendenti, con una rete di routing che indirizza i token di input a specifici stati di memoria. Questo approccio migliora notevolmente la capacità complessiva della memoria minimizzando l'interferenza di memoria. Di conseguenza, MoM si comporta eccezionalmente bene nei task intensivi di richiamo, superando le tecniche esistenti di modellazione di sequenze lineari. Nonostante l'incorporazione di più stati di memoria, il calcolo di ciascuno stato di memoria rimane lineare in complessità, consentendo a MoM di mantenere il vantaggio della complessità lineare durante l'addestramento e una complessità costante durante l'inferenza. I nostri risultati sperimentali mostrano che MoM supera significativamente i modelli di sequenze lineari attuali nei task linguistici downstream, in particolare quelli intensivi di richiamo, e raggiunge persino prestazioni comparabili ai modelli Transformer. Il codice è rilasciato su https://github.com/OpenSparseLLMs/MoM e fa anche parte di https://github.com/OpenSparseLLMs/Linear-MoE.

Craw4LLM: Crawling Efficiente per il Pretraining di Modelli Linguistici di Grande Dimensione
Craw4LLM: Efficient Web Crawling for LLM Pretraining

Feb 19, 2025

Shi Yu, Zhiyuan Liu, Chenyan Xiong

292

Il web crawling è una delle principali fonti di dati per il pre-training dei modelli linguistici di grandi dimensioni (LLM), ma la maggior parte delle pagine web raccolte viene scartata durante il pre-training a causa della bassa qualità dei dati. Questo articolo presenta Crawl4LLM, un metodo efficiente di web crawling che esplora il grafo del web basandosi sulle preferenze del pre-training degli LLM. Nello specifico, sfrutta l'influenza di una pagina web nel pre-training degli LLM come punteggio di priorità dello scheduler del web crawler, sostituendo la priorità standard basata sulla connettività del grafo. I nostri esperimenti su un grafo web contenente 900 milioni di pagine provenienti dall'indice di un motore di ricerca commerciale dimostrano l'efficienza di Crawl4LLM nell'ottenere dati di pre-training di alta qualità. Con solo il 21% degli URL raccolti, gli LLM pre-addestrati sui dati di Crawl4LLM raggiungono le stesse prestazioni downstream dei precedenti crawl, riducendo significativamente lo spreco di crawling e alleviando il carico sui siti web. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/cxcscmu/Crawl4LLM.

LongPO: Auto-evoluzione a Lungo Contesto dei Modelli Linguistici di Grande Scala attraverso l'Ottimizzazione delle Preferenze da Breve a Lungo
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Feb 19, 2025

Guanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing

282

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie attraverso il pre-addestramento e l'allineamento. Tuttavia, LLM superiori in contesti brevi possono ottenere prestazioni inferiori in scenari con contesti lunghi a causa di un allineamento insufficiente per contesti estesi. Questo processo di allineamento rimane impegnativo a causa dell'impraticabilità dell'annotazione umana per contesti prolungati e della difficoltà nel bilanciare le prestazioni in contesti brevi e lunghi. Per affrontare queste sfide, introduciamo LongPO, che consente agli LLM con contesti brevi di auto-evolversi per eccellere in compiti con contesti lunghi trasferendo internamente le capacità acquisite in contesti brevi. LongPO sfrutta gli LLM per apprendere da dati di preferenza auto-generati da contesti brevi a lunghi, comprendenti risposte accoppiate generate per istruzioni identiche con input di contesti lunghi e le loro controparti compresse in contesti brevi. Questa preferenza rivela capacità e potenziali degli LLM coltivati durante l'allineamento in contesti brevi che potrebbero essere ridotti in scenari con contesti lunghi non adeguatamente allineati. Inoltre, LongPO incorpora un vincolo KL da breve a lungo per mitigare il declino delle prestazioni in contesti brevi durante l'allineamento in contesti lunghi. Quando applicato a Mistral-7B-Instruct-v0.2 da lunghezze di contesto di 128K a 512K, LongPO mantiene completamente le prestazioni in contesti brevi e supera ampiamente SFT e DPO ingenui sia in compiti con contesti lunghi che brevi. In particolare, i modelli addestrati con \ourMethod possono ottenere risultati su benchmark con contesti lunghi comparabili, o addirittura superiori, a quelli di LLM superiori (ad esempio, GPT-4-128K) che coinvolgono annotazioni estese per contesti lunghi e scale di parametri più ampie.

Autellix: Un motore di servizio efficiente per agenti LLM come programmi generali
Autellix: An Efficient Serving Engine for LLM Agents as General Programs

Feb 19, 2025

Michael Luo, Xiaoxiang Shi, Colin Cai, Tianjun Zhang, Justin Wong, Yichuan Wang, Chi Wang, Yanping Huang, Zhifeng Chen, Joseph E. Gonzalez, Ion Stoica

192

Le applicazioni dei modelli linguistici di grandi dimensioni (LLM) si stanno evolvendo oltre i semplici chatbot, trasformandosi in programmi agentici dinamici e di uso generale, che scalano le chiamate LLM e i token di output per aiutare gli agenti AI a ragionare, esplorare e risolvere compiti complessi. Tuttavia, i sistemi di servizio LLM esistenti ignorano le dipendenze tra programmi e chiamate, perdendo significative opportunità di ottimizzazione. La nostra analisi rivela che i programmi inviati ai motori di servizio LLM subiscono lunghi tempi di attesa cumulativi, principalmente a causa del blocco in testa alla coda sia a livello di singola richiesta LLM che di programma. Per affrontare questo problema, introduciamo Autellix, un sistema di servizio LLM che tratta i programmi come entità di prim'ordine per minimizzare le loro latenze end-to-end. Autellix intercetta le chiamate LLM inviate dai programmi, arricchendo gli scheduler con il contesto a livello di programma. Proponiamo due algoritmi di scheduling—per programmi single-threaded e distribuiti—che prelazionano e danno priorità alle chiamate LLM in base alle chiamate precedentemente completate dai loro programmi. La nostra valutazione dimostra che, attraverso diversi LLM e carichi di lavoro agentici, Autellix migliora il throughput dei programmi di 4-15x a parità di latenza rispetto ai sistemi all'avanguardia, come vLLM.

Ottimizzazione delle Preferenze di Pensiero
Thinking Preference Optimization

Feb 17, 2025

Wang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han

174

Il Fine-Tuning Supervisionato (SFT) è stato un metodo efficace e ampiamente utilizzato per migliorare il ragionamento a catena di pensiero (CoT) esteso in modelli linguistici di dimensioni relativamente piccole, ottimizzandoli con risposte CoT lunghe provenienti da modelli linguistici più grandi. Per migliorare continuamente le capacità di ragionamento, possiamo raccogliere nuovi dati SFT di alta qualità con CoT estesi o addestrare ripetutamente su dataset SFT esistenti. Tuttavia, acquisire nuovi dati SFT con CoT estesi è costoso e limitato, mentre l'addestramento ripetuto spesso porta a un plateau o a un declino delle prestazioni. Per potenziare ulteriormente le prestazioni con i dati SFT, proponiamo l'Optimizzazione delle Preferenze di Pensiero (ThinkPO), un metodo semplice ma efficace post-SFT che migliora il ragionamento CoT esteso senza richiedere nuove risposte CoT lunghe. Invece, ThinkPO utilizza risposte CoT brevi, facilmente disponibili o ottenibili, come risposte rifiutate e risposte CoT lunghe come risposte scelte per la stessa domanda. Successivamente, applica l'ottimizzazione diretta delle preferenze per incoraggiare il modello a favorire output di ragionamento più lunghi. Gli esperimenti dimostrano che ThinkPO migliora ulteriormente le prestazioni di ragionamento dei modelli SFT, ad esempio aumentando l'accuratezza del ragionamento matematico dei modelli SFT dell'8,6% e la lunghezza dell'output del 25,9%. In particolare, ThinkPO è in grado di potenziare continuamente le prestazioni del modello SFT distillato pubblicamente, ad esempio aumentando le prestazioni ufficiali di DeepSeek-R1-Distill-Qwen-7B su MATH500 dall'87,4% al 91,2%.

SearchRAG: I motori di ricerca possono essere utili per il rispondere a domande mediche basate su LLM?
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering?

Feb 18, 2025

Yucheng Shi, Tianze Yang, Canyu Chen, Quanzheng Li, Tianming Liu, Xiang Li, Ninghao Liu

152

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in domini generali, ma spesso incontrano difficoltà con compiti che richiedono conoscenze specializzate. Le tecniche convenzionali di Generazione Aumentata dal Recupero (RAG) recuperano tipicamente informazioni esterne da basi di conoscenza statiche, che possono essere obsolete o incomplete, tralasciando dettagli clinici di livello fine essenziali per risposte accurate a domande mediche. In questo lavoro, proponiamo SearchRAG, un nuovo framework che supera queste limitazioni sfruttando motori di ricerca in tempo reale. Il nostro metodo utilizza la generazione sintetica di query per convertire complesse domande mediche in query adatte ai motori di ricerca e impiega una selezione della conoscenza basata sull'incertezza per filtrare e incorporare le informazioni mediche più rilevanti e informative nell'input dell'LLM. I risultati sperimentali dimostrano che il nostro metodo migliora significativamente l'accuratezza delle risposte nei compiti di risposta a domande mediche, in particolare per domande complesse che richiedono conoscenze dettagliate e aggiornate.

Addestramento Piccolo, Inferenza Grande: Addestramento Efficiente in Memoria con LoRA per Modelli Linguistici di Grandi Dimensioni
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

Feb 19, 2025

Jun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Yang You, Guiming Xie, Xuejian Gong, Kunlong Zhou

112

I Large Language Model (LLM) hanno fatto avanzare significativamente l'elaborazione del linguaggio naturale con capacità eccezionali di generalizzazione dei compiti. La Low-Rank Adaption (LoRA) offre una soluzione di fine-tuning economicamente vantaggiosa, congelando i parametri originali del modello e addestrando solo matrici adattatrici leggere e a basso rango. Tuttavia, l'impronta di memoria di LoRA è largamente dominata dai parametri originali del modello. Per mitigare questo problema, proponiamo LoRAM, uno schema di addestramento LoRAM efficiente in termini di memoria, basato sull'intuizione che molti neuroni nei LLM sovra-parametrizzati hanno una bassa utilità durante l'addestramento ma sono essenziali per l'inferenza. LoRAM introduce un approccio unico: addestra su un modello potato (di dimensioni ridotte) per ottenere matrici a basso rango potate, che vengono poi recuperate e utilizzate con il modello originale (di grandi dimensioni) per l'inferenza. Inoltre, un pre-addestramento continuo a costo minimo, eseguito in anticipo dagli editori del modello, allinea la discrepanza di conoscenza tra i modelli potati e quelli originali. I nostri ampi esperimenti dimostrano l'efficacia di LoRAM attraverso varie strategie di pruning e compiti downstream. Per un modello con 70 miliardi di parametri, LoRAM consente l'addestramento su una GPU con solo 20G di HBM, sostituendo una GPU A100-80G per l'addestramento LoRA e 15 GPU per il fine-tuning completo. In particolare, QLoRAM implementato tramite pruning strutturato combinato con quantizzazione a 4 bit, per LLaMA-3.1-70B (LLaMA-2-70B), riduce il costo di archiviazione dei parametri che domina l'uso della memoria nell'addestramento di matrici a basso rango di 15,81 volte (16,95 volte), ottenendo al contempo guadagni di prestazioni dominanti rispetto sia al LLaMA-3.1-70B (LLaMA-2-70B) originale che al LLaMA-3.1-8B (LLaMA-2-13B) addestrato con LoRA.

Identità Culturale Presunta: Come i Nomi Influenzano le Risposte dei Modelli Linguistici
Presumed Cultural Identity: How Names Shape LLM Responses

Feb 17, 2025

Siddhesh Pawar, Arnav Arora, Lucie-Aimée Kaffee, Isabelle Augenstein

112

I nomi sono profondamente legati all'identità umana. Possono fungere da indicatori di individualità, eredità culturale e storia personale. Tuttavia, utilizzare i nomi come indicatore principale dell'identità può portare a una semplificazione eccessiva di identità complesse. Quando si interagisce con i modelli linguistici di grandi dimensioni (LLM), i nomi degli utenti rappresentano un punto di informazione cruciale per la personalizzazione. I nomi possono entrare nelle conversazioni con i chatbot tramite input diretto dell'utente (richiesto dai chatbot), come parte di contesti di attività come la revisione di curriculum, o come funzionalità di memoria integrate che memorizzano le informazioni dell'utente per la personalizzazione. Studiamo i pregiudizi associati ai nomi misurando le presunzioni culturali nelle risposte generate dagli LLM quando vengono presentate comuni richieste di suggerimenti, che potrebbero implicare la formulazione di ipotesi sull'utente. Le nostre analisi dimostrano forti assunzioni sull'identità culturale associate ai nomi presenti nelle generazioni degli LLM in diverse culture. Il nostro lavoro ha implicazioni per la progettazione di sistemi di personalizzazione più sfumati che evitino di rafforzare stereotipi mantenendo al contempo una personalizzazione significativa.

Perché le navi protette si arenano? I meccanismi di sicurezza dei modelli linguistici allineati tendono a essere ancorati nella regione del template.
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

Feb 19, 2025

Chak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li

102

L'allineamento alla sicurezza dei grandi modelli linguistici (LLM) rimane vulnerabile, poiché il loro comportamento iniziale può essere facilmente compromesso anche da attacchi relativamente semplici. Poiché il riempimento di un template fisso tra l'istruzione di input e l'output iniziale del modello è una pratica comune per gli LLM esistenti, ipotizziamo che questo template sia un fattore chiave dietro le loro vulnerabilità: il processo decisionale relativo alla sicurezza degli LLM si basa eccessivamente sulle informazioni aggregate dalla regione del template, che influenza in larga misura il comportamento di sicurezza di questi modelli. Definiamo questo problema come allineamento alla sicurezza ancorato al template. In questo articolo, conduciamo esperimenti estesi e verifichiamo che l'allineamento alla sicurezza ancorato al template è diffuso tra vari LLM allineati. Le nostre analisi meccanicistiche dimostrano come ciò porti alla suscettibilità dei modelli quando incontrano attacchi di jailbreak durante l'inferenza. Inoltre, mostriamo che il distacco dei meccanismi di sicurezza dalla regione del template è promettente nel mitigare le vulnerabilità agli attacchi di jailbreak. Incoraggiamo la ricerca futura a sviluppare tecniche di allineamento alla sicurezza più robuste che riducano la dipendenza dalla regione del template.

AdaptiveStep: Divisione Automatica dei Passaggi di Ragionamento attraverso la Fiducia del Modello
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Feb 19, 2025

Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin

Gli approcci attuali per l'addestramento dei Modelli di Ricompensa per Processi (PRM) spesso prevedono la suddivisione delle risposte in più passaggi di ragionamento utilizzando tecniche basate su regole, come l'uso di token segnaposto predefiniti o l'impostazione della lunghezza del passaggio di ragionamento su una dimensione fissa. Questi approcci trascurano il fatto che parole specifiche non contrassegnano tipicamente i veri punti decisionali in un testo. Per affrontare questo problema, proponiamo AdaptiveStep, un metodo che divide i passaggi di ragionamento in base alla confidenza del modello nel prevedere la parola successiva. Questo metodo di divisione fornisce maggiori informazioni decisionali ad ogni passaggio, migliorando i compiti a valle, come l'apprendimento del modello di ricompensa. Inoltre, il nostro metodo non richiede annotazioni manuali. Ne dimostriamo l'efficacia attraverso esperimenti con PRM addestrati con AdaptiveStep in compiti di ragionamento matematico e generazione di codice. I risultati sperimentali indicano che il PRM risultante raggiunge prestazioni Best-of-N all'avanguardia, superando la strategia di ricerca greedy con decodifica guidata dal valore a livello di token, riducendo al contempo i costi di costruzione di oltre il 30% rispetto ai PRM open-source esistenti. Inoltre, forniamo un'analisi approfondita e uno studio di caso sulle prestazioni, trasferibilità e capacità di generalizzazione del PRM.

NExT-Mol: La Diffusione 3D Incontra il Modellamento del Linguaggio 1D per la Generazione di Molecole 3D
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

Feb 18, 2025

Zhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua

La generazione di molecole 3D è cruciale per la scoperta di farmaci e la progettazione di materiali. Mentre gli sforzi precedenti si concentrano sui modelli di diffusione 3D per i loro vantaggi nella modellazione di conformeri 3D continui, trascurano i vantaggi dei modelli linguistici (LM) basati su SELFIES 1D, che possono generare molecole 100% valide e sfruttare i dataset di molecole 1D su scala miliardi. Per combinare questi vantaggi nella generazione di molecole 3D, proponiamo un modello di base -- NExT-Mol: Diffusione 3D incontra la modellazione linguistica 1D per la generazione di molecole 3D. NExT-Mol utilizza un modello linguistico di molecole pre-addestrato in modo estensivo per la generazione di molecole 1D, e successivamente prevede i conformeri 3D della molecola generata con un modello di diffusione 3D. Miglioriamo le prestazioni di NExT-Mol aumentando le dimensioni del modello LM, perfezionando l'architettura neurale di diffusione e applicando il trasferimento di apprendimento da 1D a 3D. In particolare, il nostro LM di molecole 1D supera significativamente i benchmark in termini di somiglianza distributiva garantendo la validità, e il nostro modello di diffusione 3D raggiunge prestazioni leader nella previsione dei conformeri. Grazie a questi miglioramenti nella modellazione 1D e 3D, NExT-Mol ottiene un miglioramento relativo del 26% in FCD 3D per la generazione de novo 3D su GEOM-DRUGS, e un guadagno relativo medio del 13% per la generazione condizionale 3D su QM9-2014. I nostri codici e checkpoint pre-addestrati sono disponibili su https://github.com/acharkq/NExT-Mol.

InfiR: Creazione di Modelli Linguistici Compatti Efficaci e Modelli Linguistici Compatti Multimodali nel Ragionamento
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

Feb 17, 2025

Congkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang

I Large Language Models (LLM) e i Multimodal Large Language Models (MLLM) hanno compiuto progressi significativi nelle capacità di ragionamento. Tuttavia, continuano a presentare sfide come elevate esigenze computazionali e preoccupazioni relative alla privacy. Questo articolo si concentra sullo sviluppo di efficienti Small Language Models (SLM) e Multimodal Small Language Models (MSLM) che mantengono capacità di ragionamento competitive. Introduciamo una nuova pipeline di addestramento che potenzia le capacità di ragionamento e facilita il deployment su dispositivi edge, raggiungendo prestazioni all'avanguardia riducendo al contempo i costi di sviluppo. \InfR~ mira a far progredire i sistemi di intelligenza artificiale migliorando il ragionamento, riducendo le barriere all'adozione e affrontando le preoccupazioni sulla privacy attraverso dimensioni ridotte dei modelli. Le risorse sono disponibili all'indirizzo https://github.com/Reallm-Labs/InfiR.

AIDE: Esplorazione Guidata dall'Intelligenza Artificiale nello Spazio del Codice
AIDE: AI-Driven Exploration in the Space of Code

Feb 18, 2025

Zhengyao Jiang, Dominik Schmidt, Dhruv Srikanth, Dixing Xu, Ian Kaplan, Deniss Jacenko, Yuxiang Wu

Il machine learning, fondamento dell'intelligenza artificiale moderna, ha guidato innovazioni che hanno trasformato radicalmente il mondo. Tuttavia, dietro questi progressi si nasconde un processo complesso e spesso tedioso, che richiede un'intensa iterazione e sperimentazione in termini di risorse computazionali e lavoro. Gli ingegneri e gli scienziati che sviluppano modelli di machine learning dedicano gran parte del loro tempo a compiti di prova ed errore, anziché concentrarsi sulla concettualizzazione di soluzioni innovative o ipotesi di ricerca. Per affrontare questa sfida, introduciamo AI-Driven Exploration (AIDE), un agente di ingegneria del machine learning alimentato da modelli linguistici di grandi dimensioni (LLM). AIDE inquadra l'ingegneria del machine learning come un problema di ottimizzazione del codice e formula il processo di prova ed errore come una ricerca ad albero nello spazio delle soluzioni potenziali. Riusando e affinando strategicamente le soluzioni promettenti, AIDE scambia efficacemente risorse computazionali con prestazioni migliorate, raggiungendo risultati all'avanguardia su molteplici benchmark di ingegneria del machine learning, tra cui le nostre valutazioni su Kaggle, OpenAI MLE-Bench e METRs RE-Bench.

TESS 2: Un Modello Linguistico Diffusivo Generalista su Larga Scala
TESS 2: A Large-Scale Generalist Diffusion Language Model

Feb 19, 2025

Jaesung Tae, Hamish Ivison, Sachin Kumar, Arman Cohan

Presentiamo TESS 2, un modello linguistico di diffusione generico per il seguimento di istruzioni che supera i modelli di diffusione contemporanei ottimizzati per istruzioni, oltre a eguagliare e talvolta superare i forti modelli autoregressivi (AR). Addestriamo TESS 2 adattando prima un robusto modello AR attraverso un ulteriore pre-addestramento con la consueta cross-entropia come funzione di perdita per la diffusione, per poi eseguire un ulteriore ottimizzazione per il seguimento di istruzioni. Riteniamo che l'addestramento di adattamento, così come la scelta del modello di base, sia cruciale per addestrare modelli di diffusione efficaci nel seguimento di istruzioni. Proponiamo inoltre la guida basata su ricompensa, una nuova e modulare procedura di guida al momento dell'inferenza per allineare gli output del modello senza la necessità di addestrare il modello sottostante. Infine, dimostriamo che TESS 2 migliora ulteriormente con un aumento della potenza di calcolo al momento dell'inferenza, evidenziando l'utilità dei modelli linguistici di diffusione nel consentire un controllo fine sulla quantità di calcolo utilizzata durante l'inferenza. Codice e modelli sono disponibili all'indirizzo https://github.com/hamishivi/tess-2.

REALTALK: Un Dataset di 21 Giorni per Conversazioni a Lungo Termine nel Mondo Reale
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

Feb 18, 2025

Dong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri

Le capacità di dialogo a lungo termine e in domini aperti sono essenziali per i chatbot che mirano a ricordare interazioni passate e dimostrare intelligenza emotiva (IE). Tuttavia, la maggior parte della ricerca esistente si basa su dati sintetici generati da LLM, lasciando aperte domande sui modelli conversazionali del mondo reale. Per colmare questa lacuna, introduciamo REALTALK, un corpus di 21 giorni di dialoghi autentici provenienti da app di messaggistica, fornendo un benchmark diretto contro interazioni umane genuine. Iniziamo con un'analisi del dataset, concentrandoci sugli attributi di IE e sulla coerenza della persona per comprendere le sfide uniche poste dai dialoghi del mondo reale. Confrontando con conversazioni generate da LLM, evidenziamo differenze chiave, tra cui espressioni emotive diversificate e variazioni nella stabilità della persona che i dialoghi sintetici spesso non riescono a catturare. Basandoci su queste intuizioni, introduciamo due task di benchmark: (1) simulazione della persona, in cui un modello continua una conversazione a nome di un utente specifico dato un contesto di dialogo precedente; e (2) sondaggio della memoria, in cui un modello risponde a domande mirate che richiedono una memoria a lungo termine delle interazioni passate. I nostri risultati rivelano che i modelli faticano a simulare un utente esclusivamente dalla cronologia dei dialoghi, mentre il fine-tuning su chat specifiche dell'utente migliora l'emulazione della persona. Inoltre, i modelli esistenti affrontano sfide significative nel ricordare e sfruttare il contesto a lungo termine all'interno di conversazioni del mondo reale.

Valutare i valutatori: una raccolta di giudizi di rilevanza generati da LLM
Judging the Judges: A Collection of LLM-Generated Relevance Judgements

Feb 19, 2025

Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz

L'utilizzo di Large Language Models (LLM) per le valutazioni di rilevanza offre opportunità promettenti per migliorare l'Information Retrieval (IR), il Natural Language Processing (NLP) e campi correlati. In effetti, i LLM promettono di consentire ai sperimentatori di IR di costruire collezioni di valutazione con una frazione del lavoro manuale umano attualmente richiesto. Ciò potrebbe essere utile per argomenti emergenti su cui c'è ancora una conoscenza limitata e potrebbe mitigare le sfide legate alla valutazione dei sistemi di ranking in scenari a bassa risorsa, dove è difficile trovare annotatori umani. Considerando i rapidi sviluppi recenti in questo dominio, molte domande relative ai LLM come valutatori devono ancora essere risolte. Tra gli aspetti che richiedono ulteriori indagini, possiamo elencare l'impatto di vari componenti in una pipeline di generazione di giudizi di rilevanza, come il prompt utilizzato o il LLM scelto. Questo articolo presenta e analizza i risultati di una valutazione su larga scala di giudizi di rilevanza automatici, la sfida LLMJudge a SIGIR 2024, dove sono stati proposti diversi approcci di valutazione della rilevanza. Nel dettaglio, rilasciamo e analizziamo 42 etichette generate da LLM per i giudizi di rilevanza del TREC 2023 Deep Learning track, prodotti da otto team internazionali che hanno partecipato alla sfida. Data la loro natura diversificata, questi giudizi di rilevanza generati automaticamente possono aiutare la comunità non solo a indagare sui bias sistematici causati dai LLM, ma anche a esplorare l'efficacia dei modelli ensemble, analizzare i compromessi tra diversi modelli e valutatori umani e avanzare metodologie per migliorare le tecniche di valutazione automatizzata. La risorsa rilasciata è disponibile al seguente link: https://llm4eval.github.io/LLMJudge-benchmark/

Da Strumenti a Compagni di Squadra: Valutazione dei Modelli Linguistici di Grandi Dimensioni nelle Interazioni di Programmazione Multi-Sessione
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

Feb 19, 2025

Nathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici

I Large Language Model (LLM) sono sempre più utilizzati in ambienti lavorativi per una vasta gamma di attività, dimostrando eccellenti capacità nel risolvere problemi individuali in isolamento. Tuttavia, sono anche in grado di collaborare efficacemente in interazioni a lungo termine? Per indagare questa questione, introduciamo MemoryCode, un dataset sintetico multi-sessione progettato per testare la capacità degli LLM di tracciare ed eseguire semplici istruzioni di codifica in mezzo a informazioni irrilevanti, simulando un contesto realistico. Mentre tutti i modelli testati gestiscono bene le istruzioni isolate, anche le prestazioni di modelli all'avanguardia come GPT-4o si deteriorano quando le istruzioni sono distribuite su più sessioni. La nostra analisi suggerisce che ciò sia dovuto alla loro incapacità di recuperare e integrare informazioni su catene di istruzioni lunghe. I nostri risultati evidenziano una limitazione fondamentale degli attuali LLM, che ne restringe la capacità di collaborare efficacemente in interazioni prolungate.

ActionPiece: Tokenizzazione Contestuale di Sequenze di Azioni per la Raccomandazione Generativa
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

Feb 19, 2025

Yupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng

La raccomandazione generativa (Generative Recommendation, GR) è un paradigma emergente in cui le azioni degli utenti vengono tokenizzate in modelli di token discreti e generate in modo autoregressivo come previsioni. Tuttavia, i modelli GR esistenti tokenizzano ogni azione in modo indipendente, assegnando gli stessi token fissi ad azioni identiche in tutte le sequenze, senza considerare le relazioni contestuali. Questa mancanza di consapevolezza del contesto può portare a prestazioni subottimali, poiché la stessa azione può assumere significati diversi a seconda del contesto circostante. Per affrontare questo problema, proponiamo ActionPiece per incorporare esplicitamente il contesto durante la tokenizzazione delle sequenze di azioni. In ActionPiece, ogni azione è rappresentata come un insieme di caratteristiche degli elementi, che fungono da token iniziali. Dato il corpus delle sequenze di azioni, costruiamo il vocabolario unendo i modelli di caratteristiche come nuovi token, basandosi sulla loro frequenza di co-occorrenza sia all'interno dei singoli insiemi che tra insiemi adiacenti. Considerando la natura non ordinata degli insiemi di caratteristiche, introduciamo ulteriormente una regolarizzazione delle permutazioni degli insiemi, che produce multiple segmentazioni delle sequenze di azioni con la stessa semantica. Gli esperimenti su dataset pubblici dimostrano che ActionPiece supera costantemente i metodi esistenti di tokenizzazione delle azioni, migliorando NDCG@10 dal 6,00% al 12,82%.

REFIND: Rilevamento delle Allucinazioni di Fatticità Potenziato dal Recupero nei Grandi Modelli Linguistici
REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models

Feb 19, 2025

DongGeon Lee, Hwanjo Yu

Le allucinazioni negli output dei modelli linguistici di grandi dimensioni (LLM) limitano gravemente la loro affidabilità in compiti ad alta intensità di conoscenza, come il question answering. Per affrontare questa sfida, introduciamo REFIND (Retrieval-augmented Factuality hallucINation Detection), un nuovo framework che rileva segmenti allucinati negli output degli LLM sfruttando direttamente documenti recuperati. Come parte di REFIND, proponiamo il Context Sensitivity Ratio (CSR), una nuova metrica che quantifica la sensibilità degli output degli LLM rispetto alle prove recuperate. Questo approccio innovativo consente a REFIND di rilevare in modo efficiente e accurato le allucinazioni, distinguendosi dai metodi esistenti. Nella valutazione, REFIND ha dimostrato robustezza in nove lingue, inclusi contesti a bassa risorsa, e ha superato significativamente i modelli di riferimento, ottenendo punteggi IoU superiori nell'identificazione dei segmenti allucinati. Questo lavoro evidenzia l'efficacia della quantificazione della sensibilità al contesto per il rilevamento delle allucinazioni, aprendo così la strada a applicazioni LLM più affidabili e affidabili in diverse lingue.

Quale di queste opzioni descrive meglio la valutazione a scelta multipla con LLM? A) Forzata B) Imperfetta C) Risolvibile D) Tutte le precedenti
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

Feb 19, 2025

Nishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber

Il questionario a scelta multipla (MCQA) è popolare per la valutazione dei modelli linguistici di grandi dimensioni (LLM) grazie alla sua semplicità e alla somiglianza con i test umani, ma sosteniamo la necessità di una sua riforma. Iniziamo evidenziando i difetti del formato MCQA, poiché fatica a: 1) testare la generazione/soggettività; 2) allinearsi ai casi d'uso degli LLM; e 3) valutare completamente la conoscenza. Proponiamo invece formati generativi basati su test umani, in cui gli LLM costruiscono e spiegano le risposte, catturando meglio le esigenze degli utenti e la conoscenza, pur rimanendo facili da valutare. Successivamente, dimostriamo che anche quando il MCQA è un formato utile, i suoi dataset soffrono di: perdita di dati; impossibilità di risposta; scorciatoie; e saturazione. Per ciascun problema, offriamo soluzioni tratte dal campo dell'educazione, come rubriche per guidare la scrittura delle domande a scelta multipla; metodi di valutazione per limitare le ipotesi casuali; e la Teoria della Risposta all'Item per costruire domande più difficili. Infine, discutiamo gli errori degli LLM nel MCQA—robustezza, pregiudizi e spiegazioni infedeli—mostrando come le nostre soluzioni precedenti misurino o affrontino meglio questi problemi. Sebbene non sia necessario abbandonare il MCQA, incoraggiamo maggiori sforzi nel perfezionare il compito basandosi sui test educativi, avanzando così le valutazioni.

GIMMICK -- Benchmark Globale Inclusivo Multimodale e Multitask per la Conoscenza Culturale
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

Feb 19, 2025

Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher

I Large Vision-Language Models (LVLM) hanno recentemente attirato l'attenzione grazie alle loro prestazioni distintive e alla vasta applicabilità. Sebbene sia stato precedentemente dimostrato che la loro efficacia in scenari d'uso che coinvolgono contesti non occidentali sia limitata, gli studi esistenti hanno un ambito ristretto, coprendo solo una gamma limitata di culture, concentrandosi esclusivamente su un piccolo numero di aspetti culturali o valutando una selezione limitata di modelli su un unico compito. Verso una ricerca sugli LVLM globalmente inclusiva, introduciamo GIMMICK, un benchmark multimodale esteso progettato per valutare un ampio spettro di conoscenze culturali in 144 paesi rappresentativi di sei macro-regioni globali. GIMMICK comprende sei compiti basati su tre nuovi dataset che coprono 728 eventi o aspetti culturali unici, su cui abbiamo valutato 20 LVLM e 11 LLM, inclusi cinque modelli proprietari e 26 modelli open-weight di tutte le dimensioni. Esaminiamo sistematicamente (1) i pregiudizi culturali regionali, (2) l'influenza della dimensione del modello, (3) le modalità di input e (4) i suggerimenti esterni. Le nostre analisi rivelano forti pregiudizi verso le culture occidentali tra i modelli e i compiti, evidenziando forti correlazioni tra la dimensione del modello e le prestazioni, nonché l'efficacia dell'input multimodale e dei suggerimenti geografici esterni. Inoltre, scopriamo che i modelli hanno più conoscenza degli aspetti tangibili rispetto a quelli intangibili (ad esempio, cibo vs. rituali) e che eccellono nel riconoscere le origini culturali ampie, ma faticano a comprendere in modo più sfumato.

MVL-SIB: Un Benchmark Multilingue Massivo Visione-Linguaggio per l'Abbinamento Tematico Cross-Modale
MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

Feb 18, 2025

Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš

I benchmark esistenti per il linguaggio visivo multilingue (VL) spesso coprono solo un numero limitato di lingue. Di conseguenza, le valutazioni dei modelli di linguaggio visivo su larga scala (LVLM) si concentrano prevalentemente su lingue ad alto livello di risorse, evidenziando la necessità di dati di valutazione per lingue a basso livello di risorse. Per affrontare questa limitazione, introduciamo MVL-SIB, un benchmark di linguaggio visivo massicciamente multilingue che valuta sia l'abbinamento tematico cross-modale che quello testuale in 205 lingue — oltre 100 in più rispetto ai benchmark VL esistenti più multilingue. Successivamente, valutiamo una gamma di LVLM open-weight insieme a GPT-4o(-mini) su MVL-SIB. I nostri risultati rivelano che i LVLM faticano nell'abbinamento tematico cross-modale per le lingue a basso livello di risorse, ottenendo prestazioni non migliori del caso per lingue come il N'Koo. La nostra analisi mostra inoltre che il supporto VL nei LVLM diminuisce in modo sproporzionato rispetto al supporto testuale per le lingue a basso livello di risorse, come evidenziato dal confronto tra le prestazioni di abbinamento tematico cross-modale e solo testuale. Osserviamo inoltre che i LVLM open-weight non traggono vantaggio dalla rappresentazione di un argomento con più di un'immagine, suggerendo che questi modelli non sono ancora pienamente efficaci nel gestire compiti multi-immagine. Correlando le prestazioni su MVL-SIB con altri benchmark VL multilingue, evidenziamo che MVL-SIB funge da sonda completa per la comprensione multilingue del linguaggio visivo nei LVLM.

Sintesi di Nuove Viste ad Alta Fedeltà tramite Diffusione Guidata da Splatting
High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

Feb 18, 2025

Xiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers

Nonostante i recenti progressi nella Sintesi di Nuove Viste (NVS), la generazione di viste ad alta fedeltà a partire da osservazioni singole o sparse rimane una sfida significativa. Gli approcci esistenti basati su splatting spesso producono geometrie distorte a causa di errori di splatting. Mentre i metodi basati su diffusione sfruttano ricchi prior 3D per ottenere una geometria migliorata, spesso soffrono di allucinazioni di texture. In questo articolo, introduciamo SplatDiff, un modello di diffusione video guidato da pixel-splatting progettato per sintetizzare nuove viste ad alta fedeltà da una singola immagine. Nello specifico, proponiamo una strategia di sintesi allineata per un controllo preciso dei punti di vista target e una sintesi di viste geometricamente coerenti. Per mitigare le allucinazioni di texture, progettiamo un modulo di ponte di texture che consente la generazione di texture ad alta fedeltà attraverso la fusione adattiva di feature. In questo modo, SplatDiff sfrutta i punti di forza dello splatting e della diffusione per generare nuove viste con geometria coerente e dettagli ad alta fedeltà. Esperimenti estensivi verificano le prestazioni all'avanguardia di SplatDiff nella NVS a vista singola. Inoltre, senza ulteriore addestramento, SplatDiff mostra prestazioni zero-shot notevoli in diverse attività, tra cui la NVS a vista sparsa e la conversione di video stereo.

Il rumore può contenere conoscenza trasferibile: comprendere l'adattamento di dominio eterogeneo semi-supervisionato da una prospettiva empirica
Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective

Feb 19, 2025

Yuan Yao, Xiaopu Zhang, Yu Zhang, Jian Jin, Qiang Yang

L'adattamento di dominio eterogeneo semi-supervisionato (SHDA) affronta l'apprendimento attraverso domini con rappresentazioni e distribuzioni di caratteristiche distinte, in cui i campioni sorgente sono etichettati mentre la maggior parte dei campioni target non lo sono, con solo una piccola frazione etichettata. Inoltre, non esiste una corrispondenza uno-a-uno tra i campioni sorgente e target. Sebbene siano stati sviluppati vari metodi SHDA per affrontare questo problema, la natura della conoscenza trasferita attraverso domini eterogenei rimane poco chiara. Questo articolo approfondisce questa questione da una prospettiva empirica. Abbiamo condotto esperimenti estesi su circa 330 task SHDA, impiegando due metodi di apprendimento supervisionato e sette metodi SHDA rappresentativi. Sorprendentemente, le nostre osservazioni indicano che sia le informazioni di categoria che quelle di caratteristica dei campioni sorgente non influenzano significativamente le prestazioni del dominio target. Inoltre, il rumore estratto da distribuzioni semplici, quando utilizzato come campioni sorgente, può contenere conoscenza trasferibile. Sulla base di questa intuizione, abbiamo eseguito una serie di esperimenti per scoprire i principi sottostanti della conoscenza trasferibile in SHDA. Nello specifico, abbiamo progettato un Framework Unificato per il Trasferimento di Conoscenza (KTF) per SHDA. Basandoci sul KTF, abbiamo scoperto che la conoscenza trasferibile in SHDA deriva principalmente dalla trasferibilità e dalla discriminabilità del dominio sorgente. Di conseguenza, garantire queste proprietà nei campioni sorgente, indipendentemente dalla loro origine (ad esempio, immagine, testo, rumore), può migliorare l'efficacia del trasferimento di conoscenza nei task SHDA. I codici e i dataset sono disponibili all'indirizzo https://github.com/yyyaoyuan/SHDA.

Riduzione delle Allucinazioni nella Generazione di Query SPARQL basata su Modelli Linguistici Utilizzando il Recupero della Memoria Post-Generazione
Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval

Feb 19, 2025

Aditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal

La capacità di generare query SPARQL da domande in linguaggio naturale è fondamentale per garantire un recupero efficiente e accurato di dati strutturati da grafi di conoscenza (KG). Sebbene i modelli linguistici di grandi dimensioni (LLM) siano stati ampiamente adottati per la generazione di query SPARQL, sono spesso suscettibili a allucinazioni e errori fuori distribuzione quando producono elementi di KG come gli Uniform Resource Identifier (URI) basati sulla conoscenza parametrica interna. Ciò spesso si traduce in contenuti che appaiono plausibili ma che sono fattualmente errati, ponendo sfide significative per il loro utilizzo in applicazioni reali di recupero delle informazioni (IR). Questo ha portato a un aumento della ricerca mirata a rilevare e mitigare tali errori. In questo articolo, introduciamo PGMR (Post-Generation Memory Retrieval), un framework modulare che incorpora un modulo di memoria non parametrica per recuperare elementi di KG e migliorare la generazione di query SPARQL basata su LLM. I nostri risultati sperimentali indicano che PGMR fornisce costantemente prestazioni solide su diversi dataset, distribuzioni di dati e LLM. In particolare, PGMR mitiga significativamente le allucinazioni di URI, quasi eliminando il problema in diversi scenari.