HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

18 papers found

OMG-LLaVA: Colmare il divario tra ragionamento e comprensione a livello di immagine, oggetto e pixel
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Jun 27

ByTao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan

I metodi di segmentazione universale attuali dimostrano capacità avanzate nella comprensione di immagini e video a livello di pixel. Tuttavia, mancano di abilità di ragionamento e non possono essere controllati tramite istruzioni testuali. Al contrario, i grandi modelli multimodali visione-linguaggio mostrano potenti capacità di conversazione e ragionamento basate sulla visione, ma mancano di comprensione a livello di pixel e hanno difficoltà ad accettare prompt visivi per un'interazione flessibile con l'utente. Questo articolo propone OMG-LLaVA, un nuovo ed elegante framework che combina una potente comprensione visiva a livello di pixel con abilità di ragionamento. Esso può accettare vari prompt visivi e testuali per un'interazione flessibile con l'utente. Nello specifico, utilizziamo un metodo di segmentazione universale come encoder visivo, integrando informazioni dell'immagine, priorità percettive e prompt visivi in token visivi forniti al LLM. Il LLM è responsabile della comprensione delle istruzioni testuali dell'utente e della fornitura di risposte testuali e risultati di segmentazione a livello di pixel basati sulle informazioni visive. Proponiamo l'embedding di priorità percettive per integrare meglio le priorità percettive con le caratteristiche dell'immagine. OMG-LLaVA raggiunge il ragionamento e la comprensione a livello di immagine, oggetto e pixel in un unico modello, eguagliando o superando le prestazioni di metodi specializzati su molteplici benchmark. Piuttosto che utilizzare il LLM per connettere ogni specialista, il nostro lavoro mira a un addestramento end-to-end su un encoder, un decoder e un LLM. Il codice e il modello sono stati rilasciati per ulteriori ricerche.

Step-DPO: Ottimizzazione Step-by-Step delle Preferenze per il Ragionamento a Lunga Catena nei Modelli Linguistici di Grande Dimensione
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

Jun 26

ByXin Lai, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, Jiaya Jia

Il ragionamento matematico rappresenta una sfida significativa per i Modelli Linguistici di Grande Dimensione (LLMs) a causa della catena di ragionamento estesa e precisa richiesta per ottenere accuratezza. Garantire la correttezza di ogni passo del ragionamento è fondamentale. Per affrontare questo problema, miriamo a migliorare la robustezza e la veridicità degli LLMs apprendendo dal feedback umano. Tuttavia, l'ottimizzazione diretta delle preferenze (DPO) ha mostrato benefici limitati per il ragionamento matematico a catena lunga, poiché i modelli che utilizzano DPO faticano a identificare errori dettagliati nelle risposte errate. Questa limitazione deriva da una mancanza di supervisione fine del processo. Proponiamo un metodo semplice, efficace e efficiente in termini di dati chiamato Step-DPO, che tratta i singoli passi del ragionamento come unità per l'ottimizzazione delle preferenze, anziché valutare le risposte in modo olistico. Inoltre, abbiamo sviluppato una pipeline di costruzione dei dati per Step-DPO, che consente la creazione di un dataset di alta qualità contenente 10K coppie di preferenze passo-passo. Osserviamo anche che nella DPO, i dati auto-generati sono più efficaci rispetto ai dati generati da esseri umani o GPT-4, a causa della natura fuori distribuzione di quest'ultimi. I nostri risultati dimostrano che con appena 10K coppie di dati di preferenza e meno di 500 passi di addestramento Step-DPO, è possibile ottenere un guadagno di quasi il 3% in accuratezza su MATH per modelli con oltre 70B parametri. In particolare, Step-DPO, applicato a Qwen2-72B-Instruct, raggiunge punteggi del 70,8% e del 94,0% sui set di test di MATH e GSM8K, rispettivamente, superando una serie di modelli closed-source, tra cui GPT-4-1106, Claude-3-Opus e Gemini-1.5-Pro. Il nostro codice, dati e modelli sono disponibili su https://github.com/dvlab-research/Step-DPO.

MUMU: Avvio della Generazione di Immagini Multimodali dai Dati Testo-Immagine
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

Jun 26

ByWilliam Berman, Alexander Peysakhovich

Addestriamo un modello per generare immagini a partire da prompt multimodali composti da testo e immagini intervallati, come "un <immagine di un uomo> uomo e il suo <immagine di un cane> cane in uno stile <immagine di un cartone animato> animato." Costruiamo un dataset multimodale estraendo ritagli di immagini semanticamente significativi corrispondenti alle parole nelle descrizioni delle immagini di dati testo-immagine sinteticamente generati e disponibili pubblicamente. Il nostro modello, MUMU, è composto da un encoder di modello visione-linguaggio con un decoder di diffusione ed è addestrato su un singolo nodo GPU 8xH100. Nonostante sia addestrato solo su ritagli della stessa immagine, MUMU impara a comporre input provenienti da immagini diverse in un output coerente. Ad esempio, un input di una persona realistica e un cartone animato produrrà la stessa persona nello stile del cartone animato, e un input di un soggetto in piedi e uno scooter produrrà il soggetto che guida lo scooter. Di conseguenza, il nostro modello si generalizza a compiti come il trasferimento di stile e la coerenza dei personaggi. I nostri risultati dimostrano il potenziale dell'uso di modelli multimodali come controller generici per la generazione di immagini.

Simulazione dell'Educazione in Classe con Agenti Potenziati da LLM
Simulating Classroom Education with LLM-Empowered Agents

Jun 27

ByZheyuan Zhang, Daniel Zhang-Li, Jifan Yu, Linlu Gong, Jinchang Zhou, Zhiyuan Liu, Lei Hou, Juanzi Li

I grandi modelli linguistici (LLM) sono stati impiegati in vari compiti educativi intelligenti per supportare l'insegnamento. Mentre le esplorazioni preliminari si sono concentrate su agenti autonomi potenziati da LLM per specifici compiti educativi, il potenziale degli LLM all'interno di un framework collaborativo multi-agente per simulare un'aula con la partecipazione di utenti reali rimane inesplorato. In questo lavoro, proponiamo SimClass, un framework di simulazione di aula multi-agente che coinvolge la partecipazione degli utenti. Identifichiamo ruoli rappresentativi della classe e introduciamo un nuovo meccanismo di controllo della classe per l'insegnamento automatico, conducendo esperimenti con utenti in due corsi reali. Utilizzando il Flanders Interactive Analysis System e il framework teorico Community of Inquiry per l'analisi educativa, dimostriamo che gli LLM possono simulare efficacemente i modelli di interazione tradizionali delle aule, migliorando al contempo l'esperienza degli utenti. Osserviamo inoltre comportamenti di gruppo emergenti tra gli agenti in SimClass, dove gli agenti collaborano per creare interazioni vivaci nelle aule, migliorando il processo di apprendimento degli utenti. Speriamo che questo lavoro apra la strada all'applicazione di sistemi multi-agente potenziati da LLM nell'insegnamento virtuale in aula.

SeaKR: Recupero della Conoscenza Auto-Consapevole per la Generazione Aumentata con Recupero Adattivo
SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

Jun 27

ByZijun Yao, Weijian Qi, Liangming Pan, Shulin Cao, Linmei Hu, Weichuan Liu, Lei Hou, Juanzi Li

Questo articolo introduce Self-aware Knowledge Retrieval (SeaKR), un nuovo modello RAG adattivo che estrae l'incertezza auto-consapevole dei LLM dai loro stati interni. SeaKR attiva il recupero delle informazioni quando i LLM presentano un'elevata incertezza auto-consapevole durante la generazione. Per integrare efficacemente i frammenti di conoscenza recuperati, SeaKR li riordina in base all'incertezza auto-consapevole del LLM, preservando il frammento che riduce al massimo tale incertezza. Per facilitare la risoluzione di compiti complessi che richiedono più recuperi, SeaKR utilizza l'incertezza auto-consapevole per scegliere tra diverse strategie di ragionamento. I nostri esperimenti su dataset di Question Answering sia complessi che semplici dimostrano che SeaKR supera i metodi RAG adattivi esistenti. Rilasciamo il nostro codice all'indirizzo https://github.com/THU-KEG/SeaKR.

Allineamento delle Preferenze del Docente con quelle dello Studente per la Generazione di Dati di Addestramento Personalizzati
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Jun 27

ByYantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li

I Large Language Model (LLM) hanno dimostrato un potenziale significativo come copiloti in vari compiti. Il deployment locale di LLM su dispositivi edge è necessario quando si gestiscono dati sensibili alla privacy o compiti sensibili alla latenza. I vincoli computazionali di tali dispositivi rendono impraticabile il deployment diretto di LLM potenti su larga scala, rendendo necessaria la Distillazione della Conoscenza da modelli di grandi dimensioni a modelli leggeri. Molto lavoro è stato fatto per ottenere esempi di addestramento diversificati e di alta qualità dai LLM, ma poca attenzione è stata dedicata all'allineamento dei contenuti didattici del docente in base alle preferenze dello studente, simile all'"insegnamento reattivo" in pedagogia. Pertanto, proponiamo ARTE, denominato Aligning TeacheR with StudenT PreferencEs, un framework che allinea il modello docente con le preferenze dello studente per generare esempi di addestramento personalizzati per la Distillazione della Conoscenza. Nello specifico, otteniamo bozze di domande e ragionamenti dal modello docente, raccogliamo le preferenze degli studenti su queste domande e ragionamenti utilizzando le prestazioni degli studenti con l'apprendimento in contesto come proxy, e infine allineiamo il modello docente con le preferenze degli studenti. Alla fine, ripetiamo il primo passo con il modello docente allineato per ottenere esempi di addestramento personalizzati per il modello studente sul compito target. Esperimenti estesi su benchmark accademici dimostrano la superiorità di ARTE rispetto ai dataset esistenti di instruction-tuning distillati da LLM potenti. Inoltre, investigiamo approfonditamente la generalizzazione di ARTE, inclusa la generalizzazione dei modelli studente fine-tuned nelle capacità di ragionamento e la generalizzazione dei modelli docenti allineati per generare dati di addestramento personalizzati tra compiti e studenti. In sintesi, i nostri contributi consistono nel proporre un nuovo framework per la generazione di esempi di addestramento personalizzati, dimostrarne l'efficacia negli esperimenti e investigare la generalizzazione sia dei modelli studente che dei modelli docenti allineati in ARTE.

LiveBench: Un Benchmark Sfidante e Libero da Contaminazioni per Modelli Linguistici
LiveBench: A Challenging, Contamination-Free LLM Benchmark

Jun 27

ByColin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum

La contaminazione del set di test, in cui i dati di test di un benchmark finiscono nel set di addestramento di un modello più recente, è un ostacolo ben documentato per una valutazione equa degli LLM e può rapidamente rendere obsoleti i benchmark. Per mitigare questo problema, molti benchmark recenti raccolgono nuovi prompt e valutazioni tramite il crowdsourcing di giudici umani o LLM; tuttavia, questi possono introdurre significativi bias e falliscono nel valutare domande difficili. In questo lavoro, introduciamo un nuovo benchmark per LLM progettato per essere immune sia alla contaminazione del set di test che alle insidie del giudizio degli LLM e del crowdsourcing umano. Rilasciamo LiveBench, il primo benchmark che (1) contiene domande aggiornate frequentemente da fonti di informazione recenti, (2) valuta le risposte automaticamente secondo valori di verità oggettivi, e (3) include una vasta gamma di compiti impegnativi, che spaziano dalla matematica alla programmazione, al ragionamento, al linguaggio, al seguire istruzioni e all'analisi dei dati. Per raggiungere questo obiettivo, LiveBench contiene domande basate su competizioni matematiche recenti, articoli di arXiv, notizie e dataset, e include versioni più difficili e prive di contaminazione di compiti provenienti da benchmark precedenti come Big-Bench Hard, AMPS e IFEval. Valutiamo molti modelli closed-source di rilievo, così come dozzine di modelli open-source che vanno da 0,5B a 110B di parametri. LiveBench è impegnativo, con i modelli migliori che raggiungono un'accuratezza inferiore al 65%. Rilasciamo tutte le domande, il codice e le risposte dei modelli. Le domande verranno aggiunte e aggiornate mensilmente, e rilasceremo nuovi compiti e versioni più difficili dei compiti nel tempo, in modo che LiveBench possa distinguere le capacità degli LLM man mano che migliorano in futuro. Accogliamo con favore il coinvolgimento e la collaborazione della comunità per espandere i compiti e i modelli del benchmark.

I Modelli Linguistici di Grandi Dimensioni Possono Imparare Insegnando? Uno Studio Preliminare
Can LLMs Learn by Teaching? A Preliminary Study

Jun 20

ByXuefei Ning, Zifu Wang, Shiyao Li, Zinan Lin, Peiran Yao, Tianyu Fu, Matthew B. Blaschko, Guohao Dai, Huazhong Yang, Yu Wang

Insegnare per migliorare i modelli degli studenti (ad esempio, la distillazione della conoscenza) è una metodologia ampiamente studiata nei LLM (Large Language Models). Tuttavia, per gli esseri umani, l'insegnamento non solo migliora gli studenti, ma anche gli insegnanti. Ci chiediamo: anche i LLM possono imparare insegnando (Learning by Teaching, LbT)? Se sì, potremmo potenzialmente sbloccare la possibilità di far avanzare continuamente i modelli senza fare affidamento esclusivamente su dati prodotti dall'uomo o su modelli più potenti. In questo articolo, forniamo un'esplorazione preliminare di questo ambizioso obiettivo. Mostriamo che le idee dell'LbT possono essere incorporate nelle pipeline esistenti di addestramento/prompting dei LLM e apportare miglioramenti significativi. Nello specifico, progettiamo tre metodi, ciascuno dei quali imita uno dei tre livelli dell'LbT negli esseri umani: osservare il feedback degli studenti, apprendere dal feedback e apprendere in modo iterativo, con l'obiettivo di migliorare l'accuratezza delle risposte senza addestramento e di migliorare la capacità intrinseca dei modelli con il fine-tuning. I risultati sono incoraggianti. Ad esempio, simile all'LbT negli esseri umani, osserviamo che: (1) LbT può indurre una generalizzazione da debole a forte: i modelli forti possono migliorare se stessi insegnando ad altri modelli deboli; (2) La diversità tra gli studenti potrebbe aiutare: insegnare a più studenti potrebbe essere meglio che insegnare a un solo studente o all'insegnante stesso. Speriamo che questa promessa iniziale possa ispirare future ricerche sull'LbT e un'adozione più ampia delle tecniche avanzate nell'educazione per migliorare i LLM. Il codice è disponibile all'indirizzo https://github.com/imagination-research/lbt.

Recupero della Dimensione del Dataset dai Pesi LoRA
Dataset Size Recovery from LoRA Weights

Jun 27

ByMohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen

Gli attacchi di inversione del modello e di inferenza di appartenenza mirano a ricostruire e verificare i dati su cui un modello è stato addestrato. Tuttavia, non è garantito che trovino tutti i campioni di addestramento poiché non conoscono la dimensione del dataset di addestramento. In questo articolo, introduciamo un nuovo compito: il recupero della dimensione del dataset, che mira a determinare il numero di campioni utilizzati per addestrare un modello, direttamente dai suoi pesi. Proponiamo quindi DSiRe, un metodo per recuperare il numero di immagini utilizzate per il fine-tuning di un modello, nel caso comune in cui il fine-tuning utilizza LoRA. Scopriamo che sia la norma che lo spettro delle matrici LoRA sono strettamente legati alla dimensione del dataset di fine-tuning; sfruttiamo questa scoperta per proporre un algoritmo di previsione semplice ma efficace. Per valutare il recupero della dimensione del dataset dai pesi LoRA, sviluppiamo e rilasciamo un nuovo benchmark, LoRA-WiSE, composto da oltre 25000 snapshot di pesi provenienti da più di 2000 modelli diversi sottoposti a fine-tuning con LoRA. Il nostro miglior classificatore è in grado di prevedere il numero di immagini di fine-tuning con un errore assoluto medio di 0,36 immagini, dimostrando la fattibilità di questo attacco.

MoA: Miscela di Attenzione Sparsa per la Compressione Automatica di Modelli Linguistici di Grandi Dimensioni
MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

Jun 21

ByTianyu Fu, Haofeng Huang, Xuefei Ning, Genghan Zhang, Boju Chen, Tianqi Wu, Hongyi Wang, Zixiao Huang, Shiyao Li, Shengen Yan, Guohao Dai, Huazhong Yang, Yu Wang

L'attenzione sparsa può mitigare efficacemente le significative richieste di memoria e throughput dei Large Language Models (LLM) in contesti lunghi. I metodi esistenti impiegano tipicamente una maschera di attenzione sparsa uniforme, applicando lo stesso schema sparso su diverse teste di attenzione e lunghezze di input. Tuttavia, questo approccio uniforme non riesce a catturare i diversi schemi di attenzione intrinseci nei LLM, ignorando i loro distinti compromessi tra accuratezza e latenza. Per affrontare questa sfida, proponiamo la Mixture of Attention (MoA), che adatta automaticamente configurazioni di attenzione sparsa distinte a diverse teste e livelli. MoA costruisce e naviga uno spazio di ricerca di vari schemi di attenzione e delle loro regole di scalabilità relative alle lunghezze delle sequenze di input. Profila il modello, valuta le configurazioni potenziali e individua il piano ottimale di compressione dell'attenzione sparsa. MoA si adatta a dimensioni di input variabili, rivelando che alcune teste di attenzione ampliano il loro focus per adattarsi a sequenze più lunghe, mentre altre teste si concentrano costantemente su contesti locali di lunghezza fissa. Gli esperimenti mostrano che MoA aumenta la lunghezza effettiva del contesto di 3,9 volte con la stessa media di attenzione, migliorando l'accuratezza di recupero di 1,5-7,1 volte rispetto alla baseline di attenzione uniforme sui modelli Vicuna-7B, Vicuna-13B e Llama3-8B. Inoltre, MoA riduce i divari di capacità tra modelli sparsi e densi, diminuendo il calo massimo di prestazioni relative dal 9%-36% a meno del 5% su due benchmark di comprensione di contesti lunghi. MoA ottiene una riduzione della memoria GPU di 1,2-1,4 volte e aumenta il throughput di decodifica di 5,5-6,7 volte per i modelli densi da 7B e 13B su una singola GPU, con un impatto minimo sulle prestazioni.

La programmazione per esempi è risolta dai modelli linguistici di grandi dimensioni (LLM)?
Is Programming by Example solved by LLMs?

Jun 12

ByWen-Ding Li, Kevin Ellis

La Programmazione tramite Esempi (PBE, Programming-by-Examples) mira a generare un algoritmo a partire da esempi di input-output. Tali sistemi sono importanti sia dal punto di vista pratico che teorico: per gli utenti finali, vengono distribuiti a milioni di persone, mentre dal punto di vista dell'IA, la PBE corrisponde a una forma molto generale di inferenza induttiva con pochi esempi. Considerando il successo dei Modelli Linguistici di Grande Scala (LLMs, Large Language Models) nei compiti di generazione di codice, qui indaghiamo fino a che punto si possa affermare che gli LLMs abbiano "risolto" la PBE. Sperimentiamo su domini classici come liste e stringhe, e su un dominio insolito di programmazione grafica non ben rappresentato nei tipici dati di pre-addestramento. Scopriamo che i modelli pre-addestrati non sono efficaci nella PBE, ma che possono essere perfezionati per ottenere prestazioni molto più elevate, a condizione che i problemi di test siano all'interno della distribuzione. Analizziamo empiricamente cosa fa sì che questi modelli abbiano successo o falliscano, e compiamo passi verso la comprensione di come ottenere una migliore generalizzazione fuori distribuzione. Collettivamente, questi risultati suggeriscono che gli LLMs compiono progressi significativi verso la risoluzione della tipica gamma di compiti PBE, potenzialmente aumentando la flessibilità e l'applicabilità dei sistemi PBE, pur evidenziando anche i modi in cui gli LLMs sono ancora carenti.

T-FREE: Modelli Linguistici Generativi Senza Tokenizer tramite Rappresentazioni Sparse per Embedding Efficienti in Memoria
T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

Jun 27

ByBjörn Deiseroth, Manuel Brack, Patrick Schramowski, Kristian Kersting, Samuel Weinbach

I tokenizer sono cruciali per codificare le informazioni nei Large Language Model, ma il loro sviluppo ha recentemente subito una stagnazione e presentano debolezze intrinseche. Le principali limitazioni includono l'overhead computazionale, l'uso inefficace del vocabolario e gli strati di embedding e di testa eccessivamente grandi. Inoltre, le loro prestazioni sono influenzate da un corpus di riferimento, portando a una ridotta efficacia per le lingue sottorappresentate. Per rimediare a questi problemi, proponiamo T-FREE, che incorpora direttamente le parole attraverso pattern di attivazione sparsi su triplette di caratteri e non richiede un corpus di riferimento. T-FREE sfrutta intrinsecamente le similarità morfologiche e consente una forte compressione degli strati di embedding. Nella nostra valutazione sperimentale esaustiva, otteniamo prestazioni competitive nelle attività downstream con una riduzione dei parametri superiore all'85% su questi strati. Inoltre, T-FREE mostra miglioramenti significativi nell'apprendimento trasferito cross-linguale.

AUTOHALLUSION: Generazione Automatica di Benchmark per le Allucinazioni nei Modelli Visione-Linguaggio
AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

Jun 16

ByXiyang Wu, Tianrui Guan, Dianqi Li, Shuaiyi Huang, Xiaoyu Liu, Xijun Wang, Ruiqi Xian, Abhinav Shrivastava, Furong Huang, Jordan Lee Boyd-Graber, Tianyi Zhou, Dinesh Manocha

I grandi modelli visione-linguaggio (LVLM) allucinano: determinati indizi contestuali in un'immagine possono innescare un ragionamento eccessivamente sicuro e scorretto del modulo linguistico su oggetti anomali o ipotetici. Sebbene siano stati sviluppati alcuni benchmark per indagare le allucinazioni degli LVLM, si basano principalmente su casi limite costruiti manualmente, i cui schemi di fallimento potrebbero difficilmente generalizzarsi, e il fine-tuning su di essi potrebbe comprometterne la validità. Ciò ci motiva a sviluppare il primo approccio automatico di generazione di benchmark, AUTOHALLUSION, che sfrutta alcune strategie principali per creare esempi diversificati di allucinazioni. Esso esplora i moduli linguistici negli LVLM alla ricerca di indizi contestuali e li utilizza per sintetizzare immagini mediante: (1) l'aggiunta di oggetti anomali rispetto agli indizi contestuali; (2) per due oggetti che co-occorrono, mantenere uno ed escludere l'altro; o (3) rimuovere oggetti strettamente legati agli indizi contestuali. Successivamente, genera domande basate sulle immagini le cui risposte vere contraddicono il priore del modulo linguistico. Un modello deve superare i pregiudizi contestuali e le distrazioni per raggiungere risposte corrette, mentre risposte errate o incoerenti indicano allucinazioni. AUTOHALLUSION ci consente di creare nuovi benchmark al costo minimo, superando così la fragilità dei benchmark costruiti manualmente. Rivela inoltre schemi e ragioni comuni di fallimento, fornendo intuizioni chiave per rilevare, evitare o controllare le allucinazioni. Valutazioni complete dei migliori LVLM, ad esempio GPT-4V(ision), Gemini Pro Vision, Claude 3 e LLaVA-1.5, mostrano un tasso di successo del 97,7% e del 98,7% nell'induzione di allucinazioni sui dataset sintetici e reali di AUTOHALLUSION, aprendo la strada a una lunga battaglia contro le allucinazioni.

Leggere Ovunque Indicato: Lettura Consapevole del Layout delle Interfacce Grafiche con il Modello Tree-of-Lens Grounding
Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding

Jun 27

ByYue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang

Le interfacce grafiche utente (GUI) sono centrali nella nostra interazione con i dispositivi digitali. Recentemente, sono stati compiuti crescenti sforzi per costruire modelli per vari compiti di comprensione delle GUI. Tuttavia, questi sforzi trascurano in gran parte un importante compito relativo alle GUI: la lettura dello schermo basata su punti indicati dall'utente, che noi denominiamo Screen Point-and-Read (SPR). Questo compito è gestito prevalentemente da strumenti rigidi di lettura dello schermo accessibili, che hanno un forte bisogno di nuovi modelli guidati dai progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs). In questo articolo, proponiamo un agente Tree-of-Lens (ToL), che utilizza un nuovo meccanismo di grounding ToL, per affrontare il compito SPR. Basandosi sulle coordinate del punto di input e sullo screenshot corrispondente della GUI, il nostro agente ToL costruisce un Albero di Layout Gerarchico. Sulla base di questo albero, il nostro agente ToL non solo comprende il contenuto dell'area indicata, ma articola anche il layout e le relazioni spaziali tra gli elementi. Tali informazioni sul layout sono cruciali per interpretare accuratamente le informazioni sullo schermo, distinguendo il nostro agente ToL da altri strumenti di lettura dello schermo. Valutiamo inoltre approfonditamente l'agente ToL rispetto ad altre baseline su un nuovo benchmark SPR proposto, che include GUI da sistemi mobili, web e operativi. Ultimo ma non meno importante, testiamo l'agente ToL su compiti di navigazione GUI mobile, dimostrando la sua utilità nell'identificare azioni errate lungo il percorso delle traiettorie di esecuzione dell'agente. Codice e dati: screen-point-and-read.github.io

Comprendere le Esigenze degli LLM: Allineamento Duale delle Preferenze per la Generazione Aumentata dal Recupero
Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation

Jun 26

ByGuanting Dong, Yutao Zhu, Chenghao Zhang, Zechen Wang, Zhicheng Dou, Ji-Rong Wen

La generazione aumentata dal recupero (RAG) ha dimostrato efficacia nel mitigare il problema delle allucinazioni nei grandi modelli linguistici (LLM). Tuttavia, la difficoltà di allineare il sistema di recupero con le diverse preferenze di conoscenza degli LLM pone inevitabilmente una sfida nello sviluppo di un sistema RAG affidabile. Per affrontare questo problema, proponiamo DPA-RAG, un framework universale progettato per allineare le diverse preferenze di conoscenza all'interno dei sistemi RAG. Nello specifico, inizialmente introduciamo una pipeline di costruzione della conoscenza delle preferenze e incorporiamo cinque nuove strategie di aumento delle query per alleviare la scarsità di dati sulle preferenze. Basandosi sui dati delle preferenze, DPA-RAG realizza sia l'allineamento esterno che interno delle preferenze: 1) Integra congiuntamente capacità di allineamento delle preferenze pair-wise, point-wise e contrastive nel reranker, raggiungendo l'allineamento esterno delle preferenze tra i componenti RAG. 2) Introduce inoltre una fase di pre-allineamento prima del classico Supervised Fine-tuning (SFT), consentendo agli LLM di catturare implicitamente conoscenze allineate con le loro preferenze di ragionamento, raggiungendo l'allineamento interno degli LLM. I risultati sperimentali su quattro dataset di QA ad alta intensità di conoscenza dimostrano che DPA-RAG supera tutte le baseline e si integra perfettamente sia con lettori LLM black-box che open-source. Ulteriori analisi qualitative e discussioni forniscono anche indicazioni empiriche per raggiungere sistemi RAG affidabili. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/dongguanting/DPA-RAG.

ArzEn-LLM: Traduzione e Riconoscimento Vocale per l'Arabo Egiziano-Inglese con Code-Switching Utilizzando Modelli Linguistici di Grande Dimensione
ArzEn-LLM: Code-Switched Egyptian Arabic-English Translation and Speech Recognition Using LLMs

Jun 26

ByAhmed Heakl, Youssef Zaghloul, Mennatullah Ali, Rania Hossam, Walid Gomaa

Motivati dalla crescente diffusione del fenomeno del code-switching tra l'arabo egiziano e l'inglese negli ultimi tempi, questo articolo esplora le complessità dei sistemi di traduzione automatica (MT) e di riconoscimento vocale automatico (ASR), concentrandosi sulla traduzione del code-switched arabo egiziano-inglese verso l'inglese o l'arabo egiziano. Il nostro obiettivo è presentare le metodologie impiegate nello sviluppo di questi sistemi, utilizzando modelli linguistici di grandi dimensioni come LLama e Gemma. Nel campo dell'ASR, esploriamo l'utilizzo del modello Whisper per il riconoscimento del code-switched arabo egiziano, dettagliando le nostre procedure sperimentali, inclusa la pre-elaborazione dei dati e le tecniche di addestramento. Attraverso l'implementazione di un sistema di traduzione consecutiva da voce a testo che integra ASR con MT, miriamo a superare le sfide poste dalle risorse limitate e dalle caratteristiche uniche del dialetto arabo egiziano. La valutazione rispetto a metriche consolidate mostra risultati promettenti, con le nostre metodologie che registrano un miglioramento significativo del 56% nella traduzione in inglese rispetto allo stato dell'arte e del 9,3% nella traduzione in arabo. Poiché il code-switching è profondamente radicato nelle lingue parlate, è cruciale che i sistemi ASR siano in grado di gestire efficacemente questo fenomeno. Questa capacità è essenziale per consentire un'interazione fluida in vari ambiti, tra cui negoziazioni commerciali, scambi culturali e discorsi accademici. I nostri modelli e il codice sono disponibili come risorse open-source. Codice: http://github.com/ahmedheakl/arazn-llm}, Modelli: http://huggingface.co/collections/ahmedheakl/arazn-llm-662ceaf12777656607b9524e.

ResumeAtlas: Ripensare la Classificazione dei Curriculum con Dataset su Larga Scala e Modelli Linguistici di Grandi Dimensioni
ResumeAtlas: Revisiting Resume Classification with Large-Scale Datasets and Large Language Models

Jun 26

ByAhmed Heakl, Youssef Mohamed, Noran Mohamed, Ali Sharkaway, Ahmed Zaky

La crescente dipendenza dalle piattaforme di reclutamento online, unita all'adozione di tecnologie di intelligenza artificiale, ha evidenziato la necessità critica di metodi efficienti per la classificazione dei curriculum. Tuttavia, sfide come dataset di piccole dimensioni, mancanza di modelli standardizzati per i curriculum e preoccupazioni relative alla privacy ostacolano l'accuratezza e l'efficacia dei modelli di classificazione esistenti. In questo lavoro, affrontiamo queste sfide presentando un approccio completo alla classificazione dei curriculum. Abbiamo curato un dataset su larga scala di 13.389 curriculum provenienti da fonti diverse e abbiamo utilizzato modelli linguistici di grandi dimensioni (LLM) come BERT e Gemma1.1 2B per la classificazione. I nostri risultati dimostrano miglioramenti significativi rispetto agli approcci tradizionali di machine learning, con il nostro miglior modello che raggiunge un'accuratezza top-1 del 92% e un'accuratezza top-5 del 97,5%. Questi risultati sottolineano l'importanza della qualità del dataset e delle architetture avanzate dei modelli nel migliorare l'accuratezza e la robustezza dei sistemi di classificazione dei curriculum, contribuendo così a far progredire il campo delle pratiche di reclutamento online.

Valutazione delle Rappresentazioni degli Stati Mentali nei Modelli Linguistici
Benchmarking Mental State Representations in Language Models

Jun 25

ByMatteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling

Mentre numerosi lavori hanno valutato le prestazioni generative dei modelli linguistici (LM) in compiti che richiedono ragionamenti basati sulla Teoria della Mente, la ricerca sulle rappresentazioni interne degli stati mentali nei modelli rimane limitata. Recenti studi hanno utilizzato tecniche di probing per dimostrare che i LM possono rappresentare le credenze di sé stessi e degli altri. Tuttavia, queste affermazioni sono accompagnate da una valutazione limitata, rendendo difficile determinare come le rappresentazioni degli stati mentali siano influenzate dalle scelte di progettazione e addestramento del modello. Presentiamo un benchmark esteso con vari tipi di LM, diverse dimensioni del modello, approcci di fine-tuning e design dei prompt per studiare la robustezza delle rappresentazioni degli stati mentali e i problemi di memorizzazione all'interno delle sonde. I nostri risultati mostrano che la qualità delle rappresentazioni interne delle credenze degli altri aumenta con la dimensione del modello e, ancora più crucialmente, con il fine-tuning. Siamo i primi a studiare come le variazioni dei prompt influenzino le prestazioni del probing nei compiti di Teoria della Mente. Dimostriamo che le rappresentazioni dei modelli sono sensibili alle variazioni dei prompt, anche quando tali variazioni dovrebbero essere benefiche. Infine, integriamo precedenti esperimenti di modifica delle attivazioni nei compiti di Teoria della Mente e mostriamo che è possibile migliorare le prestazioni di ragionamento dei modelli orientando le loro attivazioni senza la necessità di addestrare alcuna sonda.

Allineamento delle Preferenze del Docente con quelle dello Studente per la Generazione di Dati di Addestramento Personalizzati
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Jun 27

ByYantao Liu, Zhao Zhang, Zijun Yao, Shulin Cao, Lei Hou, Juanzi Li