HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

15 papers found

Seed-Music: Un quadro unificato per la generazione di musica di alta qualità e controllata
Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

Sep 13

ByYe Bai, Haonan Chen, Jitong Chen, Zhuo Chen, Yi Deng, Xiaohong Dong, Lamtharn Hantrakul, Weituo Hao, Qingqing Huang, Zhongyi Huang, Dongya Jia, Feihu La, Duc Le, Bochen Li, Chumin Li, Hui Li, Xingxing Li, Shouda Liu, Wei-Tsung Lu, Yiqing Lu, Andrew Shaw, Janne Spijkervet, Yakun Sun, Bo Wang, Ju-Chiang Wang, Yuping Wang, Yuxuan Wang, Ling Xu, Yifeng Yang, Chao Yao, Shuo Zhang, Yang Zhang, Yilin Zhang, Hang Zhao, Ziyi Zhao, Dejian Zhong, Shicen Zhou, Pei Zou

Introduciamo Seed-Music, un insieme di sistemi di generazione musicale capaci di produrre musica di alta qualità con un controllo dettagliato dello stile. Il nostro framework unificato sfrutta sia la modellazione del linguaggio auto-regressiva che gli approcci di diffusione per supportare due flussi di lavoro chiave nella creazione musicale: generazione di musica controllata e editing in post-produzione. Per la generazione di musica controllata, il nostro sistema consente la generazione di musica vocale con controlli prestazionali da input multimodali, inclusi descrizioni di stile, riferimenti audio, partiture musicali e suggerimenti vocali. Per l'editing in post-produzione, offre strumenti interattivi per modificare testi e melodie vocali direttamente nell'audio generato. Incoraggiamo i lettori ad ascoltare esempi audio dimostrativi su https://team.doubao.com/seed-music.

Trasformatore di Kolmogorov-Arnold
Kolmogorov-Arnold Transformer

Sep 16

ByXingyi Yang, Xinchao Wang

I Transformer rappresentano la pietra angolare del deep learning moderno. Tradizionalmente, questi modelli si basano su strati di perceptron multi-strato (MLP) per mescolare le informazioni tra i canali. In questo articolo, presentiamo il Transformer Kolmogorov-Arnold (KAT), una nuova architettura che sostituisce gli strati MLP con gli strati di rete Kolmogorov-Arnold (KAN) per migliorare l'espressività e le prestazioni del modello. Integrare i KAN nei transformer, tuttavia, non è affatto semplice, specialmente quando si scala il sistema. In particolare, identifichiamo tre sfide chiave: (C1) Funzione di base. La funzione standard a B-spline utilizzata nei KAN non è ottimizzata per il calcolo parallelo sull'hardware moderno, risultando in velocità di inferenza più lente. (C2) Inefficienza nei parametri e nei calcoli. I KAN richiedono una funzione unica per ciascuna coppia input-output, rendendo i calcoli estremamente complessi. (C3) Inizializzazione dei pesi. L'inizializzazione dei pesi nei KAN è particolarmente impegnativa a causa delle loro funzioni di attivazione apprendibili, che sono cruciali per raggiungere la convergenza nelle reti neurali profonde. Per superare le sfide sopra menzionate, proponiamo tre soluzioni chiave: (S1) Base razionale. Sostituiamo le funzioni a B-spline con funzioni razionali per migliorare la compatibilità con le GPU moderne. Implementando ciò in CUDA, otteniamo calcoli più veloci. (S2) KAN di gruppo. Condividiamo i pesi di attivazione attraverso un gruppo di neuroni, per ridurre il carico computazionale senza compromettere le prestazioni. (S3) Inizializzazione che conserva la varianza. Inizializziamo attentamente i pesi di attivazione per garantire che la varianza di attivazione sia mantenuta tra i livelli. Con questi design, il KAT scala efficacemente e supera facilmente i transformer tradizionali basati su MLP.

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

Sep 16

ByDi Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu

Transformer-based large Language Models (LLMs) become increasingly important in various domains. However, the quadratic time complexity of attention operation poses a significant challenge for scaling to longer contexts due to the extremely high inference latency and GPU memory consumption for caching key-value (KV) vectors. This paper proposes RetrievalAttention, a training-free approach to accelerate attention computation. To leverage the dynamic sparse property of attention, RetrievalAttention builds approximate nearest neighbor search (ANNS) indexes upon KV vectors in CPU memory and retrieves the most relevant ones via vector search during generation. Due to the out-of-distribution (OOD) between query vectors and key vectors, off-the-shelf ANNS indexes still need to scan O(N) (usually 30% of all keys) data for accurate retrieval, which fails to exploit the high sparsity. RetrievalAttention first identifies the OOD challenge of ANNS-based attention, and addresses it via an attention-aware vector search algorithm that can adapt to queries and only access 1--3% of data, thus achieving a sub-linear time complexity. RetrievalAttention greatly reduces the inference cost of long-context LLM with much lower GPU memory requirements while maintaining the model accuracy. Especially, RetrievalAttention only needs 16GB GPU memory for serving 128K tokens in LLMs with 8B parameters, which is capable of generating one token in 0.188 seconds on a single NVIDIA RTX4090 (24GB).

jina-embeddings-v3: Embedding Multilingue con Task LoRA
jina-embeddings-v3: Multilingual Embeddings With Task LoRA

Sep 16

BySaba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao

Introduciamo jina-embeddings-v3, un nuovo modello di embedding di testo con 570 milioni di parametri, che raggiunge prestazioni all'avanguardia su dati multilingue e compiti di recupero di contesti lunghi, supportando lunghezze di contesto fino a 8192 token. Il modello include un insieme di adattatori Low-Rank Adaptation (LoRA) specifici per il compito per generare embedding di alta qualità per il recupero di query-documenti, clustering, classificazione e corrispondenza di testo. Inoltre, il Matryoshka Representation Learning è integrato nel processo di addestramento, consentendo un troncamento flessibile delle dimensioni degli embedding senza compromettere le prestazioni. L'valutazione sul benchmark MTEB mostra che jina-embeddings-v3 supera i più recenti embedding proprietari di OpenAI e Cohere nei compiti in lingua inglese, ottenendo prestazioni superiori rispetto a multilingual-e5-large-instruct in tutti i compiti multilingue.

Un pezzo mancante in Visione e Linguaggio: Una panoramica sui fumetti Understanding
One missing piece in Vision and Language: A Survey on Comics Understanding

Sep 14

ByEmanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas

I modelli visione-linguaggio si sono recentemente evoluti in sistemi versatili capaci di ottenere elevate prestazioni in una vasta gamma di compiti, come la comprensione dei documenti, il rispondere a domande visive e la localizzazione, spesso in contesti a zero shot. La comprensione dei fumetti, un campo complesso e sfaccettato, potrebbe trarre grandi benefici da questi progressi. I fumetti, come medium, combinano ricche narrazioni visive e testuali, mettendo alla prova i modelli di intelligenza artificiale con compiti che spaziano dalla classificazione delle immagini, alla rilevazione degli oggetti, alla segmentazione delle istanze e alla comprensione più profonda della narrazione attraverso pannelli sequenziali. Tuttavia, la struttura unica dei fumetti - caratterizzata da variazioni creative nello stile, nell'ordine di lettura e nella narrazione non lineare - presenta una serie di sfide diverse da quelle in altri domini visione-linguaggio. In questa panoramica, presentiamo una revisione completa della comprensione dei fumetti sia dal punto di vista dei dataset che dei compiti. Le nostre contribuzioni sono cinque: (1) Analizziamo la struttura del medium dei fumetti, dettagliando i suoi elementi compositivi distintivi; (2) Esaminiamo i dataset e i compiti ampiamente utilizzati nella ricerca sui fumetti, sottolineandone il ruolo nel progresso del campo; (3) Introduciamo il framework Layer of Comics Understanding (LoCU), una nuova tassonomia che ridefinisce i compiti visione-linguaggio all'interno dei fumetti e getta le basi per futuri lavori; (4) Forniamo una revisione dettagliata e una categorizzazione dei metodi esistenti seguendo il framework LoCU; (5) Infine, evidenziamo le attuali sfide di ricerca e proponiamo direzioni per future esplorazioni, in particolare nel contesto dei modelli visione-linguaggio applicati ai fumetti. Questa panoramica è la prima a proporre un framework orientato ai compiti per l'intelligenza dei fumetti e mira a guidare la ricerca futura affrontando lacune critiche nella disponibilità dei dati e nella definizione dei compiti. Un progetto associato a questa panoramica è disponibile su https://github.com/emanuelevivoli/awesome-comics-understanding.

Ferret: Ottimizzazione Federata a Tutti i Parametri su Larga Scala per Grandi Modelli Linguistici
Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

Sep 10

ByYao Shu, Wenyang Hu, See-Kiong Ng, Bryan Kian Hsiang Low, Fei Richard Yu

I Large Language Models (LLM) sono diventati indispensabili in numerose applicazioni del mondo reale. Purtroppo, ottimizzare questi modelli su larga scala, specialmente in contesti federati dove la privacy dei dati e l'efficienza della comunicazione sono cruciali, presenta significativi ostacoli. I metodi esistenti spesso ricorrono all'ottimizzazione efficiente dei parametri (PEFT) per mitigare il sovraccarico della comunicazione, ma ciò di solito comporta un costo in termini di accuratezza del modello. Per affrontare queste limitazioni, proponiamo il tuning completo dei parametri su larga scala per LLM (Ferret), il primo metodo di primo ordine con casualità condivisa per consentire un ottimizzazione scalabile dei parametri completi di LLM tra fonti di dati decentralizzate mantenendo nel contempo un'accuratezza del modello competitiva. Ferret raggiunge questo obiettivo attraverso tre aspetti: (1) utilizza metodi di primo ordine ampiamente applicati per aggiornamenti locali efficienti; (2) proietta questi aggiornamenti in uno spazio a bassa dimensione per ridurre considerevolmente il sovraccarico della comunicazione; e (3) ricostruisce gli aggiornamenti locali da questo spazio a bassa dimensione con casualità condivisa per facilitare un'aggregazione globale efficace dei parametri completi, garantendo una rapida convergenza e un'accuratezza finale competitiva. Le nostre rigorose analisi teoriche e intuizioni insieme a estesi esperimenti dimostrano che Ferret migliora significativamente la scalabilità degli approcci esistenti per il tuning completo dei parametri federati, raggiungendo un'elevata efficienza computazionale, una riduzione del sovraccarico della comunicazione e una rapida convergenza, il tutto mantenendo un'accuratezza del modello competitiva. La nostra implementazione è disponibile su https://github.com/allen4747/Ferret.

Sul Diagramma del Pensiero
On the Diagram of Thought

Sep 16

ByYifan Zhang, Yang Yuan, Andrew Chi-Chih Yao

Introduciamo il Diagramma del Pensiero (DoT), un framework che modella il ragionamento iterativo nei grandi modelli linguistici (LLM) come la costruzione di un grafo diretto aciclico (DAG) all'interno di un singolo modello. A differenza degli approcci tradizionali che rappresentano il ragionamento come catene lineari o alberi, DoT organizza proposizioni, critiche, perfezionamenti e verifiche in una struttura coesa a DAG, consentendo al modello di esplorare percorsi di ragionamento complessi mantenendo al contempo coerenza logica. Ogni nodo nel diagramma corrisponde a una proposizione che è stata proposta, criticata, perfezionata o verificata, consentendo al LLM di migliorare iterativamente il suo ragionamento attraverso un feedback in linguaggio naturale. Sfruttando la previsione auto-regressiva del token successivo con token specifici del ruolo, DoT facilita transizioni fluide tra la proposta di idee e la valutazione critica, fornendo un feedback più ricco rispetto ai segnali binari. Inoltre, formalizziamo il framework DoT utilizzando la Teoria dei Topoi, fornendo una base matematica che garantisce coerenza logica e solidità nel processo di ragionamento. Questo approccio potenzia sia i processi di addestramento che di inferenza all'interno di un singolo LLM, eliminando la necessità di modelli multipli o meccanismi di controllo esterni. DoT offre un framework concettuale per progettare modelli specializzati nel ragionamento di prossima generazione, enfatizzando l'efficienza dell'addestramento, le capacità di ragionamento robuste e le basi teoriche. Il codice è disponibile su https://github.com/diagram-of-thought/diagram-of-thought.

ReCLAP: Miglioramento della Classificazione Audio a Zero Shot Descrivendo i Suoni
ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

Sep 13

BySreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

I modelli audio-linguistici ad apertura di vocabolario, come CLAP, offrono un approccio promettente per la classificazione audio a zero-shot (ZSAC) consentendo la classificazione con qualsiasi insieme arbitrario di categorie specificate con prompt in linguaggio naturale. In questo articolo, proponiamo un metodo semplice ma efficace per migliorare ZSAC con CLAP. In particolare, ci spostiamo dal metodo convenzionale di utilizzare prompt con etichette di categorie astratte (ad esempio, Suono di un organo) a prompt che descrivono suoni utilizzando le loro caratteristiche descrittive intrinseche in un contesto diversificato (ad esempio, I toni profondi e risonanti dell'organo riempivano la cattedrale). Per raggiungere questo obiettivo, proponiamo innanzitutto ReCLAP, un modello CLAP addestrato con didascalie audio riscritte per una migliore comprensione dei suoni in natura. Queste didascalie riscritte descrivono ogni evento sonoro nella didascalia originale utilizzando le loro caratteristiche discriminanti uniche. ReCLAP supera tutti i modelli di base sia nel recupero audio-testo multimodale che in ZSAC. Successivamente, per migliorare la classificazione audio a zero-shot con ReCLAP, proponiamo l'aumento dei prompt. Contrariamente al metodo tradizionale di utilizzare prompt di modelli predefiniti scritti a mano, generiamo prompt personalizzati per ciascuna etichetta unica nel dataset. Questi prompt personalizzati descrivono innanzitutto l'evento sonoro nell'etichetta e poi li impiegano in scene diverse. Il nostro metodo proposto migliora le prestazioni di ReCLAP su ZSAC del 1% - 18% e supera tutti i modelli di base del 1% - 55%.

Guidare la Selezione del Modello Visione-Linguaggio per la Risposta alle Domande Visive Attraverso Compiti, Domini e Tipi di Conoscenza
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

Sep 14

ByNeelabh Sinha, Vinija Jain, Aman Chadha

Il Question-Answering Visivo (VQA) è diventato un caso d'uso chiave in diverse applicazioni per migliorare l'esperienza dell'utente, specialmente dopo che i Modelli Visione-Linguaggio (VLMs) hanno ottenuto buoni risultati nell'inferenza a zero-shot. Tuttavia, valutare diversi VLMs per un requisito di applicazione utilizzando un framework standardizzato in contesti pratici rimane ancora una sfida. Questo articolo introduce un framework completo per valutare i VLMs adattati ai compiti VQA in contesti pratici. Presentiamo un nuovo dataset derivato da benchmark VQA consolidati, annotati con tipi di compiti, domini di applicazione e tipi di conoscenza, tre aspetti pratici chiave su cui i compiti possono variare. Introduciamo inoltre GoEval, una metrica di valutazione multimodale sviluppata utilizzando GPT-4o, che raggiunge un fattore di correlazione del 56,71% con i giudizi umani. I nostri esperimenti con dieci VLMs all'avanguardia rivelano che nessun singolo modello eccelle universalmente, rendendo la selezione appropriata una decisione progettuale chiave. I modelli proprietari come Gemini-1.5-Pro e GPT-4o-mini generalmente superano gli altri, anche se modelli open-source come InternVL-2-8B e CogVLM-2-Llama-3-19B dimostrano punti di forza competitivi in contesti specifici, fornendo anche vantaggi aggiuntivi. Questo studio guida la selezione dei VLMs basata su requisiti specifici dei compiti e vincoli di risorse, e può essere esteso anche ad altri compiti visione-linguaggio.

Filtraggio delle politiche in RLHF per perfezionare LLM per la generazione di codice
Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

Sep 11

ByWei Shen, Chuheng Zhang

Il Reinforcement Learning da feedback umano (RLHF) è una delle tecniche chiave che aiuta i grandi modelli linguistici (LLM) a seguire istruzioni e fornire risposte utili e inoffensive. Mentre esistono metodi diretti di ottimizzazione della policy, i LLM all'avanguardia adottano metodi basati su RL (di solito PPO) in RLHF per addestrare la policy a generare buone risposte guidate da un modello di ricompensa appreso dai dati di preferenza. La principale sfida di questi metodi è l'inesattezza del modello di ricompensa intermedio, specialmente nei compiti di generazione di codice che richiedono un ragionamento lungo e complesso per valutare una risposta. Abbiamo riscontrato che l'affidabilità del modello di ricompensa varia tra le risposte assegnate con diverse ricompense. Questo ci motiva a filtrare i campioni le cui ricompense potrebbero non essere affidabili per migliorare il rapporto segnale-rumore durante l'apprendimento della policy, risultando in Filtraggio della Policy per l'Ottimizzazione della Policy Prossimale (PF-PPO). Per scegliere una strategia di filtraggio della policy adeguata per un dato modello di ricompensa, il coefficiente di determinazione (R^2) tra le ricompense e i punteggi effettivi sui campioni filtrati funge da buona metrica e ci aiuta a individuare diverse strategie promettenti. Forniamo ampi esperimenti per convalidare l'efficacia di PF-PPO nei compiti di generazione di codice e scopriamo che alcune varianti di PF-PPO sono altamente efficaci e raggiungono nuove prestazioni all'avanguardia su modelli da 7 miliardi di parametri su HumanEval, MBPP e un nuovo e più impegnativo benchmark del Contest LeetCode.

Violazione di reCAPTCHAv2
Breaking reCAPTCHAv2

Sep 13

ByAndreas Plesner, Tobias Vontobel, Roger Wattenhofer

Il nostro lavoro esamina l'efficacia dell'impiego di metodi avanzati di apprendimento automatico per risolvere i captcha del sistema reCAPTCHAv2 di Google. Valutiamo l'efficacia dei sistemi automatizzati nella risoluzione dei captcha utilizzando modelli YOLO avanzati per la segmentazione e classificazione delle immagini. Il nostro risultato principale è che possiamo risolvere il 100% dei captcha, mentre lavori precedenti risolvevano solo il 68-71%. Inoltre, le nostre scoperte suggeriscono che non vi è una differenza significativa nel numero di sfide che umani e bot devono superare per superare i captcha in reCAPTCHAv2. Ciò implica che le attuali tecnologie AI possono sfruttare i captcha avanzati basati sull'immagine. Esaminiamo anche da vicino il funzionamento interno di reCAPTCHAv2 e troviamo prove che reCAPTCHAv2 si basa pesantemente sui dati dei cookie e della cronologia del browser per valutare se un utente è umano o meno. Il codice è fornito insieme a questo articolo.

AudioBERT: Modello Linguistico Potenziato da Conoscenza Audio
AudioBERT: Audio Knowledge Augmented Language Model

Sep 12

ByHyunjong Ok, Suho Yoo, Jaeho Lee

Studi recenti hanno identificato che i modelli linguistici, preaddestrati su set di dati solo testuali, spesso mancano di conoscenze visive elementari, ad esempio i colori degli oggetti di tutti i giorni. Motivati da questa osservazione, ci chiediamo se esista una simile carenza in termini di conoscenza uditiva. Per rispondere a questa domanda, abbiamo creato un nuovo set di dati chiamato AuditoryBench, che consiste in due nuovi compiti per valutare la conoscenza uditiva. Sulla base della nostra analisi utilizzando il benchmark, abbiamo riscontrato che i modelli linguistici soffrono anche di una grave mancanza di conoscenza uditiva. Per affrontare questa limitazione, proponiamo AudioBERT, un nuovo metodo per ampliare la conoscenza uditiva di BERT attraverso un approccio basato sul recupero. In primo luogo, individuiamo tratti di conoscenza uditiva nei prompt per interrogare efficacemente il nostro modello di recupero. Successivamente, iniettiamo la conoscenza uditiva in BERT e attiviamo un'adattazione a basso rango per un'adattamento efficace quando è richiesta la conoscenza uditiva. I nostri esperimenti dimostrano che AudioBERT è piuttosto efficace, ottenendo prestazioni superiori sull'AuditoryBench. Il set di dati e il codice sono disponibili su https://github.com/HJ-Ok/AudioBERT.

Verso la previsione delle variazioni temporali nelle immagini a raggi X del torace di un paziente basate sui Registri Sanitari Elettronici
Towards Predicting Temporal Changes in a Patient's Chest X-ray Images based on Electronic Health Records

Sep 11

ByDaeun Kyung, Junu Kim, Tackeun Kim, Edward Choi

L'imaging a raggi X del torace (CXR) è uno strumento diagnostico importante utilizzato negli ospedali per valutare le condizioni dei pazienti e monitorare i cambiamenti nel tempo. I modelli generativi, in particolare i modelli basati sulla diffusione, hanno mostrato promesse nella generazione di raggi X sintetici realistici. Tuttavia, questi modelli si concentrano principalmente sulla generazione condizionale utilizzando dati di singoli punti temporali, cioè tipicamente CXR acquisiti in un momento specifico con i relativi report, limitando la loro utilità clinica, in particolare per catturare i cambiamenti temporali. Per affrontare questa limitazione, proponiamo un nuovo framework, EHRXDiff, che predice immagini future di CXR integrando CXR precedenti con eventi medici successivi, ad esempio prescrizioni, misure di laboratorio, ecc. Il nostro framework traccia e predice dinamicamente la progressione della malattia basandosi su un modello di diffusione latente, condizionato all'immagine CXR precedente e a un'analisi degli eventi medici. Valutiamo in modo esaustivo le prestazioni del nostro framework su tre aspetti chiave, tra cui coerenza clinica, coerenza demografica e realismo visivo. Dimostriamo che il nostro framework genera immagini future di alta qualità e realistiche che catturano potenziali cambiamenti temporali, suggerendo il suo potenziale per ulteriori sviluppi come strumento di simulazione clinica. Ciò potrebbe offrire preziose intuizioni per il monitoraggio dei pazienti e la pianificazione del trattamento nel campo medico.

beeFormer: Colmare il Divario tra la Similarità Semantica e di Interazione nei Sistemi di Raccomandazione
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems

Sep 16

ByVojtěch Vančura, Pavel Kordík, Milan Straka

I sistemi di raccomandazione spesso utilizzano informazioni testuali per migliorare le loro previsioni, specialmente in scenari di raccomandazione a partire da zero o senza dati iniziali, in cui non possono essere impiegati approcci tradizionali di filtraggio collaborativo. Negli ultimi anni sono state proposte molte metodologie per l'estrazione di informazioni testuali a supporto dei sistemi di raccomandazione, con i Transformer di frasi che rappresentano l'approccio più prominente. Tuttavia, questi modelli sono addestrati per prevedere la similarità semantica senza sfruttare i dati di interazione con modelli nascosti specifici dei sistemi di raccomandazione. In questo articolo, proponiamo beeFormer, un framework per l'addestramento di modelli Transformer di frasi con dati di interazione. Dimostriamo che i nostri modelli addestrati con beeFormer possono trasferire conoscenze tra diversi dataset, superando non solo i Transformer di frasi per similarità semantica, ma anche i metodi tradizionali di filtraggio collaborativo. Mostriamo inoltre che l'addestramento su più dataset provenienti da domini diversi consente di accumulare conoscenze in un unico modello, aprendo la possibilità di addestrare modelli Transformer di frasi universali e indipendenti dal dominio per estrarre rappresentazioni testuali per i sistemi di raccomandazione. Rilasciamo il codice sorgente, i modelli addestrati e dettagli aggiuntivi per consentire la replicazione dei nostri esperimenti su https://github.com/recombee/beeformer.

Conversione grafema-fonema potenziata da LLM: Benchmark e Studio di Caso
LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study

Sep 13

ByMahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee

La conversione grafema-fonema (G2P) è fondamentale nel trattamento del linguaggio parlato, in particolare per applicazioni come la sintesi vocale. I sistemi G2P devono possedere una comprensione linguistica e consapevolezza contestuale delle lingue con parole polifoniche e fonemi dipendenti dal contesto. I grandi modelli linguistici (LLM) hanno recentemente dimostrato un significativo potenziale in varie attività linguistiche, suggerendo che la loro conoscenza fonetica potrebbe essere sfruttata per la G2P. In questo articolo, valutiamo le prestazioni dei LLM nella conversione G2P e introduciamo metodi di sollecitazione e post-elaborazione che migliorano le uscite dei LLM senza ulteriore addestramento o dati annotati. Presentiamo inoltre un dataset di benchmark progettato per valutare le prestazioni G2P sulle sfide fonetiche a livello di frase della lingua persiana. I nostri risultati mostrano che applicando i metodi proposti, i LLM possono superare gli strumenti G2P tradizionali, anche in una lingua poco rappresentata come il persiano, evidenziando il potenziale dello sviluppo di sistemi G2P assistiti dai LLM.

Un pezzo mancante in Visione e Linguaggio: Una panoramica sui fumetti Understanding
One missing piece in Vision and Language: A Survey on Comics Understanding

Sep 14

ByEmanuele Vivoli, Andrey Barsky, Mohamed Ali Souibgui, Artemis LLabres, Marco Bertini, Dimosthenis Karatzas