Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Seed-Music, un insieme di sistemi di generazione musicale capaci di produrre musica di alta qualità con un controllo dettagliato dello stile. Il nostro framework unificato sfrutta sia la modellazione del linguaggio auto-regressiva che gli approcci di diffusione per supportare due flussi di lavoro chiave nella creazione musicale: generazione di musica controllata e editing in post-produzione. Per la generazione di musica controllata, il nostro sistema consente la generazione di musica vocale con controlli prestazionali da input multimodali, inclusi descrizioni di stile, riferimenti audio, partiture musicali e suggerimenti vocali. Per l'editing in post-produzione, offre strumenti interattivi per modificare testi e melodie vocali direttamente nell'audio generato. Incoraggiamo i lettori ad ascoltare esempi audio dimostrativi su https://team.doubao.com/seed-music.
I Transformer rappresentano la pietra angolare del deep learning moderno. Tradizionalmente, questi modelli si basano su strati di perceptron multi-strato (MLP) per mescolare le informazioni tra i canali. In questo articolo, presentiamo il Transformer Kolmogorov-Arnold (KAT), una nuova architettura che sostituisce gli strati MLP con gli strati di rete Kolmogorov-Arnold (KAN) per migliorare l'espressività e le prestazioni del modello. Integrare i KAN nei transformer, tuttavia, non è affatto semplice, specialmente quando si scala il sistema. In particolare, identifichiamo tre sfide chiave: (C1) Funzione di base. La funzione standard a B-spline utilizzata nei KAN non è ottimizzata per il calcolo parallelo sull'hardware moderno, risultando in velocità di inferenza più lente. (C2) Inefficienza nei parametri e nei calcoli. I KAN richiedono una funzione unica per ciascuna coppia input-output, rendendo i calcoli estremamente complessi. (C3) Inizializzazione dei pesi. L'inizializzazione dei pesi nei KAN è particolarmente impegnativa a causa delle loro funzioni di attivazione apprendibili, che sono cruciali per raggiungere la convergenza nelle reti neurali profonde. Per superare le sfide sopra menzionate, proponiamo tre soluzioni chiave: (S1) Base razionale. Sostituiamo le funzioni a B-spline con funzioni razionali per migliorare la compatibilità con le GPU moderne. Implementando ciò in CUDA, otteniamo calcoli più veloci. (S2) KAN di gruppo. Condividiamo i pesi di attivazione attraverso un gruppo di neuroni, per ridurre il carico computazionale senza compromettere le prestazioni. (S3) Inizializzazione che conserva la varianza. Inizializziamo attentamente i pesi di attivazione per garantire che la varianza di attivazione sia mantenuta tra i livelli. Con questi design, il KAT scala efficacemente e supera facilmente i transformer tradizionali basati su MLP.
Transformer-based large Language Models (LLMs) become increasingly important in various domains. However, the quadratic time complexity of attention operation poses a significant challenge for scaling to longer contexts due to the extremely high inference latency and GPU memory consumption for caching key-value (KV) vectors. This paper proposes RetrievalAttention, a training-free approach to accelerate attention computation. To leverage the dynamic sparse property of attention, RetrievalAttention builds approximate nearest neighbor search (ANNS) indexes upon KV vectors in CPU memory and retrieves the most relevant ones via vector search during generation. Due to the out-of-distribution (OOD) between query vectors and key vectors, off-the-shelf ANNS indexes still need to scan O(N) (usually 30% of all keys) data for accurate retrieval, which fails to exploit the high sparsity. RetrievalAttention first identifies the OOD challenge of ANNS-based attention, and addresses it via an attention-aware vector search algorithm that can adapt to queries and only access 1--3% of data, thus achieving a sub-linear time complexity. RetrievalAttention greatly reduces the inference cost of long-context LLM with much lower GPU memory requirements while maintaining the model accuracy. Especially, RetrievalAttention only needs 16GB GPU memory for serving 128K tokens in LLMs with 8B parameters, which is capable of generating one token in 0.188 seconds on a single NVIDIA RTX4090 (24GB).
Introduciamo jina-embeddings-v3, un nuovo modello di embedding di testo con 570 milioni di parametri, che raggiunge prestazioni all'avanguardia su dati multilingue e compiti di recupero di contesti lunghi, supportando lunghezze di contesto fino a 8192 token. Il modello include un insieme di adattatori Low-Rank Adaptation (LoRA) specifici per il compito per generare embedding di alta qualità per il recupero di query-documenti, clustering, classificazione e corrispondenza di testo. Inoltre, il Matryoshka Representation Learning è integrato nel processo di addestramento, consentendo un troncamento flessibile delle dimensioni degli embedding senza compromettere le prestazioni. L'valutazione sul benchmark MTEB mostra che jina-embeddings-v3 supera i più recenti embedding proprietari di OpenAI e Cohere nei compiti in lingua inglese, ottenendo prestazioni superiori rispetto a multilingual-e5-large-instruct in tutti i compiti multilingue.
I modelli visione-linguaggio si sono recentemente evoluti in sistemi versatili capaci di ottenere elevate prestazioni in una vasta gamma di compiti, come la comprensione dei documenti, il rispondere a domande visive e la localizzazione, spesso in contesti a zero shot. La comprensione dei fumetti, un campo complesso e sfaccettato, potrebbe trarre grandi benefici da questi progressi. I fumetti, come medium, combinano ricche narrazioni visive e testuali, mettendo alla prova i modelli di intelligenza artificiale con compiti che spaziano dalla classificazione delle immagini, alla rilevazione degli oggetti, alla segmentazione delle istanze e alla comprensione più profonda della narrazione attraverso pannelli sequenziali. Tuttavia, la struttura unica dei fumetti - caratterizzata da variazioni creative nello stile, nell'ordine di lettura e nella narrazione non lineare - presenta una serie di sfide diverse da quelle in altri domini visione-linguaggio. In questa panoramica, presentiamo una revisione completa della comprensione dei fumetti sia dal punto di vista dei dataset che dei compiti. Le nostre contribuzioni sono cinque: (1) Analizziamo la struttura del medium dei fumetti, dettagliando i suoi elementi compositivi distintivi; (2) Esaminiamo i dataset e i compiti ampiamente utilizzati nella ricerca sui fumetti, sottolineandone il ruolo nel progresso del campo; (3) Introduciamo il framework Layer of Comics Understanding (LoCU), una nuova tassonomia che ridefinisce i compiti visione-linguaggio all'interno dei fumetti e getta le basi per futuri lavori; (4) Forniamo una revisione dettagliata e una categorizzazione dei metodi esistenti seguendo il framework LoCU; (5) Infine, evidenziamo le attuali sfide di ricerca e proponiamo direzioni per future esplorazioni, in particolare nel contesto dei modelli visione-linguaggio applicati ai fumetti. Questa panoramica è la prima a proporre un framework orientato ai compiti per l'intelligenza dei fumetti e mira a guidare la ricerca futura affrontando lacune critiche nella disponibilità dei dati e nella definizione dei compiti. Un progetto associato a questa panoramica è disponibile su https://github.com/emanuelevivoli/awesome-comics-understanding.
I Large Language Models (LLM) sono diventati indispensabili in numerose applicazioni del mondo reale. Purtroppo, ottimizzare questi modelli su larga scala, specialmente in contesti federati dove la privacy dei dati e l'efficienza della comunicazione sono cruciali, presenta significativi ostacoli. I metodi esistenti spesso ricorrono all'ottimizzazione efficiente dei parametri (PEFT) per mitigare il sovraccarico della comunicazione, ma ciò di solito comporta un costo in termini di accuratezza del modello. Per affrontare queste limitazioni, proponiamo il tuning completo dei parametri su larga scala per LLM (Ferret), il primo metodo di primo ordine con casualità condivisa per consentire un ottimizzazione scalabile dei parametri completi di LLM tra fonti di dati decentralizzate mantenendo nel contempo un'accuratezza del modello competitiva. Ferret raggiunge questo obiettivo attraverso tre aspetti: (1) utilizza metodi di primo ordine ampiamente applicati per aggiornamenti locali efficienti; (2) proietta questi aggiornamenti in uno spazio a bassa dimensione per ridurre considerevolmente il sovraccarico della comunicazione; e (3) ricostruisce gli aggiornamenti locali da questo spazio a bassa dimensione con casualità condivisa per facilitare un'aggregazione globale efficace dei parametri completi, garantendo una rapida convergenza e un'accuratezza finale competitiva. Le nostre rigorose analisi teoriche e intuizioni insieme a estesi esperimenti dimostrano che Ferret migliora significativamente la scalabilità degli approcci esistenti per il tuning completo dei parametri federati, raggiungendo un'elevata efficienza computazionale, una riduzione del sovraccarico della comunicazione e una rapida convergenza, il tutto mantenendo un'accuratezza del modello competitiva. La nostra implementazione è disponibile su https://github.com/allen4747/Ferret.
Introduciamo il Diagramma del Pensiero (DoT), un framework che modella il ragionamento iterativo nei grandi modelli linguistici (LLM) come la costruzione di un grafo diretto aciclico (DAG) all'interno di un singolo modello. A differenza degli approcci tradizionali che rappresentano il ragionamento come catene lineari o alberi, DoT organizza proposizioni, critiche, perfezionamenti e verifiche in una struttura coesa a DAG, consentendo al modello di esplorare percorsi di ragionamento complessi mantenendo al contempo coerenza logica. Ogni nodo nel diagramma corrisponde a una proposizione che è stata proposta, criticata, perfezionata o verificata, consentendo al LLM di migliorare iterativamente il suo ragionamento attraverso un feedback in linguaggio naturale. Sfruttando la previsione auto-regressiva del token successivo con token specifici del ruolo, DoT facilita transizioni fluide tra la proposta di idee e la valutazione critica, fornendo un feedback più ricco rispetto ai segnali binari. Inoltre, formalizziamo il framework DoT utilizzando la Teoria dei Topoi, fornendo una base matematica che garantisce coerenza logica e solidità nel processo di ragionamento. Questo approccio potenzia sia i processi di addestramento che di inferenza all'interno di un singolo LLM, eliminando la necessità di modelli multipli o meccanismi di controllo esterni. DoT offre un framework concettuale per progettare modelli specializzati nel ragionamento di prossima generazione, enfatizzando l'efficienza dell'addestramento, le capacità di ragionamento robuste e le basi teoriche. Il codice è disponibile su https://github.com/diagram-of-thought/diagram-of-thought.
I modelli audio-linguistici ad apertura di vocabolario, come CLAP, offrono un approccio promettente per la classificazione audio a zero-shot (ZSAC) consentendo la classificazione con qualsiasi insieme arbitrario di categorie specificate con prompt in linguaggio naturale. In questo articolo, proponiamo un metodo semplice ma efficace per migliorare ZSAC con CLAP. In particolare, ci spostiamo dal metodo convenzionale di utilizzare prompt con etichette di categorie astratte (ad esempio, Suono di un organo) a prompt che descrivono suoni utilizzando le loro caratteristiche descrittive intrinseche in un contesto diversificato (ad esempio, I toni profondi e risonanti dell'organo riempivano la cattedrale). Per raggiungere questo obiettivo, proponiamo innanzitutto ReCLAP, un modello CLAP addestrato con didascalie audio riscritte per una migliore comprensione dei suoni in natura. Queste didascalie riscritte descrivono ogni evento sonoro nella didascalia originale utilizzando le loro caratteristiche discriminanti uniche. ReCLAP supera tutti i modelli di base sia nel recupero audio-testo multimodale che in ZSAC. Successivamente, per migliorare la classificazione audio a zero-shot con ReCLAP, proponiamo l'aumento dei prompt. Contrariamente al metodo tradizionale di utilizzare prompt di modelli predefiniti scritti a mano, generiamo prompt personalizzati per ciascuna etichetta unica nel dataset. Questi prompt personalizzati descrivono innanzitutto l'evento sonoro nell'etichetta e poi li impiegano in scene diverse. Il nostro metodo proposto migliora le prestazioni di ReCLAP su ZSAC del 1% - 18% e supera tutti i modelli di base del 1% - 55%.
Il Question-Answering Visivo (VQA) è diventato un caso d'uso chiave in diverse applicazioni per migliorare l'esperienza dell'utente, specialmente dopo che i Modelli Visione-Linguaggio (VLMs) hanno ottenuto buoni risultati nell'inferenza a zero-shot. Tuttavia, valutare diversi VLMs per un requisito di applicazione utilizzando un framework standardizzato in contesti pratici rimane ancora una sfida. Questo articolo introduce un framework completo per valutare i VLMs adattati ai compiti VQA in contesti pratici. Presentiamo un nuovo dataset derivato da benchmark VQA consolidati, annotati con tipi di compiti, domini di applicazione e tipi di conoscenza, tre aspetti pratici chiave su cui i compiti possono variare. Introduciamo inoltre GoEval, una metrica di valutazione multimodale sviluppata utilizzando GPT-4o, che raggiunge un fattore di correlazione del 56,71% con i giudizi umani. I nostri esperimenti con dieci VLMs all'avanguardia rivelano che nessun singolo modello eccelle universalmente, rendendo la selezione appropriata una decisione progettuale chiave. I modelli proprietari come Gemini-1.5-Pro e GPT-4o-mini generalmente superano gli altri, anche se modelli open-source come InternVL-2-8B e CogVLM-2-Llama-3-19B dimostrano punti di forza competitivi in contesti specifici, fornendo anche vantaggi aggiuntivi. Questo studio guida la selezione dei VLMs basata su requisiti specifici dei compiti e vincoli di risorse, e può essere esteso anche ad altri compiti visione-linguaggio.
Il Reinforcement Learning da feedback umano (RLHF) è una delle tecniche chiave che aiuta i grandi modelli linguistici (LLM) a seguire istruzioni e fornire risposte utili e inoffensive. Mentre esistono metodi diretti di ottimizzazione della policy, i LLM all'avanguardia adottano metodi basati su RL (di solito PPO) in RLHF per addestrare la policy a generare buone risposte guidate da un modello di ricompensa appreso dai dati di preferenza. La principale sfida di questi metodi è l'inesattezza del modello di ricompensa intermedio, specialmente nei compiti di generazione di codice che richiedono un ragionamento lungo e complesso per valutare una risposta. Abbiamo riscontrato che l'affidabilità del modello di ricompensa varia tra le risposte assegnate con diverse ricompense. Questo ci motiva a filtrare i campioni le cui ricompense potrebbero non essere affidabili per migliorare il rapporto segnale-rumore durante l'apprendimento della policy, risultando in Filtraggio della Policy per l'Ottimizzazione della Policy Prossimale (PF-PPO). Per scegliere una strategia di filtraggio della policy adeguata per un dato modello di ricompensa, il coefficiente di determinazione (R^2) tra le ricompense e i punteggi effettivi sui campioni filtrati funge da buona metrica e ci aiuta a individuare diverse strategie promettenti. Forniamo ampi esperimenti per convalidare l'efficacia di PF-PPO nei compiti di generazione di codice e scopriamo che alcune varianti di PF-PPO sono altamente efficaci e raggiungono nuove prestazioni all'avanguardia su modelli da 7 miliardi di parametri su HumanEval, MBPP e un nuovo e più impegnativo benchmark del Contest LeetCode.
Il nostro lavoro esamina l'efficacia dell'impiego di metodi avanzati di apprendimento automatico per risolvere i captcha del sistema reCAPTCHAv2 di Google. Valutiamo l'efficacia dei sistemi automatizzati nella risoluzione dei captcha utilizzando modelli YOLO avanzati per la segmentazione e classificazione delle immagini. Il nostro risultato principale è che possiamo risolvere il 100% dei captcha, mentre lavori precedenti risolvevano solo il 68-71%. Inoltre, le nostre scoperte suggeriscono che non vi è una differenza significativa nel numero di sfide che umani e bot devono superare per superare i captcha in reCAPTCHAv2. Ciò implica che le attuali tecnologie AI possono sfruttare i captcha avanzati basati sull'immagine. Esaminiamo anche da vicino il funzionamento interno di reCAPTCHAv2 e troviamo prove che reCAPTCHAv2 si basa pesantemente sui dati dei cookie e della cronologia del browser per valutare se un utente è umano o meno. Il codice è fornito insieme a questo articolo.
Studi recenti hanno identificato che i modelli linguistici, preaddestrati su set di dati solo testuali, spesso mancano di conoscenze visive elementari, ad esempio i colori degli oggetti di tutti i giorni. Motivati da questa osservazione, ci chiediamo se esista una simile carenza in termini di conoscenza uditiva. Per rispondere a questa domanda, abbiamo creato un nuovo set di dati chiamato AuditoryBench, che consiste in due nuovi compiti per valutare la conoscenza uditiva. Sulla base della nostra analisi utilizzando il benchmark, abbiamo riscontrato che i modelli linguistici soffrono anche di una grave mancanza di conoscenza uditiva. Per affrontare questa limitazione, proponiamo AudioBERT, un nuovo metodo per ampliare la conoscenza uditiva di BERT attraverso un approccio basato sul recupero. In primo luogo, individuiamo tratti di conoscenza uditiva nei prompt per interrogare efficacemente il nostro modello di recupero. Successivamente, iniettiamo la conoscenza uditiva in BERT e attiviamo un'adattazione a basso rango per un'adattamento efficace quando è richiesta la conoscenza uditiva. I nostri esperimenti dimostrano che AudioBERT è piuttosto efficace, ottenendo prestazioni superiori sull'AuditoryBench. Il set di dati e il codice sono disponibili su https://github.com/HJ-Ok/AudioBERT.
L'imaging a raggi X del torace (CXR) è uno strumento diagnostico importante utilizzato negli ospedali per valutare le condizioni dei pazienti e monitorare i cambiamenti nel tempo. I modelli generativi, in particolare i modelli basati sulla diffusione, hanno mostrato promesse nella generazione di raggi X sintetici realistici. Tuttavia, questi modelli si concentrano principalmente sulla generazione condizionale utilizzando dati di singoli punti temporali, cioè tipicamente CXR acquisiti in un momento specifico con i relativi report, limitando la loro utilità clinica, in particolare per catturare i cambiamenti temporali. Per affrontare questa limitazione, proponiamo un nuovo framework, EHRXDiff, che predice immagini future di CXR integrando CXR precedenti con eventi medici successivi, ad esempio prescrizioni, misure di laboratorio, ecc. Il nostro framework traccia e predice dinamicamente la progressione della malattia basandosi su un modello di diffusione latente, condizionato all'immagine CXR precedente e a un'analisi degli eventi medici. Valutiamo in modo esaustivo le prestazioni del nostro framework su tre aspetti chiave, tra cui coerenza clinica, coerenza demografica e realismo visivo. Dimostriamo che il nostro framework genera immagini future di alta qualità e realistiche che catturano potenziali cambiamenti temporali, suggerendo il suo potenziale per ulteriori sviluppi come strumento di simulazione clinica. Ciò potrebbe offrire preziose intuizioni per il monitoraggio dei pazienti e la pianificazione del trattamento nel campo medico.
I sistemi di raccomandazione spesso utilizzano informazioni testuali per migliorare le loro previsioni, specialmente in scenari di raccomandazione a partire da zero o senza dati iniziali, in cui non possono essere impiegati approcci tradizionali di filtraggio collaborativo. Negli ultimi anni sono state proposte molte metodologie per l'estrazione di informazioni testuali a supporto dei sistemi di raccomandazione, con i Transformer di frasi che rappresentano l'approccio più prominente. Tuttavia, questi modelli sono addestrati per prevedere la similarità semantica senza sfruttare i dati di interazione con modelli nascosti specifici dei sistemi di raccomandazione. In questo articolo, proponiamo beeFormer, un framework per l'addestramento di modelli Transformer di frasi con dati di interazione. Dimostriamo che i nostri modelli addestrati con beeFormer possono trasferire conoscenze tra diversi dataset, superando non solo i Transformer di frasi per similarità semantica, ma anche i metodi tradizionali di filtraggio collaborativo. Mostriamo inoltre che l'addestramento su più dataset provenienti da domini diversi consente di accumulare conoscenze in un unico modello, aprendo la possibilità di addestrare modelli Transformer di frasi universali e indipendenti dal dominio per estrarre rappresentazioni testuali per i sistemi di raccomandazione. Rilasciamo il codice sorgente, i modelli addestrati e dettagli aggiuntivi per consentire la replicazione dei nostri esperimenti su https://github.com/recombee/beeformer.
La conversione grafema-fonema (G2P) è fondamentale nel trattamento del linguaggio parlato, in particolare per applicazioni come la sintesi vocale. I sistemi G2P devono possedere una comprensione linguistica e consapevolezza contestuale delle lingue con parole polifoniche e fonemi dipendenti dal contesto. I grandi modelli linguistici (LLM) hanno recentemente dimostrato un significativo potenziale in varie attività linguistiche, suggerendo che la loro conoscenza fonetica potrebbe essere sfruttata per la G2P. In questo articolo, valutiamo le prestazioni dei LLM nella conversione G2P e introduciamo metodi di sollecitazione e post-elaborazione che migliorano le uscite dei LLM senza ulteriore addestramento o dati annotati. Presentiamo inoltre un dataset di benchmark progettato per valutare le prestazioni G2P sulle sfide fonetiche a livello di frase della lingua persiana. I nostri risultati mostrano che applicando i metodi proposti, i LLM possono superare gli strumenti G2P tradizionali, anche in una lingua poco rappresentata come il persiano, evidenziando il potenziale dello sviluppo di sistemi G2P assistiti dai LLM.