Articoli di ricerca IA selezionati quotidianamente con traduzioni
La comprensione della letteratura scientifica è cruciale per estrarre informazioni mirate e ottenere approfondimenti, contribuendo così in modo significativo alla scoperta scientifica. Nonostante il notevole successo dei Grandi Modelli Linguistici (LLM), essi affrontano sfide nella comprensione della letteratura scientifica, principalmente a causa (1) della mancanza di conoscenze scientifiche e (2) della non familiarità con compiti scientifici specializzati. Per sviluppare un LLM specializzato nella comprensione della letteratura scientifica, proponiamo una strategia ibrida che integra il pre-addestramento continuo (CPT) e il raffinamento supervisionato (SFT), per infondere simultaneamente conoscenze del dominio scientifico e migliorare le capacità di seguire istruzioni per compiti specifici del dominio. In questo processo, identifichiamo due sfide principali: (1) la costruzione di corpora CPT di alta qualità e (2) la generazione di istruzioni SFT diverse. Affrontiamo queste sfide attraverso un accurato processo, che include l'estrazione del testo dai PDF, la correzione degli errori di parsing del contenuto, il filtraggio della qualità e la creazione di istruzioni sintetiche. Applicando questa strategia, presentiamo una serie di LLM: SciLitLLM, specializzato nella comprensione della letteratura scientifica. Questi modelli mostrano prestazioni promettenti su benchmark di comprensione della letteratura scientifica. Le nostre contribuzioni sono tre: (1) Presentiamo un efficace framework che integra CPT e SFT per adattare i LLM alla comprensione della letteratura scientifica, che può essere facilmente adattato anche ad altri domini. (2) Proponiamo un metodo di sintesi basato su LLM per generare istruzioni scientifiche diverse e di alta qualità, risultando in un nuovo set di istruzioni - SciLitIns - per il raffinamento supervisionato in domini scientifici poco rappresentati. (3) SciLitLLM raggiunge promettenti miglioramenti delle prestazioni su benchmark di comprensione della letteratura scientifica.
I recenti progressi nella personalizzazione testo-immagine hanno reso possibile la sintesi di immagini di alta qualità e controllabile per concetti forniti dagli utenti. Tuttavia, i metodi esistenti faticano ancora a bilanciare la conservazione dell'identità con l'allineamento del testo. Il nostro approccio si basa sul fatto che generare immagini allineate al prompt richiede una precisa comprensione semantica del prompt, che coinvolge il processamento accurato delle interazioni tra il nuovo concetto e i token di contesto circostanti all'interno dell'encoder di testo CLIP. Per affrontare questo problema, miriamo a incorporare correttamente il nuovo concetto nello spazio di embedding di input dell'encoder di testo, consentendo un'integrazione senza soluzione di continuità con i token esistenti. Introduciamo la Regolarizzazione del Contesto (CoRe), che potenzia l'apprendimento dell'embedding di testo del nuovo concetto regolarizzando i suoi token di contesto nel prompt. Ciò si basa sulla considerazione che i vettori di output appropriati dell'encoder di testo per i token di contesto possono essere ottenuti solo se l'embedding di testo del nuovo concetto viene appreso correttamente. CoRe può essere applicato a prompt arbitrari senza richiedere la generazione di immagini corrispondenti, migliorando così la generalizzazione dell'embedding di testo appreso. Inoltre, CoRe può fungere da tecnica di ottimizzazione al momento del test per migliorare ulteriormente le generazioni per prompt specifici. Esperimenti esaustivi dimostrano che il nostro metodo supera diversi metodi di base sia nella conservazione dell'identità che nell'allineamento del testo. Il codice sarà reso pubblicamente disponibile.
Le recenti valutazioni dei Large Multimodal Models (LMM) hanno esplorato le loro capacità in vari settori, con pochi benchmark specificamente focalizzati sugli ambienti urbani. Inoltre, i benchmark urbani esistenti sono stati limitati a valutare i LMM con semplici compiti urbani a livello di regione sotto singole visualizzazioni, portando a valutazioni incomplete delle capacità dei LMM negli ambienti urbani. Per affrontare queste problematiche, presentiamo UrBench, un benchmark completo progettato per valutare i LMM in complessi scenari urbani multi-view. UrBench contiene 11,6K domande accuratamente selezionate a livello di regione e a livello di ruolo che coprono 4 dimensioni di compiti: Geo-Localizzazione, Ragionamento sulla Scena, Comprensione della Scena e Comprensione degli Oggetti, per un totale di 14 tipi di compiti. Nella costruzione di UrBench, utilizziamo dati provenienti da dataset esistenti e raccogliamo ulteriori dati da 11 città, creando nuove annotazioni utilizzando un metodo di rilevamento e corrispondenza tra visualizzazioni incrociate. Con queste immagini e annotazioni, integriamo quindi metodi basati su LMM, basati su regole e basati su umani per costruire domande di alta qualità su larga scala. Le nostre valutazioni su 21 LMM mostrano che i LMM attuali faticano negli ambienti urbani su diversi aspetti. Anche il miglior esecutore GPT-4o è in ritardo rispetto agli umani nella maggior parte dei compiti, che vanno dai compiti semplici come il conteggio a compiti complessi come l'orientamento, la localizzazione e il riconoscimento degli attributi degli oggetti, con un divario medio di prestazione del 17,4%. Il nostro benchmark rivela anche che i LMM mostrano comportamenti inconsistenti con diverse visualizzazioni urbane, specialmente per quanto riguarda la comprensione delle relazioni tra visualizzazioni incrociate. I dataset e i risultati del benchmark di UrBench saranno disponibili pubblicamente su https://opendatalab.github.io/UrBench/.
La sintesi da vista satellite a vista stradale mira a generare un'immagine realistica della vista stradale a partire dalla corrispondente immagine della vista satellite. Anche se i modelli di diffusione stabili hanno dimostrato prestazioni notevoli in una varietà di applicazioni di generazione di immagini, la loro dipendenza da input di vista simile per controllare la struttura o la texture generata limita la loro applicazione al complesso compito di sintesi tra viste diverse. In questo lavoro, proponiamo CrossViewDiff, un modello di diffusione tra viste diverse per la sintesi da vista satellite a vista stradale. Per affrontare le sfide poste dalla grande discrepanza tra le viste, progettiamo i moduli di stima della struttura della scena satellite e di mappatura della texture tra viste diverse per costruire i controlli strutturali e testuali per la sintesi dell'immagine della vista stradale. Progettiamo inoltre un processo di denoising guidato dal controllo tra viste diverse che incorpora i suddetti controlli tramite un modulo di attenzione tra viste diverse potenziato. Per ottenere una valutazione più completa dei risultati della sintesi, progettiamo inoltre un metodo di punteggio basato su GPT come supplemento alle metriche di valutazione standard. Esploriamo anche l'effetto di diverse fonti di dati (ad esempio, testo, mappe, altezze degli edifici e immagini satellitari multi-temporali) su questo compito. I risultati su tre set di dati pubblici tra viste diverse mostrano che CrossViewDiff supera lo stato dell'arte attuale sia sulle metriche di valutazione standard che su quelle basate su GPT, generando panorami di vista stradale di alta qualità con strutture e texture più realistiche in scene rurali, suburbane e urbane. Il codice e i modelli di questo lavoro saranno rilasciati su https://opendatalab.github.io/CrossViewDiff/.
I modelli linguistici ad alta risorsa spesso non sono all'altezza nel contesto africano, dove c'è un bisogno critico di modelli efficienti, accessibili e localmente rilevanti, anche in presenza di significativi vincoli computazionali e di dati. Questo articolo introduce InkubaLM, un piccolo modello linguistico con 0,4 miliardi di parametri, che raggiunge prestazioni paragonabili a modelli con conteggi di parametri significativamente più grandi e dati di addestramento più estesi su compiti come la traduzione automatica, il question-answering, AfriMMLU e il compito AfriXnli. In particolare, InkubaLM supera molti modelli più grandi nell'analisi del sentiment e dimostra una notevole coerenza tra diverse lingue. Questo lavoro rappresenta un avanzamento cruciale nel mettere in discussione il paradigma convenzionale che i modelli linguistici efficaci debbano fare affidamento su risorse sostanziali. Il nostro modello e i dataset sono disponibili pubblicamente all'indirizzo \url{https://huggingface.co/lelapa} per incoraggiare la ricerca e lo sviluppo sulle lingue a bassa risorsa.
I modelli Diffusion Transformers (DiTs) hanno trasformato l'architettura di rete dai tradizionali UNet ai transformer, dimostrando capacità eccezionali nella generazione di immagini. Sebbene i DiTs siano stati ampiamente applicati a compiti di generazione di video ad alta definizione, le loro dimensioni di parametro elevate ostacolano l'inferenza sui dispositivi periferici. La quantizzazione vettoriale (VQ) può decomporre il peso del modello in un codebook e assegnazioni, consentendo una quantizzazione estrema del peso e riducendo significativamente l'utilizzo della memoria. In questo articolo, proponiamo VQ4DiT, un metodo di quantizzazione vettoriale post-training veloce per i DiTs. Abbiamo riscontrato che i metodi tradizionali di VQ calibrano solo il codebook senza calibrare le assegnazioni. Ciò porta a sottovettori di peso assegnati erroneamente alla stessa assegnazione, fornendo gradienti non coerenti al codebook e risultando in un risultato non ottimale. Per affrontare questa sfida, VQ4DiT calcola l'insieme di assegnazioni candidato per ciascun sottovettore di peso basandosi sulla distanza euclidea e ricostruisce il sottovettore basandosi sulla media ponderata. Successivamente, utilizzando il metodo di calibrazione a zero-dati e a livello di blocco, viene selezionata efficientemente l'assegnazione ottimale dall'insieme mentre si calibra il codebook. VQ4DiT quantizza un modello DiT XL/2 su una singola GPU NVIDIA A100 in 20 minuti fino a 5 ore a seconda delle diverse impostazioni di quantizzazione. Gli esperimenti mostrano che VQ4DiT stabilisce un nuovo stato dell'arte nei compromessi tra dimensioni del modello e prestazioni, quantizzando i pesi con una precisione di 2 bit mantenendo una qualità accettabile nella generazione di immagini.
Le sfide di riconoscimento dei locutori VoxCeleb (VoxSRC) sono state una serie di competizioni e workshop che si sono svolti annualmente dal 2019 al 2023. Le sfide hanno valutato principalmente i compiti di riconoscimento dei locutori e diarizzazione in vari contesti, tra cui: dati di addestramento chiusi e aperti; nonché addestramento supervisionato, auto-supervisionato e semi-supervisionato per l'adattamento di dominio. Le sfide hanno inoltre fornito set di dati di addestramento e valutazione pubblicamente disponibili per ciascun compito e contesto, con nuovi set di test rilasciati ogni anno. In questo articolo, forniamo una panoramica di queste sfide che include: ciò che hanno esplorato; i metodi sviluppati dai partecipanti alle sfide e come questi sono evoluti; nonché lo stato attuale del settore per la verifica dei locutori e la diarizzazione. Seguiamo i progressi delle prestazioni durante i cinque episodi della sfida su un set di valutazione comune e forniamo un'analisi dettagliata su come il focus speciale di ciascun anno abbia influenzato le prestazioni dei partecipanti. Questo articolo è rivolto sia ai ricercatori che desiderano una panoramica del settore del riconoscimento dei locutori e della diarizzazione, sia agli organizzatori di sfide che desiderano beneficiare dei successi e evitare gli errori delle sfide VoxSRC. Concludiamo con una discussione sui punti di forza attuali del settore e sulle sfide aperte. Pagina del progetto: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
I modelli densi multi-vettoriali, come ColBERT, hanno dimostrato di essere altamente efficaci nel recupero delle informazioni. Il punteggio di interazione tardiva di ColBERT approssima l'attenzione congiunta query-documento vista nei cross-encoder mantenendo al contempo l'efficienza inferenziale più vicina ai modelli di recupero densi tradizionali, grazie alla sua architettura bi-encoder e alle recenti ottimizzazioni nell'indicizzazione e nella ricerca. In questo articolo, introduciamo diversi miglioramenti all'architettura del modello ColBERT e al processo di addestramento, sfruttando tecniche di successo nel paradigma dei modelli di embedding a singolo vettore più consolidati, in particolare quelli adatti per dati multilingue eterogenei. Il nostro nuovo modello, Jina-ColBERT-v2, dimostra una forte performance in una serie di compiti di recupero in lingua inglese e multilingue, riducendo anche i requisiti di archiviazione fino al 50% rispetto ai modelli precedenti.
La riassunzione di documenti è un compito finalizzato a ridurre i testi in sintesi concise e informative. Questo articolo introduce un nuovo dataset progettato per riassumere più articoli scientifici in una sezione di una panoramica. Le nostre contribuzioni sono: (1) SurveySum, un nuovo dataset che affronta il vuoto negli strumenti di riassunto specifici del dominio; (2) due pipeline specifiche per riassumere articoli scientifici in una sezione di una panoramica; e (3) la valutazione di queste pipeline utilizzando diversi metriche per confrontarne le prestazioni. I nostri risultati evidenziano l'importanza delle fasi di recupero di alta qualità e l'impatto delle diverse configurazioni sulla qualità delle sintesi generate.
Le immagini stanno diventando sempre più importanti per documentare la biodiversità del pianeta, offrendo nuove opportunità per accelerare le scoperte scientifiche nel campo della biologia degli organismi, specialmente con l'avvento dei grandi modelli di visione-linguaggio (VLM). Ci chiediamo se i VLM pre-addestrati possano aiutare gli scienziati a rispondere a una serie di domande biologicamente rilevanti senza ulteriore sintonizzazione. In questo articolo, valutiamo l'efficacia di 12 modelli VLM all'avanguardia nel campo della biologia degli organismi utilizzando un nuovo set di dati, VLM4Bio, composto da 469.000 coppie domanda-risposta che coinvolgono 30.000 immagini di tre gruppi di organismi: pesci, uccelli e farfalle, che coprono cinque compiti biologicamente rilevanti. Esploriamo anche gli effetti dell'applicazione di tecniche di prompting e test per l'illusione di ragionamento sulle prestazioni dei VLM, gettando nuova luce sulle capacità dei attuali modelli VLM all'avanguardia nel rispondere a domande biologicamente rilevanti utilizzando immagini. Il codice e i set di dati per eseguire tutte le analisi riportate in questo articolo possono essere trovati su https://github.com/sammarfy/VLM4Bio.
Rilevare e attribuire gli aumenti di temperatura dovuti ai cambiamenti climatici è cruciale per comprendere il riscaldamento globale e guidare le strategie di adattamento. La complessità nel distinguere i segnali climatici indotti dall'uomo dalla variabilità naturale ha sfidato gli approcci tradizionali di rilevamento e attribuzione (D&A), che cercano di identificare specifiche "impronte digitali" nelle variabili di risposta climatica. Il deep learning offre potenzialità per discernere questi modelli complessi in ampi set di dati spaziali. Tuttavia, la mancanza di protocolli standard ha ostacolato confronti coerenti tra gli studi. Presentiamo ClimDetect, un dataset standardizzato di oltre 816k istantanee climatiche giornaliere, progettato per migliorare l'accuratezza del modello nell'identificare i segnali dei cambiamenti climatici. ClimDetect integra varie variabili di input e target utilizzate nella ricerca passata, garantendo comparabilità e coerenza. Esploriamo anche l'applicazione dei vision transformers (ViT) ai dati climatici, un approccio innovativo e modernizzante in questo contesto. I nostri dati e codici in libero accesso fungono da punto di riferimento per far progredire la scienza climatica attraverso miglioramenti nelle valutazioni dei modelli. ClimDetect è accessibile pubblicamente tramite il repository dati di Huggingface al seguente indirizzo: https://huggingface.co/datasets/ClimDetect/ClimDetect.
Questo articolo introduce CURLoRA, un nuovo approccio per il raffinamento dei modelli di linguaggio di grandi dimensioni (LLM) che sfrutta la decomposizione della matrice CUR nel contesto dell'Adattamento a Rango Ridotto (LoRA). Il nostro metodo affronta due sfide critiche nel raffinamento dei LLM: mitigare l'oblio catastrofico durante l'apprendimento continuo e ridurre il numero di parametri addestrabili. Proponiamo una modifica unica al processo di decomposizione CUR, utilizzando probabilità invertite per la selezione delle colonne e delle righe che agiscono come regolarizzazione implicita, e inizializzando la matrice U come una matrice zero, per poi raffinarla. Dimostriamo attraverso esperimenti su più set di dati che CURLoRA supera LoRA standard nel mitigare l'oblio catastrofico. Mantiene la stabilità del modello e le prestazioni tra compiti riducendo significativamente il numero di parametri addestrabili. I nostri risultati mostrano che CURLoRA raggiunge un'accuratezza del compito molto buona e stabile mantenendo fissi i punteggi di perplessità del modello di base rispetto a LoRA durante il raffinamento continuo, in particolare in scenari con dati limitati.
Con l'avanzare del campo dell'intelligenza artificiale, le tecnologie assistive stanno diventando sempre più ampiamente utilizzate in tutti i settori. Anche l'industria sanitaria non fa eccezione, con numerosi studi in corso per sviluppare strumenti assistivi per i professionisti sanitari. I sistemi diagnostici automatici sono uno strumento benefico che può assistere in una varietà di compiti, tra cui la raccolta delle informazioni del paziente, l'analisi dei risultati dei test e la diagnosi dei pazienti. Tuttavia, l'idea di sviluppare sistemi in grado di fornire una diagnosi differenziale è stata largamente trascurata nella maggior parte di questi studi di ricerca. In questo studio, proponiamo un approccio basato su transformer per fornire diagnosi differenziali basate sull'età, il sesso, la storia clinica e i sintomi di un paziente. Utilizziamo il dataset DDXPlus, che fornisce informazioni sulla diagnosi differenziale per i pazienti basate su 49 tipi di malattie. In primo luogo, proponiamo un metodo per elaborare i dati tabulari del paziente dal dataset e trasformarli in report del paziente per renderli adatti alla nostra ricerca. Inoltre, introduciamo due moduli di modifica dei dati per diversificare i dati di addestramento e di conseguenza migliorare la robustezza dei modelli. Affrontiamo il compito come un problema di classificazione multi-etichetta e conduciamo ampi esperimenti utilizzando quattro modelli transformer. Tutti i modelli hanno mostrato risultati promettenti raggiungendo un punteggio F1 superiore al 97% sul set di test. Inoltre, progettiamo test comportamentali aggiuntivi per ottenere una comprensione più ampia dei modelli. In particolare, per uno dei nostri casi di test, abbiamo preparato un set di test personalizzato di 100 campioni con l'assistenza di un medico. I risultati sul set personalizzato hanno mostrato che i nostri moduli di modifica dei dati proposti hanno migliorato le capacità di generalizzazione del modello. Speriamo che le nostre scoperte forniscano ai futuri ricercatori preziose intuizioni e li ispirino a sviluppare sistemi affidabili per la diagnosi differenziale automatica.
L'architettura del transformer ha rivoluzionato la bioinformatica e ha guidato il progresso nella comprensione e previsione delle proprietà delle biomolecole. Quasi tutta la ricerca sui transformer di biosequenze su larga scala si è concentrata su un dominio alla volta (singolo-omico), di solito nucleotidi o peptidi. Questi modelli hanno ottenuto un incredibile successo in compiti successivi in ciascun dominio e hanno raggiunto particolari e significativi progressi nelle sequenze di peptidi e nella modellazione strutturale. Tuttavia, questi modelli singolo-omici sono naturalmente incapaci di modellare compiti multi-omici, uno dei più critici biologicamente essendo le interazioni nucleotide-peptide. Presentiamo il nostro lavoro di addestramento dei primi modelli fondamentali multi-omici nucleotide-peptide. Mostreremo che questi modelli multi-omici (MOMs) possono apprendere rappresentazioni congiunte tra varie distribuzioni singolo-omiche che emergono in modo coerente con il Dogma Centrale della biologia molecolare, nonostante siano stati addestrati solo su biosequenze non etichettate. Dimostriamo inoltre che i MOMs possono essere raffinati per ottenere risultati all'avanguardia nei compiti di interazione peptide-nucleotide, in particolare la previsione della variazione dell'energia libera di Gibbs ({\Delta}G) dell'interazione di legame tra un dato oligonucleotide e un peptide, nonché l'effetto su questa interazione di legame dovuto a mutazioni nella sequenza dell'oligonucleotide ({\Delta}{\Delta}G). In modo sorprendente, mostriamo che i transformer di biosequenze multi-omici apprendono emergentemente informazioni strutturali utili senza alcun addestramento strutturale precedente, consentendoci di prevedere quali residui di peptidi sono più coinvolti nell'interazione di legame peptide-nucleotide. Infine, forniamo prove che i modelli di biosequenze multi-omici non sono inferiori ai modelli fondamentali addestrati su distribuzioni singolo-omiche, suggerendo un approccio più generalizzato o fondamentale alla costruzione di questi modelli.
I metodi di Ottimizzazione Efficienti dei Parametri (PEFT) hanno guadagnato popolarità e democratizzato l'uso dei Grandi Modelli Linguistici (LLM). Studi recenti hanno dimostrato che un piccolo sottoinsieme di pesi influisce significativamente sulle prestazioni. Basandoci su questa osservazione, introduciamo un nuovo metodo PEFT, chiamato Ottimizzazione Fine con Iniezione di Rumore Gaussiano dei Pesi Salienti (GIFT-SW). Il nostro metodo aggiorna solo le colonne salienti, mentre inietta rumore gaussiano in quelle non salienti. Per identificare queste colonne, abbiamo sviluppato una metrica di sensibilità generalizzata che estende e unifica le metriche degli studi precedenti. Gli esperimenti con i modelli LLaMA dimostrano che GIFT-SW supera il pieno fine-tuning e i moderni metodi PEFT con lo stesso budget computazionale. Inoltre, GIFT-SW offre vantaggi pratici per recuperare le prestazioni dei modelli sottoposti a quantizzazione a precisione mista mantenendo i pesi salienti in piena precisione.
Comprimendo diverse narrazioni, i LLM vanno oltre la memorizzazione, raggiungendo l'intelligenza catturando relazioni causali generalizzabili. Tuttavia, essi soffrono di 'lacune di rappresentazione' locali a causa della scarsa diversità dei dati di addestramento, limitando la loro utilità nel mondo reale, specialmente in compiti che richiedono un allineamento rigoroso alle regole. I metodi tradizionali di allineamento che si basano pesantemente su annotazioni umane sono inefficienti e non scalabili. Le recenti tecniche di auto-allineamento non sono sufficienti, poiché spesso dipendono da prompt basati sull'auto-selezione e sull'apprendimento basato sulla memorizzazione. Per affrontare questi problemi, introduciamo l'Allineamento Grafico Iterativo (IGA), un algoritmo di allineamento basato su regole senza annotazioni. Un modello insegnante (VLM) utilizza il Prompting Grafico Iterativo (IGP) per creare grafi logici e risposte di riferimento. Il modello studente (LLM) identifica lacune di conoscenza locali cercando di allineare le sue risposte con questi riferimenti, collaborando con modelli di supporto per generare risposte diverse. Queste risposte allineate vengono poi utilizzate per il fine-tuning supervisionato iterativo (SFT). Le nostre valutazioni su cinque scenari basati su regole dimostrano l'efficacia di IGP, con un miglioramento dell'allineamento del 73,12\% in Claude Sonnet 3.5 e un miglioramento dell'86,20\% in Llama3-8B-Instruct, superando Claude Sonnet 3.5 nell'allineamento basato su regole.