Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato un potenziale significativo in varie applicazioni, suscitando un ampio interesse sia tra i ricercatori che tra i professionisti. Tuttavia, una valutazione completa delle loro capacità di gestione di contesti lunghi rimane ancora poco esplorata. Per colmare queste lacune, introduciamo il benchmark MultiModal Needle-in-a-haystack (MMNeedle), progettato specificamente per valutare le capacità di gestione di contesti lunghi degli MLLMs. Oltre all'input multi-immagine, utilizziamo l'image stitching per aumentare ulteriormente la lunghezza del contesto di input e sviluppiamo un protocollo per generare automaticamente etichette per il recupero a livello di sotto-immagine. In sostanza, MMNeedle valuta gli MLLMs testando la loro capacità di individuare una sotto-immagine target (ago) all'interno di un insieme di immagini (pagliaio) basandosi su istruzioni testuali e descrizioni dei contenuti delle immagini. Questa configurazione richiede una comprensione avanzata di contesti visivi estesi e un'efficace recupero di informazioni all'interno di input di immagini con contesti lunghi. Con questo benchmark, valutiamo gli MLLMs più avanzati, includendo sia modelli basati su API che modelli open-source. I risultati rivelano che GPT-4o supera costantemente altri modelli negli scenari con contesti lunghi, ma soffre di problemi di allucinazione nei campioni negativi, ovvero quando gli aghi non sono presenti nei pagliai. La nostra valutazione completa delle capacità di gestione di contesti lunghi degli MLLMs mette anche in luce il notevole divario di prestazioni tra i modelli basati su API e quelli open-source. Tutto il codice, i dati e le istruzioni necessari per riprodurre i principali risultati sono disponibili all'indirizzo https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
Oggi, i campi dell'elaborazione del codice e del linguaggio naturale stanno evolvendo rapidamente. In particolare, i modelli stanno diventando sempre più abili nel gestire finestre di contesto lunghe: le dimensioni del contesto supportate sono aumentate di ordini di grandezza negli ultimi anni. Tuttavia, mancano benchmark per l'elaborazione del codice che vadano oltre il contesto di un singolo file, mentre i più popolari sono limitati a un singolo metodo. Con questo lavoro, miriamo a colmare questa lacuna introducendo Long Code Arena, una suite di sei benchmark per attività di elaborazione del codice che richiedono un contesto a livello di progetto. Queste attività coprono diversi aspetti dell'elaborazione del codice: generazione di codice basata su librerie, riparazione di build CI, completamento del codice a livello di progetto, generazione di messaggi di commit, localizzazione di bug e sintesi di moduli. Per ciascuna attività, forniamo un dataset verificato manualmente per i test, una suite di valutazione e soluzioni di base open-source basate su LLM popolari per mostrare l'utilizzo del dataset e semplificare l'adozione da parte di altri ricercatori. Pubblichiamo la pagina del benchmark su HuggingFace Spaces con la classifica, i link a HuggingFace Hub per tutti i dataset e il link al repository GitHub con le soluzioni di base: https://huggingface.co/spaces/JetBrains-Research/long-code-arena.
Presentiamo Self-MoE, un approccio che trasforma un LLM monolitico in un sistema composito e modulare di esperti auto-specializzati, denominato MiXSE (MiXture of Self-specialized Experts). Il nostro approccio sfrutta l'auto-specializzazione, che costruisce moduli esperti utilizzando dati sintetici auto-generati, ciascuno dotato di un LLM di base condiviso e incorporando un routing auto-ottimizzato. Ciò consente una gestione dinamica e specifica per capacità di vari task target, migliorando le capacità complessive senza la necessità di estesi dati etichettati manualmente e parametri aggiuntivi. I nostri risultati empirici rivelano che la specializzazione degli LLM può presentare potenziali compromessi nelle prestazioni su task non specializzati. D'altro canto, il nostro Self-MoE dimostra miglioramenti sostanziali rispetto al LLM di base su diversi benchmark come conoscenza, ragionamento, matematica e codifica. Supera inoltre costantemente altri metodi, tra cui l'unione di istanze e l'unione di pesi, offrendo al contempo una migliore flessibilità e interpretabilità grazie alla progettazione con esperti semantici e routing. Le nostre scoperte evidenziano il ruolo cruciale della modularità e il potenziale dell'auto-miglioramento nel raggiungere sistemi efficienti, scalabili e adattabili.
I transformer per la visione (ViT) sono emersi come un'area di grande interesse, in particolare per la loro capacità di essere addestrati congiuntamente a modelli linguistici di grandi dimensioni e di fungere da modelli di base robusti per la visione. Tuttavia, lo sviluppo di metodi di spiegazione affidabili per i ViT è rimasto indietro, specialmente nel contesto delle interpretazioni post-hoc delle previsioni dei ViT. Gli approcci esistenti di selezione sub-immagine, come i modelli di attribuzione delle caratteristiche e concettuali, si rivelano insufficienti in questo senso. Questo articolo propone cinque desiderata per spiegare i ViT -- fedeltà, stabilità, sparsità, struttura multi-livello e parsimonia -- e dimostra l'inadeguatezza dei metodi attuali nel soddisfare questi criteri in modo completo. Introduciamo un framework di spiegazione bayesiana variazionale, denominato ProbAbilistic Concept Explainers (PACE), che modella le distribuzioni degli embedding di patch per fornire spiegazioni concettuali post-hoc affidabili. La nostra analisi qualitativa rivela le distribuzioni dei concetti a livello di patch, chiarendo l'efficacia dei ViT modellando la distribuzione congiunta degli embedding di patch e delle previsioni dei ViT. Inoltre, queste spiegazioni a livello di patch colmano il divario tra le spiegazioni a livello di immagine e di dataset, completando così la struttura multi-livello di PACE. Attraverso esperimenti estesi su dataset sia sintetici che del mondo reale, dimostriamo che PACE supera i metodi all'avanguardia in termini dei desiderata definiti.
L'integrazione di modelli linguistici preaddestrati (PLM) come BERT e GPT ha rivoluzionato l'elaborazione del linguaggio naturale (NLP), in particolare per l'inglese, ma ha anche creato squilibri linguistici. Questo articolo identifica strategicamente la necessità di equità linguistica esaminando diverse tecniche di modifica della conoscenza in contesti multilingue. Valutiamo le prestazioni di modelli come Mistral, TowerInstruct, OpenHathi, Tamil-Llama e Kan-Llama in lingue tra cui inglese, tedesco, francese, italiano, spagnolo, hindi, tamil e kannada. La nostra ricerca evidenzia significative discrepanze nei modelli normali e fusi riguardo alla coerenza cross-linguistica. Utilizziamo strategie come "ogni lingua per sé" (ELFI) e "ogni lingua per gli altri" (ELFO) per sottoporre questi modelli a test di stress. I nostri risultati dimostrano il potenziale dei modelli linguistici di grandi dimensioni (LLM) di superare le barriere linguistiche, gettando le basi per future ricerche volte a raggiungere l'inclusività linguistica nelle tecnologie di intelligenza artificiale.
I modelli di auto-supervisione per il parlato (SSL) sono stati recentemente adottati ampiamente per molte attività di elaborazione del parlato downstream. Il modello di utilizzo generale prevede di impiegare i modelli SSL come estrattori di caratteristiche, per poi addestrare una testa di previsione downstream per risolvere un compito specifico. Tuttavia, è stato dimostrato che i diversi strati dei modelli SSL catturano diversi tipi di informazioni, e i metodi per combinarli non sono stati studiati a fondo. A tal fine, estendiamo il quadro generale per l'utilizzo dei modelli SSL proponendo l'interfaccia che collega la parte upstream e downstream. Da questa prospettiva, la tecnica dominante di combinare le caratteristiche tramite una somma ponderata per strati può essere considerata una specifica interfaccia. Proponiamo diverse alternative di progettazione dell'interfaccia e dimostriamo che l'interfaccia a somma ponderata è subottimale per molti compiti. In particolare, mostriamo che un'interfaccia convoluzionale la cui profondità scala logaritmicamente con la profondità del modello upstream supera costantemente molte altre progettazioni di interfaccia.
L'apprendimento per rinforzo con feedback umano (RLHF) è diventato il metodo predominante per allineare i modelli di grandi dimensioni alle preferenze degli utenti. A differenza del fine-tuning, per il quale esistono numerosi studi riguardanti la memorizzazione dei dati di addestramento, non è chiaro come la memorizzazione sia influenzata o introdotta nel processo di allineamento RLHF. Comprendere questa relazione è importante poiché i dati reali degli utenti potrebbero essere raccolti e utilizzati per allineare i modelli di grandi dimensioni; se i dati degli utenti venissero memorizzati durante l'RLHF e successivamente riproposti, ciò potrebbe sollevare preoccupazioni relative alla privacy. In questo lavoro, analizziamo come la memorizzazione dei dati di addestramento possa emergere e propagarsi attraverso ciascuna fase dell'RLHF. Concentriamo il nostro studio sui modelli di completamento del codice, poiché il completamento del codice è uno degli utilizzi più popolari dei modelli linguistici di grandi dimensioni. Scopriamo che l'RLHF riduce significativamente la probabilità che i dati utilizzati per la modellazione della ricompensa e l'apprendimento per rinforzo vengano memorizzati, rispetto all'allineamento tramite il fine-tuning diretto su questi dati, ma che gli esempi già memorizzati durante la fase di fine-tuning dell'RLHF, nella maggior parte dei casi, rimangono memorizzati anche dopo l'RLHF.
Il compito di "dimenticare" determinati concetti nei grandi modelli linguistici (LLM) ha recentemente attirato un'attenzione significativa, a causa della sua importanza nel mitigare comportamenti indesiderati dei modelli, come la generazione di informazioni dannose, private o errate. I protocolli attuali per valutare i metodi di dimenticanza si basano principalmente su test comportamentali, senza monitorare la presenza di conoscenze dimenticate all'interno dei parametri del modello. Questa conoscenza residua può essere sfruttata in modo avversario per recuperare le informazioni cancellate dopo il processo di dimenticanza. Sosteniamo che la dimenticanza dovrebbe essere valutata anche internamente, considerando i cambiamenti nelle tracce di conoscenza parametrica dei concetti dimenticati. A tal fine, proponiamo una metodologia generale per individuare direzioni nello spazio dei parametri (denominate "vettori concettuali") che codificano concetti specifici, e costruiamo ConceptVectors, un dataset di benchmark contenente centinaia di concetti comuni e le loro tracce di conoscenza parametrica all'interno di due LLM open-source. La valutazione su ConceptVectors mostra che i metodi di dimenticanza esistenti hanno un impatto minimo sui vettori concettuali, mentre l'ablazione diretta di questi vettori rimuove in modo dimostrabile la conoscenza associata dagli LLM e riduce significativamente la loro suscettibilità alla manipolazione avversaria. I nostri risultati evidenziano le limitazioni delle valutazioni di dimenticanza basate sul comportamento e sollecitano futuri lavori a includere valutazioni basate sui parametri. Per supportare questo obiettivo, rilasciamo il nostro codice e il benchmark all'indirizzo https://github.com/yihuaihong/ConceptVectors.