Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli visione-linguaggio (VLMs) esistenti si basano principalmente su encoder visivi per estrarre caratteristiche visive, seguiti da grandi modelli linguistici (LLMs) per compiti di visione-linguaggio. Tuttavia, gli encoder visivi impongono un forte bias induttivo nell'astrazione della rappresentazione visiva, ad esempio risoluzione, rapporto d'aspetto e priorità semantiche, che potrebbe ostacolare la flessibilità e l'efficienza dei VLMs. Addestrare VLMs puri che accettano input visivi e linguistici senza soluzione di continuità, cioè senza encoder visivi, rimane una sfida e raramente è stato esplorato. Osservazioni empiriche rivelano che l'addestramento diretto senza encoder risulta in una convergenza lenta e ampi divari di prestazione. In questo lavoro, colmiamo il divario tra modelli basati su encoder e modelli senza encoder, e presentiamo una ricetta di addestramento semplice ma efficace verso VLMs puri. Nello specifico, sveliamo gli aspetti chiave per addestrare efficientemente VLMs senza encoder attraverso esperimenti approfonditi: (1) Colmare la rappresentazione visione-linguaggio all'interno di un unico decoder; (2) Migliorare la capacità di riconoscimento visivo tramite supervisione aggiuntiva. Con queste strategie, lanciamo EVE, un modello visione-linguaggio senza encoder che può essere addestrato e utilizzato in modo efficiente. È degno di nota che, utilizzando esclusivamente 35M di dati pubblicamente accessibili, EVE può rivaleggiare in modo impressionante con i VLMs basati su encoder di capacità simili su molteplici benchmark di visione-linguaggio. Supera significativamente il corrispondente Fuyu-8B con procedure di addestramento misteriose e dati di addestramento non divulgati. Crediamo che EVE fornisca una via trasparente ed efficiente per sviluppare un'architettura puramente decoder-only attraverso le modalità. Il nostro codice e i nostri modelli sono pubblicamente disponibili all'indirizzo: https://github.com/baaivision/EVE.
Questo report introduce FunAudioLLM, una famiglia di modelli progettata per migliorare le interazioni vocali naturali tra esseri umani e grandi modelli linguistici (LLM). Al suo centro si trovano due modelli innovativi: SenseVoice, che gestisce il riconoscimento vocale multilingue, il riconoscimento delle emozioni e il rilevamento di eventi audio; e CosyVoice, che facilita la generazione di discorsi naturali con controllo su più lingue, timbro, stile di parlato e identità del parlante. SenseVoice-Small offre un riconoscimento vocale automatico (ASR) a latenza eccezionalmente bassa per 5 lingue, mentre SenseVoice-Large supporta un ASR ad alta precisione per oltre 50 lingue. CosyVoice eccelle nella generazione vocale multilingue, nell'apprendimento contestuale zero-shot, nel clonaggio vocale cross-linguale e nelle capacità di seguire istruzioni. I modelli relativi a SenseVoice e CosyVoice sono stati open-sourced su Modelscope e Huggingface, insieme ai codici di addestramento, inferenza e fine-tuning rilasciati su GitHub. Integrando questi modelli con gli LLM, FunAudioLLM abilita applicazioni come la traduzione da voce a voce, chat vocali emotive, podcast interattivi e narrazione espressiva di audiolibri, spingendo così i confini della tecnologia di interazione vocale. Le demo sono disponibili su https://fun-audio-llm.github.io, e il codice può essere consultato su https://github.com/FunAudioLLM.
L'attenzione self-attention ottiene buoni risultati in contesti lunghi ma ha una complessità quadratica. Gli strati RNN esistenti hanno una complessità lineare, ma le loro prestazioni in contesti lunghi sono limitate dal potere espressivo del loro stato nascosto. Proponiamo una nuova classe di strati di modellazione sequenziale con complessità lineare e uno stato nascosto espressivo. L'idea chiave è rendere lo stato nascosto un modello di machine learning esso stesso, e la regola di aggiornamento un passo di apprendimento self-supervised. Poiché lo stato nascosto viene aggiornato attraverso l'addestramento anche su sequenze di test, i nostri strati sono chiamati strati Test-Time Training (TTT). Consideriamo due istanze: TTT-Linear e TTT-MLP, il cui stato nascosto è rispettivamente un modello lineare e un MLP a due strati. Valutiamo le nostre istanze su una scala da 125M a 1.3B parametri, confrontandole con un Transformer robusto e Mamba, un RNN moderno. Sia TTT-Linear che TTT-MLP eguagliano o superano i benchmark. Similmente al Transformer, possono continuare a ridurre la perplexità condizionandosi su più token, mentre Mamba non riesce dopo un contesto di 16k. Con un'ottimizzazione preliminare dei sistemi, TTT-Linear è già più veloce del Transformer a un contesto di 8k e eguaglia Mamba in termini di tempo reale. TTT-MLP affronta ancora sfide nell'I/O della memoria, ma mostra un potenziale maggiore in contesti lunghi, indicando una direzione promettente per la ricerca futura.
I progressi nell'IA generativa hanno ampliato le potenziali applicazioni dei Modelli Linguistici di Grande Scala (LLM) nello sviluppo di agenti autonomi. Raggiungere una vera autonomia richiede l'accumulazione e l'aggiornamento delle conoscenze acquisite dalle interazioni con l'ambiente e il loro utilizzo efficace. Gli approcci attuali basati su LLM sfruttano esperienze passate utilizzando una cronologia completa delle osservazioni, la sintesi o l'aumento tramite recupero. Tuttavia, queste rappresentazioni di memoria non strutturate non facilitano il ragionamento e la pianificazione essenziali per il processo decisionale complesso. Nel nostro studio, introduciamo AriGraph, un metodo innovativo in cui l'agente costruisce un grafo di memoria che integra ricordi semantici ed episodici mentre esplora l'ambiente. Questa struttura a grafo facilita un recupero associativo efficiente di concetti interconnessi, rilevanti per lo stato attuale e gli obiettivi dell'agente, fungendo così come un modello ambientale efficace che potenzia le capacità esplorative e di pianificazione dell'agente. Dimostriamo che il nostro agente LLM Ariadne, dotato di questa architettura di memoria proposta e arricchita con pianificazione e processo decisionale, gestisce efficacemente compiti complessi in modalità zero-shot nell'ambiente TextWorld. Il nostro approccio supera nettamente metodi consolidati come la cronologia completa, la sintesi e la Generazione Aumentata tramite Recupero in vari compiti, inclusa la sfida culinaria della competizione First TextWorld Problems e nuovi compiti come la pulizia della casa e la caccia al tesoro con enigmi.
La recente comparsa dei Modelli Linguistici di Visione Medica su Grande Scala (Med-LVLMs) ha migliorato la diagnosi medica. Tuttavia, gli attuali Med-LVLMs incontrano frequentemente problemi di accuratezza fattuale, spesso generando risposte che non si allineano con i fatti medici consolidati. La Generazione Aumentata con Recupero (RAG), che utilizza conoscenze esterne, può migliorare l'accuratezza fattuale di questi modelli, ma introduce due principali sfide. In primo luogo, contesti recuperati limitati potrebbero non coprire tutte le informazioni necessarie, mentre un recupero eccessivo può introdurre riferimenti irrilevanti e inaccurati, interferendo con la generazione del modello. In secondo luogo, nei casi in cui il modello risponde correttamente in origine, l'applicazione della RAG può portare a un'eccessiva dipendenza dai contesti recuperati, risultando in risposte errate. Per affrontare questi problemi, proponiamo RULE, che consiste in due componenti. In primo luogo, introduciamo una strategia dimostrabilmente efficace per controllare il rischio di inaccuratezza fattuale attraverso la selezione calibrata del numero di contesti recuperati. In secondo luogo, basandoci su campioni in cui un'eccessiva dipendenza dai contesti recuperati ha portato a errori, curiamo un dataset di preferenze per affinare il modello, bilanciando la sua dipendenza dalla conoscenza intrinseca e dai contesti recuperati per la generazione. Dimostriamo l'efficacia di RULE su tre dataset di VQA medica, ottenendo un miglioramento medio del 20,8% nell'accuratezza fattuale. Rilasciamo pubblicamente il nostro benchmark e il codice su https://github.com/richard-peng-xia/RULE.
Data l'ubiquità dei grafici come strumento di analisi dei dati, visualizzazione e presa di decisioni in vari settori e discipline scientifiche, si è registrato un crescente interesse nello sviluppo di modelli pre-addestrati di base e di modelli generali ottimizzati per istruzioni per la comprensione e il ragionamento sui grafici. Tuttavia, i metodi esistenti presentano importanti limitazioni lungo due assi critici che influenzano le prestazioni dei modelli di rappresentazione dei grafici: vengono addestrati su dati generati dalle tabelle sottostanti dei grafici, ignorando le tendenze e i modelli visivi nelle immagini dei grafici, e utilizzano modelli di base visione-linguaggio debolmente allineati per l'addestramento specifico del dominio, limitando la loro generalizzabilità quando si incontrano grafici in contesti reali. Affrontiamo queste importanti limitazioni e introduciamo ChartGemma, un innovativo modello di comprensione e ragionamento sui grafici sviluppato su PaliGemma. Piuttosto che affidarsi alle tabelle di dati sottostanti, ChartGemma viene addestrato su dati di ottimizzazione per istruzioni generati direttamente dalle immagini dei grafici, catturando così sia le tendenze di alto livello che le informazioni visive di basso livello da un insieme diversificato di grafici. Il nostro approccio semplice raggiunge risultati all'avanguardia su 5 benchmark che coprono la sintesi dei grafici, il question answering e la verifica dei fatti, e i nostri studi qualitativi approfonditi su grafici del mondo reale mostrano che ChartGemma genera riassunti più realistici e corretti dal punto di vista fattuale rispetto ai suoi contemporanei. Rilasciamo il codice, i checkpoint del modello, il dataset e le demo all'indirizzo https://github.com/vis-nlp/ChartGemma.
Gli esseri umani condividono un'ampia varietà di immagini legate alle loro esperienze personali all'interno di conversazioni tramite strumenti di messaggistica istantanea. Tuttavia, i lavori esistenti si concentrano (1) sul comportamento di condivisione di immagini in sessioni singole, portando a un'interazione sociale a lungo termine limitata, e (2) su una mancanza di personalizzazione nel comportamento di condivisione di immagini. In questo lavoro, introduciamo Stark, un dataset di conversazioni multimodali su larga scala e a lungo termine che copre un'ampia gamma di personaggi sociali in formato multimodale, intervalli temporali e immagini. Per costruire Stark in modo automatico, proponiamo un nuovo framework di contestualizzazione multimodale, Mcu, che genera dialoghi multimodali a lungo termine distillati da ChatGPT e dal nostro allineatore di immagini Plan-and-Execute. Utilizzando Stark, addestriamo un modello di conversazione multimodale, Ultron 7B, che dimostra un'impressionante capacità di immaginazione visiva. Inoltre, dimostriamo l'efficacia del nostro dataset attraverso valutazioni umane. Rendiamo disponibili pubblicamente il nostro codice sorgente e il dataset.
I grandi modelli linguistici (LLM) hanno compiuto progressi impressionanti nella gestione di problemi matematici semplici, ma continuano a incontrare difficoltà con compiti matematici più impegnativi e complessi. In questo articolo, introduciamo una serie di LLM che impiegano la Decomposizione del pensiero con assistenza di codice e autocorrezione per il ragionamento matematico, denominata DotaMath. I modelli DotaMath affrontano compiti matematici complessi scomponendoli in sottocompiti logici più semplici, sfruttando il codice per risolvere questi sottocompiti, ottenendo feedback dettagliati dall'interprete di codice e impegnandosi in autoriflessione e correzione. Annotando diverse traiettorie interattive di utilizzo degli strumenti e impiegando l'evoluzione delle query sui dataset GSM8K e MATH, generiamo un dataset di fine-tuning delle istruzioni chiamato DotaMathQA con 574K coppie query-risposta. Addestriamo una serie di LLM di base utilizzando l'apprendimento per imitazione su DotaMathQA, ottenendo modelli DotaMath che raggiungono prestazioni notevoli rispetto agli LLM open-source su vari benchmark in-dominio e out-of-domain. In particolare, DotaMath-deepseek-7B mostra una prestazione eccezionale del 64.8% sul competitivo dataset MATH e dell'86.7% su GSM8K. Inoltre, DotaMath-deepseek-7B mantiene una forte competitività su una serie di benchmark in-dominio e out-of-domain (media 80.1%). Guardando al futuro, anticipiamo che il paradigma DotaMath aprirà nuove strade per affrontare problemi matematici intricati. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/ChengpengLi1003/DotaMath.
Questo articolo presenta LLM-jp, un progetto interorganizzativo per la ricerca e lo sviluppo di modelli linguistici di grandi dimensioni (LLM) in giapponese. LLM-jp si propone di sviluppare LLM giapponesi open-source e di alta qualità, e al momento della stesura di questo articolo, più di 1.500 partecipanti provenienti dal mondo accademico e industriale stanno collaborando a questo scopo. Questo articolo illustra il contesto che ha portato alla creazione di LLM-jp, un riassunto delle sue attività e rapporti tecnici sui LLM sviluppati da LLM-jp. Per le ultime novità, visitate https://llm-jp.nii.ac.jp/en/.
Traendo vantaggio dai progressi nei modelli linguistici su larga scala e nell'allineamento cross-modale, i metodi esistenti per la comprensione video multi-modale hanno ottenuto prestazioni di rilievo nello scenario offline. Tuttavia, i flussi video online, una delle forme di media più comuni nel mondo reale, hanno ricevuto scarsa attenzione. Rispetto ai video offline, la natura "dinamica" dei flussi video online pone sfide per l'applicazione diretta dei modelli esistenti e introduce nuovi problemi, come la memorizzazione di informazioni a lunghissimo termine e l'interazione tra contenuti visivi continui e domande "asincrone" degli utenti. Pertanto, in questo articolo presentiamo Flash-VStream, un modello video-linguistico che simula il meccanismo di memoria umano. Il nostro modello è in grado di elaborare flussi video estremamente lunghi in tempo reale e rispondere simultaneamente alle query degli utenti. Rispetto ai modelli esistenti, Flash-VStream ottiene riduzioni significative nella latenza di inferenza e nel consumo di VRAM, aspetti strettamente correlati alla comprensione dei flussi video online. Inoltre, considerando che i benchmark esistenti per la comprensione video si concentrano prevalentemente sullo scenario offline, proponiamo VStream-QA, un nuovo benchmark di question answering specificamente progettato per la comprensione dei flussi video online. I confronti con i metodi esistenti più popolari sul benchmark proposto dimostrano la superiorità del nostro metodo in un contesto così impegnativo. Per verificare la generalizzabilità del nostro approccio, lo valutiamo ulteriormente sui benchmark esistenti per la comprensione video, ottenendo prestazioni all'avanguardia anche negli scenari offline. Tutti i codici, i modelli e i dataset sono disponibili all'indirizzo https://invinciblewyq.github.io/vstream-page/.
I protocolli di supervisione scalabile mirano a consentire agli esseri umani di monitorare con precisione l'intelligenza artificiale (IA) superumana. In questo articolo studiamo il dibattito, in cui due IA competono per convincere un giudice; la consulenza, in cui una singola IA cerca di convincere un giudice che pone domande; e confrontiamo questi approcci con una baseline di risposta diretta alle domande, in cui il giudice risponde direttamente senza l'intervento dell'IA. Utilizziamo modelli linguistici di grandi dimensioni (LLM) sia come agenti IA sia come sostituti di giudici umani, considerando i modelli giudice più deboli rispetto ai modelli agente. Eseguiamo benchmark su un'ampia gamma di asimmetrie tra giudici e agenti, estendendo il lavoro precedente su un singolo compito di QA estrattivo con asimmetria informativa, per includere anche asimmetrie in matematica, programmazione, logica e ragionamento multimodale. Scopriamo che il dibattito supera la consulenza in tutti i compiti quando il consulente è assegnato casualmente a sostenere la risposta corretta/errata. Confrontando il dibattito con la risposta diretta alle domande, i risultati dipendono dal tipo di compito: nei compiti di QA estrattivo con asimmetria informativa, il dibattito supera la risposta diretta, ma in altri compiti senza asimmetria informativa i risultati sono contrastanti. Il lavoro precedente assegnava ai debater/consulenti una risposta da sostenere. Quando permettiamo loro invece di scegliere quale risposta sostenere, scopriamo che i giudici sono meno frequentemente convinti dalla risposta errata nel dibattito rispetto alla consulenza. Inoltre, osserviamo che modelli debater più forti aumentano l'accuratezza del giudice, sebbene in modo più modesto rispetto agli studi precedenti.
È noto che i LLM siano vulnerabili agli attacchi di jailbreak, anche dopo l'allineamento di sicurezza. Un'osservazione importante è che, sebbene diversi tipi di attacchi di jailbreak possano generare query significativamente diverse, nella maggior parte dei casi producono risposte simili che sono radicate nella stessa conoscenza dannosa (ad esempio, passaggi dettagliati per creare una bomba). Pertanto, ipotizziamo che disimparare direttamente la conoscenza dannosa nel LLM possa essere un modo più efficace per difendersi dagli attacchi di jailbreak rispetto agli approcci mainstream basati sul fine-tuning supervisionato (SFT). I nostri esperimenti estesi hanno confermato la nostra intuizione e suggerito una sorprendente generalizzabilità del nostro approccio basato sul disimparare: utilizzando solo 20 domande dannose grezze senza alcun prompt di jailbreak durante l'addestramento, la nostra soluzione ha ridotto il tasso di successo degli attacchi (ASR) in Vicuna-7B su domande dannose fuori distribuzione (OOD) avvolte con vari prompt di jailbreak complessi dall'82,6% al 7,7%. Questo risultato supera significativamente Llama2-7B-Chat, che è stato sottoposto a fine-tuning su circa 0,1 milioni di campioni di allineamento di sicurezza ma ha comunque un ASR del 21,9% anche con l'aiuto di un ulteriore prompt di sistema di sicurezza. Un'analisi più approfondita rivela che la capacità di generalizzazione della nostra soluzione deriva dalla correlazione intrinseca tra le risposte dannose attraverso diverse domande dannose (ad esempio, modelli di risposta, passaggi e azioni condivisi, e somiglianza tra le loro rappresentazioni apprese nel LLM). Il nostro codice è disponibile all'indirizzo https://github.com/thu-coai/SafeUnlearning.
I modelli fondazionali multimodali in grado di elaborare in modo olistico il testo insieme a immagini, video, audio e altre modalità sensoriali sono sempre più utilizzati in una varietà di applicazioni del mondo reale. Tuttavia, è complesso caratterizzare e studiare i progressi nei modelli fondazionali multimodali, data la gamma di possibili decisioni di modellazione, compiti e domini. In questo articolo, introduciamo la Valutazione Olistica dei Modelli Multimodali (HEMM) per valutare sistematicamente le capacità dei modelli fondazionali multimodali attraverso un insieme di 3 dimensioni: abilità di base, flusso di informazioni e casi d'uso reali. Le abilità multimodali di base sono capacità interne necessarie per risolvere problemi, come l'apprendimento di interazioni tra modalità, l'allineamento fine, il ragionamento a più passaggi e la capacità di gestire conoscenze esterne. Il flusso di informazioni studia come il contenuto multimodale cambia durante un'attività attraverso interrogazioni, traduzioni, modifiche e fusione. I casi d'uso coprono sfide specifiche di dominio introdotte in applicazioni reali di multimedia, computazione affettiva, scienze naturali, assistenza sanitaria e interazione uomo-computer. Attraverso esperimenti completi sui 30 compiti in HEMM, (1) identifichiamo le dimensioni chiave dei dataset (ad esempio, abilità di base, flussi di informazioni e casi d'uso) che rappresentano sfide per i modelli attuali, e (2) distilliamo tendenze di prestazioni riguardo a come diverse dimensioni di modellazione (ad esempio, scala, dati di pre-addestramento, allineamento multimodale, pre-addestramento e obiettivi di ottimizzazione delle istruzioni) influenzano le prestazioni. Le nostre conclusioni riguardo alle interazioni multimodali complesse, ai casi d'uso e ai compiti che richiedono ragionamento e conoscenze esterne, ai benefici della scala dei dati e del modello, e agli impatti dell'ottimizzazione delle istruzioni forniscono spunti operativi per il futuro lavoro sui modelli fondazionali multimodali.
I campi di radianza neurale (NeRF) hanno ricevuto un'attenzione significativa grazie alla loro capacità di rendering di nuove viste di alta qualità, stimolando la ricerca per affrontare vari casi del mondo reale. Una sfida critica è rappresentata dalla sfocatura del movimento della fotocamera causata dallo spostamento della fotocamera durante il tempo di esposizione, che impedisce una ricostruzione accurata della scena 3D. In questo studio, proponiamo lo splatting gaussiano continuo consapevole del movimento rigido (CRiM-GS) per ricostruire scene 3D accurate da immagini sfocate con una velocità di rendering in tempo reale. Considerando il processo effettivo di sfocatura del movimento della fotocamera, che consiste in modelli di movimento complessi, prevediamo il movimento continuo della fotocamera basandoci su equazioni differenziali ordinarie neurali (ODE). Nello specifico, utilizziamo trasformazioni di corpo rigido per modellare il movimento della fotocamera con una regolarizzazione appropriata, preservando la forma e le dimensioni dell'oggetto. Inoltre, introduciamo una trasformazione 3D deformabile continua nel campo SE(3) per adattare la trasformazione di corpo rigido ai problemi del mondo reale, garantendo un grado di libertà più elevato. Rivedendo la teoria fondamentale della fotocamera e impiegando tecniche avanzate di addestramento delle reti neurali, otteniamo una modellazione accurata delle traiettorie continue della fotocamera. Condividiamo esperimenti estesi, dimostrando prestazioni all'avanguardia sia quantitativamente che qualitativamente su dataset di benchmark.
I modelli linguistici visivi (VLMs) stanno facendo rapidi progressi nella capacità di rispondere a domande di ricerca di informazioni. Poiché questi modelli sono ampiamente utilizzati in applicazioni consumer, potrebbero portare a nuovi rischi per la privacy a causa di abilità emergenti come l'identificazione di persone nelle foto, la geolocalizzazione di immagini, ecc. Come dimostriamo, in modo piuttosto sorprendente, gli attuali VLMs open-source e proprietari sono molto abili nel geolocalizzare immagini, rendendo la geolocalizzazione diffusa con VLMs un rischio immediato per la privacy, piuttosto che una semplice preoccupazione teorica futura. Come primo passo per affrontare questa sfida, abbiamo sviluppato un nuovo benchmark, GPTGeoChat, per testare la capacità dei VLMs di moderare i dialoghi di geolocalizzazione con gli utenti. Abbiamo raccolto un insieme di 1.000 conversazioni di geolocalizzazione di immagini tra annotatori interni e GPT-4v, annotate con la granularità delle informazioni sulla posizione rivelate a ogni turno. Utilizzando questo nuovo dataset, valutiamo la capacità di vari VLMs di moderare le conversazioni di geolocalizzazione di GPT-4v determinando quando sono state rivelate troppe informazioni sulla posizione. Scopriamo che modelli personalizzati fine-tuned performano alla pari con modelli basati su API promptati nell'identificare informazioni sulla posizione trapelate a livello di paese o città; tuttavia, sembra necessario un fine-tuning su dati supervisionati per moderare accuratamente granularità più fini, come il nome di un ristorante o di un edificio.