Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Movie Gen, un insieme di modelli fondamentali che genera video ad alta qualità in HD a 1080p con diversi rapporti di aspetto e audio sincronizzato. Mostriamo inoltre capacità aggiuntive come il montaggio video preciso basato su istruzioni e la generazione di video personalizzati basati sull'immagine di un utente. I nostri modelli stabiliscono un nuovo stato dell'arte su molteplici compiti: sintesi testo-video, personalizzazione video, montaggio video, generazione video-audio e generazione testo-audio. Il nostro modello di generazione video più grande è un transformer con 30 miliardi di parametri addestrato con una lunghezza massima del contesto di 73.000 token video, corrispondente a un video generato di 16 secondi a 16 fotogrammi al secondo. Mostriamo diverse innovazioni tecniche e semplificazioni sull'architettura, spazi latenti, obiettivi e ricette di addestramento, cura dei dati, protocolli di valutazione, tecniche di parallelizzazione e ottimizzazioni dell'inferenza che ci consentono di sfruttare i vantaggi della scalabilità dei dati di pre-addestramento, delle dimensioni del modello e del calcolo di addestramento per modelli di generazione di media su larga scala. Speriamo che questo articolo aiuti la comunità di ricerca ad accelerare il progresso e l'innovazione nei modelli di generazione di media. Tutti i video di questo articolo sono disponibili su https://go.fb.me/MovieGenResearchVideos.
Percepire e generare diverse modalità sono cruciali per i modelli di intelligenza artificiale per apprendere in modo efficace e interagire con segnali del mondo reale, rendendo necessarie valutazioni affidabili per il loro sviluppo. Identifichiamo due principali problematiche nelle valutazioni attuali: (1) standard inconsistente, plasmato da diverse comunità con protocolli e livelli di maturità variabili; e (2) significativi bias di interrogazione, valutazione e generalizzazione. Per affrontare queste questioni, presentiamo MixEval-X, il primo benchmark del mondo reale any-to-any progettato per ottimizzare e standardizzare le valutazioni tra modalità di input e output. Proponiamo miscele di benchmark multi-modalità e pipeline di adattamento-rettifica per ricostruire distribuzioni di compiti del mondo reale, garantendo che le valutazioni si generalizzino efficacemente ai casi d'uso reali. Estese meta-valutazioni mostrano che il nostro approccio allinea efficacemente campioni di benchmark con distribuzioni di compiti del mondo reale e i ranking dei modelli correlano fortemente con quelli delle valutazioni del mondo reale raccolte dalla folla (fino a 0.98). Forniamo classifiche complete per riassegnare i modelli e le organizzazioni esistenti e offriamo spunti per migliorare la comprensione delle valutazioni multi-modalità e per informare la ricerca futura.
I giudici basati su LLM sono emersi come un'alternativa scalabile alla valutazione umana e vengono sempre più utilizzati per valutare, confrontare e migliorare i modelli. Tuttavia, la affidabilità dei giudici basati su LLM stessi è raramente scrutinata. Man mano che gli LLM diventano più avanzati, le loro risposte diventano più sofisticate, richiedendo giudici più robusti per valutarli. I benchmark esistenti si concentrano principalmente sull'allineamento di un giudice con le preferenze umane, ma spesso non tengono conto di compiti più impegnativi in cui le preferenze umane raccolte in crowd sono un povero indicatore di correttezza fattuale e logica. Per affrontare questo problema, proponiamo un nuovo framework di valutazione per valutare oggettivamente i giudici basati su LLM. Basandoci su questo framework, proponiamo JudgeBench, un benchmark per valutare i giudici basati su LLM su coppie di risposte impegnative che spaziano dalla conoscenza, al ragionamento, alla matematica e alla codifica. JudgeBench sfrutta un nuovo processo per convertire dataset difficili esistenti in coppie di risposte impegnative con etichette di preferenza che riflettono la correttezza oggettiva. La nostra valutazione completa su una serie di giudici sollecitati, giudici ottimizzati, giudici multi-agente e modelli di ricompensa mostra che JudgeBench presenta una sfida significativamente maggiore rispetto ai benchmark precedenti, con molti modelli robusti (ad esempio, GPT-4o) che si comportano appena leggermente meglio di un'ipotesi casuale. In generale, JudgeBench offre una piattaforma affidabile per valutare giudici basati su LLM sempre più avanzati. I dati e il codice sono disponibili su https://github.com/ScalerLab/JudgeBench.
L'ingrandimento dei modelli autoregressivi in visione non ha dimostrato di essere altrettanto vantaggioso come nei grandi modelli linguistici. In questo lavoro, investighiamo questo problema di scalabilità nel contesto della generazione di testo-immagine, concentrandoci su due fattori critici: se i modelli utilizzano token discreti o continui e se i token vengono generati in un ordine raster casuale o fisso utilizzando architetture trasformative simili a BERT o GPT. I nostri risultati empirici mostrano che, sebbene tutti i modelli scalino efficacemente in termini di perdita di validazione, le loro prestazioni di valutazione - misurate da FID, punteggio GenEval e qualità visiva - seguono tendenze diverse. I modelli basati su token continui raggiungono una qualità visiva significativamente migliore rispetto a quelli che utilizzano token discreti. Inoltre, l'ordine di generazione e i meccanismi di attenzione influenzano significativamente il punteggio GenEval: i modelli in ordine casuale ottengono punteggi GenEval notevolmente migliori rispetto ai modelli in ordine raster. Ispirati da questi risultati, addestriamo Fluid, un modello autoregressivo in ordine casuale su token continui. Il modello Fluid 10.5B raggiunge un nuovo stato dell'arte con un FID zero-shot di 6.16 su MS-COCO 30K e un punteggio complessivo di 0.69 sul benchmark GenEval. Speriamo che i nostri risultati incoraggino futuri sforzi per colmare ulteriormente il divario di scalabilità tra i modelli di visione e linguaggio.
In questo articolo, presentiamo Janus, un framework autoregressivo che unifica la comprensione e la generazione multimodale. La ricerca precedente spesso si basa su un singolo codificatore visivo per entrambi i compiti, come Chameleon. Tuttavia, a causa dei diversi livelli di granularità dell'informazione richiesti dalla comprensione e generazione multimodale, questo approccio può portare a prestazioni non ottimali, in particolare nella comprensione multimodale. Per affrontare questo problema, suddividiamo la codifica visiva in percorsi separati, pur sfruttando un'unica architettura trasformatore unificata per l'elaborazione. La suddivisione non solo allevia il conflitto tra i ruoli del codificatore visivo nella comprensione e nella generazione, ma potenzia anche la flessibilità del framework. Ad esempio, sia i componenti di comprensione multimodale che di generazione possono selezionare in modo indipendente i loro metodi di codifica più adatti. Gli esperimenti mostrano che Janus supera il modello unificato precedente e eguaglia o supera le prestazioni dei modelli specifici per compiti. La semplicità, l'alta flessibilità e l'efficacia di Janus lo rendono un forte candidato per i modelli multimodali unificati di prossima generazione.
Il successo dei grandi modelli linguistici (LLM) ha spinto a sforzi per integrare dati vocali e audio, con l'obiettivo di creare modelli fondamentali generali capaci di elaborare sia input testuali che non testuali. Gli avanzamenti recenti, come il GPT-4o, mettono in evidenza il potenziale per modelli vocali LLM end-to-end, che conservano informazioni non semantiche e conoscenze del mondo per una comprensione più approfondita del linguaggio parlato. Per guidare lo sviluppo dei modelli vocali LLM, proponiamo una roadmap a cinque livelli, che va dall'elaborazione automatica di riconoscimento vocale (ASR) a modelli superumani avanzati capaci di integrare informazioni non semantiche con conoscenze acustiche astratte per compiti complessi. Inoltre, progettiamo un benchmark, il Benchmark SAGI, che standardizza aspetti critici tra vari compiti in questi cinque livelli, mettendo in luce le sfide nell'uso di conoscenze acustiche astratte e nella completezza delle capacità. Le nostre scoperte rivelano lacune nel gestire segnali paralinguistici e conoscenze acustiche astratte, e offriamo indicazioni per future direzioni. Questo articolo delinea una roadmap per far progredire i modelli vocali LLM, introduce un benchmark per la valutazione e fornisce importanti approfondimenti sulle attuali limitazioni e potenzialità di tali modelli.
Gli attuali assistenti mobili sono limitati dalla dipendenza dalle API di sistema o faticano con istruzioni utente complesse e interfacce diverse a causa delle limitate capacità di comprensione e di decisione. Per affrontare queste sfide, proponiamo MobA, un nuovo Agente per telefoni cellulari alimentato da modelli di linguaggio multimodali di grandi dimensioni che migliorano le capacità di comprensione e pianificazione attraverso un sofisticato' architettura a due livelli. L'Agente Globale (GA) di alto livello è responsabile della comprensione dei comandi dell'utente, del tracciamento delle memorie storiche e della pianificazione delle attività. L'Agente Locale (LA) di basso livello prevede azioni dettagliate sotto forma di chiamate di funzione, guidate da sotto-attività e memoria del GA. L'integrazione di un Modulo di Riflessione consente un completamento efficiente dei compiti e permette al sistema di gestire compiti complessi precedentemente non visti. MobA dimostra significativi miglioramenti nell'efficienza dell'esecuzione dei compiti e nel tasso di completamento nelle valutazioni della vita reale, sottolineando il potenziale degli assistenti mobili potenziati da MLLM.
I Modelli di Linguaggio Visivo (VLM) spesso faticano con le conoscenze specifiche della cultura, in particolare in lingue diverse dall'inglese e in contesti culturali sottorappresentati. Per valutare la loro comprensione di tali conoscenze, introduciamo WorldCuisines, un benchmark su larga scala per la comprensione del linguaggio multilingue e multiculturale, basato su immagini. Questo benchmark include un dataset di domande e risposte visive (VQA) con coppie di testo e immagini in 30 lingue e dialetti, che coprono 9 famiglie linguistiche e presentano oltre 1 milione di punti dati, rendendolo il più grande benchmark VQA multiculturale fino ad oggi. Include compiti per identificare i nomi dei piatti e le loro origini. Forniamo dataset di valutazione in due dimensioni (12k e 60k istanze) insieme a un dataset di addestramento (1 milione di istanze). Le nostre scoperte mostrano che, sebbene i VLM si comportino meglio con il contesto di localizzazione corretto, faticano con contesti avversari e nella previsione di specifiche cucine regionali e lingue. Per supportare la ricerca futura, rilasciamo una base di conoscenza con voci alimentari annotate e immagini insieme ai dati VQA.
La comprensione visiva ricca di testo, ovvero la capacità di elaborare ambienti in cui il contenuto testuale denso è integrato con elementi visivi, è fondamentale affinché i modelli di linguaggio multimodali di grandi dimensioni (MLLM) possano interagire in modo efficace con ambienti strutturati. Per potenziare questa capacità, proponiamo di sintetizzare istruzioni multimodali generali dalle interfacce utente delle pagine web utilizzando modelli di linguaggio di grandi dimensioni basati sul testo (LLM). Nonostante la mancanza di un input visivo diretto, i LLM basati sul testo sono in grado di elaborare rappresentazioni testuali strutturate dagli alberi di accessibilità delle pagine web. Queste istruzioni vengono poi accoppiate con screenshot delle interfacce utente per addestrare modelli multimodali. Presentiamo MultiUI, un dataset contenente 7,3 milioni di campioni da 1 milione di siti web, che copre diverse attività multimodali e layout delle interfacce utente. I modelli addestrati su MultiUI eccellono non solo nelle attività delle interfacce utente web, raggiungendo fino al 48% di miglioramento su VisualWebBench e un aumento del 19,1% nell'accuratezza delle azioni su un dataset di agenti web Mind2Web, ma si generalizzano sorprendentemente bene anche per attività non legate alle interfacce utente web e persino a domini non legati alle interfacce utente, come la comprensione dei documenti, l'OCR e l'interpretazione dei grafici. Questi risultati evidenziano l'ampia applicabilità dei dati delle interfacce utente web per far progredire la comprensione visiva ricca di testo in vari scenari.
I recenti progressi nella generazione personalizzata di video hanno permesso agli utenti di creare video su misura sia per soggetti specifici che per traiettorie di movimento. Tuttavia, i metodi esistenti spesso richiedono un complicato adattamento fine-tempo e faticano nel bilanciare l'apprendimento del soggetto e il controllo del movimento, limitando le loro applicazioni nel mondo reale. In questo articolo, presentiamo DreamVideo-2, un framework di personalizzazione video a zero-shot in grado di generare video con un soggetto specifico e una traiettoria di movimento, guidati rispettivamente da un'immagine singola e da una sequenza di bounding box, senza la necessità di adattamenti fine-tempo. In particolare, introduciamo l'attenzione di riferimento, che sfrutta le capacità intrinseche del modello per l'apprendimento del soggetto, e progettiamo un modulo di movimento guidato da maschere per ottenere un controllo preciso del movimento sfruttando appieno il robusto segnale di movimento delle maschere di box derivate dalle bounding box. Mentre questi due componenti raggiungono le loro funzioni previste, osserviamo empiricamente che il controllo del movimento tende a dominare sull'apprendimento del soggetto. Per affrontare questo problema, proponiamo due design chiave: 1) l'attenzione di riferimento mascherata, che integra uno schema di modellazione di maschere latenti mescolate nell'attenzione di riferimento per potenziare le rappresentazioni del soggetto nelle posizioni desiderate, e 2) una perdita di diffusione ripesata, che differenzia i contributi delle regioni all'interno e all'esterno delle bounding box per garantire un equilibrio tra controllo del soggetto e del movimento. Estesi risultati sperimentali su un dataset appena curato dimostrano che DreamVideo-2 supera i metodi all'avanguardia sia nella personalizzazione del soggetto che nel controllo del movimento. Il dataset, il codice e i modelli saranno resi pubblicamente disponibili.
L'Intelligenza Artificiale (IA) ha dimostrato un significativo potenziale nel settore sanitario, in particolare nella diagnosi delle malattie e nella pianificazione del trattamento. I recenti progressi nei Modelli Medici Multimodali Visione-Linguaggio (Med-LVLMs) hanno aperto nuove possibilità per strumenti diagnostici interattivi. Tuttavia, questi modelli soffrono spesso di allucinazioni factuali, che possono portare a diagnosi errate. Il raffinamento e la generazione potenziata da recupero (RAG) sono emersi come metodi per affrontare questi problemi. Tuttavia, la quantità di dati di alta qualità e gli scostamenti di distribuzione tra i dati di addestramento e i dati di implementazione limitano l'applicazione dei metodi di raffinamento. Anche se RAG è leggero ed efficace, gli approcci basati su RAG esistenti non sono sufficientemente generali per i diversi domini medici e possono potenzialmente causare problemi di disallineamento, sia tra le modalità che tra il modello e la verità di riferimento. In questo articolo, proponiamo un sistema RAG multimodale versatile, MMed-RAG, progettato per migliorare la factualità dei Med-LVLMs. Il nostro approccio introduce un meccanismo di recupero consapevole del dominio, un metodo di selezione adattiva dei contesti recuperati e una strategia di raffinamento delle preferenze basata su RAG dimostrabile. Queste innovazioni rendono il processo RAG sufficientemente generale e affidabile, migliorando significativamente l'allineamento durante l'introduzione dei contesti recuperati. I risultati sperimentali su cinque set di dati medici (radiologia, oftalmologia, patologia) relativi a VQA medico e generazione di report dimostrano che MMed-RAG può ottenere un miglioramento medio del 43,8% nell'accuratezza fattuale dei Med-LVLMs. I nostri dati e codici sono disponibili su https://github.com/richard-peng-xia/MMed-RAG.
In questo lavoro, aggiorniamo il meccanismo di attenzione multi-testa, il nucleo del modello Transformer, per migliorare l'efficienza mantenendo o superando il livello di precisione precedente. Mostriamo che l'attenzione multi-testa può essere espressa nella forma di sommatoria. Basandoci sull'idea che non tutte le teste di attenzione hanno la stessa importanza, proponiamo l'attenzione Mixture-of-Head (MoH), una nuova architettura che tratta le teste di attenzione come esperti nel meccanismo Mixture-of-Experts (MoE). MoH ha due significativi vantaggi: in primo luogo, MoH consente a ciascun token di selezionare le teste di attenzione appropriate, migliorando l'efficienza inferenziale senza compromettere la precisione o aumentare il numero di parametri. In secondo luogo, MoH sostituisce la sommatoria standard nell'attenzione multi-testa con una sommatoria pesata, introducendo flessibilità nel meccanismo di attenzione e sbloccando un potenziale di prestazioni aggiuntivo. Esperimenti approfonditi su ViT, DiT e LLMs dimostrano che MoH supera l'attenzione multi-testa utilizzando solo il 50%-90% delle teste di attenzione. Inoltre, dimostriamo che i modelli di attenzione multi-testa preaddestrati, come LLaMA3-8B, possono essere ulteriormente adattati ai nostri modelli MoH. In particolare, MoH-LLaMA3-8B raggiunge una precisione media del 64,0% su 14 benchmark, superando LLaMA3-8B del 2,4% utilizzando solo il 75% delle teste di attenzione. Riteniamo che il MoH proposto sia una promettente alternativa all'attenzione multi-testa e fornisca una solida base per lo sviluppo di modelli avanzati ed efficienti basati sull'attenzione.
Valutare i grandi modelli linguistici (LLM) è costoso: richiede la generazione e l'esame delle uscite dei LLM su un ampio benchmark di varie attività. Questo articolo indaga su come ridurre efficientemente le attività utilizzate per valutare i LLM senza influire sulla qualità della valutazione. Il nostro studio rivela che la trasferibilità e la rilevanza delle attività forniscono informazioni cruciali per identificare il sottoinsieme più rappresentativo di attività tramite l'ottimizzazione di una funzione di localizzazione delle strutture. Proponiamo una metrica praticamente efficiente per stimare la trasferibilità tra due attività tramite apprendimento in contesto (ICL). Analizzando la trasferibilità a coppie, possiamo ridurre le attività in un moderno benchmark LLM (ad esempio, MMLU o FLAN) al 5% causando solo una differenza <4% rispetto alla valutazione sul benchmark originale. Rispetto ai lavori precedenti, il nostro metodo è privo di addestramento, privo di gradienti ed estremamente efficiente richiedendo solo ICL.
L'allineamento dei grandi modelli linguistici (LLM) coinvolge l'addestramento dei modelli su coppie di output preferenziali-contrastive per regolare le loro risposte in base alle preferenze umane. Per ottenere tali coppie contrastive, i metodi tradizionali come RLHF e RLAIF si basano su schemi contrastivi limitati, come varianti del modello variabili o temperature di decodifica. Questa singolarità porta a due problemi: (1) l'allineamento non è esaustivo; e quindi (2) i modelli sono suscettibili ad attacchi di jailbreaking. Per affrontare questi problemi, indaghiamo su come costruire schemi contrastivi più completi e diversificati per migliorare i dati di preferenza (RQ1) e verifichiamo l'impatto della diversificazione degli schemi contrastivi sull'allineamento del modello (RQ2). Per RQ1, proponiamo PopAlign, un framework che integra schemi contrastivi diversificati a livello di prompt, modello e pipeline, introducendo sei strategie contrastive che non richiedono procedure aggiuntive di etichettatura del feedback. Riguardo a RQ2, conduciamo esperimenti approfonditi dimostrando che PopAlign supera significativamente i metodi esistenti, portando a un allineamento più completo.
Abilitare i Large Language Models (LLM) a gestire una gamma più ampia di compiti complessi (ad esempio, codifica, matematica) ha attirato grande attenzione da parte di molti ricercatori. Mentre i LLM continuano a evolversi, aumentare semplicemente il numero di parametri del modello porta a miglioramenti delle prestazioni in diminuzione e a pesanti costi computazionali. Recentemente, il modello o1 di OpenAI ha dimostrato che le strategie di inferenza (cioè, i metodi di calcolo al momento del test) possono anche migliorare significativamente le capacità di ragionamento dei LLM. Tuttavia, i meccanismi dietro questi metodi sono ancora inesplorati. Nel nostro lavoro, per indagare sui modelli di ragionamento di o1, confrontiamo o1 con i metodi esistenti di calcolo al momento del test (BoN, BoN passo-passo, Workflow dell'Agente e Auto-raffinamento) utilizzando il GPT-4o di OpenAI come base su benchmark di ragionamento generale in tre domini (matematica, codifica, ragionamento di buon senso). In particolare, i nostri esperimenti mostrano che il modello o1 ha ottenuto le migliori prestazioni sulla maggior parte dei dataset. Per quanto riguarda i metodi di ricerca di risposte diverse (ad esempio, BoN), abbiamo scoperto che le capacità dei modelli di ricompensa e lo spazio di ricerca limitano entrambi il limite superiore di questi metodi. Per quanto riguarda i metodi che suddividono il problema in molti sotto-problemi, il Workflow dell'Agente ha ottenuto prestazioni migliori rispetto a BoN passo-passo grazie alla richiesta di sistema specifica del dominio per pianificare processi di ragionamento migliori. È importante sottolineare che abbiamo riassunto sei modelli di ragionamento di o1 e fornito un'analisi dettagliata su diversi benchmark di ragionamento.
Il post-addestramento è emerso come un paradigma cruciale per adattare modelli pre-addestrati su larga scala a varie attività, i cui effetti sono pienamente riflessi dai parametri delta (cioè, la disparità tra i parametri post-addestramento e pre-addestramento). Mentre numerosi studi hanno esplorato le proprietà dei parametri delta tramite operazioni come potatura, quantizzazione, approssimazione a basso rango ed estrapolazione, manca un quadro unificato per esaminare sistematicamente queste caratteristiche. In questo articolo, proponiamo una prospettiva innovativa basata sull'approssimazione della somma di Riemann della funzione di perdita per chiarire le operazioni di modifica dei parametri delta. La nostra analisi categorizza i metodi esistenti in tre classi in base alle loro prestazioni post-modifica: competitiva, diminuita e migliorata, spiegando come siano espressi dal termine di approssimazione della somma di Riemann e come alterino le prestazioni del modello. Estesi esperimenti su modelli visivi e linguistici, inclusi ViT, LLaMA 3, Qwen 2 e Mistral, confermano le nostre conclusioni teoriche. Inoltre, introduciamo estensioni alle tecniche esistenti come DARE e BitDelta, evidenziando i loro limiti nel sfruttare le proprietà dei parametri delta e riorganizzandoli in espressioni generali per migliorare l'applicabilità e l'efficacia della modifica dei parametri delta nei modelli post-addestramento.
Recentemente, la quantizzazione è stata ampiamente utilizzata per la compressione e l'accelerazione dei grandi modelli linguistici~(LLM). A causa degli outlier nei LLM, è cruciale appiattire i pesi e le attivazioni per minimizzare l'errore di quantizzazione con punti di quantizzazione equamente spaziati. Ricerche precedenti esplorano varie trasformazioni pre-quantizzazione per sopprimere gli outlier, come la scalatura per canale e la trasformazione di Hadamard. Tuttavia, osserviamo che questi pesi e attivazioni trasformati possono ancora rimanere ripidi e dispersi. In questo articolo, proponiamo FlatQuant (Trasformazione Affine Veloce e Apprendibile), un nuovo approccio di quantizzazione post-training per migliorare l'appiattimento dei pesi e delle attivazioni. Il nostro approccio identifica trasformazioni affini ottimali adattate a ciascuno strato lineare, calibrate in ore attraverso un obiettivo leggero. Per ridurre l'overhead di runtime, applichiamo la decomposizione di Kronecker alle matrici di trasformazione e fondiamo tutte le operazioni in FlatQuant in un unico kernel. Estesi esperimenti mostrano che FlatQuant stabilisce un nuovo benchmark di quantizzazione all'avanguardia. Ad esempio, raggiunge una diminuzione di accuratezza inferiore al 1% per la quantizzazione W4A4 sul modello LLaMA-3-70B, superando SpinQuant del 7.5%. Per la latenza di inferenza, FlatQuant riduce il rallentamento indotto dalla trasformazione pre-quantizzazione da 0.26x di QuaRot a soli 0.07x, portando a un aumento di velocità fino a 2.3x per il prefill e 1.7x per la decodifica, rispettivamente. Il codice è disponibile su: https://github.com/ruikangliu/FlatQuant.
L'unione di immagini panoramiche fornisce una visione unificata e ampia di una scena che si estende oltre il campo visivo della fotocamera. Unire i frame di un video panoramico in una fotografia panoramica è un problema ben compreso per scene stazionarie, ma quando gli oggetti si muovono, una panoramica statica non può catturare la scena. Presentiamo un metodo per sintetizzare un video panoramico da un video panoramico ripreso casualmente, come se il video originale fosse stato catturato con una telecamera grandangolare. Poniamo la sintesi della panoramica come un problema di outpainting spazio-temporale, dove miriamo a creare un video panoramico completo della stessa durata del video di input. Il completamento coerente del volume spazio-temporale richiede un potente e realistico prior su contenuti video e movimento, per il quale adattiamo modelli generativi di video. I modelli generativi esistenti, tuttavia, non si estendono immediatamente al completamento della panoramica, come dimostriamo. Applichiamo invece la generazione di video come componente del nostro sistema di sintesi della panoramica e mostriamo come sfruttare i punti di forza dei modelli minimizzando le loro limitazioni. Il nostro sistema può creare video panoramiche per una varietà di scene naturali, tra cui persone, veicoli e acqua in movimento, nonché caratteristiche di sfondo stazionarie.
Sebbene i grandi modelli linguistici (LLM) dimostrino un'eccezionale competenza in varie attività, presentano potenziali rischi per la sicurezza, come i 'jailbreak', in cui input maliziosi possono costringere i LLM a generare contenuti dannosi. Per affrontare tali problematiche, molti sviluppatori di LLM hanno implementato varie misure di sicurezza per allineare tali modelli. Questo allineamento coinvolge diverse tecniche, tra cui il filtraggio dei dati durante la preformazione, il raffinamento supervisionato, il apprendimento per rinforzo dal feedback umano e esercitazioni di red-teaming. Questi metodi spesso introducono pregiudizi deliberati e intenzionali simili alla Correttezza Politica (PC) per garantire il comportamento etico dei LLM. In questo articolo, approfondiamo i pregiudizi intenzionali iniettati nei LLM a fini di sicurezza ed esaminiamo metodi per aggirare queste tecniche di allineamento della sicurezza. In particolare, tali pregiudizi intenzionali portano a un tasso di successo del jailbreaking nei modelli GPT-4o che differisce del 20% tra parole non binarie e cisgender e del 16% tra parole bianche e nere, anche quando le altre parti delle istruzioni sono identiche. Introduciamo il concetto di PCJailbreak, evidenziando i rischi intrinseci posti da questi pregiudizi indotti dalla sicurezza. Inoltre, proponiamo un efficiente metodo di difesa, PCDefense, che impedisce tentativi di jailbreak iniettando prompt di difesa prima della generazione. PCDefense si presenta come un'alternativa interessante ai Modelli di Guardia, come Llama-Guard, che richiedono costi aggiuntivi di inferenza dopo la generazione del testo. Le nostre conclusioni sottolineano l'urgente necessità per gli sviluppatori di LLM di adottare un approccio più responsabile nella progettazione e implementazione delle misure di sicurezza.
Con il miglioramento delle capacità dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs), cresce la necessità di valutare le capacità di ordine superiore dei MLLMs. Tuttavia, manca un lavoro di valutazione dei MLLM per la percezione e la comprensione di ordine superiore dei contenuti visivi cinesi. Per colmare questa lacuna, presentiamo il **B**enchmark di **C**omprensione delle **I**mplicazioni delle **I**mmagini cinesi, **CII-Bench**, che mira a valutare le capacità di percezione e comprensione di ordine superiore dei MLLMs per le immagini cinesi. CII-Bench si distingue in diversi modi rispetto ai benchmark esistenti. In primo luogo, per garantire l'autenticità del contesto cinese, le immagini in CII-Bench sono tratte da Internet cinese e revisionate manualmente, con le relative risposte anche create manualmente. Inoltre, CII-Bench incorpora immagini che rappresentano la cultura tradizionale cinese, come famose pitture tradizionali cinesi, che possono riflettere profondamente la comprensione della cultura tradizionale cinese da parte del modello. Attraverso ampi esperimenti su CII-Bench su vari MLLMs, abbiamo fatto importanti scoperte. Inizialmente, si osserva un divario significativo tra le prestazioni dei MLLMs e degli esseri umani su CII-Bench. La massima accuratezza dei MLLMs raggiunge il 64,4%, mentre l'accuratezza umana si attesta in media al 78,2%, raggiungendo un impressionante 81,0%. Successivamente, i MLLMs si comportano peggio sulle immagini della cultura tradizionale cinese, suggerendo limiti nella loro capacità di comprendere semantica di alto livello e la mancanza di una base di conoscenza approfondita della cultura tradizionale cinese. Infine, si osserva che la maggior parte dei modelli mostra un'accuratezza migliorata quando vengono incorporati suggerimenti emotivi delle immagini nei prompt. Crediamo che CII-Bench consentirà ai MLLMs di acquisire una migliore comprensione della semantica cinese e delle immagini specifiche cinesi, avanzando nel percorso verso un'intelligenza artificiale generale (AGI) esperta. Il nostro progetto è disponibile pubblicamente su https://cii-bench.github.io/.
Le interazioni a più turni tra i grandi modelli linguistici (LLM) e gli utenti includono naturalmente segnali impliciti di feedback. Se un LLM risponde in modo inaspettato a un'istruzione, è probabile che l'utente lo segnali riphrasing la richiesta, esprimendo frustrazione o passando a un compito alternativo. Tali segnali sono indipendenti dal compito e occupano uno spazio relativamente limitato del linguaggio, consentendo all'LLM di identificarli anche se non riesce nel compito effettivo. Questo crea una via per apprendere continuamente dalle interazioni senza annotazioni aggiuntive. Presentiamo ReSpect, un metodo per apprendere da tali segnali nelle interazioni passate tramite retrospezione. Implementiamo ReSpect in uno scenario di interazione multimodale, in cui gli esseri umani istruiscono un LLM a risolvere un compito di ragionamento astratto con uno spazio di soluzione combinatorio. Attraverso migliaia di interazioni con gli esseri umani, mostriamo come ReSpect migliori gradualmente il tasso di completamento del compito dal 31% all'82%, tutto senza alcuna annotazione esterna.
La correzione degli errori generativi (GEC) è emersa come un potente metodo di post-elaborazione per migliorare le prestazioni dei sistemi di riconoscimento vocale automatico (ASR). Tuttavia, dimostriamo che i modelli GEC faticano a generalizzare oltre i tipi specifici di errori incontrati durante l'addestramento, limitando la loro capacità di correggere nuovi errori non visti al momento del test, in particolare in scenari out-of-domain (OOD). Questo fenomeno si amplifica con le entità nominate (NE), dove, oltre a informazioni contestuali o conoscenze insufficienti sulle NE, continuano a emergere nuove NE. Per affrontare questi problemi, proponiamo DARAG (Data- and Retrieval-Augmented Generative Error Correction), un approccio innovativo progettato per migliorare la GEC per ASR in scenari in-domain (ID) e OOD. Arricchiamo il dataset di addestramento GEC con dati sintetici generati mediante la sollecitazione di LLM e modelli di text-to-speech, simulando così errori aggiuntivi da cui il modello può apprendere. Per scenari OOD, simuliamo errori al momento del test da nuovi domini in modo simile e in maniera non supervisionata. Inoltre, per gestire meglio le entità nominate, introduciamo una correzione arricchita da recupero, aggiungendo all'input entità recuperate da un database. Il nostro approccio è semplice, scalabile e agnostico rispetto al dominio e alla lingua. Sperimentiamo su più dataset e impostazioni, dimostrando che DARAG supera tutti i nostri baselines, ottenendo miglioramenti del WER relativi dell'8% al 30% in ID e del 10% al 33% in impostazioni OOD.
Lo sviluppo dei grandi modelli linguistici (LLM) ha notevolmente potenziato le capacità dei modelli linguistici multimodali (MLLM) come assistenti generali. Tuttavia, la mancanza di conoscenze specifiche dell'utente limita ancora la loro applicazione nella vita quotidiana umana. In questo articolo, presentiamo il framework di Personalizzazione potenziata da Recupero (RAP) per la personalizzazione dei MLLM. Partendo da un MLLM generale, lo trasformiamo in un assistente personalizzato in tre fasi. (a) Ricorda: Progettiamo un database chiave-valore per memorizzare informazioni relative all'utente, come il nome dell'utente, l'avatar e altri attributi. (b) Recupera: Quando l'utente avvia una conversazione, RAP recupererà informazioni rilevanti dal database utilizzando un recuperatore multimodale. (c) Genera: La query di input e le informazioni sui concetti recuperati vengono alimentate nei MLLM per generare risposte personalizzate, arricchite di conoscenza. A differenza dei metodi precedenti, RAP consente la modifica in tempo reale dei concetti tramite l'aggiornamento del database esterno. Per migliorare ulteriormente la qualità della generazione e l'allineamento con le informazioni specifiche dell'utente, progettiamo un flusso di lavoro per la raccolta dati e creiamo un dataset specializzato per l'addestramento personalizzato dei MLLM. Sulla base del dataset, addestriamo una serie di MLLM come assistenti multimodali personalizzati. Attraverso il preaddestramento su un dataset su larga scala, i RAP-MLLM possono generalizzare a infiniti concetti visivi senza ulteriori raffinamenti. I nostri modelli dimostrano un'eccezionale flessibilità e qualità di generazione in una varietà di compiti, come la descrizione personalizzata di immagini, il rispondere a domande e il riconoscimento visivo. Il codice, i dati e i modelli sono disponibili su https://github.com/Hoar012/RAP-MLLM.
Generare musica che si allinea con i contenuti visivi di un video è stata un'attività impegnativa, poiché richiede una profonda comprensione della semantica visiva e implica la generazione di musica la cui melodia, ritmo e dinamiche armonizzino con le narrazioni visive. Questo articolo presenta MuVi, un nuovo framework che affronta efficacemente tali sfide per migliorare la coesione e l'esperienza immersiva dei contenuti audio-visivi. MuVi analizza i contenuti video attraverso un adattatore visivo appositamente progettato per estrarre caratteristiche rilevanti dal contesto e temporalmente pertinenti. Queste caratteristiche sono utilizzate per generare musica che non solo si adatta all'umore e al tema del video, ma anche al suo ritmo e alla sua cadenza. Introduciamo inoltre uno schema di pre-addestramento contrastivo musica-visivo per garantire la sincronizzazione, basato sulla natura periodica delle frasi musicali. Inoltre, dimostriamo che il nostro generatore di musica basato sul matching di flusso ha la capacità di apprendimento in contesto, consentendoci di controllare lo stile e il genere della musica generata. I risultati sperimentali mostrano che MuVi dimostra prestazioni superiori sia in termini di qualità audio che di sincronizzazione temporale. Gli esempi di video musicali generati sono disponibili su https://muvi-v2m.github.io.
I modelli linguistici (LM) hanno dimostrato capacità di ragionamento e recupero a livello esperto in medicina. Tuttavia, i costi computazionali e le preoccupazioni sulla privacy stanno diventando ostacoli sempre più grandi per un'implementazione su vasta scala. Presentiamo un'adattamento parsimonioso di phi-3-mini, MedMobile, un LM con 3,8 miliardi di parametri in grado di funzionare su un dispositivo mobile, per applicazioni mediche. Dimostriamo che MedMobile ottiene un punteggio del 75,7% sul MedQA (USMLE), superando il punteggio di superamento per i medici (~60%), e avvicinandosi ai punteggi dei modelli 100 volte più grandi. Successivamente eseguiamo un attento insieme di ablation, e dimostriamo che la concatenazione di pensieri, l'ensemble e il fine-tuning portano ai maggiori miglioramenti delle prestazioni, mentre inaspettatamente la generazione aumentata dal recupero non riesce a dimostrare miglioramenti significativi.
Nonostante i significativi progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM), il loro elevato costo computazionale rimane un ostacolo alla distribuzione pratica. Ispirandoci alla miscela di profondità (MoDs) nel trattamento del linguaggio naturale, miriamo ad affrontare questa limitazione dal punto di vista dei "token attivati". La nostra intuizione chiave è che se la maggior parte dei token è ridondante per il calcolo del livello, allora possono essere saltati direttamente tramite il livello MoD. Tuttavia, la conversione diretta dei livelli densi dei MLLM in livelli MoD porta a un degrado delle prestazioni sostanziale. Per affrontare questo problema, proponiamo una strategia di adattamento MoD innovativa per i MLLM esistenti chiamata gamma-MoD. In gamma-MoD, viene proposto un nuovo metrico per guidare la distribuzione dei MoD nel MLLM, ovvero il rango delle mappe di attenzione (ARank). Attraverso ARank, possiamo identificare efficacemente quale livello è ridondante e dovrebbe essere sostituito con il livello MoD. Sulla base di ARank, proponiamo inoltre due nuovi design per massimizzare la sparità computazionale del MLLM mantenendone le prestazioni, ovvero router condiviso visione-linguaggio e apprendimento del routing mascherato. Con questi design, più del 90% dei livelli densi del MLLM possono essere efficacemente convertiti in quelli MoD. Per convalidare il nostro metodo, lo applichiamo a tre popolari MLLM e conduciamo ampi esperimenti su 9 set di dati di benchmark. I risultati sperimentali non solo convalidano il significativo beneficio di efficienza di gamma-MoD rispetto ai MLLM esistenti, ma confermano anche la sua capacità di generalizzazione su vari MLLM. Ad esempio, con una lieve diminuzione delle prestazioni, cioè -1,5%, gamma-MoD può ridurre il tempo di addestramento e inferenza di LLaVA-HR rispettivamente del 31,0% e del 53,2%.
L'ampia crescita della scala del modello ha reso necessarie consistenti risorse computazionali per il raffinamento. Approcci esistenti come l'Adattamento a Bassa Gradazione (LoRA) hanno cercato di affrontare il problema della gestione dei numerosi parametri aggiornati nel pieno raffinamento. Tuttavia, LoRA utilizza inizializzazione casuale e ottimizzazione di matrici a bassa gradazione per approssimare i pesi aggiornati, il che può portare a una convergenza subottimale e a uno scostamento di accuratezza rispetto al pieno raffinamento. Per affrontare queste problematiche, proponiamo LoLDU, un approccio di Raffinamento Fine a Parametri-Efficienti (PEFT) che riduce significativamente i parametri addestrabili di 2600 volte rispetto ai metodi PEFT regolari mantenendo prestazioni comparabili. LoLDU sfrutta la Decomposizione Inferiore-Diagonale-Superiore (LDU) per inizializzare matrici a bassa gradazione per una convergenza più rapida e ortogonalità. Ci concentriamo sull'ottimizzazione della matrice diagonale per le trasformazioni di scala. A quanto ci risulta, LoLDU ha il minor numero di parametri tra tutti gli approcci PEFT. Abbiamo condotto ampi esperimenti su 4 set di dati di istruzioni, 6 set di dati di comprensione del linguaggio naturale (NLU), 8 set di dati di classificazione delle immagini e set di dati di generazione di immagini con vari tipi di modelli (LLaMA2, RoBERTa, ViT e Stable Diffusion), fornendo un'analisi completa e dettagliata. Il nostro codice open-source è disponibile su https://github.com/SKDDJ/LoLDU.
La capacità di scoprire nuovi materiali con proprietà desiderabili è fondamentale per numerose applicazioni, dal contribuire a mitigare il cambiamento climatico ai progressi nell'hardware informatico di prossima generazione. L'Intelligenza Artificiale ha il potenziale per accelerare la scoperta e il design dei materiali esplorando in modo più efficace lo spazio chimico rispetto ad altri metodi computazionali o al tentativo ed errore. Nonostante siano stati compiuti progressi significativi sull'uso dell'IA per i dati, i benchmark e i modelli dei materiali, è emerso un ostacolo rappresentato dalla mancanza di dati di addestramento pubblicamente disponibili e modelli pre-addestrati aperti. Per affrontare questo problema, presentiamo una versione Meta FAIR del dataset aperto su larga scala Open Materials 2024 (OMat24) e un insieme di modelli pre-addestrati correlati. OMat24 contiene oltre 110 milioni di calcoli di teoria funzionale della densità (DFT) focalizzati sulla diversità strutturale e compositiva. I nostri modelli EquiformerV2 raggiungono prestazioni all'avanguardia nella classifica Matbench Discovery e sono in grado di prevedere la stabilità dello stato fondamentale e le energie di formazione con un punteggio F1 superiore a 0,9 e un'accuratezza di 20 meV/atomo, rispettivamente. Esploriamo l'impatto delle dimensioni del modello, degli obiettivi ausiliari di denoising e del fine-tuning sulle prestazioni su una serie di dataset tra cui OMat24, MPtraj e Alexandria. Il rilascio aperto del dataset OMat24 e dei modelli consente alla comunità di ricerca di basarsi sui nostri sforzi e promuovere ulteriori progressi nella scienza dei materiali assistita dall'IA.
Proponiamo Long-LRM, un modello di ricostruzione gaussiana 3D generalizzabile in grado di ricostruire una vasta scena da una lunga sequenza di immagini di input. In particolare, il nostro modello può elaborare 32 immagini di origine a risoluzione 960x540 in soli 1,3 secondi su una singola GPU A100 80G. La nostra architettura presenta una combinazione dei recenti blocchi Mamba2 e dei classici blocchi transformer che hanno permesso di elaborare molti più token rispetto ai lavori precedenti, potenziati da efficienti passaggi di unione dei token e potatura gaussiana che bilanciano tra qualità ed efficienza. A differenza dei modelli feed-forward precedenti limitati a elaborare 1-4 immagini di input e in grado di ricostruire solo una piccola porzione di una vasta scena, Long-LRM ricostruisce l'intera scena in un singolo passaggio feed-forward. Su dataset di scene su larga scala come DL3DV-140 e Tanks and Temples, il nostro metodo raggiunge prestazioni paragonabili agli approcci basati sull'ottimizzazione pur essendo due ordini di grandezza più efficiente. Pagina del progetto: https://arthurhero.github.io/projects/llrm
Con l'evoluzione rapida dei grandi modelli linguistici per supportare contesti più lunghi, si osserva una disparità significativa nella loro capacità di generare output di maggiori lunghezze. Uno studio recente suggerisce che la causa principale di questo squilibrio potrebbe derivare dalla mancanza di dati con output lunghi durante l'addestramento all'allineamento. Alla luce di questa osservazione, vengono effettuati tentativi per riallineare i modelli di base con dati che colmino il divario, il che porta a modelli capaci di generare output di lunghezza considerevole quando istruiti. In questo articolo, esploriamo l'impatto della qualità dei dati nel tarare un modello per output lunghi e la possibilità di farlo partendo dai punti di partenza dei modelli allineati all'umano (per istruzioni o chat). Con una cura attenta dei dati, dimostriamo che è possibile ottenere un miglioramento delle prestazioni simile nei nostri modelli tarati, utilizzando solo una piccola frazione delle istanze di dati di addestramento e delle risorse computazionali. Inoltre, valutiamo la generalizzabilità di tali approcci applicando le nostre ricette di taratura a diversi modelli. I nostri risultati suggeriscono che, sebbene le capacità di generare output lungo varino tra i diversi modelli di base, il nostro approccio per tararli con dati di alta qualità utilizzando risorse computazionali leggere produce costantemente un notevole miglioramento su tutti i modelli su cui abbiamo sperimentato. Abbiamo reso pubblici il nostro dataset curato per tarare la capacità di scrittura lunga, le implementazioni del taratura e valutazione del modello, così come i modelli tarati, tutti i quali possono essere liberamente accessibili.
La Guida Senza Classificatore (CFG) è una tecnica critica per migliorare la qualità del campione dei modelli generativi visivi. Tuttavia, nella generazione multimodale autoregressiva (AR), CFG introduce inconsistenze progettuali tra il linguaggio e i contenuti visivi, contraddicendo la filosofia progettuale di unificare diverse modalità per l'AR visivo. Motivati dai metodi di allineamento dei modelli linguistici, proponiamo l'Allineamento Contrastivo Condizionale (CCA) per facilitare la generazione visiva AR senza guida con elevate prestazioni e analizzare la sua connessione teorica con i metodi di campionamento guidato. A differenza dei metodi di guida che modificano il processo di campionamento per raggiungere la distribuzione ideale del campionamento, CCA ottimizza direttamente i modelli preaddestrati per adattarsi allo stesso obiettivo di distribuzione. I risultati sperimentali mostrano che CCA può migliorare significativamente le prestazioni senza guida di tutti i modelli testati con un solo epoch di raffinamento (circa l'1\% degli epoch di preaddestramento) sul dataset di preaddestramento, alla pari con i metodi di campionamento guidato. Ciò elimina in gran parte la necessità di campionamento guidato nella generazione visiva AR e riduce del 50\% il costo del campionamento. Inoltre, regolando i parametri di addestramento, CCA può ottenere compromessi tra diversità del campione e fedeltà simili a CFG. Questo conferma sperimentalmente la forte connessione teorica tra l'allineamento mirato al linguaggio e i metodi di guida mirati alla visione, unificando due campi di ricerca precedentemente indipendenti. Codice e pesi del modello: https://github.com/thu-ml/CCA.
La diffusione diffusa dei modelli linguistici proprietari ha sollevato preoccupazioni sulla privacy per i dati sensibili degli utenti, sottolineando la necessità di inferenza privata (PI), dove l'inferenza viene eseguita direttamente su input crittografati. Tuttavia, i metodi attuali di PI affrontano sovraccarichi di comunicazione e latenza proibitivamente più elevati, principalmente a causa delle operazioni non lineari. In questo articolo, presentiamo un'analisi esaustiva per comprendere il ruolo delle non linearità nei modelli linguistici basati su trasformatori con soli decoder. Introduciamo AERO, un framework di ottimizzazione architetturale a quattro fasi che perfeziona l'architettura esistente di LLM per un'efficiente PI rimuovendo sistematicamente non linearità come LayerNorm e GELU e riducendo il conteggio di FLOPs. Per la prima volta, proponiamo un'architettura basata solo su Softmax con un numero significativamente inferiore di FLOPs progettata per un'efficiente PI. Inoltre, ideiamo una nuova tecnica di regolarizzazione dell'entropia per migliorare le prestazioni dei modelli basati solo su Softmax. AERO raggiunge fino a 4,23 volte di riduzione della comunicazione e 1,94 volte di riduzione della latenza. Confermiamo l'efficacia di AERO confrontandola con lo stato dell'arte.
I modelli fondamentali visione-linguaggio (come CLIP) hanno recentemente mostrato la loro potenza nel trasferimento di apprendimento, grazie al pre-addestramento su larga scala di immagini e testi. Tuttavia, i dati del dominio di destinazione nei compiti successivi possono essere molto diversi dalla fase di pre-addestramento, rendendo difficile per un singolo modello generalizzare bene. Alternativamente, esiste una vasta gamma di modelli esperti che contengono conoscenze di visione e/o linguaggio diversificate pre-addestrate su diverse modalità, compiti, reti e insiemi di dati. Purtroppo, questi modelli sono "agenti isolati" con strutture eterogenee, e come integrare le loro conoscenze per generalizzare modelli simili a CLIP non è stato completamente esplorato. Per colmare questa lacuna, proponiamo un framework TransAgent generale e conciso, che trasporta le conoscenze degli agenti isolati in modo unificato e guida efficacemente CLIP a generalizzare con distillazione di conoscenze da più fonti. Con un framework così distinto, collaboriamo in modo flessibile con 11 agenti eterogenei per potenziare i modelli fondamentali visione-linguaggio, senza ulteriori costi nella fase di inferenza. Infine, il nostro TransAgent raggiunge prestazioni all'avanguardia su 11 set di dati di riconoscimento visivo. Nello stesso contesto di pochi esempi, supera il popolare CoOp di circa il 10% in media e del 20% su EuroSAT che contiene ampi spostamenti di dominio.
Molti studenti faticano con i problemi di matematica espressi in forma verbale (MWPs), spesso trovando difficile identificare le informazioni chiave e selezionare le operazioni matematiche appropriate. L'istruzione basata su schema (SBI) è una strategia basata su evidenze che aiuta gli studenti a categorizzare i problemi in base alla loro struttura, migliorando l'accuratezza nella risoluzione dei problemi. Sviluppando questo concetto, proponiamo un framework di Istruzione Basata su Schema con Recupero e Generazione potenziato (SBI-RAG) che incorpora un grande modello linguistico (LLM). Il nostro approccio enfatizza il ragionamento passo dopo passo sfruttando gli schemi per guidare la generazione della soluzione. Valutiamo le prestazioni su un dataset GSM8K, confrontandolo con GPT-4 e GPT-3.5 Turbo, e introduciamo una metrica di "punteggio di ragionamento" per valutare la qualità della soluzione. I nostri risultati suggeriscono che SBI-RAG migliora la chiarezza del ragionamento e l'accuratezza nella risoluzione dei problemi, offrendo potenziali benefici educativi agli studenti.