Articoli di ricerca IA selezionati quotidianamente con traduzioni
Dati di istruzione di alta qualità sono fondamentali per allineare i grandi modelli linguistici (LLM). Sebbene alcuni modelli, come Llama-3-Instruct, abbiano pesi aperti, i loro dati di allineamento rimangono privati, il che ostacola la democratizzazione dell'IA. Gli elevati costi di manodopera umana e un ambito predefinito e limitato per il prompting impediscono ai metodi esistenti di creazione di dati open-source di scalare efficacemente, potenzialmente limitando la diversità e la qualità dei dataset di allineamento pubblici. È possibile sintetizzare dati di istruzione di alta qualità su larga scala estraendoli direttamente da un LLM allineato? Presentiamo un metodo di auto-sintesi per generare dati di allineamento su larga scala chiamato Magpie. La nostra osservazione chiave è che LLM allineati come Llama-3-Instruct possono generare una query dell'utente quando inseriamo solo i modelli del lato sinistro fino alla posizione riservata ai messaggi dell'utente, grazie alla loro natura auto-regressiva. Utilizziamo questo metodo per promptare Llama-3-Instruct e generare 4 milioni di istruzioni insieme alle loro risposte corrispondenti. Eseguiamo un'analisi completa dei dati estratti e selezioniamo 300K istanze di alta qualità. Per confrontare i dati di Magpie con altri dataset di istruzione pubblici, addestriamo Llama-3-8B-Base con ciascun dataset e valutiamo le prestazioni dei modelli addestrati. I nostri risultati indicano che in alcune attività, i modelli addestrati con Magpie performano in modo comparabile al Llama-3-8B-Instruct ufficiale, nonostante quest'ultimo sia stato potenziato con 10 milioni di punti dati attraverso il fine-tuning supervisionato (SFT) e il successivo apprendimento con feedback. Mostriamo anche che utilizzare Magpie esclusivamente per SFT può superare le prestazioni di precedenti dataset pubblici utilizzati sia per SFT che per l'ottimizzazione delle preferenze, come l'ottimizzazione diretta delle preferenze con UltraFeedback. Questo vantaggio è evidente su benchmark di allineamento come AlpacaEval, ArenaHard e WildBench.
Proponiamo un framework per l'editing video, NaRCan, che integra un campo di deformazione ibrido e un prior di diffusione per generare immagini canoniche naturali di alta qualità che rappresentano il video di input. Il nostro approccio utilizza l'omografia per modellare il movimento globale e impiega perceptroni multistrato (MLP) per catturare le deformazioni residue locali, migliorando la capacità del modello di gestire dinamiche video complesse. Introducendo un prior di diffusione sin dalle prime fasi dell'addestramento, il nostro modello garantisce che le immagini generate mantengano un aspetto naturale di alta qualità, rendendo le immagini canoniche prodotte adatte a varie attività di editing video, una capacità non raggiunta dai metodi canonici attuali. Inoltre, incorporiamo un fine-tuning tramite adattamento a basso rango (LoRA) e introduciamo una tecnica di aggiornamento programmato del rumore e del prior di diffusione che accelera il processo di addestramento di 14 volte. I risultati sperimentali estesi dimostrano che il nostro metodo supera gli approcci esistenti in varie attività di editing video e produce sequenze video modificate coerenti e di alta qualità. Consulta la nostra pagina del progetto per i risultati video all'indirizzo https://koi953215.github.io/NaRCan_page/.
La generazione controllata di video da testo basata sul movimento implica l'uso di movimenti per controllare la generazione del video. I metodi precedenti richiedono tipicamente l'addestramento di modelli per codificare i segnali di movimento o il fine-tuning di modelli di diffusione video. Tuttavia, questi approcci spesso portano a una generazione di movimento subottimale quando applicati al di fuori del dominio di addestramento. In questo lavoro, proponiamo MotionClone, un framework senza addestramento che consente la clonazione del movimento da un video di riferimento per controllare la generazione di video da testo. Utilizziamo l'attenzione temporale nell'inversione video per rappresentare i movimenti nel video di riferimento e introduciamo una guida primaria dell'attenzione temporale per mitigare l'influenza di movimenti rumorosi o molto sottili all'interno dei pesi di attenzione. Inoltre, per aiutare il modello di generazione a sintetizzare relazioni spaziali ragionevoli e migliorare la sua capacità di seguire i prompt, proponiamo un meccanismo di guida semantica consapevole della posizione che sfrutta la posizione approssimativa del primo piano dal video di riferimento e le caratteristiche originali di guida senza classificatore per guidare la generazione del video. Esperimenti estensivi dimostrano che MotionClone mostra competenza sia nel movimento globale della telecamera che nel movimento locale degli oggetti, con una notevole superiorità in termini di fedeltà del movimento, allineamento testuale e coerenza temporale.
Le coppie immagine-testo raccolte tramite web crawling sono intrinsecamente rumorose. Studi precedenti dimostrano che l'allineamento semantico e l'arricchimento delle descrizioni testuali di queste coppie possono migliorare significativamente l'addestramento dei modelli in vari compiti di visione e linguaggio, in particolare nella generazione di immagini da testo. Tuttavia, le indagini su larga scala in questo ambito rimangono prevalentemente chiuse al pubblico. Il nostro articolo mira a colmare questo sforzo comunitario, sfruttando il potente e open-source LLaMA-3, un LLM di livello GPT-4. La nostra pipeline di ricaptione è semplice: prima, ottimizziamo un LLaVA-1.5 alimentato da LLaMA-3-8B e poi lo utilizziamo per ricaptionare 1,3 miliardi di immagini del dataset DataComp-1B. I nostri risultati empirici confermano che questo dataset migliorato, Recap-DataComp-1B, offre sostanziali vantaggi nell'addestramento di modelli avanzati di visione e linguaggio. Per modelli discriminativi come CLIP, osserviamo prestazioni zero-shot migliorate nei compiti di recupero cross-modale. Per modelli generativi come i Diffusion Transformer per la generazione di immagini da testo, le immagini generate mostrano un miglioramento significativo nell'allineamento con le istruzioni testuali degli utenti, specialmente nel seguire query complesse. La nostra pagina del progetto è https://www.haqtu.me/Recap-Datacomp-1B/
Forse no. Identifichiamo e analizziamo gli errori nel popolare benchmark Massive Multitask Language Understanding (MMLU). Nonostante MMLU sia ampiamente adottato, la nostra analisi dimostra numerosi errori nella verità di base che oscurano le vere capacità dei modelli linguistici (LLM). Ad esempio, scopriamo che il 57% delle domande analizzate nel sottoinsieme di Virologia contiene errori. Per affrontare questo problema, introduciamo un framework completo per identificare gli errori nei dataset utilizzando una nuova tassonomia degli errori. Successivamente, creiamo MMLU-Redux, un sottoinsieme di 3.000 domande ri-annotate manualmente in 30 materie di MMLU. Utilizzando MMLU-Redux, dimostriamo significative discrepanze rispetto alle metriche di prestazione del modello originariamente riportate. I nostri risultati sostengono fortemente la revisione delle domande di MMLU affette da errori per migliorarne l'utilità e l'affidabilità future come benchmark. Pertanto, rendiamo disponibile MMLU-Redux per ulteriori annotazioni all'indirizzo https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
Negli ultimi anni, si è assistito a un rapido sviluppo dei modelli di generazione 3D, aprendo nuove possibilità per applicazioni come la simulazione dei movimenti dinamici degli oggetti 3D e la personalizzazione dei loro comportamenti. Tuttavia, gli attuali modelli generativi 3D tendono a concentrarsi solo su caratteristiche superficiali come il colore e la forma, trascurando le proprietà fisiche intrinseche che governano il comportamento degli oggetti nel mondo reale. Per simulare con precisione dinamiche allineate alla fisica, è essenziale prevedere le proprietà fisiche dei materiali e incorporarle nel processo di previsione del comportamento. Tuttavia, prevedere i materiali diversificati degli oggetti reali rimane una sfida a causa della natura complessa dei loro attributi fisici. In questo articolo, proponiamo Physics3D, un metodo innovativo per apprendere varie proprietà fisiche degli oggetti 3D attraverso un modello di diffusione video. Il nostro approccio prevede la progettazione di un sistema di simulazione fisica altamente generalizzabile basato su un modello di materiale viscoelastico, che ci consente di simulare un'ampia gamma di materiali con capacità ad alta fedeltà. Inoltre, distilliamo i priori fisici da un modello di diffusione video che contiene una maggiore comprensione dei materiali realistici degli oggetti. Esperimenti estesi dimostrano l'efficacia del nostro metodo sia con materiali elastici che plastici. Physics3D mostra un grande potenziale per colmare il divario tra il mondo fisico e lo spazio neurale virtuale, fornendo una migliore integrazione e applicazione dei principi fisici realistici negli ambienti virtuali. Pagina del progetto: https://liuff19.github.io/Physics3D.
Questo articolo presenta PowerInfer-2, un framework progettato per l'inferenza ad alta velocità di Large Language Models (LLM) su smartphone, particolarmente efficace per modelli le cui dimensioni superano la capacità di memoria del dispositivo. L'intuizione chiave di PowerInfer-2 è sfruttare le risorse eterogenee di calcolo, memoria e I/O negli smartphone scomponendo i tradizionali calcoli matriciali in calcoli a livello di cluster di neuroni a grana fine. Nello specifico, PowerInfer-2 include un motore di neuroni polimorfo che adatta le strategie di calcolo per le varie fasi dell'inferenza di LLM. Inoltre, introduce una cache segmentata dei neuroni e un pipelining a livello di cluster di neuroni a grana fine, che riducono e nascondono efficacemente l'overhead causato dalle operazioni di I/O. L'implementazione e la valutazione di PowerInfer-2 dimostrano la sua capacità di supportare un'ampia gamma di modelli LLM su due smartphone, raggiungendo un incremento di velocità fino a 29,2x rispetto ai framework all'avanguardia. È importante sottolineare che PowerInfer-2 è il primo sistema a servire il modello TurboSparse-Mixtral-47B con una velocità di generazione di 11,68 token al secondo su uno smartphone. Per i modelli che rientrano completamente nella memoria, PowerInfer-2 può ottenere una riduzione dell'uso della memoria di circa il 40%, mantenendo velocità di inferenza comparabili a llama.cpp e MLC-LLM. Per ulteriori dettagli, inclusa una video dimostrazione, si prega di visitare il sito del progetto all'indirizzo www.powerinfer.ai/v2.
In questo articolo presentiamo VideoLLaMA 2, una serie di Modelli Linguistici di Grande Dimensione per Video (Video-LLMs) progettati per migliorare la modellizzazione spazio-temporale e la comprensione audio in compiti orientati a video e audio. Basandosi sul suo predecessore, VideoLLaMA 2 incorpora un connettore Convoluzionale Spazio-Temporale (STC) su misura, che cattura efficacemente le dinamiche spaziali e temporali complesse dei dati video. Inoltre, integriamo un Ramo Audio nel modello attraverso un addestramento congiunto, arricchendo così le capacità di comprensione multimodale del modello incorporando in modo fluido gli indizi audio. Valutazioni approfondite su compiti di risposta a domande a scelta multipla su video (MC-VQA), risposta a domande aperte su video (OE-VQA) e descrizione video (VC) dimostrano che VideoLLaMA 2 ottiene costantemente risultati competitivi tra i modelli open-source e si avvicina persino ad alcuni modelli proprietari su diversi benchmark. Inoltre, VideoLLaMA 2 mostra miglioramenti significativi nei benchmark di risposta a domande solo audio e audio-video (AQA & OE-AVQA) rispetto ai modelli esistenti. Questi progressi sottolineano le prestazioni superiori di VideoLLaMA 2 nella comprensione multimodale, stabilendo un nuovo standard per i sistemi di analisi video intelligenti. Tutti i modelli sono pubblici per facilitare ulteriori ricerche.
L'integrazione tra linguaggio e percezione 3D è cruciale per sviluppare agenti e robot incarnati che comprendono e interagiscono con il mondo fisico. Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato impressionanti capacità di comprensione e generazione del linguaggio, il loro adattamento agli ambienti 3D (3D-LLM) è ancora nelle fasi iniziali. Una delle principali sfide è l'assenza di dataset su larga scala che forniscano un ancoraggio denso tra linguaggio e scene 3D. In questo articolo, introduciamo 3D-GRAND, un dataset pionieristico su larga scala che comprende 40.087 scene domestiche accoppiate a 6,2 milioni di istruzioni linguistiche densamente ancorate alle scene. I nostri risultati mostrano che l'ottimizzazione delle istruzioni con 3D-GRAND migliora significativamente le capacità di ancoraggio e riduce le allucinazioni nei 3D-LLM. Come parte dei nostri contributi, proponiamo un benchmark completo, 3D-POPE, per valutare sistematicamente le allucinazioni nei 3D-LLM, consentendo confronti equi tra i modelli futuri. I nostri esperimenti evidenziano un effetto di scala tra la dimensione del dataset e le prestazioni dei 3D-LLM, sottolineando il ruolo cruciale dei dataset su larga scala di testo 3D nel far progredire la ricerca sull'IA incarnata. In particolare, i nostri risultati mostrano segnali precoci di un efficace trasferimento da simulazione a realtà, indicando che i modelli addestrati su grandi quantità di dati sintetici possono performare bene su scansioni 3D del mondo reale. Attraverso 3D-GRAND e 3D-POPE, miriamo a fornire alla comunità dell'IA incarnata risorse e intuizioni essenziali, preparando il terreno per 3D-LLM più affidabili e meglio ancorati. Sito web del progetto: https://3d-grand.github.io
I Modelli Linguistici Multimodali (MLLMs) dimostrano le capacità emergenti dei "modelli del mondo" — interpretare e ragionare sulle dinamiche complesse del mondo reale. Per valutare queste capacità, proponiamo i video come mezzo ideale, poiché racchiudono rappresentazioni ricche delle dinamiche e delle causalità del mondo reale. A tal fine, introduciamo MMWorld, un nuovo benchmark per la comprensione multimodale e multidisciplinare dei video. MMWorld si distingue dai precedenti benchmark di comprensione video con due vantaggi unici: (1) multidisciplinarietà, coprendo varie discipline che spesso richiedono competenze specifiche per una comprensione completa; (2) ragionamento multifaccettato, inclusa spiegazione, pensiero controfattuale, previsione futura, ecc. MMWorld consiste in un dataset annotato manualmente per valutare gli MLLMs con domande sull'intero video e un dataset sintetico per analizzare gli MLLMs all'interno di una singola modalità percettiva. Insieme, MMWorld comprende 1.910 video in sette ampie discipline e 69 sottodiscipline, completi di 6.627 coppie domanda-risposta e didascalie associate. La valutazione include 2 MLLMs proprietari e 10 open-source, che faticano su MMWorld (ad esempio, GPT-4V ottiene il miglior risultato con solo il 52,3% di accuratezza), mostrando un ampio margine di miglioramento. Ulteriori studi di ablazione rivelano altri risultati interessanti, come i diversi set di competenze dei modelli rispetto agli esseri umani. Speriamo che MMWorld possa rappresentare un passo essenziale verso la valutazione dei modelli del mondo nei video.
Sfruttare la sparsità delle attivazioni rappresenta un approccio promettente per accelerare significativamente il processo di inferenza dei grandi modelli linguistici (LLM) senza comprometterne le prestazioni. Tuttavia, la sparsità delle attivazioni è determinata dalle funzioni di attivazione, e quelle comunemente utilizzate come SwiGLU e GeGLU mostrano una sparsità limitata. Sostituire semplicemente queste funzioni con ReLU non consente di ottenere una sparsità sufficiente. Inoltre, dati di addestramento inadeguati possono ulteriormente aumentare il rischio di degradazione delle prestazioni. Per affrontare queste sfide, proponiamo una nuova funzione dReLU, progettata per migliorare la sparsità delle attivazioni nei LLM, insieme a un rapporto di miscelazione di dati di addestramento di alta qualità per facilitare un'effettiva sparsificazione. Inoltre, sfruttiamo i modelli di attivazione sparsi all'interno degli esperti della rete feed-forward (FFN) nei modelli Mixture-of-Experts (MoE) per aumentare ulteriormente l'efficienza. Applicando il nostro metodo di sparsificazione neuronale ai modelli Mistral e Mixtral, vengono attivati rispettivamente solo 2,5 miliardi e 4,3 miliardi di parametri per ogni iterazione di inferenza, ottenendo al contempo prestazioni del modello ancora più potenti. I risultati di valutazione dimostrano che questa sparsità consente un'accelerazione della decodifica di 2-5 volte. Notevolmente, sugli smartphone, il nostro TurboSparse-Mixtral-47B raggiunge una velocità di inferenza di 11 token al secondo. I nostri modelli sono disponibili su https://huggingface.co/PowerInfer.
Recentemente, l'applicazione di moderni modelli di generazione di immagini da testo basati su diffusione per la creazione di caratteri artistici, tradizionalmente dominio di designer professionisti, ha suscitato un notevole interesse. Diversamente dalla maggior parte degli studi esistenti che si concentrano sulla generazione di tipografia artistica, la nostra ricerca mira ad affrontare una sfida nuova e più impegnativa: la generazione di effetti di testo per caratteri multilingue. Questo compito richiede essenzialmente la generazione di contenuti visivi coerenti e consistenti all'interno dei confini di una tela a forma di carattere, anziché di una tradizionale tela rettangolare. Per affrontare questo compito, introduciamo un nuovo modello di diffusione adattivo alla forma, in grado di interpretare la forma data e pianificare strategicamente la distribuzione dei pixel all'interno della tela irregolare. Per raggiungere questo obiettivo, curiamo un dataset di alta qualità di immagini e testo adattivo alla forma e incorporiamo la maschera di segmentazione come condizione visiva per guidare il processo di generazione dell'immagine all'interno della tela irregolare. Questo approccio consente al tradizionale modello di diffusione basato su tela rettangolare di produrre i concetti desiderati in conformità con le forme geometriche fornite. In secondo luogo, per mantenere la coerenza tra più lettere, presentiamo anche un metodo di trasferimento di effetti adattivo alla forma, privo di addestramento, per trasferire le texture da una lettera di riferimento generata ad altre. Le intuizioni chiave sono la costruzione di un prior di rumore per l'effetto del carattere e la propagazione delle informazioni sull'effetto del carattere in uno spazio latente concatenato. L'efficacia del nostro sistema FontStudio è confermata da studi di preferenza degli utenti, che mostrano una marcata preferenza (78% di tassi di vittoria sull'estetica) per il nostro sistema anche rispetto all'ultimo prodotto commerciale imbattuto, Adobe Firefly.
I recenti Diffusion Transformer (DiT) hanno dimostrato capacità impressionanti nella generazione di contenuti di alta qualità in singola modalità, inclusi immagini, video e audio. Tuttavia, rimane ancora poco esplorato se il diffusore basato su transformer possa denoisare efficientemente il rumore gaussiano verso una creazione di contenuti multimodale di eccellenza. Per colmare questa lacuna, introduciamo AV-DiT, un innovativo ed efficiente diffusion transformer audio-visivo progettato per generare video di alta qualità e realistici con tracce sia visive che audio. Per minimizzare la complessità del modello e i costi computazionali, AV-DiT utilizza un backbone DiT condiviso pre-addestrato su dati esclusivamente visivi, con solo adattatori leggeri e di nuova inserzione che vengono addestrati. Questo backbone condiviso facilita sia la generazione audio che video. Nello specifico, il ramo video incorpora uno strato di attenzione temporale addestrabile in un blocco DiT pre-addestrato e congelato per garantire la coerenza temporale. Inoltre, un piccolo numero di parametri addestrabili adatta il blocco DiT basato su immagini per la generazione audio. Un ulteriore blocco DiT condiviso, dotato di parametri leggeri, facilita l'interazione delle feature tra le modalità audio e visive, assicurandone l'allineamento. Esperimenti estensivi sui dataset AIST++ e Landscape dimostrano che AV-DiT raggiunge prestazioni all'avanguardia nella generazione congiunta audio-visiva con un numero significativamente inferiore di parametri regolabili. Inoltre, i nostri risultati evidenziano che un singolo backbone generativo di immagini condiviso, con adattamenti specifici per modalità, è sufficiente per costruire un generatore congiunto audio-video. Il nostro codice sorgente e i modelli pre-addestrati saranno rilasciati.
L'ottimizzazione offline delle preferenze è un metodo chiave per migliorare e controllare la qualità degli output dei Large Language Model (LLM). Tipicamente, l'ottimizzazione delle preferenze viene affrontata come un'attività di apprendimento supervisionato offline utilizzando funzioni di perdita convesse create manualmente. Sebbene questi metodi si basino su intuizioni teoriche, sono intrinsecamente limitati dalla creatività umana, quindi il vasto spazio di ricerca delle possibili funzioni di perdita rimane poco esplorato. Affrontiamo questo problema eseguendo la scoperta automatica di obiettivi guidata da LLM per individuare nuovi algoritmi di ottimizzazione delle preferenze all'avanguardia senza l'intervento (esperto) umano. Nello specifico, iterativamente sollecitiamo un LLM a proporre e implementare nuove funzioni di perdita per l'ottimizzazione delle preferenze basandoci su metriche di prestazione precedentemente valutate. Questo processo porta alla scoperta di algoritmi di ottimizzazione delle preferenze precedentemente sconosciuti e performanti. Il migliore tra questi lo chiamiamo Discovered Preference Optimization (DiscoPOP), un nuovo algoritmo che combina in modo adattivo le perdite logistiche ed esponenziali. Gli esperimenti dimostrano le prestazioni all'avanguardia di DiscoPOP e il suo trasferimento efficace a task non visti durante l'addestramento.
I modelli di diffusione hanno dimostrato prestazioni notevoli nella sintesi di immagini e video. Tuttavia, scalare questi modelli per input ad alta risoluzione è impegnativo e richiede una ristrutturazione della pipeline di diffusione in più componenti indipendenti, limitando la scalabilità e complicando le applicazioni downstream. Questo rende il processo molto efficiente durante l'addestramento e sblocca l'ottimizzazione end-to-end su video ad alta risoluzione. Miglioriamo i PDM (Patch Diffusion Models) in due modi principiali. Innanzitutto, per garantire la coerenza tra le patch, sviluppiamo la fusione contestuale profonda (deep context fusion) — una tecnica architetturale che propaga le informazioni contestuali dalle patch a bassa scala a quelle ad alta scala in modo gerarchico. In secondo luogo, per accelerare l'addestramento e l'inferenza, proponiamo il calcolo adattivo (adaptive computation), che assegna maggiore capacità di rete e calcolo ai dettagli grossolani dell'immagine. Il modello risultante stabilisce un nuovo stato dell'arte con un punteggio FVD di 66.32 e un Inception Score di 87.68 nella generazione di video condizionata per classe su UCF-101 256^2, superando i metodi recenti di oltre il 100%. Inoltre, dimostriamo che può essere rapidamente fine-tuned a partire da un generatore di bassa risoluzione 36×64 per la sintesi video ad alta risoluzione 64×288×512 da testo a video. Per quanto ne sappiamo, il nostro modello è la prima architettura basata su diffusione addestrata su tali risoluzioni interamente end-to-end. Pagina del progetto: https://snap-research.github.io/hpdm.
Vedere chiaramente con alta risoluzione è un fondamento dei Modelli Multimodali di Grande Scala (LMM), che si è dimostrato cruciale per la percezione e il ragionamento visivo. I lavori esistenti impiegano solitamente un metodo semplice di upscaling della risoluzione, in cui l'immagine è composta da rami globali e locali, con quest'ultimi costituiti da porzioni di immagine tagliate ma ridimensionate alla stessa risoluzione dei primi. Ciò significa che una risoluzione più elevata richiede un numero maggiore di porzioni locali, con conseguenti costi computazionali esorbitanti, e allo stesso tempo, la predominanza dei token locali dell'immagine può ridurre il contesto globale. In questo articolo, approfondiamo i problemi e proponiamo un nuovo framework insieme a una strategia di ottimizzazione elaborata. Nello specifico, estraiamo informazioni contestuali dalla visione globale utilizzando una miscela di adattatori, basandoci sull'osservazione che diversi adattatori eccellono in compiti diversi. Per quanto riguarda le porzioni locali, introduciamo embedding di query apprendibili per ridurre i token dell'immagine, e i token più importanti relativi alla domanda dell'utente verranno ulteriormente selezionati da un selettore basato sulla similarità. I nostri risultati empirici dimostrano un modello "less is more", in cui l'utilizzo di un numero inferiore ma più informativo di token locali dell'immagine porta a prestazioni migliorate. Inoltre, una sfida significativa risiede nella strategia di addestramento, poiché l'addestramento end-to-end simultaneo del blocco di estrazione globale e del blocco di compressione locale non produce risultati ottimali. Proponiamo quindi un metodo di addestramento alternato, garantendo un apprendimento bilanciato tra aspetti globali e locali. Infine, introduciamo anche un dataset impegnativo con requisiti elevati per i dettagli dell'immagine, migliorando l'addestramento dello strato di compressione locale. Il metodo proposto, denominato LMM con Compiti Sofisticati, Compressione Locale dell'Immagine e Miscela di Esperti Globali (SliME), raggiunge prestazioni leader in vari benchmark con soli 2 milioni di dati di addestramento.
Introduciamo il Visual Caption Restoration (VCR), un nuovo compito di visione e linguaggio che sfida i modelli a ripristinare accuratamente testi parzialmente oscurati utilizzando suggerimenti a livello di pixel all'interno delle immagini. Questo compito nasce dall'osservazione che il testo incorporato nelle immagini è intrinsecamente diverso dagli elementi visivi comuni e dal linguaggio naturale a causa della necessità di allineare le modalità di visione, testo e testo incorporato nelle immagini. Sebbene numerosi lavori abbiano integrato il testo incorporato nelle immagini in compiti di risposta a domande visive, gli approcci a questi compiti si basano generalmente sul riconoscimento ottico dei caratteri o sulla modellazione del linguaggio mascherato, riducendo così il compito principalmente a un'elaborazione basata sul testo. Tuttavia, l'elaborazione basata sul testo diventa inefficace nel VCR poiché il ripristino accurato del testo dipende dalle informazioni combinate provenienti dalle immagini fornite, dal contesto e dai sottili indizi provenienti dalle piccole aree esposte dei testi mascherati. Sviluppiamo una pipeline per generare immagini sintetiche per il compito VCR utilizzando coppie immagine-didascalia, con visibilità regolabile della didascalia per controllare la difficoltà del compito. Con questa pipeline, costruiamo un dataset per VCR chiamato VCR-Wiki utilizzando immagini con didascalie da Wikipedia, comprendente 2,11 milioni di entità in inglese e 346 mila in cinese, in varianti sia facili che difficili. I nostri risultati rivelano che gli attuali modelli di visione e linguaggio sono significativamente inferiori alle prestazioni umane nel compito VCR, e il semplice fine-tuning dei modelli sul nostro dataset non porta a miglioramenti significativi. Rilasciamo VCR-Wiki e il codice di costruzione dei dati per facilitare la ricerca futura.
La modellazione di serie temporali multivariate è un problema ben consolidato con un'ampia gamma di applicazioni, dalla sanità ai mercati finanziari. I tradizionali Modelli di Spazio di Stato (SSM) sono approcci classici per la modellazione di serie temporali univariate grazie alla loro semplicità e alla capacità espressiva di rappresentare dipendenze lineari. Tuttavia, hanno un potere espressivo fondamentalmente limitato nel catturare dipendenze non lineari, sono lenti nella pratica e non riescono a modellare il flusso di informazioni inter-variabile. Nonostante i recenti tentativi di migliorare il potere espressivo degli SSM utilizzando SSM strutturati profondi, i metodi esistenti sono limitati alle serie temporali univariate, non riescono a modellare pattern complessi (ad esempio, pattern stagionali), non riescono a modellare dinamicamente le dipendenze delle dimensioni variabile e temporale e/o sono indipendenti dall'input. Presentiamo Chimera, che utilizza due teste SSM 2-D dipendenti dall'input con processi di discretizzazione diversi per apprendere la progressione a lungo termine e i pattern stagionali. Per migliorare l'efficienza della complessa ricorrenza 2D, presentiamo un addestramento veloce utilizzando una nuova scansione selettiva parallela 2-dimensionale. Presentiamo e discutiamo ulteriormente Mamba 2-dimensionale e Mamba-2 come casi speciali del nostro SSM 2D. La nostra valutazione sperimentale mostra la performance superiore di Chimera su benchmark estesi e diversificati, inclusa la classificazione di serie temporali ECG e vocali, la previsione di serie temporali a breve e lungo termine e il rilevamento di anomalie nelle serie temporali.
La patologia, l'esame microscopico dei tessuti malati, è fondamentale per diagnosticare varie condizioni mediche, in particolare i tumori. I metodi tradizionali sono laboriosi e soggetti a errori umani. La patologia digitale, che converte i vetrini in immagini digitali ad alta risoluzione per l'analisi mediante algoritmi informatici, rivoluziona il settore migliorando l'accuratezza diagnostica, la consistenza e l'efficienza attraverso l'analisi automatizzata delle immagini e l'elaborazione su larga scala dei dati. Il pretraining con modelli transformer di base è cruciale per sviluppare modelli robusti e generalizzabili, poiché consente l'apprendimento da grandi quantità di dati non annotati. Questo articolo presenta la famiglia Hibou di vision transformer di base per la patologia, sfruttando il framework DINOv2 per effettuare il pretraining di due varianti del modello, Hibou-B e Hibou-L, su un dataset proprietario di oltre 1 milione di immagini di interi vetrini (WSI) che rappresentano diversi tipi di tessuto e tecniche di colorazione. I nostri modelli pretrainati dimostrano prestazioni superiori sia nei benchmark a livello di patch che di vetrino, superando i metodi state-of-the-art esistenti. In particolare, Hibou-L raggiunge la più alta accuratezza media su più dataset di benchmark. Per supportare ulteriori ricerche e applicazioni nel campo, abbiamo reso open-source il modello Hibou-B, accessibile all'indirizzo https://github.com/HistAI/hibou.
I grandi modelli linguistici (LLM) hanno progredito fino a comprendere una vasta conoscenza in diversi domini. Tuttavia, controllare ciò che un grande modello linguistico non dovrebbe sapere è importante per garantire l'allineamento e quindi un uso sicuro. Tuttavia, dimenticare accuratamente ed efficientemente la conoscenza da un LLM rimane una sfida a causa del potenziale danno collaterale causato dal confine sfocato tra ritenzione e oblio, e dei grandi requisiti computazionali per l'ottimizzazione attraverso modelli all'avanguardia con centinaia di miliardi di parametri. In questo lavoro, presentiamo Embedding-COrrupted (ECO) Prompts, un framework leggero per la dimenticanza nei grandi modelli linguistici per affrontare sia le sfide dell'intreccio della conoscenza che dell'efficienza della dimenticanza. Invece di affidarsi all'LLM stesso per dimenticare, imponiamo uno stato di dimenticanza durante l'inferenza utilizzando un classificatore di prompt per identificare e proteggere i prompt da dimenticare. Apprendiamo corruzioni aggiunte agli embedding dei prompt tramite l'ottimizzazione di ordine zero verso l'obiettivo di dimenticanza offline e corrompiamo i prompt segnalati dal classificatore durante l'inferenza. Troviamo che questi prompt con embedding corrotti non solo portano a output desiderabili che soddisfano l'obiettivo di dimenticanza, ma si avvicinano anche all'output di un modello che non è mai stato addestrato sui dati destinati all'oblio. Attraverso esperimenti estesi sulla dimenticanza, dimostriamo la superiorità del nostro metodo nel raggiungere una promettente dimenticanza con quasi zero effetti collaterali in domini generali e domini strettamente correlati a quelli dimenticati. Inoltre, evidenziamo la scalabilità del nostro metodo a 100 LLM, che vanno da 0,5B a 236B parametri, senza costi aggiuntivi all'aumentare del numero di parametri.
La diffusione mascherata (o assorbente) è attivamente esplorata come alternativa ai modelli autoregressivi per la modellazione generativa di dati discreti. Tuttavia, il lavoro esistente in questo ambito è stato ostacolato da formulazioni di modelli eccessivamente complesse e da relazioni poco chiare tra diverse prospettive, portando a una parametrizzazione subottimale, obiettivi di addestramento inadeguati e aggiustamenti ad hoc per contrastare questi problemi. In questo lavoro, ci proponiamo di fornire un framework semplice e generale che sblocchi il pieno potenziale dei modelli di diffusione mascherata. Mostriamo che l'obiettivo variazionale in tempo continuo dei modelli di diffusione mascherata è un semplice integrale ponderato di perdite di entropia incrociata. Il nostro framework consente anche l'addestramento di modelli generalizzati di diffusione mascherata con schemi di mascheramento dipendenti dallo stato. Quando valutati in termini di perplessità, i nostri modelli addestrati su OpenWebText superano i precedenti modelli di diffusione linguistica su scala GPT-2 e dimostrano prestazioni superiori in 4 su 5 task di modellazione linguistica zero-shot. Inoltre, i nostri modelli superano di gran lunga i precedenti modelli di diffusione discretta nella modellazione di immagini a livello di pixel, raggiungendo 2,78 (CIFAR-10) e 3,42 (ImageNet 64×64) bit per dimensione, risultati comparabili o migliori rispetto ai modelli autoregressivi di dimensioni simili.