Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene la quantizzazione per strati lineari sia stata ampiamente utilizzata, la sua applicazione per accelerare il processo di attenzione rimane limitata. SageAttention utilizza moltiplicazioni di matrici a 8 bit, moltiplicazioni di matrici a 16 bit con accumulatore a 16 bit e metodi di miglioramento della precisione, implementando un kernel accurato e con un aumento della velocità del 2x rispetto a FlashAttention2. Per migliorare ulteriormente l'efficienza del calcolo dell'attenzione mantenendo la precisione, proponiamo SageAttention2, che utilizza moltiplicazioni di matrici a 4 bit significativamente più veloci insieme a tecniche aggiuntive di miglioramento della precisione. In primo luogo, proponiamo di quantizzare le matrici (Q, K) in INT4 con una granularità a livello di warp e quantizzare le matrici (widetilde P, V) in FP8. In secondo luogo, proponiamo un metodo per levigare Q e V, migliorando la precisione dell'attenzione con INT4 QK e FP8 PV. In terzo luogo, analizziamo l'accuratezza della quantizzazione attraverso i passaggi temporali e i livelli, quindi proponiamo un metodo di quantizzazione adattiva per garantire le metriche end-to-end su vari modelli. Le operazioni al secondo (OPS) di SageAttention2 superano FlashAttention2 e xformers di circa 3x e 5x su RTX4090, rispettivamente. Esperimenti esaustivi confermano che il nostro approccio comporta una perdita trascurabile delle metriche end-to-end su modelli diversi, inclusi quelli per l'elaborazione del linguaggio, la generazione di immagini e la generazione di video. I codici sono disponibili su https://github.com/thu-ml/SageAttention.
La generazione di video ha visto significativi progressi, tuttavia valutare questi modelli rimane una sfida. Un benchmark completo per la valutazione della generazione di video è indispensabile per due motivi: 1) Le metriche esistenti non si allineano pienamente alle percezioni umane; 2) Un sistema di valutazione ideale dovrebbe fornire spunti per orientare lo sviluppo futuro della generazione di video. A questo scopo, presentiamo VBench, una suite di benchmark completa che scompone la "qualità della generazione di video" in dimensioni specifiche, gerarchiche e disentangled, ciascuna con prompt su misura e metodi di valutazione. VBench ha diverse proprietà interessanti: 1) Dimensioni Complete: VBench comprende 16 dimensioni nella generazione di video (ad esempio, inconsistenza dell'identità del soggetto, fluidità del movimento, sfarfallio temporale, e relazione spaziale, ecc.). Le metriche di valutazione con livelli dettagliati rivelano punti di forza e debolezza dei singoli modelli. 2) Allineamento Umano: Forniamo anche un dataset di annotazioni di preferenze umane per convalidare l'allineamento dei nostri benchmark con la percezione umana, per ciascuna dimensione di valutazione rispettivamente. 3) Spunti Preziosi: Esaminiamo la capacità dei modelli attuali attraverso varie dimensioni di valutazione e vari tipi di contenuto. Esaminiamo anche le differenze tra i modelli di generazione di video e immagini. 4) Benchmarking Versatile: VBench++ supporta la valutazione da testo a video e da immagine a video. Presentiamo una Suite di Immagini di alta qualità con un rapporto d'aspetto adattivo per consentire valutazioni equilibrate tra diverse impostazioni di generazione di immagini a video. Oltre alla valutazione della qualità tecnica, VBench++ valuta l'affidabilità dei modelli generativi di video, fornendo una visione più olistica delle prestazioni del modello. 5) Completamente Open Source: Rendiamo completamente open source VBench++ e continuiamo ad aggiungere nuovi modelli di generazione di video alla nostra classifica per far progredire il campo della generazione di video.
I grandi modelli multimodali (LMM) con avanzate capacità di analisi video hanno recentemente attirato notevole attenzione. Tuttavia, la maggior parte delle valutazioni si basa su metodi tradizionali come domande a risposta multipla in benchmark come VideoMME e LongVideoBench, che sono inclini a mancare della profondità necessaria per catturare le complesse esigenze degli utenti reali. Per affrontare questa limitazione - e a causa del costo proibitivo e del ritmo lento dell'annotazione umana per compiti video - introduciamo VideoAutoArena, un benchmark in stile arena ispirato al framework di LMSYS Chatbot Arena, progettato per valutare automaticamente le capacità di analisi video dei LMM. VideoAutoArena utilizza la simulazione dell'utente per generare domande aperte e adattive che valutano rigorosamente le prestazioni del modello nella comprensione dei video. Il benchmark presenta un framework di valutazione automatizzato e scalabile, che incorpora un sistema di valutazione ELO modificato per confronti equi e continui tra vari LMM. Per convalidare il nostro sistema di giudizio automatico, costruiamo uno 'standard d'oro' utilizzando un sottoinsieme accuratamente selezionato di annotazioni umane, dimostrando che la nostra arena si allinea fortemente con il giudizio umano pur mantenendo la scalabilità. Inoltre, introduciamo una strategia di evoluzione guidata dai difetti, aumentando progressivamente la complessità delle domande per spingere i modelli a gestire scenari di analisi video più impegnativi. I risultati sperimentali dimostrano che VideoAutoArena differenzia efficacemente tra i LMM all'avanguardia, fornendo approfondimenti sulle capacità del modello e sugli ambiti di miglioramento. Per semplificare ulteriormente la nostra valutazione, introduciamo VideoAutoBench come benchmark ausiliario, in cui gli annotatori umani etichettano i vincitori in un sottoinsieme delle battaglie di VideoAutoArena. Utilizziamo GPT-4o come giudice per confrontare le risposte con queste risposte validate dagli umani. Insieme, VideoAutoArena e VideoAutoBench offrono un framework economico e scalabile per valutare i LMM nell'analisi video centrata sull'utente.
Il Modello Segment Anything 2 (SAM 2) ha dimostrato elevate prestazioni nelle attività di segmentazione degli oggetti, ma affronta sfide nel tracciamento visivo degli oggetti, specialmente quando si trovano in scene affollate con oggetti in movimento rapido o auto-occlusi. Inoltre, l'approccio di memoria a finestra fissa nel modello originale non tiene conto della qualità dei ricordi selezionati per condizionare le caratteristiche dell'immagine per il frame successivo, portando alla propagazione degli errori nei video. Questo articolo introduce SAMURAI, un'adattamento potenziato di SAM 2 specificamente progettato per il tracciamento visivo degli oggetti. Integrando indizi temporali di movimento con il meccanismo di selezione della memoria consapevole del movimento proposto, SAMURAI predice efficacemente il movimento dell'oggetto e affina la selezione della maschera, raggiungendo un tracciamento robusto e preciso senza la necessità di ritraining o fine-tuning. SAMURAI opera in tempo reale e dimostra elevate prestazioni zero-shot su diversi dataset di benchmark, mostrando la sua capacità di generalizzare senza fine-tuning. Nelle valutazioni, SAMURAI ottiene significativi miglioramenti nel tasso di successo e nella precisione rispetto ai tracciatori esistenti, con un aumento dell'AUC del 7,1% su LaSOT_{ext} e un aumento dell'AO del 3,5% su GOT-10k. Inoltre, ottiene risultati competitivi rispetto ai metodi completamente supervisionati su LaSOT, sottolineando la sua robustezza in scenari di tracciamento complessi e il suo potenziale per applicazioni reali in ambienti dinamici. Codice e risultati sono disponibili su https://github.com/yangchris11/samurai.
L'estensione delle dimensioni della finestra di contesto consente ai grandi modelli linguistici (LLM) di elaborare sequenze più lunghe e gestire compiti più complessi. L'Incorporamento Posizionale Rotativo (RoPE) è diventato lo standard de facto grazie alle sue proprietà di codifica posizionale relativa che favoriscono l'addestramento a lungo contesto. Tuttavia, osserviamo che l'utilizzo di RoPE con il formato BFloat16 comporta problemi numerici, causando una deviazione dalla sua codifica posizionale relativa prevista, specialmente in scenari di lungo contesto. Questo problema deriva dalla limitata precisione di BFloat16 e si accumula all'aumentare della lunghezza del contesto, con il primo token che contribuisce significativamente a questo problema. Per affrontare ciò, sviluppiamo AnchorAttention, un metodo di attenzione plug-and-play che allevia i problemi numerici causati da BFloat16, migliora le capacità di lungo contesto e accelera l'addestramento. AnchorAttention riduce i calcoli di attenzione non necessari, mantiene la coerenza semantica e aumenta l'efficienza computazionale trattando il primo token come un ancoraggio condiviso con un ID di posizione costante, rendendolo visibile a tutti i documenti all'interno del contesto di addestramento. Gli esperimenti su tre tipi di LLM dimostrano che AnchorAttention migliora significativamente le prestazioni a lungo contesto e riduce il tempo di addestramento di oltre il 50\% rispetto ai meccanismi di attenzione completa standard, preservando nel contempo le capacità originali del LLM su compiti generali. Il nostro codice è disponibile su https://github.com/haonan3/AnchorContext.
Gli agenti linguistici hanno dimostrato capacità promettenti nell'automatizzazione di compiti basati sul web, anche se i loro attuali approcci reattivi sono ancora in larga parte meno performanti rispetto agli esseri umani. L'incorporazione di algoritmi di pianificazione avanzati, in particolare i metodi di ricerca ad albero, potrebbe migliorare le prestazioni di questi agenti, ma l'implementazione della ricerca ad albero direttamente su siti web live comporta significativi rischi di sicurezza e vincoli pratici a causa di azioni irreversibili come la conferma di un acquisto. In questo articolo, introduciamo un nuovo paradigma che potenzia gli agenti linguistici con la pianificazione basata su modelli, inaugurando l'uso innovativo di grandi modelli linguistici (LLM) come modelli del mondo in ambienti web complessi. Il nostro metodo, WebDreamer, si basa sull'idea chiave che i LLM codificano intrinsecamente conoscenze approfondite sulla struttura e le funzionalità dei siti web. In particolare, WebDreamer utilizza i LLM per simulare gli esiti di ciascuna azione candidata (ad esempio, "cosa succederebbe se cliccassi su questo pulsante?") utilizzando descrizioni in linguaggio naturale, per poi valutare questi esiti immaginati al fine di determinare l'azione ottimale in ciascun passo. I risultati empirici su due benchmark rappresentativi degli agenti web con interazione online - VisualWebArena e Mind2Web-live - dimostrano che WebDreamer ottiene miglioramenti sostanziali rispetto alle basi reattive. Stabilendo la validità dei LLM come modelli del mondo negli ambienti web, questo lavoro getta le basi per un cambiamento di paradigma nell'interazione web automatizzata. Più ampiamente, le nostre scoperte aprono nuove e entusiasmanti strade per la ricerca futura nell'ottimizzazione dei LLM specificamente per la modellazione del mondo in ambienti complessi e dinamici, e nella pianificazione speculativa basata su modelli per gli agenti linguistici.
I modelli di diffusione eccellono nella generazione di immagini, ma controllarli rimane una sfida. Ci concentriamo sul problema della generazione di immagini condizionate allo stile. Sebbene le immagini di esempio funzionino, sono ingombranti: i srefs (codici di riferimento dello stile) di MidJourney risolvono questo problema esprimendo uno stile specifico di immagine in un breve codice numerico. Questi sono stati ampiamente adottati sui social media grazie alla facilità di condivisione e al fatto che consentono di utilizzare un'immagine per il controllo dello stile, senza dover pubblicare le immagini di origine stesse. Tuttavia, gli utenti non sono in grado di generare srefs dalle proprie immagini, né è pubblica la procedura di addestramento sottostante. Proponiamo StyleCodes: un'architettura di codifica dello stile open-source e di ricerca aperta insieme a una procedura di addestramento per esprimere lo stile dell'immagine come un codice base64 di 20 simboli. I nostri esperimenti mostrano che la nostra codifica comporta una perdita minima in termini di qualità rispetto alle tecniche tradizionali di immagine-a-stile.
Man mano che i modelli linguistici continuano a scalare, i Grandi Modelli Linguistici (LLM) hanno mostrato capacità emergenti nell'Apprendimento In Contesto (ICL), consentendo loro di risolvere compiti linguistici prefissando alcune dimostrazioni in contesto (ICDs) come contesto. Ispirati da questi progressi, i ricercatori hanno esteso queste tecniche per sviluppare Grandi Modelli Multimodali (LMM) con capacità ICL. Tuttavia, i LMM esistenti affrontano un problema critico: spesso non riescono a sfruttare efficacemente il contesto visivo nelle dimostrazioni multimodali e invece seguono semplicemente schemi testuali. Ciò indica che i LMM non raggiungono un'allineamento efficace tra le dimostrazioni multimodali e le uscite del modello. Per affrontare questo problema, proponiamo Ottimizzazione Diretta delle Preferenze delle Dimostrazioni Simboliche (SymDPO). In particolare, SymDPO mira a rompere il paradigma tradizionale di costruzione delle dimostrazioni multimodali utilizzando simboli casuali per sostituire le risposte testuali all'interno delle istanze. Ciò costringe il modello a comprendere attentamente le immagini di dimostrazione e a stabilire una relazione tra le immagini e i simboli per rispondere correttamente alle domande. Convalidiamo l'efficacia di questo metodo su più benchmark, dimostrando che con SymDPO, i LMM possono comprendere in modo più efficace il contesto multimodale all'interno degli esempi e utilizzare questa conoscenza per rispondere meglio alle domande.
Gli ultimi sviluppi nei Large Multimodal Models (LMMs) hanno ampliato le loro capacità includendo la comprensione dei video. In particolare, i modelli Text-to-video (T2V) hanno compiuto progressi significativi in qualità, comprensione e durata, eccellendo nella creazione di video da semplici prompt testuali. Tuttavia, producono ancora frequentemente contenuti allucinatori che indicano chiaramente che il video è generato dall'IA. Presentiamo ViBe: un Benchmark su larga scala di Text-to-Video di video allucinatori dai modelli T2V. Identifichiamo cinque principali tipi di allucinazione: Soggetto che Scompare, Variabilità Numerica, Disforia Temporale, Errore di Omissione e Incongruenza Fisica. Utilizzando 10 modelli T2V open-source, abbiamo sviluppato il primo dataset su larga scala di video allucinatori, comprendente 3.782 video annotati da esseri umani in queste cinque categorie. ViBe offre una risorsa unica per valutare l'affidabilità dei modelli T2V e fornisce una base per migliorare la rilevazione e la mitigazione delle allucinazioni nella generazione di video. Stabiliamo la classificazione come base e presentiamo varie configurazioni di classificatori ensemble, con la combinazione TimeSFormer + CNN che offre le migliori prestazioni, raggiungendo un'accuratezza del 0,345 e uno score F1 del 0,342. Questo benchmark mira a guidare lo sviluppo di modelli T2V robusti che producono video più accuratamente allineati ai prompt di input.
Mentre le leggi di scala forniscono una metodologia affidabile per prevedere la perdita di addestramento attraverso scale di calcolo per una singola distribuzione di dati, si sa meno su come queste previsioni dovrebbero cambiare man mano che cambiamo la distribuzione. In questo articolo, deriviamo una strategia per prevedere una perdita da un'altra e la applichiamo per prevedere attraverso diversi set di dati di pre-addestramento e dal dato di pre-addestramento ai dati del compito successivo. Le nostre previsioni si estendono bene anche a 20 volte il budget FLOP più grande utilizzato per adattare le curve. Più precisamente, scopriamo che ci sono semplici relazioni di legge di potenza traslate tra (1) le perdite di addestramento di due modelli addestrati su due set di dati separati quando i modelli sono accoppiati dal calcolo di addestramento (addestramento-addestramento), (2) la perdita di addestramento e la perdita di test su qualsiasi distribuzione successiva per un singolo modello (addestramento-test), e (3) le perdite di test di due modelli addestrati su due set di dati di addestramento separati (test-test). I risultati resistono per i set di dati di pre-addestramento che differiscono sostanzialmente (alcuni sono interamente codice e altri non hanno affatto codice) e attraverso una varietà di compiti successivi. Infine, scopriamo che in alcuni contesti queste relazioni di legge di potenza traslate possono fornire previsioni più accurate rispetto all'estrapolazione delle leggi di scala di singoli set di dati.
I modelli generativi di diffusione testo-immagine possono generare immagini di alta qualità a discapito dell'ingegnerizzazione noiosa delle istruzioni. La controllabilità può essere migliorata introducendo il condizionamento del layout, tuttavia i metodi esistenti mancano della capacità di modifica del layout e del controllo dettagliato sugli attributi degli oggetti. Il concetto di generazione a più strati ha un grande potenziale per affrontare queste limitazioni, tuttavia generare istanze di immagini contemporaneamente alla composizione della scena limita il controllo sugli attributi dettagliati degli oggetti, sul posizionamento relativo nello spazio tridimensionale e sulle capacità di manipolazione della scena. In questo lavoro, proponiamo un nuovo paradigma di generazione a più fasi progettato per il controllo dettagliato, la flessibilità e l'interattività. Per garantire il controllo sugli attributi delle istanze, ideiamo un nuovo paradigma di addestramento per adattare un modello di diffusione alla generazione di componenti di scena isolate come immagini RGBA con informazioni sulla trasparenza. Per costruire immagini complesse, utilizziamo queste istanze pregenerate e introduciamo un processo di generazione composita a più strati che assembla in modo fluido componenti in scene realistiche. I nostri esperimenti mostrano che il nostro modello di diffusione RGBA è in grado di generare istanze diverse e di alta qualità con controllo preciso sugli attributi degli oggetti. Attraverso la composizione a più strati, dimostriamo che il nostro approccio consente di costruire e manipolare immagini da istruzioni altamente complesse con controllo dettagliato sull'aspetto e sulla posizione degli oggetti, garantendo un grado di controllo superiore rispetto ai metodi concorrenti.
L'obiettivo della Generazione di Relazioni Radiologiche (RRG) è generare automaticamente analisi testuali coerenti delle malattie basate su immagini radiologiche, alleviando così il carico di lavoro dei radiologi. Attualmente, i metodi basati sull'IA per la RRG si concentrano principalmente sulle modifiche all'architettura del modello codificatore-decodificatore. Per avanzare in questi approcci, questo articolo introduce un framework guidato dalle Informazioni Organiche-Regionali (ORID) che può integrare efficacemente informazioni multimodali e ridurre l'influenza del rumore da organi non correlati. In particolare, basandoci sul LLaVA-Med, costruiamo innanzitutto un dataset di istruzioni correlato alla RRG per migliorare la capacità di descrizione della diagnosi organo-regionale e ottenere il LLaVA-Med-RRG. Successivamente, proponiamo un modulo di fusione cross-modale basato sugli organi per combinare efficacemente le informazioni dalla descrizione della diagnosi organo-regionale e dall'immagine radiologica. Per ridurre ulteriormente l'influenza del rumore da organi non correlati sulla generazione del rapporto radiologico, introduciamo un modulo di analisi del coefficiente di importanza dell'organo, che sfrutta la Rete Neurale Grafica (GNN) per esaminare le interconnessioni delle informazioni cross-modali di ciascuna regione dell'organo. Estesi esperimenti e confronti con metodi all'avanguardia su vari metriche di valutazione dimostrano le prestazioni superiori del nostro metodo proposto.