Articoli di ricerca IA selezionati quotidianamente con traduzioni
Rispetto ai dati di coppie immagine-testo, i corpora interlacciati consentono ai Modelli Visione-Linguaggio (VLM) di comprendere il mondo in modo più naturale come gli esseri umani. Tuttavia, tali dataset esistenti sono raccolti da pagine web, affrontando sfide come bassa densità di conoscenza, relazioni lasche tra immagine e testo e scarsa coerenza logica tra le immagini. D'altra parte, Internet ospita vasti video didattici (ad esempio, corsi di geometria online) ampiamente utilizzati dagli umani per apprendere materie fondamentali, eppure queste preziose risorse rimangono poco esplorate nell'addestramento dei VLM. In questo articolo, presentiamo un corpus multimodale di alta qualità basato su libri di testo con una conoscenza fondamentale più ricca per il preaddestramento dei VLM. Raccoglie oltre 2,5 anni di video didattici, per un totale di 22.000 ore di lezione. Utilizziamo inizialmente una tassonomia proposta da un LLM per raccogliere sistematicamente video didattici. Successivamente estraiamo e raffiniamo progressivamente la conoscenza visiva (frame chiave), audio (ASR) e testuale (OCR) dai video, e organizziamo come un corpus interlacciato immagine-testo in base all'ordine temporale. Rispetto ai suoi simili, il nostro libro di testo incentrato sui video offre un contesto più coerente, una conoscenza più ricca e una migliore allineamento tra immagine e testo. Gli esperimenti ne dimostrano la superba performance di preaddestramento, in particolare nelle attività intensive di conoscenza e ragionamento come ScienceQA e MathVista. Inoltre, i VLM preaddestrati sul nostro libro di testo mostrano un eccezionale livello di consapevolezza del contesto interlacciato, sfruttando indizi visivi e testuali nel loro contesto a pochi scatti per risolvere il compito. Il nostro codice è disponibile su \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
Nonostante i significativi progressi nella generazione di video, l'inserimento di un dato oggetto nei video rimane un compito impegnativo. La difficoltà risiede nel preservare i dettagli dell'aspetto dell'oggetto di riferimento e modellare accuratamente i movimenti coerenti contemporaneamente. In questo articolo, proponiamo VideoAnydoor, un framework di inserimento di oggetti nei video a zero-shot con una preservazione dei dettagli ad alta fedeltà e un controllo preciso del movimento. Partendo da un modello di testo-a-video, utilizziamo un estrattore di ID per iniettare l'identità globale e sfruttiamo una sequenza di box per controllare il movimento complessivo. Per preservare l'aspetto dettagliato e nel contempo supportare un controllo del movimento dettagliato, progettiamo un pixel warper. Esso prende l'immagine di riferimento con punti chiave arbitrari e le corrispondenti traiettorie dei punti chiave come input. Deforma i dettagli dei pixel in base alle traiettorie e fonde le caratteristiche deformate con il diffusion U-Net, migliorando così la preservazione dei dettagli e supportando gli utenti nella manipolazione delle traiettorie di movimento. Inoltre, proponiamo una strategia di addestramento che coinvolge sia video che immagini statiche con una perdita di ricostruzione con ripesatura per migliorare la qualità dell'inserimento. VideoAnydoor dimostra un'evidente superiorità rispetto ai metodi esistenti e supporta naturalmente varie applicazioni successive (ad esempio, generazione di testa parlante, prova virtuale di abbigliamento nei video, editing multi-regione) senza un raffinamento specifico del compito.
Con l'aumento delle capacità di ragionamento del codice dei modelli di linguaggio di grandi dimensioni (LLM) esistenti e i progressi nei modelli di ragionamento come OpenAI o1 e o3, c'è una crescente necessità di sviluppare benchmark più sfidanti e completi che testino efficacemente le loro sofisticate capacità di codifica a livello di competizione. I benchmark esistenti, come LiveCodeBench e USACO, sono carenti a causa dell'indisponibilità di casi di test privati, della mancanza di supporto per giudici speciali e di ambienti di esecuzione non allineati. Per colmare questa lacuna, presentiamo CodeElo, un benchmark di generazione di codice a livello di competizione standardizzato che affronta efficacemente tutte queste sfide per la prima volta. Il benchmark CodeElo si basa principalmente sulla piattaforma ufficiale CodeForces e cerca di allinearsi il più possibile con la piattaforma. Compiliamo i problemi delle gare degli ultimi sei mesi su CodeForces con informazioni dettagliate come divisioni delle gare, valutazioni di difficoltà dei problemi e tag di algoritmi dei problemi. Introduciamo un metodo di giudizio unico in cui i problemi vengono inviati direttamente alla piattaforma e sviluppiamo un sistema affidabile di calcolo del punteggio Elo che si allinea con la piattaforma ed è confrontabile con i partecipanti umani ma ha una varianza inferiore. Testando sul nostro CodeElo, forniamo i punteggi Elo di 30 LLM open-source esistenti e 3 proprietari per la prima volta. I risultati mostrano che o1-mini e QwQ-32B-Preview si distinguono significativamente, ottenendo punteggi Elo di 1578 e 1261, rispettivamente, mentre altri modelli faticano anche con i problemi più facili, posizionandosi nel 20 percento più basso tra tutti i partecipanti umani. Sono stati condotti anche esperimenti di analisi dettagliati per fornire approfondimenti sulle prestazioni tra gli algoritmi e confronti tra l'uso di C++ e Python, che possono suggerire direzioni per studi futuri.
I Video Large Language Models (Video LLMs) hanno recentemente mostrato notevoli capacità nella comprensione generale dei video. Tuttavia, si concentrano principalmente sulla comprensione olistica e faticano a catturare dettagli spaziali e temporali dettagliati. Inoltre, la mancanza di dati di istruzione video di alta qualità a livello di oggetto e di un benchmark esaustivo ostacola ulteriormente i loro progressi. Per affrontare queste sfide, introduciamo il VideoRefer Suite per potenziare i Video LLM per una comprensione video spazio-temporale a livello più dettagliato, consentendo la percezione e il ragionamento su qualsiasi oggetto presente nel video. In particolare, sviluppiamo in modo approfondito VideoRefer Suite su tre aspetti essenziali: dataset, modello e benchmark. In primo luogo, introduciamo un motore dati multi-agente per curare attentamente un dataset di istruzioni video a livello di oggetto su larga scala e di alta qualità, denominato VideoRefer-700K. Successivamente, presentiamo il modello VideoRefer, che equipaggia un versatile codificatore di oggetti spazio-temporali per catturare rappresentazioni regionali e sequenziali precise. Infine, creiamo meticolosamente un VideoRefer-Bench per valutare in modo esaustivo la capacità di comprensione spazio-temporale di un Video LLM, valutandolo su vari aspetti. Estesi esperimenti e analisi dimostrano che il nostro modello VideoRefer non solo raggiunge prestazioni promettenti sui benchmark di riferimento video, ma facilita anche le capacità di comprensione generale dei video.
Introduciamo LTX-Video, un modello di diffusione latente basato su transformer che adotta un approccio olistico alla generazione di video integrando in modo fluido le responsabilità del Video-VAE e del transformer per il denoising. A differenza dei metodi esistenti, che trattano questi componenti come indipendenti, LTX-Video mira a ottimizzare la loro interazione per migliorare efficienza e qualità. Al suo nucleo si trova un Video-VAE attentamente progettato che raggiunge un alto rapporto di compressione di 1:192, con ridimensionamento spazio-temporale di 32 x 32 x 8 pixel per token, reso possibile spostando l'operazione di patchifying dall'input del transformer all'input del VAE. Operando in questo spazio latente altamente compresso, il transformer può eseguire in modo efficiente l'autoattenzione spazio-temporale completa, essenziale per generare video ad alta risoluzione con coerenza temporale. Tuttavia, l'alta compressione limita intrinsecamente la rappresentazione dei dettagli fini. Per affrontare ciò, il nostro decodificatore VAE è incaricato sia della conversione da latente a pixel che dell'ultimo passaggio di denoising, producendo direttamente il risultato pulito nello spazio dei pixel. Questo approccio preserva la capacità di generare dettagli fini senza incorrere nel costo di esecuzione di un modulo di upsampling separato. Il nostro modello supporta diversi casi d'uso, inclusa la generazione di video da testo e da immagine, con entrambe le capacità addestrate contemporaneamente. Raggiunge una generazione più veloce del tempo reale, producendo 5 secondi di video a 24 fps e risoluzione 768x512 in soli 2 secondi su una GPU Nvidia H100, superando tutti i modelli esistenti di dimensioni simili. Il codice sorgente e i modelli preaddestrati sono disponibili pubblicamente, stabilendo un nuovo punto di riferimento per la generazione di video accessibile e scalabile.
I modelli di diffusione latente con architetture Transformer eccellono nella generazione di immagini ad alta fedeltà. Tuttavia, recenti studi rivelano un dilemma di ottimizzazione in questo design a due fasi: mentre aumentare la dimensione delle caratteristiche per token nei tokenizzatori visivi migliora la qualità della ricostruzione, richiede modelli di diffusione notevolmente più grandi e più iterazioni di addestramento per ottenere prestazioni di generazione comparabili. Di conseguenza, i sistemi esistenti spesso si accontentano di soluzioni subottimali, producendo artefatti visivi a causa della perdita di informazioni all'interno dei tokenizzatori o non riuscendo a convergere completamente a causa dei costi computazionali elevati. Sosteniamo che questo dilemma derivi dalla difficoltà intrinseca nell'apprendere spazi latenti ad alta dimensionalità non vincolati. Per affrontare ciò, proponiamo di allineare lo spazio latente con modelli di fondazione visiva preaddestrati durante l'addestramento dei tokenizzatori visivi. Il nostro VA-VAE proposto (Variational AutoEncoder Allineato al Modello di Fondazione Visiva) espande significativamente il confine di ricostruzione-generazione dei modelli di diffusione latente, consentendo una convergenza più rapida dei Transformer di Diffusione (DiT) in spazi latenti ad alta dimensionalità. Per sfruttare appieno il potenziale di VA-VAE, costruiamo un basale DiT potenziato con strategie di addestramento migliorate e design di architettura, denominato LightningDiT. Il sistema integrato raggiunge prestazioni all'avanguardia nella generazione di ImageNet 256x256 con un punteggio FID di 1.35, dimostrando un'efficienza di addestramento notevole raggiungendo un punteggio FID di 2.11 in soli 64 epoche - rappresentando un'accelerazione della convergenza di oltre 21 volte rispetto al DiT originale. Modelli e codici sono disponibili su: https://github.com/hustvl/LightningDiT.
La sicurezza dei contenuti delle immagini è diventata una sfida significativa con la diffusione dei media visivi sulle piattaforme online. Nel frattempo, nell'era dei contenuti generati da intelligenza artificiale (CGIA), molti modelli di generazione di immagini sono in grado di produrre contenuti dannosi, come immagini contenenti materiale sessualmente esplicito o violento. Pertanto, diventa cruciale identificare tali immagini non sicure basandosi su regole di sicurezza stabilite. I Modelli Linguaggio Multimodali di Grandi Dimensioni (MLLM) preaddestrati offrono potenzialità in questo senso, date le loro forti capacità di riconoscimento di modelli. Gli approcci esistenti tipicamente adattano i MLLM con set di dati etichettati da esseri umani, il che però comporta una serie di svantaggi. In primo luogo, fare affidamento su annotatori umani per etichettare i dati seguendo linee guida intricate e dettagliate è sia costoso che intensivo dal punto di vista del lavoro. Inoltre, gli utenti dei sistemi di valutazione della sicurezza potrebbero dover aggiornare frequentemente le regole di sicurezza, rendendo più impegnativo il fine-tuning sull'annotazione basata sull'essere umano. Ciò solleva la questione di ricerca: Possiamo rilevare immagini non sicure interrogando i MLLM in un contesto zero-shot utilizzando una costituzione di sicurezza predefinita (un insieme di regole di sicurezza)? La nostra ricerca ha mostrato che interrogare semplicemente i MLLM preaddestrati non produce risultati soddisfacenti. Questa mancanza di efficacia deriva da fattori come la soggettività delle regole di sicurezza, la complessità delle costituzioni lunghe e i pregiudizi intrinseci nei modelli. Per affrontare queste sfide, proponiamo un metodo basato su MLLM che include l'oggettivazione delle regole di sicurezza, la valutazione della rilevanza tra regole e immagini, la formulazione di giudizi rapidi basati sulle probabilità di token prive di pregiudizi con catene di precondizioni logicamente complete ma semplificate per le regole di sicurezza e lo svolgimento di ragionamenti più approfonditi con processi di pensiero a cascata se necessario. I risultati sperimentali dimostrano che il nostro metodo è altamente efficace per compiti di valutazione della sicurezza delle immagini in modalità zero-shot.
L'Auto-Correzione mira a consentire ai grandi modelli linguistici (LLM) di auto-verificare e auto-migliorare le loro risposte iniziali senza feedback esterno. Tuttavia, i LLM spesso non riescono a auto-verificarsi in modo efficace e a generare feedback corretti, portando a ulteriori errori nella raffinazione e al fallimento dell'auto-correzione, specialmente in compiti di ragionamento complessi. In questo articolo, proponiamo l'Auto-Correzione basata su Programma (ProgCo). In primo luogo, la verifica basata su programma (ProgVe) raggiunge una logica di verifica complessa e una valida estensione attraverso pseudo-programmi di verifica auto-generati ed auto-eseguibili. Successivamente, il perfezionamento basato su programma (ProgRe) riceve feedback da ProgVe, conduce una riflessione e un perfezionamento duali su entrambe le risposte e i programmi di verifica per attenuare l'effetto fuorviante dei feedback errati in compiti di ragionamento complessi. Gli esperimenti condotti su tre benchmark di seguire istruzioni e di matematica indicano che ProgCo raggiunge un'auto-correzione efficace e può migliorare ulteriormente le prestazioni quando combinato con strumenti di programmazione reali.
I recenti progressi nei modelli fondamentali hanno potenziato le capacità dei sistemi di intelligenza artificiale nell'uso autonomo degli strumenti e nel ragionamento. Tuttavia, la loro capacità nel ragionamento basato sulla posizione o sulla mappa - che migliora la vita quotidiana ottimizzando la navigazione, agevolando la scoperta delle risorse e razionalizzando la logistica - non è stata studiata in modo sistematico. Per colmare questa lacuna, presentiamo MapEval, un benchmark progettato per valutare diverse e complesse interrogazioni degli utenti basate sulla mappa con ragionamento geospaziale. MapEval presenta tre tipi di compiti (testuali, basati su API e visivi) che richiedono la raccolta di informazioni globali tramite strumenti cartografici, l'elaborazione di contesti geospaziali eterogenei (ad esempio, entità nominate, distanze di viaggio, recensioni o valutazioni degli utenti, immagini) e il ragionamento compositivo, che tutti i modelli fondamentali all'avanguardia trovano impegnativo. Comprendente 700 domande a scelta multipla uniche su posizioni in 180 città e 54 paesi, MapEval valuta la capacità dei modelli fondamentali di gestire relazioni spaziali, infografiche cartografiche, pianificazione dei viaggi e sfide alla navigazione. Utilizzando MapEval, abbiamo condotto una valutazione completa di 28 modelli fondamentali di spicco. Sebbene nessun singolo modello eccellesse in tutti i compiti, Claude-3.5-Sonnet, GPT-4o e Gemini-1.5-Pro hanno ottenuto prestazioni competitive complessive. Tuttavia, sono emersi significativi divari di prestazioni, in particolare in MapEval, dove gli agenti con Claude-3.5-Sonnet hanno superato GPT-4o e Gemini-1.5-Pro rispettivamente del 16% e del 21%, e i divari sono diventati ancora più amplificati se confrontati con LLM open-source. Le nostre analisi dettagliate forniscono approfondimenti sui punti di forza e di debolezza dei modelli attuali, anche se tutti i modelli continuano a rimanere al di sotto delle prestazioni umane di oltre il 20% in media, avendo difficoltà con immagini cartografiche complesse e ragionamenti geospaziali rigorosi. Questa lacuna sottolinea il ruolo critico di MapEval nell'avanzamento dei modelli fondamentali ad uso generale con una maggiore comprensione geospaziale.
Gli agenti di intelligenza artificiale sono diventati sempre più diffusi negli ultimi anni, trainati da significativi progressi nel campo dei grandi modelli linguistici (LLM). Gli agenti GUI mobili, una sotto-categoria degli agenti di intelligenza artificiale, sono progettati per eseguire autonomamente compiti su dispositivi mobili. Mentre numerosi studi hanno introdotto agenti, set di dati e benchmark per far progredire la ricerca sugli agenti GUI mobili, molti set di dati esistenti si concentrano su valutazioni di frame statici e non forniscono una piattaforma completa per valutare le prestazioni su compiti reali, in condizioni reali. Per colmare questa lacuna, presentiamo Android Agent Arena (A3), una nuova piattaforma di valutazione. A differenza dei sistemi in condizioni reali esistenti, A3 offre: (1) compiti significativi e pratici, come il recupero di informazioni online in tempo reale e istruzioni operative; (2) uno spazio d'azione più ampio e flessibile, consentendo la compatibilità con agenti addestrati su qualsiasi set di dati; e (3) un processo di valutazione automatizzato basato su LLM a livello aziendale. A3 include 21 app di terze parti generalmente utilizzate e 201 compiti rappresentativi di scenari utente comuni, fornendo una solida base per valutare gli agenti GUI mobili in situazioni reali e un nuovo processo di valutazione autonomo per ridurre il lavoro umano e l'esperienza nella codifica. Il progetto è disponibile su https://yuxiangchai.github.io/Android-Agent-Arena/.
Il recente avvento dei Grandi Modelli Linguistici (LLM) ha introdotto sofisticate capacità di ragionamento nel campo dei video attraverso i Modelli Linguistici Video di Grandi Dimensioni (VideoLLM). Tuttavia, attualmente i VideoLLM si basano su un singolo codificatore visivo per tutta la loro elaborazione visiva, il che limita la quantità e il tipo di informazioni visive che possono essere trasmesse al LLM. Il nostro metodo, MERV, Rappresentazione Multi-Codificatore dei Video, sfrutta invece diversi codificatori visivi congelati per creare una rappresentazione unificata di un video, fornendo al VideoLLM un insieme completo di conoscenze visive specializzate. Allineando spazio-temporalmente le caratteristiche di ciascun codificatore ci consente di affrontare una gamma più ampia di domande di comprensione video aperte e a scelta multipla e superare i lavori precedenti all'avanguardia. MERV è fino al 3,7% più preciso rispetto a Video-LLaVA su tutti i benchmark standard di comprensione video, presentando anche un punteggio migliore di Video-ChatGPT. Miglioriamo inoltre SeViLA, il precedente migliore in termini di accuratezza del Test di Percezione a zero-shot, del 2,2%. MERV introduce un numero minimo di parametri aggiuntivi e si allena più velocemente rispetto ai metodi equivalenti a singolo codificatore, parallelizzando l'elaborazione visiva. Infine, forniamo evidenze qualitative che MERV cattura con successo le conoscenze di dominio da ciascuno dei suoi codificatori. I nostri risultati offrono direzioni promettenti nell'utilizzo di diversi codificatori visivi per una comprensione video completa.
I modelli linguistici di grandi dimensioni (LLM) attuali spesso faticano a produrre risposte accurate al primo tentativo per complesse attività di ragionamento come la generazione di codice. Ricerche precedenti affrontano questa sfida generando molteplici soluzioni candidate e convalidandole con test unitari generati dai LLM. I risultati dell'esecuzione dei test unitari fungono da segnali di ricompensa per identificare le soluzioni corrette. Poiché i LLM commettono sempre errori con sicurezza, questi test unitari non sono affidabili, riducendo così la qualità dei segnali di ricompensa. Motivati dall'osservazione che aumentare il numero di soluzioni migliora le prestazioni dei LLM, esploriamo l'impatto dello scaling dei test unitari per migliorare la qualità del segnale di ricompensa. Il nostro esperimento pionieristico rivela una correlazione positiva tra il numero di test unitari e la qualità del segnale di ricompensa, con maggiori benefici osservati in problemi più impegnativi. Sulla base di queste intuizioni, proponiamo CodeRM-8B, un generatore di test unitari leggero ma efficace che consente uno scaling efficiente e di alta qualità dei test unitari. Inoltre, implementiamo un meccanismo di scaling dinamico che adatta il numero di test unitari in base alla difficoltà del problema, migliorando ulteriormente l'efficienza. I risultati sperimentali mostrano che il nostro approccio migliora significativamente le prestazioni su vari modelli su tre benchmark (ad esempio, con incrementi del 18,43% per Llama3-8B e del 3,42% per GPT-4o-mini su HumanEval Plus).
La personalizzazione dei modelli di testo-immagine per generare immagini di soggetti specifici in scenari e stili diversi è un campo in rapida evoluzione. Gli approcci attuali spesso affrontano sfide nel mantenere un equilibrio tra la conservazione dell'identità e l'allineamento con il prompt di testo in input. Alcuni metodi si basano su un singolo token testuale per rappresentare un soggetto, il che limita l'espressività, mentre altri utilizzano rappresentazioni più ricche ma compromettono il precedente del modello, riducendo l'allineamento con il prompt. In questo lavoro, presentiamo Nested Attention, un meccanismo innovativo che inserisce una rappresentazione dell'immagine ricca ed espressiva nei livelli di cross-attenzione esistenti del modello. La nostra idea chiave è generare valori soggetto dipendenti dalla query, derivati da livelli di attenzione nidificati che imparano a selezionare caratteristiche soggetto rilevanti per ciascuna regione nell'immagine generata. Integriamo questi livelli nidificati in un metodo di personalizzazione basato su un codificatore e dimostriamo che consentono una elevata conservazione dell'identità rispettando i prompt di testo in input. Il nostro approccio è generale e può essere addestrato su vari domini. Inoltre, la sua conservazione precedente ci permette di combinare più soggetti personalizzati da diversi domini in un'unica immagine.
Il ripristino video pone sfide non banali nel mantenere la fedeltà durante il recupero dei dettagli temporalmente consistenti da degradazioni sconosciute in ambienti reali. Nonostante i recenti progressi nel ripristino basato sulla diffusione, questi metodi spesso si trovano ad affrontare limitazioni nella capacità generativa e nell'efficienza del campionamento. In questo lavoro, presentiamo SeedVR, un trasformatore a diffusione progettato per gestire il ripristino video del mondo reale con lunghezza e risoluzione arbitrarie. Il design principale di SeedVR risiede nell'attenzione a finestra spostata che facilita un ripristino efficace su lunghe sequenze video. SeedVR supporta inoltre finestre di dimensioni variabili vicino al confine delle dimensioni spaziali e temporali, superando i vincoli di risoluzione dell'attenzione a finestra tradizionale. Dotato di pratiche contemporanee, tra cui autoencoder video causale, addestramento misto di immagini e video e addestramento progressivo, SeedVR raggiunge prestazioni altamente competitive sia su benchmark sintetici che reali, nonché video generati dall'IA. Estesi esperimenti dimostrano la superiorità di SeedVR rispetto ai metodi esistenti per il ripristino video generico.
Servizi di mappatura e navigazione come Google Maps, Apple Maps, Openstreet Maps, sono essenziali per accedere a vari dati basati sulla posizione, ma spesso faticano a gestire le query geospaziali in linguaggio naturale. Gli avanzamenti recenti nei Grandi Modelli Linguistici (LLM) mostrano promesse nel question answering (QA), ma la creazione di set di dati affidabili per il QA geospaziale dai servizi di mappe rimane una sfida. Presentiamo MapQaTor, un'applicazione web che semplifica la creazione di set di dati riproducibili e tracciabili per il QA basato su mappe. Con la sua architettura plug-and-play, MapQaTor consente un'integrazione senza soluzione di continuità con qualsiasi API di mappe, consentendo agli utenti di raccogliere e visualizzare dati da diverse fonti con una configurazione minima. Mediante la memorizzazione nella cache delle risposte dell'API, la piattaforma garantisce una verità di riferimento coerente, migliorando la affidabilità dei dati anche mentre le informazioni reali evolvono. MapQaTor centralizza il recupero dei dati, l'annotazione e la visualizzazione all'interno di una piattaforma unica, offrendo un'opportunità unica per valutare lo stato attuale del ragionamento geospaziale basato su LLM mentre si migliorano le loro capacità per una comprensione geospaziale migliorata. Le metriche di valutazione mostrano che MapQaTor accelera il processo di annotazione di almeno 30 volte rispetto ai metodi manuali, sottolineando il suo potenziale per lo sviluppo di risorse geospaziali, come set di dati di ragionamento cartografico complessi. Il sito web è attivo su: https://mapqator.github.io/ e un video dimostrativo è disponibile su: https://youtu.be/7_aV9Wmhs6Q.
I modelli strutturati dello spazio degli stati (SSM) sono emersi come alternative ai trasformatori. Mentre gli SSM sono spesso considerati efficaci nel catturare dipendenze di lunghe sequenze, dimostriamo rigorosamente che sono intrinsecamente limitati da un forte bias di recente. I nostri studi empirici rivelano inoltre che questo bias compromette la capacità dei modelli di richiamare informazioni distanti e introduce problemi di robustezza. I nostri esperimenti di scalabilità hanno poi scoperto che strutture più profonde negli SSM possono facilitare l'apprendimento di contesti lunghi. Tuttavia, un'analisi teorica successiva rivela che all'aumentare della profondità degli SSM, essi mostrano un'altra tendenza inevitabile verso un eccessivo levigamento, ad esempio, le rappresentazioni dei token diventano sempre più indistinguibili. Questo dilemma fondamentale tra il bias di recente e l'eccessivo levigamento ostacola la scalabilità degli SSM esistenti. Ispirati dai nostri risultati teorici, proponiamo di polarizzare due canali delle matrici di transizione degli stati negli SSM, impostandoli a zero e uno, rispettivamente, affrontando contemporaneamente il bias di recente e l'eccessivo levigamento. Gli esperimenti dimostrano che la nostra tecnica di polarizzazione migliora costantemente l'accuratezza del richiamo associativo dei token a lungo raggio e sblocca gli SSM per beneficiare ulteriormente da architetture più profonde. Tutti i codici sorgente sono disponibili su https://github.com/VITA-Group/SSM-Bottleneck.
I modelli di diffusione hanno dimostrato una capacità promettente nella generazione di dati di serie temporali (TS) di alta qualità. Nonostante il successo iniziale, i lavori esistenti si concentrano principalmente sull'autenticità dei dati a livello individuale, ma prestano meno attenzione alla conservazione delle proprietà a livello di popolazione sull'intero dataset. Tali proprietà a livello di popolazione includono le distribuzioni dei valori per ciascuna dimensione e le distribuzioni di determinate dipendenze funzionali (ad esempio, la cross-correlazione, CC) tra diverse dimensioni. Ad esempio, nella generazione di dati di serie temporali sul consumo energetico delle abitazioni, le distribuzioni dei valori della temperatura esterna e della temperatura della cucina dovrebbero essere conservate, così come la distribuzione di CC tra di esse. Preservare tali proprietà a livello di popolazione delle TS è fondamentale per mantenere le intuizioni statistiche dei dataset, mitigare i bias dei modelli e potenziare attività successive come la previsione delle serie temporali. Tuttavia, spesso viene trascurato dai modelli esistenti. Di conseguenza, i dati generati dai modelli esistenti presentano spesso spostamenti delle distribuzioni rispetto ai dati originali. Proponiamo Population-aware Diffusion for Time Series (PaD-TS), un nuovo modello di generazione di TS che conserva meglio le proprietà a livello di popolazione. Le principali novità di PaD-TS includono 1) un nuovo metodo di addestramento che incorpora esplicitamente la conservazione delle proprietà a livello di popolazione delle TS e 2) un'architettura di modello di codificatore a doppio canale che cattura meglio la struttura dei dati delle TS. I risultati empirici nei principali dataset di riferimento mostrano che PaD-TS può migliorare il punteggio di spostamento medio della distribuzione di CC tra dati reali e sintetici del 5,9x, mantenendo al contempo prestazioni paragonabili ai modelli all'avanguardia sull'autenticità a livello individuale.
I Transformers si basano su meccanismi di indirizzamento basati sia sui contenuti che sulla posizione per effettuare previsioni, ma le attuali tecniche di codifica posizionale spesso riducono l'efficacia dell'indirizzamento basato sulla posizione. Molti metodi attuali impongono schemi rigidi nelle mappe di attenzione, limitando la capacità di modellare dipendenze a lungo raggio e di adattarsi a compiti diversi. Inoltre, la maggior parte delle codifiche posizionali viene appresa come bias generali, mancando della specializzazione necessaria per diverse istanze all'interno di un dataset. Per affrontare questo problema, proponiamo l'Embedding Posizionale Equivariante Contestualizzato (TAPE), un nuovo framework che potenzia le codifiche posizionali incorporando contenuti sequenziali attraverso i livelli. TAPE introduce codifiche posizionali dinamiche e consapevoli del contesto, superando i vincoli dei tradizionali schemi fissi. Applicando l'equivarianza permutativa e ortogonale, TAPE garantisce la stabilità delle codifiche posizionali durante gli aggiornamenti, migliorandone la robustezza e l'adattabilità. Il nostro metodo può essere facilmente integrato nei transformer pre-addestrati, offrendo un fine-tuning efficiente dei parametri con un overhead minimo. Esperimenti estesi dimostrano che TAPE raggiunge prestazioni superiori nel language modeling, nel ragionamento aritmetico e nei compiti di recupero di contesti lunghi rispetto alle tecniche di embedding posizionale esistenti.
La comprensione dell'azione umana è cruciale per l'avanzamento dei sistemi multimodali. Mentre gli sviluppi recenti, guidati da potenti modelli linguistici di grandi dimensioni (LLM), mirano ad essere sufficientemente generali da coprire una vasta gamma di categorie, spesso trascurano la necessità di capacità più specifiche. In questo lavoro, affrontiamo il compito più impegnativo del Riconoscimento dell'Azione Dettagliato (FAR), che si concentra su etichette semantiche dettagliate all'interno di brevi periodi temporali (ad esempio, "salto all'indietro con 1 rotazione"). Date le elevate spese di annotazione delle etichette dettagliate e i considerevoli dati necessari per il raffinamento dei LLM, proponiamo di adottare l'apprendimento semi-supervisionato (SSL). Il nostro framework, SeFAR, incorpora diversi design innovativi per affrontare queste sfide. In particolare, per catturare dettagli visivi sufficienti, costruiamo Elementi Temporali a Doppio Livello come rappresentazioni più efficaci, basandoci su cui progettiamo una nuova strategia di forte aumento per il paradigma di apprendimento Teacher-Student coinvolgendo una moderata perturbazione temporale. Inoltre, per gestire l'alta incertezza nelle previsioni del modello insegnante per FAR, proponiamo la Regolazione Adattiva per stabilizzare il processo di apprendimento. Gli esperimenti mostrano che SeFAR raggiunge prestazioni all'avanguardia su due set di dati FAR, FineGym e FineDiving, su varie portate di dati. Supera anche altri metodi semi-supervisionati su due classici set di dati a grana grossa, UCF101 e HMDB51. Ulteriori analisi e studi di ablation convalidano l'efficacia dei nostri design. Inoltre, mostriamo che le caratteristiche estratte dal nostro SeFAR potrebbero notevolmente promuovere la capacità dei modelli di base multimodali di comprendere semantica dettagliata e specifica del dominio.