Articoli di ricerca IA selezionati quotidianamente con traduzioni
La generazione in contesto è un componente chiave della capacità di generalizzazione delle attività aperte dei grandi modelli linguistici (LLM). Sfruttando alcuni esempi come contesto, i LLM possono eseguire compiti sia all'interno che all'esterno del dominio. I recenti progressi nei modelli visione-linguaggio auto-regressivi (VLM) sviluppati sui LLM hanno mostrato prestazioni impressionanti nella generazione testo-immagine. Tuttavia, il potenziale dell'apprendimento in contesto per i compiti generali di generazione di immagini rimane in gran parte inesplorato. Per affrontare questo problema, presentiamo X-Prompt, un grande modello linguistico per la visione progettato per offrire prestazioni competitive su una vasta gamma di compiti di generazione di immagini sia visti che non visti, il tutto all'interno di un framework unificato di apprendimento in contesto. X-Prompt incorpora un design specializzato che comprime efficientemente le caratteristiche preziose dagli esempi in contesto, supportando sequenze di token in contesto più lunghe e migliorando la sua capacità di generalizzare a compiti non visti. Un compito di addestramento unificato per la previsione sia del testo che dell'immagine consente a X-Prompt di gestire la generazione di immagini generale con una consapevolezza del compito migliorata dagli esempi in contesto. Estesi esperimenti convalidano le prestazioni del modello su diversi compiti di generazione di immagini visti e la sua capacità di generalizzare a compiti precedentemente non visti.
Con il rapido avanzamento dei modelli generativi basati sulla diffusione, l'animazione di immagini ritratto ha ottenuto risultati notevoli. Tuttavia, affronta ancora sfide nella generazione video temporalmente coerente e nel campionamento veloce a causa della sua natura di campionamento iterativo. Questo articolo presenta FLOAT, un metodo di generazione di video ritratto parlante basato su un modello generativo di corrispondenza di flusso. Spostiamo la modellazione generativa dallo spazio latente basato sui pixel a uno spazio latente del movimento appreso, consentendo la progettazione efficiente di un movimento temporalmente coerente. Per raggiungere questo obiettivo, introduciamo un predittore di campo vettoriale basato su trasformatori con un meccanismo di condizionamento efficace ma semplice frame-wise. Inoltre, il nostro metodo supporta il potenziamento dell'emozione guidato dalla voce, consentendo un'incorporazione naturale di movimenti espressivi. Estesi esperimenti dimostrano che il nostro metodo supera i metodi di ritratto parlante guidati dall'audio all'avanguardia in termini di qualità visiva, fedeltà del movimento ed efficienza.
Il rapporto tecnico introduce O1-CODER, un tentativo di replicare il modello o1 di OpenAI con un focus sui compiti di codifica. Integra l'apprendimento per rinforzo (RL) e la Ricerca ad Albero Monte Carlo (MCTS) per potenziare le capacità di pensiero del Sistema-2 del modello. Il framework include l'addestramento di un Generatore di Casi di Test (TCG) per testare il codice in modo standardizzato, utilizzando MCTS per generare dati di codice con processi di ragionamento, e perfezionando iterativamente il modello di policy per produrre inizialmente del pseudocodice, seguito dalla generazione del codice completo. Il rapporto affronta anche le opportunità e le sfide nel deployare modelli simili a o1 in applicazioni del mondo reale, suggerendo il passaggio al paradigma del Sistema-2 e sottolineando l'imperativo degli aggiornamenti dello stato dell'ambiente. I progressi del modello aggiornato e i risultati sperimentali saranno riportati nelle versioni successive. Tutto il codice sorgente, i dataset curati, così come i modelli derivati saranno resi pubblici su https://github.com/ADaM-BJTU/O1-CODER.
Questo lavoro presenta Switti, un transformer scala-wise per la generazione di testo-immagine. Partendo dai modelli AR esistenti per la previsione su scala successiva, esploriamo innanzitutto il loro utilizzo per la generazione T2I e proponiamo modifiche architetturali per migliorarne la convergenza e le prestazioni complessive. Successivamente, osserviamo che le mappe di auto-attenzione del nostro modello AR scala-wise preaddestrato mostrano una debole dipendenza dalle scale precedenti. Basandoci su questa intuizione, proponiamo un controparte non-AR che facilita un campionamento più veloce del 11% e un utilizzo inferiore della memoria, ottenendo anche una leggera miglioramento della qualità della generazione. Inoltre, riveliamo che l'orientamento senza classificatore alle scale ad alta risoluzione è spesso superfluo e può addirittura degradare le prestazioni. Disabilitando l'orientamento a queste scale, otteniamo un'ulteriore accelerazione del campionamento del 20% e miglioriamo la generazione di dettagli fini. Studi estesi sulle preferenze umane e valutazioni automatizzate mostrano che Switti supera i modelli AR T2I esistenti e si confronta con i modelli di diffusione T2I all'avanguardia, essendo fino a 7 volte più veloce.
Introduciamo Open-Sora Plan, un progetto open-source che mira a contribuire a un ampio modello generativo per la produzione di video ad alta risoluzione desiderati con lunga durata basati su vari input utente. Il nostro progetto comprende diversi componenti per l'intero processo di generazione video, tra cui un Autoencoder Variazionale a Flusso Wavelet, un Denoiser con Skiparse Immagine-Video congiunto e vari controller di condizione. Inoltre, sono stati progettati molti strategie assistenti per un addestramento ed un'inferenza efficienti, e viene proposto un pipeline di cura dati multidimensionale per ottenere dati di alta qualità desiderati. Grazie a pensieri efficienti, il nostro Open-Sora Plan ottiene risultati impressionanti nella generazione di video sia nelle valutazioni qualitative che quantitative. Speriamo che il nostro design accurato e l'esperienza pratica possano ispirare la comunità di ricerca sulla generazione di video. Tutti i nostri codici e i pesi dei modelli sono disponibili pubblicamente su https://github.com/PKU-YuanGroup/Open-Sora-Plan.
Attuali grandi modelli multimodali (LMM) si trovano ad affrontare significativi ostacoli nel processare e comprendere video di lunga durata o ad alta risoluzione, principalmente a causa della mancanza di dataset di alta qualità. Per affrontare questo problema da una prospettiva centrata sui dati, proponiamo VISTA, un framework di Augmentazione Spaziotemporale Video semplice ma efficace che sintetizza coppie di istruzioni video di lunga durata e ad alta risoluzione da dataset esistenti di video e didascalie. VISTA combina spazialmente e temporalmente video per creare nuovi video sintetici con durate estese e risoluzioni migliorate, e successivamente genera coppie domanda-risposta relative a questi nuovi video sintetizzati. Basandoci su questo paradigma, sviluppiamo sette metodi di augmentazione video e curiamo VISTA-400K, un dataset di istruzioni video che mira a migliorare la comprensione dei video di lunga durata e ad alta risoluzione. Il raffinamento di vari LMM video sui nostri dati ha portato a un miglioramento medio del 3,3% su quattro sfide di riferimento per la comprensione dei video lunghi. Inoltre, introduciamo il primo completo benchmark di comprensione video ad alta risoluzione HRVideoBench, su cui i nostri modelli raffinati ottengono un aumento delle prestazioni del 6,5%. Questi risultati evidenziano l'efficacia del nostro framework.
Gli esseri umani sono animali sociali. Come dotare i personaggi autonomi in 3D di intelligenza sociale simile che possa percepire, comprendere e interagire con gli esseri umani rimane un problema aperto ma fondamentale. In questo articolo, presentiamo SOLAMI, il primo framework di Modellazione Sociale visione-Linguaggio-Azione (VLA) end-to-end per l'interazione immersiva con personaggi autonomi in 3D. In particolare, SOLAMI costruisce personaggi autonomi in 3D da tre prospettive: (1) Architettura Sociale VLA: Proponiamo un framework unificato di VLA sociale per generare risposte multimodali (linguaggio e movimento) basate sull'input multimodale dell'utente per guidare il personaggio nell'interazione sociale. (2) Dati Multimodali Interattivi: Presentiamo SynMSI, un dataset sintetico di interazione sociale multimodale generato da un flusso di lavoro automatico utilizzando solo dataset di movimento esistenti per affrontare il problema della scarsità di dati. (3) Interfaccia VR Immersiva: Sviluppiamo un'interfaccia VR che consente agli utenti di interagire in modo immersivo con questi personaggi guidati da varie architetture. Estesi esperimenti quantitativi e studi utente dimostrano che il nostro framework porta a risposte dei personaggi più precise e naturali (sia nel linguaggio che nel movimento) che si allineano alle aspettative dell'utente con una latenza inferiore.
In questo articolo presentiamo TAPTRv3, che si basa su TAPTRv2 per migliorare la robustezza del tracciamento dei punti in video lunghi. TAPTRv2 è un framework semplice simile a DETR che può tracciare con precisione qualsiasi punto in video del mondo reale senza richiedere un volume di costo. TAPTRv3 migliora TAPTRv2 affrontando la sua carenza nel ricercare funzionalità di alta qualità da video lunghi, dove i punti di tracciamento target subiscono normalmente una variazione crescente nel tempo. In TAPTRv3, proponiamo di utilizzare contesto spaziale e temporale per ottenere una migliore interrogazione delle funzionalità lungo le dimensioni spaziali e temporali per un tracciamento più robusto in video lunghi. Per una migliore interrogazione delle funzionalità spaziali, presentiamo l'Attenzione Incrociata Consapevole del Contesto (CCA), che sfrutta il contesto spaziale circostante per migliorare la qualità dei punteggi di attenzione durante l'interrogazione delle funzionalità dell'immagine. Per una migliore interrogazione delle funzionalità temporali, introduciamo l'Attenzione Temporale Lunga Consapevole della Visibilità (VLTA) per condurre l'attenzione temporale a tutti i frame passati considerando le rispettive visibilità, affrontando efficacemente il problema di deriva delle funzionalità in TAPTRv2 causato dal suo modello temporale lungo simile a un RNN. TAPTRv3 supera TAPTRv2 di gran lunga sulla maggior parte dei dataset sfidanti e ottiene prestazioni all'avanguardia. Anche confrontato con metodi addestrati con grandi quantità di dati interni extra su larga scala, TAPTRv3 rimane competitivo.
I modelli surrogati basati sull'apprendimento automatico offrono ai ricercatori potenti strumenti per accelerare i flussi di lavoro basati sulla simulazione. Tuttavia, poiché i dataset standard in questo ambito spesso coprono piccole classi di comportamenti fisici, può essere difficile valutare l'efficacia di nuovi approcci. Per affrontare questa lacuna, presentiamo il Well: una vasta raccolta di dataset contenenti simulazioni numeriche di una vasta gamma di sistemi fisici spazio-temporali. Il Well attinge da esperti del settore e sviluppatori di software numerico per fornire 15TB di dati distribuiti su 16 dataset che coprono diversi ambiti come sistemi biologici, dinamica dei fluidi, scattering acustico, nonché simulazioni magneto-idrodinamiche di fluidi extragalattici o esplosioni di supernove. Questi dataset possono essere utilizzati singolarmente o come parte di un ampio insieme di benchmark. Per agevolare l'uso del Well, forniamo un'interfaccia unificata PyTorch per addestrare e valutare modelli. Dimostriamo la funzionalità di questa libreria presentando esempi di baselines che mettono in evidenza le nuove sfide poste dalla complessa dinamica del Well. Il codice e i dati sono disponibili su https://github.com/PolymathicAI/the_well.
I modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno compiuto progressi significativi nei compiti di comprensione e generazione visiva. Tuttavia, generare contenuti immagine-testo intercalati rimane una sfida che richiede capacità integrate di comprensione e generazione multimodale. Mentre i progressi nei modelli unificati offrono nuove soluzioni, i benchmark esistenti sono insufficienti per valutare questi metodi a causa delle limitazioni di dimensioni e diversità dei dati. Per colmare questa lacuna, presentiamo GATE OpenING (OpenING), un benchmark completo che comprende 5.400 istanze annotate da umani di alta qualità su 56 compiti del mondo reale. OpenING copre scenari quotidiani diversificati come guide turistiche, design e brainstorming, offrendo una piattaforma robusta per metodi di generazione intercalata impegnativi. Inoltre, presentiamo IntJudge, un modello giudice per valutare i metodi di generazione multimodale aperti. Addestrato con un nuovo flusso di dati, il nostro IntJudge raggiunge un tasso di accordo dell'82,42% con i giudizi umani, superando gli valutatori basati su GPT del 11,34%. Esperimenti approfonditi su OpenING rivelano che i metodi attuali di generazione intercalata hanno ancora ampio margine di miglioramento. Risultati chiave sulla generazione immagine-testo intercalata sono inoltre presentati per guidare lo sviluppo dei modelli di prossima generazione. OpenING è open-source su https://opening.github.io.
Il Modello Segment Anything 2 (SAM 2) si è imposto come uno strumento potente per la segmentazione degli oggetti nei video e il tracciamento di qualsiasi cosa. I componenti chiave di SAM 2 che guidano le prestazioni impressionanti nella segmentazione degli oggetti nei video includono un ampio codificatore di immagini multistadio per l'estrazione delle caratteristiche dei frame e un meccanismo di memoria che memorizza contesti di memoria dai frame passati per aiutare la segmentazione del frame corrente. L'alta complessità computazionale del codificatore di immagini multistadio e del modulo di memoria ha limitato le sue applicazioni in compiti del mondo reale, ad esempio la segmentazione degli oggetti nei video su dispositivi mobili. Per affrontare questa limitazione, proponiamo EfficientTAMs, modelli leggeri per tracciare qualsiasi cosa che producono risultati di alta qualità con bassa latenza e dimensioni del modello ridotte. La nostra idea si basa nel ripensare il Vision Transformer (ViT) semplice e non gerarchico come codificatore di immagini per la segmentazione degli oggetti nei video, e nell'introdurre un modulo di memoria efficiente, che riduce la complessità sia per l'estrazione delle caratteristiche del frame che per il calcolo della memoria per la segmentazione del frame corrente. Utilizziamo ViTs leggeri e un modulo di memoria efficiente per costruire EfficientTAMs, e addestriamo i modelli sui dataset SA-1B e SA-V per la segmentazione degli oggetti nei video e i compiti di tracciamento di qualsiasi cosa. Valutiamo su diversi benchmark di segmentazione video, inclusi VOS semi-supervisionati e segmentazione video promptable, e scopriamo che il nostro EfficientTAM proposto con ViT semplice si comporta in modo comparabile al modello SAM 2 (HieraB+SAM 2) con un'accelerazione di circa 2 volte su A100 e una riduzione dei parametri di circa 2,4 volte. Nei compiti di immagine di segmentazione di qualsiasi cosa, i nostri EfficientTAMs si comportano anche in modo favorevole rispetto al SAM originale con un'accelerazione di circa 20 volte su A100 e una riduzione dei parametri di circa 20 volte. Su dispositivi mobili come iPhone 15 Pro Max, i nostri EfficientTAMs possono funzionare a circa 10 FPS per eseguire la segmentazione degli oggetti nei video con una qualità ragionevole, evidenziando la capacità dei modelli ridotti per le applicazioni di segmentazione degli oggetti nei video su dispositivi.
I modelli di diffusione (DM) eccellono nel fotorealismo, nell'editing delle immagini e nella risoluzione di problemi inversi, supportati dalla guida senza classificatori e dalle tecniche di inversione delle immagini. Tuttavia, i modelli di flusso rettificato (RFM) rimangono poco esplorati per questi compiti. I metodi esistenti basati su DM spesso richiedono addestramenti aggiuntivi, mancano di generalizzazione ai modelli latenti preaddestrati, hanno prestazioni inferiori e richiedono risorse computazionali significative a causa dell'ampia retropropagazione attraverso risolutori ODE e processi di inversione. In questo lavoro, sviluppiamo innanzitutto una comprensione teorica ed empirica della dinamica del campo vettoriale dei RFM nel guidare in modo efficiente la traiettoria di denoising. Le nostre scoperte rivelano che possiamo navigare il campo vettoriale in modo deterministico e privo di gradienti. Sfruttando questa proprietà, proponiamo FlowChef, che sfrutta il campo vettoriale per guidare la traiettoria di denoising per compiti controllati di generazione di immagini, facilitati dallo skipping del gradiente. FlowChef è un framework unificato per la generazione di immagini controllata che, per la prima volta, affronta simultaneamente la guida del classificatore, i problemi inversi lineari e l'editing delle immagini senza la necessità di addestramenti aggiuntivi, inversioni o retropropagazioni intensive. Infine, effettuiamo valutazioni approfondite e mostriamo che FlowChef supera significativamente i baselines in termini di prestazioni, memoria e requisiti temporali, raggiungendo nuovi risultati di stato dell'arte. Pagina del Progetto: https://flowchef.github.io.
L'aumento recente di campioni di sintonizzazione di istruzioni visive di alta qualità da modelli visione-linguaggio (VLM) di origine chiusa come GPT-4V ha accelerato il rilascio di VLM open-source in varie dimensioni di modello. Tuttavia, scalare i VLM per migliorare le prestazioni utilizzando modelli più grandi comporta significativi sfide computazionali, specialmente per la distribuzione su dispositivi con risorse limitate come piattaforme mobili e robot. Per affrontare questo problema, proponiamo VLsI: Strati-Interazioni Verbalizzati, una nuova famiglia di VLM nelle dimensioni del modello 2B e 7B, che privilegia l'efficienza senza compromettere l'accuratezza. VLsI sfrutta un processo di distillazione unico, strato per strato, introducendo "verbalizzatori" intermedi che mappano le caratteristiche di ciascuno strato nello spazio del linguaggio naturale, consentendo ai VLM più piccoli di allinearsi in modo flessibile con i processi di ragionamento dei VLM più grandi. Questo approccio mitiga l'instabilità dell'addestramento spesso riscontrata nell'imitazione dell'output e va oltre la tipica sintonizzazione dell'ultimo strato allineando la progressione strato per strato dei VLM piccoli con quella dei grandi. Convalidiamo VLsI su dieci impegnativi benchmark visione-linguaggio, ottenendo notevoli miglioramenti delle prestazioni (11,0% per 2B e 17,4% per 7B) rispetto a GPT-4V senza la necessità di scalare, fondere o apportare modifiche architetturali al modello.
I Transformer di Diffusione hanno dimostrato notevoli capacità nella generazione di immagini ma spesso presentano un'eccessiva parametrizzazione, con conseguente considerevole overhead di inferenza nelle applicazioni reali. In questo lavoro, presentiamo TinyFusion, un metodo di potatura della profondità progettato per rimuovere strati ridondanti dai transformer di diffusione tramite apprendimento end-to-end. Il principio fondamentale del nostro approccio è quello di creare un modello potato con un'elevata recuperabilità, consentendogli di ripristinare elevate prestazioni dopo il fine-tuning. Per raggiungere questo obiettivo, introduciamo una tecnica di campionamento differenziabile per rendere l'apprendimento della potatura possibile, abbinata a un parametro co-ottimizzato per simulare il futuro fine-tuning. Mentre i lavori precedenti si concentrano sulla minimizzazione della perdita o dell'errore dopo la potatura, il nostro metodo modella ed ottimizza esplicitamente le prestazioni post-fine-tuning dei modelli potati. I risultati sperimentali indicano che questo paradigma apprendibile offre notevoli vantaggi per la potatura degli strati dei transformer di diffusione, superando i metodi esistenti basati sull'importanza e sull'errore. Inoltre, TinyFusion mostra una forte generalizzazione tra diverse architetture, come DiTs, MARs e SiTs. Gli esperimenti con DiT-XL mostrano che TinyFusion può creare un transformer di diffusione superficiale a meno del 7% del costo di pre-training, ottenendo un aumento di velocità del 2 volte con un punteggio FID di 2.86, superando i concorrenti con efficienza comparabile. Il codice è disponibile su https://github.com/VainF/TinyFusion.
Il differenziale di prestazioni dei grandi modelli linguistici (LLM) tra le lingue ostacola la loro efficace implementazione in molte regioni, limitando il potenziale valore economico e sociale degli strumenti di intelligenza artificiale generativa in molte comunità. Tuttavia, lo sviluppo di LLM funzionali in molte lingue (ovvero, LLM multilingue) è ostacolato dalla mancanza di risorse di valutazione di alta qualità in lingue diverse dall'inglese. Inoltre, le pratiche attuali nella costruzione di benchmark multilingue spesso traducono le risorse in inglese, ignorando le conoscenze regionali e culturali degli ambienti in cui i sistemi multilingue verrebbero utilizzati. In questo lavoro, costruiamo una suite di valutazione di 197.243 coppie domanda-risposta da fonti di esami locali per misurare le capacità dei LLM multilingue in una varietà di contesti regionali. La nostra nuova risorsa, INCLUDE, è un benchmark completo centrato sulla conoscenza e sul ragionamento attraverso 44 lingue scritte che valuta i LLM multilingue per le prestazioni negli effettivi ambienti linguistici in cui verrebbero implementati.
Il Video Variational Autoencoder (VAE) codifica i video in uno spazio latente a bassa dimensione, diventando un componente chiave della maggior parte dei Modelli di Diffusione Video Latenti (LVDM) per ridurre i costi di addestramento del modello. Tuttavia, all'aumentare della risoluzione e della durata dei video generati, il costo di codifica dei Video VAE diventa un collo di bottiglia limitante nell'addestramento dei LVDM. Inoltre, il metodo di inferenza a blocchi adottato dalla maggior parte dei LVDM può portare a discontinuità dello spazio latente durante il processamento di video di lunga durata. La chiave per affrontare il collo di bottiglia computazionale risiede nella decomposizione dei video in componenti distinte e nella codifica efficiente delle informazioni critiche. La trasformata wavelet può decomporre i video in multiple componenti nel dominio delle frequenze e migliorare significativamente l'efficienza, pertanto proponiamo il Wavelet Flow VAE (WF-VAE), un autoencoder che sfrutta la trasformata wavelet a più livelli per facilitare il flusso di energia a bassa frequenza nella rappresentazione latente. Inoltre, introduciamo un metodo chiamato Causal Cache, che mantiene l'integrità dello spazio latente durante l'inferenza a blocchi. Rispetto ai VAE video all'avanguardia, il WF-VAE dimostra prestazioni superiori sia in termini di PSNR che di metriche LPIPS, raggiungendo un throughput 2 volte superiore e un consumo di memoria 4 volte inferiore pur mantenendo una qualità di ricostruzione competitiva. Il nostro codice e i modelli sono disponibili su https://github.com/PKU-YuanGroup/WF-VAE.
Le preoccupazioni sulla sicurezza dei Modelli di linguaggio multimodali di grandi dimensioni (MLLM) sono gradualmente diventate un problema importante in varie applicazioni. Sorprendentemente, lavori precedenti indicano un fenomeno controintuitivo che utilizzando l'eliminazione testuale si ottengono prestazioni di sicurezza comparabili con MLLM addestrati con coppie immagine-testo. Per spiegare un tale fenomeno controintuitivo, scopriamo un problema di perdita di informazioni sulla sicurezza visiva (VSIL) nei benchmark di sicurezza multimodali esistenti, cioè il contenuto potenzialmente rischioso e sensibile nell'immagine è stato rivelato nella query testuale. In questo modo, i MLLM possono facilmente rifiutare queste query testo-immagine sensibili in base alle query testuali. Tuttavia, le coppie immagine-testo senza VSIL sono comuni in scenari del mondo reale e sono trascurate dai benchmark di sicurezza multimodali esistenti. A tal fine, costruiamo il benchmark di sicurezza visiva multimodale senza perdite di informazioni (VLSBench) che impedisce la perdita di informazioni sulla sicurezza visiva dall'immagine alla query testuale con 2,4k coppie immagine-testo. I risultati sperimentali indicano che VLSBench pone una sfida significativa sia per i MLLM open-source che close-source, inclusi LLaVA, Qwen2-VL, Llama3.2-Vision e GPT-4o. Questo studio dimostra che l'allineamento testuale è sufficiente per scenari di sicurezza multimodali con VSIL, mentre l'allineamento multimodale è una soluzione più promettente per scenari di sicurezza multimodali senza VSIL. Si prega di consultare il nostro codice e i dati su: http://hxhcreate.github.io/VLSBench
Introduciamo Presto, un nuovo modello di diffusione video progettato per generare video di 15 secondi con coerenza a lungo raggio e contenuti ricchi. Estendere i metodi di generazione video per mantenere la diversità degli scenari per lunghe durate presenta significativi sfide. Per affrontare ciò, proponiamo una strategia di Cross-Attention Segmentata (SCA), che suddivide gli stati nascosti in segmenti lungo la dimensione temporale, consentendo a ciascun segmento di attenersi a una sottotitolo corrispondente. SCA non richiede parametri aggiuntivi, consentendo un'incorporazione senza soluzione di continuità nelle attuali architetture basate su DiT. Per facilitare la generazione di video di alta qualità a lungo, costruiamo il dataset LongTake-HD, composto da 261k video ricchi di contenuti con coerenza degli scenari, annotati con un sottotitolo video generale e cinque sottotitoli progressivi. Gli esperimenti mostrano che il nostro Presto raggiunge il 78.5% sul Punteggio Semantico di VBench e il 100% sul Grado Dinamico, superando i metodi di generazione video all'avanguardia esistenti. Ciò dimostra che il nostro Presto proposto migliora significativamente la ricchezza dei contenuti, mantiene la coerenza a lungo raggio e cattura dettagli testuali complessi. Ulteriori dettagli sono disponibili sulla nostra pagina del progetto: https://presto-video.github.io/.
Esploriamo la domanda: "Quanta conoscenza di arte pregressa è necessaria per creare arte?" Per indagare su questo, proponiamo un modello di generazione testo-immagine addestrato senza accesso a contenuti correlati all'arte. Introduciamo poi un metodo semplice ma efficace per apprendere un adattatore artistico utilizzando solo alcuni esempi di stili artistici selezionati. I nostri esperimenti mostrano che l'arte generata utilizzando il nostro metodo è percepita dagli utenti come paragonabile all'arte prodotta da modelli addestrati su grandi dataset ricchi di arte. Infine, attraverso tecniche di attribuzione dei dati, illustramo come gli esempi provenienti sia da dataset artistici che non artistici abbiano contribuito alla creazione di nuovi stili artistici.
Gli errori nell'interpretazione delle informazioni visive nelle immagini (ovvero errori di percezione visiva) rimangono una fonte principale di errori nei Grandi Modelli di Linguaggio Visivo (LVLMs). Sebbene ulteriori analisi siano essenziali, esiste una carenza di set di dati per valutare la percezione visiva dei LVLMs. In questo lavoro, presentiamo VisOnlyQA, un nuovo set di dati progettato per valutare direttamente le capacità di percezione visiva dei LVLMs su domande riguardanti informazioni geometriche e numeriche in figure scientifiche. Il nostro set di dati ci consente di analizzare la percezione visiva dei LVLMs per informazioni visive dettagliate, indipendentemente da altre capacità come il ragionamento. Il set di valutazione di VisOnlyQA include 1.200 domande a scelta multipla in 12 compiti su quattro categorie di figure. Forniamo inoltre dati di addestramento sintetici composti da 70k istanze. I nostri esperimenti su VisOnlyQA mettono in luce le seguenti scoperte: (i) 20 LVLMs che valutiamo, tra cui GPT-4o e Gemini 1.5 Pro, funzionano male nei compiti di percezione visiva in VisOnlyQA, mentre le prestazioni umane sono quasi perfette. (ii) Il fine-tuning sui dati di addestramento sintetici dimostra il potenziale per migliorare la percezione visiva dei LVLMs, ma i miglioramenti osservati sono limitati a determinati compiti e modelli specifici. (iii) Modelli di linguaggio più potenti migliorano la percezione visiva dei LVLMs. In sintesi, i nostri esperimenti suggeriscono che sia i dati di addestramento che le architetture dei modelli dovrebbero essere migliorati per potenziare le capacità di percezione visiva dei LVLMs. I set di dati, il codice e le risposte del modello sono forniti su https://github.com/psunlpgroup/VisOnlyQA.
I recenti progressi nei modelli linguistici basati su video (Video LLMs) hanno visto l'emergere di diverse capacità per ragionare e interpretare contenuti visivi dinamici. Tra questi, i video di gameplay si distinguono come una fonte di dati peculiare, spesso contenente difetti che sfidano il buon senso fisico. Questa caratteristica li rende un benchmark efficace per valutare la capacità poco esplorata di comprendere il buon senso fisico nei Video LLMs. In questo articolo, proponiamo PhysGame come un benchmark pionieristico per valutare le violazioni del buon senso fisico nei video di gameplay. PhysGame comprende 880 video associati a difetti che spaziano su quattro domini fondamentali (meccanica, cinematica, ottica e proprietà dei materiali) e attraverso 12 distinti concetti di buon senso fisico. Attraverso una valutazione approfondita di vari Video LLMs all'avanguardia, le nostre scoperte rivelano che le prestazioni dei Video LLMs open-source attuali sono significativamente inferiori rispetto a quelle dei concorrenti proprietari. Per colmare questa lacuna, curiamo un dataset di addestramento per l'ottimizzazione delle istruzioni, PhysInstruct, con 140.057 coppie domanda-risposta per facilitare l'apprendimento del buon senso fisico. Inoltre, proponiamo anche un dataset di ottimizzazione delle preferenze, PhysDPO, con 34.358 coppie di addestramento, in cui le risposte non preferite sono generate in base a titoli fuorvianti (cioè hacking delle informazioni meta), meno frame (cioè hacking temporale) e risoluzioni spaziali inferiori (cioè hacking spaziale). Basandoci sulla serie di dataset, proponiamo PhysVLM come un Video LLM arricchito di conoscenze fisiche. Esperimenti approfonditi sia sul benchmark orientato alla fisica PhysGame che sui benchmark generali di comprensione video dimostrano le prestazioni all'avanguardia di PhysVLM.
Proponiamo un algoritmo generale a due fasi che gode di una legge di scalabilità dimostrabile per il calcolo al momento del test di grandi modelli linguistici (LLM). Data un'istanza di input, l'algoritmo proposto genera innanzitutto N soluzioni candidate, per poi scegliere la migliore tramite un torneo a eliminazione a più turni in cui ciascuna coppia di candidati viene confrontata K volte e solo i vincitori passano al turno successivo. In un'implementazione minimalista, entrambe le fasi possono essere eseguite solo con un LLM a scatola nera e nient'altro (ad esempio, nessun verificatore esterno o modello di ricompensa), e sono necessarie un totale di N volte (K + 1) chiamate LLM altamente parallelizzabili per risolvere un problema di input. Supponendo che una soluzione candidata generata sia corretta con una probabilità p_{gen} > 0 e che un confronto tra una coppia di soluzioni corrette e incorrette identifichi il vincitore corretto con una probabilità p_{comp} > 0.5 (cioè meglio di un'ipotesi casuale), dimostriamo teoricamente che la probabilità di fallimento dell'algoritmo proposto decresce esponenzialmente rispetto a N e K: $P(l'output finale è incorretto) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}$. I nostri risultati empirici con il difficile benchmark MMLU-Pro convalidano le ipotesi tecniche, nonché l'efficacia dell'algoritmo proposto e i vantaggi derivanti dall'aumento della sua capacità di calcolo al momento del test.
Le attuali attività di navigazione degli obiettivi istanziati, basate sul corpo e guidate dal linguaggio naturale, presuppongono che gli utenti umani forniscono descrizioni complete e sfumate dell'istanza prima della navigazione, il che può essere impraticabile nel mondo reale poiché le istruzioni umane potrebbero essere brevi e ambigue. Per colmare questa lacuna, proponiamo un nuovo compito, Navigazione dell'Istanza Collaborativa (CoIN), con interazione dinamica agente-umano durante la navigazione per risolvere attivamente le incertezze sull'istanza di destinazione in dialoghi naturali, senza modelli predefiniti e aperti. Per affrontare CoIN, proponiamo un nuovo metodo, Interazione Agente-utente con Consapevolezza dell'Incertezza (AIUTA), sfruttando la capacità percettiva dei Modelli Linguaggio-Visione (VLM) e la capacità dei Grandi Modelli Linguistici (LLM). In primo luogo, dopo la rilevazione dell'oggetto, un modello Auto-Interrogatore avvia un auto-dialogo per ottenere una descrizione osservativa completa e accurata, mentre una nuova tecnica di stima dell'incertezza mitiga la percezione inaccurata del VLM. Successivamente, un modulo Trigger di Interazione determina se fare una domanda all'utente, continuare o interrompere la navigazione, riducendo al minimo l'input dell'utente. Per la valutazione, introduciamo CoIN-Bench, un benchmark che supporta sia utenti reali che simulati. AIUTA raggiunge prestazioni competitive nella navigazione delle istanze rispetto ai metodi all'avanguardia, dimostrando grande flessibilità nel gestire gli input degli utenti.
I recenti progressi nei modelli di diffusione hanno stabilito nuovi standard nella generazione di immagini e video, consentendo una sintesi visiva realistica attraverso contesti a singolo e multi-frame. Tuttavia, questi modelli faticano ancora a generare in modo efficiente ed esplicito contenuti 3D-coerenti. Per affrontare questo problema, proponiamo World-consistent Video Diffusion (WVD), un nuovo framework che incorpora una supervisione 3D esplicita utilizzando immagini XYZ, che codificano le coordinate globali 3D per ciascun pixel dell'immagine. Più specificamente, addestriamo un trasformatore di diffusione per apprendere la distribuzione congiunta di frame RGB e XYZ. Questo approccio supporta l'adattabilità multi-task tramite una strategia di inpainting flessibile. Ad esempio, WVD può stimare frame XYZ da RGB ground-truth o generare nuovi frame RGB utilizzando proiezioni XYZ lungo una traiettoria della telecamera specificata. In questo modo, WVD unifica compiti come la generazione da immagine singola a 3D, lo stereo multi-vista e la generazione di video controllati dalla telecamera. Il nostro approccio dimostra prestazioni competitive su diversi benchmark, fornendo una soluzione scalabile per la generazione di video e immagini coerenti in 3D con un singolo modello preaddestrato.
Fare analogie è fondamentale per la cognizione. Le analogie proporzionali, che consistono in quattro termini, sono spesso utilizzate per valutare le capacità linguistiche e cognitive. Ad esempio, completare analogie come "L'ossigeno è al gas come <vuoto> è al <vuoto>" richiede l'identificazione del rapporto semantico (ad esempio, "tipo di") tra la prima coppia di termini ("Ossigeno" e "Gas") e trovare una seconda coppia che condivida lo stesso rapporto (ad esempio, "Alluminio" e "Metallo"). In questo lavoro, presentiamo un dataset di domande a scelta multipla da 15K (MCQA) per il completamento di analogie proporzionali e valutiamo le prestazioni dei contemporanei Grandi Modelli Linguistici (LLM) in vari contesti di prompt potenziati dalla conoscenza. In particolare, arricchiamo i prompt con tre tipi di conoscenza: esemplare, strutturata e mirata. I nostri risultati mostrano che nonostante l'ampio training data, risolvere analogie proporzionali rimane una sfida per i LLM attuali, con il miglior modello che raggiunge un'accuratezza del 55%. In particolare, scopriamo che fornire conoscenze mirate può aiutare meglio i modelli nel completare analogie proporzionali rispetto a fornire esempi o collezioni di conoscenze strutturate.
Raggiungere un'allineamento preciso tra istruzioni testuali e immagini generate nella generazione testo-immagine è una sfida significativa, specialmente nel rendere il testo scritto all'interno delle immagini. Modelli all'avanguardia come Stable Diffusion 3 (SD3), Flux e AuraFlow faticano ancora con la rappresentazione accurata del testo, risultando in errori di ortografia o testo inconsistente. Introduciamo un metodo privo di addestramento con un minimo dispendio computazionale che migliora significativamente la qualità della resa del testo. In particolare, introduciamo un campionatore di sovrascorrimento per modelli di flusso rettificato (RF) preaddestrati, alternando tra sovrastimare l'equazione differenziale ordinaria (ODE) appresa e reintrodurre rumore. Rispetto al campionatore di Eulero, il campionatore di sovrascorrimento introduce efficacemente un termine di dinamica di Langevin aggiuntivo che può aiutare a correggere l'errore cumulativo dai successivi passaggi di Eulero e quindi migliorare la resa del testo. Tuttavia, quando la forza di sovrascorrimento è elevata, osserviamo artefatti di troppo levigamento sulle immagini generate. Per affrontare questo problema, proponiamo un campionatore di sovrascorrimento modulato dall'attenzione (AMO), che controlla in modo adattivo la forza di sovrascorrimento per ciascuna patch dell'immagine in base al loro punteggio di attenzione con il contenuto testuale. AMO dimostra un miglioramento del 32,3% e del 35,9% nell'accuratezza della resa del testo su SD3 e Flux senza compromettere la qualità complessiva dell'immagine o aumentare il costo di inferenza.
Negli ultimi decenni, gli algoritmi di guida autonoma hanno compiuto progressi significativi nella percezione, pianificazione e controllo. Tuttavia, valutare singoli componenti non riflette appieno le prestazioni dell'intero sistema, evidenziando la necessità di metodi di valutazione più olistici. Questo motiva lo sviluppo di HUGSIM, un simulatore chiuso, fotorealistico e in tempo reale per valutare gli algoritmi di guida autonoma. Questo obiettivo viene raggiunto sollevando immagini RGB 2D catturate nello spazio 3D tramite Splatting Gaussiano 3D, migliorando la qualità del rendering per scenari chiusi e costruendo l'ambiente chiuso. Per quanto riguarda il rendering, affrontiamo le sfide della sintesi di nuove viste in scenari chiusi, compresa l'estrapolazione del punto di vista e il rendering a 360 gradi dei veicoli. Oltre alla sintesi di nuove viste, HUGSIM consente inoltre il ciclo completo di simulazione chiusa, aggiornando dinamicamente gli stati dell'ego e degli attori e le osservazioni basate sui comandi di controllo. Inoltre, HUGSIM offre un benchmark completo su oltre 70 sequenze da KITTI-360, Waymo, nuScenes e PandaSet, insieme a oltre 400 scenari variabili, fornendo una piattaforma di valutazione equa e realistica per gli algoritmi di guida autonoma esistenti. HUGSIM non solo funge da benchmark di valutazione intuitivo, ma sblocca anche il potenziale per ottimizzare gli algoritmi di guida autonoma in un contesto fotorealistico a ciclo chiuso.
La rilevazione dei contenuti online abusivi, in particolare in contesti a bassa risorsa e all'interno della modalità audio, rimane poco esplorata. Indaghiamo il potenziale delle rappresentazioni audio pre-addestrate per rilevare linguaggio abusivo in lingue a bassa risorsa, in questo caso, nelle lingue indiane utilizzando l'Apprendimento con Pochi Esempi (FSL). Sfruttando rappresentazioni potenti da modelli come Wav2Vec e Whisper, esploriamo la rilevazione di abusi cross-linguistica utilizzando il dataset ADIMA con FSL. Il nostro approccio integra queste rappresentazioni all'interno del framework di Apprendimento Meta-Agnostico del Modello (MAML) per classificare linguaggio abusivo in 10 lingue. Sperimentiamo con varie dimensioni di esempi (50-200) valutando l'impatto dei dati limitati sulle prestazioni. Inoltre, è stata condotta una studio di visualizzazione delle caratteristiche per comprendere meglio il comportamento del modello. Questo studio evidenzia la capacità di generalizzazione dei modelli pre-addestrati in scenari a bassa risorsa e offre preziose intuizioni per rilevare linguaggio abusivo in contesti multilingue.
Un sistema di verifica del locutore (SV) offre un servizio di autenticazione progettato per confermare se un determinato campione vocale proviene da un locutore specifico. Questa tecnologia ha aperto la strada a varie applicazioni personalizzate che si adattano alle preferenze individuali. Una sfida significativa affrontata dai sistemi SV è la loro capacità di mantenere prestazioni costanti su una gamma di spettri emotivi. La maggior parte dei modelli esistenti mostra tassi di errore elevati nel trattare enunciati emotivi rispetto a quelli neutrali. Di conseguenza, questo fenomeno porta spesso a perdere discorsi di interesse. Questo problema deriva principalmente dalla limitata disponibilità di dati vocali emotivi etichettati, che ostacola lo sviluppo di rappresentazioni robuste dei locutori che comprendono diversi stati emotivi. Per affrontare questa preoccupazione, proponiamo un approccio innovativo che utilizza il framework CycleGAN come metodo di aumento dei dati. Questa tecnica sintetizza segmenti vocali emotivi per ciascun locutore specifico preservando l'identità vocale unica. I nostri risultati sperimentali sottolineano l'efficacia dell'incorporazione di dati emotivi sintetici nel processo di addestramento. I modelli addestrati utilizzando questo dataset aumentato superano costantemente i modelli di base nel compito di verificare i locutori in scenari di discorsi emotivi, riducendo il tasso di errore equivalente fino al 3,64% in termini relativi.