Articoli di ricerca IA selezionati quotidianamente con traduzioni
PaliGemma è un modello visione-linguaggio (VLM) open source basato sull'encoder visivo SigLIP-So400m e sul modello linguistico Gemma-2B. È addestrato per essere un modello di base versatile e ampiamente competente, efficace per il trasferimento di conoscenze. Raggiunge prestazioni solide in una vasta gamma di compiti nel mondo reale. Valutiamo PaliGemma su quasi 40 task diversi, inclusi benchmark standard per VLM, ma anche compiti più specializzati come il telerilevamento e la segmentazione.
I modelli linguistici di grandi dimensioni (LLMs) hanno dimostrato prestazioni eccezionali e un vasto potenziale in una varietà di compiti. Tuttavia, il dispiegamento di LLMs ad alte prestazioni in ambienti con risorse limitate ha attirato una significativa attenzione nel settore. Quando le risorse hardware delle GPU sono limitate, possiamo esplorare opzioni alternative sulle CPU. Per mitigare il peso finanziario e alleviare i vincoli imposti dalle risorse hardware, è necessario ottimizzare le prestazioni di inferenza. In questo articolo, introduciamo una soluzione di ottimizzazione delle prestazioni di inferenza facilmente implementabile, mirata ad accelerare gli LLMs sulle CPU. In questa soluzione, implementiamo un metodo efficace per ridurre la dimensione della cache KV mantenendo la precisione. Proponiamo un approccio di ottimizzazione dell'inferenza distribuita e lo implementiamo basandoci sulla oneAPI Collective Communications Library. Inoltre, proponiamo approcci di ottimizzazione per gli LLMs su CPU e conduciamo ottimizzazioni personalizzate per i modelli più comunemente utilizzati. Il codice è open-source su https://github.com/intel/xFasterTransformer.
Il tuning delle istruzioni visive ha compiuto progressi significativi nel potenziare le capacità dei Modelli Multimodali di Grande Scala (LMM). Tuttavia, gli attuali LMM open si concentrano principalmente su attività relative a singole immagini, lasciando poco esplorato il loro utilizzo in scenari multi-immagine. Inoltre, le ricerche precedenti sugli LMM affrontano separatamente diversi scenari, rendendo impossibile generalizzare le capacità emergenti tra contesti diversi. A tal fine, introduciamo LLaVA-NeXT-Interleave, che affronta simultaneamente scenari multi-immagine, multi-frame (video), multi-vista (3D) e multi-patch (singola immagine) negli LMM. Per abilitare queste capacità, consideriamo il formato dati intervallato come un modello generale e compiliamo il dataset M4-Instruct con 1.177,6k campioni, coprendo 4 domini principali con 14 task e 41 dataset. Abbiamo inoltre curato il LLaVA-Interleave Bench per valutare in modo completo le prestazioni multi-immagine degli LMM. Attraverso esperimenti estesi, LLaVA-NeXT-Interleave ottiene risultati leader nei benchmark multi-immagine, video e 3D, mantenendo al contempo le prestazioni nelle attività su singola immagine. Inoltre, il nostro modello mostra diverse capacità emergenti, come il trasferimento di task tra impostazioni e modalità diverse. Il codice è disponibile all'indirizzo https://github.com/LLaVA-VL/LLaVA-NeXT.
Presentiamo 4DiM, un modello di diffusione a cascata per la sintesi di nuove viste 4D (NVS), condizionato su una o più immagini di una scena generica, insieme a un insieme di pose della telecamera e timestamp. Per superare le sfide legate alla limitata disponibilità di dati di addestramento 4D, proponiamo un addestramento congiunto su dati 3D (con pose della telecamera), 4D (pose+tempo) e video (tempo ma senza pose) e introduciamo una nuova architettura che lo rende possibile. Inoltre, sosteniamo la calibrazione dei dati con pose SfM utilizzando stimatori di profondità metrica monoculare per il controllo della scala metrica della telecamera. Per la valutazione del modello, introduciamo nuove metriche per arricchire e superare le carenze degli schemi di valutazione attuali, dimostrando risultati all'avanguardia sia in termini di fedeltà che di controllo delle pose rispetto ai modelli di diffusione esistenti per la NVS 3D, aggiungendo al contempo la capacità di gestire dinamiche temporali. 4DiM viene anche utilizzato per migliorare il stitching di panorami, la traduzione video a video condizionata alla pose e diverse altre attività. Per una panoramica, consultare https://4d-diffusion.github.io.
La generazione di contenuti audio semanticamente e temporalmente allineati in base a input video è diventata un punto focale per i ricercatori, in particolare dopo il notevole progresso nella generazione di video da testo. In questo lavoro, miriamo a offrire approfondimenti sul paradigma di generazione audio da video, concentrandoci su tre aspetti cruciali: encoder visivi, embedding ausiliari e tecniche di aumento dei dati. Partendo da un modello di base, VTA-LDM, costruito su un'intuizione semplice ma sorprendentemente efficace, esploriamo vari encoder visivi e embedding ausiliari attraverso studi di ablazione. Utilizzando una pipeline di valutazione completa che enfatizza la qualità della generazione e l'allineamento della sincronizzazione video-audio, dimostriamo che il nostro modello mostra capacità all'avanguardia nella generazione audio da video. Inoltre, forniamo approfondimenti critici sull'impatto di diversi metodi di aumento dei dati nel potenziare la capacità complessiva del framework di generazione. Mostriamo possibilità per avanzare nella sfida di generare audio sincronizzato da prospettive semantiche e temporali. Speriamo che questi approfondimenti possano servire come trampolino di lancio per lo sviluppo di modelli di generazione audio-visiva più realistici e accurati.
Presentiamo VEnhancer, un framework generativo di miglioramento spazio-temporale che migliora i risultati esistenti di text-to-video aggiungendo maggiori dettagli nel dominio spaziale e movimenti sintetici dettagliati nel dominio temporale. Dato un video generato di bassa qualità, il nostro approccio è in grado di aumentarne simultaneamente la risoluzione spaziale e temporale con scale di up-sampling arbitrarie nello spazio e nel tempo attraverso un modello unificato di diffusione video. Inoltre, VEnhancer rimuove efficacemente gli artefatti spaziali generati e lo sfarfallio temporale dei video generati. Per raggiungere questo obiettivo, basandoci su un modello di diffusione video pre-addestrato, addestriamo un video ControlNet e lo iniettiamo nel modello di diffusione come condizione su video a basso frame-rate e bassa risoluzione. Per addestrare efficacemente questo video ControlNet, progettiamo un aumento dei dati spazio-temporale nonché un condizionamento consapevole del video. Grazie a queste scelte progettuali, VEnhancer risulta stabile durante l'addestramento e condivide un elegante approccio end-to-end. Esperimenti estensivi dimostrano che VEnhancer supera i metodi esistenti all'avanguardia per la super-risoluzione video e la super-risoluzione spazio-temporale nel miglioramento dei video generati dall'IA. Inoltre, con VEnhancer, il metodo open-source all'avanguardia per il text-to-video, VideoCrafter-2, raggiunge la prima posizione nel benchmark di generazione video -- VBench.
La personalizzazione dei modelli text-to-image (T2I) ha registrato progressi significativi di recente, in particolare in aree come la personalizzazione, la stilizzazione e la generazione condizionata. Tuttavia, estendere questi progressi alla generazione di video è ancora agli inizi, principalmente a causa della mancanza di dati video personalizzati. In questo lavoro, introduciamo Still-Moving, un nuovo framework generico per personalizzare un modello text-to-video (T2V), senza richiedere alcun dato video personalizzato. Il framework si applica al design T2V più diffuso, in cui il modello video è costruito su un modello text-to-image (T2I) (ad esempio, tramite inflazione). Assumiamo di avere accesso a una versione personalizzata del modello T2I, addestrata solo su dati di immagini statiche (ad esempio, utilizzando DreamBooth o StyleDrop). Inserire semplicemente i pesi del modello T2I personalizzato nel modello T2V spesso porta a significativi artefatti o a un'adesione insufficiente ai dati di personalizzazione. Per superare questo problema, addestriamo Spatial Adapters leggeri che regolano le caratteristiche prodotte dagli strati T2I iniettati. È importante sottolineare che i nostri adattatori vengono addestrati su "video congelati" (cioè immagini ripetute), costruiti a partire da campioni di immagini generati dal modello T2I personalizzato. Questo addestramento è facilitato da un nuovo modulo Motion Adapter, che ci permette di addestrarci su tali video statici preservando il prior di movimento del modello video. Al momento del test, rimuoviamo i moduli Motion Adapter e lasciamo solo i Spatial Adapters addestrati. Questo ripristina il prior di movimento del modello T2V mantenendo l'adesione al prior spaziale del modello T2I personalizzato. Dimostriamo l'efficacia del nostro approccio su diverse attività, tra cui la generazione personalizzata, stilizzata e condizionata. In tutti gli scenari valutati, il nostro metodo integra perfettamente il prior spaziale del modello T2I personalizzato con un prior di movimento fornito dal modello T2V.
Si dice che i modelli linguistici preaddestrati su larga scala (LM) "mancano della capacità di collegare gli enunciati al mondo" (Bender e Koller, 2020), poiché non possiedono "modelli mentali del mondo" (Mitchell e Krakauer, 2023). Se così fosse, ci si aspetterebbe che le rappresentazioni dei LM non siano correlate alle rappresentazioni indotte dai modelli visivi. Presentiamo una valutazione empirica su quattro famiglie di LM (BERT, GPT-2, OPT e LLaMA-2) e tre architetture di modelli visivi (ResNet, SegFormer e MAE). I nostri esperimenti dimostrano che i LM convergono parzialmente verso rappresentazioni isomorfe a quelle dei modelli visivi, soggette a dispersione, polisemia e frequenza. Ciò ha importanti implicazioni sia per l'elaborazione multimodale che per il dibattito sulla comprensione dei LM (Mitchell e Krakauer, 2023).
I modelli esistenti di apprendimento contrastivo visione-testo migliorano la trasferibilità delle rappresentazioni e supportano la previsione zero-shot abbinando gli embedding di immagini e didascalie mentre allontanano le coppie non correlate. Tuttavia, i dataset di immagini ed etichette astronomiche sono significativamente più piccoli rispetto ai dataset generali di immagini ed etichette disponibili su internet. Introduciamo CosmoCLIP, un framework di apprendimento contrastivo immagine-testo astronomico precisamente ottimizzato sul modello CLIP pre-addestrato utilizzando didascalie basate su SpaceNet e BLIP. SpaceNet, ottenuto tramite FLARE, costituisce circa 13k immagini distribuite in modo ottimale, mentre BLIP funge da estrattore di conoscenza ricco. La semantica ricavata da queste descrizioni di SpaceNet e BLIP, quando appresa in modo contrastivo, consente a CosmoCLIP di ottenere una generalizzazione superiore in vari task in-dominio e out-of-dominio. I nostri risultati dimostrano che CosmoCLIP è un framework semplice ma potente, che supera significativamente CLIP nei task di classificazione zero-shot e di recupero immagine-testo.
In questo articolo consideriamo la contaminazione dei set di test per la generazione di codice, in particolare nel loro utilizzo nei moderni modelli linguistici di grandi dimensioni. Discutiamo tre possibili fonti di tale contaminazione e presentiamo risultati che supportano ciascuna di esse: (i) perdita diretta di dati, (ii) perdita indiretta di dati attraverso l'uso di dati sintetici e (iii) overfitting ai set di valutazione durante la selezione del modello. Fondamentale per i nostri risultati è un nuovo dataset composto da 161 prompt con le relative soluzioni in Python, dataset che è stato rilasciato all'indirizzo https://huggingface.co/datasets/CohereForAI/lbpp.
Proponiamo un metodo di apprendimento per robot che consente di comunicare, pianificare ed eseguire un'ampia gamma di compiti, denominato This&That. Raggiungiamo la pianificazione robotica per compiti generali sfruttando la potenza dei modelli generativi di video addestrati su dati di scala internet contenenti un ricco contesto fisico e semantico. In questo lavoro, affrontiamo tre sfide fondamentali nella pianificazione basata su video: 1) comunicazione inequivocabile dei compiti con semplici istruzioni umane, 2) generazione controllata di video che rispetti le intenzioni dell'utente, e 3) traduzione della pianificazione visiva in azioni robotiche. Proponiamo un condizionamento basato su linguaggio e gesti per generare video, che risulta sia più semplice che più chiaro rispetto ai metodi esistenti basati solo sul linguaggio, specialmente in ambienti complessi e incerti. Successivamente, suggeriamo un design di clonazione comportamentale che incorpora in modo fluido i piani video. This&That dimostra un'efficacia all'avanguardia nell'affrontare le tre sfide sopra menzionate e giustifica l'uso della generazione di video come rappresentazione intermedia per la pianificazione e l'esecuzione generalizzabile dei compiti. Sito web del progetto: https://cfeng16.github.io/this-and-that/.
L'addestramento di un classificatore su dati raccolti dal web richiede algoritmi di apprendimento robusti agli errori di annotazione e agli esempi irrilevanti. Questo articolo si basa sulla recente osservazione empirica che l'applicazione dell'apprendimento contrastivo non supervisionato a dataset rumorosi e raccolti dal web produce una rappresentazione delle caratteristiche in cui i campioni in-distribuzione (ID) e out-of-distribution (OOD) sono linearmente separabili. Dimostriamo che la stima diretta dell'iperpiano separatore può effettivamente offrire un rilevamento accurato dei campioni OOD, eppure, sorprendentemente, questo rilevamento non si traduce in miglioramenti nell'accuratezza della classificazione. Approfondendo questo fenomeno, scopriamo che il rilevamento quasi perfetto trascura un tipo di esempi puliti che sono preziosi per l'apprendimento supervisionato. Questi esempi rappresentano spesso immagini visivamente semplici, che sono relativamente facili da identificare come esempi puliti utilizzando metodi standard basati su perdita o distanza, nonostante siano scarsamente separati dalla distribuzione OOD utilizzando l'apprendimento non supervisionato. Poiché osserviamo inoltre una bassa correlazione con le metriche SOTA, questo ci spinge a proporre una soluzione ibrida che alterna il rilevamento del rumore utilizzando la separazione lineare e un approccio small-loss all'avanguardia (SOTA). Quando combinato con l'algoritmo SOTA PLS, miglioriamo sostanzialmente i risultati SOTA per la classificazione di immagini real-world in presenza di rumore web github.com/PaulAlbert31/LSA.
La Generazione del Movimento della Folla è essenziale nei settori dell'intrattenimento come l'animazione e i giochi, nonché in ambiti strategici come la simulazione e la pianificazione urbana. Questo nuovo compito richiede un'integrazione complessa di controllo e generazione per sintetizzare in modo realistico le dinamiche della folla sotto specifici vincoli spaziali e semantici, le cui sfide devono ancora essere completamente esplorate. Da un lato, i modelli esistenti per la generazione del movimento umano si concentrano tipicamente sui comportamenti individuali, trascurando le complessità dei comportamenti collettivi. Dall'altro, i metodi recenti per la generazione del movimento multi-persona dipendono fortemente da scenari predefiniti e sono limitati a un numero fisso e ridotto di interazioni interpersonali, limitandone così la praticità. Per superare queste sfide, introduciamo CrowdMoGen, un framework guidato da testo zero-shot che sfrutta la potenza dei Large Language Model (LLM) per incorporare l'intelligenza collettiva nel framework di generazione del movimento come guida, consentendo così una pianificazione e generazione generalizzabile dei movimenti della folla senza dati di training accoppiati. Il nostro framework è composto da due componenti chiave: 1) il Pianificatore della Scena della Folla, che impara a coordinare i movimenti e le dinamiche in base a contesti specifici della scena o a perturbazioni introdotte, e 2) il Generatore di Movimento Collettivo, che sintetizza in modo efficiente i movimenti collettivi richiesti basandosi su piani olistici. Esperimenti quantitativi e qualitativi estesi hanno validato l'efficacia del nostro framework, che non solo colma una lacuna critica fornendo soluzioni scalabili e generalizzabili per il compito di Generazione del Movimento della Folla, ma raggiunge anche alti livelli di realismo e flessibilità.
Presentiamo BiGym, un nuovo benchmark e ambiente di apprendimento per la manipolazione robotica bi-manuale mobile guidata da dimostrazioni. BiGym include 40 task diversificati ambientati in contesti domestici, che spaziano dal semplice raggiungimento di un obiettivo alla complessa pulizia della cucina. Per catturare accuratamente le prestazioni nel mondo reale, forniamo dimostrazioni raccolte da esseri umani per ciascun task, riflettendo le diverse modalità presenti nelle traiettorie dei robot reali. BiGym supporta una varietà di osservazioni, inclusi dati propriocettivi e input visivi come RGB e profondità da 3 punti di vista della telecamera. Per validare l'usabilità di BiGym, testiamo approfonditamente gli algoritmi di apprendimento per imitazione all'avanguardia e gli algoritmi di apprendimento per rinforzo guidati da dimostrazioni all'interno dell'ambiente e discutiamo le future opportunità.