Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante la rapida crescita della ricerca nel campo del machine learning, le corrispondenti implementazioni di codice sono spesso non disponibili, rendendo lento e laborioso per i ricercatori riprodurre i risultati e costruire sul lavoro precedente. Nel frattempo, i recenti Modelli Linguistici di Grande Dimensione (LLM) eccellono nella comprensione di documenti scientifici e nella generazione di codice di alta qualità. Ispirati da ciò, introduciamo PaperCoder, un framework multi-agente basato su LLM che trasforma articoli di machine learning in repository di codice funzionali. PaperCoder opera in tre fasi: pianificazione, in cui costruisce una roadmap di alto livello, progetta l'architettura del sistema con diagrammi, identifica le dipendenze dei file e genera file di configurazione; analisi, che si concentra sull'interpretazione dei dettagli specifici dell'implementazione; e generazione, in cui viene prodotto codice modulare e consapevole delle dipendenze. Inoltre, ogni fase è istanziata attraverso un insieme di agenti specializzati progettati per collaborare efficacemente lungo la pipeline. Valutiamo quindi PaperCoder sulla generazione di implementazioni di codice da articoli di machine learning basandoci sia su valutazioni basate su modelli che su valutazioni umane, in particolare da parte degli autori originali degli articoli, con i repository rilasciati dagli autori come verità di riferimento se disponibili. I nostri risultati dimostrano l'efficacia di PaperCoder nel creare implementazioni di alta qualità e fedeli. Inoltre, mostra costantemente punti di forza nel benchmark PaperBench recentemente rilasciato, superando i forti baseline con margini sostanziali.
Negli ultimi anni, i modelli di editing di immagini hanno assistito a uno sviluppo notevole e rapido. Il recente lancio di modelli multimodali all'avanguardia come GPT-4o e Gemini2 Flash ha introdotto capacità di editing di immagini altamente promettenti. Questi modelli dimostrano un'impressionante attitudine a soddisfare la maggior parte delle esigenze di editing guidate dall'utente, segnando un significativo progresso nel campo della manipolazione delle immagini. Tuttavia, esiste ancora un ampio divario tra gli algoritmi open-source e questi modelli closed-source. Pertanto, in questo articolo, ci proponiamo di rilasciare un modello di editing di immagini all'avanguardia, chiamato Step1X-Edit, in grado di fornire prestazioni comparabili a quelle dei modelli closed-source come GPT-4o e Gemini2 Flash. Nello specifico, adottiamo un LLM multimodale per elaborare l'immagine di riferimento e le istruzioni di editing dell'utente. Un embedding latente viene estratto e integrato con un decoder di immagini basato su diffusione per ottenere l'immagine target. Per addestrare il modello, abbiamo costruito una pipeline di generazione dati per produrre un dataset di alta qualità. Per la valutazione, abbiamo sviluppato GEdit-Bench, un nuovo benchmark basato su istruzioni reali degli utenti. I risultati sperimentali su GEdit-Bench dimostrano che Step1X-Edit supera i baseline open-source esistenti con un margine sostanziale e si avvicina alle prestazioni dei principali modelli proprietari, contribuendo in modo significativo al campo dell'editing di immagini.
La generazione di immagini da testo guidata da soggetto (T2I) mira a produrre immagini che si allineano a una descrizione testuale data, preservando al contempo l'identità visiva di un'immagine di riferimento. Nonostante la sua ampia applicabilità in contesti downstream, che spazia dalla personalizzazione avanzata nella generazione di immagini alla rappresentazione coerente di personaggi nel rendering video, i progressi in questo campo sono limitati dalla mancanza di una valutazione automatica affidabile. I metodi esistenti valutano solo un aspetto del compito (ad esempio, l'allineamento testuale o la preservazione del soggetto), non si allineano ai giudizi umani o si basano su valutazioni costose basate su API. Per affrontare questo problema, introduciamo RefVNLI, una metrica economica che valuta sia l'allineamento testuale che la preservazione del soggetto in una singola previsione. Addestrato su un ampio dataset derivato da benchmark di ragionamento video e perturbazioni di immagini, RefVNLI supera o eguaglia le baseline esistenti su più benchmark e categorie di soggetti (ad esempio, Animali, Oggetti), raggiungendo miglioramenti fino a 6,4 punti nell'allineamento testuale e 8,5 punti nella coerenza del soggetto. Eccelle anche con concetti meno noti, allineandosi alle preferenze umane con un'accuratezza superiore all'87%.
Il framework Contrastive Language-Image Pre-training (CLIP) è diventato un approccio ampiamente utilizzato per l'apprendimento di rappresentazioni multimodali, in particolare nel recupero e clustering di immagini e testi. Tuttavia, la sua efficacia è limitata da tre principali criticità: (1) troncamento dei token testuali, (2) codifica isolata di immagini e testi, e (3) carenza di composizionalità dovuta a un comportamento di tipo "bag-of-words". Sebbene i recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano dimostrato significativi progressi nella comprensione generalizzata di visione e linguaggio, il loro potenziale per l'apprendimento di rappresentazioni multimodali trasferibili rimane ancora poco esplorato. In questo lavoro, presentiamo UniME (Universal Multimodal Embedding), un innovativo framework a due stadi che sfrutta gli MLLMs per apprendere rappresentazioni discriminative per una varietà di task downstream. Nella prima fase, eseguiamo una distillazione di conoscenza discriminativa testuale da un potente modello insegnante basato su LLM per potenziare la capacità di embedding del componente linguistico dell'MLLM. Nella seconda fase, introduciamo un'ottimizzazione delle istruzioni potenziata con negativi difficili per ulteriormente avanzare l'apprendimento di rappresentazioni discriminative. Nello specifico, inizialmente mitigiamo la contaminazione da falsi negativi e poi campioniamo più negativi difficili per ogni istanza all'interno di ciascun batch, costringendo il modello a concentrarsi su campioni complessi. Questo approccio non solo migliora il potere discriminativo, ma potenzia anche la capacità di seguire le istruzioni nei task downstream. Abbiamo condotto esperimenti estensivi sul benchmark MMEB e su molteplici task di recupero, inclusi il recupero di didascalie brevi e lunghe e il recupero composizionale. I risultati dimostrano che UniME ottiene un miglioramento delle prestazioni coerente in tutti i task, mostrando capacità discriminative e composizionali superiori.
Presentiamo un framework per il ragionamento consapevole della prospettiva nei modelli visione-linguaggio (VLMs) attraverso la simulazione di immagini mentali. L'assunzione di prospettiva, ovvero la capacità di percepire un ambiente o una situazione da un punto di vista alternativo, rappresenta un parametro fondamentale per la comprensione visiva di livello umano, essenziale per l'interazione con l'ambiente e la collaborazione con agenti autonomi. Nonostante i progressi nel ragionamento spaziale all'interno dei VLMs, ricerche recenti hanno dimostrato che i moderni VLMs presentano una significativa carenza nelle capacità di ragionamento consapevole della prospettiva e mostrano una forte tendenza verso interpretazioni egocentriche. Per colmare il divario tra i VLMs e la percezione umana, ci concentriamo sul ruolo delle immagini mentali, attraverso le quali gli esseri umani percepiscono il mondo mediante rappresentazioni astratte che facilitano i cambiamenti di prospettiva. Motivati da ciò, proponiamo un framework per il ragionamento consapevole della prospettiva, denominato Abstract Perspective Change (APC), che sfrutta efficacemente modelli di base per la visione, come il rilevamento di oggetti, la segmentazione e la stima dell'orientamento, per costruire astrazioni di scene e abilitare trasformazioni prospettiche. I nostri esperimenti su benchmark sintetici e con immagini reali, confrontati con vari VLMs, dimostrano significativi miglioramenti nel ragionamento consapevole della prospettiva con il nostro framework, superando ulteriormente modelli di ragionamento spaziale ottimizzati e approcci basati sulla sintesi di nuove viste.
Con l'avvento di dataset 3D su larga scala, i modelli generativi 3D feed-forward, come il Large Reconstruction Model (LRM), hanno attirato notevole attenzione e ottenuto successi significativi. Tuttavia, osserviamo che le immagini RGB spesso portano a obiettivi di addestramento conflittuali e mancano della chiarezza necessaria per la ricostruzione della geometria. In questo articolo, esaminiamo nuovamente i bias induttivi associati alla ricostruzione di mesh e introduciamo DiMeR, un nuovo modello feed-forward a doppio flusso disaccoppiato per la ricostruzione di mesh da viste sparse. L'idea chiave è disaccoppiare sia l'input che il framework in parti di geometria e texture, riducendo così la difficoltà di addestramento per ciascuna parte secondo il principio del Rasoio di Occam. Dato che le mappe normali sono strettamente coerenti con la geometria e catturano accuratamente le variazioni superficiali, utilizziamo le mappe normali come input esclusivo per il ramo di geometria per ridurre la complessità tra l'input e l'output della rete. Inoltre, miglioriamo l'algoritmo di estrazione della mesh per introdurre una supervisione ground truth 3D. Per quanto riguarda il ramo di texture, utilizziamo immagini RGB come input per ottenere la mesh texturizzata. Nel complesso, DiMeR dimostra capacità robuste in varie attività, tra cui la ricostruzione da viste sparse, la generazione 3D da singola immagine e la generazione 3D da testo. Numerosi esperimenti mostrano che DiMeR supera significativamente i metodi precedenti, ottenendo un miglioramento di oltre il 30% nella distanza di Chamfer sui dataset GSO e OmniObject3D.
I modelli autoregressivi (AR), da tempo dominanti nella generazione del linguaggio, vengono sempre più applicati alla sintesi di immagini, ma sono spesso considerati meno competitivi rispetto ai modelli basati su Diffusion. Una limitazione principale è il numero sostanziale di token di immagine richiesti dai modelli AR, che vincola sia l'efficienza di addestramento e inferenza, sia la risoluzione delle immagini. Per affrontare questo problema, presentiamo Token-Shuffle, un metodo nuovo ma semplice che riduce il numero di token di immagine nei Transformer. La nostra intuizione chiave è la ridondanza dimensionale dei vocabolari visivi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), dove i codici visivi a bassa dimensionalità provenienti dall'encoder visivo sono mappati direttamente su vocabolari linguistici ad alta dimensionalità. Sfruttando ciò, consideriamo due operazioni chiave: token-shuffle, che unisce token locali spazialmente lungo la dimensione del canale per ridurre il numero di token di input, e token-unshuffle, che separa i token inferiti dopo i blocchi Transformer per ripristinare la disposizione spaziale per l'output. Addestrando congiuntamente con prompt testuali, la nostra strategia non richiede un text-encoder pre-addestrato aggiuntivo e consente agli MLLMs di supportare la sintesi di immagini a risoluzione estremamente elevata in un modo unificato di previsione del token successivo, mantenendo un addestramento e un'inferenza efficienti. Per la prima volta, spingiamo il limite della generazione di immagini da testo AR a una risoluzione di 2048x2048 con prestazioni di generazione soddisfacenti. Nel benchmark GenAI, il nostro modello da 2.7B raggiunge un punteggio complessivo di 0.77 su prompt difficili, superando i modelli AR LlamaGen di 0.18 e i modelli diffusion LDM di 0.15. Valutazioni umane su larga scala e approfondite dimostrano anche la nostra capacità di generazione di immagini in termini di allineamento al testo, difetti visivi e aspetto visivo. Speriamo che Token-Shuffle possa servire come un design fondamentale per la generazione efficiente di immagini ad alta risoluzione all'interno degli MLLMs.
La qualità e la diversità sono due metriche cruciali per i dati di addestramento dei grandi modelli linguistici (LLM), con un impatto positivo sulle prestazioni. Gli studi esistenti spesso ottimizzano queste metriche separatamente, tipicamente applicando prima un filtraggio per qualità e poi regolando le proporzioni dei dati. Tuttavia, questi approcci trascurano il compromesso intrinseco tra qualità e diversità, rendendo necessaria una loro considerazione congiunta. Dato un limite fisso di addestramento, è essenziale valutare sia la qualità di ogni punto dati sia il suo effetto complementare sull'intero dataset. In questo articolo, introduciamo un framework unificato per la selezione dei dati chiamato QuaDMix, che ottimizza automaticamente la distribuzione dei dati per il pre-addestramento degli LLM bilanciando sia la qualità che la diversità. Nello specifico, proponiamo prima diversi criteri per misurare la qualità dei dati e utilizziamo la classificazione per dominio per distinguere i punti dati, misurando così la diversità complessiva. QuaDMix impiega quindi una funzione di campionamento dati parametrica unificata che determina la probabilità di campionamento di ogni punto dati in base a queste etichette relative a qualità e diversità. Per accelerare la ricerca dei parametri ottimali coinvolti nel framework QuaDMix, conduciamo esperimenti simulati su modelli più piccoli e utilizziamo LightGBM per la ricerca dei parametri, ispirandoci al metodo RegMix. I nostri esperimenti su vari modelli e dataset dimostrano che QuaDMix raggiunge un miglioramento medio delle prestazioni del 7,2% su più benchmark. Questi risultati superano le strategie indipendenti per qualità e diversità, evidenziando la necessità e la capacità di bilanciare qualità e diversità dei dati.
Il video try-on sostituisce gli abiti nei video con capi di abbigliamento target. I metodi esistenti faticano a generare risultati di alta qualità e temporalmente coerenti quando si tratta di gestire modelli di abbigliamento complessi e pose corporee diverse. Presentiamo 3DV-TON, un nuovo framework basato su diffusione per generare risultati di video try-on ad alta fedeltà e temporalmente coerenti. Il nostro approccio utilizza mesh 3D animate e texture generate come guida esplicita a livello di fotogramma, alleviando il problema dei modelli che si concentrano eccessivamente sulla fedeltà dell'aspetto a scapito della coerenza del movimento. Ciò è ottenuto consentendo un riferimento diretto ai movimenti coerenti della texture del capo lungo le sequenze video. Il metodo proposto include una pipeline adattativa per generare una guida 3D dinamica: (1) selezione di un fotogramma chiave per un iniziale try-on 2D dell'immagine, seguito da (2) ricostruzione e animazione di una mesh 3D texture sincronizzata con le pose originali del video. Introduciamo inoltre una robusta strategia di mascheramento rettangolare che mitiga con successo la propagazione di artefatti causata dalla fuoriuscita di informazioni sull'abbigliamento durante i movimenti dinamici del corpo e del capo. Per avanzare la ricerca sul video try-on, presentiamo HR-VVT, un dataset di riferimento ad alta risoluzione contenente 130 video con diversi tipi di abbigliamento e scenari. I risultati quantitativi e qualitativi dimostrano la nostra performance superiore rispetto ai metodi esistenti. La pagina del progetto è disponibile al seguente link: https://2y7c3.github.io/3DV-TON/
I verificatori passo-passo -- noti anche come modelli di ricompensa basati sul processo (PRM) -- rappresentano un ingrediente chiave per il ridimensionamento durante il test. I PRM richiedono una supervisione a livello di passaggio, rendendoli costosi da addestrare. Questo lavoro mira a costruire PRM efficienti dal punto di vista dei dati come modelli di ricompensa verbali passo-passo che verificano ogni fase della soluzione generando una catena di pensiero (CoT) di verifica. Proponiamo ThinkPRM, un verificatore a lunga CoT fine-tunato su un numero di etichette di processo significativamente inferiore rispetto a quello richiesto dai PRM discriminativi. Il nostro approccio sfrutta le capacità di ragionamento intrinseche dei modelli a lunga CoT e supera sia i giudizi basati su LLM (LLM-as-a-Judge) che i verificatori discriminativi -- utilizzando solo l'1% delle etichette di processo in PRM800K -- su diversi benchmark impegnativi. Nello specifico, ThinkPRM batte i baseline su ProcessBench, MATH-500 e AIME '24 sia nella selezione best-of-N che nella ricerca guidata dalla ricompensa. In una valutazione fuori dominio su un sottoinsieme di GPQA-Diamond e LiveCodeBench, il nostro PRM supera i verificatori discriminativi addestrati sull'intero PRM800K rispettivamente dell'8% e del 4,5%. Infine, con lo stesso budget di token, ThinkPRM scala il calcolo di verifica in modo più efficace rispetto a LLM-as-a-Judge, superandolo del 7,2% su un sottoinsieme di ProcessBench. Il nostro lavoro evidenzia il valore dei PRM generativi a lunga CoT, che possono scalare il calcolo di verifica durante il test richiedendo una supervisione minima per l'addestramento. Il nostro codice, i dati e i modelli saranno rilasciati su https://github.com/mukhal/thinkprm.
I modelli di diffusione latente (LDMs) dominano la generazione di immagini di alta qualità, tuttavia l'integrazione dell'apprendimento di rappresentazioni con la modellazione generativa rimane una sfida. Introduciamo un nuovo framework di modellazione generativa di immagini che colma in modo fluido questo divario sfruttando un modello di diffusione per modellare congiuntamente latenti di basso livello (da un autoencoder variazionale) e caratteristiche semantiche di alto livello (da un encoder pre-addestrato auto-supervisionato come DINO). Il nostro approccio di diffusione latente-semantica impara a generare coppie immagine-caratteristica coerenti partendo da rumore puro, migliorando significativamente sia la qualità generativa che l'efficienza dell'addestramento, tutto ciò richiedendo solo modifiche minime alle architetture standard dei Transformer di diffusione. Eliminando la necessità di complessi obiettivi di distillazione, il nostro design unificato semplifica l'addestramento e sblocca una nuova potente strategia di inferenza: la Guida di Rappresentazione, che sfrutta le semantiche apprese per orientare e affinare la generazione di immagini. Valutato sia in contesti condizionali che non condizionali, il nostro metodo offre miglioramenti sostanziali nella qualità delle immagini e nella velocità di convergenza dell'addestramento, stabilendo una nuova direzione per la modellazione generativa consapevole delle rappresentazioni.
Presentiamo DyMU, un framework efficiente e privo di addestramento che riduce dinamicamente il carico computazionale dei modelli visione-linguaggio (VLMs) mantenendo elevate prestazioni nelle attività. Il nostro approccio comprende due componenti chiave. Innanzitutto, il Dynamic Token Merging (DToMe) riduce il numero di embedding di token visivi unendo token simili in base alla complessità dell'immagine, affrontando l'inefficienza intrinseca degli output a lunghezza fissa nei vision transformer. In secondo luogo, il Virtual Token Unmerging (VTU) simula la sequenza di token attesa per i grandi modelli linguistici (LLMs) ricostruendo in modo efficiente le dinamiche di attenzione di una sequenza completa, preservando così le prestazioni a valle senza ulteriori operazioni di fine-tuning. A differenza dei metodi precedenti, il nostro approccio adatta dinamicamente la compressione dei token al contenuto dell'immagine e opera completamente senza addestramento, rendendolo immediatamente applicabile alla maggior parte delle architetture VLM all'avanguardia. Esperimenti estesi su compiti di comprensione di immagini e video dimostrano che DyMU può ridurre il numero medio di token visivi del 32%-85% raggiungendo prestazioni comparabili ai modelli a lunghezza completa su diverse architetture VLM, inclusi i recenti encoder visivi basati su AnyRes. Inoltre, attraverso analisi qualitative, dimostriamo che DToMe adatta efficacemente la riduzione dei token in base alla complessità dell'immagine e, a differenza dei sistemi esistenti, offre agli utenti un maggiore controllo sui costi computazionali. Pagina del progetto: https://mikewangwzhl.github.io/dymu/.
La rapida crescita delle piattaforme video online, in particolare dei servizi di live streaming, ha creato un'esigenza urgente di sistemi di comprensione video in tempo reale. Questi sistemi devono elaborare flussi video continui e rispondere alle query degli utenti istantaneamente, presentando sfide uniche per gli attuali Modelli Linguistici di Grande Dimensione per Video (VideoLLM). Mentre i VideoLLM esistenti eccellono nell'elaborazione di video completi, affrontano limitazioni significative negli scenari di streaming a causa della loro incapacità di gestire in modo efficiente frame densi e ridondanti. Introduciamo TimeChat-Online, un innovativo VideoLLM online che rivoluziona l'interazione video in tempo reale. Al suo cuore si trova il nostro innovativo modulo Differential Token Drop (DTD), che affronta la sfida fondamentale della ridondanza visiva nei video in streaming. Traendo ispirazione dal fenomeno del Change Blindness nella percezione visiva umana, il DTD preserva i cambiamenti temporali significativi filtrando i contenuti statici e ridondanti tra i frame. In modo notevole, i nostri esperimenti dimostrano che il DTD raggiunge una riduzione dell'82,8% nei token video mantenendo il 98% delle prestazioni su StreamingBench, rivelando che oltre l'80% del contenuto visivo nei video in streaming è naturalmente ridondante senza richiedere una guida linguistica. Per abilitare un'interazione in tempo reale senza soluzione di continuità, presentiamo TimeChat-Online-139K, un dataset completo di video in streaming che include diversi modelli di interazione, tra cui scenari di tracciamento all'indietro, percezione corrente e risposta futura. La capacità unica di Risposta Proattiva di TimeChat-Online, ottenuta naturalmente attraverso il monitoraggio continuo delle transizioni delle scene video tramite DTD, la distingue dagli approcci convenzionali. La nostra valutazione estensiva dimostra la superiorità delle prestazioni di TimeChat-Online sui benchmark di streaming (StreamingBench e OvOBench) e il mantenimento di risultati competitivi su compiti video di lunga durata come Video-MME e MLVU.
I modelli linguistici di grandi dimensioni (LLM) rimangono difficili da valutare in modo completo, specialmente per lingue diverse dall'inglese, dove i dati di alta qualità sono spesso limitati. I benchmark e le classifiche esistenti sono prevalentemente centrati sull'inglese, con solo pochi che si occupano di altre lingue. Questi benchmark presentano diverse carenze chiave: trascurano la diversità delle varietà linguistiche, privilegiano le capacità fondamentali di elaborazione del linguaggio naturale (NLP) rispetto a compiti di rilevanza industriale e sono statici. Con questi aspetti in mente, presentiamo IberBench, un benchmark completo ed estensibile progettato per valutare le prestazioni degli LLM sia su compiti fondamentali che su quelli rilevanti per l'industria, nelle lingue parlate nella penisola iberica e nell'America iberoamericana. IberBench integra 101 dataset provenienti da campagne di valutazione e benchmark recenti, coprendo 22 categorie di compiti come l'analisi del sentiment e delle emozioni, il rilevamento della tossicità e la sintesi. Il benchmark affronta le principali limitazioni delle pratiche di valutazione attuali, come la mancanza di diversità linguistica e le configurazioni di valutazione statiche, consentendo aggiornamenti continui e la presentazione di modelli e dataset guidati dalla comunità, moderati da un comitato di esperti. Valutiamo 23 LLM con un numero di parametri compreso tra 100 milioni e 14 miliardi e forniamo approfondimenti empirici sui loro punti di forza e limitazioni. I nostri risultati indicano che (i) gli LLM performano peggio nei compiti rilevanti per l'industria rispetto a quelli fondamentali, (ii) le prestazioni sono in media inferiori per il galiziano e il basco, (iii) alcuni compiti mostrano risultati vicini al caso e (iv) in altri compiti gli LLM performano al di sopra del caso ma al di sotto dei sistemi condivisi. IberBench offre implementazioni open-source per l'intera pipeline di valutazione, inclusa la normalizzazione e l'hosting dei dataset, la valutazione incrementale degli LLM e una classifica pubblicamente accessibile.
Presentiamo ViSMap: Unsupervised Video Summarisation by Meta Prompting, un sistema per riassumere video della durata di un'ora senza supervisione. La maggior parte dei modelli esistenti per la comprensione video funziona bene su video brevi di eventi pre-segmentati, ma fatica a riassumere video più lunghi in cui gli eventi rilevanti sono distribuiti in modo sparso e non pre-segmentati. Inoltre, la comprensione di video di lunga durata spesso si basa su un addestramento gerarchico supervisionato che richiede annotazioni estese, costose, lente e soggette a incoerenze. Con ViSMaP colmiamo il divario tra i video brevi (dove i dati annotati sono abbondanti) e quelli lunghi (dove non lo sono). Ci affidiamo ai LLM per creare pseudo-riassunti ottimizzati di video lunghi utilizzando descrizioni di segmenti provenienti da video brevi. Questi pseudo-riassunti vengono utilizzati come dati di addestramento per un modello che genera riassunti di video di lunga durata, bypassando la necessità di costose annotazioni per video lunghi. Nello specifico, adottiamo una strategia di meta-prompting per generare e perfezionare iterativamente pseudo-riassunti di video lunghi. La strategia sfrutta descrizioni di clip brevi ottenute da un modello supervisionato per video brevi per guidare il riassunto. Ogni iterazione utilizza tre LLM che lavorano in sequenza: uno per generare il pseudo-riassunto dalle descrizioni delle clip, un altro per valutarlo e un terzo per ottimizzare il prompt del generatore. Questa iterazione è necessaria perché la qualità dei pseudo-riassunti dipende fortemente dal prompt del generatore e varia ampiamente tra i video. Valutiamo i nostri riassunti in modo estensivo su più dataset; i nostri risultati mostrano che ViSMaP raggiunge prestazioni comparabili a modelli all'avanguardia completamente supervisionati, generalizzando tra domini senza sacrificare le prestazioni. Il codice verrà rilasciato alla pubblicazione.
La generazione di immagini basata su patch autoregressive ha recentemente dimostrato risultati competitivi in termini di qualità dell'immagine e scalabilità. Può inoltre essere facilmente integrata e scalata all'interno di modelli Vision-Language. Tuttavia, i modelli autoregressivi richiedono un ordine definito per la generazione delle patch. Mentre un ordine naturale basato sulla dettatura delle parole ha senso per la generazione di testo, non esiste un ordine di generazione intrinseco per la generazione di immagini. Tradizionalmente, un ordine a scansione raster (dall'alto a sinistra al basso a destra) guida i modelli di generazione di immagini autoregressive. In questo articolo, sosteniamo che questo ordine è subottimale, poiché non rispetta la causalità del contenuto dell'immagine: ad esempio, quando condizionato da una descrizione visiva di un tramonto, un modello autoregressivo potrebbe generare le nuvole prima del sole, anche se il colore delle nuvole dovrebbe dipendere dal colore del sole e non viceversa. In questo lavoro, dimostriamo che, prima di tutto, addestrando un modello a generare patch in un qualsiasi ordine dato, possiamo inferire sia il contenuto che la posizione (ordine) di ciascuna patch durante la generazione. In secondo luogo, utilizziamo questi ordini estratti per affinare il modello a qualsiasi ordine dato, al fine di produrre immagini di qualità superiore. Attraverso i nostri esperimenti, dimostriamo su due dataset che questo nuovo metodo di generazione produce immagini migliori rispetto all'approccio tradizionale a scansione raster, con costi di addestramento simili e senza annotazioni aggiuntive.
L'annotazione delle pose della fotocamera su video dinamici di Internet su larga scala è fondamentale per far progredire campi come la generazione realistica di video e la simulazione. Tuttavia, raccogliere un tale dataset è difficile, poiché la maggior parte dei video di Internet non è adatta per la stima delle pose. Inoltre, annotare video dinamici di Internet presenta sfide significative anche per i metodi più avanzati. In questo articolo, presentiamo DynPose-100K, un dataset su larga scala di video dinamici di Internet annotati con le pose della fotocamera. La nostra pipeline di raccolta affronta il filtraggio utilizzando un insieme accuratamente combinato di modelli specifici per il compito e generalisti. Per la stima delle pose, combiniamo le ultime tecniche di tracciamento dei punti, mascheramento dinamico e struttura dal movimento per ottenere miglioramenti rispetto agli approcci più avanzati. Le nostre analisi ed esperimenti dimostrano che DynPose-100K è sia su larga scala che diversificato in diversi attributi chiave, aprendo nuove strade per progressi in varie applicazioni downstream.
Le tecniche di riduzione della dimensionalità sono fondamentali per analizzare e visualizzare dati ad alta dimensionalità. Metodi consolidati come t-SNE e PCA presentano un compromesso tra potere rappresentativo e interpretabilità. Questo articolo introduce un approccio innovativo che colma questa lacuna combinando l'interpretabilità dei metodi lineari con l'espressività delle trasformazioni non lineari. L'algoritmo proposto costruisce una mappatura non lineare tra spazi ad alta e bassa dimensionalità attraverso una combinazione di trasformazioni lineari, ciascuna ponderata da funzioni gaussiane. Questa architettura consente trasformazioni non lineari complesse preservando i vantaggi interpretativi dei metodi lineari, poiché ogni trasformazione può essere analizzata indipendentemente. Il modello risultante offre sia una potente riduzione della dimensionalità sia intuizioni trasparenti sullo spazio trasformato. Vengono presentate tecniche per interpretare le trasformazioni apprese, inclusi metodi per identificare dimensioni soppresse e come lo spazio viene espanso e contratto. Questi strumenti consentono ai professionisti di comprendere come l'algoritmo preserva e modifica le relazioni geometriche durante la riduzione della dimensionalità. Per garantire l'utilità pratica di questo algoritmo, viene sottolineata la creazione di pacchetti software user-friendly, facilitandone l'adozione sia in ambito accademico che industriale.