Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di diffusione delle immagini sono stati adattati per la super-risoluzione video nel mondo reale al fine di affrontare i problemi di eccessiva levigatura nei metodi basati su GAN. Tuttavia, questi modelli faticano a mantenere coerenza temporale, poiché vengono addestrati su immagini statiche, limitando la loro capacità di catturare dinamiche temporali in modo efficace. Integrare modelli di testo-a-video (T2V) nella super-risoluzione video per un miglioramento della modellazione temporale è diretto. Tuttavia, rimangono due sfide chiave: artefatti introdotti da degradazioni complesse in scenari del mondo reale e compromissione della fedeltà a causa della forte capacità generativa di potenti modelli T2V (ad esempio, CogVideoX-5B). Per migliorare la qualità spazio-temporale dei video ripristinati, presentiamo \textit{STARS} (Aumento Spazio-Temporale con modelli T2V per la super-risoluzione video nel mondo reale), un approccio innovativo che sfrutta i modelli T2V per la super-risoluzione video nel mondo reale, ottenendo dettagli spaziali realistici e una robusta coerenza temporale. In particolare, introduciamo un Modulo di Potenziamento delle Informazioni Locali (LIEM) prima del blocco di attenzione globale per arricchire i dettagli locali e mitigare gli artefatti di degradazione. Inoltre, proponiamo una Perdita di Frequenza Dinamica (DF) per rafforzare la fedeltà, guidando il modello a concentrarsi su diversi componenti di frequenza attraverso i passaggi di diffusione. Estesi esperimenti dimostrano che \textit{STARS} supera i metodi all'avanguardia su entrambi i dataset sintetici e del mondo reale.
La straordinaria performance del modello o1 nel ragionamento complesso dimostra che la scalabilità del calcolo al momento del test può ulteriormente sbloccare il potenziale del modello, consentendo un potente pensiero di Sistema-2. Tuttavia, mancano ancora indagini esaustive sulla scalabilità del calcolo al momento del test. Rintracciamo il concetto di calcolo al momento del test ai modelli di Sistema-1. Nei modelli di Sistema-1, il calcolo al momento del test affronta spostamenti di distribuzione e migliora la robustezza e la generalizzazione attraverso l'aggiornamento dei parametri, la modifica dell'input, la modifica della rappresentazione e la calibrazione dell'output. Nei modelli di Sistema-2, potenzia la capacità di ragionamento del modello per risolvere problemi complessi attraverso campionamenti ripetuti, autocorrezione e ricerca ad albero. Organizziamo questa indagine secondo la tendenza dal pensiero di Sistema-1 al pensiero di Sistema-2, evidenziando il ruolo chiave del calcolo al momento del test nel passaggio dai modelli di Sistema-1 ai modelli deboli di Sistema-2 e poi ai modelli forti di Sistema-2. Indichiamo anche alcune possibili direzioni future.
I modelli linguistici di grandi dimensioni (LLM) all'avanguardia dimostrano prestazioni promettenti nella risoluzione di problemi matematici complessi con un flusso di lavoro di divide-et-impera e l'assistenza di esempi di apprendimento contestuale (ICL). Tuttavia, il loro potenziale di miglioramento è limitato da due problemi critici all'interno dei loro esempi di ICL: la discrepanza di granularità e il conseguente problema di rumore negativo. In particolare, i LLM sono capaci del processo di divisione ma falliscono principalmente a causa di un ragionamento inaccurato entro pochi passaggi di conquista, mentre gli esempi di ICL recuperati a livello di domanda talvolta mancano di passaggi rilevanti per uno specifico passaggio di ragionamento impegnativo. Inoltre, questa disconnessione potrebbe ostacolare il ragionamento corretto a causa della sua irrilevanza. A tal fine, ci concentriamo sul miglioramento della qualità del ragionamento all'interno di ciascun passaggio e presentiamo BoostStep. BoostStep allinea la granularità tra il recupero e il ragionamento a livello di passaggio e fornisce esempi di ICL altamente correlati per ciascun passaggio di ragionamento con una nuova strategia di "primo tentativo". BoostStep fornisce esempi più rilevanti rispetto alla strategia di granularità della domanda grossolana, migliorando costantemente la qualità del ragionamento del modello all'interno di ciascun passaggio. BoostStep è un metodo generale e robusto per migliorare il ragionamento che non solo migliora le prestazioni di ragionamento autonomo ma si integra senza soluzione di continuità con i metodi di ricerca ad albero di Monte Carlo (MCTS) per perfezionare sia la generazione di candidati che la presa di decisioni. Dal punto di vista quantitativo, migliora GPT-4o e Qwen2.5-Math-72B rispettivamente del 3,6\% e del 2,0\% su vari benchmark matematici, e del 7,5\% combinato con MCTS.
L'interazione attiva in tempo reale con video LLM introduce un nuovo paradigma per l'interazione uomo-computer, dove il modello non solo comprende l'intento dell'utente ma risponde anche mentre elabora continuamente il video in streaming al volo. A differenza dei LLM video offline, che analizzano l'intero video prima di rispondere alle domande, l'interazione attiva in tempo reale richiede tre capacità: 1) Percezione: monitoraggio video in tempo reale e cattura dell'interazione. 2) Decisione: sollevare interazioni proattive nelle situazioni appropriate. 3) Reazione: interazione continua con gli utenti. Tuttavia, esistono conflitti intrinseci tra le capacità desiderate. La Decisione e la Reazione richiedono una scala e una granularità di Percezione contrarie, e la decodifica autoregressiva blocca la Percezione e la Decisione in tempo reale durante la Reazione. Per unificare le capacità in conflitto all'interno di un sistema armonioso, presentiamo Dispider, un sistema che disintegra Percezione, Decisione e Reazione. Dispider presenta un modulo leggero di elaborazione video in streaming proattivo che monitora il flusso video e identifica i momenti ottimali per l'interazione. Una volta attivata l'interazione, un modulo di interazione asincrono fornisce risposte dettagliate, mentre il modulo di elaborazione continua a monitorare il video nel frattempo. Il nostro design disintegrato e asincrono garantisce risposte tempestive, accuratamente contestualizzate ed efficienti dal punto di vista computazionale, rendendo Dispider ideale per l'interazione attiva in tempo reale per flussi video di lunga durata. Gli esperimenti mostrano che Dispider non solo mantiene elevate prestazioni nei compiti convenzionali di domande e risposte video, ma supera significativamente i modelli online precedenti nelle risposte agli scenari di streaming, convalidando così l'efficacia della nostra architettura. Il codice e il modello sono disponibili su https://github.com/Mark12Ding/Dispider.
Con l'evoluzione dei grandi modelli linguistici (LLM), la loro capacità di fornire risposte personalizzate e consapevoli del contesto offre un potenziale trasformativo per migliorare le esperienze degli utenti. Tuttavia, gli approcci attuali alla personalizzazione spesso si basano esclusivamente sulla storia dell'utente per arricchire il prompt, limitando la loro efficacia nella generazione di output su misura, specialmente in scenari di avvio a freddo con dati scarsi. Per affrontare queste limitazioni, proponiamo il Recupero-Aumentato Generazione Basato su Grafo Personalizzato (PGraphRAG), un framework che sfrutta i grafi di conoscenza centrati sull'utente per arricchire la personalizzazione. Integrando direttamente la conoscenza strutturata dell'utente nel processo di recupero e arricchendo i prompt con contesti rilevanti per l'utente, PGraphRAG migliora la comprensione contestuale e la qualità dell'output. Introduciamo anche il Benchmark Basato su Grafo Personalizzato per la Generazione di Testo, progettato per valutare compiti di generazione di testo personalizzati in contesti reali in cui la storia dell'utente è scarsa o non disponibile. I risultati sperimentali mostrano che PGraphRAG supera significativamente i metodi di personalizzazione all'avanguardia su diverse attività, dimostrando i vantaggi unici del recupero basato su grafo per la personalizzazione.
I modelli generativi testo-video hanno compiuto progressi significativi, consentendo diverse applicazioni nell'intrattenimento, nella pubblicità e nell'istruzione. Tuttavia, la generazione di video RGBA, che include canali alfa per la trasparenza, rimane una sfida a causa dei dataset limitati e della difficoltà di adattare i modelli esistenti. I canali alfa sono cruciali per gli effetti visivi (VFX), consentendo agli elementi trasparenti come fumo e riflessi di fondersi senza soluzione di continuità nelle scene. Presentiamo TransPixar, un metodo per estendere i modelli video preaddestrati per la generazione RGBA mantenendo le capacità RGB originali. TransPixar sfrutta un'architettura di trasformatore a diffusione (DiT), incorporando token specifici per l'alfa e utilizzando il fine-tuning basato su LoRA per generare congiuntamente i canali RGB e alfa con elevata coerenza. Ottimizzando i meccanismi di attenzione, TransPixar preserva i punti di forza del modello RGB originale e raggiunge un forte allineamento tra i canali RGB e alfa nonostante i dati di addestramento limitati. Il nostro approccio genera efficacemente video RGBA diversi e coerenti, avanzando le possibilità per gli effetti visivi e la creazione di contenuti interattivi.
L'addestramento a bassa precisione è considerato una strategia efficace per ridurre sia i costi di addestramento che quelli di inferenza successiva. Le leggi di scala precedenti per la precisione si concentrano principalmente sulla quantizzazione degli interi, che presta meno attenzione agli elementi costitutivi nella quantizzazione in virgola mobile e quindi non si adattano bene alle perdite LLM in questo scenario. Al contrario, sebbene l'addestramento con quantizzazione in virgola mobile sia più comunemente implementato in produzione, la ricerca su di esso è stata relativamente superficiale. In questo articolo, esploriamo approfonditamente gli effetti degli obiettivi di quantizzazione in virgola mobile, dei bit dell'esponente, dei bit della mantissa e della granularità di calcolo del fattore di scala sulle prestazioni di addestramento dei modelli LLM con quantizzazione in virgola mobile. Presentando una legge di scala unificata accurata per la quantizzazione in virgola mobile, forniamo anche suggerimenti preziosi per la comunità: (1) I bit dell'esponente contribuiscono leggermente di più alle prestazioni del modello rispetto ai bit della mantissa. Forniamo il rapporto ottimale tra bit dell'esponente e della mantissa per diversi numeri di bit, disponibile per futuri riferimenti da parte dei produttori di hardware; (2) Scopriamo la formazione delle dimensioni critiche dei dati nell'addestramento LLM a bassa precisione. Troppi dati di addestramento che superano le dimensioni critiche porteranno inversamente a una degradazione delle prestazioni LLM; (3) La precisione ottimale di quantizzazione in virgola mobile è direttamente proporzionale alla potenza computazionale, ma all'interno di un'ampia gamma di potenza computazionale, stimiamo che la migliore precisione in termini di costo-prestazioni si situi tra 4 e 8 bit.
Consideriamo il compito di generazione Immagine-a-Video (I2V), che comporta la trasformazione di immagini statiche in sequenze video realistiche basate su una descrizione testuale. Mentre i recenti progressi producono output fotorealistici, spesso faticano a creare video con un movimento degli oggetti preciso e coerente, specialmente in scenari multi-oggetto. Per affrontare queste limitazioni, proponiamo un framework composito a due fasi che scompone la generazione I2V in: (i) una fase di generazione di una rappresentazione intermedia esplicita, seguita da (ii) una fase di generazione video condizionata su questa rappresentazione. La nostra innovazione chiave è l'introduzione di una traiettoria di movimento basata su maschera come rappresentazione intermedia, che cattura sia informazioni semantiche sugli oggetti che il movimento, consentendo una rappresentazione espressiva ma compatta di movimento e semantica. Per incorporare la rappresentazione appresa nella seconda fase, utilizziamo obiettivi di attenzione a livello di oggetto. In particolare, consideriamo un obiettivo di attenzione incrociata mascherata spaziale, per oggetto, integrando prompt specifici dell'oggetto nelle regioni spaziali latenti corrispondenti e un obiettivo di auto-attenzione spazio-temporale mascherata, garantendo coerenza da frame a frame per ciascun oggetto. Valutiamo il nostro metodo su benchmark impegnativi con scenari multi-oggetto e ad alto movimento e dimostriamo empiricamente che il metodo proposto raggiunge risultati all'avanguardia in coerenza temporale, realismo del movimento e fedeltà al prompt testuale. Inoltre, presentiamo \benchmark, un nuovo benchmark impegnativo per la generazione I2V di singoli oggetti e multi-oggetti e dimostriamo la superiorità del nostro metodo su questo benchmark. La pagina del progetto è disponibile su https://guyyariv.github.io/TTM/.
Prealleniamo METAGENE-1, un modello autoregressivo transformer con 7 miliardi di parametri, che chiamiamo modello fondamentale metagenomico, su un nuovo corpus di diverse sequenze di DNA e RNA metagenomiche che comprendono oltre 1,5 trilioni di coppie di basi. Questo dataset proviene da un'ampia raccolta di campioni di acque reflue umane, elaborati e sequenziati utilizzando metodi di sequenziamento metagenomico profondo (next-generation). A differenza dei modelli genomici che si concentrano su singoli genomi o insiemi curati di specie specifiche, l'obiettivo di METAGENE-1 è catturare l'intera distribuzione delle informazioni genomiche presenti in queste acque reflue, per aiutare in compiti relativi al monitoraggio delle pandemie e alla rilevazione dei patogeni. Applichiamo la tokenizzazione con codifica a coppie di byte (BPE) sul nostro dataset, adattata per sequenze metagenomiche, e quindi prealleniamo il nostro modello. In questo articolo, descriviamo innanzitutto il dataset di preallenamento, la strategia di tokenizzazione e l'architettura del modello, evidenziando le considerazioni e le scelte progettuali che consentono la modellazione efficace dei dati metagenomici. Successivamente mostriamo i risultati del preallenamento di questo modello sul nostro dataset metagenomico, fornendo dettagli sulle nostre perdite, le metriche di sistema e la stabilità dell'allenamento nel corso del preallenamento. Infine, dimostriamo le prestazioni di METAGENE-1, che raggiunge risultati all'avanguardia su un insieme di benchmark genomici e nuove valutazioni incentrate sulla rilevazione di patogeni umani e sull'incorporamento di sequenze genomiche, mostrando il suo potenziale per applicazioni di sanità pubblica nel monitoraggio delle pandemie, nella biosorveglianza e nella rilevazione precoce delle minacce alla salute emergenti.
Il red-teaming automatizzato è diventato un approccio cruciale per scoprire vulnerabilità nei grandi modelli linguistici (LLM). Tuttavia, la maggior parte dei metodi esistenti si concentra su difetti di sicurezza isolati, limitando la capacità di adattarsi alle difese dinamiche e scoprire vulnerabilità complesse in modo efficiente. Per affrontare questa sfida, proponiamo Auto-RT, un framework di apprendimento per rinforzo che esplora e ottimizza automaticamente strategie di attacco complesse per scoprire efficacemente vulnerabilità di sicurezza attraverso query maliziose. In particolare, introduciamo due meccanismi chiave per ridurre la complessità dell'esplorazione e migliorare l'ottimizzazione della strategia: 1) Esplorazione con termine anticipato, che accelera l'esplorazione concentrandosi su strategie di attacco ad alto potenziale; e 2) Algoritmo di tracciamento progressivo delle ricompense con modelli di declassamento intermedi, che raffinano dinamicamente la traiettoria di ricerca verso lo sfruttamento di vulnerabilità di successo. Estesi esperimenti su diversi LLM dimostrano che, migliorando significativamente l'efficienza dell'esplorazione e ottimizzando automaticamente le strategie di attacco, Auto-RT rileva un'ampia gamma di vulnerabilità, raggiungendo una maggiore velocità di rilevamento e tassi di successo superiori del 16,63% rispetto ai metodi esistenti.
Il controllo video 4D è essenziale nella generazione di video poiché consente l'uso di tecniche sofisticate di obiettivo, come riprese multi-telecamera e zoom dolly, attualmente non supportate dai metodi esistenti. Addestrare un Diffusion Transformer video (DiT) direttamente per controllare contenuti 4D richiede costosi video multi-vista. Ispirandoci alla Sintesi di Visualizzazione Dinamica Monoculare (MDVS) che ottimizza una rappresentazione 4D e rende video in base a diversi elementi 4D, come posizione della telecamera e modifica del movimento dell'oggetto, introduciamo campi gaussiani pseudo 4D per la generazione video. In particolare, proponiamo un nuovo framework che costruisce un campo gaussiano pseudo 4D con tracciamento denso dei punti 3D e rende il campo gaussiano per tutti i fotogrammi video. Successivamente, perfezioniamo un DiT preaddestrato per generare video seguendo la guida del video reso, chiamato GS-DiT. Per potenziare l'addestramento del GS-DiT, proponiamo anche un efficiente metodo di Tracciamento Punti 3D Denso (D3D-PT) per la costruzione del campo gaussiano pseudo 4D. Il nostro D3D-PT supera SpatialTracker, il metodo di tracciamento di punti 3D sparso all'avanguardia, in precisione e accelera la velocità di inferenza di due ordini di grandezza. Durante la fase di inferenza, GS-DiT può generare video con lo stesso contenuto dinamico rispettando diversi parametri della telecamera, affrontando una significativa limitazione dei modelli attuali di generazione video. GS-DiT dimostra forti capacità di generalizzazione ed estende la controllabilità 4D dello splatting gaussiano alla generazione video oltre alle sole posizioni delle telecamere. Supporta effetti cinematografici avanzati attraverso la manipolazione del campo gaussiano e delle intrinseche della telecamera, rendendolo uno strumento potente per la produzione video creativa. Le demo sono disponibili su https://wkbian.github.io/Projects/GS-DiT/.
La stima della profondità monoculare all'interno del paradigma di denoising a diffusione mostra un'eccezionale capacità di generalizzazione ma soffre di una bassa velocità di inferenza. I metodi recenti adottano un paradigma deterministico a singolo passaggio per migliorare l'efficienza dell'inferenza pur mantenendo prestazioni comparabili. Tuttavia, trascurano il divario tra le caratteristiche generative e discriminative, portando a risultati non ottimali. In questo lavoro, proponiamo DepthMaster, un modello di diffusione a singolo passaggio progettato per adattare le caratteristiche generative per il compito di stima della profondità discriminativa. Prima, per mitigare l'overfitting ai dettagli della texture introdotti dalle caratteristiche generative, proponiamo un modulo di Allineamento delle Caratteristiche, che incorpora caratteristiche semantiche di alta qualità per migliorare la capacità di rappresentazione della rete di denoising. Secondo, per affrontare la mancanza di dettagli fini nel framework deterministico a singolo passaggio, proponiamo un modulo di Potenziamento di Fourier per bilanciare in modo adattivo la struttura a bassa frequenza e i dettagli ad alta frequenza. Adottiamo una strategia di addestramento a due fasi per sfruttare appieno il potenziale dei due moduli. Nella prima fase, ci concentriamo sull'apprendimento della struttura della scena globale con il modulo di Allineamento delle Caratteristiche, mentre nella seconda fase sfruttiamo il modulo di Potenziamento di Fourier per migliorare la qualità visiva. Attraverso questi sforzi, il nostro modello raggiunge prestazioni all'avanguardia in termini di generalizzazione e conservazione dei dettagli, superando altri metodi basati sulla diffusione su vari set di dati. La pagina del nostro progetto è disponibile su https://indu1ge.github.io/DepthMaster_page.
I modelli di ricompensa a livello di processo (PRM) sono cruciali per compiti di ragionamento e decisione complessi, dove ogni passaggio intermedio gioca un ruolo importante nel processo di ragionamento. Poiché i modelli linguistici sono inclini a vari tipi di errori durante il processo di ragionamento, i PRM devono possedere capacità sfumate per rilevare vari tipi di errori impliciti in scenari del mondo reale. Tuttavia, i benchmark attuali si concentrano principalmente sulla correttezza dei passaggi, non valutando in modo sistematico le prestazioni dei PRM. Per colmare questa lacuna, presentiamo PRMBench, un benchmark a livello di processo progettato specificamente per valutare le capacità di rilevamento degli errori dettagliati dei PRM. PRMBench comprende 6.216 problemi attentamente progettati e 83.456 etichette a livello di passaggio, valutando i modelli su molteplici dimensioni, inclusa la semplicità, la solidità e la sensibilità. Nei nostri esperimenti su 15 modelli, che spaziano sia tra PRM open-source che tra grandi modelli linguistici closed-source sollecitati come modelli critici, scopriamo significative debolezze nei PRM attuali. Queste scoperte sottolineano le sfide intrinseche nella valutazione a livello di processo e mettono in evidenza direzioni chiave per la ricerca futura. Speriamo che PRMBench possa essere un banco di prova robusto per far progredire la ricerca sulla valutazione e lo sviluppo dei PRM.
Una valutazione efficace dell'uso di strumenti multi-hop è fondamentale per analizzare la comprensione, il ragionamento e le capacità di chiamata di funzioni dei grandi modelli linguistici (LLM). Tuttavia, i progressi sono stati ostacolati dalla mancanza di set di dati di valutazione affidabili. Per affrontare questo problema, presentiamo ToolHop, un dataset composto da 995 query utente e 3.912 strumenti associati, appositamente progettato per una rigorosa valutazione dell'uso di strumenti multi-hop. ToolHop garantisce query diverse, interdipendenze significative, strumenti eseguibili localmente, feedback dettagliato e risposte verificabili attraverso un innovativo approccio di costruzione dei dati guidato dalle query che include la creazione di strumenti, il perfezionamento dei documenti e la generazione di codice. Valutiamo 14 LLMs attraverso cinque famiglie di modelli (ossia LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 e GPT), rivelando significativi ostacoli nel gestire scenari di utilizzo di strumenti multi-hop. Il modello leader, GPT-4o, raggiunge un'accuratezza del 49,04%, sottolineando un ampio margine di miglioramento. Ulteriori analisi rivelano variazioni nelle strategie di utilizzo degli strumenti per varie famiglie, offrendo spunti concreti per guidare lo sviluppo di approcci più efficaci. Codice e dati sono disponibili su https://huggingface.co/bytedance-research/ToolHop.
Proponiamo Samba ASR, il primo modello di Riconoscimento Automatico del Parlato (ASR) all'avanguardia che sfrutta la nuova architettura Mamba sia come codificatore che come decodificatore, costruita sulla base dei modelli di spazio di stato (SSM). A differenza dei modelli ASR basati su trasformatori, che si basano su meccanismi di autoattenzione per catturare le dipendenze, Samba ASR modella efficacemente le dipendenze temporali locali e globali utilizzando dinamiche efficienti dello spazio di stato, ottenendo notevoli miglioramenti delle prestazioni. Affrontando le limitazioni dei trasformatori, come la scalabilità quadratica con la lunghezza dell'input e la difficoltà nel gestire dipendenze a lungo raggio, Samba ASR raggiunge una precisione e un'efficienza superiori. I risultati sperimentali dimostrano che Samba ASR supera i modelli ASR basati su trasformatori open-source esistenti su vari benchmark standard, stabilendosi come il nuovo stato dell'arte in ASR. Valutazioni estese su dataset di benchmark mostrano significativi miglioramenti nel tasso di errore delle parole (WER), con prestazioni competitive anche in scenari a bassa risorsa. Inoltre, l'efficienza computazionale e l'ottimizzazione dei parametri dell'architettura Mamba rendono Samba ASR una soluzione scalabile e robusta per diverse attività di ASR. I nostri contributi includono: una nuova architettura Samba ASR che dimostra la superiorità dei SSM rispetto ai modelli basati su trasformatori per l'elaborazione delle sequenze vocali. Una valutazione completa su benchmark pubblici che mostra prestazioni all'avanguardia. Un'analisi dell'efficienza computazionale, della robustezza al rumore e della generalizzazione delle sequenze. Questo lavoro sottolinea la fattibilità dei SSM Mamba come alternativa senza trasformatori per un ASR efficiente e preciso. Sfruttando i progressi nella modellazione dello spazio di stato, Samba ASR stabilisce un nuovo punto di riferimento per le prestazioni dell'ASR e per la ricerca futura.
Questo articolo presenta un potente framework per personalizzare le creazioni video incorporando più foto di identità specifiche (ID), con trasformatori di diffusione video, denominati Ingredienti. In generale, il nostro metodo è composto da tre moduli principali: (i) un estrattore facciale che cattura caratteristiche facciali versatili e precise per ciascun ID umano da prospettive globali e locali; (ii) un proiettore multi-scala che mappa i rilevamenti facciali nello spazio contestuale della query di immagine nei trasformatori di diffusione video; (iii) un router ID che combina dinamicamente e assegna più rilevamenti ID alle regioni spazio-temporali corrispondenti. Sfruttando un dataset testo-video accuratamente curato e un protocollo di addestramento a più fasi, Ingredienti dimostra prestazioni superiori nel trasformare foto personalizzate in contenuti video dinamici e personalizzati. Valutazioni qualitative evidenziano i vantaggi del metodo proposto, posizionandolo come un significativo avanzamento verso strumenti di controllo video generativi più efficaci nell'architettura basata su Trasformatori, rispetto ai metodi esistenti. I dati, il codice e i pesi del modello sono disponibili pubblicamente su: https://github.com/feizc/Ingredients.
La progettazione di elementi visivi strutturati come diapositive di presentazione è essenziale per le esigenze comunicative, richiedendo sia la creazione di contenuti che le capacità di pianificazione visiva. In questo lavoro, affrontiamo la sfida della generazione automatica di diapositive, in cui i modelli producono presentazioni di diapositive da istruzioni in linguaggio naturale (NL). Introduciamo innanzitutto il benchmark SlidesBench, il primo benchmark per la generazione di diapositive con 7k esempi di addestramento e 585 di test derivati da 310 set di diapositive in 10 domini. SlidesBench supporta valutazioni che sono (i) basate su riferimenti per misurare la similarità con una diapositiva di destinazione, e (ii) senza riferimenti per misurare la qualità progettuale delle diapositive generate da sole. Mettiamo a confronto metodi di generazione di immagini e di programmazione end-to-end con una varietà di modelli, e scopriamo che i metodi programmatici producono diapositive di qualità superiore in formati interattivi per gli utenti. Basandoci sul successo della generazione di programmi, creiamo AutoPresent, un modello basato su 8B Llama addestrato su 7k coppie di istruzioni abbinate a codice per la generazione di diapositive, ottenendo risultati paragonabili al modello closed-source GPT-4o. Esploriamo inoltre il raffinamento del design iterativo in cui il modello è incaricato di perfezionare autonomamente il proprio output, e abbiamo riscontrato che questo processo migliora la qualità della diapositiva. Speriamo che il nostro lavoro fornisca una base per futuri studi sulla generazione di elementi visivi strutturati.
Lo sviluppo rapido dei modelli di linguaggio visivo (VLM) richiede una valutazione rigorosa e affidabile. Tuttavia, attualmente i benchmark di domande visive e risposte (VQA) dipendono spesso da domande aperte, rendendo difficile una valutazione accurata a causa della variabilità nelle risposte in linguaggio naturale. Per affrontare questo problema, presentiamo AutoConverter, un framework agente che converte automaticamente queste domande aperte in formato a scelta multipla, consentendo una valutazione oggettiva e riducendo il costoso processo di creazione delle domande. I nostri esperimenti dimostrano che AutoConverter può generare domande a scelta multipla corrette e impegnative, con i VLM che mostrano una precisione costantemente simile o inferiore su queste domande rispetto a quelle create dall'uomo. Utilizzando AutoConverter, costruiamo VMCBench, un benchmark creato trasformando 20 dataset esistenti di VQA in un formato unificato a scelta multipla, per un totale di 9.018 domande. Valutiamo in modo esaustivo 33 VLM all'avanguardia su VMCBench, stabilendo un nuovo standard per la valutazione scalabile, coerente e riproducibile dei VLM.
In questo articolo, proponiamo ProTracker, un nuovo framework per il tracciamento denso a lungo termine robusto e accurato di punti arbitrari nei video. L'idea chiave del nostro metodo è l'incorporazione dell'integrazione probabilistica per perfezionare le previsioni multiple sia del flusso ottico che delle caratteristiche semantiche per un tracciamento robusto a breve e lungo termine. In particolare, integriamo le stime del flusso ottico in modo probabilistico, producendo traiettorie lisce e accurate massimizzando la verosimiglianza di ciascuna previsione. Per rilocalizzare efficacemente punti sfidanti che scompaiono e riappaiono a causa dell'occlusione, incorporiamo ulteriormente la corrispondenza delle caratteristiche a lungo termine nelle nostre previsioni di flusso per la generazione continua delle traiettorie. Gli esperimenti estensivi mostrano che ProTracker raggiunge le prestazioni di ultima generazione tra gli approcci non supervisionati e auto-supervisionati, superando addirittura i metodi supervisionati su diversi benchmark. Il nostro codice e modello saranno resi pubblicamente disponibili al momento della pubblicazione.