Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il linguaggio naturale spesso fatica ad associare in modo accurato informazioni posizionali e attributive con molteplici istanze, limitando i modelli di generazione visiva basati su testo attuali a composizioni più semplici che presentano solo poche istanze dominanti. Per affrontare questa limitazione, questo lavoro potenzia i modelli di diffusione introducendo il controllo dell'istanza regionale, in cui ciascuna istanza è regolata da un box di delimitazione abbinato a una didascalia in forma libera. I metodi precedenti in questo ambito solitamente si basano su codifica implicita della posizione o maschere di attenzione esplicite per separare le regioni di interesse (ROI), con conseguente iniezione di coordinate inaccurata o elevati costi computazionali. Ispirandoci a ROI-Align nella rilevazione degli oggetti, introduciamo un'operazione complementare chiamata ROI-Unpool. Insieme, ROI-Align e ROI-Unpool consentono una manipolazione esplicita, efficiente e precisa delle ROI su mappe delle caratteristiche ad alta risoluzione per la generazione visiva. Basandoci su ROI-Unpool, proponiamo ROICtrl, un adattatore per modelli di diffusione preaddestrati che consente un preciso controllo dell'istanza regionale. ROICtrl è compatibile con modelli di diffusione sintonizzati dalla comunità, nonché con estensioni basate su spazialità esistenti (ad es., ControlNet, T2I-Adapter) ed estensioni basate su embedding (ad es., IP-Adapter, ED-LoRA), estendendone le applicazioni alla generazione multi-istanza. Gli esperimenti mostrano che ROICtrl raggiunge prestazioni superiori nel controllo dell'istanza regionale riducendo significativamente i costi computazionali.
Presentiamo CAT4D, un metodo per creare scene 4D (3D dinamiche) da video monoculari. CAT4D sfrutta un modello di diffusione video multi-vista addestrato su una combinazione diversificata di set di dati per consentire la sintesi di nuove visuali in qualsiasi posizione e istante temporale specificati dalla telecamera. Combinato con un innovativo approccio di campionamento, questo modello può trasformare un singolo video monocolore in un video multi-vista, consentendo una robusta ricostruzione 4D tramite ottimizzazione di una rappresentazione gaussiana 3D deformabile. Dimostriamo prestazioni competitive su benchmark di sintesi di nuove visuali e ricostruzione di scene dinamiche, e mettiamo in evidenza le capacità creative per la generazione di scene 4D da video reali o generati. Consultare la nostra pagina del progetto per i risultati e le demo interattive: cat-4d.github.io.
Le interfacce grafiche utente (GUI) sono da tempo centrali nell'interazione uomo-computer, offrendo un modo intuitivo e basato sull'aspetto visivo per accedere e interagire con i sistemi digitali. L'avvento dei LLM, in particolare dei modelli multimodali, ha aperto la strada a una nuova era di automazione delle GUI. Hanno dimostrato capacità eccezionali nella comprensione del linguaggio naturale, nella generazione di codice e nel trattamento visivo. Ciò ha aperto la strada a una nuova generazione di agenti GUI con LLM in grado di interpretare elementi GUI complessi ed eseguire autonomamente azioni basate su istruzioni in linguaggio naturale. Questi agenti rappresentano un cambiamento di paradigma, consentendo agli utenti di eseguire compiti complessi e multi-step attraverso semplici comandi conversazionali. Le loro applicazioni spaziano dalla navigazione web, alle interazioni con le app mobili, all'automazione desktop, offrendo un'esperienza utente trasformativa che rivoluziona il modo in cui gli individui interagiscono con il software. Questo campo emergente sta avanzando rapidamente, con progressi significativi sia nella ricerca che nell'industria. Per fornire una comprensione strutturata di questa tendenza, questo articolo presenta un'ampia panoramica degli agenti GUI con LLM, esplorando la loro evoluzione storica, i componenti principali e le tecniche avanzate. Affrontiamo domande di ricerca come i framework esistenti degli agenti GUI, la raccolta e l'utilizzo dei dati per addestrare agenti GUI specializzati, lo sviluppo di modelli di azione ampi adattati per compiti GUI e le metriche di valutazione e i benchmark necessari per valutarne l'efficacia. Inoltre, esaminiamo le applicazioni emergenti alimentate da questi agenti. Attraverso un'analisi dettagliata, questa panoramica identifica lacune chiave nella ricerca e traccia una roadmap per futuri progressi nel settore. Consolidando le conoscenze fondamentali e gli sviluppi all'avanguardia, questo lavoro mira a guidare sia i ricercatori che i professionisti nel superare le sfide e sbloccare il pieno potenziale degli agenti GUI con LLM.
La generazione di contenuti 3D ad alta fedeltà da prompt di testo rimane una sfida significativa nella visione artificiale a causa delle dimensioni limitate, della diversità e della profondità dell'annotazione dei dataset esistenti. Per affrontare questo problema, presentiamo MARVEL-40M+, un ampio dataset con 40 milioni di annotazioni di testo per oltre 8,9 milioni di risorse 3D aggregate da sette importanti dataset 3D. Il nostro contributo è un innovativo pipeline di annotazione multi-stadio che integra VLM e LLM multi-vista preaddestrati open-source per produrre automaticamente descrizioni multi livello, che vanno da dettagliate (150-200 parole) a tag semantici concisi (10-20 parole). Questa struttura supporta sia la ricostruzione 3D dettagliata che il prototipaggio rapido. Inoltre, incorporiamo metadati umani dai dataset di origine nel nostro pipeline di annotazione per aggiungere informazioni specifiche del dominio nelle nostre annotazioni e ridurre le allucinazioni di VLM. Inoltre, sviluppiamo MARVEL-FX3D, un pipeline di testo-3D a due stadi. Affiniamo Stable Diffusion con le nostre annotazioni e utilizziamo una rete immagine-3D preaddestrata per generare mesh 3D testurizzate entro 15 secondi. Valutazioni approfondite mostrano che MARVEL-40M+ supera significativamente i dataset esistenti in termini di qualità dell'annotazione e diversità linguistica, raggiungendo tassi di successo del 72,41% da parte di GPT-4 e del 73,40% da parte di valutatori umani.
Molte query degli utenti reali (ad esempio "Come fare il riso fritto all'uovo?") potrebbero beneficiare di sistemi capaci di generare risposte con passaggi testuali accompagnati da immagini, simili a un libro di cucina. I modelli progettati per generare testo e immagini in modo intercalato affrontano sfide nel garantire coerenza all'interno e tra queste modalità. Per affrontare tali sfide, presentiamo ISG, un quadro di valutazione completo per la generazione di testo e immagini intercalati. ISG sfrutta una struttura a grafo della scena per catturare le relazioni tra i blocchi di testo e immagine, valutando le risposte su quattro livelli di granularità: olistico, strutturale, a livello di blocco e specifico dell'immagine. Questa valutazione a più livelli consente una valutazione sfumata di coerenza, coesione e precisione, e fornisce un feedback interpretabile domanda-risposta. In congiunzione con ISG, introduciamo un benchmark, ISG-Bench, che comprende 1.150 campioni distribuiti su 8 categorie e 21 sottocategorie. Questo dataset di benchmark include dipendenze complesse tra linguaggio e visione e risposte d'oro per valutare efficacemente i modelli su compiti centrati sulla visione come il trasferimento di stile, un'area sfidante per i modelli attuali. Utilizzando ISG-Bench, dimostriamo che i recenti modelli unificati di visione e linguaggio hanno prestazioni scadenti nella generazione di contenuti intercalati. Mentre gli approcci compositivi che combinano modelli separati di linguaggio e immagine mostrano un miglioramento del 111% rispetto ai modelli unificati a livello olistico, le loro prestazioni rimangono non ottimali a livello di blocco e immagine. Per agevolare il lavoro futuro, sviluppiamo ISG-Agent, un agente di base che impiega un pipeline "pianifica-esegui-affina" per invocare strumenti, ottenendo un miglioramento delle prestazioni del 122%.
I modelli di diffusione testo-immagine producono risultati impressionanti ma sono strumenti frustranti per gli artisti che desiderano un controllo dettagliato. Ad esempio, un caso d'uso comune è creare immagini di un'istanza specifica in contesti nuovi, ovvero "generazione preservante l'identità". Questa impostazione, insieme a molte altre attività (ad esempio, il rilievo della luce), si adatta naturalmente ai modelli generativi condizionati immagine+testo. Tuttavia, non esistono dati accoppiati di alta qualità sufficienti per addestrare direttamente un tale modello. Proponiamo l'Auto-Distillazione per Diffusione, un metodo per utilizzare un modello preaddestrato testo-immagine per generare il proprio dataset per compiti immagine-immagine condizionati dal testo. Prima sfruttiamo la capacità di generazione in contesto di un modello di diffusione testo-immagine per creare griglie di immagini e curare un ampio dataset accoppiato con l'aiuto di un Modello Visivo-Linguistico. Successivamente, perfezioniamo il modello testo-immagine in un modello testo+immagine-immagine utilizzando il dataset accoppiato curato. Dimostriamo che l'Auto-Distillazione per Diffusione supera i metodi zero-shot esistenti ed è competitiva con le tecniche di taratura per istanza su una vasta gamma di compiti di generazione preservante l'identità, senza richiedere ottimizzazioni al momento del test.
Recenti progressi nella ricostruzione del campo di radianza, come lo Splatting Gaussiano 3D (3DGS), hanno raggiunto una sintesi di nuove visuali di alta qualità e un rendering veloce rappresentando scene con composizioni di primitive gaussiane. Tuttavia, i Gaussiani 3D presentano diverse limitazioni per la ricostruzione delle scene. Catturare con precisione i bordi netti è sfidante senza aumentare significativamente il numero di Gaussiane, creando un grande impatto sulla memoria. Inoltre, faticano a rappresentare superfici piane, poiché si diffondono nello spazio. Senza regolarizzatori artigianali, tendono a dispersi irregolarmente intorno alla superficie effettiva. Per superare questi problemi, introduciamo un nuovo metodo, chiamato Splatting Convesso 3D (3DCS), che sfrutta convessi lisci in 3D come primitive per modellare campi di radianza geometricamente significativi da immagini multi-vista. Le forme convexe lisce offrono una maggiore flessibilità rispetto ai Gaussiani, consentendo una migliore rappresentazione di scene 3D con bordi netti e volumi densi utilizzando meno primitive. Potenziato dal nostro rasterizzatore efficiente basato su CUDA, 3DCS raggiunge prestazioni superiori rispetto a 3DGS su benchmark come Mip-NeRF360, Tanks and Temples e Deep Blending. In particolare, il nostro metodo ottiene un miglioramento fino a 0.81 in PSNR e 0.026 in LPIPS rispetto a 3DGS mantenendo alte velocità di rendering e riducendo il numero di primitive richieste. I nostri risultati evidenziano il potenziale dello Splatting Convesso 3D per diventare il nuovo standard per la ricostruzione di scene di alta qualità e la sintesi di nuove visuali. Pagina del progetto: convexsplatting.github.io.
Di recente, il modello di diffusione è emerso come una potente tecnica generativa per l'apprendimento delle politiche robotiche, in grado di modellare distribuzioni di azioni multi-modalità. Sfruttare la sua capacità per la guida autonoma end-to-end è una direzione promettente. Tuttavia, i numerosi passaggi di denoising nella politica di diffusione robotica e la natura più dinamica e aperta delle scene del traffico pongono notevoli sfide per generare azioni di guida diverse a velocità in tempo reale. Per affrontare queste sfide, proponiamo una nuova politica di diffusione troncata che incorpora ancoraggi multi-modalità precedenti e tronca il programma di diffusione, consentendo al modello di apprendere il denoising dalla distribuzione gaussiana ancorata alla distribuzione multi-modalità delle azioni di guida. Inoltre, progettiamo un efficiente decodificatore a diffusione a cascata per un'interazione migliorata con il contesto della scena condizionale. Il modello proposto, DiffusionDrive, dimostra una riduzione di 10 volte nei passaggi di denoising rispetto alla politica di diffusione standard, offrendo una maggiore diversità e qualità in soli 2 passaggi. Sul dataset NAVSIM orientato alla pianificazione, con la spina dorsale ResNet-34 allineata, DiffusionDrive raggiunge 88.1 PDMS senza fronzoli, stabilendo un nuovo record, mentre funziona a una velocità in tempo reale di 45 FPS su un NVIDIA 4090. I risultati qualitativi su scenari sfidanti confermano ulteriormente che DiffusionDrive può generare in modo robusto diverse azioni di guida plausibili. Il codice e il modello saranno disponibili su https://github.com/hustvl/DiffusionDrive.
I personaggi 3D sono essenziali per le moderne industrie creative, ma renderli animabili richiede spesso un'estesa opera manuale in compiti come il rigging e lo skinning. Gli attuali strumenti automatici di rigging presentano diverse limitazioni, tra cui la necessità di annotazioni manuali, topologie scheletriche rigide e limitata generalizzazione tra diverse forme e pose. Un approccio alternativo è generare avatar animabili pre-legati a un mesh di template riggato. Tuttavia, questo metodo spesso manca di flessibilità ed è tipicamente limitato a forme umane realistiche. Per affrontare tali questioni, presentiamo Make-It-Animatable, un nuovo metodo basato sui dati per rendere pronto per l'animazione dei personaggi qualsiasi modello umanoide 3D in meno di un secondo, indipendentemente dalle sue forme e pose. Il nostro framework unificato genera pesi di miscelazione, ossa e trasformazioni di pose di alta qualità. Integrando un autoencoder di forme basato su particelle, il nostro approccio supporta diverse rappresentazioni 3D, inclusi mesh e schizzi gaussiani 3D. Inoltre, impieghiamo una rappresentazione da grossolana a fine e una strategia di modellazione consapevole della struttura per garantire sia accuratezza che robustezza, anche per personaggi con strutture scheletriche non standard. Abbiamo condotto estesi esperimenti per convalidare l'efficacia del nostro framework. Rispetto ai metodi esistenti, il nostro approccio dimostra significativi miglioramenti sia in termini di qualità che di velocità.
La generazione di video da testo a video (IPT2V) che preserva l'identità mira a creare video ad alta fedeltà con un'identità umana coerente. Si tratta di un compito importante nella generazione di video, ma rimane un problema aperto per i modelli generativi. Questo articolo spinge il confine tecnico dell'IPT2V in due direzioni che non sono state risolte nella letteratura: (1) Un flusso di lavoro senza sintonizzazione senza noiosi aggiustamenti caso per caso e (2) Uno schema di controllo basato su DiT che preserva l'identità in modo euristico consapevole della frequenza. Proponiamo ConsisID, un modello IPT2V controllabile basato su DiT senza sintonizzazione per mantenere l'identità umana coerente nel video generato. Ispirato alle scoperte precedenti nell'analisi delle frequenze dei trasformatori di diffusione, impiega segnali di controllo dell'identità nel dominio delle frequenze, dove le caratteristiche facciali possono essere decomposte in caratteristiche globali a bassa frequenza e caratteristiche intrinseche ad alta frequenza. In primo luogo, da una prospettiva a bassa frequenza, introduciamo un estrattore facciale globale, che codifica immagini di riferimento e punti chiave del viso in uno spazio latente, generando caratteristiche arricchite di informazioni a bassa frequenza. Queste caratteristiche vengono poi integrate nei livelli superficiali della rete per alleviare le sfide di addestramento associate a DiT. In secondo luogo, da una prospettiva ad alta frequenza, progettiamo un estrattore facciale locale per catturare dettagli ad alta frequenza e iniettarli nei blocchi del trasformatore, potenziando la capacità del modello di preservare caratteristiche dettagliate. Proponiamo una strategia di addestramento gerarchico per sfruttare le informazioni sulla frequenza per la conservazione dell'identità, trasformando un modello di generazione video preaddestrato di base in un modello IPT2V. Estesi esperimenti dimostrano che il nostro schema euristico consapevole della frequenza fornisce una soluzione di controllo ottimale per i modelli basati su DiT. Grazie a questo schema, il nostro ConsisID genera video di alta qualità che preservano l'identità, facendo progressi verso IPT2V più efficaci.
La postura umana gioca un ruolo cruciale nell'era digitale. Mentre lavori recenti hanno ottenuto progressi impressionanti nella comprensione e generazione delle pose umane, spesso supportano solo una singola modalità di segnali di controllo e operano in isolamento, limitando la loro applicazione in scenari reali. Questo articolo presenta UniPose, un framework che impiega Large Language Models (LLM) per comprendere, generare e modificare pose umane attraverso varie modalità, incluse immagini, testo e pose 3D SMPL. In particolare, applichiamo un tokenizzatore di pose per convertire pose 3D in token di pose discreti, consentendo un'integrazione senza soluzione di continuità nell'LLM all'interno di un vocabolario unificato. Per potenziare ulteriormente le capacità di percezione dettagliata delle pose, facilitiamo UniPose con una miscela di encoder visivi, tra cui un encoder visivo specifico per le pose. Beneficiando di una strategia di apprendimento unificata, UniPose trasferisce efficacemente conoscenze tra diverse attività rilevanti per le pose, si adatta a compiti non visti ed esibisce capacità estese. Questo lavoro rappresenta il primo tentativo di costruire un framework ad uso generale per la comprensione, generazione e modifica delle pose. Esperimenti estesi evidenziano le prestazioni competitive e persino superiori di UniPose su varie attività rilevanti per le pose.
Nel campo in rapida evoluzione della generazione di immagini, la modellazione Auto-Regressiva Visuale (VAR) ha attirato notevole attenzione per il suo innovativo approccio predittivo su scala successiva. Questo paradigma offre significativi miglioramenti in efficienza, scalabilità e generalizzazione senza esempi. Tuttavia, la natura intrinsecamente grossolana a fine di VAR introduce una sequenza prolungata di token, portando a un consumo di memoria proibitivo e a ridondanze computazionali. Per affrontare questi ostacoli, proponiamo il Decodifica Collaborativa (CoDe), una nuova strategia di decodifica efficiente su misura per il framework VAR. CoDe si basa su due osservazioni critiche: le notevoli riduzioni delle richieste di parametri a scale più grandi e i modelli esclusivi di generazione attraverso diverse scale. Sfruttando questi approfondimenti, suddividiamo il processo di inferenza multi-scala in una collaborazione senza soluzione di continuità tra un modello grande e uno piccolo. Il modello grande funge da 'progettista', specializzandosi nella generazione di contenuti a bassa frequenza a scale minori, mentre il modello più piccolo funge da 'raffinatore', concentrato esclusivamente sulla previsione di dettagli ad alta frequenza a scale maggiori. Questa collaborazione garantisce un'efficienza notevole con un impatto minimo sulla qualità: CoDe ottiene un aumento di velocità del 1,7x, riduce l'uso della memoria di circa il 50% e conserva la qualità dell'immagine con solo un aumento trascurabile del FID da 1,95 a 1,98. Riducendo ulteriormente i passaggi di progettazione, CoDe può raggiungere un impressionante rapporto di accelerazione del 2,9x, raggiungendo 41 immagini/s a una risoluzione di 256x256 su una singola GPU NVIDIA 4090, mantenendo un FID apprezzabile di 2,27. Il codice è disponibile su https://github.com/czg1225/CoDe
La generazione di immagini personalizzate richiede modelli generativi testo-immagine in grado di catturare le caratteristiche principali di un soggetto di riferimento per consentire una generazione controllata in contesti diversi. I metodi esistenti affrontano sfide dovute a requisiti complessi di addestramento, costi elevati di inferenza, limitata flessibilità o una combinazione di questi problemi. In questo articolo, presentiamo DreamCache, un approccio scalabile per una generazione efficiente e di alta qualità di immagini personalizzate. Tramite la memorizzazione nella cache di un numero limitato di caratteristiche dell'immagine di riferimento da un sottoinsieme di strati e un singolo passaggio del denoiser di diffusione preaddestruito, DreamCache consente la modulazione dinamica delle caratteristiche dell'immagine generata attraverso adattatori di condizionamento leggeri e addestrati. DreamCache raggiunge un allineamento di immagini e testo all'avanguardia, utilizzando un ordine di grandezza inferiore di parametri extra e risulta sia più efficiente computazionalmente che versatile rispetto ai modelli esistenti.
La percezione e la comprensione sono due pilastri della visione artificiale. Mentre i modelli linguistici multimodali su larga scala (MLLM) hanno dimostrato notevoli capacità di comprensione visiva, mancano probabilmente di precise capacità di percezione, ad esempio il modello all'avanguardia Qwen2-VL raggiunge solo un tasso di richiamo del 43,9% sul dataset COCO, limitando molte attività che richiedono la combinazione di percezione e comprensione. In questo lavoro, ci proponiamo di colmare questa lacuna nella percezione da entrambe le prospettive di progettazione del modello e sviluppo dei dati. Introduciamo innanzitutto ChatRex, un MLLM con un design di percezione disaccoppiato. Invece di far predire direttamente al LLM le coordinate dei box, alimentiamo i box di output da una rete di proposte universale nel LLM, consentendogli di produrre gli indici dei box corrispondenti per rappresentare i risultati della sua rilevazione, trasformando il compito di regressione in un compito basato sul recupero che il LLM gestisce in modo più efficiente. Dal punto di vista dei dati, costruiamo un motore dati completamente automatizzato e creiamo il dataset Rexverse-2M che possiede molteplici granularità per supportare l'addestramento congiunto di percezione e comprensione. Dopo un addestramento standard a due fasi, ChatRex dimostra forti capacità di percezione preservando al contempo le prestazioni di comprensione multimodale. La combinazione di queste due capacità sblocca contemporaneamente molte applicazioni interessanti, dimostrando i ruoli complementari di percezione e comprensione nei MLLM. Il codice è disponibile su https://github.com/IDEA-Research/ChatRex.
La generazione di effetti sonori per video richiede spesso la creazione di effetti sonori artistici che si discostano significativamente dalle fonti della vita reale e un controllo flessibile nel design del suono. Per affrontare questo problema, presentiamo MultiFoley, un modello progettato per la generazione sonora guidata dai video che supporta il condizionamento multimodale attraverso testo, audio e video. Dato un video silenzioso e un prompt di testo, MultiFoley consente agli utenti di creare suoni puliti (ad esempio, le ruote dello skateboard che girano senza rumore del vento) o suoni più fantasiosi (ad esempio, far sembrare il ruggito di un leone come il miagolio di un gatto). MultiFoley consente anche agli utenti di scegliere audio di riferimento da librerie di effetti sonori (SFX) o video parziali per il condizionamento. Una novità chiave del nostro modello risiede nella sua formazione congiunta su set di dati video di internet con audio di bassa qualità e registrazioni SFX professionali, consentendo la generazione di audio ad alta qualità a piena larghezza di banda (48kHz). Attraverso valutazioni automatizzate e studi umani, dimostriamo che MultiFoley genera con successo suoni di alta qualità sincronizzati attraverso vari input condizionati e supera i metodi esistenti. Si prega di consultare la pagina del nostro progetto per i risultati video: https://ificl.github.io/MultiFoley/
In questo lavoro, introduciamo un singolo parametro omega, per controllare efficacemente la granularità nella sintesi basata sulla diffusione. Questo parametro è incorporato durante le fasi di denoising del processo inverso del modello di diffusione. Il nostro approccio non richiede il ritraining del modello, modifiche architetturali o overhead computazionale aggiuntivo durante l'inferenza, consentendo comunque un controllo preciso sul livello di dettaglio nelle uscite generate. Inoltre, maschere spaziali o programmi di denoising con valori omega variabili possono essere applicati per ottenere un controllo della granularità specifico per regioni o specifico per timestep. La conoscenza pregressa della composizione dell'immagine da segnali di controllo o immagini di riferimento facilita ulteriormente la creazione di maschere omega precise per il controllo della granularità su oggetti specifici. Per evidenziare il ruolo del parametro nel controllo delle sottili variazioni dei dettagli, la tecnica è denominata Omegance, combinando "omega" e "nuance". Il nostro metodo dimostra prestazioni impressionanti in vari compiti di sintesi di immagini e video ed è adattabile a modelli di diffusione avanzati. Il codice è disponibile su https://github.com/itsmag11/Omegance.
Il Decodice Speculativo (SD) è diventato una tecnica importante per accelerare la velocità di inferenza dei grandi modelli linguistici. I metodi SD convenzionali utilizzano una lunghezza di bozza fissa, che non tiene conto della difficoltà di generazione dei token tra compiti diversi. Pertanto, in questo articolo, affrontiamo tale problematica e presentiamo SVIP - una politica dinamica di lunghezza di bozza consapevole della difficoltà per i sistemi di decodifica speculativa. Basandoci su un limite inferiore teorico del tasso di accettazione dei token di bozza e sulla sua approssimazione al tempo di inferenza, SVIP determina in modo adattivo le lunghezze delle sequenze di bozza in base all'entropia di ciascuna distribuzione di token di bozza. I risultati sperimentali su benchmark e framework SD di rilievo dimostrano le prestazioni superiori di SVIP, ottenendo fino al 20\% di accelerazione del tempo di esecuzione su SpecBench rispetto ai metodi SD di base e il 60\% di accelerazione su MT-Bench per la generazione di testi lunghi fino a 8K token. Inoltre, SVIP è completamente privo di addestramento e compatibile con qualsiasi metodo SD esistente che genera token di bozza in modo autoregressivo. I risultati sperimentali mostrano inoltre che SVIP fornisce un miglioramento costante del tempo di esecuzione in aggiunta a GliDe & CaPE ed EAGLE-2.
Le ricerche recenti sui grandi modelli linguistici video (VideoLLM) si concentrano principalmente sulle architetture dei modelli e sui set di dati di addestramento, lasciando in secondo piano il formato di interazione tra l'utente e il modello. Nei lavori esistenti, gli utenti interagiscono spesso con i VideoLLM utilizzando l'intero video e una query come input, dopodiché il modello genera una risposta. Questo formato di interazione limita l'applicazione dei VideoLLM in scenari come la comprensione in live streaming, dove i video non finiscono e le risposte sono richieste in tempo reale, e porta anche a prestazioni non soddisfacenti in compiti sensibili al tempo che richiedono la localizzazione dei segmenti video. In questo articolo, ci concentriamo su un formato di interazione video-testo a due voci. Questo formato di interazione è caratterizzato dalla riproduzione continua del video, e sia l'utente che il modello possono inserire i propri messaggi di testo in qualsiasi posizione durante la riproduzione del video. Quando un messaggio di testo termina, il video continua a riprodursi, simile all'alternanza di due esecutori in un duetto. Costruiamo MMDuetIT, un set di dati di addestramento video-testo progettato per adattare i VideoLLM al formato di interazione video-testo a due voci. Introduciamo anche il compito di Question Answering su Video con Risposte Multiple (MAGQA) per valutare la capacità di risposta in tempo reale dei VideoLLM. Addestrato su MMDuetIT, MMDuet dimostra che l'adozione del formato di interazione video-testo a due voci consente al modello di ottenere miglioramenti significativi in vari compiti sensibili al tempo (76% CIDEr sulla descrizione densa di video YouCook2, 90% mAP sulla rilevazione dei momenti salienti di QVHighlights e 25% R@0.5 sulla localizzazione temporale dei video di Charades-STA) con minimi sforzi di addestramento, consentendo inoltre ai VideoLLM di rispondere in tempo reale mentre il video viene riprodotto. Il codice, i dati e la demo sono disponibili su: https://github.com/yellow-binary-tree/MMDuet.
Identificare le principali caratteristiche patologiche nelle MRI cerebrali è cruciale per la sopravvivenza a lungo termine dei pazienti affetti da glioma. Tuttavia, la segmentazione manuale è dispendiosa in termini di tempo, richiede l'intervento di esperti ed è suscettibile agli errori umani. Pertanto, significative ricerche sono state dedicate allo sviluppo di metodi di apprendimento automatico che possano segmentare con precisione i tumori nelle scansioni MRI cerebrali 3D multimodali. Nonostante i progressi compiuti, i modelli all'avanguardia sono spesso limitati dai dati su cui vengono addestrati, sollevando preoccupazioni sulla loro affidabilità quando applicati a popolazioni diverse che possono introdurre spostamenti nella distribuzione. Tali spostamenti possono derivare da tecnologie MRI di qualità inferiore (ad esempio, in Africa subsahariana) o da variazioni nelle caratteristiche demografiche dei pazienti (ad esempio, bambini). La sfida BraTS-2024 fornisce una piattaforma per affrontare tali questioni. Questo studio presenta la nostra metodologia per la segmentazione dei tumori nei compiti BraTS-2024 SSA e Tumori Pediatrici utilizzando MedNeXt, l'ensemble di modelli completo e un accurato postprocessing. Il nostro approccio ha dimostrato ottime prestazioni sul set di validazione non visto, raggiungendo un Coefficiente di Similarità di Dice (DSC) medio di 0,896 sul dataset BraTS-2024 SSA e un DSC medio di 0,830 sul dataset BraTS Tumori Pediatrici. Inoltre, il nostro metodo ha ottenuto una Distanza di Hausdorff media (HD95) di 14,682 sul dataset BraTS-2024 SSA e un HD95 medio di 37,508 sul dataset BraTS Pediatrici. Il nostro repository GitHub è accessibile qui: Repository del Progetto: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics
I modelli ciechi di ripristino di immagini all-in-one mirano a recuperare un'immagine di alta qualità da un input degradato con distorsioni sconosciute. Tuttavia, questi modelli richiedono che tutti i possibili tipi di degrado siano definiti durante la fase di addestramento, mostrando una limitata generalizzazione alle distorsioni non viste, il che limita la loro applicazione pratica in casi complessi. In questo articolo, proponiamo un modello di ripristino cieco all-in-one adattivo (ABAIR) semplice ma efficace, che può affrontare molteplici degradazioni, generalizzando bene alle distorsioni non viste e incorporando efficientemente nuove degradazioni addestrando una piccola frazione di parametri. Prima, addestriamo il nostro modello di base su un ampio dataset di immagini naturali con molteplici degradazioni sintetiche, arricchite con un segmentatore per stimare i tipi di degrado per pixel, ottenendo così una potente struttura di base in grado di generalizzare a una vasta gamma di degradazioni. Secondo, adattiamo il nostro modello di base a varie attività di ripristino di immagini utilizzando adattatori indipendenti a basso rango. Terzo, impariamo a combinare in modo adattivo gli adattatori per immagini versatili tramite un estimatore di degrado flessibile e leggero. Il nostro modello è potente nel gestire distorsioni specifiche e flessibile nell'adattarsi a compiti complessi, superando di gran lunga lo stato dell'arte su configurazioni IR a cinque e tre attività, mostrando anche una migliorata generalizzazione alle distorsioni non viste e alle distorsioni composite.
Il rapido avanzamento dei grandi modelli linguistici (LLM) come GPT-3, PaLM e Llama ha trasformato significativamente l'elaborazione del linguaggio naturale, mostrando notevoli capacità nell'interpretazione e generazione del linguaggio. Tuttavia, questi modelli spesso faticano con compiti che richiedono un ragionamento complesso, in particolare nella risoluzione di problemi matematici, a causa in parte della scarsità di dataset specifici del dominio di larga scala e di alta qualità necessari per addestrare abilità di ragionamento sofisticate. Per affrontare questa limitazione, introduciamo la Generazione di Dati basata su Modelli di Template (TDG), un nuovo approccio che sfrutta i LLM (GPT-4) per generare automaticamente meta-template parametrizzati, che vengono poi utilizzati per sintetizzare una vasta gamma di problemi e soluzioni di alta qualità. Sfruttando TDG, creiamo TemplateMath Part I: TemplateGSM, un dataset composto da oltre 7 milioni di problemi matematici di scuola elementare generati sinteticamente - ciascuno accompagnato da soluzioni in linguaggio naturale e basate su codice - con il potenziale di generare un numero virtualmente illimitato di ulteriori problemi. Questo dataset allevia la scarsità di dataset matematici su larga scala e funge da preziosa risorsa per il pre-addestramento, il raffinamento e la valutazione dei LLM nel ragionamento matematico. Il nostro metodo non solo consente la generazione di dati virtualmente infiniti, ma eleva anche l'aumento dei dati a un nuovo livello utilizzando GPT-4 per la generazione di meta-template, garantendo strutture di problemi diverse e di alta qualità. Il dataset TemplateMath Part I: TemplateGSM è disponibile pubblicamente su https://huggingface.co/datasets/math-ai/TemplateGSM. Il codice è disponibile su https://github.com/iiis-ai/TemplateMath.
Recenti progressi nei modelli di diffusione hanno reso l'editing generativo di immagini più accessibile, consentendo modifiche creative ma sollevando preoccupazioni etiche, in particolare riguardo a modifiche malintenzionate a ritratti umani che minacciano la privacy e la sicurezza dell'identità. I metodi di protezione esistenti si basano principalmente su perturbazioni avversarie per annullare le modifiche ma spesso falliscono contro richieste di editing diverse. Proponiamo FaceLock, un nuovo approccio alla protezione dei ritratti che ottimizza le perturbazioni avversarie per distruggere o alterare significativamente le informazioni biometriche, rendendo gli output modificati biometricamente irriconoscibili. FaceLock integra il riconoscimento facciale e la percezione visiva nell'ottimizzazione delle perturbazioni per fornire una protezione robusta contro vari tentativi di editing. Evidenziamo anche difetti nelle metriche di valutazione comunemente utilizzate e mostriamo come possano essere manipolate, sottolineando la necessità di valutazioni affidabili della protezione. Gli esperimenti mostrano che FaceLock supera i baselines nella difesa contro modifiche malintenzionate ed è robusto contro le tecniche di purificazione. Studi di ablazione confermano la sua stabilità e ampia applicabilità attraverso algoritmi di editing basati sulla diffusione. Il nostro lavoro fa progredire la difesa biometrica e getta le basi per pratiche di preservazione della privacy nell'editing di immagini. Il codice è disponibile su: https://github.com/taco-group/FaceLock.