Articoli di ricerca IA selezionati quotidianamente con traduzioni
La modellazione autoregressiva a lungo contesto ha fatto progressi significativi nella generazione del linguaggio, ma la generazione video fatica ancora a sfruttare appieno contesti temporali estesi. Per indagare la modellazione video a lungo contesto, introduciamo Frame AutoRegressive (FAR), una solida baseline per la modellazione autoregressiva video. Proprio come i modelli linguistici apprendono dipendenze causali tra token (cioè Token AR), FAR modella le dipendenze causali temporali tra frame continui, ottenendo una convergenza migliore rispetto a Token AR e ai transformer di diffusione video. Basandoci su FAR, osserviamo che la modellazione visiva a lungo contesto affronta sfide dovute alla ridondanza visiva. L'attuale RoPE manca di un decadimento temporale efficace per contesti remoti e non riesce a estrapolare bene su sequenze video lunghe. Inoltre, l'addestramento su video lunghi è computazionalmente costoso, poiché i token visivi crescono molto più velocemente dei token linguistici. Per affrontare questi problemi, proponiamo di bilanciare località e dipendenza a lungo raggio. Introduciamo FlexRoPE, una tecnica in fase di test che aggiunge un decadimento temporale flessibile a RoPE, consentendo l'estrapolazione a contesti visivi 16 volte più lunghi. Inoltre, proponiamo la modellazione del contesto a breve e lungo termine, in cui una finestra di contesto a breve termine ad alta risoluzione garantisce una coerenza temporale fine, mentre una finestra di contesto a lungo termine illimitata codifica informazioni a lungo raggio utilizzando meno token. Con questo approccio, possiamo addestrare su sequenze video lunghe con una lunghezza di contesto token gestibile. Dimostriamo che FAR raggiunge prestazioni all'avanguardia sia nella generazione di video brevi che lunghi, fornendo una baseline semplice ma efficace per la modellazione autoregressiva video.
La percezione ad alta risoluzione dei dettagli visivi è cruciale per le attività quotidiane. Tuttavia, l'attuale pre-addestramento visivo è ancora limitato a risoluzioni basse (ad esempio, 378 x 378 pixel) a causa del costo quadratico di elaborazione di immagini più grandi. Introduciamo PS3, che scala il pre-addestramento visivo in stile CLIP fino a una risoluzione 4K con un costo quasi costante. Invece di utilizzare l'apprendimento contrastivo sulla rappresentazione globale dell'immagine, PS3 viene pre-addestrato elaborando selettivamente regioni locali e confrontandole con didascalie dettagliate locali, consentendo l'apprendimento di rappresentazioni ad alta risoluzione con un overhead computazionale notevolmente ridotto. Il modello pre-addestrato PS3 è in grado sia di codificare l'immagine globale a bassa risoluzione sia di elaborare selettivamente regioni locali ad alta risoluzione in base alla loro salienza o rilevanza rispetto a un prompt testuale. Quando PS3 viene applicato a un LLM multimodale (MLLM), il modello risultante, denominato VILA-HD, migliora significativamente la percezione visiva ad alta risoluzione rispetto ai baseline senza pre-addestramento visivo ad alta risoluzione, come AnyRes e S^2, utilizzando fino a 4,3 volte meno token. PS3 sblocca anche interessanti proprietà di scalabilità di VILA-HD, inclusa la scalabilità della risoluzione senza costi aggiuntivi e l'aumento del calcolo al momento del test per ottenere prestazioni migliori. Rispetto allo stato dell'arte, VILA-HD supera i precedenti MLLM come NVILA e Qwen2-VL su più benchmark e raggiunge una migliore efficienza rispetto ai più recenti approcci di pruning dei token. Infine, osserviamo che gli attuali benchmark non richiedono una percezione a risoluzione 4K, il che ci ha motivato a proporre 4KPro, un nuovo benchmark di QA su immagini a risoluzione 4K, su cui VILA-HD supera tutti i precedenti MLLM, con un miglioramento del 14,5% rispetto a GPT-4o e un miglioramento del 3,2% e un'accelerazione di 2,96 volte rispetto a Qwen2-VL.
Proponiamo un approccio di scalatura al momento dell'inferenza per modelli di flusso pre-addestrati. Recentemente, la scalatura al momento dell'inferenza ha attirato notevole attenzione nei modelli linguistici di grandi dimensioni (LLM) e nei modelli di diffusione, migliorando la qualità dei campioni o allineando meglio gli output con le preferenze degli utenti sfruttando calcoli aggiuntivi. Per i modelli di diffusione, il campionamento particellare ha permesso una scalatura più efficiente grazie alla stocasticità nei passaggi intermedi di denoising. Al contrario, sebbene i modelli di flusso abbiano guadagnato popolarità come alternativa ai modelli di diffusione—offrendo una generazione più rapida e output di alta qualità nei modelli generativi all'avanguardia per immagini e video—i metodi efficienti di scalatura al momento dell'inferenza utilizzati per i modelli di diffusione non possono essere applicati direttamente a causa del loro processo generativo deterministico. Per abilitare una scalatura efficiente al momento dell'inferenza nei modelli di flusso, proponiamo tre idee chiave: 1) Generazione basata su SDE, che consente il campionamento particellare nei modelli di flusso, 2) Conversione dell'interpolante, ampliando lo spazio di ricerca e migliorando la diversità dei campioni, e 3) Rollover Budget Forcing (RBF), un'allocazione adattiva delle risorse computazionali attraverso i passaggi temporali per massimizzare l'utilizzo del budget. I nostri esperimenti dimostrano che la generazione basata su SDE, in particolare la generazione basata su interpolante a varianza preservata (VP), migliora le prestazioni dei metodi di campionamento particellare per la scalatura al momento dell'inferenza nei modelli di flusso. Inoltre, dimostriamo che RBF con VP-SDE raggiunge le migliori prestazioni, superando tutti gli approcci precedenti di scalatura al momento dell'inferenza.
L'allucinazione dei grandi modelli multimodali (LMM), che forniscono risposte apparentemente corrette ma in realtà errate, limita la loro affidabilità e applicabilità. Questo articolo si propone di studiare il problema dell'allucinazione degli LMM nella modalità video, che è dinamica e più complessa rispetto alle modalità statiche come immagini e testo. Partendo da questa motivazione, presentiamo innanzitutto un benchmark completo denominato HAVEN per valutare le allucinazioni degli LMM nei compiti di comprensione video. È costruito su tre dimensioni, ovvero cause dell'allucinazione, aspetti dell'allucinazione e formati delle domande, risultando in 6K domande. Successivamente, studiamo quantitativamente 7 fattori influenti sulle allucinazioni, ad esempio la durata dei video, le dimensioni del modello e il ragionamento del modello, attraverso esperimenti su 16 LMM utilizzando il benchmark presentato. Inoltre, ispirati da recenti modelli di pensiero come OpenAI o1, proponiamo un modello di pensiero video per mitigare le allucinazioni degli LMM tramite fine-tuning supervisionato del ragionamento (SRFT) e ottimizzazione diretta delle preferenze (TDPO)—dove SRFT migliora le capacità di ragionamento mentre TDPO riduce le allucinazioni nel processo di pensiero. Esperimenti e analisi estesi ne dimostrano l'efficacia. In particolare, migliora la baseline del 7,65% in accuratezza nella valutazione delle allucinazioni e riduce il punteggio di bias del 4,5%. Il codice e i dati sono pubblici all'indirizzo https://github.com/Hongcheng-Gao/HAVEN.
I modelli di base pre-addestrati per la visione (Vision Foundation Models, VFMs) forniscono rappresentazioni visive robuste per un'ampia gamma di applicazioni. In questo articolo, pre-addestriamo in modo continuativo i VFMs prevalenti in maniera multimodale, in modo che possano elaborare senza sforzo input visivi di dimensioni variabili e produrre rappresentazioni visive più allineate con le rappresentazioni linguistiche, indipendentemente dal loro processo di pre-addestramento originale. A tal fine, introduciamo CoMP, una pipeline di pre-addestramento multimodale progettata con cura. CoMP utilizza un'Incorporazione Posizionale Rotativa Continua per supportare il pre-addestramento continuativo a risoluzione nativa e una Perdita di Allineamento tra le caratteristiche visive e testuali attraverso prototipi linguistici per allineare le rappresentazioni multimodali. Con un addestramento in tre fasi, i nostri VFMs raggiungono miglioramenti significativi non solo nella comprensione multimodale, ma anche in altre attività downstream come la classificazione e la segmentazione. In modo notevole, CoMP-SigLIP ottiene punteggi di 66.7 su ChartQA e 75.9 su DocVQA con un LLM da 0.5B, mantenendo un'accuratezza dell'87.4% su ImageNet-1K e un mIoU di 49.5 su ADE20K nella valutazione con chunk congelati.
I recenti progressi nei grandi modelli linguistici (LLM), come OpenAI-o1 e DeepSeek-R1, hanno dimostrato l'efficacia dello scaling al momento del test, dove processi di ragionamento estesi migliorano sostanzialmente le prestazioni del modello. Nonostante ciò, i modelli attuali sono limitati nella gestione di testi lunghi e nell'efficienza dell'addestramento con apprendimento per rinforzo (RL). Per affrontare questi problemi, proponiamo un approccio semplice ma efficace di scaling al momento del test chiamato Multi-round Thinking. Questo metodo affina iterativamente il ragionamento del modello sfruttando le risposte precedenti come prompt per i round successivi. Esperimenti estesi su più modelli, tra cui QwQ-32B e DeepSeek-R1, mostrano costantemente miglioramenti delle prestazioni su vari benchmark come AIME 2024, MATH-500, GPQA-diamond e LiveCodeBench. Ad esempio, l'accuratezza di QwQ-32B è migliorata dall'80,3% (Round 1) all'82,1% (Round 2) sul dataset AIME 2024, mentre DeepSeek-R1 ha mostrato un aumento simile dal 79,7% all'82,0%. Questi risultati confermano che Multi-round Thinking è un approccio ampiamente applicabile e semplice per ottenere miglioramenti stabili nelle prestazioni del modello, sottolineandone il potenziale per futuri sviluppi nelle tecniche di scaling al momento del test. Il prompt chiave: {Prompt della domanda originale} La risposta precedente dell'assistente è: <risposta> {risposta del round precedente} </risposta>, e si prega di rispondere nuovamente.
Con il rapido avanzamento delle tecnologie di contenuto generato da Intelligenza Artificiale (AIGC), le immagini sintetiche sono diventate sempre più diffuse nella vita quotidiana, ponendo nuove sfide per la valutazione e il rilevamento dell'autenticità. Nonostante l'efficacia dei metodi esistenti nel valutare l'autenticità delle immagini e localizzare le falsificazioni, questi approcci spesso mancano di interpretabilità umana e non affrontano completamente la crescente complessità dei dati sintetici. Per affrontare queste sfide, introduciamo FakeVLM, un modello multimodale di grandi dimensioni specializzato sia per il rilevamento generale di immagini sintetiche che per i DeepFake. FakeVLM non solo eccelle nel distinguere immagini reali da quelle false, ma fornisce anche chiare spiegazioni in linguaggio naturale per gli artefatti delle immagini, migliorando l'interpretabilità. Inoltre, presentiamo FakeClue, un dataset completo contenente oltre 100.000 immagini in sette categorie, annotate con indizi dettagliati sugli artefatti in linguaggio naturale. FakeVLM dimostra prestazioni paragonabili ai modelli esperti, eliminando la necessità di ulteriori classificatori, rendendolo una soluzione robusta per il rilevamento di dati sintetici. Valutazioni estese su più dataset confermano la superiorità di FakeVLM sia nei compiti di classificazione dell'autenticità che di spiegazione degli artefatti, stabilendo un nuovo punto di riferimento per il rilevamento di immagini sintetiche. Il dataset e il codice saranno rilasciati su: https://github.com/opendatalab/FakeVLM.
Il Document Question Answering (DocQA) è un compito molto comune. I metodi esistenti che utilizzano Large Language Models (LLMs) o Large Vision Language Models (LVLMs) e Retrieval Augmented Generation (RAG) spesso privilegiano le informazioni provenienti da una singola modalità, non riuscendo a integrare efficacemente gli indizi testuali e visivi. Questi approcci faticano nel ragionamento multi-modale complesso, limitando le loro prestazioni sui documenti del mondo reale. Presentiamo MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding), un nuovo framework RAG e multi-agente che sfrutta sia il testo che le immagini. Il nostro sistema impiega cinque agenti specializzati: un agente generale, un agente critico, un agente testuale, un agente visivo e un agente di sintesi. Questi agenti partecipano al recupero contestuale multi-modale, combinando le loro intuizioni individuali per ottenere una comprensione più completa del contenuto del documento. Questo approccio collaborativo consente al sistema di sintetizzare le informazioni provenienti sia dai componenti testuali che visivi, portando a una maggiore accuratezza nel rispondere alle domande. Esperimenti preliminari su cinque benchmark come MMLongBench e LongDocURL dimostrano l'efficacia del nostro MDocAgent, ottenendo un miglioramento medio del 12,1% rispetto ai metodi attuali all'avanguardia. Questo lavoro contribuisce allo sviluppo di sistemi DocQA più robusti e completi, in grado di gestire le complessità dei documenti del mondo reale contenenti ricche informazioni testuali e visive. I nostri dati e il codice sono disponibili all'indirizzo https://github.com/aiming-lab/MDocAgent.
I Large Language Model (LLM) hanno dimostrato capacità notevoli nel ragionamento, come evidenziato dal successo di OpenAI-o1 e DeepSeek-R1. Tuttavia, integrare il ragionamento con processi di ricerca esterni rimane una sfida, specialmente per domande complesse multi-hop che richiedono più passaggi di recupero. Proponiamo ReSearch, un framework innovativo che addestra gli LLM a Ragionare con la Ricerca (Reason with Search) attraverso l'apprendimento per rinforzo, senza utilizzare dati supervisionati sui passaggi di ragionamento. Il nostro approccio tratta le operazioni di ricerca come componenti integrali della catena di ragionamento, in cui quando e come eseguire le ricerche è guidato da un pensiero basato sul testo, e i risultati della ricerca influenzano ulteriormente il ragionamento. Addestriamo ReSearch sui modelli Qwen2.5-7B(-Instruct) e Qwen2.5-32B(-Instruct) e conduciamo esperimenti estesi. Nonostante l'addestramento su un solo dataset, i nostri modelli dimostrano una forte generalizzabilità su vari benchmark. L'analisi rivela che ReSearch stimola naturalmente capacità avanzate di ragionamento come la riflessione e l'autocorrezione durante il processo di apprendimento per rinforzo.
Il Recupero di Immagini Composte (Composed Image Retrieval, CIR) è un compito complesso che mira a recuperare immagini basandosi su una query multimodale. I dati di addestramento tipici consistono in triplette contenenti un'immagine di riferimento, una descrizione testuale delle modifiche desiderate e l'immagine target, che sono costose e dispendiose in termini di tempo da acquisire. La scarsità di dataset per il CIR ha portato a approcci zero-shot che utilizzano triplette sintetiche o sfruttano modelli visione-linguaggio (Vision-Language Models, VLMs) con coppie immagine-didascalia raccolte dal web. Tuttavia, questi metodi presentano significative limitazioni: le triplette sintetiche soffrono di scala limitata, mancanza di diversità e testi di modifica innaturali, mentre le coppie immagine-didascalia ostacolano l'apprendimento congiunto degli embedding multimodali a causa dell'assenza di dati a triplette. Inoltre, gli approcci esistenti faticano con testi di modifica complessi e sfumati che richiedono una fusione e una comprensione sofisticata delle modalità visive e linguistiche. Presentiamo CoLLM, un framework completo che affronta efficacemente queste limitazioni. Il nostro approccio genera triplette al volo da coppie immagine-didascalia, consentendo un addestramento supervisionato senza annotazione manuale. Sfruttiamo i Modelli Linguistici di Grande Scala (Large Language Models, LLMs) per generare embedding congiunti di immagini di riferimento e testi di modifica, facilitando una fusione multimodale più profonda. Inoltre, introduciamo Multi-Text CIR (MTCIR), un dataset su larga scala composto da 3,4 milioni di campioni, e perfezioniamo i benchmark esistenti per il CIR (CIRR e Fashion-IQ) per migliorare l'affidabilità della valutazione. I risultati sperimentali dimostrano che CoLLM raggiunge prestazioni all'avanguardia su più benchmark e impostazioni del CIR. MTCIR produce risultati competitivi, con un miglioramento delle prestazioni fino al 15%. I nostri benchmark perfezionati forniscono metriche di valutazione più affidabili per i modelli CIR, contribuendo all'avanzamento di questo importante campo.
In questo articolo, proponiamo LSRNA, un nuovo framework per la generazione di immagini ad alta risoluzione (superiori a 1K) utilizzando modelli di diffusione, sfruttando la super-risoluzione direttamente nello spazio latente. I modelli di diffusione esistenti faticano a scalare oltre le risoluzioni di addestramento, spesso portando a distorsioni strutturali o ripetizioni di contenuto. I metodi basati su riferimento affrontano questi problemi aumentando la risoluzione di un riferimento a bassa risoluzione per guidare la generazione ad alta risoluzione. Tuttavia, si scontrano con sfide significative: l'aumento di risoluzione nello spazio latente spesso causa una deviazione della varietà, che degrada la qualità dell'output. D'altra parte, l'aumento di risoluzione nello spazio RGB tende a produrre output eccessivamente smussati. Per superare queste limitazioni, LSRNA combina la Super-Risoluzione nello Spazio Latente (LSR) per l'allineamento della varietà e l'Aggiunta di Rumore Regionale (RNA) per migliorare i dettagli ad alta frequenza. I nostri esperimenti estesi dimostrano che l'integrazione di LSRNA supera i metodi basati su riferimento all'avanguardia in varie risoluzioni e metriche, evidenziando il ruolo cruciale dell'aumento di risoluzione nello spazio latente nel preservare dettagli e nitidezza. Il codice è disponibile all'indirizzo https://github.com/3587jjh/LSRNA.
La scoperta e la raccolta di conoscenza sono compiti ad alta intensità di intelligenza che tradizionalmente richiedono un significativo sforzo umano per garantire risultati di alta qualità. Ricerche recenti hanno esplorato framework multi-agente per automatizzare la generazione di articoli in stile Wikipedia, recuperando e sintetizzando informazioni da internet. Tuttavia, questi metodi si concentrano principalmente sulla generazione di soli testi, trascurando l'importanza dei contenuti multimodali nel migliorare l'informatività e l'engagement. In questo lavoro, introduciamo WikiAutoGen, un sistema innovativo per la generazione automatizzata di articoli in stile Wikipedia con contenuti multimodali. A differenza degli approcci precedenti, WikiAutoGen recupera e integra immagini rilevanti insieme al testo, arricchendo sia la profondità che l'attrattiva visiva dei contenuti generati. Per migliorare ulteriormente l'accuratezza fattuale e la completezza, proponiamo un meccanismo di auto-riflessione multi-prospettica, che valuta criticamente i contenuti recuperati da diverse angolazioni per migliorare l'affidabilità, l'ampiezza e la coerenza, tra gli altri aspetti. Inoltre, introduciamo WikiSeek, un benchmark composto da articoli di Wikipedia con argomenti associati a rappresentazioni sia testuali che basate su immagini, progettato per valutare la generazione di conoscenza multimodale su argomenti più impegnativi. I risultati sperimentali mostrano che WikiAutoGen supera i metodi precedenti dell'8%-29% sul nostro benchmark WikiSeek, producendo articoli in stile Wikipedia più accurati, coerenti e arricchiti visivamente. Mostriamo alcuni dei nostri esempi generati su https://wikiautogen.github.io/.
I modelli generativi di base per video attualmente si concentrano principalmente su compiti di testo-a-video, offrendo un controllo limitato per la creazione di contenuti video dettagliati. Sebbene approcci basati su adattatori (ad esempio, ControlNet) consentano controlli aggiuntivi con una minima messa a punto, incontrano sfide nell'integrazione di più condizioni, tra cui: conflitti tra rami di adattatori addestrati in modo indipendente, ridondanza dei parametri che porta a un aumento dei costi computazionali e prestazioni subottimali rispetto a una messa a punto completa. Per affrontare queste sfide, introduciamo FullDiT, un modello di base unificato per la generazione di video che integra perfettamente più condizioni attraverso meccanismi di attenzione completa unificati. Fondendo le condizioni multi-task in una rappresentazione di sequenza unificata e sfruttando la capacità di apprendimento a lungo contesto dell'attenzione completa per catturare le dinamiche delle condizioni, FullDiT riduce l'overhead dei parametri, evita conflitti tra condizioni e mostra scalabilità e capacità emergenti. Introduciamo inoltre FullBench per la valutazione della generazione video multi-task. Gli esperimenti dimostrano che FullDiT raggiunge risultati all'avanguardia, evidenziando l'efficacia dell'attenzione completa nella generazione video multi-task complessa.
Generare viste a 360° di alta qualità di teste umane a partire da immagini a singola vista è essenziale per abilitare applicazioni di telepresenza immersiva accessibili e la creazione di contenuti personalizzati su larga scala. Mentre i metodi all'avanguardia per la generazione completa della testa sono limitati alla modellazione di teste umane realistiche, i più recenti approcci basati su diffusione per la sintesi di teste con stile onnisciente possono produrre solo viste frontali e faticano a mantenere la coerenza tra le diverse angolazioni, impedendo la loro conversione in veri modelli 3D per il rendering da angoli arbitrari. Introduciamo un approccio innovativo che genera viste a 360° completamente coerenti, adattandosi a forme umane, stilizzate e antropomorfe, inclusi accessori come occhiali e cappelli. Il nostro metodo si basa sul framework DiffPortrait3D, incorporando un ControlNet personalizzato per la generazione di dettagli della parte posteriore della testa e un modulo duale di aspetto per garantire la coerenza globale tra fronte e retro. Addestrando su sequenze di viste continue e integrando un'immagine di riferimento posteriore, il nostro approccio raggiunge una sintesi di viste robusta e localmente continua. Il nostro modello può essere utilizzato per produrre campi di radianza neurale (NeRF) di alta qualità per il rendering in tempo reale da punti di vista liberi, superando i metodi più avanzati nella sintesi di oggetti e nella generazione di teste a 360° per ritratti di input molto impegnativi.
La generazione di scene con asset 3D rappresenta una sfida complessa, che richiede sia una comprensione semantica di alto livello che un ragionamento geometrico di basso livello. Sebbene i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) eccellano nei compiti semantici, la loro applicazione alla generazione di scene 3D è limitata dalla loro scarsa capacità di ancoraggio alla geometria 3D. In questo articolo, indaghiamo come utilizzare al meglio gli MLLMs in un'attività di posizionamento di oggetti. A tal fine, introduciamo un nuovo framework, FirePlace, che applica gli MLLMs esistenti in (1) ragionamento geometrico 3D e estrazione di dettagli geometrici rilevanti dalla scena 3D, (2) costruzione e risoluzione di vincoli geometrici sulla geometria di basso livello estratta, e (3) selezione per posizionamenti finali che rispettino il buon senso. Combinando il ragionamento geometrico con la comprensione del mondo reale degli MLLMs, il nostro metodo può proporre posizionamenti di oggetti che soddisfano sia i vincoli geometrici che considerazioni semantiche di alto livello basate sul buon senso. I nostri esperimenti dimostrano che queste capacità consentono al nostro metodo di posizionare oggetti in modo più efficace in scene complesse con geometrie intricate, superando la qualità dei lavori precedenti.
La creazione di un gemello digitale fisico di un oggetto del mondo reale ha un potenziale immenso nella robotica, nella creazione di contenuti e nella realtà estesa (XR). In questo articolo, presentiamo PhysTwin, un nuovo framework che utilizza video sparsi di oggetti dinamici sotto interazione per produrre una replica virtuale fotorealistica, fisicamente realistica e interattiva in tempo reale. Il nostro approccio si concentra su due componenti chiave: (1) una rappresentazione informata dalla fisica che combina modelli a massa-molla per una simulazione fisica realistica, modelli generativi di forma per la geometria e spline gaussiane per il rendering; e (2) un innovativo framework di modellazione inversa basato su ottimizzazione multi-stadio che ricostruisce la geometria completa, inferisce proprietà fisiche dense e replica l'aspetto realistico a partire dai video. Il nostro metodo integra un framework di fisica inversa con indizi di percezione visiva, consentendo una ricostruzione ad alta fedeltà anche da punti di vista parziali, occlusi e limitati. PhysTwin supporta la modellazione di vari oggetti deformabili, inclusi corde, peluche, tessuti e pacchi di consegna. Gli esperimenti dimostrano che PhysTwin supera i metodi concorrenti nella ricostruzione, nel rendering, nella previsione futura e nella simulazione sotto nuove interazioni. Dimostriamo inoltre le sue applicazioni nella simulazione interattiva in tempo reale e nella pianificazione del movimento robotico basata su modelli.
Il fine-tuning consente ai grandi modelli linguistici (LLM) di adattarsi a domini specifici, ma spesso compromette il loro allineamento alla sicurezza precedentemente stabilito. Per mitigare il degrado della sicurezza del modello durante il fine-tuning, introduciamo LookAhead Tuning, che comprende due metodi semplici, a basso consumo di risorse ed efficaci basati sui dati, che modificano i dati di addestramento visualizzando prefissi parziali delle risposte. Entrambi i metodi mirano a preservare i meccanismi di sicurezza intrinseci del modello minimizzando le perturbazioni alle distribuzioni iniziali dei token. Esperimenti completi dimostrano che LookAhead Tuning mantiene efficacemente la sicurezza del modello senza sacrificare le prestazioni robuste sui task downstream. I nostri risultati posizionano LookAhead Tuning come una soluzione affidabile ed efficiente per l'adattamento sicuro ed efficace degli LLM. Il codice è disponibile all'indirizzo https://github.com/zjunlp/LookAheadTuning.
Il matching dei flussi nel simplesso continuo è emerso come una strategia promettente per la progettazione di sequenze di DNA, ma fatica a scalare verso dimensioni più elevate del simplesso necessarie per la generazione di peptidi e proteine. Introduciamo il Gumbel-Softmax Flow e il Score Matching, un framework generativo sul simplesso basato su un nuovo interpolante Gumbel-Softmax con una temperatura dipendente dal tempo. Utilizzando questo interpolante, introduciamo il Gumbel-Softmax Flow Matching derivando un campo di velocità parametrizzato che trasporta da distribuzioni categoriche lisce a distribuzioni concentrate su un singolo vertice del simplesso. Alternativamente, presentiamo il Gumbel-Softmax Score Matching che apprende a regredire il gradiente della densità di probabilità. Il nostro framework consente una generazione di alta qualità e diversificata, scalando efficientemente verso simplessi di dimensioni superiori. Per abilitare una guida senza addestramento, proponiamo gli Straight-Through Guided Flows (STGFlow), un metodo di guida basato su classificatori che sfrutta stimatori straight-through per indirizzare il campo di velocità incondizionato verso i vertici ottimali del simplesso. STGFlow consente una guida efficiente al momento dell'inferenza utilizzando classificatori pre-addestrati su sequenze pulite, e può essere utilizzato con qualsiasi metodo di flusso discreto. Insieme, questi componenti formano un framework robusto per la generazione controllata di sequenze de novo. Dimostriamo prestazioni all'avanguardia nella progettazione condizionale di promotori di DNA, nella generazione di proteine basata esclusivamente su sequenze, e nella progettazione di peptidi leganti per il trattamento di malattie rare.
I moderni LLM incontrano difficoltà negli aggiornamenti efficienti, poiché ogni nuova versione di modello pre-addestrato richiede di ripetere costosi processi di allineamento. Questa sfida si applica anche ai modelli specifici per dominio o lingua, dove il fine-tuning su dati specializzati deve essere rifatto per ogni nuova versione del modello base. In questo articolo, esploriamo il trasferimento degli aggiornamenti di fine-tuning tra diverse versioni di modelli. Nello specifico, deriviamo il vettore di differenza da una versione di modello sorgente, che rappresenta le modifiche ai pesi derivanti dal fine-tuning, e lo applichiamo al modello base di una diversa versione target. Attraverso valutazioni empiriche su varie versioni di modelli open-weight, dimostriamo che il trasferimento dei vettori di differenza può migliorare significativamente il modello base target, spesso raggiungendo prestazioni comparabili alla sua controparte sottoposta a fine-tuning. Ad esempio, il riutilizzo degli aggiornamenti di fine-tuning da Llama 3.0 8B porta a un miglioramento assoluto dell'accuratezza del 10,7% su GPQA rispetto al modello base Llama 3.1 8B senza ulteriore addestramento, superando Llama 3.1 8B Instruct. In un contesto di sviluppo di modelli multilingue, mostriamo che questo approccio può aumentare significativamente le prestazioni su compiti in lingua target senza riaddestramento, ottenendo un miglioramento assoluto del 4,7% e del 15,5% su Global MMLU per il malgascio e il turco, rispettivamente, rispetto a Llama 3.1 8B Instruct. I nostri esperimenti controllati rivelano che il trasferimento del fine-tuning è più efficace quando i modelli sorgente e target sono linearmente connessi nello spazio dei parametri. Inoltre, dimostriamo che il trasferimento del fine-tuning offre un punto di partenza più solido e computazionalmente efficiente per ulteriori operazioni di fine-tuning. Infine, proponiamo un approccio iterativo di riciclo-e-poi-fine-tuning per lo sviluppo continuo dei modelli, che migliora sia l'efficienza che l'efficacia. I nostri risultati suggeriscono che il trasferimento del fine-tuning è una strategia valida per ridurre i costi di addestramento mantenendo le prestazioni del modello.
Presentiamo un metodo innovativo per ricostruire avatar 3D umani personalizzati con animazioni realistiche a partire da poche immagini. A causa delle ampie variazioni nelle forme del corpo, nelle pose e nei tipi di abbigliamento, i metodi esistenti richiedono principalmente ore di ottimizzazione per ogni soggetto durante l'inferenza, limitandone le applicazioni pratiche. Al contrario, apprendiamo un prior universale da oltre un migliaio di esseri umani vestiti per ottenere una generazione istantanea in feedforward e una generalizzazione zero-shot. Nello specifico, invece di dotare l'avatar di pesi di skinning condivisi, deduciamo congiuntamente la forma personalizzata dell'avatar, i pesi di skinning e le deformazioni dipendenti dalla posa, migliorando efficacemente la fedeltà geometrica complessiva e riducendo gli artefatti di deformazione. Inoltre, per normalizzare le variazioni di posa e risolvere l'ambiguità accoppiata tra forme canoniche e pesi di skinning, progettiamo un processo di canonizzazione 3D per produrre condizioni iniziali allineate ai pixel, che aiuta a ricostruire dettagli geometrici fini. Proponiamo quindi un'aggregazione di feature multi-frame per ridurre robustamente gli artefatti introdotti nella canonizzazione e fondere un avatar plausibile che preservi le identità specifiche della persona. Infine, addestriamo il modello in un framework end-to-end su un ampio dataset di acquisizione, che contiene soggetti umani diversi accoppiati con scansioni 3D di alta qualità. Esperimenti estensivi dimostrano che il nostro metodo genera ricostruzioni e animazioni più autentiche rispetto agli state-of-the-art e può essere direttamente generalizzato a input provenienti da foto casuali scattate con il telefono. La pagina del progetto e il codice sono disponibili all'indirizzo https://github.com/rongakowang/FRESA.
I modelli linguistici di grandi dimensioni (LLM) con finestre di contesto estese abilitano applicazioni potenti, ma comportano un elevato consumo di memoria per memorizzare gli stati di Chiave e Valore (KV-Cache). Studi recenti hanno tentato di unire il KV-cache di più strati in rappresentazioni condivise, tuttavia questi approcci richiedono un costoso pre-addestramento o si basano su ipotesi di elevata similarità coseno per token tra gli strati, che generalmente non si verificano nella pratica. Abbiamo osservato che i vettori singolari dominanti sono notevolmente allineati tra più strati del KV-Cache. Sfruttando questa intuizione, proponiamo xKV, un semplice metodo post-addestramento che applica la Decomposizione a Valori Singolari (SVD) sul KV-cache di strati raggruppati. xKV consolida il KV-cache di più strati in un sottospazio condiviso a basso rango, riducendo significativamente le dimensioni del KV-cache. Attraverso valutazioni estensive sul benchmark RULER per contesti lunghi con LLM ampiamente utilizzati (ad esempio, Llama-3.1 e Qwen2.5), xKV raggiunge tassi di compressione fino a 6,8 volte superiori rispetto alle tecniche inter-strato più avanzate, migliorando al contempo l'accuratezza del 2,7%. Inoltre, xKV è compatibile con l'emergente Attenzione Latente Multi-Testa (MLA, ad esempio DeepSeek-Coder-V2), ottenendo un notevole tasso di compressione di 3 volte sui task di codifica senza degradazione delle prestazioni. Questi risultati evidenziano la forte capacità e versatilità di xKV nell'affrontare i colli di bottiglia di memoria per l'inferenza di LLM con contesti lunghi. Il nostro codice è disponibile pubblicamente all'indirizzo: https://github.com/abdelfattah-lab/xKV.
Il rilevamento e il tracciamento di più veicoli aerei senza pilota (UAV) in video a infrarossi termici è intrinsecamente complesso a causa del basso contrasto, del rumore ambientale e delle dimensioni ridotte dei bersagli. Questo articolo propone un approccio diretto per affrontare il tracciamento multi-UAV in video a infrarossi termici, sfruttando i recenti progressi nel rilevamento e nel tracciamento. Invece di affidarsi alla pipeline YOLOv5 con DeepSORT, presentiamo un framework di tracciamento basato su YOLOv12 e BoT-SORT, potenziato con strategie di addestramento e inferenza personalizzate. Valutiamo il nostro approccio seguendo le metriche della 4a Anti-UAV Challenge e dimostriamo prestazioni competitive. In particolare, otteniamo risultati solidi senza utilizzare l'enhancement del contrasto o la fusione di informazioni temporali per arricchire le caratteristiche degli UAV, evidenziando il nostro approccio come una "Strong Baseline" per il compito di tracciamento multi-UAV. Forniamo dettagli implementativi, un'analisi sperimentale approfondita e una discussione sui potenziali miglioramenti. Il codice è disponibile all'indirizzo https://github.com/wish44165/YOLOv12-BoT-SORT-ReID.
La decisione incarnata è fondamentale per gli agenti di intelligenza artificiale che operano in ambienti del mondo reale. Sebbene i Modelli Linguistico-Visivi (VLMs) abbiano fatto progressi in questa capacità, continuano a lottare con decisioni complesse, specialmente in situazioni centrate sull'uomo che richiedono un ragionamento approfondito sui bisogni e i valori umani. In questo studio, valutiamo sistematicamente i VLMs open-source su compiti di decisione multimodale centrati sull'uomo. Scopriamo che i Modelli Linguistici (LLMs) che ricevono solo descrizioni testuali superano inaspettatamente le loro controparti VLM di scala simile che elaborano immagini reali, suggerendo che l'allineamento visivo potrebbe ostacolare le capacità dei VLMs. Per affrontare questa sfida, proponiamo un nuovo approccio di addestramento esclusivamente testuale con dati testuali sintetizzati. Questo metodo rafforza i componenti linguistici dei VLMs e trasferisce le abilità apprese all'inferenza multimodale, eliminando la necessità di costosi dati accoppiati immagine-testo. Inoltre, dimostriamo che i VLMs possono ottenere significativi miglioramenti delle prestazioni attraverso l'auto-miglioramento, utilizzando dati di addestramento generati dalle loro controparti LLM piuttosto che affidarsi a modelli insegnanti più grandi come GPT-4. I nostri risultati stabiliscono un approccio più efficiente e scalabile per migliorare le capacità di decisione centrata sull'uomo dei VLMs, aprendo nuove strade per ottimizzare i VLMs attraverso meccanismi di auto-miglioramento.
I progressi nei modelli di base per l'osservazione terrestre (EO) hanno sbloccato il potenziale dei big data satellitari per apprendere rappresentazioni generiche dallo spazio, apportando benefici a un'ampia gamma di applicazioni a valle cruciali per il nostro pianeta. Tuttavia, la maggior parte degli sforzi esistenti rimane limitata a sensori spettrali fissi, si concentra esclusivamente sulla superficie terrestre e trascura metadati preziosi oltre alle immagini. In questo lavoro, compiamo un passo verso i modelli di base di prossima generazione per l'EO con tre componenti chiave: 1) Copernicus-Pretrain, un dataset di pre-addestramento su larga scala che integra 18,7 milioni di immagini allineate da tutte le principali missioni Sentinel di Copernicus, dalla superficie terrestre alla sua atmosfera; 2) Copernicus-FM, un modello di base unificato in grado di elaborare qualsiasi modalità di sensore spettrale o non spettrale utilizzando hypernetwork dinamici estesi e una codifica flessibile dei metadati; e 3) Copernicus-Bench, un benchmark di valutazione sistematico con 15 task a valle gerarchici, che vanno dalla pre-elaborazione ad applicazioni specializzate per ciascuna missione Sentinel. Il nostro dataset, modello e benchmark migliorano notevolmente la scalabilità, la versatilità e l'adattabilità multimodale dei modelli di base per l'EO, creando anche nuove opportunità per collegare l'osservazione terrestre, la meteorologia e la ricerca climatica. Codici, dataset e modelli sono disponibili all'indirizzo https://github.com/zhu-xlab/Copernicus-FM.
Comprendere il comportamento umano richiede la misurazione delle azioni comportamentali. A causa della sua complessità, il comportamento è meglio mappato su una struttura semantica ricca come il linguaggio. Il recente sviluppo di modelli linguistici multimodali di grandi dimensioni (MLLMs) rappresenta un candidato promettente per un'ampia gamma di compiti di comprensione delle azioni. In questo lavoro, ci concentriamo sulla valutazione e successivamente sul miglioramento degli MLLMs per eseguire il riconoscimento delle azioni. Riformuliamo EPIC-KITCHENS-100, uno dei più grandi e impegnativi dataset di azioni egocentriche, nella forma di risposte multiple a domande video (EPIC-KITCHENS-100-MQA). Dimostriamo che quando campioniamo risposte errate difficili come distrattori, i principali MLLMs faticano a riconoscere le azioni corrette. Proponiamo una serie di metodi che migliorano notevolmente la capacità degli MLLMs di eseguire il riconoscimento delle azioni, raggiungendo lo stato dell'arte sia sul set di validazione di EPIC-KITCHENS-100, sia superando GPT-4o di 21 punti in accuratezza su EPIC-KITCHENS-100-MQA. Infine, mostriamo miglioramenti su altri benchmark video relativi alle azioni come EgoSchema, PerceptionTest, LongVideoBench, VideoMME e MVBench, suggerendo che gli MLLMs rappresentano una strada promettente per compiti complessi legati alle azioni. Codice e modelli sono disponibili all'indirizzo: https://github.com/AdaptiveMotorControlLab/LLaVAction.
Presentiamo Any6D, un framework senza modello per la stima della posa 6D di oggetti che richiede solo un'immagine RGB-D di ancoraggio per stimare sia la posa 6D che le dimensioni di oggetti sconosciuti in scene nuove. A differenza dei metodi esistenti che si basano su modelli 3D texturizzati o su più punti di vista, Any6D sfrutta un processo di allineamento congiunto degli oggetti per migliorare l'allineamento 2D-3D e la stima della scala metrica, ottenendo una maggiore precisione nella stima della posa. Il nostro approccio integra una strategia di render-and-compare per generare e affinare ipotesi di posa, garantendo prestazioni robuste in scenari con occlusioni, viste non sovrapposte, condizioni di illuminazione diverse e grandi variazioni tra ambienti. Valutiamo il nostro metodo su cinque dataset impegnativi: REAL275, Toyota-Light, HO3D, YCBINEOAT e LM-O, dimostrando la sua efficacia nel superare significativamente i metodi all'avanguardia per la stima della posa di oggetti nuovi. Pagina del progetto: https://taeyeop.com/any6d
I modelli visione-linguaggio (VLMs) dimostrano un grande potenziale per la comprensione delle scene 3D, ma sono principalmente applicati a spazi interni o alla guida autonoma, concentrandosi su compiti di basso livello come la segmentazione. Questo lavoro estende il loro utilizzo a ambienti su scala urbana sfruttando ricostruzioni 3D da immagini aeree multi-vista. Proponiamo OpenCity3D, un approccio che affronta compiti di alto livello, come la stima della densità di popolazione, la classificazione dell'età degli edifici, la previsione del prezzo degli immobili, la valutazione del tasso di criminalità e l'analisi dell'inquinamento acustico. I nostri risultati evidenziano le impressionanti capacità zero-shot e few-shot di OpenCity3D, dimostrando adattabilità a nuovi contesti. Questa ricerca stabilisce un nuovo paradigma per l'analisi urbana guidata dal linguaggio, abilitando applicazioni nella pianificazione, nelle politiche e nel monitoraggio ambientale. Visita la nostra pagina del progetto: opencity3d.github.io
I modelli di IA hanno compiuto progressi significativi negli ultimi anni nella loro capacità di descrivere e rispondere a domande su immagini del mondo reale. Hanno anche fatto passi avanti nella capacità di conversare con gli utenti in tempo reale utilizzando input audio. Ciò solleva la domanda: abbiamo raggiunto il punto in cui i modelli di IA, connessi a una telecamera e a un microfono, possono conversare con gli utenti in tempo reale su scene ed eventi che si svolgono in diretta davanti alla telecamera? Questo è stato un obiettivo di lunga data nell'IA ed è un prerequisito affinché assistenti virtuali e robot umanoidi possano interagire con gli esseri umani in situazioni quotidiane. In questo lavoro, introduciamo un nuovo dataset e benchmark, il Qualcomm Interactive Video Dataset (IVD), che ci permette di valutare fino a che punto i modelli esistenti possano supportare queste capacità e in quale misura queste competenze possano essere sviluppate attraverso il fine-tuning. Il dataset si basa su una semplice configurazione di domande e risposte, in cui gli utenti pongono domande che il sistema deve rispondere, in tempo reale, basandosi sull'input della telecamera e dell'audio. Mostriamo che i modelli esistenti sono molto al di sotto delle prestazioni umane in questo compito e identifichiamo le principali fonti del divario di prestazioni. Tuttavia, dimostriamo anche che, per molte delle abilità percettive richieste, il fine-tuning su questo tipo di dati può ridurre significativamente tale divario.
L'utilizzo di modelli insegnanti di grandi dimensioni per guidare l'addestramento di modelli studenti più piccoli è diventato il paradigma prevalente per un apprendimento efficiente ed efficace. Tuttavia, le discrepanze nel vocabolario tra i modelli linguistici insegnante e studente rappresentano sfide significative nella modellazione del linguaggio, portando a sequenze di token e distribuzioni di output divergenti. Per superare queste limitazioni, proponiamo il Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM), un approccio innovativo che colma il divario causato dalla mancata corrispondenza del vocabolario attraverso due metodi chiave: (1) l'Allineamento Lessicale a Livello di Token, che allinea le sequenze di token tra vocabolari non corrispondenti, e (2) la Perdita Guidata dall'Insegnante, che sfrutta la perdita del modello insegnante per guidare un addestramento efficace dello studente. Dimostriamo la sua efficacia nella modellazione del linguaggio con un modello studente da 1B utilizzando vari modelli insegnanti da 7B con vocabolari diversi. In particolare, con Qwen2.5-Math-Instruct, un modello insegnante che condivide solo circa il 6% del suo vocabolario con TinyLlama, VocAgnoLM raggiunge un miglioramento delle prestazioni del 46% rispetto a un semplice preaddestramento continuo. Inoltre, dimostriamo che VocAgnoLM trae costantemente vantaggio da modelli insegnanti più potenti, fornendo una soluzione robusta alle discrepanze di vocabolario nella modellazione del linguaggio.
Mentre la Convoluzione Dinamica (DY-Conv) ha dimostrato prestazioni promettenti grazie alla selezione adattiva dei pesi attraverso l'uso di pesi paralleli multipli combinati con un meccanismo di attenzione, la risposta in frequenza di questi pesi tende a mostrare un'elevata similarità, risultando in costi parametrici elevati ma con un'adattabilità limitata. In questo lavoro, introduciamo la Convoluzione Dinamica in Frequenza (FDConv), un approccio innovativo che mitiga queste limitazioni apprendendo un budget fisso di parametri nel dominio di Fourier. FDConv divide questo budget in gruppi basati sulla frequenza con indici di Fourier disgiunti, consentendo la costruzione di pesi diversificati in frequenza senza aumentare il costo parametrico. Per ulteriormente migliorare l'adattabilità, proponiamo la Modulazione Spaziale del Kernel (KSM) e la Modulazione della Banda di Frequenza (FBM). KSM regola dinamicamente la risposta in frequenza di ciascun filtro a livello spaziale, mentre FBM scompone i pesi in bande di frequenza distinte nel dominio della frequenza e le modula dinamicamente in base al contenuto locale. Esperimenti estesi su rilevamento di oggetti, segmentazione e classificazione convalidano l'efficacia di FDConv. Dimostriamo che, applicato a ResNet-50, FDConv raggiunge prestazioni superiori con un modesto aumento di +3,6M parametri, superando metodi precedenti che richiedono aumenti sostanziali nei budget parametrici (ad esempio, CondConv +90M, KW +76,5M). Inoltre, FDConv si integra senza soluzione di continuità in una varietà di architetture, tra cui ConvNeXt e Swin-Transformer, offrendo una soluzione flessibile ed efficiente per i compiti visivi moderni. Il codice è reso disponibile pubblicamente all'indirizzo https://github.com/Linwei-Chen/FDConv.
Proponiamo un metodo senza addestramento per la segmentazione semantica a vocabolario aperto utilizzando Modelli Visione-e-Linguaggio (VLMs). Il nostro approccio migliora le previsioni iniziali per ogni patch dei VLMs attraverso la propagazione di etichette, che ottimizza congiuntamente le previsioni incorporando le relazioni tra patch. Poiché i VLMs sono principalmente ottimizzati per l'allineamento cross-modale e non per la similarità intra-modale, utilizziamo un Modello Visione (VM) che si è dimostrato in grado di catturare meglio queste relazioni. Affrontiamo le limitazioni di risoluzione intrinseche agli encoder basati su patch applicando la propagazione di etichette a livello di pixel come fase di raffinamento, migliorando significativamente l'accuratezza della segmentazione vicino ai confini delle classi. Il nostro metodo, chiamato LPOSS+, esegue l'inferenza sull'intera immagine, evitando l'elaborazione basata su finestre e catturando così le interazioni contestuali sull'intera immagine. LPOSS+ raggiunge prestazioni all'avanguardia tra i metodi senza addestramento, su un insieme diversificato di dataset. Codice: https://github.com/vladan-stojnic/LPOSS
Il ragionamento spazio-temporale è essenziale per comprendere gli ambienti del mondo reale in vari campi, come la guida autonoma e l'analisi sportiva. I recenti progressi hanno migliorato la capacità di ragionamento spaziale dei Modelli Visione-Linguaggio (VLMs) attraverso l'introduzione di dati su larga scala, ma questi modelli faticano ancora ad analizzare elementi cinematici come la distanza percorsa e la velocità degli oggetti in movimento. Per colmare questa lacuna, abbiamo costruito un dataset e un benchmark per il ragionamento spazio-temporale che coinvolgono l'ottimizzazione delle istruzioni cinematiche, denominati STKit e STKit-Bench. Essi consistono in video del mondo reale con annotazioni 3D, che dettagliano la dinamica del movimento degli oggetti: distanza percorsa, velocità, direzione del movimento, confronti delle distanze inter-oggetto e direzione relativa del movimento. Per scalare ulteriormente la costruzione di tali dati a video senza etichette 3D, proponiamo una pipeline automatica per generare pseudo-etichette utilizzando la ricostruzione 4D in scala reale. Con i nostri dati di ottimizzazione delle istruzioni cinematiche per il ragionamento spazio-temporale, presentiamo ST-VLM, un VLM potenziato per il ragionamento spazio-temporale, che mostra prestazioni eccezionali su STKit-Bench. Inoltre, dimostriamo che ST-VLM si generalizza robustamente attraverso diversi domini e compiti, superando i baseline su altri benchmark spazio-temporali (ad esempio, ActivityNet, TVQA+). Infine, integrando il ragionamento spazio-temporale appreso con le capacità esistenti, ST-VLM abilita un complesso ragionamento multi-step. Pagina del progetto: https://ikodoh.github.io/ST-VLM.
Comprendere le proprietà geometriche e semantiche della scena è cruciale per la navigazione autonoma e particolarmente impegnativo nel caso della navigazione di veicoli aerei senza pilota (UAV). Tali informazioni possono essere ottenute stimando mappe di profondità e di segmentazione semantica dell'ambiente circostante e, per il loro utilizzo pratico nella navigazione autonoma, la procedura deve essere eseguita il più vicino possibile al tempo reale. In questo articolo, sfruttiamo telecamere monoculari su robot aerei per prevedere mappe di profondità e semantiche in ambienti non strutturati a bassa quota. Proponiamo un'architettura di deep learning congiunta in grado di eseguire le due attività in modo accurato e rapido, e ne validiamo l'efficacia sui dataset di riferimento MidAir e Aeroscapes. La nostra architettura congiunta si dimostra competitiva o superiore rispetto ad altri metodi con architetture singole o congiunte, eseguendo il proprio compito rapidamente con una previsione di 20,2 FPS su una singola GPU NVIDIA Quadro P5000 e con un basso consumo di memoria. Tutti i codici per l'addestramento e la previsione sono disponibili al seguente link: https://github.com/Malga-Vision/Co-SemDepth