Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) per il codice sono diventati indispensabili in vari ambiti, inclusi la generazione di codice, i compiti di ragionamento e i sistemi agentivi. Sebbene i code LLM ad accesso aperto si stiano avvicinando progressivamente ai livelli prestazionali dei modelli proprietari, code LLM di alta qualità adatti per indagini scientifiche rigorose, in particolare quelli con pipeline di elaborazione dati riproducibili e protocolli di addestramento trasparenti, rimangono limitati. La scarsità è dovuta a varie sfide, inclusi vincoli di risorse, considerazioni etiche e i vantaggi competitivi derivanti dal mantenere i modelli avanzati. Per colmare questa lacuna, introduciamo OpenCoder, un code LLM di prim'ordine che non solo raggiunge prestazioni comparabili ai modelli leader, ma funge anche da "ricettario aperto" per la comunità di ricerca. A differenza della maggior parte degli sforzi precedenti, rilasciamo non solo i pesi del modello e il codice di inferenza, ma anche i dati di addestramento riproducibili, la completa pipeline di elaborazione dati, i rigorosi risultati sperimentali di ablazione e i dettagliati protocolli di addestramento per la ricerca scientifica aperta. Attraverso questo rilascio completo, identifichiamo gli ingredienti chiave per costruire un code LLM di prim'ordine: (1) regole euristiche ottimizzate per il codice per la pulizia dei dati e metodi per la deduplicazione dei dati, (2) il richiamo di corpora testuali relativi al codice e (3) dati sintetici di alta qualità sia nelle fasi di fine-tuning per ricottura che supervisionato. Offrendo questo livello di apertura, miriamo ad ampliare l'accesso a tutti gli aspetti di un code LLM di prim'ordine, con OpenCoder che funge sia da modello potente che da fondazione aperta per accelerare la ricerca e consentire progressi riproducibili nell'IA per il codice.
Recenti ricerche sui Large Language Model (LLM) a 1 bit, come BitNet b1.58, indicano una direzione promettente per ridurre il costo di inferenza degli LLM mantenendone le prestazioni. In questo lavoro, presentiamo BitNet a4.8, che abilita attivazioni a 4 bit per LLM a 1 bit. BitNet a4.8 utilizza una strategia ibrida di quantizzazione e sparsificazione per mitigare gli errori di quantizzazione introdotti dai canali outlier. Nello specifico, impieghiamo attivazioni a 4 bit per gli ingressi agli strati di attenzione e di feed-forward, mentre sparsifichiamo gli stati intermedi seguiti da una quantizzazione a 8 bit. Esperimenti estensivi dimostrano che BitNet a4.8 raggiunge prestazioni paragonabili a BitNet b1.58 con costi di addestramento equivalenti, risultando al contempo più veloce nell'inferenza grazie all'abilitazione di kernel a 4 bit (INT4/FP4). Inoltre, BitNet a4.8 attiva solo il 55% dei parametri e supporta una KV cache a 3 bit, migliorando ulteriormente l'efficienza della distribuzione e dell'inferenza di LLM su larga scala.
In questo articolo presentiamo DimensionX, un framework progettato per generare scene 3D e 4D fotorealistiche a partire da una singola immagine mediante video diffusion. Il nostro approccio parte dall'intuizione che sia la struttura spaziale di una scena 3D che l'evoluzione temporale di una scena 4D possano essere efficacemente rappresentate attraverso sequenze di fotogrammi video. Sebbene i recenti modelli di video diffusion abbiano dimostrato notevoli successi nella produzione di visualizzazioni vivide, presentano limitazioni nel recupero diretto di scene 3D/4D a causa di una controllabilità spaziale e temporale limitata durante la generazione. Per superare questo problema, proponiamo ST-Director, che disaccoppia i fattori spaziali e temporali nel video diffusion apprendendo LoRA (Low-Rank Adaptation) consapevoli della dimensionalità da dati dimensionalmente varianti. Questo approccio controllabile di video diffusion consente una manipolazione precisa della struttura spaziale e della dinamica temporale, permettendoci di ricostruire sia rappresentazioni 3D che 4D a partire da fotogrammi sequenziali con la combinazione di dimensioni spaziali e temporali. Inoltre, per colmare il divario tra video generati e scene del mondo reale, introduciamo un meccanismo trajectory-aware per la generazione 3D e una strategia di denoising identity-preserving per la generazione 4D. Esperimenti estesi su vari dataset reali e sintetici dimostrano che DimensionX raggiunge risultati superiori nella generazione controllabile di video, nonché nella generazione di scene 3D e 4D, rispetto ai metodi precedenti.
Lo sviluppo dei grandi modelli linguistici (LLM) si è esteso a sistemi multimodali in grado di elaborare testo, immagini e parlato all'interno di un framework unificato. L'addestramento di questi modelli richiede dataset e risorse computazionali significativamente più ampi rispetto agli LLM esclusivamente testuali. Per affrontare le sfide di scalabilità, introduciamo Mixture-of-Transformers (MoT), un'architettura trasformatore multimodale sparsa che riduce notevolmente i costi computazionali del pre-addestramento. MoT disaccoppia i parametri non di embedding del modello per modalità – incluse le reti feed-forward, le matrici di attenzione e la normalizzazione di livello – consentendo un'elaborazione specifica per modalità con self-attention globale sull'intera sequenza di input. Valutiamo MoT in molteplici contesti e scale modellistiche. Nella configurazione Chameleon 7B (generazione autoregressiva di testo e immagini), MoT eguaglia le prestazioni del baseline denso utilizzando solo il 55,8% dei FLOP. Esteso per includere il parlato, MoT raggiunge prestazioni vocali comparabili al baseline denso con solo il 37,2% dei FLOP. Nella configurazione Transfusion, dove testo e immagine sono addestrati con obiettivi diversi, un modello MoT da 7B eguaglia le prestazioni della modalità immagine del baseline denso con un terzo dei FLOP, mentre un modello MoT da 760M supera un baseline denso da 1,4B in diverse metriche chiave per la generazione di immagini. La profilazione del sistema evidenzia ulteriormente i vantaggi pratici di MoT, raggiungendo la qualità dell'immagine del baseline denso nel 47,2% del tempo di esecuzione effettivo e la qualità del testo nel 75,6% del tempo di esecuzione effettivo (misurato su istanze AWS p4de.24xlarge con GPU NVIDIA A100).
Le pipeline di Document Visual Question Answering (DocVQA) che rispondono a domande basate su documenti hanno ampie applicazioni. I metodi esistenti si concentrano sulla gestione di documenti a pagina singola con modelli linguistici multimodali (MLM) o si basano su sistemi di generazione aumentata tramite recupero di informazioni (RAG) basati su testo che utilizzano strumenti di estrazione del testo come il riconoscimento ottico dei caratteri (OCR). Tuttavia, l'applicazione di questi metodi in scenari reali presenta delle difficoltà: (a) le domande richiedono spesso informazioni provenienti da pagine o documenti diversi, contesti in cui gli MLM non riescono a gestire molti documenti lunghi; (b) i documenti contengono spesso informazioni importanti in elementi visivi come figure, ma gli strumenti di estrazione del testo li ignorano. Introduciamo M3DocRAG, un nuovo framework RAG multimodale che si adatta flessibilmente a vari contesti documentali (dominio chiuso e dominio aperto), tipi di domande (a singolo salto e multi-salto) e modalità di evidenza (testo, grafico, figura, ecc.). M3DocRAG individua i documenti rilevanti e risponde alle domande utilizzando un sistema di recupero multimodale e un MLM, in modo da gestire efficientemente documenti singoli o multipli preservando le informazioni visive. Poiché i precedenti dataset DocVQA pongono domande nel contesto di un documento specifico, presentiamo anche M3DocVQA, un nuovo benchmark per valutare il DocVQA in dominio aperto su oltre 3.000 documenti PDF con più di 40.000 pagine. In tre benchmark (M3DocVQA/MMLongBench-Doc/MP-DocVQA), i risultati empirici mostrano che M3DocRAG con ColPali e Qwen2-VL 7B raggiunge prestazioni superiori rispetto a molte solide baseline, inclusi risultati allo stato dell'arte in MP-DocVQA. Forniamo analisi complete di diversi modelli di indicizzazione, MLM e recupero. Infine, mostriamo qualitativamente che M3DocRAG può gestire con successo vari scenari, come quando le informazioni rilevanti sono distribuite su più pagine o quando l'evidenza per la risposta esiste solo nelle immagini.
L'allineamento granulare tra video e testo risulta complesso a causa delle dinamiche spaziali e temporali intricate presenti nei video. I grandi modelli multimodali (LMM) basati su video attuali gestiscono conversazioni basilari, ma faticano a ottenere un grounding preciso a livello di pixel nei video. Per affrontare questa problematica, introduciamo VideoGLaMM, un LMM progettato per il grounding granulare a livello di pixel nei video basato su input testuali forniti dall'utente. Il nostro design collega perfettamente tre componenti chiave: un Large Language Model, un encoder visivo duale che enfatizza sia i dettagli spaziali che temporali, e un decoder spazio-temporale per la generazione accurata di maschere. Questa connessione è facilitata tramite adattatori sintonizzabili V-L e L-V che abilitano un stretto allineamento Visione-Linguaggio (VL). L'architettura è addestrata per sincronizzare sia gli elementi spaziali che temporali del contenuto video con le istruzioni testuali. Per abilitare il grounding granulare, abbiamo curato un dataset multimodale che presenta conversazioni dettagliate e visivamente ancorate utilizzando una pipeline di annotazione semi-automatica, ottenendo un insieme diversificato di 38k triplette video-domanda-risposta insieme a 83k oggetti e 671k maschere. Valutiamo VideoGLaMM su tre compiti impegnativi: Generazione di Conversazioni Ancorate, Grounding Visivo e Segmentazione Video Referenziale. I risultati sperimentali dimostrano che il nostro modello supera costantemente gli approcci esistenti in tutti e tre i compiti.
Con l'introduzione di modelli basati su transformer per compiti di visione e linguaggio, come LLaVA e Chameleon, si è rinnovato l'interesse per la rappresentazione tokenizzata discreta delle immagini. Questi modelli trattano spesso le patch di immagini come token discreti, analogamente alle parole nel linguaggio naturale, apprendendo allineamenti congiunti tra linguaggio visivo e linguaggio umano. Tuttavia, si sa poco sul comportamento statistico di questi linguaggi visivi - se seguono distribuzioni di frequenza, strutture grammaticali o topologie simili a quelle dei linguaggi naturali. In questo articolo, adottiamo un approccio centrato sul linguaggio naturale per analizzare i linguaggi visivi discreti e scopriamo sorprendenti somiglianze e differenze fondamentali. Dimostriamo che, sebbene i linguaggi visivi aderiscano a distribuzioni zipfiane, una maggiore innovazione dei token determina un'entropia più elevata e una minore compressione, con token che rappresentano prevalentemente parti di oggetti, indicando una granularità intermedia. Mostriamo inoltre che i linguaggi visivi mancano di strutture grammaticali coese, portando a una perplessità più elevata e a un'organizzazione gerarchica più debole rispetto ai linguaggi naturali. Infine, dimostriamo che, sebbene i modelli di visione si allineino più strettamente ai linguaggi naturali rispetto ad altri modelli, questo allineamento rimane significativamente più debole della coesione riscontrata all'interno dei linguaggi naturali. Attraverso questi esperimenti, dimostriamo come la comprensione delle proprietà statistiche dei linguaggi visivi discreti possa guidare la progettazione di modelli di computer vision più efficaci.
Per aumentare il legame sociale con gli interlocutori, gli esseri umani acquisiscono naturalmente la capacità di rispondere in modo appropriato in una determinata situazione considerando quale abilità conversazionale sia più adatta alla risposta - un processo che chiamiamo "abilità della mente" (skill-of-mind). Per gli agenti conversazionali basati su grandi modelli linguistici (LLM), pianificare abilità conversazionali appropriate, come fanno gli umani, è impegnativo a causa della complessità del dialogo sociale, specialmente in scenari interattivi. Per affrontare questo problema, proponiamo un dataset conversazionale annotato con l'abilità della mente, denominato Multifaceted Skill-of-Mind, che include abilità conversazionali multiformi e a più turni in vari scenari interattivi (ad esempio, a lungo termine, di consulenza, orientati al compito), radicati in contesti sociali diversi (ad esempio, dati demografici, persona, regole pratiche). Questo dataset è composto da circa 100.000 conversazioni. Utilizzando questo dataset, introduciamo una nuova famiglia di LLM infusi con l'abilità della mente, chiamata Thanos, con dimensioni del modello di 1B, 3B e 8B di parametri. Attraverso esperimenti estesi, questi modelli dimostrano con successo il processo dell'abilità della mente ed esibiscono una forte generalizzabilità nell'inferire abilità multiformi in una varietà di domini. Inoltre, mostriamo che Thanos migliora significativamente la qualità delle risposte generate da agenti conversazionali basati su LLM e promuove comportamenti prosociali nelle valutazioni umane.
I modelli di diffusione si sono dimostrati estremamente efficaci nella generazione di immagini di alta qualità. Tuttavia, man mano che questi modelli aumentano di dimensioni, richiedono significativamente più memoria e soffrono di una latenza più elevata, ponendo sfide sostanziali per il deployment. In questo lavoro, miriamo ad accelerare i modelli di diffusione quantizzando i loro pesi e attivazioni a 4 bit. A un livello così aggressivo, sia i pesi che le attivazioni sono altamente sensibili, dove i metodi convenzionali di quantizzazione post-addestramento per modelli linguistici di grandi dimensioni, come lo smoothing, diventano insufficienti. Per superare questa limitazione, proponiamo SVDQuant, un nuovo paradigma di quantizzazione a 4 bit. A differenza dello smoothing, che ridistribuisce i valori anomali (outliers) tra pesi e attivazioni, il nostro approccio assorbe questi outlier utilizzando un ramo (branch) a basso rango. Prima consolidiamo gli outlier spostandoli dalle attivazioni ai pesi, quindi impieghiamo un ramo a basso rango e alta precisione per assorbire gli outlier dei pesi tramite la SVD (Singular Value Decomposition). Questo processo facilita la quantizzazione su entrambi i lati. Tuttavia, eseguire ingenuamente il ramo a basso rango in modo indipendente comporta un sovraccarico significativo a causa del movimento extra di dati delle attivazioni, annullando il guadagno di velocità della quantizzazione. Per affrontare questo problema, co-progettiamo un motore di inferenza, Nunchaku, che fonde i kernel del ramo a basso rango con quelli del ramo a basso numero di bit per eliminare l'accesso alla memoria ridondante. Esso può anche supportare perfettamente adattatori a basso rango (LoRA) standard senza la necessità di una ri-quantizzazione. Esperimenti estensivi su SDXL, PixArt-Sigma e FLUX.1 convalidano l'efficacia di SVDQuant nel preservare la qualità dell'immagine. Riduciamo l'utilizzo di memoria per i modelli FLUX.1 da 12B di 3.5 volte, raggiungendo un speedup di 3.0 volte rispetto alla baseline quantizzata a 4 bit (solo pesi) sulla GPU laptop 4090 da 16 GB, aprendo la strada a applicazioni più interattive sui PC. La nostra libreria di quantizzazione e il motore di inferenza sono open-source.
Man mano che i limiti contestuali dei Large Language Model (LLM) aumentano, si amplia anche la gamma di possibili applicazioni e funzioni downstream. In molti compiti del mondo reale, le decisioni dipendono da dettagli sparsi in raccolte di documenti spesso disparati, che contengono perlopiù informazioni irrilevanti. Gli LLM a contesto lungo sembrano adatti a questa forma di recupero e ragionamento su informazioni complesse, tradizionalmente costosa e dispendiosa in termini di tempo. Tuttavia, sebbene lo sviluppo di modelli con contesto più lungo abbia registrato rapidi progressi negli ultimi anni, la nostra comprensione di quanto efficacemente gli LLM utilizzino il loro contesto non ha tenuto il passo. Per affrontare questa lacuna, conduciamo una serie di esperimenti di retrieval progettati per valutare le capacità di 17 LLM leader, come la loro abilità di seguire fili informativi attraverso la finestra contestuale. In modo sorprendente, scopriamo che molti modelli sono notevolmente "thread-safe": capaci di seguire simultaneamente più fili senza una significativa perdita di prestazioni. Tuttavia, per molti modelli, rileviamo che il limite contestuale effettivo è significativamente più breve della lunghezza contestuale supportata, con una precisione che diminuisce man mano che la finestra contestuale cresce. Il nostro studio evidenzia anche il punto importante che i conteggi di token da diversi tokenizer non dovrebbero essere confrontati direttamente, poiché spesso corrispondono a numeri sostanzialmente diversi di caratteri scritti. Rilasciamo il nostro codice e i dati sperimentali a lungo contesto.
Sono stati compiuti progressi significativi nella manipolazione mobile a vocabolario aperto, il cui obiettivo è consentire a un robot di eseguire compiti in qualsiasi ambiente sulla base di una descrizione in linguaggio naturale. Tuttavia, la maggior parte dei sistemi attuali presuppone un ambiente statico, il che limita l'applicabilità del sistema in scenari reali, dove gli ambienti cambiano frequentemente a causa dell'intervento umano o delle azioni del robot stesso. In questo lavoro, presentiamo DynaMem, un nuovo approccio alla manipolazione mobile in mondo aperto che utilizza una memoria spaziosemantica dinamica per rappresentare l'ambiente di un robot. DynaMem costruisce una struttura dati 3D per mantenere una memoria dinamica delle nuvole di punti e risponde a query di localizzazione di oggetti a vocabolario aperto utilizzando modelli linguistici multimodali (LLM) o funzionalità a vocabolario aperto generate da modelli visione-linguaggio all'avanguardia. Grazie a DynaMem, i nostri robot possono esplorare ambienti nuovi, cercare oggetti non presenti in memoria e aggiornare continuamente la memoria man mano che gli oggetti si spostano, appaiono o scompaiono nella scena. Abbiamo condotto esperimenti approfonditi sui robot Stretch SE3 in tre scene reali e nove offline, raggiungendo una percentuale media di successo nel prelievo e rilascio del 70% su oggetti non stazionari, che rappresenta un miglioramento di oltre il doppio rispetto ai sistemi statici all'avanguardia. Il nostro codice, insieme ai video degli esperimenti e delle implementazioni, è open source e disponibile sul sito web del progetto: https://dynamem.github.io/
Il code-mixing, ovvero l'integrazione di elementi lessicali e grammaticali provenienti da più lingue all'interno di una singola frase, è un fenomeno linguistico diffuso, particolarmente prevalente nelle società multilingue. In India, gli utenti dei social media partecipano frequentemente a conversazioni con code-mixing utilizzando l'alfabeto latino, specialmente tra le comunità di migranti che formano gruppi online per condividere informazioni locali rilevanti. Questo articolo si concentra sulle sfide legate all'estrazione di informazioni pertinenti da conversazioni con code-mixing, in particolare nel bengali traslitterato in caratteri latini misto a inglese. Questo studio presenta un approccio innovativo per affrontare queste sfide, sviluppando un meccanismo per identificare automaticamente le risposte più rilevanti da conversazioni con code-mixing. Abbiamo sperimentato con un dataset composto da query e documenti provenienti da Facebook, e file di Rilevanza delle Query (QRels) per supportare questo compito. I nostri risultati dimostrano l'efficacia del nostro approccio nell'estrarre informazioni pertinenti da conversazioni digitali complesse e caratterizzate da code-mixing, contribuendo al più ampio campo dell'elaborazione del linguaggio naturale in ambienti multilingue e con testi informali. Utilizziamo GPT-3.5 Turbo tramite prompt sfruttando inoltre la natura sequenziale dei documenti rilevanti per formulare un modello matematico che aiuta a rilevare i documenti pertinenti corrispondenti a una query.
I benchmark esistenti per la valutazione di modelli di fondazione si concentrano principalmente su attività testuali relative a singoli documenti. Tuttavia, spesso non riescono a cogliere appieno la complessità dei flussi di lavoro di ricerca, che tipicamente implicano l'interpretazione di dati non testuali e la raccolta di informazioni da più documenti. Per colmare questa lacuna, introduciamo M3SciQA, un benchmark di question answering scientifico multi-modale e multi-documento, progettato per una valutazione più completa dei modelli di fondazione. M3SciQA è composto da 1.452 domande annotate da esperti, che abbracciano 70 cluster di articoli di elaborazione del linguaggio naturale, dove ogni cluster rappresenta un articolo principale insieme a tutti i documenti da esso citati, rispecchiando così il flusso di lavoro di comprensione di un singolo articolo che richiede dati multi-modali e multi-documento. Utilizzando M3SciQA, abbiamo condotto una valutazione completa di 18 modelli di fondazione. I nostri risultati indicano che gli attuali modelli di fondazione hanno prestazioni ancora significativamente inferiori rispetto a esperti umani sia nel recupero di informazioni multi-modali che nel ragionamento attraverso più documenti scientifici. Inoltre, esploriamo le implicazioni di questi risultati per i futuri progressi nell'applicazione di modelli di fondazione nell'analisi multi-modale della letteratura scientifica.
Presentiamo GazeGen, un sistema di interazione utente che genera contenuti visivi (immagini e video) per le posizioni indicate dallo sguardo dell'utente. GazeGen consente una manipolazione intuitiva dei contenuti visivi prendendo di mira le regioni di interesse con lo sguardo. Utilizzando tecniche avanzate di rilevamento di oggetti e intelligenza artificiale generativa, GazeGen esegue operazioni di aggiunta/rimozione, riposizionamento e modifica del materiale superficiale degli oggetti immagine controllate dallo sguardo, e converte immagini statiche in video. Cuore di GazeGen è l'agente DFT Gaze (Distilled and Fine-Tuned Gaze), un modello ultra-leggero con soli 281K parametri, che esegue previsioni accurate dello sguardo in tempo reale personalizzate per gli occhi dei singoli utenti su piccoli dispositivi edge. GazeGen è il primo sistema a combinare la generazione di contenuti visivi con la stima dello sguardo in tempo reale, reso possibile esclusivamente da DFT Gaze. Questa stima in tempo reale dello sguardo abilita varie attività di generazione di contenuti visivi, tutte controllate dallo sguardo dell'utente. L'input per DFT Gaze sono le immagini dell'occhio dell'utente, mentre gli input per la generazione di contenuti visivi sono la vista dell'utente e il punto di sguardo predetto da DFT Gaze. Per ottenere previsioni dello sguardo efficienti, deriviamo il modello piccolo da un modello grande (10 volte più grande) tramite innovative tecniche di distillazione della conoscenza e adattamento personale. Integriamo la distillazione della conoscenza con un autoencoder mascherato, sviluppando un modello di stima dello sguardo compatto ma potente. Questo modello viene ulteriormente perfezionato con Adapter, consentendo previsioni dello sguardo altamente accurate e personalizzate con un input utente minimo. DFT Gaze garantisce un tracciamento dello sguardo a bassa latenza e preciso, supportando un'ampia gamma di attività guidate dallo sguardo. Convalidiamo le prestazioni di DFT Gaze sui benchmark AEA e OpenEDS2020, dimostrando un basso errore angolare dello sguardo e una bassa latenza sul dispositivo edge (Raspberry Pi 4). Inoltre, descriviamo le applicazioni di GazeGen, illustrandone la versatilità e l'efficacia in vari scenari d'uso.
I metodi per la generazione video da immagine hanno raggiunto una qualità impressionante e fotorealistica. Tuttavia, regolare elementi specifici nei video generati, come il movimento degli oggetti o quello della telecamera, è spesso un processo tedioso per tentativi ed errori, che ad esempio implica la rigenerazione di video con diversi semi casuali. Tecniche recenti affrontano questo problema effettuando il fine-tuning di un modello pre-addestrato per seguire segnali di condizionamento, come bounding box o traiettorie di punti. Tuttavia, questa procedura di fine-tuning può essere computazionalmente costosa e richiede dataset con annotazioni del movimento degli oggetti, che possono essere difficili da reperire. In questo lavoro, introduciamo SG-I2V, un framework per la generazione controllabile di video da immagine che è auto-guidato – offrendo controllo zero-shot basandosi esclusivamente sulla conoscenza presente in un modello di diffusione video da immagine pre-addestrato, senza necessità di fine-tuning o conoscenze esterne. Il nostro metodo zero-shot supera i baseline non supervisionati, risultando competitivo con i modelli supervisionati in termini di qualità visiva e fedeltà del movimento.
Oltre alla sintesi di immagini ad alta fedeltà, i modelli di diffusione hanno recentemente dimostrato risultati promettenti in compiti di percezione visiva densa. Tuttavia, la maggior parte dei lavori esistenti tratta i modelli di diffusione come componenti isolati per i compiti di percezione, impiegandoli esclusivamente per l'aumento dei dati predefinito o come semplici estrattori di caratteristiche. A differenza di questi approcci isolati e quindi subottimali, introduciamo un framework unificato e versatile basato sulla diffusione, Diff-2-in-1, in grado di gestire simultaneamente sia la generazione di dati multimodali che la percezione visiva densa, attraverso un utilizzo unico del processo di diffusione-denoising. All'interno di questo framework, miglioriamo ulteriormente la percezione visiva discriminativa tramite la generazione multimodale, sfruttando la rete di denoising per creare dati multimodali che rispecchiano la distribuzione del set di addestramento originale. È importante sottolineare che Diff-2-in-1 ottimizza l'utilizzo dei dati creati, diversificati e fedeli, sfruttando un nuovo meccanismo di apprendimento di auto-miglioramento. Valutazioni sperimentali complete convalidano l'efficacia del nostro framework, dimostrando miglioramenti prestazionali consistenti su vari backbone discriminativi e una generazione di dati multimodali di alta qualità caratterizzata sia da realismo che da utilità.