Articoli di ricerca IA selezionati quotidianamente con traduzioni
Scalable Vector Graphics (SVG) è un importante formato di immagine ampiamente adottato nel design grafico grazie alla sua indipendenza dalla risoluzione e alla facilità di modifica. Lo studio sulla generazione di SVG di alta qualità ha continuato ad attirare l'attenzione sia dei designer che dei ricercatori nella comunità AIGC. Tuttavia, i metodi esistenti producono o output non strutturati con un elevato costo computazionale o sono limitati alla generazione di icone monocromatiche con strutture eccessivamente semplificate. Per produrre SVG di alta qualità e complessi, proponiamo OmniSVG, un framework unificato che sfrutta modelli Vision-Language (VLM) pre-addestrati per la generazione multimodale end-to-end di SVG. Parametrizzando i comandi e le coordinate SVG in token discreti, OmniSVG separa la logica strutturale dalla geometria di basso livello per un addestramento efficiente, mantenendo al contempo l'espressività delle strutture SVG complesse. Per promuovere ulteriormente lo sviluppo della sintesi SVG, introduciamo MMSVG-2M, un dataset multimodale con due milioni di asset SVG riccamente annotati, insieme a un protocollo di valutazione standardizzato per i task di generazione condizionata di SVG. Esperimenti estensivi dimostrano che OmniSVG supera i metodi esistenti e mostra il suo potenziale per l'integrazione nei flussi di lavoro professionali di design SVG.
I Large Language Model (LLM) hanno dimostrato la capacità di affrontare compiti sempre più complessi attraverso ragionamenti avanzati, generazione di contenuti estesi e utilizzo di strumenti. Risolvere questi compiti spesso richiede calcoli prolungati durante l'inferenza. Nella risoluzione di problemi umana, una strategia comune per accelerare il lavoro è la collaborazione: suddividendo il problema in sotto-compiti, esplorando diverse strategie in parallelo, ecc. Ricerche recenti hanno mostrato che anche gli LLM possono operare in parallelo implementando framework di cooperazione esplicita, come meccanismi di voto o la creazione esplicita di sotto-compiti indipendenti che possono essere eseguiti in parallelo. Tuttavia, ciascuno di questi framework potrebbe non essere adatto a tutti i tipi di compiti, limitandone l'applicabilità. In questo lavoro, proponiamo un approccio di progettazione diverso: eseguiamo "lavoratori" LLM in parallelo, consentendo loro di sincronizzarsi tramite una cache di attenzione aggiornata in modo concorrente e spingendo questi lavoratori a decidere come collaborare al meglio. Il nostro approccio consente alle istanze di sviluppare la propria strategia di collaborazione per il problema in questione, pur "vedendo" i progressi parziali reciproci nella cache concorrente. Implementiamo questo approccio tramite Hogwild! Inference: un motore di inferenza parallela per LLM in cui più istanze dello stesso LLM vengono eseguite in parallelo con la stessa cache di attenzione, con accesso "istantaneo" ai token generati reciprocamente. Hogwild! inference sfrutta i Rotary Position Embeddings (RoPE) per evitare ricalcoli migliorando al contempo l'utilizzo dell'hardware parallelo. Abbiamo riscontrato che gli LLM moderni dotati di capacità di ragionamento possono eseguire inferenze con una cache Key-Value condivisa senza bisogno di ulteriori aggiustamenti.
Presentiamo Skywork R1V, un modello di ragionamento multimodale che estende i modelli linguistici di grandi dimensioni (LLM) della serie R1 alle modalità visive attraverso un efficiente metodo di trasferimento multimodale. Sfruttando un proiettore visivo leggero, Skywork R1V facilita un adattamento multimodale senza soluzione di continuità, senza necessitare di riaddestramento né del modello linguistico di base né dell'encoder visivo. Per rafforzare l'allineamento visivo-testuale, proponiamo una strategia di ottimizzazione ibrida che combina l'Affinamento Supervisionato Iterativo (SFT) con l'Ottimizzazione delle Politiche Relative di Gruppo (GRPO), migliorando significativamente l'efficienza dell'integrazione cross-modale. Inoltre, introduciamo un approccio di distillazione a Catena di Pensiero (Chain-of-Thought) a lunghezza adattativa per la generazione di dati di ragionamento. Questo approccio ottimizza dinamicamente le lunghezze delle catene di ragionamento, migliorando così l'efficienza inferenziale e prevenendo un eccessivo sovraccarico di ragionamento. Le valutazioni empiriche dimostrano che Skywork R1V, con soli 38 miliardi di parametri, offre prestazioni competitive, raggiungendo un punteggio di 69,0 sul benchmark MMMU e 67,5 su MathVista. Allo stesso tempo, mantiene robuste prestazioni di ragionamento testuale, evidenziate da punteggi impressionanti di 72,0 su AIME e 94,0 su MATH500. I pesi del modello Skywork R1V sono stati resi pubblicamente disponibili per promuovere l'apertura e la riproducibilità.
Il panorama della generazione di immagini si è rapidamente evoluto, passando dai primi approcci basati su GAN ai modelli di diffusione e, più recentemente, a architetture generative unificate che cercano di colmare il divario tra compiti di comprensione e generazione. I recenti progressi, in particolare il GPT-4o, hanno dimostrato la fattibilità della generazione multimodale ad alta fedeltà, sebbene il loro design architetturale rimanga misterioso e non pubblicato. Ciò solleva la questione se la generazione di immagini e testo siano già state integrate con successo in un framework unificato per tali metodi. In questo lavoro, conduciamo uno studio empirico sulle capacità di generazione di immagini di GPT-4o, confrontandolo con i principali modelli open-source e commerciali. La nostra valutazione copre quattro categorie principali, tra cui generazione da testo a immagine, da immagine a immagine, da immagine a 3D e da immagine a X, con più di 20 task. La nostra analisi evidenzia i punti di forza e le limitazioni di GPT-4o in varie configurazioni e lo colloca all'interno della più ampia evoluzione della modellazione generativa. Attraverso questa indagine, identifichiamo direzioni promettenti per i futuri modelli generativi unificati, enfatizzando il ruolo del design architetturale e del ridimensionamento dei dati.
L'allineamento dei grandi modelli linguistici (LLM) con le preferenze umane ha ottenuto un successo notevole. Tuttavia, i dataset esistenti di preferenze cinesi sono limitati da una scala ridotta, una copertura di dominio ristretta e una mancanza di validazione rigorosa dei dati. Inoltre, la dipendenza da annotatori umani per l'etichettatura delle istruzioni e delle risposte limita significativamente la scalabilità dei dataset di preferenze umane. Per affrontare queste sfide, abbiamo progettato una pipeline di annotazione di dataset di preferenze cinesi basata su LLM senza intervento umano. Nello specifico, abbiamo raccolto e filtrato attentamente 92k query cinesi di alta qualità e abbiamo impiegato 15 LLM mainstream per generare e valutare coppie di risposte scartate e selezionate. Sulla base di ciò, introduciamo COIG-P (Chinese Open Instruction Generalist - Preference), un dataset di preferenze cinesi di alta qualità e su larga scala, che comprende 1.009k coppie di preferenze cinesi che coprono 6 domini diversi: Chat, Codice, Matematica, Logica, Romanzo e Ruolo. Basandoci su COIG-P, per ridurre il sovraccarico derivante dall'uso di LLM per la valutazione, abbiamo addestrato un modello di ricompensa cinese (CRM) di dimensioni 8B e abbiamo costruito meticolosamente un benchmark di ricompensa cinese (CRBench). I risultati di valutazione basati su AlignBench liu2024alignbenchbenchmarkingchinesealignment mostrano che COIG-P supera significativamente altri dataset di preferenze cinesi e apporta miglioramenti significativi delle prestazioni, compresi tra il 2% e il 12%, rispettivamente per le serie di modelli Qwen2/2.5 e Infinity-Instruct-3M-0625. I risultati su CRBench dimostrano che il nostro CRM ha una forte e robusta capacità di valutazione. Lo abbiamo applicato per filtrare le coppie di risposte scartate e selezionate in una divisione di test di COIG-P, e i nostri esperimenti mostrano che è comparabile a GPT-4o nell'identificazione di campioni di bassa qualità, mantenendo al contempo efficienza e convenienza economica. I nostri codici e dati sono rilasciati su https://github.com/multimodal-art-projection/COIG-P.
Sebbene la generazione guidata da soggetti sia stata ampiamente esplorata nella generazione di immagini grazie alle sue numerose applicazioni, presenta ancora sfide in termini di scalabilità dei dati e espandibilità dei soggetti. Per la prima sfida, il passaggio dalla creazione di dataset con un singolo soggetto a quelli con più soggetti e la loro scalabilità è particolarmente complesso. Per la seconda, la maggior parte dei metodi recenti si concentra sulla generazione di un singolo soggetto, rendendo difficile l'applicazione in scenari con più soggetti. In questo studio, proponiamo una pipeline di sintesi dati altamente coerente per affrontare questa sfida. Questa pipeline sfrutta le capacità intrinseche di generazione in-context dei trasformatori di diffusione e genera dati accoppiati multi-soggetto ad alta coerenza. Inoltre, introduciamo UNO, che consiste in un allineamento cross-modale progressivo e un embedding universale di posizione rotativa. Si tratta di un modello soggetto-immagine condizionato da più immagini, addestrato iterativamente a partire da un modello testo-immagine. Esperimenti estesi dimostrano che il nostro metodo può raggiungere un'elevata coerenza garantendo al contempo la controllabilità sia nella generazione guidata da un singolo soggetto che da più soggetti.
L'architettura Mixture of Experts (MoE) ha dimostrato significativi vantaggi in quanto consente di aumentare la capacità del modello senza un incremento proporzionale del calcolo. Tuttavia, le grandi dimensioni dei modelli MoE introducono comunque notevoli richieste di memoria, che solitamente richiedono lo scaricamento degli esperti su piattaforme con risorse limitate e comportano un sovraccarico significativo. L'inferenza ibrida CPU-GPU è stata proposta per sfruttare il calcolo della CPU al fine di ridurre il sovraccarico di caricamento degli esperti, ma affronta importanti sfide: da un lato, i modelli di attivazione degli esperti nei modelli MoE sono altamente instabili, rendendo inefficienti le strategie di mappatura fisse presenti nei lavori esistenti; dall'altro, la pianificazione ibrida CPU-GPU per MoE è intrinsecamente complessa a causa delle diverse dimensioni degli esperti, delle loro strutture, della distribuzione disomogenea del carico di lavoro, ecc. Per affrontare queste sfide, in questo articolo proponiamo HybriMoE, un framework di inferenza ibrida CPU-GPU che migliora l'utilizzo delle risorse attraverso un innovativo sistema di pianificazione CPU-GPU e gestione della cache. HybriMoE introduce (i) una strategia di pianificazione intra-layer dinamica per bilanciare il carico di lavoro tra CPU e GPU, (ii) un algoritmo di prefetching inter-layer guidato dall'impatto, e (iii) un algoritmo di caching basato su punteggio per mitigare l'instabilità dell'attivazione degli esperti. Implementiamo HybriMoE sul framework kTransformers e lo valutiamo su tre LLM basati su MoE ampiamente utilizzati. I risultati sperimentali dimostrano che HybriMoE raggiunge un'accelerazione media di 1,33 volte nella fase di prefill e di 1,70 volte nella fase di decodifica rispetto al framework di inferenza ibrida MoE più avanzato. Il nostro codice è disponibile all'indirizzo: https://github.com/PKU-SEC-Lab/HybriMoE.
I modelli di diffusione/flusso text-to-image (T2I) hanno attirato notevole attenzione di recente grazie alla loro straordinaria capacità di produrre creazioni visive flessibili. Tuttavia, la sintesi di immagini ad alta risoluzione presenta sfide considerevoli a causa della scarsità e della complessità dei contenuti ad alta risoluzione. A tal fine, presentiamo HiFlow, un framework agnostico rispetto al modello e privo di addestramento, progettato per sbloccare il potenziale di risoluzione dei modelli di flusso pre-addestrati. Nello specifico, HiFlow stabilisce un flusso di riferimento virtuale all'interno dello spazio ad alta risoluzione che cattura efficacemente le caratteristiche delle informazioni di flusso a bassa risoluzione, offrendo una guida per la generazione ad alta risoluzione attraverso tre aspetti chiave: allineamento dell'inizializzazione per la coerenza delle basse frequenze, allineamento della direzione per la preservazione della struttura e allineamento dell'accelerazione per la fedeltà dei dettagli. Sfruttando questa guida allineata al flusso, HiFlow eleva significativamente la qualità della sintesi di immagini ad alta risoluzione dei modelli T2I e dimostra versatilità attraverso le loro varianti personalizzate. Esperimenti estensivi convalidano la superiorità di HiFlow nel raggiungere una qualità di immagine ad alta risoluzione superiore rispetto ai metodi all'avanguardia attuali.
Con i potenti modelli linguistici di grandi dimensioni (LLM) che dimostrano capacità di ragionamento sovrumane, sorge una domanda cruciale: gli LLM ragionano veramente o si limitano a ricordare risposte dai loro estesi dataset di addestramento ottenuti dal web? I benchmark rilasciati pubblicamente diventano inevitabilmente contaminati una volta incorporati nei successivi set di addestramento degli LLM, minando la loro affidabilità come valutazioni fedeli. Per affrontare questo problema, introduciamo KUMO, un framework di valutazione generativo progettato specificamente per valutare il ragionamento negli LLM. KUMO combina sinergicamente gli LLM con motori simbolici per produrre dinamicamente compiti di ragionamento diversificati, multi-turn, parzialmente osservabili e regolabili in difficoltà. Attraverso una pipeline automatizzata, KUMO genera continuamente nuovi compiti in domini aperti, costringendo i modelli a dimostrare una vera generalizzazione piuttosto che memorizzazione. Abbiamo valutato 23 LLM all'avanguardia su 5.000 compiti in 100 domini creati da KUMO, confrontando le loro capacità di ragionamento con quelle degli studenti universitari. I nostri risultati rivelano che molti LLM hanno superato le prestazioni di livello universitario su compiti di ragionamento semplici, e gli LLM scalati per il ragionamento raggiungono prestazioni di livello universitario su sfide di ragionamento complesse. Inoltre, le prestazioni degli LLM sui compiti di KUMO correlano fortemente con i risultati su nuovi benchmark di ragionamento del mondo reale, sottolineando il valore di KUMO come strumento di valutazione robusto e duraturo per le genuine capacità di ragionamento degli LLM.
I recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno portato a significativi miglioramenti in vari benchmark multimodali. Tuttavia, con il passaggio delle valutazioni da dataset statici a ambienti dinamici e aperti, gli attuali benchmark basati su giochi si rivelano inadeguati poiché mancano di task centrati sulla visione e non riescono a valutare le diverse abilità di ragionamento necessarie per il processo decisionale nel mondo reale. Per affrontare questa problematica, introduciamo Visual-centric Multiple Abilities Game Evaluation (V-MAGE), un framework di valutazione basato su giochi progettato per valutare le capacità di ragionamento visivo degli MLLMs. V-MAGE include cinque giochi diversi con oltre 30 livelli progettati manualmente, testando i modelli su abilità visive fondamentali come il posizionamento, il tracciamento delle traiettorie, la tempistica e la memoria visiva, insieme a ragionamenti di livello superiore come la pianificazione a lungo termine e la deliberazione. Utilizziamo V-MAGE per valutare i principali MLLMs, rivelando significative sfide nella loro percezione e ragionamento visivo. In tutti gli ambienti di gioco, i migliori MLLMs, determinati attraverso confronti di valutazione Elo, mostrano un divario di prestazioni sostanziale rispetto agli esseri umani. Le nostre scoperte evidenziano limitazioni critiche, inclusi vari tipi di errori percettivi commessi dai modelli, e suggeriscono potenziali vie di miglioramento da una prospettiva centrata sull'agente, come il perfezionamento delle strategie dell'agente e la correzione delle inesattezze percettive. Il codice è disponibile all'indirizzo https://github.com/CSU-JPG/V-MAGE.
Bilanciare fedeltà e modificabilità è essenziale nell'editing di immagini basato su testo (TIE), dove gli errori portano comunemente a problemi di sovra- o sotto-modifica. I metodi esistenti si basano tipicamente su iniezioni di attenzione per preservare la struttura e sfruttano le capacità intrinseche di allineamento al testo dei modelli pre-addestrati di testo-immagine (T2I) per la modificabilità, ma mancano di meccanismi espliciti e unificati per bilanciare correttamente questi due obiettivi. In questo lavoro, introduciamo UnifyEdit, un metodo senza tuning che esegue l'ottimizzazione latente della diffusione per consentire un'integrazione bilanciata di fedeltà e modificabilità all'interno di un framework unificato. A differenza delle iniezioni dirette di attenzione, sviluppiamo due vincoli basati sull'attenzione: un vincolo di preservazione dell'auto-attenzione (SA) per la fedeltà strutturale e un vincolo di allineamento dell'attenzione incrociata (CA) per migliorare l'allineamento al testo e aumentare la modificabilità. Tuttavia, applicare entrambi i vincoli simultaneamente può portare a conflitti di gradiente, dove la predominanza di un vincolo risulta in sovra- o sotto-modifica. Per affrontare questa sfida, introduciamo uno scheduler adattivo basato sul tempo che regola dinamicamente l'influenza di questi vincoli, guidando il latente di diffusione verso un equilibrio ottimale. Estesi esperimenti quantitativi e qualitativi convalidano l'efficacia del nostro approccio, dimostrando la sua superiorità nel raggiungere un robusto equilibrio tra preservazione della struttura e allineamento al testo in varie attività di editing, superando altri metodi all'avanguardia. Il codice sorgente sarà disponibile all'indirizzo https://github.com/CUC-MIPG/UnifyEdit.
I recenti progressi nei modelli di ragionamento hanno dimostrato significativi miglioramenti in termini di accuratezza, in particolare per compiti complessi come il ragionamento matematico, grazie all'impiego di processi di ragionamento dettagliati e completi. Tuttavia, la generazione di queste lunghe sequenze di ragionamento è computazionalmente costosa e richiede molto tempo. Per affrontare questa inefficienza, sfruttiamo l'intrinseca parallelizzabilità di determinati compiti per accelerare il processo di ragionamento. Nello specifico, quando esistono più rami di ragionamento paralleli, decodifichiamo più token per passo utilizzando una maschera di attenzione specializzata, elaborandoli all'interno di una singola sequenza e evitando un ulteriore utilizzo di memoria. I risultati sperimentali mostrano che il nostro metodo raggiunge un incremento di velocità superiore al 100% nel tempo di decodifica, mantenendo invariata la qualità delle risposte.
Il fine-tuning con rinforzo (RFT) ha dimostrato un grande potenziale per migliorare le capacità di ragionamento matematico dei modelli linguistici di grandi dimensioni (LLM), ma spesso risulta inefficiente in termini di campioni e calcolo, richiedendo un addestramento esteso. In questo lavoro, introduciamo AdaRFT (Adaptive Curriculum Reinforcement Finetuning), un metodo che migliora significativamente sia l'efficienza che l'accuratezza finale del RFT attraverso l'apprendimento adattivo basato su curriculum. AdaRFT regola dinamicamente la difficoltà dei problemi di addestramento in base ai segnali di ricompensa recenti del modello, garantendo che il modello si alleni costantemente su compiti che sono impegnativi ma risolvibili. Questa strategia di campionamento adattivo accelera l'apprendimento mantenendo un intervallo di difficoltà ottimale, evitando di sprecare calcoli su problemi troppo facili o troppo difficili. AdaRFT richiede solo un'estensione leggera agli algoritmi RFT standard come il Proximal Policy Optimization (PPO), senza modificare la funzione di ricompensa o l'architettura del modello. Esperimenti su dataset matematici di livello competitivo, inclusi problemi di tipo AMC, AIME e IMO, dimostrano che AdaRFT migliora significativamente sia l'efficienza dell'addestramento che le prestazioni di ragionamento. Valutiamo AdaRFT su diverse distribuzioni di dati e dimensioni del modello, mostrando che riduce il numero di passi di addestramento fino a 2x e migliora l'accuratezza in modo considerevole, offrendo un framework RFT più scalabile ed efficace.
I framework esistenti per la valutazione del ragionamento nei Large Language Models (LLMs) e nei Large Vision-Language Models (LVLMs) si concentrano prevalentemente sulla valutazione del ragionamento basato su testo o sulla comprensione multimodale di testo e immagini, con un'interazione dinamica limitata tra vincoli testuali e visivi. Per affrontare questa limitazione, introduciamo CrossWordBench, un benchmark progettato per valutare le capacità di ragionamento sia degli LLMs che dei LVLMs attraverso il medium dei cruciverba—un'attività che richiede l'aderenza a vincoli semantici derivati da indizi testuali e a vincoli intersezionali derivati dalla struttura visiva della griglia. CrossWordBench sfrutta un framework controllabile per la generazione di puzzle che produce enigmi in più formati (testo e immagine) e offre diverse strategie di valutazione, dalla risoluzione diretta dei puzzle a modalità interattive. La nostra valutazione estensiva di oltre 20 modelli rivela che gli LLMs specializzati nel ragionamento superano significativamente i modelli non specializzati, sfruttando efficacemente i vincoli delle lettere incrociate. Dimostriamo inoltre che i LVLMs faticano in questo compito, mostrando una forte correlazione tra le loro prestazioni nella risoluzione dei puzzle e l'accuratezza nell'analisi della griglia. I nostri risultati offrono approfondimenti sui limiti delle capacità di ragionamento degli attuali LLMs e LVLMs e forniscono un approccio efficace per la creazione di task multimodali vincolati per future valutazioni.
I recenti progressi nel campo del teorema automatico (ATP) attraverso i modelli linguistici di grandi dimensioni (LLMs) hanno evidenziato il potenziale del ragionamento formale con codici Lean 4. Tuttavia, l'ATP non è stato ancora rivoluzionato dal recente scalamento post-addestramento, come dimostrato da Open AI O1/O3 e Deepseek R1. In questo lavoro, indaghiamo l'intero processo post-addestramento dell'ATP, con l'obiettivo di allinearlo alle innovazioni nei modelli di ragionamento per i linguaggi naturali. Per iniziare, addestriamo continuamente i modelli ATP attuali con un dataset ibrido, composto da numerose coppie di enunciato-dimostrazione, e dati aggiuntivi mirati a incorporare comportamenti cognitivi che emulano il ragionamento umano e il perfezionamento delle ipotesi. Successivamente, esploriamo l'apprendimento per rinforzo utilizzando la ricompensa basata sui risultati restituiti dal compilatore Lean 4. Attraverso i nostri processi di addestramento continuo e apprendimento per rinforzo, abbiamo migliorato con successo i dimostratori formali esistenti, inclusi sia DeepSeek-Prover-v1.5 che Goedel-Prover, raggiungendo prestazioni all'avanguardia nel campo della generazione di dimostrazioni complete. Ad esempio, otteniamo un tasso di successo del 59,8% (pass@32) su MiniF2F. Questo è un progetto in corso e aggiorneremo progressivamente i nostri risultati, rilasciando i nostri dati e i dettagli dell'addestramento.
L'apprendimento per imitazione è emerso come un approccio promettente per la costruzione di robot generalisti. Tuttavia, scalare l'apprendimento per imitazione per modelli di robot di grandi dimensioni rimane una sfida a causa della sua dipendenza da dimostrazioni di esperti di alta qualità. Nel frattempo, sono disponibili grandi quantità di dati video che rappresentano una vasta gamma di ambienti e comportamenti diversi. Questi dati forniscono una ricca fonte di informazioni sulle dinamiche del mondo reale e sulle interazioni agente-ambiente. Sfruttare direttamente questi dati per l'apprendimento per imitazione, tuttavia, si è rivelato difficile a causa della mancanza di annotazioni delle azioni richieste dalla maggior parte dei metodi contemporanei. In questo lavoro, presentiamo Unified World Models (UWM), un framework che consente di sfruttare sia i dati video che quelli sulle azioni per l'apprendimento delle politiche. Nello specifico, un UWM integra un processo di diffusione delle azioni e un processo di diffusione video all'interno di un'architettura transformer unificata, dove passi temporali di diffusione indipendenti governano ciascuna modalità. Mostriamo che, semplicemente controllando ciascun passo temporale di diffusione, UWM può rappresentare in modo flessibile una politica, una dinamica diretta, una dinamica inversa e un generatore di video. Attraverso esperimenti simulati e nel mondo reale, dimostriamo che: (1) UWM consente un efficace pre-addestramento su grandi dataset multitask per robot con previsioni sia di dinamiche che di azioni, risultando in politiche più generalizzabili e robuste rispetto all'apprendimento per imitazione, (2) UWM facilita naturalmente l'apprendimento da dati video privi di azioni attraverso il controllo indipendente dei passi temporali di diffusione specifici per modalità, migliorando ulteriormente le prestazioni delle politiche fine-tuned. I nostri risultati suggeriscono che UWM offre un passo promettente verso lo sfruttamento di grandi dataset eterogenei per l'apprendimento scalabile dei robot e fornisce una semplice unificazione tra i paradigmi spesso disparati dell'apprendimento per imitazione e della modellazione del mondo. Video e codice sono disponibili all'indirizzo https://weirdlabuw.github.io/uwm/.
La scoperta generalizzata di categorie (GCD) è un problema pragmatico ma poco esplorato, che richiede ai modelli di raggruppare automaticamente e scoprire nuove categorie sfruttando i campioni etichettati delle classi note. La sfida risiede nel fatto che i dati non etichettati contengono sia classi note che nuove. I primi approcci che utilizzano pseudo-etichettatura con classificatori parametrici gestiscono separatamente le classi note e nuove, portando a una precisione sbilanciata tra di esse. I metodi recenti che impiegano l'apprendimento contrastivo trascurano potenziali positivi e sono disaccoppiati dall'obiettivo di clustering, risultando in rappresentazioni distorte e risultati sub-ottimali. Per affrontare questi problemi, introduciamo un framework unificato e imparziale di apprendimento prototipico, denominato ProtoGCD, in cui le classi note e nuove sono modellate con prototipi congiunti e obiettivi di apprendimento unificati, {consentendo una modellazione unificata tra classi note e nuove}. Nello specifico, proponiamo un meccanismo di pseudo-etichettatura adattivo a doppio livello per mitigare il bias di conferma, insieme a due termini di regolarizzazione che aiutano collettivamente a apprendere rappresentazioni più adatte per la GCD. Inoltre, per considerazioni pratiche, elaboriamo un criterio per stimare il numero di nuove classi. Estendiamo inoltre ProtoGCD per rilevare outlier non visti, raggiungendo un'unificazione a livello di task. Esperimenti completi dimostrano che ProtoGCD raggiunge prestazioni all'avanguardia sia su dataset generici che su dataset fine-grained. Il codice è disponibile all'indirizzo https://github.com/mashijie1028/ProtoGCD.