Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il rilevamento di testi artificiali (ATD) sta diventando sempre più importante con l'ascesa dei modelli linguistici avanzati di grandi dimensioni (LLM). Nonostante i numerosi sforzi, nessun algoritmo singolo si comporta in modo costantemente efficace su diversi tipi di testo non visto o garantisce una generalizzazione efficace ai nuovi LLM. L'interpretabilità gioca un ruolo cruciale nel raggiungimento di questo obiettivo. In questo studio, miglioriamo l'interpretabilità dell'ATD utilizzando Autoencoder Sparse (SAE) per estrarre caratteristiche dal flusso residuo di Gemma-2-2b. Identifichiamo sia caratteristiche interpretabili che efficienti, analizzandone la semantica e la rilevanza attraverso statistiche specifiche per dominio e modello, un approccio di steering e interpretazione manuale o basata su LLM. I nostri metodi offrono preziose intuizioni su come i testi provenienti da vari modelli differiscano dai contenuti scritti da esseri umani. Dimostriamo che i moderni LLM hanno uno stile di scrittura distinto, specialmente in domini ad alta densità di informazioni, anche se possono produrre output simili a quelli umani con prompt personalizzati.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un successo straordinario in vari compiti di elaborazione del linguaggio naturale, ma il loro elevato costo computazionale durante l'inferenza rimane un collo di bottiglia significativo. Questo articolo introduce il metodo Sparse Expert Activation Pruning (SEAP), una tecnica di pruning senza addestramento che selettivamente mantiene i parametri rilevanti per il compito per ridurre il sovraccarico computazionale durante l'inferenza. Ispirato dai modelli di clustering degli stati nascosti e delle attivazioni nei LLM, SEAP identifica i modelli di attivazione specifici per il compito e pota il modello preservando le prestazioni del compito e migliorando l'efficienza computazionale. I risultati sperimentali dimostrano che SEAP riduce significativamente il sovraccarico computazionale mantenendo un'accuratezza competitiva. In particolare, con un pruning del 50%, SEAP supera sia WandA che FLAP di oltre il 20%, e con un pruning del 20%, comporta solo un calo delle prestazioni del 2,2% rispetto al modello denso. Questi risultati evidenziano la scalabilità e l'efficacia di SEAP, rendendolo un approccio promettente per ottimizzare i LLM su larga scala.
Presentiamo MM-Eureka, un modello di ragionamento multimodale che estende con successo l'apprendimento per rinforzo (RL) basato su regole su larga scala al ragionamento multimodale. Sebbene l'RL basato su regole abbia dimostrato un notevole successo nel migliorare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLMs) nei domini testuali, la sua applicazione in contesti multimodali è rimasta una sfida. Il nostro lavoro riproduce le caratteristiche chiave dei sistemi RL basati su testo, come DeepSeek-R1, nello spazio multimodale, includendo aumenti costanti nella ricompensa per l'accuratezza e nella lunghezza delle risposte, nonché l'emergere di comportamenti di riflessione. Dimostriamo che sia i modelli ottimizzati per istruzioni che quelli pre-addestrati possono sviluppare forti capacità di ragionamento multimodale attraverso l'RL basato su regole senza una messa a punto supervisionata, mostrando una superiorità in termini di efficienza dei dati rispetto ad approcci alternativi. Rendiamo disponibile l'intera pipeline in open source per favorire ulteriori ricerche in questo ambito. Rilasciamo tutti i nostri codici, modelli, dati, ecc. su https://github.com/ModalMinds/MM-EUREKA.
Il Diffusion Transformer ha dimostrato una potente capacità e scalabilità nella generazione di immagini e video di alta qualità. Il perseguimento dell'unificazione tra compiti di generazione e editing ha portato a progressi significativi nel campo della creazione di contenuti visivi. Tuttavia, a causa delle intrinseche esigenze di coerenza sia nelle dinamiche temporali che spaziali, raggiungere un approccio unificato per la sintesi video rimane una sfida. Introduciamo VACE, che consente agli utenti di eseguire compiti video all'interno di un framework All-in-one per la Creazione e l'Editing. Questi compiti includono la generazione da riferimento a video, l'editing da video a video e l'editing da video a video con maschera. Nello specifico, integriamo efficacemente i requisiti di vari compiti organizzando gli input dei task video, come editing, riferimento e mascheramento, in un'interfaccia unificata denominata Video Condition Unit (VCU). Inoltre, utilizzando una struttura Context Adapter, iniettiamo diversi concetti di task nel modello attraverso rappresentazioni formalizzate delle dimensioni temporali e spaziali, consentendogli di gestire in modo flessibile qualsiasi compito di sintesi video. Esperimenti estensivi dimostrano che il modello unificato di VACE raggiunge prestazioni pari a modelli specifici per task in vari sottocompiti. Allo stesso tempo, abilita applicazioni diversificate attraverso combinazioni versatili di task. Pagina del progetto: https://ali-vilab.github.io/VACE-Page/.
I framework esistenti per la generazione di video di lunga durata mancano di pianificazione automatizzata, richiedendo input manuali per trame, scene, cinematografia e interazioni tra personaggi, risultando in costi elevati e inefficienze. Per affrontare queste sfide, presentiamo MovieAgent, una generazione automatizzata di film tramite pianificazione multi-agente basata su Catena di Pensiero (CoT). MovieAgent offre due vantaggi chiave: 1) Esploriamo e definiamo per la prima volta il paradigma della generazione automatizzata di film/video di lunga durata. Dato un copione e una banca di personaggi, il nostro MovieAgent può generare video di lunga durata con più scene e inquadrature, mantenendo una narrazione coerente, garantendo la consistenza dei personaggi, i sottotitoli sincronizzati e un audio stabile durante tutto il film. 2) MovieAgent introduce un processo di ragionamento gerarchico basato su CoT per strutturare automaticamente scene, impostazioni della telecamera e cinematografia, riducendo significativamente lo sforzo umano. Impiegando più agenti LLM per simulare i ruoli di un regista, sceneggiatore, artista dello storyboard e location manager, MovieAgent semplifica la pipeline di produzione. Gli esperimenti dimostrano che MovieAgent raggiunge nuovi risultati all'avanguardia in termini di fedeltà al copione, consistenza dei personaggi e coerenza narrativa. Il nostro framework gerarchico rappresenta un passo avanti e fornisce nuove intuizioni per la generazione completamente automatizzata di film. Il codice e il sito web del progetto sono disponibili su: https://github.com/showlab/MovieAgent e https://weijiawu.github.io/MovieAgent.
I modelli linguistici multimodali di grandi dimensioni (MLLMs), costruiti su torri visive e modelli linguistici pre-addestrati su larga scala, hanno dimostrato grandi capacità nella comprensione multimodale. Tuttavia, la maggior parte degli MLLM esistenti viene addestrata su task di risposta a domande visive a turno singolo, che non riflettono accuratamente le conversazioni umane nel mondo reale. In questo articolo, introduciamo MMDiag, un dataset di dialogo multimodale a più turni. Questo dataset è generato in modo collaborativo attraverso regole progettate deliberatamente e con l'assistenza di GPT, presentando forti correlazioni tra le domande, tra le domande e le immagini, e tra diverse regioni dell'immagine; allineandosi così più strettamente agli scenari del mondo reale. MMDiag funge da solido benchmark per l'apprendimento del dialogo multimodale a più turni e pone maggiori sfide alle capacità di grounding e ragionamento degli MLLM. Inoltre, ispirati dal processo visivo umano, presentiamo DiagNote, un MLLM dotato di capacità di grounding e ragionamento multimodale. DiagNote è composto da due moduli (Deliberate e Gaze) che interagiscono tra loro per eseguire rispettivamente il Chain-of-Thought e le annotazioni, durante dialoghi a più turni. Dimostriamo empiricamente i vantaggi di DiagNote sia nel grounding che nell'elaborazione e ragionamento congiunto di informazioni visive e linguistiche rispetto agli MLLM esistenti.
Il Federated Learning (FL) è un framework ampiamente utilizzato per addestrare modelli in modo decentralizzato, garantendo che il server centrale non abbia accesso diretto ai dati dei client locali. Tuttavia, questo approccio potrebbe non preservare completamente la privacy dei dati, poiché i modelli dei client locali vengono esposti al server centrale durante il processo di aggregazione. Questo problema diventa ancora più critico quando si addestrano modelli visione-linguaggio (VLMs) con il FL, poiché i VLMs possono memorizzare facilmente le istanze dei dati di addestramento, rendendoli vulnerabili ad attacchi di inferenza di appartenenza (MIAs). Per affrontare questa sfida, proponiamo il framework FedRand, che evita di divulgare l'intero set di parametri dei client. In questo framework, ogni client seleziona casualmente dei sottoparametri di Low-Rank Adaptation (LoRA) dal server e mantiene le controparti rimanenti dei pesi LoRA come parametri privati. Dopo aver addestrato entrambi i parametri sul dataset privato del client, solo i parametri non privati del client vengono inviati al server per l'aggregazione. Questo approccio mitiga il rischio di esporre i parametri VLM lato client, migliorando così la privacy dei dati. Validiamo empiricamente che FedRand migliora la robustezza contro gli MIAs rispetto ai baseline rilevanti, raggiungendo un'accuratezza comparabile ai metodi che comunicano l'intero set di parametri LoRA su diversi dataset di benchmark.
Nonostante il successo della distillazione nei grandi modelli linguistici (LLM), la maggior parte dei lavori precedenti applica funzioni di perdita identiche sia ai dati generati dal docente che a quelli generati dallo studente. Queste strategie trascurano la sinergia tra le formulazioni della perdita e i tipi di dati, portando a un miglioramento subottimale delle prestazioni nei modelli studente. Per affrontare questo problema, proponiamo DistiLLM-2, un approccio contrastivo che aumenta simultaneamente la probabilità delle risposte del docente e diminuisce quella delle risposte dello studente sfruttando questa sinergia. I nostri ampi esperimenti dimostrano che DistiLLM-2 non solo costruisce modelli studente ad alte prestazioni in un'ampia gamma di compiti, tra cui il seguire istruzioni e la generazione di codice, ma supporta anche diverse applicazioni, come l'allineamento delle preferenze e le estensioni visione-linguaggio. Questi risultati evidenziano il potenziale di un approccio contrastivo per migliorare l'efficacia della distillazione degli LLM allineando efficacemente i modelli docente e studente su vari tipi di dati.
DeepSeek-R1-Zero ha dimostrato con successo l'emergere di capacità di ragionamento nei LLM esclusivamente attraverso il Reinforcement Learning (RL). Ispirati da questa svolta, esploriamo come l'RL possa essere utilizzato per potenziare la capacità di ragionamento degli MLLM. Tuttavia, l'addestramento diretto con RL fatica ad attivare capacità di ragionamento complesse come il porre domande e la riflessione negli MLLM, a causa della mancanza di dati sostanziali e di alta qualità sul ragionamento multimodale. Per affrontare questo problema, proponiamo l'MLLM di ragionamento, Vision-R1, per migliorare la capacità di ragionamento multimodale. Nello specifico, costruiamo prima un dataset multimodale CoT di alta qualità senza annotazioni umane, sfruttando un MLLM esistente e DeepSeek-R1 attraverso il bridging di modalità e il filtraggio dei dati, ottenendo un dataset multimodale CoT di 200K, il dataset Vision-R1-cold. Questo serve come dati di inizializzazione a freddo per Vision-R1. Per mitigare le sfide di ottimizzazione causate dal sovrapensiero dopo l'avvio a freddo, proponiamo la strategia di Progressive Thinking Suppression Training (PTST) e impieghiamo il Group Relative Policy Optimization (GRPO) con la funzione di ricompensa basata sui risultati formattati in modo rigoroso, per affinare gradualmente la capacità del modello di apprendere processi di ragionamento corretti e complessi su un dataset matematico multimodale di 10K. Esperimenti completi mostrano che il nostro modello raggiunge un miglioramento medio di circa il 6% su vari benchmark di ragionamento matematico multimodale. Vision-R1-7B raggiunge un'accuratezza del 73,5% sul benchmark MathVista ampiamente utilizzato, che è solo lo 0,4% inferiore rispetto al modello di ragionamento leader, OpenAI O1. I dataset e il codice saranno rilasciati su: https://github.com/Osilly/Vision-R1.
I recenti progressi nei modelli di diffusione basati su Unet, come ControlNet e IP-Adapter, hanno introdotto meccanismi efficaci di controllo spaziale e tematico. Tuttavia, l’architettura DiT (Diffusion Transformer) continua a presentare difficoltà nel garantire un controllo efficiente e flessibile. Per affrontare questo problema, proponiamo EasyControl, un nuovo framework progettato per unire i transformer di diffusione guidati da condizioni con elevata efficienza e flessibilità. Il nostro framework si basa su tre innovazioni chiave. In primo luogo, introduciamo un modulo leggero di iniezione di condizioni basato su LoRA. Questo modulo elabora i segnali condizionali in modo isolato, fungendo da soluzione plug-and-play. Evita di modificare i pesi del modello di base, garantendo compatibilità con modelli personalizzati e consentendo l’iniezione flessibile di diverse condizioni. È importante sottolineare che questo modulo supporta anche una generalizzazione robusta e armoniosa in contesti zero-shot con più condizioni, anche quando addestrato solo su dati a condizione singola. In secondo luogo, proponiamo un paradigma di addestramento consapevole della posizione. Questo approccio standardizza le condizioni di input a risoluzioni fisse, consentendo la generazione di immagini con rapporti di aspetto arbitrari e risoluzioni flessibili. Allo stesso tempo, ottimizza l’efficienza computazionale, rendendo il framework più pratico per applicazioni reali. In terzo luogo, sviluppiamo un meccanismo di attenzione causale combinato con la tecnica KV Cache, adattato per compiti di generazione condizionale. Questa innovazione riduce significativamente la latenza nella sintesi delle immagini, migliorando l’efficienza complessiva del framework. Attraverso esperimenti estesi, dimostriamo che EasyControl raggiunge prestazioni eccezionali in vari scenari applicativi. Queste innovazioni rendono collettivamente il nostro framework altamente efficiente, flessibile e adatto a un’ampia gamma di compiti.
L'integrazione di conoscenze esterne nei grandi modelli linguistici (LLM) ne migliora l'utilità in diverse applicazioni, ma i metodi esistenti presentano compromessi. La Generazione Aumentata da Recupero (RAG) recupera prove tramite ricerca di similarità, ma informazioni chiave potrebbero non rientrare nei risultati più rilevanti. I modelli a contesto lungo possono elaborare più documenti, ma sono computazionalmente costosi e limitati dalla dimensione della finestra di contesto. Ispirati dagli studenti che condensano il materiale di studio per esami a libro aperto, proponiamo una compressione task-aware della cache chiave-valore (KV), che comprime le conoscenze esterne in un'impostazione zero-shot o few-shot. Ciò consente ai LLM di ragionare in modo efficiente su una rappresentazione compatta di tutte le informazioni rilevanti. Gli esperimenti dimostrano che il nostro approccio supera sia la RAG che i metodi di compressione task-agnostici. Su LongBench v2, migliora l'accuratezza fino a 7 punti assoluti rispetto alla RAG con un tasso di compressione di 30x, riducendo al contempo la latenza di inferenza da 0,43s a 0,16s. Un dataset sintetico evidenzia che la RAG funziona bene quando prove sparse sono sufficienti, mentre la compressione task-aware è superiore per compiti che richiedono una conoscenza ampia.
OpenAI o1 e DeepSeek R1 raggiungono o addirittura superano le prestazioni di livello esperto umano in domini complessi come la matematica e le scienze, con l'apprendimento per rinforzo (RL) e il ragionamento che svolgono un ruolo cruciale. Nella guida autonoma, i recenti modelli end-to-end hanno notevolmente migliorato le prestazioni di pianificazione, ma continuano a lottare con problemi a coda lunga a causa di limitate capacità di senso comune e ragionamento. Alcuni studi integrano modelli visione-linguaggio (VLMs) nella guida autonoma, ma si basano tipicamente su modelli pre-addestrati con una semplice messa a punto supervisionata (SFT) su dati di guida, senza ulteriori esplorazioni di strategie di addestramento o ottimizzazioni specificamente progettate per la pianificazione. In questo articolo, proponiamo AlphaDrive, un framework RL e di ragionamento per VLMs nella guida autonoma. AlphaDrive introduce quattro ricompense RL basate su GRPO specifiche per la pianificazione e impiega una strategia di addestramento di ragionamento per la pianificazione in due fasi che combina SFT con RL. Di conseguenza, AlphaDrive migliora significativamente sia le prestazioni di pianificazione che l'efficienza dell'addestramento rispetto all'uso esclusivo di SFT o senza ragionamento. Inoltre, siamo entusiasti di scoprire che, dopo l'addestramento RL, AlphaDrive mostra alcune capacità emergenti di pianificazione multimodale, fondamentali per migliorare la sicurezza e l'efficienza della guida. Per quanto ne sappiamo, AlphaDrive è il primo a integrare RL basata su GRPO con il ragionamento di pianificazione nella guida autonoma. Il codice verrà rilasciato per facilitare la ricerca futura.
L'implementazione di nuove funzionalità in codebase a livello di repository rappresenta un'applicazione cruciale per i modelli di generazione di codice. Tuttavia, gli attuali benchmark mancano di un framework di valutazione dedicato a questa capacità. Per colmare questa lacuna, introduciamo FEA-Bench, un benchmark progettato per valutare l'abilità dei grandi modelli linguistici (LLM) nello svolgere sviluppi incrementali all'interno di repository di codice. Raccogliamo pull request da 83 repository GitHub e utilizziamo filtri basati su regole e intenti per costruire istanze di task focalizzate sullo sviluppo di nuove funzionalità. Ogni istanza di task contenente modifiche al codice è associata a file di unit test rilevanti per garantire che la soluzione possa essere verificata. L'implementazione delle funzionalità richiede che gli LLM possiedano simultaneamente capacità di completamento del codice per nuovi componenti e abilità di modifica del codice per altre parti rilevanti nel repository, fornendo un metodo di valutazione più completo delle capacità di ingegneria del software automatizzato degli LLM. I risultati sperimentali mostrano che gli LLM performano significativamente peggio in FEA-Bench, evidenziando notevoli sfide in tale sviluppo incrementale di codice a livello di repository.
I flussi di lavoro agentici tradizionali si basano su prompt esterni per gestire le interazioni con strumenti e ambiente, limitando l'autonomia dei modelli di ragionamento. Proponiamo i Large Agent Models (LAMs) che internalizzano la generazione di una Catena di Azioni (Chain-of-Action, CoA), consentendo al modello di decidere autonomamente quando e come utilizzare strumenti esterni. Il nostro framework AutoCoA combina fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL), permettendo al modello di passare fluidamente tra ragionamento e azione, gestendo in modo efficiente le interazioni con l'ambiente. I componenti principali includono l'attivazione delle azioni a livello di passo, l'ottimizzazione della CoA a livello di traiettoria e un modello interno del mondo per ridurre i costi delle interazioni con l'ambiente reale. Le valutazioni su task di domanda-risposta a dominio aperto dimostrano che i modelli agentici addestrati con AutoCoA superano significativamente i flussi di lavoro basati su ReAct nel completamento dei task, specialmente in quelli che richiedono ragionamento a lungo termine e azioni multi-step. Codice e dataset sono disponibili all'indirizzo https://github.com/ADaM-BJTU/AutoCoA.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno significativamente migliorato le capacità di generazione del testo, tuttavia valutare le loro prestazioni nella scrittura generativa rimane una sfida. I benchmark esistenti si concentrano principalmente sulla generazione di testo generico o su compiti di scrittura limitati, non riuscendo a cogliere i requisiti diversificati dei contenuti scritti di alta qualità in vari domini. Per colmare questa lacuna, presentiamo WritingBench, un benchmark completo progettato per valutare gli LLM in 6 domini principali di scrittura e 100 sottodomini, che comprendono scrittura creativa, persuasiva, informativa e tecnica. Proponiamo inoltre un framework di valutazione dipendente dalla query che consente agli LLM di generare dinamicamente criteri di valutazione specifici per ogni istanza. Questo framework è integrato da un modello critico fine-tuned per il punteggio consapevole dei criteri, consentendo valutazioni su stile, formato e lunghezza. La validità del framework è ulteriormente dimostrata dalla sua capacità di curare i dati, che consente a modelli con 7 miliardi di parametri di avvicinarsi alle prestazioni state-of-the-art (SOTA). Rendiamo open-source il benchmark, insieme agli strumenti di valutazione e ai componenti modulari del framework, per promuovere lo sviluppo degli LLM nella scrittura.
I paper di survey svolgono un ruolo cruciale nella ricerca scientifica, soprattutto considerando la rapida crescita delle pubblicazioni di ricerca. Recentemente, i ricercatori hanno iniziato a utilizzare i LLM per automatizzare la generazione di survey al fine di migliorare l'efficienza. Tuttavia, il divario qualitativo tra le survey generate dai LLM e quelle scritte da esseri umani rimane significativo, in particolare per quanto riguarda la qualità della struttura e l'accuratezza delle citazioni. Per colmare queste lacune, introduciamo SurveyForge, che genera prima la struttura analizzando la struttura logica delle survey scritte da esseri umani e facendo riferimento agli articoli recuperati relativi al dominio. Successivamente, sfruttando articoli di alta qualità recuperati dalla memoria dal nostro agente di navigazione accademica, SurveyForge può generare e perfezionare automaticamente il contenuto dell'articolo generato. Inoltre, per ottenere una valutazione completa, costruiamo SurveyBench, che include 100 survey scritte da esseri umani per il confronto del tasso di successo e valuta le survey generate dall'IA secondo tre dimensioni: riferimento, struttura e qualità del contenuto. Gli esperimenti dimostrano che SurveyForge può superare i lavori precedenti come AutoSurvey.
I Large Language Models (LLM) hanno dimostrato prestazioni impressionanti nei benchmark esistenti di risposta a domande mediche. Queste elevate prestazioni rendono sempre più difficile valutare e differenziare in modo significativo i metodi avanzati. Presentiamo MedAgentsBench, un benchmark che si concentra su domande mediche complesse che richiedono ragionamento clinico multi-step, formulazione di diagnosi e pianificazione del trattamento - scenari in cui i modelli attuali continuano a lottare nonostante le loro forti prestazioni nei test standard. Attingendo da sette dataset medici consolidati, il nostro benchmark affronta tre limitazioni chiave nelle valutazioni esistenti: (1) la prevalenza di domande semplici in cui anche i modelli di base raggiungono alte prestazioni, (2) protocolli di campionamento e valutazione incoerenti tra gli studi, e (3) la mancanza di un'analisi sistematica dell'interazione tra prestazioni, costo e tempo di inferenza. Attraverso esperimenti con vari modelli di base e metodi di ragionamento, dimostriamo che i modelli di pensiero più recenti, DeepSeek R1 e OpenAI o3, mostrano prestazioni eccezionali in compiti complessi di ragionamento medico. Inoltre, i metodi avanzati basati su agenti di ricerca offrono promettenti rapporti prestazioni-costo rispetto agli approcci tradizionali. La nostra analisi rivela sostanziali differenze di prestazioni tra famiglie di modelli su domande complesse e identifica le selezioni ottimali di modelli per diversi vincoli computazionali. Il nostro benchmark e il framework di valutazione sono disponibili pubblicamente all'indirizzo https://github.com/gersteinlab/medagents-benchmark.
Presentiamo Autoregressive Representation Alignment (ARRA), un nuovo framework di addestramento che abilita la generazione di immagini da testo con coerenza globale nei modelli linguistici autoregressivi (LLM) senza modifiche architetturali. A differenza di lavori precedenti che richiedevano complesse riprogettazioni architetturali, ARRA allinea gli stati nascosti degli LLM con rappresentazioni visive provenienti da modelli visivi fondazionali esterni attraverso una perdita di allineamento visivo globale e un token ibrido, <HYBNEXT>. Questo token impone un duplice vincolo: la previsione locale del token successivo e la distillazione semantica globale, consentendo agli LLM di apprendere implicitamente coerenza spaziale e contestuale mantenendo il loro paradigma autoregressivo originale. Esperimenti estensivi validano la versatilità plug-and-play di ARRA. Quando si addestrano LLM inizialmente progettati solo per la generazione di testo o partendo da inizializzazioni casuali, ARRA riduce l'FID del 25,5% (MIMIC-CXR), 8,8% (DeepEyeNet) e 7,5% (ImageNet) per LLM autoregressivi avanzati come Chameleon e LlamaGen, tutto senza modifiche al framework. Per l'adattamento di dominio, ARRA allinea LLM generici con modelli specializzati (ad esempio, BioMedCLIP), ottenendo una riduzione dell'FID del 18,6% rispetto al fine-tuning diretto su immagini mediche (MIMIC-CXR). Dimostrando che la riprogettazione dell'obiettivo di addestramento — non solo l'innovazione architetturale — può risolvere le sfide di coerenza globale cross-modale, ARRA offre un paradigma complementare per l'avanzamento dei modelli autoregressivi. Codice e modelli saranno rilasciati per promuovere la generazione di immagini autoregressiva.
I modelli universali di embedding multimodale svolgono un ruolo cruciale in compiti come il retrieval intervallato di immagini e testo, il RAG multimodale e il clustering multimodale. Tuttavia, i nostri risultati empirici indicano che i modelli di embedding basati su LMM esistenti, addestrati con la funzione di perdita InfoNCE standard, mostrano un elevato grado di sovrapposizione nella distribuzione della similarità tra coppie positive e negative, rendendo difficile distinguere efficacemente le coppie negative complesse. Per affrontare questo problema, proponiamo un framework semplice ma efficace che migliora dinamicamente l'apprendimento delle rappresentazioni del modello di embedding per le coppie negative in base alla loro difficoltà discriminativa. All'interno di questo framework, addestriamo una serie di modelli, denominati LLaVE, e li valutiamo sul benchmark MMEB, che copre 4 meta-task e 36 dataset. I risultati sperimentali mostrano che LLaVE stabilisce baseline più solide che raggiungono prestazioni all'avanguardia (SOTA), dimostrando al contempo una forte scalabilità ed efficienza. In particolare, LLaVE-2B supera i precedenti modelli SOTA da 7B, mentre LLaVE-7B ottiene un ulteriore miglioramento delle prestazioni di 6,2 punti. Sebbene LLaVE sia addestrato su dati immagine-testo, può generalizzare ai task di retrieval testo-video in modalità zero-shot e ottenere prestazioni robuste, dimostrando il suo notevole potenziale per il trasferimento ad altri task di embedding.
La personalizzazione relazionale dei video si riferisce alla creazione di video personalizzati che rappresentano relazioni specificate dall'utente tra due soggetti, un compito cruciale per comprendere il contenuto visivo del mondo reale. Sebbene i metodi esistenti possano personalizzare l'aspetto e i movimenti dei soggetti, continuano a incontrare difficoltà nella personalizzazione relazionale complessa dei video, dove sono essenziali una modellazione relazionale precisa e un'elevata generalizzazione tra categorie di soggetti. La sfida principale deriva dalle intricate disposizioni spaziali, variazioni di layout e dinamiche temporali sfumate intrinseche alle relazioni; di conseguenza, i modelli attuali tendono a enfatizzare eccessivamente dettagli visivi irrilevanti piuttosto che catturare interazioni significative. Per affrontare queste sfide, proponiamo DreamRelation, un approccio innovativo che personalizza le relazioni attraverso un piccolo insieme di video esemplari, sfruttando due componenti chiave: l'Apprendimento di Decoupling Relazionale e il Potenziamento delle Dinamiche Relazionali. In primo luogo, nell'Apprendimento di Decoupling Relazionale, separiamo le relazioni dall'aspetto dei soggetti utilizzando una tripla LoRA relazionale e una strategia di addestramento con maschera ibrida, garantendo una migliore generalizzazione tra diverse relazioni. Inoltre, determiniamo il design ottimale della tripla LoRA relazionale analizzando i ruoli distinti delle caratteristiche di query, chiave e valore all'interno del meccanismo di attenzione di MM-DiT, rendendo DreamRelation il primo framework di generazione video relazionale con componenti spiegabili. In secondo luogo, nel Potenziamento delle Dinamiche Relazionali, introduciamo una perdita contrastiva relazionale spazio-temporale, che privilegia le dinamiche relazionali riducendo al minimo la dipendenza dai dettagli dell'aspetto dei soggetti. Esperimenti estensivi dimostrano che DreamRelation supera i metodi all'avanguardia nella personalizzazione relazionale dei video. Codice e modelli saranno resi pubblicamente disponibili.
Sebbene i modelli di generazione di immagini mascherate e i modelli di diffusione mascherata siano progettati con motivazioni e obiettivi diversi, osserviamo che possono essere unificati all'interno di un unico framework. Basandoci su questa intuizione, esploriamo attentamente lo spazio di progettazione dell'addestramento e del campionamento, identificando i fattori chiave che contribuiscono sia alle prestazioni che all'efficienza. Sulla base dei miglioramenti osservati durante questa esplorazione, sviluppiamo il nostro modello, denominato eMIGM. Empiricamente, eMIGM dimostra prestazioni solide nella generazione di ImageNet, misurate tramite la Fréchet Inception Distance (FID). In particolare, su ImageNet 256x256, con un numero simile di valutazioni di funzione (NFE) e parametri del modello, eMIGM supera il seminale VAR. Inoltre, all'aumentare delle NFE e dei parametri del modello, eMIGM raggiunge prestazioni comparabili ai modelli di diffusione continua all'avanguardia, richiedendo meno del 40% delle NFE. Inoltre, su ImageNet 512x512, con solo circa il 60% delle NFE, eMIGM supera i modelli di diffusione continua all'avanguardia.
I metodi tradizionali per la segmentazione ragionata si basano su un fine-tuning supervisionato con etichette categoriche e descrizioni semplici, limitando la generalizzazione fuori dominio e mancando di processi di ragionamento espliciti. Per affrontare queste limitazioni, proponiamo Seg-Zero, un nuovo framework che dimostra una notevole generalizzabilità e deriva un ragionamento esplicito a catena di pensiero attraverso il rinforzo cognitivo. Seg-Zero introduce un'architettura disaccoppiata composta da un modello di ragionamento e un modello di segmentazione. Il modello di ragionamento interpreta le intenzioni dell'utente, genera catene di ragionamento esplicite e produce prompt posizionali, che vengono successivamente utilizzati dal modello di segmentazione per generare preziose maschere a livello di pixel. Progettiamo un sofisticato meccanismo di ricompensa che integra sia ricompense di formato che di accuratezza per guidare efficacemente le direzioni di ottimizzazione. Addestrato esclusivamente tramite apprendimento per rinforzo con GRPO e senza dati di ragionamento espliciti, Seg-Zero raggiunge una robusta generalizzazione zero-shot e mostra capacità di ragionamento emergenti durante il test. Gli esperimenti dimostrano che Seg-Zero-7B raggiunge una performance zero-shot di 57.5 sul benchmark ReasonSeg, superando il precedente LISA-7B del 18\%. Questo significativo miglioramento evidenzia la capacità di Seg-Zero di generalizzare attraverso i domini presentando un processo di ragionamento esplicito. Il codice è disponibile all'indirizzo https://github.com/dvlab-research/Seg-Zero.
I recenti progressi nella percezione da 2D a 3D hanno migliorato significativamente la comprensione delle scene 3D a partire da immagini 2D. Tuttavia, i metodi esistenti affrontano sfide critiche, tra cui una generalizzazione limitata tra le scene, un'accuratezza percettiva subottimale e velocità di ricostruzione lente. Per affrontare queste limitazioni, proponiamo Perception-Efficient 3D Reconstruction (PE3R), un nuovo framework progettato per migliorare sia l'accuratezza che l'efficienza. PE3R utilizza un'architettura feed-forward per consentire una rapida ricostruzione del campo semantico 3D. Il framework dimostra una robusta generalizzazione zero-shot attraverso scene e oggetti diversi, migliorando significativamente la velocità di ricostruzione. Esperimenti estesi sulla segmentazione open-vocabulary da 2D a 3D e sulla ricostruzione 3D convalidano l'efficacia e la versatilità di PE3R. Il framework raggiunge un incremento minimo di 9 volte nella velocità di ricostruzione del campo semantico 3D, insieme a sostanziali miglioramenti nell'accuratezza percettiva e nella precisione di ricostruzione, stabilendo nuovi benchmark nel campo. Il codice è disponibile pubblicamente all'indirizzo: https://github.com/hujiecpp/PE3R.
Il rilevamento e la segmentazione di oggetti sono ampiamente utilizzati nelle applicazioni di visione artificiale, tuttavia i modelli convenzionali come la serie YOLO, sebbene efficienti e precisi, sono limitati da categorie predefinite, ostacolando l'adattabilità in scenari aperti. I recenti metodi open-set sfruttano prompt testuali, segnali visivi o paradigmi senza prompt per superare questo limite, ma spesso compromettono tra prestazioni ed efficienza a causa di elevate richieste computazionali o complessità di implementazione. In questo lavoro, introduciamo YOLOE, che integra rilevamento e segmentazione attraverso diversi meccanismi di prompt aperti all'interno di un unico modello altamente efficiente, raggiungendo una visione in tempo reale di qualsiasi cosa. Per i prompt testuali, proponiamo la strategia di Allineamento Regione-Testo Riparameterizzabile (RepRTA). Questa affina gli embedding testuali pre-addestrati tramite una rete ausiliaria leggera riparameterizzabile e migliora l'allineamento visivo-testuale con zero overhead di inferenza e trasferimento. Per i prompt visivi, presentiamo l'Encoder di Prompt Visivo Attivato Semanticamente (SAVPE). Questo utilizza rami semantici e di attivazione disaccoppiati per ottenere un embedding visivo migliorato e una maggiore precisione con una complessità minima. Per lo scenario senza prompt, introduciamo la strategia di Contrasto Regione-Prompt Pigro (LRPC). Questa utilizza un ampio vocabolario integrato e un embedding specializzato per identificare tutti gli oggetti, evitando la dipendenza da costosi modelli linguistici. Esperimenti estensivi dimostrano le eccezionali prestazioni zero-shot e la trasferibilità di YOLOE con un'elevata efficienza di inferenza e bassi costi di addestramento. In particolare, su LVIS, con un costo di addestramento 3 volte inferiore e una velocità di inferenza 1,4 volte maggiore, YOLOE-v8-S supera YOLO-Worldv2-S di 3,5 AP. Quando trasferito su COCO, YOLOE-v8-L ottiene guadagni di 0,6 AP^b e 0,4 AP^m rispetto a YOLOv8-L closed-set con un tempo di addestramento quasi 4 volte inferiore. Codice e modelli sono disponibili su https://github.com/THU-MIG/yoloe.
I modelli visione-linguaggio (VLMs) eccellono nell'integrare informazioni visive e testuali per compiti centrati sulla visione, ma la loro gestione delle incongruenze tra modalità è poco esplorata. Investigiamo le preferenze modali dei VLMs quando si confrontano con dati visivi e input testuali variati in contesti focalizzati sulla visione. Introducendo variazioni testuali in quattro compiti centrati sulla visione e valutando dieci modelli visione-linguaggio (VLMs), scopriamo un fenomeno di "fede cieca nel testo": i VLMs tendono a fidarsi in modo sproporzionato dei dati testuali rispetto a quelli visivi quando sorgono incongruenze, portando a significativi cali di prestazioni con testi corrotti e sollevando preoccupazioni sulla sicurezza. Analizziamo i fattori che influenzano questo bias testuale, inclusi i prompt di istruzione, la dimensione del modello linguistico, la rilevanza del testo, l'ordine dei token e l'interazione tra certezza visiva e testuale. Mentre alcuni fattori, come l'aumento della dimensione del modello linguistico, mitigano leggermente il bias testuale, altri come l'ordine dei token possono esacerbarlo a causa di bias posizionali ereditati dai modelli linguistici. Per affrontare questo problema, esploriamo il fine-tuning supervisionato con l'augmentation testuale e ne dimostriamo l'efficacia nel ridurre il bias testuale. Inoltre, forniamo un'analisi teorica che suggerisce che il fenomeno della fede cieca nel testo potrebbe derivare da uno squilibrio tra dati puramente testuali e multi-modali durante l'addestramento. I nostri risultati evidenziano la necessità di un addestramento bilanciato e di una considerazione attenta delle interazioni modali nei VLMs per migliorare la loro robustezza e affidabilità nella gestione delle incongruenze nei dati multi-modali.
Le architetture di Mixture of Agents (MoA) basate su modelli linguistici di grandi dimensioni (LLMs) raggiungono prestazioni all'avanguardia su benchmark di rilievo come AlpacaEval 2.0 sfruttando la collaborazione di più LLM durante l'inferenza. Nonostante questi successi, manca una valutazione della sicurezza e dell'affidabilità delle MoA. Presentiamo il primo studio completo sulla robustezza delle MoA contro agenti LLM ingannevoli che forniscono deliberatamente risposte fuorvianti. Esaminiamo fattori come la propagazione di informazioni ingannevoli, la dimensione del modello e la disponibilità delle informazioni, scoprendo vulnerabilità critiche. Su AlpacaEval 2.0, il popolare modello LLaMA 3.1-70B raggiunge un Win Rate controllato per lunghezza (LC WR) del 49,2% quando accoppiato a una MoA a 3 livelli (6 agenti LLM). Tuttavia, dimostriamo che l'introduzione di un singolo agente ingannevole accuratamente istruito nella MoA può ridurre le prestazioni al 37,9%, annullando di fatto tutti i vantaggi della MoA. Su QuALITY, un task di comprensione a scelta multipla, l'impatto è altrettanto grave, con un'accuratezza che precipita di un sorprendente 48,5%. Ispirati in parte dal processo storico di voto del Doge di Venezia, progettato per minimizzare l'influenza e l'inganno, proponiamo una gamma di meccanismi di difesa non supervisionati che recuperano la maggior parte delle prestazioni perdute.
Proponiamo DiffCLIP, un innovativo modello visione-linguaggio che estende il meccanismo di attenzione differenziale alle architetture CLIP. L'attenzione differenziale è stata originariamente sviluppata per i grandi modelli linguistici con lo scopo di amplificare il contesto rilevante eliminando le informazioni rumorose. In questo lavoro, integriamo tale meccanismo nel framework duale di codifica (immagine e testo) di CLIP. Con un numero minimo di parametri aggiuntivi, DiffCLIP raggiunge prestazioni superiori nei task di comprensione immagine-testo. Sui benchmark di classificazione zero-shot, retrieval e robustezza, DiffCLIP supera costantemente i modelli CLIP di base. È importante sottolineare che questi miglioramenti si ottengono con un overhead computazionale trascurabile, dimostrando che l'attenzione differenziale può potenziare significativamente le rappresentazioni multimodali senza compromettere l'efficienza. Il codice è disponibile all'indirizzo https://github.com/hammoudhasan/DiffCLIP.
Esploriamo un nuovo framework di Riconoscimento Audio-Visivo del Parlato (AVSR) zero-shot, denominato Zero-AVSR, che consente il riconoscimento del parlato in lingue target senza richiedere alcun dato audio-visivo del parlato in quelle lingue. Nello specifico, introduciamo il Romanizzatore Audio-Visivo del Parlato (AV-Romanizer), che apprende rappresentazioni del parlato indipendenti dalla lingua prevedendo testo in caratteri latini. Successivamente, sfruttando le forti capacità di modellazione multilingue dei Modelli Linguistici di Grande Dimensione (LLM), proponiamo di convertire il testo latino previsto in grafemi specifici della lingua, formando il cosiddetto Zero-AVSR a Cascata. Andando oltre, esploriamo un approccio unificato di Zero-AVSR integrando direttamente le rappresentazioni audio-visive del parlato codificate dall'AV-Romanizer nell'LLM. Questo è ottenuto attraverso il fine-tuning dell'adapter e dell'LLM utilizzando il nostro schema di apprendimento multi-task proposto. Per catturare l'ampio spettro della diversità fonetica e linguistica, introduciamo anche un Corpus Romanizzato Audio-Visivo Multilingue (MARC) composto da 2.916 ore di dati audio-visivi del parlato in 82 lingue, insieme a trascrizioni sia in grafemi specifici della lingua che in testo latino. Analisi ed esperimenti estesi confermano che il framework Zero-AVSR proposto ha il potenziale di espandere il supporto linguistico oltre le lingue osservate durante l'addestramento dell'AV-Romanizer.
I modelli per serie temporali affrontano sfide significative nel ridimensionamento per gestire dataset grandi e complessi, simili a quelli raggiunti dai grandi modelli linguistici (LLM). Le caratteristiche uniche dei dati delle serie temporali e le esigenze computazionali del ridimensionamento dei modelli richiedono approcci innovativi. Sebbene i ricercatori abbiano esplorato varie architetture come i Transformer, le LSTM e le GRU per affrontare queste sfide, proponiamo una soluzione innovativa utilizzando RWKV-7, che incorpora il meta-apprendimento nel suo meccanismo di aggiornamento dello stato. Integrando i componenti di miscelazione temporale e di canale di RWKV-7 nel modello di serie temporali basato su Transformer Timer, otteniamo un miglioramento sostanziale delle prestazioni di circa 1,13 a 43,3 volte e una riduzione del tempo di addestramento di 4,5 volte con 1/23 dei parametri, tutto ciò utilizzando un numero inferiore di parametri. Il nostro codice e i pesi del modello sono disponibili pubblicamente per ulteriori ricerche e sviluppi all'indirizzo https://github.com/Alic-Li/BlackGoose_Rimer.
I modelli a spazio di stato (SSM) sono emersi come alternative efficienti ai Transformer, mitigando il loro costo computazionale quadratico. Tuttavia, l'applicazione di metodi di fine-tuning efficiente in termini di parametri (PEFT) agli SSM rimane in gran parte inesplorata. In particolare, i metodi basati su prompt come Prompt Tuning e Prefix-Tuning, ampiamente utilizzati nei Transformer, non performano bene sugli SSM. Per affrontare questo problema, proponiamo metodi basati sullo stato come alternativa superiore ai metodi basati su prompt. Questa nuova famiglia di metodi deriva naturalmente dalle caratteristiche architetturali degli SSM. I metodi basati sullo stato modificano direttamente le caratteristiche legate allo stato invece di dipendere da prompt esterni. Inoltre, introduciamo un nuovo metodo PEFT basato sullo stato: State-offset Tuning. A ogni passo temporale, il nostro metodo influisce direttamente sullo stato al passo corrente, portando a un adattamento più efficace. Attraverso esperimenti estesi su diversi dataset, dimostriamo l'efficacia del nostro metodo. Il codice è disponibile all'indirizzo https://github.com/furiosa-ai/ssm-state-tuning.
La crescente popolarità dei modelli linguistici di grandi dimensioni non ha solo portato a un uso diffuso, ma ha anche introdotto vari rischi, tra cui il potenziale di diffondere sistematicamente notizie false. Di conseguenza, lo sviluppo di sistemi di classificazione come DetectGPT è diventato fondamentale. Questi rilevatori sono vulnerabili a tecniche di elusione, come dimostrato in una serie di esperimenti: modifiche sistematiche della temperatura dei modelli generativi hanno dimostrato che i rilevatori basati su apprendimento superficiale sono i meno affidabili. L'ottimizzazione fine del modello generativo tramite apprendimento per rinforzo ha eluso i rilevatori basati su BERT. Infine, la riformulazione ha portato a un'elusione superiore al 90% dei rilevatori zero-shot come DetectGPT, sebbene i testi siano rimasti molto simili all'originale. Un confronto con il lavoro esistente evidenzia la migliore performance dei metodi presentati. Vengono discusse le possibili implicazioni per la società e ulteriori ricerche.
Mentre la guida senza classificatore (CFG) è essenziale per i modelli di diffusione condizionata, raddoppia il numero di valutazioni di funzioni neurali (NFE) per ogni passo di inferenza. Per mitigare questa inefficienza, introduciamo la distillazione con guida adattiva (AGD), un approccio innovativo che simula la CFG in un singolo passaggio in avanti. L'AGD sfrutta adattatori leggeri per approssimare la CFG, raddoppiando efficacemente la velocità di campionamento mantenendo o addirittura migliorando la qualità dei campioni. A differenza dei precedenti metodi di distillazione della guida che ottimizzano l'intero modello, l'AGD mantiene congelato il modello di base e addestra solo parametri aggiuntivi minimi (circa il 2%) per ridurre significativamente le risorse richieste nella fase di distillazione. Inoltre, questo approccio preserva i pesi originali del modello e consente agli adattatori di essere combinati senza soluzione di continuità con altri checkpoint derivati dallo stesso modello di base. Affrontiamo anche un disallineamento chiave tra addestramento e inferenza nei metodi esistenti di distillazione della guida, addestrando su traiettorie guidate da CFG invece che su traiettorie standard di diffusione. Attraverso esperimenti estesi, dimostriamo che l'AGD raggiunge un FID comparabile o superiore alla CFG su più architetture con solo la metà delle NFE. In particolare, il nostro metodo consente la distillazione di modelli di grandi dimensioni (circa 2,6 miliardi di parametri) su una singola GPU consumer con 24 GB di VRAM, rendendolo più accessibile rispetto agli approcci precedenti che richiedono più GPU di fascia alta. Rilasceremo pubblicamente l'implementazione del nostro metodo.
I modelli Text-to-Image (T2I) sono in grado di generare creazioni artistiche e contenuti visivi di alta qualità. Tuttavia, la ricerca e gli standard di valutazione esistenti si concentrano prevalentemente sul realismo delle immagini e su un allineamento superficiale tra testo e immagine, mancando una valutazione completa della comprensione semantica complessa e dell'integrazione della conoscenza del mondo nella generazione di immagini da testo. Per affrontare questa sfida, proponiamo WISE, il primo benchmark specificamente progettato per la valutazione semantica informata dalla conoscenza del mondo (World Knowledge-Informed Semantic Evaluation). WISE va oltre il semplice mapping parola-pixel, sfidando i modelli con 1000 prompt accuratamente elaborati in 25 sottodomini relativi al senso comune culturale, al ragionamento spaziotemporale e alle scienze naturali. Per superare i limiti della tradizionale metrica CLIP, introduciamo WiScore, una nuova metrica quantitativa per valutare l'allineamento tra conoscenza e immagine. Attraverso test completi su 20 modelli (10 dedicati T2I e 10 modelli multimodali unificati) utilizzando 1.000 prompt strutturati in 25 sottodomini, i nostri risultati rivelano significative limitazioni nella loro capacità di integrare e applicare efficacemente la conoscenza del mondo durante la generazione di immagini, evidenziando percorsi critici per migliorare l'incorporazione e l'applicazione della conoscenza nei modelli T2I di prossima generazione. Codice e dati sono disponibili all'indirizzo https://github.com/PKU-YuanGroup/WISE.
Risolvere compiti multimodali di livello esperto rappresenta una pietra miliare fondamentale verso l'intelligenza generale. Con il continuo miglioramento delle capacità dei modelli linguistici multimodali di grandi dimensioni (MLLM), la valutazione di tale intelligenza multimodale avanzata diventa necessaria ma impegnativa. In questo lavoro, introduciamo ProBench, un benchmark di query aperte degli utenti che richiedono competenze professionali e ragionamento avanzato. ProBench è composto da 4.000 campioni di alta qualità, inviati in modo indipendente da professionisti in base alle loro esigenze quotidiane di produttività. Copre 10 campi e 56 sottocampi, tra cui scienza, arte, discipline umanistiche, programmazione, matematica e scrittura creativa. Sperimentalmente, valutiamo e confrontiamo 24 dei modelli più recenti utilizzando MLLM-as-a-Judge. I nostri risultati rivelano che, sebbene i migliori modelli open source rivaleggino con quelli proprietari, ProBench presenta sfide significative nella percezione visiva, nella comprensione testuale, nella conoscenza del dominio e nel ragionamento avanzato, fornendo così indicazioni preziose per i futuri sforzi di ricerca sull'intelligenza artificiale multimodale.
La Generalizzazione di Dominio mira a sviluppare modelli in grado di generalizzare su distribuzioni di dati nuove e mai viste. In questo lavoro, studiamo come le architetture dei modelli e gli obiettivi di pre-addestramento influenzino la ricchezza delle feature e proponiamo un metodo per sfruttarli efficacemente per la generalizzazione di dominio. Nello specifico, dato uno spazio di feature pre-addestrato, scopriamo prima strutture latenti di dominio, denominate pseudo-dominî, che catturano le variazioni specifiche del dominio in modo non supervisionato. Successivamente, arricchiamo i classificatori esistenti con queste rappresentazioni complementari di pseudo-dominio, rendendoli più adatti a gestire diversi domini di test non visti. Analizziamo come diversi spazi di feature pre-addestrati differiscano nelle varianze specifiche del dominio che catturano. I nostri studi empirici rivelano che le feature provenienti da modelli di diffusione eccellono nel separare i domini in assenza di etichette di dominio esplicite e catturano informazioni specifiche del dominio con grande dettaglio. Su 5 dataset, dimostriamo che il nostro framework molto semplice migliora la generalizzazione a domini non visti con un incremento massimo dell'accuratezza di test di oltre il 4% rispetto alla baseline standard della Minimizzazione del Rischio Empirico (ERM). Fondamentalmente, il nostro metodo supera la maggior parte degli algoritmi che accedono alle etichette di dominio durante l'addestramento.
La rapida espansione di internet mobile ha portato a un sostanziale aumento dei contenuti generati dagli utenti (UGC) sotto forma di immagini, rendendo quindi urgente e essenziale una valutazione approfondita di queste immagini. Recentemente, i modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno dimostrato un grande potenziale nella valutazione della qualità delle immagini (IQA) e nella valutazione estetica delle immagini (IAA). Nonostante questi progressi, assegnare in modo efficace un punteggio alla qualità e all'estetica delle immagini UGC presenta ancora due principali sfide: 1) Un singolo punteggio è insufficiente per catturare la percezione umana gerarchica. 2) Come utilizzare gli MLLMs per produrre punteggi numerici, come i punteggi medi di opinione (MOS), rimane una questione aperta. Per affrontare queste sfide, introduciamo un nuovo dataset, denominato Realistic image Quality and Aesthetic (RealQA), che include 14.715 immagini UGC, ciascuna delle quali è annotata con 10 attributi dettagliati. Questi attributi coprono tre livelli: basso livello (ad esempio, chiarezza dell'immagine), medio livello (ad esempio, integrità del soggetto) e alto livello (ad esempio, composizione). Inoltre, conduciamo una serie di indagini approfondite e complete su come prevedere efficacemente i punteggi numerici utilizzando gli MLLMs. Sorprendentemente, prevedendo solo due cifre significative extra, il paradigma del token successivo può raggiungere prestazioni all'avanguardia (SOTA). Inoltre, con l'aiuto della catena di pensiero (CoT) combinata con gli attributi dettagliati appresi, il metodo proposto può superare i metodi SOTA su cinque dataset pubblici per IQA e IAA con una superiore interpretabilità e mostra una forte generalizzazione zero-shot per la valutazione della qualità dei video (VQA). Il codice e il dataset saranno rilasciati.
I modelli linguistici pre-addestrati (LLM) che vengono ulteriormente addestrati con dati visivi ottengono buoni risultati nei compiti di visione e linguaggio. Sebbene l'aggiunta di immagini durante una seconda fase di addestramento sblocchi efficacemente questa capacità, non è chiaro quanto guadagno o perdita comporti questa pipeline in due fasi rispetto ai modelli di visione e linguaggio (VLM) che integrano le immagini in una fase precedente del processo di addestramento. Per indagare questo aspetto, addestriamo modelli su vari dataset, scale, rapporti immagine-testo e quantità di pre-addestramento effettuato prima di introdurre i token visivi. Successivamente, ottimizziamo questi modelli e valutiamo le loro prestazioni su una serie di compiti di visione e linguaggio e di soli testi. Scopriamo che il pre-addestramento con una miscela di dati visivi e testuali consente ai modelli di ottenere migliori risultati nei compiti di visione e linguaggio, mantenendo al contempo prestazioni solide nelle valutazioni di soli testi. In media su 6 compiti diversi, osserviamo che per un modello da 1 miliardo di parametri, l'introduzione di token visivi all'80% del pre-addestramento comporta un miglioramento medio del 2% rispetto all'introduzione di token visivi in un modello completamente pre-addestrato.
I recenti progressi nei modelli di diffusione testo-immagine consentono la generazione di immagini fotorealistiche, ma comportano anche il rischio di produrre contenuti dannosi, come immagini NSFW. Per mitigare tale rischio, vengono studiati metodi di cancellazione concettuale per facilitare il modello a disimparare specifici concetti. Tuttavia, gli studi attuali faticano a cancellare completamente i concetti dannosi implicitamente incorporati nei prompt (ad esempio, espressioni metaforiche o prompt avversari) preservando al contempo la normale capacità di generazione del modello. Per affrontare questa sfida, il nostro studio propone TRCE, utilizzando una strategia di cancellazione concettuale in due fasi per raggiungere un efficace compromesso tra cancellazione affidabile e conservazione della conoscenza. In primo luogo, TRCE inizia cancellando le semantiche dannose implicitamente incorporate nei prompt testuali. Identificando un obiettivo di mappatura critico (ovvero l'embedding [EoT]), ottimizziamo i livelli di cross-attention per mappare prompt dannosi a prompt contestualmente simili ma con concetti sicuri. Questo passaggio impedisce al modello di essere eccessivamente influenzato da semantiche dannose durante il processo di denoising. Successivamente, considerando le proprietà deterministiche della traiettoria di campionamento del modello di diffusione, TRCE orienta ulteriormente la previsione iniziale del denoising verso la direzione sicura e lontana da quella non sicura attraverso l'apprendimento contrastivo, evitando così ulteriormente la generazione di contenuti dannosi. Infine, conduciamo valutazioni complete di TRCE su più benchmark di cancellazione di concetti dannosi, e i risultati dimostrano la sua efficacia nel cancellare concetti dannosi preservando meglio la capacità di generazione originale del modello. Il codice è disponibile all'indirizzo: http://github.com/ddgoodgood/TRCE. ATTENZIONE: Questo articolo include contenuti generati dal modello che potrebbero contenere materiale offensivo.
I modelli vision pre-addestrati (PVMs) sono fondamentali per la robotica moderna, ma la loro configurazione ottimale rimane poco chiara. Attraverso una valutazione sistematica, abbiamo scoperto che, sebbene DINO e iBOT superino MAE nelle attività di controllo visuomotorio e percezione, faticano quando vengono addestrati su dati non-(single-)object-centric (NOC) - una limitazione fortemente correlata alla loro ridotta capacità di apprendere rappresentazioni object-centric. Questa indagine indica che la capacità di formare rappresentazioni object-centric a partire da dataset robotici non object-centric è la chiave del successo per i PVMs. Motivati da questa scoperta, abbiamo progettato SlotMIM, un metodo che induce rappresentazioni object-centric introducendo un collo di bottiglia semantico per ridurre il numero di prototipi e favorire l'emergere dell'objectness, nonché una regolarizzazione della consistenza cross-view per incoraggiare l'invarianza multiview. I nostri esperimenti comprendono il pre-addestramento su dati object-centric, scene-centric, web-crawled ed ego-centric. In tutti gli scenari, il nostro approccio apprende rappresentazioni trasferibili e ottiene miglioramenti significativi rispetto ai lavori precedenti nelle valutazioni di riconoscimento delle immagini, comprensione delle scene e apprendimento robotico. Quando scalato con dataset su scala milioni, il nostro metodo dimostra anche una superiore efficienza dei dati e scalabilità. Il nostro codice e i modelli sono disponibili pubblicamente all'indirizzo https://github.com/CVMI-Lab/SlotMIM.
Il riconoscimento del parlato audio-visivo (AVSR) sfrutta sia le modalità audio che visive per migliorare la robustezza del riconoscimento vocale, specialmente in ambienti rumorosi. I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM) hanno dimostrato la loro efficacia nel riconoscimento vocale, incluso l'AVSR. Tuttavia, a causa della lunghezza significativa delle rappresentazioni del parlato, l'integrazione diretta con gli LLM comporta costi computazionali sostanziali. Approcci precedenti affrontano questo problema comprimendo le rappresentazioni del parlato prima di inserirle negli LLM. Tuttavia, rapporti di compressione più elevati spesso portano a un degrado delle prestazioni, rendendo necessario un compromesso tra efficienza computazionale e accuratezza del riconoscimento. Per affrontare questa sfida, proponiamo Llama-MTSK, il primo LLM multimodale basato su Matryoshka per l'AVSR, che consente un adattamento flessibile dell'allocazione dei token audio-visivi in base a specifici vincoli computazionali, preservando al contempo alte prestazioni. Il nostro approccio, ispirato dall'apprendimento delle rappresentazioni Matryoshka, codifica le rappresentazioni audio-visive a più livelli di granularità all'interno di un unico modello, eliminando la necessità di addestrare modelli separati per diversi livelli di compressione. Inoltre, per ottimizzare efficacemente l'LLM, introduciamo tre strategie Matryoshka basate su LoRA utilizzando moduli LoRA globali e specifici per scala. Valutazioni estensive sui due più grandi dataset AVSR dimostrano che Llama-MTSK raggiunge risultati all'avanguardia, eguagliando o superando modelli addestrati in modo indipendente a livelli di compressione fissi.
I metodi esistenti per la stima della posa 6D di oggetti nuovi si basano tipicamente su modelli CAD o su viste di riferimento dense, entrambi difficili da acquisire. L'utilizzo di una sola vista di riferimento è più scalabile, ma risulta impegnativo a causa delle grandi discrepanze di posa e delle limitate informazioni geometriche e spaziali. Per affrontare questi problemi, proponiamo un metodo di stima della posa 6D basato su una singola vista di riferimento (SinRef-6D). La nostra idea chiave è quella di stabilire iterativamente un allineamento punto-punto nel sistema di coordinate della camera basato su modelli di spazio degli stati (SSM). Nello specifico, l'allineamento iterativo punto-punto nello spazio della camera può gestire efficacemente grandi discrepanze di posa, mentre i nostri SSM RGB e Points proposti possono catturare dipendenze a lungo raggio e informazioni spaziali da una singola vista, offrendo complessità lineare e una superiore capacità di modellazione spaziale. Una volta pre-addestrato su dati sintetici, SinRef-6D può stimare la posa 6D di un oggetto nuovo utilizzando solo una singola vista di riferimento, senza richiedere ri-addestramento o un modello CAD. Esperimenti estensivi su sei dataset popolari e scene robotiche del mondo reale dimostrano che otteniamo prestazioni paragonabili ai metodi basati su CAD e su viste di riferimento dense, nonostante operiamo nel contesto più impegnativo di una singola vista di riferimento. Il codice sarà rilasciato su https://github.com/CNJianLiu/SinRef-6D.
Recenti lavori hanno dimostrato che, quando addestrati su larga scala, gli encoder uni-modali per la visione 2D e il testo convergono verso feature apprese che condividono proprietà strutturali notevoli, nonostante derivino da rappresentazioni diverse. Tuttavia, il ruolo degli encoder 3D rispetto ad altre modalità rimane inesplorato. Inoltre, i modelli di fondazione 3D esistenti che sfruttano grandi dataset sono tipicamente addestrati con obiettivi di allineamento espliciti rispetto a encoder congelati di altre rappresentazioni. In questo lavoro, investigiamo la possibilità di un allineamento a posteriori delle rappresentazioni ottenute da encoder uni-modali 3D rispetto a spazi di feature basati su testo. Mostriamo che un allineamento ingenuo post-addestramento delle feature di encoder uni-modali per testo e 3D produce prestazioni limitate. Ci concentriamo quindi sull'estrazione di sottospazi dei corrispondenti spazi di feature e scopriamo che proiettando le rappresentazioni apprese su sottospazi a dimensione inferiore ben scelti, la qualità dell'allineamento diventa significativamente più alta, portando a una maggiore accuratezza in compiti di matching e retrieval. La nostra analisi getta ulteriore luce sulla natura di questi sottospazi condivisi, che separano approssimativamente tra rappresentazioni semantiche e geometriche dei dati. Nel complesso, il nostro è il primo lavoro che aiuta a stabilire una baseline per l'allineamento post-addestramento di spazi di feature uni-modali 3D e basati su testo, e contribuisce a evidenziare sia le proprietà condivise che quelle uniche dei dati 3D rispetto ad altre rappresentazioni.
Per rispondere a query fattuali uno-a-molti (ad esempio, elencare le città di un paese), un modello linguistico (LM) deve simultaneamente richiamare conoscenze ed evitare di ripetere risposte precedenti. Come vengono implementate e integrate internamente queste due sotto-attività? Attraverso più dataset e modelli, identifichiamo un meccanismo di promozione-seguita-da-soppressione: il modello prima richiama tutte le risposte, e poi sopprime quelle già generate. Nello specifico, i LM utilizzano sia il soggetto che i token delle risposte precedenti per eseguire il richiamo della conoscenza, con l'attenzione che propaga le informazioni sul soggetto e i MLP che promuovono le risposte. Successivamente, l'attenzione si concentra e sopprime i token delle risposte precedenti, mentre i MLP amplificano il segnale di soppressione. Il nostro meccanismo è corroborato da ampie evidenze sperimentali: oltre a utilizzare il decoding precoce e il tracciamento causale, analizziamo come i componenti utilizzano diversi token introducendo sia Token Lens, che decodifica gli aggiornamenti aggregati dell'attenzione da token specifici, sia un metodo di knockout che analizza i cambiamenti negli output dei MLP dopo aver rimosso l'attenzione su token specifici. In sintesi, forniamo nuove intuizioni su come i componenti interni dei LM interagiscono con diversi token di input per supportare il complesso richiamo di informazioni fattuali. Il codice è disponibile all'indirizzo https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
In questo articolo, presentiamo un nuovo framework progettato per ricostruire sequenze lunghe di movimento umano 3D in coordinate globali a partire da video in contesti reali con multiple transizioni di inquadratura. Tali sequenze lunghe di movimento in contesti reali sono estremamente preziose per applicazioni come la generazione e la comprensione del movimento, ma rappresentano una grande sfida da recuperare a causa delle brusche transizioni di inquadratura, delle occlusioni parziali e degli sfondi dinamici presenti in tali video. I metodi esistenti si concentrano principalmente su video a singola inquadratura, dove la continuità è mantenuta all'interno di una singola vista della telecamera, o semplificano l'allineamento multi-inquadratura solo nello spazio della telecamera. In questo lavoro, affrontiamo le sfide integrando una stima avanzata della posa della telecamera con il Recupero del Movimento Umano (HMR), incorporando un rilevatore di transizioni di inquadratura e un modulo di allineamento robusto per garantire la continuità precisa della posa e dell'orientamento tra le inquadrature. Sfruttando un integratore di movimento personalizzato, mitigiamo efficacemente il problema dello scivolamento dei piedi e assicuriamo la coerenza temporale nella posa umana. Valutazioni estensive sul nostro dataset multi-inquadratura creato da dataset pubblici di movimento umano 3D dimostrano la robustezza del nostro metodo nel ricostruire movimenti umani realistici in coordinate globali.
Allineare i grandi modelli linguistici (LLM) con le preferenze umane è fondamentale per il dispiegamento nel mondo reale, tuttavia i metodi esistenti come RLHF affrontano sfide computazionali e di stabilità. Mentre DPO stabilisce un paradigma offline con un singolo iperparametro beta, i metodi successivi come SimPO reintroducono complessità attraverso parametri duali (beta, gamma). Proponiamo {ReLU-based Preference Optimization (RePO)}, un algoritmo semplificato che elimina beta attraverso due progressi: (1) mantenere i margini senza riferimento di SimPO ma rimuovere beta tramite analisi del gradiente, e (2) adottare una funzione di perdita max-margin basata su ReLU che filtra naturalmente le coppie banali. Teoricamente, RePO è caratterizzato come caso limite di SimPO (beta tendente a infinito), dove la ponderazione logistica collassa in una soglia binaria, formando un inviluppo convesso della perdita 0-1. I risultati empirici su AlpacaEval 2 e Arena-Hard dimostrano che RePO supera DPO e SimPO su più modelli di base, richiedendo solo un iperparametro da ottimizzare.
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) dimostrano robuste capacità zero-shot su una vasta gamma di compiti visione-linguaggio dopo l'addestramento su dataset di dimensioni enormi. Tuttavia, compiti di predizione densa, come la segmentazione semantica e il rilevamento di punti chiave, rappresentano sfide significative per gli MLLM quando vengono rappresentati esclusivamente come output testuali. Allo stesso tempo, gli attuali MLLM che utilizzano embedding latenti per la decodifica di compiti visivi dimostrano generalmente una limitata adattabilità sia all'apprendimento multi-task che a scenari multi-granularità. In questo lavoro, presentiamo REF-VLM, un framework end-to-end per l'addestramento unificato di vari compiti di decodifica visiva. Per affrontare scenari complessi di decodifica visiva, introduciamo il Paradigma di Riferimento Triplo (TRP), che decopla esplicitamente tre dimensioni critiche nei compiti di decodifica visiva attraverso una struttura tripla: concetti, tipi di decodifica e target. Il TRP utilizza delimitatori simbolici per rafforzare l'apprendimento di rappresentazioni strutturate, migliorando la parsabilità e l'interpretabilità degli output del modello. Inoltre, costruiamo il Dataset di Istruzioni per Compiti Visivi (VTInstruct), un dataset multi-task su larga scala contenente oltre 100 milioni di campioni di dialogo multimodale attraverso 25 tipi di compiti. Oltre agli input e output testuali, VT-Instruct incorpora vari prompt visivi come punti, riquadri, scarabocchi e maschere, e genera output composti da testo e unità visive come riquadri, punti chiave, profondità e maschere. La combinazione di diversi prompt visivi e unità visive genera una vasta gamma di tipi di compiti, ampliando significativamente l'applicabilità di REF-VLM. Sia esperimenti qualitativi che quantitativi dimostrano che il nostro REF-VLM supera altri MLLM su una varietà di benchmark standard. Il codice, il dataset e la demo sono disponibili su https://github.com/MacavityT/REF-VLM.
Combinare LLM esperti pre-addestrati esistenti rappresenta una promettente direzione per affrontare in modo scalabile compiti su larga scala e diversificati. Tuttavia, selezionare esperti a livello di task è spesso troppo grossolano, poiché task eterogenei possono richiedere competenze diverse per ogni istanza. Per abilitare una miscelazione adattiva a livello di istanza di LLM esperti pre-addestrati, proponiamo Symbolic-MoE, un framework Mixture-of-Experts simbolico, basato su testo e privo di gradienti. Symbolic-MoE adotta un approccio fine alla selezione, enfatizzando abilità specifiche, ad esempio l'algebra in matematica o la biologia molecolare nel ragionamento biomedico. Proponiamo una strategia di reclutamento basata sulle abilità che seleziona dinamicamente il set più rilevante di LLM esperti per compiti di ragionamento diversificati, in base ai loro punti di forza. Ogni esperto selezionato genera quindi il proprio ragionamento, producendo k output da k esperti, che vengono poi sintetizzati in una risposta finale di alta qualità da un aggregatore scelto in base alla sua capacità di integrare output di ragionamento diversi. Dimostriamo che la selezione di esperti a livello di istanza di Symbolic-MoE migliora le prestazioni in modo significativo, ma — se implementata in modo ingenuo — può introdurre un elevato sovraccarico computazionale a causa della necessità di caricare e scaricare costantemente i modelli. Per affrontare questo problema, implementiamo una strategia di inferenza batch che raggruppa le istanze in base agli esperti assegnati, caricando ciascun modello una sola volta. Ciò ci permette di integrare 16 modelli esperti su 1 GPU con un costo temporale paragonabile o migliore rispetto ai precedenti approcci multi-agente che utilizzano 4 GPU. Attraverso valutazioni estensive su benchmark diversificati (MMLU-Pro, GPQA, AIME e MedMCQA), dimostriamo che Symbolic-MoE supera LLM potenti come GPT4o-mini, nonché approcci multi-agente, con un miglioramento medio assoluto dell'8,15% rispetto al miglior baseline multi-agente. Inoltre, Symbolic-MoE elimina la necessità di costose discussioni multi-round, superando i baseline di discussione con un minor costo computazionale.
Presentiamo PhiloBERTA, un modello trasformatore cross-linguale che misura le relazioni semantiche tra lessici dell'antico greco e latino. Attraverso l'analisi di coppie di termini selezionati da testi classici, utilizziamo embedding contestuali e metriche di similarità angolare per identificare allineamenti semantici precisi. I nostri risultati mostrano che le coppie etimologicamente correlate presentano punteggi di similarità significativamente più elevati, in particolare per concetti filosofici astratti come epist\=em\=e (scientia) e dikaiosyn\=e (iustitia). L'analisi statistica rivela modelli coerenti in queste relazioni (p = 0,012), con coppie etimologicamente correlate che mostrano una preservazione semantica notevolmente stabile rispetto alle coppie di controllo. Questi risultati stabiliscono un quadro quantitativo per esaminare come i concetti filosofici si siano trasferiti tra le tradizioni greca e latina, offrendo nuovi metodi per la ricerca filologica classica.
La presa robotica in scene con oggetti trasparenti e speculari presenta grandi sfide per i metodi che si basano su informazioni di profondità accurate. In questo articolo, introduciamo NeuGrasp, un metodo di ricostruzione neurale delle superfici che sfrutta prior di sfondo per il rilevamento di prese indipendente dal materiale. NeuGrasp integra trasformatori e volumi di prior globali per aggregare caratteristiche multi-vista con codifica spaziale, consentendo una robusta ricostruzione delle superfici in condizioni di visualizzazione ristrette e sparse. Concentrandosi sugli oggetti in primo piano attraverso il potenziamento delle caratteristiche residue e affinando la percezione spaziale con un volume di prior di occupazione, NeuGrasp eccelle nella gestione di oggetti con superfici trasparenti e speculari. Esperimenti estesi sia in scenari simulati che nel mondo reale dimostrano che NeuGrasp supera i metodi all'avanguardia nella presa mantenendo una qualità di ricostruzione comparabile. Ulteriori dettagli sono disponibili su https://neugrasp.github.io/.
Sebbene i modelli generativi basati su punteggi siano il modello di riferimento in diversi domini, gli strumenti disponibili per controllare il comportamento durante l'inferenza in modo principiato sono limitati, ad esempio per comporre più modelli pre-addestrati. I metodi esistenti di guida senza classificatore utilizzano un'euristica semplice per mescolare punteggi condizionali e non condizionali, campionando approssimativamente da distribuzioni condizionali. Tuttavia, tali metodi non approssimano le distribuzioni intermedie, rendendo necessari ulteriori passaggi di "correzione". In questo lavoro, forniamo un metodo efficiente e principiato per campionare da una sequenza di distribuzioni ricotte, mediate geometricamente o prodotte, derivate da modelli basati su punteggi pre-addestrati. Deriviamo uno schema di simulazione ponderato che chiamiamo Feynman-Kac Correctors (FKC), basato sulla celebre formula di Feynman-Kac, tenendo conto con attenzione dei termini nelle appropriate equazioni differenziali alle derivate parziali (PDE). Per simulare queste PDE, proponiamo algoritmi di ricampionamento Sequential Monte Carlo (SMC) che sfruttano il ridimensionamento durante l'inferenza per migliorare la qualità del campionamento. Dimostriamo empiricamente l'utilità dei nostri metodi proponendo un campionamento ammortizzato tramite ricottura della temperatura durante l'inferenza, migliorando la generazione di molecole multi-obiettivo utilizzando modelli pre-addestrati e migliorando la guida senza classificatore per la generazione di immagini da testo. Il nostro codice è disponibile all'indirizzo https://github.com/martaskrt/fkc-diffusion.