Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Masked Image Modeling (MIM) con Vector Quantization (VQ) ha ottenuto un grande successo sia nel pre-training auto-supervisionato che nella generazione di immagini. Tuttavia, la maggior parte dei metodi esistenti fatica a bilanciare il compromesso nello spazio latente condiviso tra qualità della generazione, apprendimento di rappresentazioni ed efficienza. Per spingere al limite questo paradigma, proponiamo MergeVQ, che incorpora tecniche di fusione di token nei modelli generativi basati su VQ per colmare il divario tra generazione di immagini e apprendimento di rappresentazioni visive in un'architettura unificata. Durante il pre-training, MergeVQ disaccoppia la semantica top-k dallo spazio latente tramite il modulo di fusione di token dopo i blocchi di self-attention nell'encoder, per poi applicare la Look-up Free Quantization (LFQ) e l'allineamento globale, e recupera i dettagli fini attraverso il cross-attention nel decoder per la ricostruzione. Per la generazione in seconda fase, introduciamo MergeAR, che esegue la compressione della KV Cache per una predizione efficiente in ordine raster. Esperimenti estensivi su ImageNet verificano che MergeVQ, come modello generativo AR, raggiunge prestazioni competitive sia nei compiti di apprendimento di rappresentazioni visive che di generazione di immagini, mantenendo al contempo un'efficienza favorevole dei token e una velocità di inferenza. Il codice e il modello saranno disponibili su https://apexgen-x.github.io/MergeVQ.
I recenti progressi nella sintesi di immagini e video hanno aperto nuove prospettive nei giochi generativi. Un'applicazione particolarmente intrigante è la trasformazione di personaggi di film anime in entità interattive e giocabili. Ciò consente ai giocatori di immergersi nel dinamico mondo anime nei panni dei loro personaggi preferiti per simulare la vita attraverso istruzioni linguistiche. Tali giochi sono definiti come giochi infiniti poiché eliminano confini predeterminati e regole di gioco fisse, permettendo ai giocatori di interagire con il mondo di gioco attraverso un linguaggio aperto e di sperimentare trame e ambienti in continua evoluzione. Recentemente, un approccio pionieristico per la simulazione infinita della vita anime utilizza modelli linguistici di grandi dimensioni (LLM) per tradurre dialoghi testuali multi-turn in istruzioni linguistiche per la generazione di immagini. Tuttavia, trascura il contesto visivo storico, portando a un gameplay incoerente. Inoltre, genera solo immagini statiche, non riuscendo a incorporare la dinamicità necessaria per un'esperienza di gioco coinvolgente. In questo lavoro, proponiamo AnimeGamer, basato su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) per generare ogni stato di gioco, inclusi scatti di animazione dinamica che rappresentano i movimenti dei personaggi e gli aggiornamenti degli stati dei personaggi, come illustrato nella Figura 1. Introduciamo nuove rappresentazioni multimodali consapevoli delle azioni per rappresentare gli scatti di animazione, che possono essere decodificati in clip video di alta qualità utilizzando un modello di diffusione video. Prendendo come contesto le rappresentazioni storiche degli scatti di animazione e prevedendo le rappresentazioni successive, AnimeGamer può generare giochi con coerenza contestuale e dinamiche soddisfacenti. Valutazioni estensive utilizzando sia metriche automatizzate che valutazioni umane dimostrano che AnimeGamer supera i metodi esistenti in vari aspetti dell'esperienza di gioco. Codici e checkpoint sono disponibili all'indirizzo https://github.com/TencentARC/AnimeGamer.
Sebbene i recenti metodi di animazione umana basati su immagini raggiungano una sintesi realistica del movimento del corpo e del viso, permangono lacune critiche nella controllabilità olistica fine, nell'adattabilità multi-scala e nella coerenza temporale a lungo termine, il che porta a una minore espressività e robustezza. Proponiamo un framework basato su un diffusion transformer (DiT), DreamActor-M1, con guida ibrida per superare queste limitazioni. Per la guida del movimento, i nostri segnali di controllo ibridi che integrano rappresentazioni facciali implicite, sfere 3D della testa e scheletri 3D del corpo consentono un controllo robusto delle espressioni facciali e dei movimenti del corpo, producendo al contempo animazioni espressive e che preservano l'identità. Per l'adattamento alla scala, al fine di gestire varie pose del corpo e scale dell'immagine che vanno dai ritratti alle viste a figura intera, utilizziamo una strategia di addestramento progressivo con dati a risoluzioni e scale variabili. Per la guida dell'aspetto, integriamo i modelli di movimento dai fotogrammi sequenziali con riferimenti visivi complementari, garantendo una coerenza temporale a lungo termine per le regioni non visibili durante movimenti complessi. Gli esperimenti dimostrano che il nostro metodo supera gli approcci più avanzati, fornendo risultati espressivi per la generazione di ritratti, busti e figure intere con una robusta coerenza a lungo termine. Pagina del progetto: https://grisoon.github.io/DreamActor-M1/.
Un'attenzione crescente è stata rivolta al miglioramento delle capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM). Come pilastro fondamentale per gli agenti di intelligenza artificiale che operano nel mondo fisico, l'intelligenza visivo-spaziale basata su video (VSI) emerge come una delle capacità di ragionamento più cruciali degli MLLM. Questo lavoro rappresenta il primo studio approfondito sul miglioramento del ragionamento visivo-spaziale degli MLLM attraverso un addestramento simile a R1-Zero. Tecnicamente, abbiamo inizialmente identificato che le capacità di ragionamento visivo-spaziale dei modelli Qwen2-VL di piccole e medie dimensioni non possono essere attivate tramite prompt a catena di pensiero (CoT). Successivamente, abbiamo integrato l'addestramento GRPO per migliorare il ragionamento visivo-spaziale, utilizzando il dataset VSI-100k accuratamente curato, seguendo l'approccio DeepSeek-R1-Zero. Durante l'indagine, abbiamo identificato la necessità di mantenere la penalità KL (anche con un valore ridotto) in GRPO. Con sole 120 ore di GPU, il nostro modello vsGRPO-2B, ottimizzato a partire da Qwen2-VL-2B, supera il modello base del 12,1% e supera GPT-4o. Inoltre, il nostro modello vsGRPO-7B, ottimizzato a partire da Qwen2-VL-7B, raggiunge prestazioni paragonabili a quelle del miglior modello open-source, LLaVA-NeXT-Video-72B. In aggiunta, confrontiamo vsGRPO con i baselines di fine-tuning supervisionato e ottimizzazione diretta delle preferenze, osservando una forte superiorità nelle prestazioni. Il codice e il dataset saranno presto disponibili.
DeepSeek-R1-Zero ha dimostrato che l'apprendimento per rinforzo (RL) su larga scala può potenziare direttamente le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLMs) senza la necessità di un fine-tuning supervisionato. In questo lavoro, esaminiamo criticamente l'addestramento di tipo R1-Zero analizzandone i due componenti principali: i modelli di base e l'RL. Investigiamo un'ampia gamma di modelli di base, incluso DeepSeek-V3-Base, per comprendere come le caratteristiche del pre-addestramento influenzino le prestazioni dell'RL. La nostra analisi rivela che DeepSeek-V3-Base mostra già un "momento di intuizione" (Aha moment), mentre i modelli di base Qwen2.5 dimostrano forti capacità di ragionamento anche senza l'uso di template di prompt, suggerendo potenziali bias nel pre-addestramento. Inoltre, identifichiamo un bias di ottimizzazione nel Group Relative Policy Optimization (GRPO), che aumenta artificialmente la lunghezza delle risposte (specialmente per output errati) durante l'addestramento. Per affrontare questo problema, introduciamo Dr. GRPO, un metodo di ottimizzazione imparziale che migliora l'efficienza dei token mantenendo le prestazioni di ragionamento. Sfruttando queste intuizioni, presentiamo una ricetta minimalista per R1-Zero che raggiunge un'accuratezza del 43,3% su AIME 2024 con un modello di base da 7B, stabilendo un nuovo stato dell'arte. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/understand-r1-zero.
La scrittura accademica richiede sia la generazione di testi coerenti che la citazione precisa della letteratura pertinente. Sebbene i recenti sistemi di Generazione Aumentata con Recupero (RAG) abbiano migliorato significativamente l'accuratezza fattuale nella generazione di testi di uso generale, la loro capacità di supportare adeguatamente la scrittura accademica professionale rimane limitata. In questo lavoro, introduciamo ScholarCopilot, un framework unificato progettato per potenziare i modelli linguistici di grandi dimensioni esistenti nella generazione di articoli accademici professionali con citazioni accurate e contestualmente rilevanti. ScholarCopilot determina dinamicamente quando recuperare riferimenti accademici generando un token di recupero [RET], e utilizza poi la sua rappresentazione per cercare citazioni pertinenti da un database. I riferimenti recuperati vengono inseriti nel modello per aumentare il processo di generazione. Ottimizziamo congiuntamente sia la generazione che le attività di citazione all'interno di un unico framework per aumentare l'efficienza. Addestrato su 500.000 articoli di arXiv, il nostro modello raggiunge un'accuratezza di recupero top-1 del 40,1% sul nostro dataset di valutazione, superando i baseline come E5-Mistral-7B-Instruct (15,0%) e BM25 (9,8%). Su un dataset di 1.000 campioni di scrittura accademica, ScholarCopilot ottiene un punteggio di 16,2/25 nella qualità della generazione (misurata in termini di rilevanza, coerenza, rigore accademico, completezza e innovazione), superando modelli con 10 volte più parametri come Qwen-2.5-72B-Instruct (15,8/25). Studi umani confermano anche la performance superiore di ScholarCopilot nel richiamo delle citazioni, nell'efficienza della scrittura e nell'esperienza complessiva dell'utente, confermando l'efficacia del nostro approccio.
Il recupero di scene 3D da viste sparse è un compito impegnativo a causa del suo problema intrinsecamente mal posto. I metodi convenzionali hanno sviluppato soluzioni specializzate (ad esempio, regolarizzazione geometrica o modelli deterministici feed-forward) per mitigare il problema. Tuttavia, continuano a soffrire di un degrado delle prestazioni a causa della sovrapposizione minima tra le viste di input con informazioni visive insufficienti. Fortunatamente, i recenti modelli generativi di video mostrano promesse nell'affrontare questa sfida, poiché sono in grado di generare clip video con strutture 3D plausibili. Supportati da grandi modelli di diffusione video pre-addestrati, alcune ricerche pionieristiche iniziano a esplorare il potenziale del prior generativo video e a creare scene 3D da viste sparse. Nonostante miglioramenti impressionanti, sono limitati da tempi di inferenza lenti e dalla mancanza di vincoli 3D, portando a inefficienze e artefatti di ricostruzione che non si allineano con la struttura geometrica del mondo reale. In questo articolo, proponiamo VideoScene per distillare il modello di diffusione video e generare scene 3D in un unico passaggio, con l'obiettivo di costruire uno strumento efficiente ed efficace per colmare il divario tra video e 3D. Nello specifico, progettiamo una strategia di distillazione del flusso di salto 3D-aware per saltare le informazioni ridondanti che richiedono tempo e addestriamo una rete di policy di denoising dinamica per determinare in modo adattivo il timestep ottimale di salto durante l'inferenza. Esperimenti estensivi dimostrano che il nostro VideoScene raggiunge risultati di generazione di scene 3D più rapidi e superiori rispetto ai precedenti modelli di diffusione video, evidenziando il suo potenziale come strumento efficiente per future applicazioni da video a 3D. Pagina del progetto: https://hanyang-21.github.io/VideoScene
I modelli di diffusione video (VDM) hanno compiuto progressi significativi negli ultimi anni, consentendo la generazione di video altamente realistici e attirando l'attenzione della comunità per il loro potenziale come simulatori del mondo. Tuttavia, nonostante le loro capacità, i VDM spesso non riescono a produrre video fisicamente plausibili a causa di una mancanza intrinseca di comprensione della fisica, risultando in dinamiche e sequenze di eventi errate. Per affrontare questa limitazione, proponiamo un nuovo framework di generazione immagine-video in due fasi che incorpora esplicitamente la fisica. Nella prima fase, utilizziamo un Vision Language Model (VLM) come pianificatore di movimento a grana grossa, integrando il ragionamento a catena di pensiero e consapevole della fisica per prevedere traiettorie/cambiamenti di movimento approssimativi che si avvicinano alle dinamiche fisiche del mondo reale, garantendo al contempo la coerenza inter-fotogramma. Nella seconda fase, utilizziamo le traiettorie/cambiamenti di movimento previsti per guidare la generazione video di un VDM. Poiché le traiettorie/cambiamenti di movimento previsti sono approssimativi, viene aggiunto rumore durante l'inferenza per fornire libertà al VDM nella generazione di movimenti con dettagli più fini. I risultati sperimentali estesi dimostrano che il nostro framework può produrre movimenti fisicamente plausibili, e le valutazioni comparative evidenziano la notevole superiorità del nostro approccio rispetto ai metodi esistenti. Ulteriori risultati video sono disponibili sulla nostra Pagina del Progetto: https://madaoer.github.io/projects/physically_plausible_video_generation.
Introduciamo PaperBench, un benchmark che valuta la capacità degli agenti AI di replicare ricerche all'avanguardia nel campo dell'intelligenza artificiale. Gli agenti devono replicare 20 paper selezionati come Spotlight e Oral per ICML 2024 partendo da zero, comprendendo i contributi dei paper, sviluppando una base di codice ed eseguendo con successo gli esperimenti. Per una valutazione oggettiva, abbiamo sviluppato rubriche che scompongono gerarchicamente ogni task di replicazione in sotto-task più piccoli con criteri di valutazione chiari. In totale, PaperBench contiene 8.316 task valutabili individualmente. Le rubriche sono state co-sviluppate con gli autori di ciascun paper ICML per garantire accuratezza e realismo. Per abilitare una valutazione scalabile, abbiamo anche sviluppato un giudice basato su LLM per valutare automaticamente i tentativi di replicazione rispetto alle rubriche, e abbiamo valutato le prestazioni del giudice creando un benchmark separato per i giudici. Abbiamo valutato diversi modelli di frontiera su PaperBench, riscontrando che l'agente con le migliori prestazioni testato, Claude 3.5 Sonnet (New) con scaffolding open-source, raggiunge un punteggio medio di replicazione del 21,0\%. Infine, abbiamo reclutato dottorandi di alto livello in machine learning per tentare un sottoinsieme di PaperBench, scoprendo che i modelli non superano ancora la baseline umana. Abbiamo https://github.com/openai/preparedness{reso open-source il nostro codice} per facilitare future ricerche sulla comprensione delle capacità ingegneristiche degli agenti AI.
Presentiamo Articulated Kinematics Distillation (AKD), un framework per la generazione di animazioni di personaggi ad alta fedeltà che combina i punti di forza dell'animazione basata su scheletro e dei moderni modelli generativi. AKD utilizza una rappresentazione basata su scheletro per asset 3D riggati, riducendo drasticamente i Gradi di Libertà (DoFs) concentrandosi sul controllo a livello di giunti, il che consente una sintesi del movimento efficiente e coerente. Attraverso il Score Distillation Sampling (SDS) con modelli di diffusione video pre-addestrati, AKD estrae movimenti articolati complessi mantenendo l'integrità strutturale, superando le sfide affrontate dai campi di deformazione neurale 4D nel preservare la coerenza della forma. Questo approccio è naturalmente compatibile con la simulazione basata sulla fisica, garantendo interazioni fisicamente plausibili. Gli esperimenti dimostrano che AKD raggiunge una superiore coerenza 3D e qualità del movimento rispetto ai lavori esistenti sulla generazione da testo a 4D. Pagina del progetto: https://research.nvidia.com/labs/dir/akd/
Presentiamo ILLUME+, che sfrutta una tokenizzazione visiva duale e un decoder di diffusione per migliorare sia la comprensione semantica profonda che la generazione di immagini ad alta fedeltà. I modelli unificati esistenti hanno faticato a gestire simultaneamente le tre capacità fondamentali in un unico modello: comprensione, generazione e modifica. Modelli come Chameleon e EMU3 utilizzano VQGAN per la discretizzazione delle immagini, ma, a causa della mancanza di interazione semantica profonda, rimangono indietro rispetto a modelli specializzati come LLaVA nei compiti di comprensione visiva. Per mitigare questo problema, LaViT e ILLUME impiegano encoder semantici per la tokenizzazione, ma hanno difficoltà nella modifica delle immagini a causa della scarsa conservazione delle texture. Nel frattempo, la serie Janus disaccoppia la rappresentazione dell'immagine in input e output, limitando le loro capacità di gestire in modo fluido la comprensione e la generazione intercalata di immagini e testo. Al contrario, ILLUME+ introduce un tokenizzatore visivo duale unificato, DualViTok, che preserva sia le texture fini che la semantica allineata al testo, consentendo una strategia di rappresentazione dell'immagine da grossolana a fine per la comprensione e la generazione multimodale. Inoltre, utilizziamo un modello di diffusione come detokenizzatore di immagini per migliorare la qualità della generazione e una super-risoluzione efficiente. ILLUME+ segue uno schema di input continuo e output discreto all'interno del MLLM unificato e adotta una procedura di addestramento progressivo che supporta risoluzioni dinamiche attraverso il tokenizzatore visivo, il MLLM e il decoder di diffusione. Questo design consente una modifica e generazione di immagini flessibile ed efficiente, basata sul contesto, attraverso una varietà di compiti. ILLUME+ (3B) mostra prestazioni competitive rispetto ai MLLM unificati esistenti e ai modelli specializzati in benchmark di comprensione, generazione e modifica multimodale. Con le sue solide prestazioni, ILLUME+ fornisce una base scalabile e versatile per future applicazioni multimodali. Pagina del progetto: https://illume-unified-mllm.github.io/.
La generazione di immagini umane di alta qualità attraverso metodi di testo-immagine (T2I) rappresenta un compito significativo ma impegnativo. A differenza della generazione di immagini generiche, la sintesi di immagini umane deve soddisfare criteri rigorosi relativi alla postura, all'anatomia e all'allineamento con i prompt testuali, rendendo particolarmente difficile ottenere risultati realistici. I recenti progressi nella generazione T2I basati su modelli di diffusione hanno mostrato promettenti risultati, ma permangono sfide nel soddisfare preferenze specifiche per le immagini umane. In questo articolo, introduciamo un approccio innovativo specificamente progettato per la generazione di immagini umane, utilizzando l'ottimizzazione diretta delle preferenze (DPO). In particolare, presentiamo un metodo efficiente per la costruzione di un dataset DPO specializzato per l'addestramento di modelli di generazione di immagini umane senza la necessità di costosi feedback umani. Proponiamo inoltre una funzione di perdita modificata che migliora il processo di addestramento DPO, riducendo gli artefatti e aumentando la fedeltà delle immagini. Il nostro metodo dimostra versatilità ed efficacia nella generazione di immagini umane, inclusa la generazione personalizzata di testo-immagine. Attraverso valutazioni approfondite, mostriamo che il nostro approccio avanza significativamente lo stato dell'arte nella generazione di immagini umane, raggiungendo risultati superiori in termini di anatomie naturali, posture e allineamento testo-immagine.
I modelli visione-linguaggio (VLMs) estendono le capacità dei modelli linguistici su larga scala (LLMs) incorporando informazioni visive, ma rimangono vulnerabili agli attacchi di jailbreak, specialmente quando elaborano immagini rumorose o corrotte. Sebbene i VLMs esistenti adottino misure di sicurezza durante l'addestramento per mitigare tali attacchi, le vulnerabilità associate agli input visivi aumentati con rumore vengono trascurate. In questo lavoro, identifichiamo che la mancanza di un addestramento aumentato con rumore causa lacune di sicurezza critiche: molti VLMs sono suscettibili anche a perturbazioni semplici come il rumore gaussiano. Per affrontare questa sfida, proponiamo Robust-VLGuard, un dataset di sicurezza multimodale con coppie immagine-testo allineate/non allineate, combinato con un fine-tuning aumentato con rumore che riduce i tassi di successo degli attacchi preservando la funzionalità del VLM. Per attacchi di perturbazione visiva basati su ottimizzazione più robusti, proponiamo DiffPure-VLM, sfruttando modelli di diffusione per convertire le perturbazioni avversarie in rumore simile a quello gaussiano, che può essere difeso dai VLMs con un fine-tuning di sicurezza aumentato con rumore. I risultati sperimentali dimostrano che la proprietà di spostamento della distribuzione del modello di diffusione si allinea bene con i nostri VLMs fine-tuned, mitigando significativamente le perturbazioni avversarie a diverse intensità. Il dataset e il codice sono disponibili su https://github.com/JarvisUSTC/DiffPure-RobustVLM.
Sebbene i recenti modelli di text-to-speech (TTS) zero-shot abbiano migliorato significativamente la qualità e l'espressività del parlato, i sistemi mainstream continuano a soffrire di problemi legati alla modellazione dell'allineamento tra parlato e testo: 1) i modelli privi di una modellazione esplicita dell'allineamento parlato-testo mostrano una minore robustezza, specialmente per frasi complesse in applicazioni pratiche; 2) i modelli basati su allineamenti predefiniti sono limitati dalla naturalezza degli allineamenti forzati. Questo articolo introduce MegaTTS 3, un sistema TTS che presenta un innovativo algoritmo di allineamento sparso che guida il transformer a diffusione latente (DiT). Nello specifico, forniamo a MegaTTS 3 dei confini di allineamento sparsi per ridurre la difficoltà dell'allineamento senza limitare lo spazio di ricerca, ottenendo così un'elevata naturalezza. Inoltre, utilizziamo una strategia di guida senza classificatore a multi-condizione per l'aggiustamento dell'intensità dell'accento e adottiamo la tecnica del flusso rettificato a tratti per accelerare il processo di generazione. Gli esperimenti dimostrano che MegaTTS 3 raggiunge una qualità del parlato zero-shot TTS all'avanguardia e supporta un controllo altamente flessibile sull'intensità dell'accento. In particolare, il nostro sistema è in grado di generare un parlato di alta qualità della durata di un minuto con soli 8 passaggi di campionamento. Campioni audio sono disponibili all'indirizzo https://sditdemo.github.io/sditdemo/.
I modelli visione-linguaggio (VLMs) sono inclini a fenomeni di allucinazione di oggetti, in cui indicano erroneamente la presenza di determinati oggetti in un'immagine. Gli attuali benchmark quantificano queste allucinazioni utilizzando dataset etichettati relativamente piccoli. Tuttavia, questo approccio è i) insufficiente per valutare le allucinazioni che si presentano in contesti open-world, dove i VLMs sono ampiamente utilizzati, e ii) inadeguato per rilevare errori sistematici nei VLMs. Proponiamo DASH (Detection and Assessment of Systematic Hallucinations), una pipeline automatica e su larga scala progettata per identificare allucinazioni sistematiche dei VLMs su immagini del mondo reale in un contesto open-world. Un componente chiave è DASH-OPT per il recupero basato su immagini, in cui ottimizziamo sulla "varietà delle immagini naturali" per generare immagini che ingannano il VLM. L'output di DASH consiste in cluster di immagini reali e semanticamente simili per le quali il VLM allucina un oggetto. Applichiamo DASH a PaliGemma e a due modelli LLaVA-NeXT su 380 classi di oggetti e, in totale, troviamo più di 19k cluster con 950k immagini. Studiamo il trasferimento delle allucinazioni sistematiche identificate ad altri VLMs e dimostriamo che il fine-tuning di PaliGemma con le immagini specifiche del modello ottenute con DASH mitiga le allucinazioni di oggetti. Il codice e i dati sono disponibili su https://YanNeu.github.io/DASH.
Le architetture di reti per la visione, tra cui le Reti Neurali Convoluzionali e i Vision Transformer, hanno fatto avanzare significativamente il campo della visione artificiale. Tuttavia, i loro calcoli complessi pongono sfide per il dispiegamento pratico, specialmente nelle applicazioni in tempo reale. Per affrontare questo problema, i ricercatori hanno esplorato varie architetture di reti leggere ed efficienti. Tuttavia, i modelli leggeri esistenti si basano principalmente su meccanismi di self-attention e convoluzioni per il mixing dei token. Questa dipendenza introduce limitazioni in termini di efficacia ed efficienza nei processi di percezione e aggregazione delle reti leggere, ostacolando il bilanciamento tra prestazioni ed efficienza con budget computazionali limitati. In questo articolo, traiamo ispirazione dalla capacità visiva eteroscala dinamica intrinseca nel sistema visivo umano efficiente e proponiamo una strategia "Vedi Grande, Concentrati sul Piccolo" per la progettazione di reti visive leggere. Introduciamo la convoluzione LS (Large-Small), che combina la percezione a kernel grande e l'aggregazione a kernel piccolo. Essa può catturare efficientemente un'ampia gamma di informazioni percettive e ottenere un'aggregazione precisa delle caratteristiche per rappresentazioni visive dinamiche e complesse, consentendo così un'elaborazione competente delle informazioni visive. Basandoci sulla convoluzione LS, presentiamo LSNet, una nuova famiglia di modelli leggeri. Esperimenti estensivi dimostrano che LSNet raggiunge prestazioni e efficienza superiori rispetto alle reti leggere esistenti in varie attività di visione. Codici e modelli sono disponibili su https://github.com/jameslahm/lsnet.
I modelli a spazio di stato (SSM) stanno emergendo come un'alternativa convincente ai Transformer grazie al loro utilizzo di memoria costante e alle elevate prestazioni. Nonostante ciò, scalare gli SSM su servizi cloud o dispositivi con risorse limitate è impegnativo a causa dei loro requisiti di archiviazione e potenza computazionale. Per superare questa sfida, la quantizzazione degli SSM con formati di dati a bassa larghezza di bit può ridurre le dimensioni del modello e trarre vantaggio dall'accelerazione hardware. Poiché gli SSM sono suscettibili a errori indotti dalla quantizzazione, recenti sforzi si sono concentrati sull'ottimizzazione di un modello o di una larghezza di bit specifica per migliorare l'efficienza senza sacrificare le prestazioni. Tuttavia, configurazioni distinte di larghezza di bit sono essenziali per scenari diversi, come W4A8 per aumentare la velocità di decodifica in batch di grandi dimensioni e W4A16 per migliorare la velocità di generazione in applicazioni con prompt brevi per un singolo utente. A tal fine, presentiamo Quamba2, compatibile con W8A8, W4A8 e W4A16 per entrambe le architetture Mamba1 e Mamba2, rispondendo alla crescente domanda di distribuzione degli SSM su varie piattaforme. Basandoci sulla conservazione dell'ordine dei canali e sulla persistenza dell'attivazione degli SSM, proponiamo un approccio offline per quantizzare gli ingressi di una ricorrenza lineare a 8 bit ordinando e raggruppando l'input x, combinato con una quantizzazione per gruppo di stati per i parametri dipendenti dall'input B e C. Per garantire l'invarianza computazionale nell'output dell'SSM, riorganizziamo i pesi offline in base alla sequenza di raggruppamento. Gli esperimenti mostrano che Quamba2-8B supera diversi metodi di quantizzazione SSM all'avanguardia e offre un aumento di velocità di 1,3 volte e 3 volte rispettivamente nelle fasi di pre-riempimento e generazione, riducendo la memoria di 4 volte con un calo di accuratezza medio di solo l'1,6%. La valutazione su MMLU dimostra la generalizzabilità e la robustezza del nostro framework. Il codice e i modelli quantizzati saranno rilasciati su: https://github.com/enyac-group/Quamba.
I grandi modelli linguistici dimostrano capacità di ragionamento notevoli, ma spesso producono risposte inaffidabili o errate. I metodi di verifica esistenti sono tipicamente specifici per un determinato modello o limitati a un dominio, richiedono risorse computazionali significative e mancano di scalabilità su compiti di ragionamento diversi. Per affrontare queste limitazioni, proponiamo VerifiAgent, un agente di verifica unificato che integra due livelli di verifica: meta-verifica, che valuta la completezza e la coerenza delle risposte del modello, e verifica adattiva basata su strumenti, in cui VerifiAgent seleziona autonomamente gli strumenti di verifica appropriati in base al tipo di ragionamento, inclusi ragionamenti matematici, logici o di senso comune. Questo approccio adattivo garantisce sia efficienza che robustezza in diversi scenari di verifica. I risultati sperimentali mostrano che VerifiAgent supera i metodi di verifica di base (ad esempio, verificatore deduttivo, verificatore a ritroso) in tutti i compiti di ragionamento. Inoltre, può ulteriormente migliorare l'accuratezza del ragionamento sfruttando il feedback dai risultati della verifica. VerifiAgent può anche essere applicato efficacemente al ridimensionamento dell'inferenza, ottenendo risultati migliori con meno campioni generati e costi ridotti rispetto ai modelli di ricompensa del processo esistenti nel dominio del ragionamento matematico. Il codice è disponibile all'indirizzo https://github.com/Jiuzhouh/VerifiAgent.
Sono stati proposti vari metodi di salto di strati per accelerare la generazione di token nei grandi modelli linguistici (LLM). Tuttavia, questi metodi hanno trascurato una domanda fondamentale: come variano le richieste computazionali durante la generazione di diversi token? In questo lavoro, introduciamo FlexiDepth, un metodo che regola dinamicamente il numero di strati Transformer utilizzati nella generazione di testo. Incorporando un router e un adattatore plug-in, FlexiDepth consente il salto adattivo degli strati negli LLM senza modificare i loro parametri originali. L'introduzione di FlexiDepth nel modello Llama-3-8B ha permesso di saltare 8 strati su 32, mantenendo al contempo il 100% delle prestazioni di riferimento. I risultati sperimentali con FlexiDepth dimostrano che le richieste computazionali negli LLM variano significativamente in base al tipo di token. In particolare, la generazione di token ripetitivi o frasi fisse richiede meno strati, mentre la produzione di token che implicano calcoli o alta incertezza richiede più strati. Interessante notare che questo schema di allocazione adattiva si allinea con l'intuizione umana. Per promuovere la ricerca in questo ambito, abbiamo reso open source FlexiDepth e un dataset che documenta gli schemi di allocazione degli strati di FlexiDepth per future esplorazioni.
Presentiamo un modello di diffusione video consapevole del target che genera video da un'immagine di input in cui un attore interagisce con un target specificato mentre esegue un'azione desiderata. Il target è definito da una maschera di segmentazione e l'azione desiderata è descritta tramite un prompt testuale. A differenza dei modelli di diffusione controllata da immagine a video esistenti, che spesso si affidano a segnali strutturali o di movimento densi per guidare i movimenti dell'attore verso il target, il nostro modello consapevole del target richiede solo una semplice maschera per indicare il target, sfruttando le capacità di generalizzazione dei modelli pre-addestrati per produrre azioni plausibili. Ciò rende il nostro metodo particolarmente efficace per scenari di interazione uomo-oggetto (HOI), dove fornire una guida precisa all'azione è impegnativo, e consente ulteriormente l'uso di modelli di diffusione video per la pianificazione di azioni di alto livello in applicazioni come la robotica. Costruiamo il nostro modello consapevole del target estendendo un modello di base per incorporare la maschera del target come input aggiuntivo. Per imporre la consapevolezza del target, introduciamo un token speciale che codifica le informazioni spaziali del target all'interno del prompt testuale. Successivamente, ottimizziamo il modello con il nostro dataset curato utilizzando una nuova funzione di perdita di cross-attention che allinea le mappe di cross-attention associate a questo token con la maschera del target di input. Per migliorare ulteriormente le prestazioni, applichiamo selettivamente questa perdita ai blocchi di trasformatori e alle regioni di attenzione semanticamente più rilevanti. I risultati sperimentali mostrano che il nostro modello consapevole del target supera le soluzioni esistenti nella generazione di video in cui gli attori interagiscono accuratamente con i target specificati. Dimostriamo inoltre la sua efficacia in due applicazioni downstream: creazione di contenuti video e sintesi di movimento 3D HOI zero-shot.
La ricerca precedente sul rilevamento fuori distribuzione (OoDD) si è concentrata principalmente su modelli a singola modalità. Recentemente, con l'avvento di modelli visione-linguaggio preaddestrati su larga scala come CLIP, sono emersi metodi OoDD che utilizzano tali rappresentazioni multimodali attraverso strategie di apprendimento zero-shot e prompt. Tuttavia, questi metodi comportano tipicamente il congelamento dei pesi preaddestrati o solo una loro parziale regolazione, il che può essere subottimale per i dataset downstream. In questo articolo, evidenziamo che il fine-tuning multimodale (MMFT) può raggiungere prestazioni OoDD notevoli. Nonostante alcuni lavori recenti abbiano dimostrato l'impatto dei metodi di fine-tuning per l'OoDD, rimane un potenziale significativo per il miglioramento delle prestazioni. Investigiamo il limite dei metodi di fine-tuning ingenui, esaminando perché non riescono a sfruttare appieno la conoscenza preaddestrata. La nostra analisi empirica suggerisce che questo problema potrebbe derivare dal divario modale all'interno degli embedding in-distribuzione (ID). Per affrontare ciò, proponiamo un obiettivo di addestramento che migliora l'allineamento cross-modale regolarizzando le distanze tra gli embedding di immagini e testi dei dati ID. Questo aggiustamento aiuta a utilizzare meglio le informazioni testuali preaddestrate allineando semantiche simili da diverse modalità (cioè testo e immagine) più strettamente nello spazio di rappresentazione ipersferico. Dimostriamo teoricamente che la regolarizzazione proposta corrisponde alla stima di massima verosimiglianza di un modello basato su energia su un'ipersfera. Utilizzando i dataset benchmark OoD di ImageNet-1k, mostriamo che il nostro metodo, combinato con approcci OoDD post-hoc che sfruttano la conoscenza preaddestrata (ad esempio, NegLabel), supera significativamente i metodi esistenti, raggiungendo prestazioni OoDD all'avanguardia e una precisione ID leader.
I grandi modelli linguistici (LLM) hanno il potenziale di trasformare la medicina, ma gli scenari clinici reali contengono informazioni estranee che possono comprometterne le prestazioni. L'ascesa di tecnologie assistive come la dettatura ambientale, che genera automaticamente bozze di note dagli incontri con i pazienti in tempo reale, potrebbe introdurre ulteriore rumore, rendendo cruciale valutare la capacità degli LLM di filtrare i dati rilevanti. Per indagare questo aspetto, abbiamo sviluppato MedDistractQA, un benchmark che utilizza domande in stile USMLE integrate con distrazioni simulate del mondo reale. I nostri risultati mostrano che affermazioni distraenti (parole polisemiche con significati clinici utilizzate in un contesto non clinico o riferimenti a condizioni di salute non correlate) possono ridurre l'accuratezza degli LLM fino al 17,9%. Soluzioni comunemente proposte per migliorare le prestazioni del modello, come la generazione aumentata dal recupero (RAG) e il fine-tuning medico, non hanno modificato questo effetto e, in alcuni casi, hanno introdotto i propri fattori confondenti, peggiorando ulteriormente le prestazioni. I nostri risultati suggeriscono che gli LLM mancano nativamente dei meccanismi logici necessari per distinguere le informazioni cliniche rilevanti da quelle irrilevanti, ponendo sfide per le applicazioni nel mondo reale. MedDistractQA e i nostri risultati evidenziano la necessità di strategie di mitigazione robuste per migliorare la resilienza degli LLM alle informazioni estranee.