Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di diffusione per la super-risoluzione (SR) producono risultati visivi di alta qualità ma richiedono costi computazionali elevati. Nonostante lo sviluppo di diversi metodi per accelerare i modelli SR basati sulla diffusione, alcuni (ad esempio, SinSR) non riescono a produrre dettagli percettivi realistici, mentre altri (ad esempio, OSEDiff) possono allucinare strutture inesistenti. Per superare questi problemi, presentiamo RSD, un nuovo metodo di distillazione per ResShift, uno dei migliori modelli SR basati sulla diffusione. Il nostro metodo si basa sull'addestramento della rete studente a produrre immagini tali per cui un nuovo modello ResShift fittizio addestrato su di esse coinciderà con il modello insegnante. RSD raggiunge il ripristino in un singolo passo e supera il modello insegnante con un ampio margine. Dimostriamo che il nostro metodo di distillazione può superare l'altro metodo di distillazione basato su ResShift - SinSR - rendendolo alla pari con i metodi di distillazione SR basati sulla diffusione all'avanguardia. Rispetto ai metodi SR basati su modelli pre-addestrati di testo-immagine, RSD produce una qualità percettiva competitiva, fornisce immagini con un migliore allineamento alle immagini di input degradate e richiede meno parametri e memoria GPU. Forniamo risultati sperimentali su vari dataset reali e sintetici, tra cui RealSR, RealSet65, DRealSR, ImageNet e DIV2K.
L'emergere di agenti basati su LLM rappresenta un cambiamento di paradigma nell'IA, consentendo a sistemi autonomi di pianificare, ragionare, utilizzare strumenti e mantenere memoria mentre interagiscono con ambienti dinamici. Questo articolo fornisce la prima rassegna completa delle metodologie di valutazione per questi agenti sempre più capaci. Analizziamo sistematicamente benchmark e framework di valutazione attraverso quattro dimensioni critiche: (1) capacità fondamentali degli agenti, tra cui pianificazione, uso di strumenti, auto-riflessione e memoria; (2) benchmark specifici per applicazioni come agenti web, di ingegneria del software, scientifici e conversazionali; (3) benchmark per agenti generalisti; e (4) framework per la valutazione degli agenti. La nostra analisi rivela tendenze emergenti, tra cui un passaggio verso valutazioni più realistiche e impegnative con benchmark continuamente aggiornati. Identifichiamo inoltre lacune critiche che la ricerca futura dovrà affrontare, in particolare nella valutazione di efficienza dei costi, sicurezza e robustezza, e nello sviluppo di metodi di valutazione granulari e scalabili. Questa rassegna mappa il panorama in rapida evoluzione della valutazione degli agenti, rivela le tendenze emergenti nel campo, identifica le attuali limitazioni e propone direzioni per la ricerca futura.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in compiti complessi. I recenti progressi nei modelli di ragionamento di grandi dimensioni (LRM), come OpenAI o1 e DeepSeek-R1, hanno ulteriormente migliorato le prestazioni in domini di ragionamento di tipo System-2, come la matematica e la programmazione, sfruttando tecniche di fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) per potenziare il ragionamento a catena di pensiero (CoT). Tuttavia, sebbene sequenze di ragionamento CoT più lunghe migliorino le prestazioni, introducono anche un significativo sovraccarico computazionale a causa di output verbosi e ridondanti, noto come "fenomeno di overthinking". In questo articolo, forniamo la prima rassegna strutturata per indagare ed esplorare sistematicamente i progressi attuali verso il raggiungimento di un ragionamento efficiente negli LLM. In generale, basandoci sul meccanismo intrinseco degli LLM, categorizziamo i lavori esistenti in diverse direzioni chiave: (1) ragionamento efficiente basato sul modello, che considera l'ottimizzazione di modelli di ragionamento a lunghezza completa in modelli di ragionamento più concisi o l'addestramento diretto di modelli di ragionamento efficienti; (2) ragionamento efficiente basato sull'output di ragionamento, che mira a ridurre dinamicamente i passaggi e la lunghezza del ragionamento durante l'inferenza; (3) ragionamento efficiente basato sugli input di prompt, che cerca di migliorare l'efficienza del ragionamento basandosi sulle proprietà dei prompt di input, come la difficoltà o il controllo della lunghezza. Inoltre, introduciamo l'uso di dati efficienti per l'addestramento di modelli di ragionamento, esploriamo le capacità di ragionamento dei modelli linguistici di piccole dimensioni e discutiamo metodi di valutazione e benchmarking.
Questo lavoro presenta un framework per valutare se i grandi modelli linguistici (LLM) codificano più conoscenza fattuale nei loro parametri rispetto a quanto esprimono nei loro output. Sebbene alcuni studi suggeriscano questa possibilità, nessuno ha chiaramente definito o dimostrato questo fenomeno. Proponiamo innanzitutto una definizione formale di conoscenza, quantificandola per una data domanda come la frazione di coppie di risposte corrette-errate in cui quella corretta è classificata più in alto. Ciò dà origine a conoscenza esterna e interna, a seconda delle informazioni utilizzate per valutare i singoli candidati di risposta: sia le probabilità osservabili a livello di token del modello, sia i suoi calcoli intermedi. La conoscenza nascosta emerge quando la conoscenza interna supera quella esterna. Presentiamo quindi uno studio di caso, applicando questo framework a tre popolari LLM open-weights in un contesto di domande-risposte a libro chiuso. I nostri risultati indicano che: (1) Gli LLM codificano costantemente più conoscenza fattuale internamente rispetto a quanto esprimono esternamente, con un divario medio del 40%. (2) Sorprendentemente, alcune conoscenze sono così profondamente nascoste che un modello può conoscere internamente una risposta perfettamente, ma non riuscire a generarla nemmeno una volta, nonostante un campionamento ripetuto su larga scala di 1.000 risposte. Ciò rivela limitazioni fondamentali nelle capacità di generazione degli LLM, che (3) pone un vincolo pratico sulla scalabilità del calcolo al momento del test attraverso il campionamento ripetuto di risposte nel contesto di domande-risposte a libro chiuso: miglioramenti significativi delle prestazioni rimangono inaccessibili perché alcune risposte non vengono praticamente mai campionate, eppure, se lo fossero, saremmo garantiti nel classificarle al primo posto.
Migliorare le capacità di ragionamento dei grandi modelli linguistici (LLMs) si basa tipicamente su risorse computazionali massicce e dataset estesi, limitando l'accessibilità in contesti con risorse limitate. Il nostro studio esplora il potenziale dell'apprendimento per rinforzo (RL) per migliorare il ragionamento in piccoli LLMs, concentrandosi su un modello da 1,5 miliardi di parametri, DeepSeek-R1-Distill-Qwen-1.5B, sotto vincoli rigorosi: addestramento su 4 GPU NVIDIA A40 (48 GB di VRAM ciascuna) entro 24 ore. Adattando l'algoritmo di ottimizzazione delle politiche relative di gruppo (GRPO) e curando un dataset compatto e di alta qualità per il ragionamento matematico, abbiamo condotto tre esperimenti per esplorare il comportamento e le prestazioni del modello. I nostri risultati dimostrano rapidi miglioramenti nel ragionamento - ad esempio, l'accuratezza su AMC23 è passata dal 63% all'80% e AIME24 ha raggiunto il 46,7%, superando o1-preview - utilizzando solo 7.000 campioni e un costo di addestramento di $42, rispetto a migliaia di dollari per i modelli di riferimento. Tuttavia, sfide come l'instabilità nell'ottimizzazione e i vincoli di lunghezza sono emersi con un addestramento prolungato. Questi risultati evidenziano l'efficacia del fine-tuning basato su RL per piccoli LLMs, offrendo un'alternativa economica agli approcci su larga scala. Rilasciamo il nostro codice e i dataset come risorse open-source, fornendo approfondimenti sui compromessi e gettando le basi per LLM scalabili e capaci di ragionamento in ambienti con risorse limitate. Tutto è disponibile su https://github.com/knoveleng/open-rs.
I sistemi di AI fisica devono percepire, comprendere ed eseguire azioni complesse nel mondo fisico. In questo articolo, presentiamo i modelli Cosmos-Reason1 in grado di comprendere il mondo fisico e generare decisioni incarnate appropriate (ad esempio, l'azione successiva) in linguaggio naturale attraverso processi di ragionamento a catena lunga. Iniziamo definendo le capacità chiave per il ragionamento dell'AI fisica, con un focus sul senso comune fisico e sul ragionamento incarnato. Per rappresentare il senso comune fisico, utilizziamo un'ontologia gerarchica che cattura la conoscenza fondamentale su spazio, tempo e fisica. Per il ragionamento incarnato, ci affidiamo a un'ontologia bidimensionale che generalizza diverse incarnazioni fisiche. Basandoci su queste capacità, sviluppiamo due modelli multimodali di grandi dimensioni, Cosmos-Reason1-8B e Cosmos-Reason1-56B. Curiamo i dati e addestriamo i nostri modelli in quattro fasi: pre-addestramento visivo, fine-tuning supervisionato generale (SFT), SFT di AI fisica e apprendimento per rinforzo (RL) di AI fisica come post-addestramento. Per valutare i nostri modelli, costruiamo benchmark completi per il senso comune fisico e il ragionamento incarnato secondo le nostre ontologie. I risultati di valutazione mostrano che il SFT e l'apprendimento per rinforzo dell'AI fisica portano miglioramenti significativi. Per facilitare lo sviluppo dell'AI fisica, renderemo disponibili il nostro codice e i modelli pre-addestrati sotto la licenza NVIDIA Open Model License all'indirizzo https://github.com/nvidia-cosmos/cosmos-reason1.
Nonostante il crescente entusiasmo per i Sistemi Multi-Agente (MAS), in cui più agenti LLM collaborano per completare compiti, i loro miglioramenti nelle prestazioni rispetto ai benchmark più diffusi rimangono minimi se confrontati con i framework a singolo agente. Questo divario evidenzia la necessità di analizzare le sfide che ostacolano l'efficacia dei MAS. In questo articolo, presentiamo il primo studio completo sulle sfide dei MAS. Analizziamo cinque framework MAS popolari su oltre 150 compiti, coinvolgendo sei annotatori umani esperti. Identifichiamo 14 modalità di fallimento uniche e proponiamo una tassonomia completa applicabile a vari framework MAS. Questa tassonomia emerge in modo iterativo dagli accordi tra tre annotatori esperti per studio, raggiungendo un punteggio di Cohen's Kappa di 0,88. Queste modalità di fallimento dettagliate sono organizzate in tre categorie: (i) fallimenti nella specifica e nel design del sistema, (ii) disallineamento tra agenti, e (iii) verifica e terminazione del compito. Per supportare una valutazione scalabile, integriamo MASFT con LLM-as-a-Judge. Esploriamo inoltre se i fallimenti identificati possano essere facilmente prevenuti proponendo due interventi: una migliore specifica dei ruoli degli agenti e strategie di orchestrazione avanzate. I nostri risultati rivelano che i fallimenti identificati richiedono soluzioni più complesse, delineando una chiara roadmap per la ricerca futura. Rendiamo open-source il nostro dataset e l'annotatore LLM.
La generazione di forme 3D ha conosciuto un notevole sviluppo grazie all'evoluzione della cosiddetta diffusione 3D "nativa", in particolare attraverso il Vecset Diffusion Model (VDM). Sebbene i recenti progressi abbiano mostrato risultati promettenti nella generazione di forme 3D ad alta risoluzione, il VDM incontra ancora difficoltà nella generazione ad alta velocità. Le sfide derivano non solo dalla difficoltà di accelerare il campionamento della diffusione, ma anche dalla decodifica VAE nel VDM, aree poco esplorate nei lavori precedenti. Per affrontare queste sfide, presentiamo FlashVDM, un framework sistematico per accelerare sia il VAE che il DiT nel VDM. Per il DiT, FlashVDM consente un campionamento flessibile della diffusione con appena 5 passaggi di inferenza e una qualità comparabile, reso possibile dalla stabilizzazione della distillazione di consistenza attraverso la nostra nuova Progressive Flow Distillation. Per il VAE, introduciamo un decoder vecset ultraveloce dotato di Adaptive KV Selection, Hierarchical Volume Decoding ed Efficient Network Design. Sfruttando la località del vecset e la sparsità della superficie della forma nel volume, il nostro decoder riduce drasticamente i FLOP, minimizzando l'overhead complessivo della decodifica. Applichiamo FlashVDM a Hunyuan3D-2 per ottenere Hunyuan3D-2 Turbo. Attraverso una valutazione sistematica, dimostriamo che il nostro modello supera significativamente i metodi esistenti di generazione 3D veloce, raggiungendo prestazioni comparabili allo stato dell'arte mentre riduce il tempo di inferenza di oltre 45x per la ricostruzione e 32x per la generazione. Codice e modelli sono disponibili su https://github.com/Tencent/FlashVDM.
Presentiamo SwD, un framework di distillazione multi-scala per modelli di diffusione (DMs), che impiega efficacemente le idee di previsione a scala successiva per generatori basati su diffusione a pochi passi. Più nel dettaglio, SwD è ispirato dalle recenti intuizioni che collegano i processi di diffusione all'autoregressione spettrale implicita. Supponiamo che i DMs possano avviare la generazione a risoluzioni dati inferiori e aumentare gradualmente la risoluzione dei campioni ad ogni passo di denoising senza perdita di prestazioni, riducendo significativamente i costi computazionali. SwD integra naturalmente questa idea nei metodi esistenti di distillazione di diffusione basati sulla corrispondenza di distribuzione. Inoltre, arricchiamo la famiglia degli approcci di corrispondenza di distribuzione introducendo una nuova funzione di perdita a patch che impone una similarità più fine alla distribuzione target. Quando applicato ai modelli di diffusione text-to-image all'avanguardia, SwD si avvicina ai tempi di inferenza di due passi a risoluzione completa e supera significativamente le controparti con lo stesso budget computazionale, come dimostrato da metriche automatizzate e studi di preferenza umana.
Recentemente, il processo decisionale basato su azioni in ambienti open-world ha ricevuto un'attenzione significativa. I modelli Visual Language Action (VLA), pre-addestrati su grandi dataset web, hanno mostrato potenziale nelle attività di decision-making. Tuttavia, il lavoro precedente si è concentrato principalmente sull'addestramento post-azione, spesso trascurando miglioramenti al modello di base stesso. In risposta, introduciamo un approccio innovativo, Act from Visual Language Post-Training, che affina i modelli Visual Language Models (VLM) attraverso una guida visiva e linguistica in modo auto-supervisionato. Questo miglioramento potenzia le capacità dei modelli nella conoscenza del mondo, nel riconoscimento visivo e nel grounding spaziale in ambienti open-world. Seguendo i paradigmi di post-addestramento sopra descritti, otteniamo i primi modelli VLA in Minecraft in grado di seguire istruzioni umane su oltre 1.000 diverse attività atomiche, tra cui creazione, fusione, cottura, estrazione e combattimento. I nostri esperimenti dimostrano che il post-addestramento su compiti non legati a traiettorie porta a un miglioramento significativo del 40% rispetto al miglior agente di riferimento su un insieme diversificato di attività atomiche. Inoltre, dimostriamo che il nostro approccio supera le politiche tradizionali basate sull'apprendimento per imitazione in Minecraft, raggiungendo prestazioni all'avanguardia. Abbiamo reso disponibili il codice, i modelli e i dataset per favorire ulteriori ricerche. La pagina del progetto è disponibile all'indirizzo https://craftjarvis.github.io/JarvisVLA.
Raggiungere una generazione di immagini flessibile e ad alta fedeltà che preservi l'identità rimane una sfida significativa, specialmente con modelli avanzati come i Diffusion Transformers (DiTs) quali FLUX. Introduciamo InfiniteYou (InfU), uno dei primi framework robusti che sfrutta i DiTs per questo compito. InfU affronta problemi rilevanti dei metodi esistenti, come l'insufficiente somiglianza dell'identità, il disallineamento testo-immagine e la bassa qualità e estetica della generazione. Cuore di InfU è InfuseNet, un componente che inietta caratteristiche di identità nel modello base DiT tramite connessioni residue, migliorando la somiglianza dell'identità senza compromettere le capacità di generazione. Una strategia di addestramento multi-stadio, che include pre-addestramento e fine-tuning supervisionato (SFT) con dati sintetici single-person-multiple-sample (SPMS), migliora ulteriormente l'allineamento testo-immagine, ottimizza la qualità delle immagini e riduce il fenomeno del copia-incolla dei volti. Esperimenti estensivi dimostrano che InfU raggiunge prestazioni all'avanguardia, superando i benchmark esistenti. Inoltre, il design plug-and-play di InfU garantisce compatibilità con vari metodi esistenti, offrendo un contributo prezioso alla comunità più ampia.
La ricostruzione animabile 3D di esseri umani da una singola immagine rappresenta una sfida significativa a causa dell'ambiguità nel separare geometria, aspetto e deformazione. I recenti progressi nella ricostruzione 3D umana si concentrano principalmente sulla modellazione statica, e la dipendenza dall'uso di scansioni 3D sintetiche per l'addestramento limita la loro capacità di generalizzazione. Al contrario, i metodi basati sull'ottimizzazione di video raggiungono una fedeltà maggiore, ma richiedono condizioni di acquisizione controllate e processi di raffinamento computazionalmente intensivi. Ispirati dall'emergere di modelli di ricostruzione su larga scala per una ricostruzione statica efficiente, proponiamo LHM (Large Animatable Human Reconstruction Model) per inferire avatar ad alta fedeltà rappresentati come 3D Gaussian splatting in un passaggio feed-forward. Il nostro modello sfrutta un'architettura transformer multimodale per codificare efficacemente le caratteristiche posizionali del corpo umano e le caratteristiche dell'immagine con un meccanismo di attenzione, consentendo la conservazione dettagliata della geometria e della texture degli indumenti. Per migliorare ulteriormente la conservazione dell'identità del volto e il recupero dei dettagli fini, proponiamo uno schema di codifica a piramide delle caratteristiche della testa per aggregare le caratteristiche multi-scala delle regioni della testa. Esperimenti estesi dimostrano che il nostro LHM genera esseri umani animabili plausibili in pochi secondi senza post-elaborazione per volto e mani, superando i metodi esistenti sia in termini di accuratezza di ricostruzione che di capacità di generalizzazione.
I modelli linguistici di ragionamento su larga scala stanno evolvendo rapidamente in vari domini. Tuttavia, le loro capacità nel gestire compiti finanziari complessi richiedono ancora un'esplorazione approfondita. In questo articolo, presentiamo Fin-R1, un modello linguistico di ragionamento progettato specificamente per il settore finanziario. Fin-R1 è costruito utilizzando un'architettura a due stadi, sfruttando un dataset di ragionamento finanziario distillato e processato basato su DeepSeek-R1. Attraverso il fine-tuning supervisionato (SFT) e l'addestramento con apprendimento per rinforzo (RL), dimostra prestazioni vicine a DeepSeek-R1 con una dimensione di parametri di 7 miliardi in una gamma di compiti di ragionamento finanziario. Raggiunge lo stato dell'arte (SOTA) nei task FinQA e ConvFinQA tra i modelli linguistici valutati, superando anche modelli più grandi in altri compiti. Fin-R1 mostra forti capacità di ragionamento e decision-making, fornendo soluzioni a vari problemi incontrati nel dominio finanziario. Il nostro codice è disponibile all'indirizzo https://github.com/SUFE-AIFLM-Lab/Fin-R1.
I modelli di diffusione hanno dimostrato un notevole successo in vari compiti di generazione di immagini, ma le loro prestazioni sono spesso limitate dall'elaborazione uniforme degli input in condizioni e livelli di rumore variabili. Per affrontare questa limitazione, proponiamo un approccio innovativo che sfrutta l'eterogeneità intrinseca del processo di diffusione. Il nostro metodo, DiffMoE, introduce un pool globale di token a livello di batch che consente agli esperti di accedere alle distribuzioni globali di token durante l'addestramento, promuovendo un comportamento specializzato degli esperti. Per sfruttare appieno il potenziale del processo di diffusione, DiffMoE incorpora un predittore di capacità che alloca dinamicamente le risorse computazionali in base ai livelli di rumore e alla complessità del campione. Attraverso una valutazione completa, DiffMoE raggiunge prestazioni all'avanguardia tra i modelli di diffusione sul benchmark ImageNet, superando sostanzialmente sia le architetture dense con 3x parametri attivati che gli approcci MoE esistenti, mantenendo 1x parametri attivati. L'efficacia del nostro approccio si estende oltre la generazione condizionata alla classe a compiti più impegnativi come la generazione di immagini da testo, dimostrando la sua ampia applicabilità in diverse applicazioni dei modelli di diffusione. Pagina del progetto: https://shiml20.github.io/DiffMoE/
Affrontiamo la sfida di generare mondi 3D a partire da descrizioni testuali. Proponiamo SynCity, un approccio che non richiede addestramento né ottimizzazione, sfruttando la precisione geometrica di modelli generativi 3D pre-addestrati e la versatilità artistica di generatori di immagini 2D per creare spazi 3D estesi e di alta qualità. Mentre la maggior parte dei modelli generativi 3D è incentrata su oggetti e non è in grado di generare mondi su larga scala, dimostriamo come generatori 3D e 2D possano essere combinati per creare scene in continua espansione. Attraverso un approccio basato su tasselli, permettiamo un controllo fine sulla disposizione e sull'aspetto delle scene. Il mondo viene generato tassello per tassello, e ogni nuovo tassello è generato nel contesto del mondo esistente per poi essere fuso con la scena. SynCity genera scene coinvolgenti e immersive, ricche di dettagli e diversità.
I modelli linguistici di grandi dimensioni per video (VideoLLMs) hanno dimostrato la capacità di elaborare input video più lunghi e di abilitare ragionamenti e analisi complessi. Tuttavia, a causa delle migliaia di token visivi provenienti dai fotogrammi video, la cache chiave-valore (KV) può aumentare significativamente i requisiti di memoria, diventando un collo di bottiglia per la velocità di inferenza e l'uso della memoria. La quantizzazione della cache KV è un approccio ampiamente utilizzato per affrontare questo problema. In questo articolo, scopriamo che la quantizzazione a 2 bit della cache KV nei VideoLLMs difficilmente danneggia le prestazioni del modello, mentre il limite della quantizzazione della cache KV a bit ancora più bassi non è stato investigato. Per colmare questa lacuna, introduciamo VidKV, un metodo di quantizzazione della cache KV plug-and-play per comprimere la cache KV a meno di 2 bit. Nello specifico, (1) per la chiave, proponiamo una strategia di quantizzazione a precisione mista nella dimensione del canale, dove eseguiamo una quantizzazione a 2 bit per i canali anomali e una quantizzazione a 1 bit combinata con FFT per i canali normali; (2) per il valore, implementiamo una quantizzazione a 1.58 bit mentre filtriamo selettivamente i token visivi semanticamente salienti per una conservazione mirata, al fine di ottenere un migliore compromesso tra precisione e prestazioni del modello. È importante sottolineare che i nostri risultati suggeriscono che la cache del valore nei VideoLLMs dovrebbe essere quantizzata su base per-canale invece che su base per-token, come proposto da precedenti lavori di quantizzazione della cache KV per LLMs. Empiricamente, risultati estesi con LLaVA-OV-7B e Qwen2.5-VL-7B su sei benchmark mostrano che VidKV comprime efficacemente la cache KV a precisioni di 1.5 bit e 1.58 bit con quasi nessun calo delle prestazioni rispetto alle controparti FP16.
I Large Language Model (LLM) hanno dimostrato progressi significativi nel ragionamento matematico. Sebbene l'aumento dei dati sia promettente per migliorare la capacità di risoluzione di problemi matematici, gli approcci attuali sono prevalentemente limitati a modifiche a livello di istanza, come la riformulazione o la generazione di variazioni sintattiche, che non riescono a cogliere e sfruttare le strutture relazionali intrinseche proprie della conoscenza matematica. Ispirati dai processi di apprendimento umano, in cui la competenza matematica si sviluppa attraverso l'esposizione sistematica a concetti interconnessi, introduciamo MathFusion, un nuovo framework che migliora il ragionamento matematico attraverso la sintesi di istruzioni cross-problema. MathFusion implementa ciò attraverso tre strategie di fusione: (1) fusione sequenziale, che collega problemi correlati per modellare le dipendenze delle soluzioni; (2) fusione parallela, che combina problemi analoghi per rafforzare la comprensione concettuale; e (3) fusione condizionale, che crea problemi selettivi contestuali per migliorare la flessibilità del ragionamento. Applicando queste strategie, generiamo un nuovo dataset, MathFusionQA, seguito dal fine-tuning di modelli (DeepSeekMath-7B, Mistral-7B, Llama3-8B) su di esso. I risultati sperimentali dimostrano che MathFusion ottiene miglioramenti sostanziali nel ragionamento matematico mantenendo un'elevata efficienza dei dati, aumentando le prestazioni di 18,0 punti in accuratezza su diversi benchmark mentre richiede solo 45K istruzioni sintetiche aggiuntive, rappresentando un miglioramento significativo rispetto agli approcci tradizionali a singola istruzione. I nostri dataset, modelli e codice sono disponibili pubblicamente su https://github.com/QizhiPei/mathfusion.
Questo articolo propone un paradigma fondamentalmente nuovo per la generazione di immagini attraverso la tokenizzazione basata su insiemi e la modellazione della distribuzione. A differenza dei metodi convenzionali che serializzano le immagini in codici latenti a posizione fissa con un rapporto di compressione uniforme, introduciamo una rappresentazione di token non ordinati per allocare dinamicamente la capacità di codifica in base alla complessità semantica regionale. Questo TokenSet migliora l'aggregazione del contesto globale e aumenta la robustezza contro le perturbazioni locali. Per affrontare la sfida critica della modellazione di insiemi discreti, abbiamo ideato un meccanismo di trasformazione duale che converte biiettivamente gli insiemi in sequenze di interi a lunghezza fissa con vincoli di somma. Inoltre, proponiamo il Fixed-Sum Discrete Diffusion--il primo framework in grado di gestire simultaneamente valori discreti, lunghezza fissa della sequenza e invarianza della somma--consentendo una modellazione efficace della distribuzione degli insiemi. Gli esperimenti dimostrano la superiorità del nostro metodo nella rappresentazione semantica e nella qualità della generazione. Le nostre innovazioni, che abbracciano nuove strategie di rappresentazione e modellazione, avanzano la generazione visiva oltre i tradizionali paradigmi di token sequenziali. Il nostro codice e i nostri modelli sono disponibili pubblicamente all'indirizzo https://github.com/Gengzigang/TokenSet.
Presentiamo 3D Spatial MultiModal Memory (M3), un sistema di memoria multimodale progettato per conservare informazioni su scene statiche di medie dimensioni attraverso fonti video per la percezione visiva. Integrando tecniche di 3D Gaussian Splatting con modelli di base, M3 costruisce una memoria multimodale in grado di rappresentare caratteristiche a diversi livelli di granularità, abbracciando un'ampia gamma di conoscenze. Nella nostra esplorazione, identifichiamo due sfide principali nei lavori precedenti sullo splatting di caratteristiche: (1) i vincoli computazionali nell'archiviazione di caratteristiche ad alta dimensionalità per ogni primitiva gaussiana, e (2) il disallineamento o la perdita di informazioni tra le caratteristiche distillate e quelle dei modelli di base. Per affrontare queste sfide, proponiamo M3 con componenti chiave come i principali componenti della scena e l'attenzione della memoria gaussiana, consentendo un addestramento e un'inferenza efficienti. Per validare M3, conduciamo valutazioni quantitative complete sulla similarità delle caratteristiche e sui task downstream, oltre a visualizzazioni qualitative per evidenziare la traccia pixel dell'attenzione della memoria gaussiana. Il nostro approccio comprende una vasta gamma di modelli di base, inclusi modelli visione-linguaggio (VLMs), modelli di percezione e grandi modelli multimodali e linguistici (LMMs/LLMs). Inoltre, per dimostrare l'applicabilità nel mondo reale, implementiamo il campo di caratteristiche di M3 in scene indoor su un robot quadrupede. È importante sottolineare che affermiamo che M3 è il primo lavoro a risolvere le principali sfide di compressione nella distillazione di caratteristiche 3D.
La Modifica della Conoscenza (Knowledge Editing, KE) consente la modifica di informazioni obsolete o errate nei grandi modelli linguistici (Large Language Models, LLMs). Sebbene i metodi KE esistenti possano aggiornare fatti isolati, faticano a generalizzare questi aggiornamenti per compiti di ragionamento multi-hop che dipendono dalla conoscenza modificata. Attraverso un'analisi dei circuiti di ragionamento — i percorsi neurali che i LLMs utilizzano per l'inferenza basata sulla conoscenza — osserviamo che gli approcci KE attuali localizzati a livello di strato, come MEMIT e WISE, che modificano solo uno o pochi strati del modello, faticano a incorporare efficacemente le informazioni aggiornate in questi percorsi di ragionamento. Per affrontare questa limitazione, proponiamo CaKE (Circuit-aware Knowledge Editing), un metodo innovativo che consente un'integrazione più efficace della conoscenza aggiornata nei LLMs. CaKE sfrutta dati strategicamente curati, guidati dalla nostra analisi basata sui circuiti, che obbligano il modello a utilizzare la conoscenza modificata, stimolando il modello a sviluppare circuiti di ragionamento appropriati per la nuova conoscenza integrata. I risultati sperimentali mostrano che CaKE consente un uso più accurato e coerente della conoscenza aggiornata in compiti di ragionamento correlati, portando a un miglioramento medio del 20% nell'accuratezza del ragionamento multi-hop sul dataset MQuAKE rispetto ai metodi KE esistenti. Rilasciamo il codice e i dati su https://github.com/zjunlp/CaKE.
Questo articolo affronta la sfida della generazione di movimento in streaming condizionata da testo, che richiede la previsione della prossima postura umana basandosi su movimenti storici di lunghezza variabile e testi in arrivo. I metodi esistenti faticano a realizzare la generazione di movimento in streaming: ad esempio, i modelli di diffusione sono limitati da lunghezze predefinite del movimento, mentre i metodi basati su GPT soffrono di risposte ritardate e accumulo di errori a causa della tokenizzazione non causale discretizzata. Per risolvere questi problemi, proponiamo MotionStreamer, un nuovo framework che incorpora uno spazio latente causale continuo in un modello probabilistico autoregressivo. I latenti continui mitigano la perdita di informazioni causata dalla discretizzazione e riducono efficacemente l'accumulo di errori durante la generazione autoregressiva a lungo termine. Inoltre, stabilendo dipendenze causali temporali tra i latenti del movimento corrente e quelli storici, il nostro modello sfrutta appieno le informazioni disponibili per ottenere una decodifica accurata del movimento in tempo reale. Gli esperimenti dimostrano che il nostro metodo supera gli approcci esistenti, offrendo al contempo più applicazioni, tra cui generazione multi-round, generazione a lungo termine e composizione dinamica del movimento. Pagina del progetto: https://zju3dv.github.io/MotionStreamer/
I modelli Transformer a contesto lungo (LCTMs) sono fondamentali per applicazioni nel mondo reale, ma soffrono di elevati costi computazionali a causa della complessità quadratica del meccanismo di attenzione. L'attenzione sparsa a blocchi mitiga questo problema concentrando il calcolo sulle regioni critiche, tuttavia i metodi esistenti faticano a bilanciare precisione ed efficienza a causa delle costose misurazioni dell'importanza dei blocchi. In questo articolo, introduciamo XAttention, un framework plug-and-play che accelera drasticamente l'inferenza a contesto lungo nei modelli Transformer utilizzando l'attenzione sparsa. L'innovazione chiave di XAttention è l'intuizione che la somma dei valori antidiagonali (cioè dall'angolo inferiore sinistro a quello superiore destro) nella matrice di attenzione fornisce un potente indicatore dell'importanza dei blocchi. Ciò consente un'identificazione precisa e una potatura dei blocchi non essenziali, ottenendo un'elevata sparsità e un'accelerazione significativa dell'inferenza. Attraverso valutazioni complete su benchmark impegnativi a contesto lungo, tra cui RULER e LongBench per il linguaggio, VideoMME per la comprensione video e VBench per la generazione video, XAttention raggiunge una precisione comparabile all'attenzione completa offrendo sostanziali vantaggi computazionali. Dimostriamo un'accelerazione fino a 13,5x nel calcolo dell'attenzione. Questi risultati sottolineano la capacità di XAttention di sbloccare il potenziale pratico dell'attenzione sparsa a blocchi, aprendo la strada a un'implementazione scalabile ed efficiente degli LCTMs nelle applicazioni reali. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/x-attention.
Il 4D Gaussian Splatting (4DGS) ha recentemente attirato notevole attenzione come metodo per la ricostruzione di scene dinamiche. Nonostante raggiunga una qualità superiore, il 4DGS richiede tipicamente un notevole spazio di archiviazione e soffre di una velocità di rendering lenta. In questo lavoro, approfondiamo questi problemi e identifichiamo due fonti principali di ridondanza temporale. (Q1) Gaussiane a Breve Durata: il 4DGS utilizza una grande porzione di gaussiane con un breve intervallo temporale per rappresentare la dinamica della scena, portando a un numero eccessivo di gaussiane. (Q2) Gaussiane Inattive: durante il rendering, solo un piccolo sottoinsieme di gaussiane contribuisce a ciascun fotogramma. Nonostante ciò, tutte le gaussiane vengono elaborate durante la rasterizzazione, risultando in un sovraccarico computazionale ridondante. Per affrontare queste ridondanze, presentiamo il 4DGS-1K, che funziona a oltre 1000 FPS sulle moderne GPU. Per Q1, introduciamo lo Spatial-Temporal Variation Score, un nuovo criterio di potatura che rimuove efficacemente le gaussiane a breve durata, incoraggiando il 4DGS a catturare la dinamica della scena utilizzando gaussiane con intervalli temporali più lunghi. Per Q2, memorizziamo una maschera per le gaussiane attive su fotogrammi consecutivi, riducendo significativamente i calcoli ridondanti nel rendering. Rispetto al 4DGS standard, il nostro metodo ottiene una riduzione di 41 volte nello spazio di archiviazione e una velocità di rasterizzazione 9 volte più veloce su scene dinamiche complesse, mantenendo una qualità visiva comparabile. Visitate la nostra pagina del progetto all'indirizzo https://4DGS-1K.github.io.
I modelli di diffusione sono emersi come framework principale nella generazione visiva. Basandosi su questo successo, l'integrazione dei metodi Mixture of Experts (MoE) ha dimostrato potenzialità nel migliorare la scalabilità e le prestazioni del modello. In questo articolo, introduciamo Race-DiT, un nuovo modello MoE per trasformatori di diffusione con una strategia di routing flessibile, Expert Race. Consentendo ai token e agli esperti di competere insieme e selezionare i candidati migliori, il modello impara ad assegnare dinamicamente gli esperti ai token critici. Inoltre, proponiamo una regolarizzazione per strato per affrontare le sfide nell'apprendimento degli strati superficiali e una perdita di similarità del router per prevenire il collasso modale, garantendo un migliore utilizzo degli esperti. Esperimenti estensivi su ImageNet convalidano l'efficacia del nostro approccio, mostrando significativi miglioramenti nelle prestazioni e promettenti proprietà di scalabilità.
I modelli di diffusione text-to-image hanno compiuto progressi notevoli negli ultimi anni. Tuttavia, l'addestramento di modelli per la generazione di immagini ad alta risoluzione rimane una sfida, specialmente quando i dati di addestramento e le risorse computazionali sono limitati. In questo articolo, esploriamo questo problema pratico da due prospettive chiave: efficienza dei dati e dei parametri, e proponiamo una serie di linee guida fondamentali per l'adattamento a ultra-risoluzione, denominato URAE. Per quanto riguarda l'efficienza dei dati, dimostriamo teoricamente ed empiricamente che i dati sintetici generati da alcuni modelli insegnanti possono favorire significativamente la convergenza dell'addestramento. Per l'efficienza dei parametri, scopriamo che la regolazione di componenti minori delle matrici dei pesi supera gli adattatori a basso rango ampiamente utilizzati quando i dati sintetici non sono disponibili, offrendo sostanziali miglioramenti delle prestazioni mantenendo l'efficienza. Inoltre, per i modelli che sfruttano la distillazione guidata, come FLUX, dimostriamo che disabilitare la guida senza classificatore, ovvero impostare la scala di guida a 1 durante l'adattamento, è cruciale per ottenere prestazioni soddisfacenti. Esperimenti estensivi convalidano che URAE raggiunge prestazioni di generazione 2K comparabili a modelli closed-source all'avanguardia come FLUX1.1 [Pro] Ultra con soli 3K campioni e 2K iterazioni, stabilendo nuovi benchmark per la generazione a risoluzione 4K. I codici sono disponibili {qui} https://github.com/Huage001/URAE.
In questo articolo, ci chiediamo se disponiamo di un modello affidabile di point cloud auto-supervisionato che possa essere utilizzato per diverse attività 3D tramite semplice linear probing, anche con dati limitati e un minimo di calcolo. Scopriamo che gli approcci esistenti di apprendimento auto-supervisionato 3D non sono all'altezza quando valutati sulla qualità della rappresentazione attraverso il linear probing. Ipotesizziamo che ciò sia dovuto a quello che definiamo "scorciatoia geometrica", che fa collassare le rappresentazioni in caratteristiche spaziali di basso livello. Questa sfida è unica nel contesto 3D e deriva dalla natura sparsa dei dati di point cloud. La affrontiamo attraverso due strategie chiave: oscurare le informazioni spaziali e aumentare la dipendenza dalle caratteristiche di input, componendo infine una Sonata di 140k point cloud attraverso l'auto-distillazione. Sonata è semplice e intuitivo, ma le sue rappresentazioni apprese sono forti e affidabili: visualizzazioni zero-shot dimostrano un raggruppamento semantico, insieme a un forte ragionamento spaziale attraverso relazioni di vicinato più prossimo. Sonata dimostra un'eccellente efficienza in termini di parametri e dati, triplicando l'accuratezza del linear probing (da 21,8% a 72,5%) su ScanNet e quasi raddoppiando le prestazioni con solo l'1% dei dati rispetto agli approcci precedenti. Il fine-tuning completo avanza ulteriormente lo stato dell'arte in entrambi i compiti di percezione 3D indoor e outdoor.
I recenti progressi nella generazione di video hanno portato a notevoli miglioramenti nella qualità visiva e nella coerenza temporale. Su questa base, è emersa la generazione di video controllabile tramite traiettorie, che consente un controllo preciso del movimento degli oggetti attraverso percorsi spaziali definiti esplicitamente. Tuttavia, i metodi esistenti faticano a gestire movimenti complessi degli oggetti e il controllo del movimento di più oggetti, risultando in un'adesione imprecisa alle traiettorie, una scarsa coerenza degli oggetti e una qualità visiva compromessa. Inoltre, questi metodi supportano il controllo delle traiettorie solo in un singolo formato, limitando la loro applicabilità in scenari diversi. In aggiunta, non esiste un dataset o un benchmark pubblicamente disponibile specificamente progettato per la generazione di video controllabile tramite traiettorie, ostacolando un addestramento robusto e una valutazione sistematica. Per affrontare queste sfide, introduciamo MagicMotion, un nuovo framework di generazione di video da immagini che abilita il controllo delle traiettorie attraverso tre livelli di condizioni, da dense a sparse: maschere, bounding box e box sparse. Dato un'immagine di input e delle traiettorie, MagicMotion anima senza soluzione di continuità gli oggetti lungo le traiettorie definite, mantenendo la coerenza degli oggetti e la qualità visiva. Inoltre, presentiamo MagicData, un dataset su larga scala di video controllati tramite traiettorie, insieme a una pipeline automatizzata per l'annotazione e il filtraggio. Introduciamo anche MagicBench, un benchmark completo che valuta sia la qualità del video che l'accuratezza del controllo delle traiettorie su diversi numeri di oggetti. Esperimenti estensivi dimostrano che MagicMotion supera i metodi precedenti in varie metriche. La nostra pagina del progetto è pubblicamente disponibile all'indirizzo https://quanhaol.github.io/magicmotion-site.
In questo articolo, esploriamo il compito di generare scene esterne estese, che vanno dai castelli ai grattacieli. A differenza della generazione di scene interne, che è stata il focus principale di lavori precedenti, la generazione di scene esterne presenta sfide uniche, tra cui ampie variazioni nelle altezze delle scene e la necessità di un metodo in grado di produrre rapidamente grandi paesaggi. Per affrontare ciò, proponiamo un approccio efficiente che codifica porzioni di scene come insiemi di vettori uniformi, offrendo una migliore compressione e prestazioni rispetto ai latenti strutturati spazialmente utilizzati nei metodi precedenti. Inoltre, addestriamo un modello esplicito di outpainting per la generazione illimitata, che migliora la coerenza rispetto ai precedenti schemi di inpainting basati sul ricampionamento, accelerando al contempo la generazione eliminando passaggi aggiuntivi di diffusione. Per facilitare questo compito, abbiamo curato NuiScene43, un insieme piccolo ma di alta qualità di scene, preelaborate per l'addestramento congiunto. È degno di nota che, quando addestrato su scene di stili variabili, il nostro modello può fondere ambienti diversi, come case rurali e grattacieli cittadini, all'interno della stessa scena, evidenziando il potenziale del nostro processo di cura per sfruttare scene eterogenee per l'addestramento congiunto.
La classificazione è un compito fondamentale nel machine learning. Ricerche recenti hanno dimostrato che, sebbene i Modelli Linguistici Multimodali di Grande Scala (MLLM) siano inizialmente scarsi nella classificazione di immagini, il fine-tuning con una quantità adeguata di dati può migliorare significativamente le loro prestazioni, rendendoli comparabili ai modelli di classificazione all'avanguardia (SOTA). Tuttavia, acquisire dati etichettati su larga scala è costoso. In questo articolo, esploriamo il fine-tuning per la classificazione con pochi esempi (few-shot) negli MLLM. Abbiamo scoperto che il Supervised Fine-Tuning (SFT) può causare gravi problemi di overfitting e potrebbe persino peggiorare le prestazioni rispetto all'approccio zero-shot. Per affrontare questa sfida, ispirati dai recenti successi nel reinforcement learning basato su regole, proponiamo CLS-RL, che utilizza segnali verificabili come ricompensa per il fine-tuning degli MLLM. Abbiamo scoperto che CLS-RL supera il SFT nella maggior parte dei dataset e ha una precisione media molto più elevata sia nelle impostazioni di apprendimento base-to-new che few-shot. Inoltre, abbiamo osservato un fenomeno di "free-lunch" per CLS-RL; quando i modelli vengono sottoposti a fine-tuning su un particolare dataset, le loro prestazioni su altri dataset distinti possono migliorare rispetto ai modelli zero-shot, anche se tali dataset differiscono nella distribuzione e nei nomi delle classi. Ciò suggerisce che i metodi basati su RL insegnano efficacemente ai modelli i fondamenti della classificazione. Infine, ispirati da recenti lavori sul pensiero durante l'inferenza, riesaminiamo il "processo di pensiero" durante il fine-tuning, un aspetto critico dei metodi basati su RL, nel contesto della classificazione visiva. Ci chiediamo se tali compiti richiedano un ampio processo di pensiero durante il fine-tuning, proponendo che ciò potrebbe effettivamente compromettere le prestazioni. Sulla base di questa premessa, introduciamo il metodo No-Thinking-CLS-RL, che minimizza i processi di pensiero durante l'addestramento impostando una ricompensa di accuratezza uguale. I nostri risultati indicano che, con un tempo di fine-tuning molto inferiore, il metodo No-Thinking-CLS-RL raggiunge prestazioni superiori nel dominio e capacità di generalizzazione rispetto a CLS-RL.
La generazione di avatar animabili della testa richiede tipicamente dati estesi per l'addestramento. Per ridurre i requisiti di dati, una soluzione naturale è sfruttare metodi esistenti di generazione di avatar statici senza dati, come modelli di diffusione pre-addestrati con campionamento di distillazione del punteggio (SDS), che allineano gli avatar con output pseudo ground-truth provenienti dal modello di diffusione. Tuttavia, distillare direttamente avatar 4D da video di diffusione spesso porta a risultati eccessivamente lisci a causa di incoerenze spaziali e temporali nel video generato. Per affrontare questo problema, proponiamo Zero-1-to-A, un metodo robusto che sintetizza un dataset di coerenza spaziale e temporale per la ricostruzione di avatar 4D utilizzando il modello di diffusione video. Nello specifico, Zero-1-to-A costruisce iterativamente dataset video e ottimizza gli avatar animabili in modo progressivo, garantendo che la qualità degli avatar aumenti in modo fluido e coerente durante il processo di apprendimento. Questo apprendimento progressivo coinvolge due fasi: (1) l'Apprendimento della Coerenza Spaziale fissa le espressioni e apprende dalle viste frontali a quelle laterali, e (2) l'Apprendimento della Coerenza Temporale fissa le viste e apprende da espressioni rilassate a esagerate, generando avatar 4D in modo da semplice a complesso. Esperimenti estesi dimostrano che Zero-1-to-A migliora la fedeltà, la qualità dell'animazione e la velocità di rendering rispetto ai metodi basati sulla diffusione esistenti, fornendo una soluzione per la creazione di avatar realistici. Il codice è disponibile pubblicamente all'indirizzo: https://github.com/ZhenglinZhou/Zero-1-to-A.
Introduciamo BigO(Bench), un nuovo benchmark di codifica progettato per valutare le capacità dei modelli linguistici generativi nella comprensione e generazione di codice con specifiche complessità temporali e spaziali. Questo benchmark colma una lacuna nelle valutazioni attuali, che spesso trascurano la capacità dei modelli di comprendere e produrre codice vincolato da complessità computazionali. BigO(Bench) include strumenti per inferire la complessità algoritmica di qualsiasi funzione Python a partire da misurazioni di profilazione, incluse soluzioni generate da esseri umani o da LLM. BigO(Bench) comprende inoltre un insieme di 3.105 problemi di codifica e 1.190.250 soluzioni provenienti da Code Contests, annotate con etichette di complessità temporale e spaziale inferite (sintetiche) dal framework di complessità, nonché valori corrispondenti di tempo di esecuzione e impronta di memoria per un ampio insieme di dimensioni di input. Presentiamo i risultati della valutazione di diversi modelli linguistici all'avanguardia su questo benchmark, evidenziandone punti di forza e debolezze nella gestione dei requisiti di complessità. In particolare, i modelli di ragionamento nello spazio dei token sono ineguagliati nella generazione di codice ma non nella comprensione della complessità, suggerendo che potrebbero non generalizzare bene a compiti per i quali non è stato fornito alcun reward durante l'addestramento.
Presentiamo PORTAL, un nuovo framework per lo sviluppo di agenti di intelligenza artificiale in grado di giocare migliaia di videogiochi 3D attraverso la generazione di politiche guidate dal linguaggio. Trasformando i problemi decisionali in task di modellazione del linguaggio, il nostro approccio sfrutta i grandi modelli linguistici (LLM) per generare alberi comportamentali rappresentati in un linguaggio specifico di dominio (DSL). Questo metodo elimina l'onere computazionale associato ai tradizionali approcci di apprendimento per rinforzo, preservando al contempo la profondità strategica e la rapida adattabilità. Il nostro framework introduce una struttura ibrida delle politiche che combina nodi basati su regole con componenti di reti neurali, consentendo sia il ragionamento strategico di alto livello che il controllo preciso a basso livello. Un meccanismo di feedback duale, che incorpora metriche quantitative del gioco e analisi di modelli visione-linguaggio, facilita il miglioramento iterativo delle politiche a livello sia tattico che strategico. Le politiche risultanti sono immediatamente implementabili, interpretabili dagli esseri umani e capaci di generalizzare in diversi ambienti di gioco. I risultati sperimentali dimostrano l'efficacia di PORTAL in migliaia di giochi sparatutto in prima persona (FPS), mostrando miglioramenti significativi nell'efficienza di sviluppo, nella generalizzazione delle politiche e nella diversità comportamentale rispetto agli approcci tradizionali. PORTAL rappresenta un significativo progresso nello sviluppo dell'IA per i giochi, offrendo una soluzione pratica per creare agenti sofisticati in grado di operare in migliaia di videogiochi commerciali con un sovraccarico di sviluppo minimo. I risultati degli esperimenti sui videogiochi 3D sono meglio visualizzabili su https://zhongwen.one/projects/portal.
I modelli autoregressivi hanno dimostrato un notevole successo nella generazione di immagini adattando tecniche di previsione sequenziale provenienti dalla modellazione del linguaggio. Tuttavia, applicare questi approcci alle immagini richiede la discretizzazione dei dati pixel continui attraverso metodi di quantizzazione vettoriale come il VQ-VAE. Per mitigare gli errori di quantizzazione presenti nel VQ-VAE, i lavori recenti tendono a utilizzare codebook più grandi. Tuttavia, ciò comporta un'espansione corrispondente della dimensione del vocabolario, complicando il compito di modellazione autoregressiva. Questo articolo si propone di trovare un modo per sfruttare i vantaggi dei codebook di grandi dimensioni senza rendere più difficile la modellazione autoregressiva. Attraverso un'indagine empirica, scopriamo che i token con rappresentazioni di codeword simili producono effetti simili sull'immagine generata finale, rivelando una significativa ridondanza nei codebook di grandi dimensioni. Basandoci su questa intuizione, proponiamo di prevedere i token da un livello grossolano a uno fine (CTF), realizzato assegnando la stessa etichetta grossolana a token simili. Il nostro framework si compone di due fasi: (1) un modello autoregressivo che prevede sequenzialmente etichette grossolane per ciascun token nella sequenza, e (2) un modello ausiliario che prevede simultaneamente etichette a grana fine per tutti i token condizionatamente alle loro etichette grossolane. Gli esperimenti su ImageNet dimostrano la performance superiore del nostro metodo, ottenendo un miglioramento medio di 59 punti nell'Inception Score rispetto ai baseline. In particolare, nonostante l'aggiunta di un passaggio di inferenza, il nostro approccio raggiunge velocità di campionamento più elevate.
La natura complessa della segmentazione delle immagini mediche richiede modelli specificamente progettati per catturare caratteristiche dettagliate e specifiche del dominio. I grandi modelli di base offrono una notevole flessibilità, ma il costo del fine-tuning di questi modelli rimane un ostacolo significativo. I metodi di Fine-Tuning Efficiente dei Parametri (PEFT), come l'Adattamento a Basso Rango (LoRA), aggiornano in modo efficiente i pesi del modello utilizzando matrici a basso rango, ma possono soffrire di underfitting quando il rango scelto è insufficiente per catturare le sfumature specifiche del dominio. Al contrario, i metodi basati sulla Decomposizione ai Valori Singolari (SVD) a rango completo forniscono aggiornamenti completi modificando tutti i valori singolari, ma spesso mancano di flessibilità e mostrano prestazioni variabili tra i diversi dataset. Proponiamo SALT (Adattamento ai Valori Singolari con Trasformazione a Basso Rango), un metodo che adatta selettivamente i valori singolari più influenti utilizzando parametri di scala e spostamento addestrabili, integrando questo con un aggiornamento a basso rango per il sottospazio rimanente. Questo approccio ibrido sfrutta i vantaggi sia di LoRA che di SVD, consentendo un adattamento efficace senza fare affidamento sull'aumento delle dimensioni o della profondità del modello. Valutato su 5 dataset medici impegnativi, che vanno da un minimo di 20 campioni a 1000, SALT supera i migliori metodi PEFT (LoRA e SVD) del 2% al 5% in termini di Dice con solo il 3,9% dei parametri addestrabili, dimostrando un adattamento robusto anche in contesti con risorse limitate. Il codice per SALT è disponibile all'indirizzo: https://github.com/BioMedIA-MBZUAI/SALT
I grandi modelli visione-linguaggio (LVLM) hanno dimostrato prestazioni promettenti nei compiti di comprensione e ragionamento visione-linguaggio. Tuttavia, i loro comportamenti di comprensione visiva rimangono poco esplorati. Sorge una domanda fondamentale: in che misura i LVLM si affidano all'input visivo e quali regioni dell'immagine contribuiscono alle loro risposte? È non banale interpretare la generazione libera dei LVLM a causa della loro complessa architettura visiva (ad esempio, più encoder e multi-risoluzione) e degli output di lunghezza variabile. In questo articolo, estendiamo i metodi esistenti di visualizzazione delle mappe di calore (ad esempio, iGOS++) per supportare i LVLM nel rispondere a domande visive aperte. Proponiamo un metodo per selezionare token visivamente rilevanti che riflettono la pertinenza tra le risposte generate e l'immagine in input. Inoltre, conduciamo un'analisi completa dei LVLM all'avanguardia su benchmark progettati per richiedere informazioni visive per rispondere. Le nostre scoperte offrono diverse intuizioni sul comportamento dei LVLM, inclusa la relazione tra la regione di attenzione e la correttezza della risposta, le differenze nell'attenzione visiva tra le architetture e l'impatto della scala del LLM sulla comprensione visiva. Il codice e i dati sono disponibili su https://github.com/bytedance/LVLM_Interpretation.
I recenti progressi nei modelli linguistici di grandi dimensioni e nelle loro estensioni multimodali hanno dimostrato l'efficacia dell'unificazione della generazione e della comprensione attraverso la previsione autoregressiva del token successivo. Tuttavia, nonostante il ruolo cruciale della generazione e comprensione delle strutture 3D ({3D GU}) nell'IA per la scienza, questi compiti si sono evoluti in gran parte in modo indipendente, con i metodi autoregressivi che rimangono poco esplorati. Per colmare questa lacuna, introduciamo Uni-3DAR, un framework unificato che integra senza soluzione di continuità i compiti di {3D GU} attraverso la previsione autoregressiva. Al suo nucleo, Uni-3DAR utilizza una nuova tokenizzazione gerarchica che comprime lo spazio 3D utilizzando un octree, sfruttando l'intrinseca sparsità delle strutture 3D. Successivamente, applica un'ulteriore tokenizzazione per i dettagli strutturali di livello fine, catturando attributi chiave come i tipi di atomo e le coordinate spaziali precise nelle strutture 3D microscopiche. Proponiamo inoltre due ottimizzazioni per migliorare l'efficienza e l'efficacia. La prima è una strategia di compressione a due livelli dei sottoalberi, che riduce la sequenza di token dell'octree fino a 8 volte. La seconda è un meccanismo di previsione mascherata del token successivo, progettato per posizioni di token che variano dinamicamente, migliorando significativamente le prestazioni del modello. Combinando queste strategie, Uni-3DAR unifica con successo diversi compiti di {3D GU} all'interno di un unico framework autoregressivo. Esperimenti estensivi su molteplici compiti di {3D GU} microscopici, tra cui molecole, proteine, polimeri e cristalli, ne validano l'efficacia e la versatilità. In particolare, Uni-3DAR supera i precedenti modelli di diffusione all'avanguardia con un margine sostanziale, raggiungendo un miglioramento relativo fino al 256\% e offrendo velocità di inferenza fino a 21,8 volte più veloci. Il codice è disponibile pubblicamente all'indirizzo https://github.com/dptech-corp/Uni-3DAR.
La generazione di molecole 3D è cruciale per la scoperta di farmaci e la scienza dei materiali, richiedendo modelli in grado di elaborare complesse multi-modalità, inclusi tipi di atomi, legami chimici e coordinate 3D. Una sfida chiave è integrare queste modalità di forme diverse mantenendo l'equivarianza SE(3) per le coordinate 3D. Per raggiungere questo obiettivo, gli approcci esistenti mantengono tipicamente spazi latenti separati per le modalità invarianti ed equivarianti, riducendo l'efficienza sia nell'addestramento che nel campionamento. In questo lavoro, proponiamo l'Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D), un VAE multi-modale che comprime molecole 3D in sequenze latenti da uno spazio latente unificato, mantenendo un errore di ricostruzione quasi nullo. Questo spazio latente unificato elimina le complessità di gestire la multi-modalità e l'equivarianza durante la modellazione della diffusione latente. Dimostriamo ciò utilizzando il Diffusion Transformer—un modello di diffusione generico senza alcun bias induttivo molecolare—per la generazione latente. Esperimenti estesi sui dataset GEOM-Drugs e QM9 dimostrano che il nostro metodo stabilisce significativamente nuovi benchmark sia nella generazione di molecole 3D de novo che condizionata, raggiungendo una qualità ed efficienza leader.
I metodi di addestramento video più diffusi operano principalmente su un numero fisso di token campionati da una griglia spazio-temporale predeterminata, risultando in compromessi precisione-calcolo subottimali a causa della ridondanza intrinseca dei video. Inoltre, mancano di adattabilità a budget computazionali variabili per task downstream, ostacolando l'applicazione del modello più competitivo in scenari reali. Proponiamo quindi una nuova configurazione di test, denominata Ottimizzazione dei Token, per massimizzare le informazioni in ingresso in base al budget, che ottimizza l'insieme limitato di token di input attraverso la selezione di token da video campionati in modo più appropriato. A tal fine, introduciamo un nuovo strumento di aumento chiamato Flux. Rendendo flessibile la griglia di campionamento e sfruttando la selezione dei token, può essere facilmente integrato nella maggior parte dei framework di addestramento video più diffusi, migliorando la robustezza del modello con un costo aggiuntivo quasi nullo. Integriamo Flux nel pre-addestramento video su larga scala, e il risultante FluxViT stabilisce nuovi risultati state-of-the-art su un'ampia gamma di task a costi standard. In particolare, con solo 1/4 dei token, può ancora eguagliare le prestazioni dei precedenti modelli state-of-the-art con Ottimizzazione dei Token, ottenendo un risparmio di quasi il 90%. Tutti i modelli e i dati sono disponibili all'indirizzo https://github.com/OpenGVLab/FluxViT.
I modelli visione-linguaggio (VL) hanno dimostrato prestazioni solide in vari compiti. Tuttavia, questi modelli spesso si affidano a una specifica modalità per le previsioni, portando a un "bias della modalità dominante". Questo bias compromette significativamente le prestazioni, specialmente quando una modalità è compromessa. In questo studio, analizziamo il comportamento del modello in presenza di bias della modalità dominante e dimostriamo teoricamente che gradienti non allineati o differenze nelle magnitudini dei gradienti impediscono una convergenza bilanciata della funzione di perdita. Sulla base di questi risultati, proponiamo un nuovo framework, BalGrad, per mitigare il bias della modalità dominante. Il nostro approccio include il ri-ponderamento inter-modale dei gradienti, l'aggiustamento del gradiente della divergenza KL in base al contributo di ciascuna modalità, e la proiezione inter-task dei gradienti per allineare le direzioni dei compiti in modo non conflittuale. Esperimenti sui dataset UPMC Food-101, Hateful Memes e MM-IMDb confermano che BalGrad allevia efficacemente l'eccessivo affidamento su specifiche modalità durante la formulazione delle previsioni.
La personalizzazione dell'identità video mira a produrre video ad alta fedeltà che mantengano un'identità coerente e mostrino dinamiche significative basate sulle immagini di riferimento degli utenti. Tuttavia, gli approcci esistenti affrontano due sfide principali: il degrado dell'identità su una lunghezza video estesa e la riduzione delle dinamiche durante l'addestramento, principalmente a causa della loro dipendenza dal tradizionale addestramento di auto-ricostruzione con immagini statiche. Per affrontare questi problemi, introduciamo MagicID, un nuovo framework progettato per promuovere direttamente la generazione di video con identità coerente e dinamiche ricche, personalizzati in base alle preferenze dell'utente. Nello specifico, proponiamo la costruzione di dati video di preferenza a coppie con ricompense esplicite per l'identità e le dinamiche per l'apprendimento delle preferenze, invece di limitarsi alla tradizionale auto-ricostruzione. Per affrontare i vincoli dei dati personalizzati di preferenza, introduciamo una strategia di campionamento ibrida. Questo approccio dapprima privilegia la preservazione dell'identità sfruttando video statici derivati dalle immagini di riferimento, poi migliora la qualità del movimento dinamico nei video generati utilizzando un metodo di campionamento basato su Frontier. Utilizzando queste coppie di preferenza ibride, ottimizziamo il modello per allinearsi alle differenze di ricompensa tra le coppie di preferenze personalizzate. Esperimenti estensivi dimostrano che MagicID raggiunge con successo un'identità coerente e dinamiche naturali, superando i metodi esistenti su varie metriche.
Con la rapida crescita dei modelli generativi di video (VGMs), è essenziale sviluppare metriche automatiche affidabili e complete per i video generati dall'intelligenza artificiale (AIGVs). I metodi esistenti utilizzano modelli preesistenti ottimizzati per altre attività o si basano su dati di valutazione umana per addestrare valutatori specializzati. Questi approcci sono limitati a specifici aspetti di valutazione e sono difficili da scalare con le crescenti esigenze di valutazioni più granulari e complete. Per affrontare questo problema, questo lavoro indaga la fattibilità di utilizzare modelli linguistici multimodali di grandi dimensioni (MLLMs) come valutatori unificati per gli AIGV, sfruttando le loro forti capacità di percezione visiva e comprensione del linguaggio. Per valutare le prestazioni delle metriche automatiche nella valutazione unificata degli AIGV, introduciamo un benchmark chiamato UVE-Bench. UVE-Bench raccoglie video generati dai più avanzati VGMs e fornisce annotazioni di preferenze umane in coppia su 15 aspetti di valutazione. Utilizzando UVE-Bench, valutiamo estensivamente 16 MLLMs. I nostri risultati empirici suggeriscono che, sebbene i MLLMs avanzati (ad esempio, Qwen2VL-72B e InternVL2.5-78B) siano ancora inferiori ai valutatori umani, dimostrano una promettente capacità nella valutazione unificata degli AIGV, superando significativamente i metodi di valutazione specializzati esistenti. Inoltre, conduciamo un'analisi approfondita delle scelte progettuali chiave che influenzano le prestazioni dei valutatori basati su MLLM, offrendo spunti preziosi per future ricerche sulla valutazione degli AIGV. Il codice è disponibile all'indirizzo https://github.com/bytedance/UVE.
Proponiamo VideoRFSplat, un modello diretto da testo a 3D che sfrutta un modello di generazione video per produrre realistici Gaussian Splatting 3D (3DGS) per scene del mondo reale senza limiti. Per generare pose della fotocamera diverse e un'estensione spaziale illimitata delle scene del mondo reale, garantendo al contempo la generalizzazione a prompt di testo arbitrari, i metodi precedenti adattano modelli generativi 2D per modellare congiuntamente le pose della fotocamera e le immagini multi-vista. Tuttavia, questi metodi soffrono di instabilità quando si estendono i modelli generativi 2D alla modellazione congiunta a causa del divario modale, che richiede modelli aggiuntivi per stabilizzare l'addestramento e l'inferenza. In questo lavoro, proponiamo un'architettura e una strategia di campionamento per modellare congiuntamente immagini multi-vista e pose della fotocamera durante l'adattamento di un modello di generazione video. La nostra idea centrale è un'architettura a doppio flusso che collega un modello dedicato alla generazione delle pose a un modello di generazione video pre-addestrato tramite blocchi di comunicazione, generando immagini multi-vista e pose della fotocamera attraverso flussi separati. Questo design riduce l'interferenza tra le modalità di pose e immagini. Inoltre, proponiamo una strategia di campionamento asincrono che denoizza le pose della fotocamera più velocemente delle immagini multi-vista, consentendo alle pose rapidamente denoizzate di condizionare la generazione multi-vista, riducendo l'ambiguità reciproca e migliorando la coerenza cross-modale. Addestrato su più dataset su larga scala del mondo reale (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat supera i metodi esistenti di generazione diretta da testo a 3D che dipendono fortemente da raffinamenti post-hoc tramite score distillation sampling, ottenendo risultati superiori senza tale raffinamento.
Gli strumenti di completamento del codice basati sul deep learning (DL) hanno trasformato lo sviluppo software consentendo una generazione avanzata di codice. Questi strumenti sfruttano modelli addestrati su grandi quantità di codice provenienti da numerosi repository, catturando schemi di codifica generali. Tuttavia, l'impatto del fine-tuning di questi modelli per organizzazioni o sviluppatori specifici, al fine di migliorare le loro prestazioni su tali soggetti, rimane inesplorato. In questo lavoro, colmiamo questa lacuna presentando solide evidenze empiriche che rispondono a questa domanda. Più specificamente, consideriamo 136 sviluppatori di due organizzazioni (Apache e Spring), due architetture di modelli (T5 e Code Llama) e tre dimensioni di modelli (60M, 750M e 7B parametri addestrabili). I modelli T5 (60M, 750M) sono stati pre-addestrati e sottoposti a fine-tuning su oltre 2.000 progetti open-source, escludendo i dati delle organizzazioni in esame, e confrontati con versioni sottoposte a fine-tuning su dataset specifici per organizzazione e sviluppatore. Per il modello Code Llama (7B), abbiamo confrontato le prestazioni del modello già pre-addestrato disponibile pubblicamente online con lo stesso modello sottoposto a fine-tuning tramite fine-tuning efficiente in termini di parametri su dataset specifici per organizzazione e sviluppatore. I nostri risultati mostrano che esiste un miglioramento nelle capacità di previsione fornito sia da un fine-tuning aggiuntivo specifico per organizzazione che per sviluppatore, con il primo particolarmente performante. Tale scoperta si generalizza attraverso (i) le due organizzazioni in esame (ovvero Apache e Spring) e (ii) modelli di dimensioni completamente diverse (da 60M a 7B parametri addestrabili). Infine, dimostriamo che i modelli DL sottoposti a fine-tuning su un dataset specifico per organizzazione raggiungono le stesse prestazioni di completamento dei modelli di codice pre-addestrati utilizzati così come sono e che sono circa 10 volte più grandi, con conseguenti risparmi in termini di costi di distribuzione e inferenza (ad esempio, GPU più piccole necessarie).
La generazione di didascalie per immagini è da tempo un compito fondamentale nella comprensione visiva, con i recenti progressi nei modelli visione-linguaggio (VLMs) che hanno notevolmente migliorato la capacità di generare descrizioni dettagliate delle immagini. Tuttavia, la valutazione delle didascalie dettagliate rimane poco esplorata a causa di metriche di valutazione obsolete e annotazioni grossolane. In questo articolo, introduciamo DeCapBench insieme a una nuova metrica, DCScore, specificamente progettata per i compiti di descrizione dettagliata. DCScore valuta le allucinazioni e la completezza fine-granularità scomponendo le risposte nelle più piccole unità autosufficienti, denominate unità di informazione primitive, e valutandole individualmente. La nostra valutazione mostra che DCScore si allinea più strettamente al giudizio umano rispetto ad altre metriche basate su regole o modelli. Contemporaneamente, DeCapBench mostra un'elevata correlazione con i risultati dell'arena VLM sui compiti descrittivi, superando i benchmark esistenti per i modelli visione-linguaggio. Inoltre, presentiamo un metodo automatico di raccolta di feedback fine-granularità, FeedQuill, per l'ottimizzazione delle preferenze basato sulla nostra metrica avanzata, dimostrando robuste capacità di generalizzazione su dati di preferenza generati automaticamente. Esperimenti estesi su più VLMs dimostrano che il nostro metodo non solo riduce significativamente le allucinazioni, ma migliora anche le prestazioni su vari benchmark, raggiungendo una performance superiore nella generazione di didascalie dettagliate e superando GPT-4o.
Questo articolo presenta il Deceptive Humor Dataset (DHD), una nuova risorsa per lo studio dell'umorismo derivato da affermazioni fabbricate e disinformazione. In un'era caratterizzata dalla diffusione incontrollata di informazioni false, comprendere come l'umorismo si intrecci con l'inganno è essenziale. Il DHD è composto da commenti infusi di umorismo generati da narrazioni false, incorporando affermazioni fabbricate e informazioni manipolate utilizzando il modello ChatGPT-4o. Ogni istanza è etichettata con un Livello di Satira, che va da 1 per una satira sottile a 3 per una satira di alto livello, e classificata in cinque distinte Categorie di Umorismo: Umorismo Nero, Ironia, Commento Sociale, Giochi di Parole e Assurdità. Il dataset copre più lingue, tra cui inglese, telugu, hindi, kannada, tamil e le loro varianti code-mixed (Te-En, Hi-En, Ka-En, Ta-En), rendendolo un prezioso benchmark multilingue. Introducendo il DHD, stabiliamo una base strutturata per analizzare l'umorismo in contesti ingannevoli, aprendo la strada a una nuova direzione di ricerca che esplora come l'umorismo non solo interagisca con la disinformazione, ma ne influenzi anche la percezione e la diffusione. Definiamo solide baseline per il dataset proposto, fornendo una base per future ricerche che mirano a valutare e migliorare i modelli di rilevamento dell'umorismo ingannevole.
Il pre-addestramento auto-supervisionato basato sulla previsione del token successivo ha permesso ai grandi modelli linguistici di catturare la struttura sottostante del testo, portando a prestazioni senza precedenti su un'ampia gamma di compiti quando applicato su larga scala. Allo stesso modo, la guida autonoma genera enormi quantità di dati spazio-temporali, suggerendo la possibilità di sfruttare la scala per apprendere la struttura geometrica e semantica sottostante dell'ambiente e la sua evoluzione nel tempo. In questa direzione, proponiamo un metodo di pre-addestramento auto-supervisionato geometrico e semantico, GASP, che apprende una rappresentazione unificata prevedendo, in qualsiasi punto futuro nello spazio-tempo, (1) l'occupazione generale, catturando la struttura in evoluzione della scena 3D; (2) l'occupazione ego, modellando il percorso del veicolo ego attraverso l'ambiente; e (3) caratteristiche di alto livello distillate da un modello di fondazione visiva. Modellando campi di occupazione geometrica e semantica 4D invece di misurazioni grezze dei sensori, il modello apprende una rappresentazione strutturata e generalizzabile dell'ambiente e della sua evoluzione nel tempo. Validiamo GASP su molteplici benchmark di guida autonoma, dimostrando miglioramenti significativi nella previsione dell'occupazione semantica, nella mappatura online e nella previsione della traiettoria ego. I nostri risultati dimostrano che la previsione continua dell'occupazione geometrica e semantica 4D fornisce un paradigma di pre-addestramento scalabile ed efficace per la guida autonoma. Per il codice e ulteriori visualizzazioni, consultare \href{https://research.zenseact.com/publications/gasp/.}
Con l'ascesa dell'IA generativa, la sintesi di figure da didascalie testuali rappresenta un'applicazione particolarmente interessante. Tuttavia, ottenere un'elevata precisione geometrica e la possibilità di modifica richiede la rappresentazione delle figure come programmi grafici in linguaggi come TikZ, e i dati di addestramento allineati (ovvero programmi grafici con didascalie) rimangono scarsi. Nel frattempo, grandi quantità di programmi grafici non allineati e immagini raster con didascalie sono più facilmente disponibili. Riconciliamo queste fonti di dati disparate presentando TikZero, che disaccoppia la generazione di programmi grafici dalla comprensione del testo utilizzando rappresentazioni di immagini come ponte intermedio. Ciò consente un addestramento indipendente su programmi grafici e immagini con didascalie e permette la sintesi di programmi grafici guidati da testo in modalità zero-shot durante l'inferenza. Dimostriamo che il nostro metodo supera significativamente i baseline che possono operare solo con programmi grafici allineati alle didascalie. Inoltre, quando si sfruttano programmi grafici allineati alle didascalie come segnale di addestramento complementare, TikZero eguaglia o supera le prestazioni di modelli molto più grandi, inclusi sistemi commerciali come GPT-4o. Il nostro codice, i dataset e alcuni modelli selezionati sono pubblicamente disponibili.
L'aderenza ai trattamenti prescritti è cruciale per gli individui con condizioni croniche per evitare esiti sanitari costosi o avversi. Per determinati gruppi di pazienti, interventi intensivi sullo stile di vita sono essenziali per migliorare l'aderenza ai farmaci. Una previsione accurata dell'aderenza al trattamento può aprire la strada allo sviluppo di uno strumento di intervento su richiesta, consentendo un supporto tempestivo e personalizzato. Con la crescente popolarità di smartphone e dispositivi indossabili, è ora più facile che mai sviluppare e implementare sistemi intelligenti di monitoraggio delle attività. Tuttavia, sistemi di previsione efficaci per l'aderenza al trattamento basati su sensori indossabili non sono ancora ampiamente disponibili. Colmiamo questa lacuna proponendo Adherence Forecasting and Intervention with Machine Intelligence (AIMI). AIMI è un sistema di previsione dell'aderenza guidato dalla conoscenza che sfrutta i sensori degli smartphone e la storia precedente dei farmaci per stimare la probabilità di dimenticare di assumere un farmaco prescritto. È stato condotto uno studio con 27 partecipanti che assumevano farmaci quotidiani per gestire le loro malattie cardiovascolari. Abbiamo progettato e sviluppato modelli di previsione basati su CNN e LSTM con varie combinazioni di caratteristiche di input e abbiamo scoperto che i modelli LSTM possono prevedere l'aderenza ai farmaci con una precisione di 0,932 e un punteggio F-1 di 0,936. Inoltre, attraverso una serie di studi di ablazione che coinvolgono architetture di reti neurali convoluzionali e ricorrenti, dimostriamo che sfruttare la conoscenza nota sul futuro e l'addestramento personalizzato migliora l'accuratezza della previsione dell'aderenza ai farmaci. Codice disponibile: https://github.com/ab9mamun/AIMI.