Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Modelli Linguistici di Grande Dimensione (LLM) hanno ottenuto un successo straordinario nell'elaborazione del linguaggio naturale. I recenti progressi hanno portato allo sviluppo di una nuova classe di LLM dedicati al ragionamento; ad esempio, il modello open-source DeepSeek-R1 ha raggiunto prestazioni all'avanguardia integrando pensiero profondo e ragionamento complesso. Nonostante queste capacità impressionanti, i meccanismi interni di ragionamento di tali modelli rimangono inesplorati. In questo lavoro, utilizziamo Autoencoder Sparse (SAE), un metodo per apprendere una scomposizione sparsa delle rappresentazioni latenti di una rete neurale in caratteristiche interpretabili, per identificare le caratteristiche che guidano il ragionamento nella serie di modelli DeepSeek-R1. In primo luogo, proponiamo un approccio per estrarre "caratteristiche di ragionamento" candidate dalle rappresentazioni SAE. Validiamo queste caratteristiche attraverso analisi empiriche e metodi di interpretabilità, dimostrando la loro correlazione diretta con le capacità di ragionamento del modello. In modo cruciale, dimostriamo che la guida di queste caratteristiche migliora sistematicamente le prestazioni di ragionamento, offrendo il primo resoconto meccanicistico del ragionamento negli LLM. Il codice è disponibile all'indirizzo https://github.com/AIRI-Institute/SAE-Reasoning.
Con la capacità di scalare i dati di addestramento, le dimensioni del modello e i costi computazionali, la generazione di video ha ottenuto risultati impressionanti nella creazione digitale, consentendo agli utenti di esprimere la propria creatività in vari ambiti. Recentemente, i ricercatori nei modelli linguistici di grandi dimensioni (LLM) hanno esteso la scalabilità al tempo di test, il che può migliorare significativamente le prestazioni degli LLM utilizzando più risorse computazionali durante l'inferenza. Invece di aumentare la scala dei modelli di base per i video attraverso costosi costi di addestramento, esploriamo il potenziale della Scalabilità al Tempo di Test (TTS) nella generazione di video, con l'obiettivo di rispondere alla domanda: se a un modello di generazione video è consentito utilizzare una quantità non banale di risorse computazionali durante l'inferenza, quanto può migliorare la qualità della generazione dato un prompt testuale impegnativo. In questo lavoro, reinterpretiamo la scalabilità al tempo di test nella generazione di video come un problema di ricerca per campionare traiettorie migliori dallo spazio del rumore gaussiano alla distribuzione video target. Nello specifico, costruiamo lo spazio di ricerca con verificatori al tempo di test per fornire feedback e algoritmi euristici per guidare il processo di ricerca. Dato un prompt testuale, esploriamo prima una strategia di ricerca lineare intuitiva aumentando i candidati di rumore al momento dell'inferenza. Poiché la rimozione del rumore a tutti i fotogrammi contemporaneamente richiede costi computazionali elevati al tempo di test, progettiamo un metodo TTS più efficiente per la generazione di video chiamato Tree-of-Frames (ToF) che espande e pota i rami video in modo adattivo e autoregressivo. Esperimenti estesi su benchmark di generazione video condizionata da testo dimostrano che l'aumento delle risorse computazionali al tempo di test porta costantemente a miglioramenti significativi nella qualità dei video. Pagina del progetto: https://liuff19.github.io/Video-T1
Lo sviluppo moderno dei videogiochi affronta sfide significative in termini di creatività e costi a causa dei contenuti predeterminati nei motori di gioco tradizionali. Le recenti innovazioni nei modelli di generazione video, in grado di sintetizzare ambienti virtuali realistici e interattivi, presentano un'opportunità per rivoluzionare la creazione di giochi. In questo position paper, proponiamo il Video Generativo Interattivo (Interactive Generative Video, IGV) come fondamento per i Motori di Gioco Generativi (Generative Game Engines, GGE), abilitando la generazione illimitata di contenuti innovativi nella prossima generazione di giochi. I GGE sfruttano i punti di forza unici dell'IGV nella sintesi illimitata di contenuti di alta qualità, nella modellazione di mondi consapevoli della fisica, nell'interattività controllata dall'utente, nelle capacità di memoria a lungo termine e nel ragionamento causale. Presentiamo un framework completo che dettaglia i moduli principali dei GGE e una roadmap gerarchica di maturità (L0-L4) per guidarne l'evoluzione. Il nostro lavoro traccia una nuova direzione per lo sviluppo dei giochi nell'era dell'IA, immaginando un futuro in cui i sistemi generativi alimentati dall'IA ridefiniscono radicalmente il modo in cui i giochi vengono creati e vissuti.
DeepSeek-R1 ha dimostrato che il ragionamento a catena di pensiero (CoT) lungo può emergere naturalmente attraverso un semplice framework di apprendimento per rinforzo (RL) con ricompense basate su regole, dove l'addestramento può iniziare direttamente dai modelli di base—un paradigma denominato zero RL training. La maggior parte degli sforzi recenti per riprodurre lo zero RL training si è concentrata principalmente sulla serie di modelli Qwen2.5, che potrebbe non essere rappresentativa poiché abbiamo osservato che i modelli di base mostrano già forti capacità di seguire istruzioni e di auto-riflessione. In questo lavoro, investigiamo lo zero RL training su 10 modelli di base diversi, che coprono diverse famiglie e dimensioni, tra cui LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B e tutti i modelli Qwen2.5 da 0.5B a 32B. Sfruttando diverse strategie di progettazione chiave—come l'aggiustamento della ricompensa di formato e il controllo della difficoltà delle query—otteniamo miglioramenti sostanziali sia nell'accuratezza del ragionamento che nella lunghezza della risposta nella maggior parte delle configurazioni. Tuttavia, monitorando attentamente le dinamiche di addestramento, osserviamo che diversi modelli di base mostrano pattern distinti durante l'addestramento. Ad esempio, l'aumento della lunghezza della risposta non è sempre correlato con l'emergere di determinati comportamenti cognitivi come la verifica (cioè, il "momento aha"). In particolare, osserviamo il "momento aha" per la prima volta in modelli piccoli non appartenenti alla famiglia Qwen. Condividiamo i progetti chiave che consentono uno zero RL training di successo, insieme alle nostre scoperte e pratiche. Per facilitare ulteriori ricerche, rendiamo open-source il codice, i modelli e gli strumenti di analisi.
L'integrazione tra ricostruzione geometrica e modellazione generativa rimane una sfida cruciale nello sviluppo di sistemi di intelligenza artificiale capaci di ragionamento spaziale simile a quello umano. Questo articolo propone Aether, un framework unificato che abilita il ragionamento consapevole della geometria nei modelli del mondo ottimizzando congiuntamente tre capacità fondamentali: (1) ricostruzione dinamica 4D, (2) previsione video condizionata all'azione e (3) pianificazione visiva condizionata agli obiettivi. Attraverso l'apprendimento intervallato di caratteristiche, Aether raggiunge una condivisione sinergica della conoscenza tra gli obiettivi di ricostruzione, previsione e pianificazione. Basandosi su modelli di generazione video, il nostro framework dimostra una generalizzazione senza precedenti dal sintetico al reale nonostante non abbia mai osservato dati del mondo reale durante l'addestramento. Inoltre, il nostro approccio raggiunge una generalizzazione zero-shot sia nei compiti di esecuzione di azioni che di ricostruzione, grazie alla sua modellazione geometrica intrinseca. Notevolmente, anche senza dati del mondo reale, le sue prestazioni di ricostruzione superano di gran lunga quelle di modelli specifici per dominio. In aggiunta, Aether sfrutta uno spazio d'azione informato dalla geometria per tradurre in modo fluido le previsioni in azioni, abilitando una pianificazione efficace di traiettorie autonome. Speriamo che il nostro lavoro ispiri la comunità a esplorare nuove frontiere nella modellazione fisicamente plausibile del mondo e nelle sue applicazioni.
Omnimatte mira a scomporre un video dato in strati semanticamente significativi, includendo lo sfondo e i singoli oggetti insieme ai loro effetti associati, come ombre e riflessi. I metodi esistenti spesso richiedono un addestramento esteso o una costosa ottimizzazione auto-supervisionata. In questo articolo, presentiamo OmnimatteZero, un approccio senza addestramento che sfrutta modelli di diffusione video pre-addestrati per omnimatte. Questo metodo può rimuovere oggetti dai video, estrarre strati di singoli oggetti insieme ai loro effetti e comporre tali oggetti su nuovi video. Raggiungiamo questo obiettivo adattando tecniche di inpainting di immagini zero-shot per la rimozione di oggetti nei video, un compito che queste tecniche non gestiscono efficacemente di default. Mostriamo inoltre che le mappe di self-attention catturano informazioni sull'oggetto e sulle sue tracce, utilizzandole per inpaintare gli effetti dell'oggetto, lasciando uno sfondo pulito. Inoltre, attraverso semplici operazioni aritmetiche nello spazio latente, gli strati degli oggetti possono essere isolati e ricombinati senza soluzione di continuità con nuovi strati video per produrre nuovi video. Le valutazioni dimostrano che OmnimatteZero non solo raggiunge prestazioni superiori in termini di ricostruzione dello sfondo, ma stabilisce anche un nuovo record per l'approccio Omnimatte più veloce, ottenendo prestazioni in tempo reale con un tempo di elaborazione minimo per fotogramma.
Il progresso nella scoperta scientifica raramente è il risultato di un singolo momento "Eureka", ma piuttosto il prodotto di centinaia di scienziati che lavorano insieme in modo incrementale verso un obiettivo comune. Sebbene i flussi di lavoro esistenti degli agenti siano in grado di produrre ricerche in modo autonomo, lo fanno in isolamento, senza la capacità di migliorare continuamente i risultati delle ricerche precedenti. Per affrontare queste sfide, introduciamo AgentRxiv, un framework che consente ai laboratori di agenti LLM di caricare e recuperare report da un server di preprint condiviso, al fine di collaborare, condividere intuizioni e costruire in modo iterativo sulle ricerche altrui. Assegniamo ai laboratori di agenti il compito di sviluppare nuove tecniche di ragionamento e prompting e scopriamo che gli agenti con accesso alle loro ricerche precedenti ottengono miglioramenti delle prestazioni superiori rispetto agli agenti che operano in isolamento (un miglioramento relativo dell'11,4% rispetto alla baseline su MATH-500). Troviamo che la strategia con le migliori prestazioni si generalizza a benchmark in altri domini (migliorando in media del 3,3%). Molti laboratori di agenti che condividono ricerche attraverso AgentRxiv sono in grado di lavorare insieme verso un obiettivo comune, progredendo più rapidamente rispetto ai laboratori isolati, raggiungendo una precisione complessiva più elevata (un miglioramento relativo del 13,7% rispetto alla baseline su MATH-500). Questi risultati suggeriscono che gli agenti autonomi potrebbero svolgere un ruolo nella progettazione di futuri sistemi di IA insieme agli esseri umani. Speriamo che AgentRxiv consenta agli agenti di collaborare verso obiettivi di ricerca e permetta ai ricercatori di accelerare la scoperta.
Classifier-Free Guidance (CFG) è una tecnica ampiamente adottata nei modelli di diffusione/flusso per migliorare la fedeltà e la controllabilità delle immagini. In questo lavoro, studiamo inizialmente in modo analitico l'effetto di CFG sui modelli di flow matching addestrati su miscele gaussiane, dove il flusso reale può essere derivato. Osserviamo che nelle prime fasi dell'addestramento, quando la stima del flusso è imprecisa, CFG indirizza i campioni verso traiettorie errate. Sulla base di questa osservazione, proponiamo CFG-Zero*, una versione migliorata di CFG con due contributi: (a) scala ottimizzata, dove uno scalare viene ottimizzato per correggere le imprecisioni nella velocità stimata, da cui l'asterisco nel nome; e (b) zero-init, che prevede l'azzeramento dei primi passi del risolutore ODE. Esperimenti su generazione testo-immagine (Lumina-Next, Stable Diffusion 3 e Flux) e testo-video (Wan-2.1) dimostrano che CFG-Zero* supera costantemente CFG, evidenziandone l'efficacia nel guidare i modelli di Flow Matching. (Il codice è disponibile su github.com/WeichenFan/CFG-Zero-star)
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati in sistemi agentivi che interagiscono con un ambiente esterno. Tuttavia, gli agenti basati su LLM sono vulnerabili ad attacchi di iniezione di prompt quando gestiscono dati non attendibili. In questo articolo proponiamo CaMeL, una difesa robusta che crea uno strato protettivo attorno all'LLM, proteggendolo anche quando i modelli sottostanti potrebbero essere suscettibili ad attacchi. Per funzionare, CaMeL estrae esplicitamente i flussi di controllo e dati dalla query (attendibile); di conseguenza, i dati non attendibili recuperati dall'LLM non possono mai influenzare il flusso del programma. Per migliorare ulteriormente la sicurezza, CaMeL si basa sul concetto di capacità per prevenire l'esfiltrazione di dati privati attraverso flussi di dati non autorizzati. Dimostriamo l'efficacia di CaMeL risolvendo il 67% dei compiti con sicurezza dimostrabile in AgentDojo [NeurIPS 2024], un recente benchmark di sicurezza per sistemi agentivi.
Valutare i modelli generativi di base su compiti di comprensione (MMU) e generazione (MMG) multimodale aperta attraverso diverse modalità (ad esempio, immagini, audio, video) presenta sfide significative a causa della complessità delle interazioni cross-modali. A tal fine, è emersa l'idea di utilizzare i Modelli Linguistici Multimodali (MLLM) come giudici automatizzati, con risultati incoraggianti nella valutazione di compiti di comprensione visivo-linguistica. Proseguendo, questo articolo estende il concetto di MLLM-as-a-Judge attraverso le modalità in modo unificato introducendo due benchmark, TaskAnything e JudgeAnything, per valutare rispettivamente le prestazioni complessive e le capacità di giudizio degli MLLM su compiti any-to-any multimodali. Nello specifico, TaskAnything valuta le capacità di MMU e MMG attraverso 15 categorie any-to-any multimodali, impiegando 1.500 query selezionate da benchmark consolidati. Inoltre, JudgeAnything valuta le capacità di giudizio di 5 modelli avanzati (ad esempio, GPT-4o e Gemini-2.0-Flash) dalle prospettive di Confronto a Coppie e Valutazione del Punteggio, fornendo un banco di prova standardizzato che incorpora giudizi umani e rubriche dettagliate. I nostri esperimenti estesi rivelano che, sebbene questi MLLM mostrino promesse nella valutazione della MMU (ovvero, raggiungendo una media del 66,55% nel contesto di Confronto a Coppie e del 42,79% nel contesto di Valutazione del Punteggio), incontrano sfide significative con i compiti di MMG (ovvero, con una media di solo il 53,37% nel contesto di Confronto a Coppie e del 30,05% nel contesto di Valutazione del Punteggio), esponendo bias cross-modali e problemi di allucinazione. Per affrontare ciò, presentiamo OmniArena, una piattaforma automatizzata per valutare modelli omni e modelli di ricompensa multimodali. Il nostro lavoro evidenzia la necessità di protocolli di valutazione più equi e di un allineamento più forte con le preferenze umane. Il codice sorgente e il dataset sono disponibili pubblicamente all'indirizzo: https://urrealhero.github.io/judgeanythingweb/.
Presentiamo FFN Fusion, una tecnica di ottimizzazione architetturale che riduce il calcolo sequenziale nei grandi modelli linguistici identificando e sfruttando opportunità naturali di parallelizzazione. La nostra intuizione chiave è che sequenze di livelli Feed-Forward Network (FFN), in particolare quelli rimanenti dopo la rimozione di specifici livelli di attenzione, possono spesso essere parallelizzati con un impatto minimo sull'accuratezza. Sviluppiamo una metodologia rigorosa per identificare e fondere tali sequenze, trasformandole in operazioni parallele che riducono significativamente la latenza di inferenza preservando il comportamento del modello. Applicando queste tecniche a Llama-3.1-405B-Instruct, creiamo Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), un modello efficiente e presto disponibile pubblicamente che ottiene un'accelerazione di 1,71X nella latenza di inferenza e un costo per token 35X inferiore, mantenendo prestazioni solide su vari benchmark. Attraverso esperimenti estesi su modelli da 49B a 253B parametri, dimostriamo che FFN Fusion diventa sempre più efficace su scale più ampie e può complementare tecniche di ottimizzazione esistenti come la quantizzazione e il pruning. Ancora più interessante, scopriamo che persino interi blocchi transformer contenenti sia livelli di attenzione che FFN possono talvolta essere parallelizzati, suggerendo nuove direzioni per il design delle architetture neurali.
I Large Vision-Language Models (LVLMs) seguono tipicamente un paradigma di addestramento in due fasi: pre-training e fine-tuning supervisionato. Recentemente, l'ottimizzazione delle preferenze, derivata dal dominio del linguaggio, è emersa come una strategia di rinforzo post-addestramento efficace per potenziare le capacità dei LVLMs. Tuttavia, la costruzione di dati di preferenza annotati manualmente di alta qualità e lo sviluppo di modelli di ricompensa robusti per imitare queste preferenze sono sia costosi che impegnativi. Motivati da questa osservazione, proponiamo Vision-R1, un innovativo algoritmo di reinforcement learning di tipo R1 guidato dalla visione per i LVLMs che premia i modelli con feedback visivo definitivo. Esso sfrutta esclusivamente dati di istruzione curati, eliminando la necessità di modelli di ricompensa specializzati e dataset di preferenza creati manualmente. Incorporiamo una funzione di ricompensa basata su criteri che integra ulteriormente feedback multidimensionali per valutare in modo completo le completazioni del modello in base alla logica del task visivo. Inoltre, introduciamo una strategia di affinamento progressivo delle regole che adatta dinamicamente i criteri di ricompensa durante l'addestramento, consentendo un miglioramento continuo del modello e mitigando il fenomeno del reward hacking. Esperimenti estesi su benchmark sia in-distribuzione che out-of-distribuzione dimostrano che il fine-tuning dei LVLMs da 7B con Vision-R1 raggiunge guadagni di prestazioni consistenti, con miglioramenti fino al 50% e superando il modello state-of-the-art di dimensioni 10 volte maggiori.
I modelli generativi attuali, come gli approcci autoregressivi e di diffusione, scompongono l'apprendimento della distribuzione di dati ad alta dimensionalità in una serie di sottotask più semplici. Tuttavia, sorgono conflitti intrinseci durante l'ottimizzazione congiunta di questi sottotask, e le soluzioni esistenti non riescono a risolvere tali conflitti senza sacrificare l'efficienza o la scalabilità. Proponiamo un nuovo framework di modellazione di immagini equivariante che allinea intrinsecamente gli obiettivi di ottimizzazione tra i sottotask sfruttando l'invarianza traslazionale dei segnali visivi naturali. Il nostro metodo introduce (1) una tokenizzazione per colonne che migliora la simmetria traslazionale lungo l'asse orizzontale, e (2) un'attenzione causale a finestre che impone relazioni contestuali coerenti tra le posizioni. Valutato sulla generazione di immagini condizionata a classi su ImageNet a risoluzione 256x256, il nostro approccio raggiunge prestazioni comparabili ai migliori modelli AR utilizzando meno risorse computazionali. L'analisi sistematica dimostra che una maggiore equivarianza riduce i conflitti inter-task, migliorando significativamente la generalizzazione zero-shot e abilitando la sintesi di immagini ultra-lunghe. Questo lavoro stabilisce il primo framework per la scomposizione allineata ai task nella modellazione generativa, offrendo approfondimenti sulla condivisione efficiente dei parametri e sull'ottimizzazione priva di conflitti. Il codice e i modelli sono disponibili pubblicamente all'indirizzo https://github.com/drx-code/EquivariantModeling.
I grandi modelli linguistici (LLM) hanno dimostrato una notevole capacità di ragionamento nella risoluzione di problemi matematici. Tuttavia, gli approcci esistenti si concentrano principalmente sul miglioramento della qualità dei dati di addestramento corretti, ad esempio distillando soluzioni corrette di alta qualità da modelli avanzati, trascurando il valore contenuto nei dati di errore, potenzialmente ostacolando la capacità riflessiva del modello. Sebbene alcuni studi tentino di sfruttare i dati di errore, spesso coinvolgono meccanismi complessi, come la ricerca ad albero Monte Carlo (MCTS) per esplorare i nodi di errore. In questo lavoro, proponiamo di migliorare la capacità di ragionamento degli LLM attraverso l'apprendimento dagli errori per il progresso matematico (LEMMA). LEMMA costruisce dati composti da una soluzione errata con un passaggio erroneo e una connessione riflessiva a una soluzione corretta per il fine-tuning. Nello specifico, analizziamo sistematicamente i tipi di errore generati dal modello e introduciamo un metodo di amplificazione degli errori basato sul tipo di errore per raccogliere errori diversificati e rappresentativi. Le soluzioni corrette derivano dalla correzione degli errori o dalla generazione di un nuovo inizio. Attraverso una connessione riflessiva fluida e consapevole del modello, la soluzione errata viene trasferita a quella corretta. Effettuando il fine-tuning sul dataset costruito, il modello è in grado di autocorreggere gli errori in modo autonomo durante il processo di generazione senza fare affidamento su modelli di critica esterni. I risultati sperimentali dimostrano che LEMMA ottiene miglioramenti significativi delle prestazioni rispetto ad altre solide baseline.
Il ridimensionamento computazionale per il pre-addestramento dei modelli linguistici (LM) ha superato la crescita dei testi scritti da esseri umani, portando a preoccupazioni che i dati possano diventare il collo di bottiglia per il ridimensionamento dei LM. Per continuare a scalare il pre-addestramento in questo regime di vincoli sui dati, proponiamo che la modellazione e l'inferenza esplicita dei pensieri latenti che sottendono il processo di generazione del testo possano migliorare significativamente l'efficienza dei dati nel pre-addestramento. Intuitivamente, il nostro approccio considera il testo web come il risultato finale compresso di un processo di pensiero umano verboso e che i pensieri latenti contengono conoscenze contestuali e passaggi di ragionamento cruciali per un apprendimento efficiente dei dati. Dimostriamo empiricamente l'efficacia del nostro approccio attraverso il pre-addestramento continuato con vincoli di dati per la matematica. In primo luogo, mostriamo che gli approcci con dati sintetici per inferire i pensieri latenti migliorano significativamente l'efficienza dei dati, superando l'addestramento sulla stessa quantità di dati grezzi (5,7\% → 25,4\% su MATH). Inoltre, dimostriamo l'inferenza dei pensieri latenti senza un insegnante forte, dove un LM migliora autonomamente le proprie prestazioni utilizzando un algoritmo EM per migliorare iterativamente la capacità del LM addestrato e la qualità dei dati di pre-addestramento arricchiti dai pensieri. Mostriamo che un LM da 1B può migliorare le proprie prestazioni attraverso almeno tre iterazioni e superare significativamente i baseline addestrati su dati grezzi, con guadagni crescenti dall'ulteriore potenza di calcolo dedicata all'inferenza durante l'esecuzione del passo E. I guadagni derivanti dal ridimensionamento dell'inferenza e dalle iterazioni EM suggeriscono nuove opportunità per scalare il pre-addestramento con vincoli di dati.
La traduzione di Natural Language to SQL (NL2SQL) ha registrato progressi significativi grazie ai grandi modelli linguistici (LLM). Tuttavia, questi modelli spesso dipendono da sistemi chiusi e da elevate risorse computazionali, ponendo sfide in termini di privacy dei dati e di distribuzione. Al contrario, i piccoli modelli linguistici (SLM) faticano nei compiti NL2SQL, mostrando scarse prestazioni e incompatibilità con i framework esistenti. Per affrontare questi problemi, introduciamo Feather-SQL, un nuovo framework leggero progettato specificamente per gli SLM. Feather-SQL migliora l'eseguibilità e l'accuratezza delle query SQL attraverso 1) la potatura e il collegamento dello schema, 2) la generazione multi-percorso e multi-candidato. Inoltre, introduciamo il Paradigma di Collaborazione Modello 1+1, che abbina un modello di chat generico di alta qualità a uno specialista SQL fine-tuned, combinando un forte ragionamento analitico con una generazione SQL ad alta precisione. I risultati sperimentali su BIRD dimostrano che Feather-SQL migliora le prestazioni NL2SQL sugli SLM, con un incremento di circa il 10% per i modelli senza fine-tuning. Il paradigma proposto eleva il limite di accuratezza degli SLM al 54,76%, evidenziandone l'efficacia.
Il 3D Gaussian Splatting (3DGS) è emerso come una rappresentazione potente per il rendering in tempo reale ad alte prestazioni, abilitando una vasta gamma di applicazioni. Tuttavia, rappresentare scene 3D con numerosi primitivi Gaussiani espliciti comporta un significativo sovraccarico di memoria e archiviazione. Studi recenti hanno dimostrato che è possibile ottenere rendering di alta qualità con un numero sostanzialmente ridotto di Gaussiani quando questi sono rappresentati con attributi ad alta precisione. Nonostante ciò, i metodi di compressione 3DGS esistenti si basano ancora su un numero relativamente elevato di Gaussiani, concentrandosi principalmente sulla compressione degli attributi. Questo accade perché un insieme più piccolo di Gaussiani diventa sempre più sensibile alla compressione lossy degli attributi, portando a un grave degrado della qualità. Poiché il numero di Gaussiani è direttamente legato ai costi computazionali, è essenziale ridurre efficacemente il numero di Gaussiani piuttosto che ottimizzare solo l'archiviazione. In questo articolo, proponiamo la rappresentazione Optimized Minimal Gaussians (OMG), che riduce significativamente l'archiviazione utilizzando un numero minimo di primitivi. In primo luogo, determiniamo il Gaussiano distinto da quelli vicini, minimizzando la ridondanza senza sacrificare la qualità. In secondo luogo, proponiamo una rappresentazione compatta e precisa degli attributi che cattura in modo efficiente sia la continuità che l'irregolarità tra i primitivi. Inoltre, proponiamo una tecnica di quantizzazione sub-vettoriale per migliorare la rappresentazione dell'irregolarità, mantenendo un addestramento veloce con una dimensione trascurabile del codebook. Esperimenti estensivi dimostrano che OMG riduce i requisiti di archiviazione di quasi il 50% rispetto allo stato dell'arte precedente e consente un rendering a oltre 600 FPS mantenendo un'elevata qualità di rendering. Il nostro codice sorgente è disponibile all'indirizzo https://maincold2.github.io/omg/.
I modelli di diffusione hanno dimostrato capacità straordinarie nella generazione di contenuti visivi, ma rimangono difficili da implementare a causa del loro elevato costo computazionale durante l'inferenza. Questo onere computazionale deriva principalmente dalla complessità quadratica dell'auto-attenzione rispetto alla risoluzione delle immagini o dei video. Mentre i metodi di accelerazione esistenti spesso compromettono la qualità dell'output o richiedono un costoso riaddestramento, osserviamo che la maggior parte dei modelli di diffusione viene pre-addestrata a risoluzioni inferiori, presentando un'opportunità per sfruttare questi prior a bassa risoluzione per un'inferenza più efficiente senza degradare le prestazioni. In questo lavoro, introduciamo il Bottleneck Sampling, un framework senza necessità di addestramento che sfrutta i prior a bassa risoluzione per ridurre il sovraccarico computazionale preservando la fedeltà dell'output. Il Bottleneck Sampling segue un flusso di lavoro di denoising alto-basso-alto: esegue il denoising ad alta risoluzione nelle fasi iniziali e finali, mentre opera a risoluzioni inferiori nei passaggi intermedi. Per mitigare gli artefatti di aliasing e sfocatura, perfezioniamo ulteriormente i punti di transizione della risoluzione e adattiamo in modo dinamico i passaggi temporali di denoising in ogni fase. Valutiamo il Bottleneck Sampling sia su compiti di generazione di immagini che di video, dove esperimenti estensivi dimostrano che accelera l'inferenza fino a 3 volte per la generazione di immagini e 2,5 volte per la generazione di video, mantenendo una qualità dell'output paragonabile al processo standard di campionamento a piena risoluzione su molteplici metriche di valutazione. Il codice è disponibile all'indirizzo: https://github.com/tyfeld/Bottleneck-Sampling
I recenti progressi nei Modelli Linguistici per Video di Grande Scala (LVLM) hanno evidenziato il loro potenziale per la comprensione multimodale, ma la valutazione del loro ancoraggio fattuale nei contesti video rimane una sfida critica e irrisolta. Per colmare questa lacuna, introduciamo Video SimpleQA, il primo benchmark completo progettato specificamente per la valutazione della fattualità degli LVLM. Il nostro lavoro si distingue dai benchmark video esistenti attraverso le seguenti caratteristiche chiave: 1) Conoscenza richiesta: richiede l'integrazione di conoscenze esterne oltre la narrazione esplicita; 2) Domanda orientata ai fatti: si concentra su eventi o relazioni oggettivi e indiscutibili, evitando interpretazioni soggettive; 3) Risposta definitiva e breve: le risposte sono formulate in modo inequivocabile e corretto in un formato breve, consentendo una valutazione automatizzata attraverso framework LLM-as-a-judge con una varianza di punteggio minima; 4) Verifica da fonti esterne: tutte le annotazioni sono sottoposte a una rigorosa validazione rispetto a riferimenti esterni autorevoli per garantire l'affidabilità; 5) Ragionamento temporale richiesto: i tipi di domande annotati comprendono sia la comprensione statica di singoli fotogrammi sia il ragionamento temporale dinamico, valutando esplicitamente la fattualità degli LVLM in contesti con dipendenze a lungo termine. Abbiamo valutato estensivamente 41 LVLM all'avanguardia e riassunto i risultati chiave come segue: 1) Gli attuali LVLM mostrano carenze significative nell'aderenza ai fatti, in particolare per i modelli open-source. Il modello con le migliori prestazioni, Gemini-1.5-Pro, raggiunge appena un F-score del 54,4%; 2) I paradigmi di calcolo al momento del test mostrano guadagni di prestazioni insignificanti, rivelando limiti fondamentali nel migliorare la fattualità attraverso calcoli post-hoc; 3) La Generazione Aumentata con Recupero dimostra miglioramenti consistenti al costo di un sovraccarico aggiuntivo nel tempo di inferenza, presentando un compromesso critico tra efficienza e prestazioni.
Questo articolo presenta AlphaSpace, una metodologia innovativa progettata per potenziare le capacità di ragionamento spaziale dei grandi modelli linguistici (LLMs) nella navigazione dello spazio cartesiano 3D. AlphaSpace utilizza una strategia di tokenizzazione basata sulla semantica, codificando le informazioni sull'altezza attraverso token semantici specializzati, e integra principalmente dati sintetici di ragionamento simbolico. Questo approccio consente ai LLMs di manipolare con precisione gli oggetti posizionandoli in coordinate specifiche [x, y, z]. I risultati sperimentali dimostrano che AlphaSpace supera significativamente i modelli esistenti nei sottotask di manipolazione, raggiungendo un'accuratezza totale del 66,67%, rispetto al 37,5% di GPT-4o e al 29,17% di Claude 3.5 Sonnet.
La generazione testo-video (T2V) ha compiuto progressi significativi grazie ai modelli di diffusione. Tuttavia, i metodi esistenti continuano a incontrare difficoltà nel legare accuratamente gli attributi, determinare le relazioni spaziali e catturare interazioni complesse tra più soggetti. Per affrontare queste limitazioni, proponiamo MagicComp, un metodo senza addestramento che migliora la generazione composizionale T2V attraverso un affinamento in due fasi. Nello specifico, (1) Durante la Fase di Condizionamento: Introduciamo il Disambiguamento degli Ancoraggi Semantici, che rafforza la semantica specifica dei soggetti e risolve l'ambiguità inter-soggetto iniettando progressivamente i vettori direzionali degli ancoraggi semantici nell'embedding testuale originale; (2) Durante la Fase di Denoising: Proponiamo l'Attenzione Dinamica di Fusione del Layout, che integra priorità di grounding e percezione spaziale adattiva al modello per legare flessibilmente i soggetti alle loro regioni spazio-temporali attraverso una modulazione dell'attenzione mascherata. Inoltre, MagicComp è un approccio versatile e indipendente dal modello, che può essere integrato senza soluzione di continuità nelle architetture T2V esistenti. Esperimenti estesi su T2V-CompBench e VBench dimostrano che MagicComp supera i metodi all'avanguardia, evidenziando il suo potenziale per applicazioni come la generazione di video basata su prompt complessi e controllabile tramite traiettorie. Pagina del progetto: https://hong-yu-zhang.github.io/MagicComp-Page/.
In questo articolo, presentiamo Diffusion-4K, un nuovo framework per la sintesi diretta di immagini a risoluzione ultra-elevata utilizzando modelli di diffusione testo-immagine. I progressi principali includono: (1) Aesthetic-4K Benchmark: per colmare l'assenza di un dataset pubblico per la sintesi di immagini 4K, abbiamo costruito Aesthetic-4K, un benchmark completo per la generazione di immagini a risoluzione ultra-elevata. Abbiamo curato un dataset 4K di alta qualità con immagini e didascalie selezionate accuratamente e generate da GPT-4o. Inoltre, introduciamo le metriche GLCM Score e Compression Ratio per valutare i dettagli fini, combinate con misure olistiche come FID, Aesthetics e CLIPScore per una valutazione completa delle immagini a risoluzione ultra-elevata. (2) Fine-tuning basato su wavelet: proponiamo un approccio di fine-tuning basato su wavelet per l'addestramento diretto con immagini fotorealistiche 4K, applicabile a vari modelli di diffusione latente, dimostrandone l'efficacia nella sintesi di immagini 4K altamente dettagliate. Di conseguenza, Diffusion-4K raggiunge prestazioni impressionanti nella sintesi di immagini di alta qualità e nell'aderenza ai prompt testuali, specialmente quando alimentato da moderni modelli di diffusione su larga scala (ad esempio, SD3-2B e Flux-12B). I risultati sperimentali estensivi del nostro benchmark dimostrano la superiorità di Diffusion-4K nella sintesi di immagini a risoluzione ultra-elevata.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi in vari campi, in particolare nella programmazione, nel ragionamento matematico e nella risoluzione di problemi logici. Tuttavia, rimane una domanda cruciale: queste capacità di ragionamento matematico persistono quando gli LLM vengono presentati con problemi matematici adattati culturalmente? Nello specifico, come si comportano gli LLM di fronte a problemi matematici inseriti in contesti culturali che non hanno una rappresentazione significativa nei dati di addestramento su larga scala utilizzati per l'IA? Per esplorare questa questione, abbiamo generato sei dataset culturali sintetici a partire da GSM8K, un benchmark ampiamente utilizzato per valutare le capacità di ragionamento matematico degli LLM. Pur mantenendo la logica matematica e i valori numerici del set di test originale di GSM8K, abbiamo modificato elementi culturali come nomi di persona, alimenti, nomi di luoghi, ecc. Questi dataset adattati culturalmente forniscono un quadro più affidabile per valutare il ragionamento matematico degli LLM in contesti culturali variabili. I nostri risultati rivelano che gli LLM faticano a risolvere problemi matematici quando i riferimenti culturali cambiano, nonostante la struttura matematica sottostante rimanga invariata. I modelli più piccoli mostrano cali di prestazione maggiori rispetto ai modelli più grandi. È interessante notare che i nostri risultati suggeriscono anche che la familiarità culturale può migliorare il ragionamento matematico. Anche modelli senza un addestramento matematico esplicito ma con esposizione a contesti culturali rilevanti a volte superano modelli più grandi e matematicamente competenti in problemi matematici inseriti in contesti culturali. Questo studio evidenzia l'impatto del contesto culturale sulle capacità di ragionamento matematico degli LLM, sottolineando la necessità di dati di addestramento più diversificati e rappresentativi per migliorare la robustezza nelle applicazioni del mondo reale. I dataset di benchmark e lo script per riprodurre i risultati sono disponibili all'indirizzo https://github.com/akarim23131/Lost_in_Cultural_Translation.
La recente crescita esponenziale dei Large Language Model (LLM) si è basata su sistemi GPU. Tuttavia, le CPU stanno emergendo come un'alternativa flessibile e a basso costo, specialmente per carichi di lavoro di inferenza e ragionamento. RISC-V sta rapidamente guadagnando terreno in questo ambito, grazie alla sua ISA aperta e neutrale rispetto ai fornitori. Tuttavia, l'hardware RISC-V per i carichi di lavoro LLM e il corrispondente ecosistema software non sono ancora completamente maturi e ottimizzati, a causa della necessità di tuning specifico per il dominio. Questo articolo mira a colmare questa lacuna, concentrandosi sull'ottimizzazione dell'inferenza LLM sul Sophon SG2042, la prima CPU RISC-V many-core con capacità di elaborazione vettoriale disponibile commercialmente. Su due recenti LLM all'avanguardia ottimizzati per il ragionamento, DeepSeek R1 Distill Llama 8B e DeepSeek R1 Distill QWEN 14B, otteniamo 4,32/2,29 token/s per la generazione di token e 6,54/3,68 token/s per l'elaborazione dei prompt, con un accelerazione fino a 2,9x/3,0x rispetto alla nostra baseline.
Il question-answering non fattuale (NFQA) rappresenta una sfida significativa a causa della sua natura aperta, delle intenzioni diverse e della necessità di un ragionamento multi-aspetto, che rende inadeguati gli approcci convenzionali di QA fattuale, inclusa la generazione aumentata dal recupero (RAG). A differenza delle domande fattuali, le domande non fattuali (NFQ) non hanno risposte definitive e richiedono la sintesi di informazioni provenienti da più fonti attraverso varie dimensioni di ragionamento. Per affrontare queste limitazioni, introduciamo Typed-RAG, un framework di decomposizione multi-aspetto consapevole del tipo all'interno del paradigma RAG per il NFQA. Typed-RAG classifica le NFQ in tipi distinti -- come dibattito, esperienza e confronto -- e applica una decomposizione basata sugli aspetti per affinare le strategie di recupero e generazione. Scomponendo le NFQ multi-aspetto in sotto-query mono-aspetto e aggregando i risultati, Typed-RAG genera risposte più informative e contestualmente rilevanti. Per valutare Typed-RAG, introduciamo Wiki-NFQA, un dataset di benchmark che copre diversi tipi di NFQ. I risultati sperimentali dimostrano che Typed-RAG supera i baseline, evidenziando così l'importanza della decomposizione consapevole del tipo per un recupero e una generazione efficaci nel NFQA. Il nostro codice e il dataset sono disponibili all'indirizzo https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.
La generazione di video da testo (Text-to-Video, T2V) ha attirato notevole attenzione per la sua capacità di sintetizzare video realistici a partire da descrizioni testuali. Tuttavia, i modelli esistenti faticano a bilanciare efficienza computazionale e alta qualità visiva, specialmente su dispositivi con risorse limitate, come iGPU e telefoni cellulari. La maggior parte del lavoro precedente privilegia la fedeltà visiva, trascurando la necessità di modelli più piccoli ed efficienti adatti al dispiegamento nel mondo reale. Per affrontare questa sfida, proponiamo un framework T2V leggero, denominato Hummingbird, che pota i modelli esistenti e migliora la qualità visiva attraverso l'apprendimento con feedback visivo. Il nostro approccio riduce le dimensioni della U-Net da 1,4 miliardi a 0,7 miliardi di parametri, migliorando significativamente l'efficienza pur preservando la generazione di video di alta qualità. Inoltre, introduciamo una nuova pipeline di elaborazione dei dati che sfrutta i Large Language Models (LLM) e i modelli di valutazione della qualità video (Video Quality Assessment, VQA) per migliorare la qualità sia dei prompt testuali che dei dati video. Per supportare l'addestramento guidato dall'utente e la personalizzazione dello stile, rilasciamo pubblicamente il codice completo di addestramento, inclusa l'elaborazione dei dati e l'addestramento del modello. Esperimenti estensivi dimostrano che il nostro metodo raggiunge un'accelerazione di 31X rispetto ai modelli all'avanguardia come VideoCrafter2, ottenendo anche il punteggio complessivo più alto su VBench. Inoltre, il nostro metodo supporta la generazione di video con fino a 26 fotogrammi, affrontando le limitazioni dei metodi basati su U-Net nella generazione di video lunghi. È degno di nota che l'intero processo di addestramento richiede solo quattro GPU, pur offrendo prestazioni competitive rispetto ai metodi leader esistenti. Hummingbird rappresenta una soluzione pratica ed efficiente per la generazione T2V, combinando alte prestazioni, scalabilità e flessibilità per applicazioni nel mondo reale.
Il risultato del pre-addestramento di modelli linguistici di grandi dimensioni (LLM) dipende fortemente dalle strategie di inizializzazione dei pesi e di controllo della varianza. Sebbene l'importanza del controllo iniziale della varianza sia ben documentata nelle reti neurali in generale, la letteratura sull'inizializzazione e sulla gestione della sua crescita durante il pre-addestramento degli LLM, in particolare, è piuttosto scarsa. In questo articolo, introduciamo lo schema di inizializzazione dei pesi Layer Index Rescaling (LIR) e la strategia di controllo della varianza Target Variance Rescaling (TVR). Esperimenti condotti su un modello LLaMA da 1 miliardo di parametri dimostrano che una migliore gestione della varianza attraverso queste tecniche produce miglioramenti sostanziali nelle prestazioni su task downstream (fino al 4,6% su benchmark comuni di pre-addestramento) e riduce i valori di attivazione estremi, mitigando così le sfide associate alla quantizzazione e all'addestramento a bassa precisione. Il nostro codice è disponibile all'indirizzo: https://github.com/bluorion-com/weight_rescaling.
Presentiamo MetaSpatial, il primo framework basato sul reinforcement learning (RL) progettato per migliorare il ragionamento spaziale 3D nei modelli visione-linguaggio (VLMs), consentendo la generazione di scene 3D in tempo reale senza la necessità di ottimizzazioni predefinite. MetaSpatial affronta due sfide principali: (i) la mancanza di un ragionamento spaziale 3D internalizzato nei VLMs, che limita la loro capacità di generare layout realistici, e (ii) l'inefficienza del tradizionale fine-tuning supervisionato (SFT) per i task di generazione di layout, poiché non sono disponibili annotazioni di ground truth perfette. La nostra innovazione chiave è un meccanismo di ottimizzazione basato su RL multi-turn che integra vincoli fisicamente consapevoli e valutazioni di immagini renderizzate, garantendo che i layout 3D generati siano coerenti, fisicamente plausibili e esteticamente consistenti. Metodologicamente, MetaSpatial introduce un processo di ragionamento iterativo e adattivo, in cui il VLM affina le disposizioni spaziali attraverso più turni analizzando gli output renderizzati, migliorando progressivamente la coerenza della scena. Le valutazioni empiriche dimostrano che MetaSpatial migliora significativamente la coerenza spaziale e la stabilità di formattazione di vari modelli in scala. Dopo l'addestramento, il posizionamento degli oggetti risulta più realistico, allineato e funzionalmente coerente, validando l'efficacia dell'RL per il ragionamento spaziale 3D in applicazioni come metaverso, AR/VR, gemelli digitali e sviluppo di giochi. Il nostro codice, dati e pipeline di addestramento sono disponibili pubblicamente all'indirizzo https://github.com/PzySeere/MetaSpatial.
Sebbene le istruzioni in linguaggio naturale offrano un modo intuitivo per guidare la modifica automatica delle immagini, i modelli di deep learning spesso faticano a ottenere risultati di alta qualità, principalmente a causa delle difficoltà nella creazione di grandi dataset di addestramento di qualità elevata. I lavori precedenti si sono generalmente affidati a modelli generativi testo-immagine (T2I) per produrre coppie di immagini originali e modificate che simulano l'input/output di un modello di modifica delle immagini guidato da istruzioni. Tuttavia, queste coppie di immagini spesso non si allineano con le istruzioni di modifica specificate a causa delle limitazioni dei modelli T2I, il che influisce negativamente sui modelli addestrati su tali dataset. Per affrontare questo problema, presentiamo Instruct-CLIP, un metodo auto-supervisionato che apprende i cambiamenti semantici tra immagini originali e modificate per affinare e allineare meglio le istruzioni nei dataset esistenti. Inoltre, adattiamo Instruct-CLIP per gestire immagini latenti rumorose e passaggi temporali di diffusione, in modo che possa essere utilizzato per addestrare modelli di diffusione latente (LDMs) [19] e applicare in modo efficiente l'allineamento tra l'istruzione di modifica e i cambiamenti dell'immagine nello spazio latente in qualsiasi fase della pipeline di diffusione. Utilizziamo Instruct-CLIP per correggere il dataset InstructPix2Pix e ottenere oltre 120K campioni raffinati che poi usiamo per affinare il loro modello, guidati dalla nostra nuova funzione di perdita basata su Instruct-CLIP. Il modello risultante è in grado di produrre modifiche più allineate con le istruzioni fornite. Il nostro codice e il dataset sono disponibili all'indirizzo https://github.com/SherryXTChen/Instruct-CLIP.git.
I modelli linguistici hanno recentemente fatto progressi nel campo del ragionamento, ma è attraverso il ragionamento multimodale che possiamo sbloccare appieno il potenziale per raggiungere capacità cognitive più complete e simili a quelle umane. Questa rassegna fornisce una panoramica sistematica dei recenti approcci al ragionamento multimodale, classificandoli in due livelli: ragionamento multimodale centrato sul linguaggio e ragionamento multimodale collaborativo. Il primo comprende la percezione visiva in un passaggio e la percezione visiva attiva, in cui la visione svolge principalmente un ruolo di supporto nel ragionamento linguistico. Il secondo coinvolge la generazione di azioni e l'aggiornamento dello stato all'interno del processo di ragionamento, consentendo un'interazione più dinamica tra le modalità. Inoltre, analizziamo l'evoluzione tecnica di questi metodi, discutiamo le loro sfide intrinseche e introduciamo i principali compiti di benchmark e le metriche di valutazione per valutare le prestazioni del ragionamento multimodale. Infine, forniamo spunti per future direzioni di ricerca dalle seguenti due prospettive: (i) dal ragionamento visivo-linguistico al ragionamento omnimodale e (ii) dal ragionamento multimodale agli agenti multimodali. Questa rassegna mira a fornire una panoramica strutturata che ispiri ulteriori progressi nella ricerca sul ragionamento multimodale.
I tokenizzatori visivi discreti trasformano le immagini in una sequenza di token, abilitando la generazione visiva basata su token in modo simile ai modelli linguistici. Tuttavia, questo processo è intrinsecamente complesso, poiché richiede sia la compressione dei segnali visivi in una rappresentazione compatta sia la loro discretizzazione in un insieme fisso di codici. I tradizionali tokenizzatori discreti tipicamente apprendono queste due attività in modo congiunto, spesso portando a un addestramento instabile, una bassa utilizzazione del codebook e una qualità di ricostruzione limitata. In questo articolo, introduciamo CODA (COntinuous-to-Discrete Adaptation), un framework che disaccoppia la compressione dalla discretizzazione. Invece di addestrare tokenizzatori discreti da zero, CODA adatta VAEs continui preesistenti — già ottimizzati per la compressione percettiva — in tokenizzatori discreti attraverso un processo di discretizzazione accuratamente progettato. Concentrandosi principalmente sulla discretizzazione, CODA garantisce un addestramento stabile ed efficiente, mantenendo al contempo l'elevata fedeltà visiva dei VAEs continui. Empiricamente, con un budget di addestramento 6 volte inferiore rispetto al VQGAN standard, il nostro approccio raggiunge un'utilizzazione del codebook del 100% e un notevole FID di ricostruzione (rFID) di 0.43 e 1.34 per compressioni di 8 e 16 volte sul benchmark ImageNet 256×256.
Recentemente, sono stati compiuti notevoli progressi nella tecnologia di generazione video, attirando l'attenzione diffusa degli studiosi. Per applicare questa tecnologia a compiti downstream in condizioni di risorse limitate, i ricercatori solitamente adattano i modelli pre-addestrati utilizzando metodi di tuning efficienti in termini di parametri, come Adapter o Lora. Sebbene questi metodi possano trasferire la conoscenza dal dominio sorgente al dominio target, un numero ridotto di parametri di addestramento porta a una scarsa capacità di adattamento, e la conoscenza dal dominio sorgente potrebbe far deviare il processo di inferenza dal dominio target. In questo articolo, sosteniamo che, in condizioni di risorse limitate, addestrare un modello di generazione video più piccolo da zero utilizzando solo campioni di livello milione può superare il tuning efficiente in termini di parametri su modelli più grandi nelle applicazioni downstream: il punto cruciale risiede nell'utilizzo efficace dei dati e nella strategia di curriculum. Prendendo come caso di studio la generazione di adesivi animati (ASG), costruiamo prima una rete di generazione di frame discreti per adesivi con bassi frame rate, assicurandoci che i suoi parametri soddisfino i requisiti dell'addestramento del modello in condizioni di risorse limitate. Per fornire supporto dati ai modelli addestrati da zero, proponiamo una strategia di utilizzo dei dati basata su doppia maschera, che migliora la disponibilità e amplia la diversità dei dati limitati. Per facilitare la convergenza in situazioni di doppia maschera, proponiamo un metodo di apprendimento curriculum adattivo alla difficoltà, che scompone l'entropia del campione in componenti statiche e adattive per ottenere campioni dal facile al difficile. L'esperimento dimostra che il nostro framework di addestramento efficiente in termini di risorse con doppia maschera è quantitativamente e qualitativamente superiore ai metodi di tuning efficienti in termini di parametri come I2V-Adapter e SimDA, verificando la fattibilità del nostro metodo nei compiti downstream in condizioni di risorse limitate. Il codice sarà disponibile.
L'emergenza di modelli linguistici di grandi dimensioni e delle loro applicazioni come agenti di intelligenza artificiale ha significativamente avanzato i benchmark di generazione del codice all'avanguardia, trasformando i compiti dell'ingegneria del software moderna. Tuttavia, anche con modelli di ragionamento calcolati in fase di test, questi sistemi continuano a lottare con le sfide complesse dell'ingegneria del software. Questo lavoro introduce CURA, un sistema agente di comprensione e ragionamento del codice potenziato con supervisione verbale del processo (VPS), ottenendo un miglioramento del 3,65% rispetto ai modelli di base su benchmark impegnativi come BigCodeBench. Inoltre, CURA, quando abbinato al modello o3-mini e alle tecniche VPS, raggiunge prestazioni all'avanguardia. Questo lavoro rappresenta un passo avanti nell'integrazione di architetture guidate dal ragionamento con la generazione di codice basata su LLM, consentendo il ragionamento agentico per i modelli linguistici per risolvere compiti complessi di ingegneria del software.
Introduciamo il compito di unlearning del movimento umano per prevenire la sintesi di animazioni tossiche preservando al contempo le prestazioni generative generali del modello text-to-motion. L'unlearning di movimenti tossici è una sfida poiché questi possono essere generati sia da prompt testuali espliciti che da combinazioni implicite di movimenti sicuri (ad esempio, "calciare" è "caricare e oscillare una gamba"). Proponiamo il primo benchmark per l'unlearning del movimento filtrando i movimenti tossici dai recenti e ampi dataset text-to-motion di HumanML3D e Motion-X. Proponiamo baseline adattando tecniche di unlearning per immagini allo stato dell'arte per elaborare segnali spazio-temporali. Infine, proponiamo un nuovo modello di unlearning del movimento basato su Latent Code Replacement, che chiamiamo LCR. LCR è privo di addestramento e adatto agli spazi latenti discreti dei modelli di diffusione text-to-motion all'avanguardia. LCR è semplice e supera costantemente le baseline sia qualitativamente che quantitativamente. Pagina del progetto: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
La correzione del bilanciamento del bianco (WB) in scene con più sorgenti luminose rimane una sfida persistente nel campo della visione artificiale. Metodi recenti hanno esplorato approcci basati sulla fusione, in cui una rete neurale combina linearmente più versioni sRGB di un'immagine di input, ciascuna elaborata con preset di WB predefiniti. Tuttavia, dimostriamo che questi metodi non sono ottimali per scenari comuni con più illuminanti. Inoltre, i metodi esistenti basati sulla fusione si affidano a dataset sRGB di WB che mancano di immagini dedicate a più illuminanti, limitando sia l'addestramento che la valutazione. Per affrontare queste sfide, introduciamo due contributi chiave. In primo luogo, proponiamo un modello efficiente basato su transformer che cattura efficacemente le dipendenze spaziali tra i preset sRGB di WB, migliorando sostanzialmente le tecniche di fusione lineare. In secondo luogo, introduciamo un dataset su larga scala di immagini con più illuminanti, comprendente oltre 16.000 immagini sRGB renderizzate con cinque diverse impostazioni di WB, insieme a immagini corrette per il WB. Il nostro metodo raggiunge un miglioramento fino al 100% rispetto alle tecniche esistenti sul nostro nuovo dataset di fusione di immagini con più illuminanti.
Mentre le recenti tecniche avanzate di super-risoluzione (SR) delle immagini continuano a migliorare la qualità percettiva dei loro output, spesso falliscono nelle valutazioni quantitative. Questa incoerenza porta a una crescente diffidenza verso le metriche esistenti per la valutazione della SR. Sebbene la valutazione delle immagini dipenda sia dalla metrica che dalla verità di riferimento (GT), i ricercatori tipicamente non esaminano il ruolo delle GT, poiché sono generalmente accettate come riferimenti "perfetti". Tuttavia, a causa dei dati raccolti negli anni passati e della mancata considerazione nel controllare altri tipi di distorsioni, sottolineiamo che le GT nei dataset esistenti di SR possono presentare una qualità relativamente scarsa, portando a valutazioni distorte. Seguendo questa osservazione, in questo articolo ci interessiamo alle seguenti domande: le immagini GT nei dataset esistenti di SR sono affidabili al 100% per la valutazione dei modelli? In che modo la qualità delle GT influisce su questa valutazione? E come effettuare valutazioni eque se esistono GT imperfette? Per rispondere a queste domande, questo articolo presenta due contributi principali. In primo luogo, analizzando sistematicamente sette modelli SR all'avanguardia su tre dataset SR del mondo reale, dimostriamo che le prestazioni SR possono essere influenzate in modo coerente dalle GT di bassa qualità, e che i modelli possono comportarsi in modo molto diverso quando la qualità delle GT è controllata. In secondo luogo, proponiamo una nuova metrica di qualità percettiva, l'Indice di Qualità Relativa (RQI), che misura la discrepanza di qualità relativa tra coppie di immagini, correggendo così le valutazioni distorte causate da GT inaffidabili. Il nostro modello proposto raggiunge una consistenza significativamente migliore con le opinioni umane. Ci aspettiamo che il nostro lavoro fornisca spunti alla comunità SR su come i futuri dataset, modelli e metriche dovrebbero essere sviluppati.
I grandi modelli visione-linguaggio (VLMs), come GPT-4, hanno ottenuto un successo notevole in vari campi. Tuttavia, ci sono pochi studi sulla generazione di scene 3D indoor con VLMs. Questo articolo considera questo compito come un problema di pianificazione soggetto a vincoli di buon senso spaziale e di layout. Per risolvere il problema con un VLM, proponiamo un nuovo algoritmo di ricerca ad albero globale-locale. Globalmente, il metodo posiziona ciascun oggetto in sequenza ed esplora più posizionamenti durante ogni processo di collocazione, dove lo spazio del problema è rappresentato come un albero. Per ridurre la profondità dell'albero, scomponiamo la struttura della scena in modo gerarchico, ovvero a livello di stanza, livello di regione, livello di oggetti del pavimento e livello di oggetti supportati. L'algoritmo genera indipendentemente gli oggetti del pavimento in diverse regioni e gli oggetti supportati posizionati su diversi oggetti del pavimento. Localmente, scomponiamo anche il sotto-compito, il posizionamento di ciascun oggetto, in più passaggi. L'algoritmo esplora l'albero dello spazio del problema. Per sfruttare il modello VLM per produrre le posizioni degli oggetti, discretizziamo lo spazio della vista dall'alto come una griglia densa e riempiamo ogni cella con emoji diverse per rendere le celle distinte. Sollecitiamo il VLM con la griglia di emoji e il VLM produce una posizione ragionevole per l'oggetto descrivendo la posizione con il nome delle emoji. I risultati sperimentali quantitativi e qualitativi dimostrano che il nostro approccio genera scene 3D più plausibili rispetto agli approcci all'avanguardia. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/dw-dengwei/TreeSearchGen.
La stima della profondità monoculare (Monocular Depth Estimation, MDE) è emersa come un compito fondamentale nella visione artificiale, supportando numerose applicazioni nel mondo reale. Tuttavia, implementare modelli accurati di stima della profondità su dispositivi edge con risorse limitate, in particolare circuiti integrati specifici per applicazioni (Application-Specific Integrated Circuits, ASIC), è impegnativo a causa degli elevati requisiti computazionali e di memoria. I recenti progressi nella stima della profondità di base forniscono risultati impressionanti, ma aumentano ulteriormente la difficoltà di implementazione sugli ASIC. Per affrontare questo problema, proponiamo QuartDepth, che adotta la quantizzazione post-addestramento per quantizzare i modelli MDE con accelerazioni hardware per ASIC. Il nostro approccio prevede la quantizzazione sia dei pesi che delle attivazioni a una precisione di 4 bit, riducendo le dimensioni del modello e il costo computazionale. Per mitigare il degrado delle prestazioni, introduciamo un algoritmo di rifinitura e compensazione delle attivazioni applicato prima e dopo la quantizzazione delle attivazioni, nonché un metodo di ricostruzione dei pesi per minimizzare gli errori nella quantizzazione dei pesi. Inoltre, progettiamo un acceleratore hardware flessibile e programmabile supportando la fusione dei kernel e la programmabilità di istruzioni personalizzate, migliorando il throughput e l'efficienza. I risultati sperimentali dimostrano che il nostro framework raggiunge un'accuratezza competitiva, consentendo inferenze veloci e una maggiore efficienza energetica sugli ASIC, colmando il divario tra la stima della profondità ad alte prestazioni e l'applicabilità pratica sui dispositivi edge. Codice: https://github.com/shawnricecake/quart-depth
Il progresso della tecnologia di telerilevamento ha migliorato la risoluzione spaziale delle immagini satellitari, facilitando rappresentazioni visive più dettagliate per interpretazioni diversificate. Tuttavia, i metodi esistenti mostrano capacità di generalizzazione limitate tra applicazioni varie. Sebbene alcuni modelli di base contemporanei dimostrino potenziale, sono ostacolati da un'adattabilità insufficiente tra compiti diversi e principalmente elaborano immagini a bassa risoluzione di dimensioni limitate, non riuscendo così a sfruttare appieno i dati ad alta risoluzione o a sfruttare la semantica completa di scene ampie. In modo cruciale, le immagini di telerilevamento differiscono fondamentalmente dalle immagini naturali, poiché i principali obiettivi in primo piano (ad esempio, oggetti marittimi, strutture artificiali) spesso occupano proporzioni spaziali minime (~1%) e presentano distribuzioni sparse. Modellare in modo efficiente conoscenze generalizzabili tra compiti da token 2D lunghi (~100.000) rappresenta una sfida significativa, ma rimane fondamentale per la comprensione delle immagini di telerilevamento. Ispirati dai meccanismi di attenzione selettiva intrinseci al sistema visivo umano, proponiamo DynamicVis, un modello di base di percezione visiva dinamica per immagini di telerilevamento. Il framework integra una nuova architettura di percezione regionale dinamica basata sul modello di stato selettivo, che bilancia strategicamente l'estrazione di dettagli localizzati con l'integrazione contestuale globale, consentendo una codifica computazionalmente efficiente di dati su larga scala mantenendo la scalabilità architetturale. Per migliorare il trasferimento di conoscenze tra compiti, introduciamo un paradigma di apprendimento multi-istanza che utilizza rappresentazioni di meta-embedding, addestrato su annotazioni a livello di regione su scala milioni. Le valutazioni su nove compiti downstream dimostrano la versatilità del modello. DynamicVis raggiunge una modellizzazione delle caratteristiche multi-livello con un'efficienza eccezionale, elaborando pixel (2048x2048) con una latenza di 97 ms (6% rispetto a ViT) e una memoria GPU di 833 MB (3% rispetto a ViT).