Articoli di ricerca IA selezionati quotidianamente con traduzioni
I metodi esistenti per la generazione di video basati su modelli di diffusione sono fondamentalmente limitati dal calcolo sequenziale e dall'incoerenza su lunghi orizzonti, il che ne ostacola l'adozione pratica nella sintesi di avatar guidata da audio in tempo reale e in streaming. Presentiamo Live Avatar, un framework co-progettato a livello di algoritmo e sistema che abilita una generazione di avatar efficiente, ad alta fedeltà e di lunghezza infinita utilizzando un modello di diffusione da 14 miliardi di parametri. Il nostro approccio introduce il Timestep-forcing Pipeline Parallelism (TPP), un paradigma di inferenza distribuita che organizza in pipeline i passi di denoising su più GPU, superando efficacemente il collo di bottiglia autoregressivo e garantendo uno streaming in tempo reale stabile e a bassa latenza. Per migliorare ulteriormente la coerenza temporale e mitigare la deriva dell'identità e gli artefatti cromatici, proponiamo il Rolling Sink Frame Mechanism (RSFM), che mantiene la fedeltà della sequenza ricalibrando dinamicamente l'aspetto utilizzando un'immagine di riferimento memorizzata nella cache. Inoltre, sfruttiamo il Self-Forcing Distribution Matching Distillation per facilitare l'adattamento causale e streamable di modelli su larga scala senza sacrificare la qualità visiva. Live Avatar dimostra prestazioni all'avanguardia, raggiungendo una generazione end-to-end a 20 FPS su 5 GPU H800 e, per quanto a nostra conoscenza, è il primo a raggiungere una generazione di avatar pratica, in tempo reale e ad alta fedeltà su questa scala. Il nostro lavoro stabilisce un nuovo paradigma per la distribuzione di modelli di diffusione avanzati in applicazioni industriali di sintesi video di lunga durata.
I flussi di lavoro reali di data intelligence aziendale comprendono l'ingegneria dei dati che trasforma le fonti grezze in tabelle pronte per l'analisi e l'analisi dei dati che converte tali tabelle in insight orientati alle decisioni. Presentiamo DAComp, un benchmark di 210 task che rispecchia questi flussi di lavoro complessi. I task di ingegneria dei dati (DE) richiedono un'ingegneria a livello di repository su schemi industriali, inclusi la progettazione e la costruzione di pipeline SQL multi-stadio da zero e l'evoluzione di sistemi esistenti sotto requisiti in evoluzione. I task di analisi dei dati (DA) pongono problemi aziendali aperti che richiedono pianificazione strategica, analisi esplorativa attraverso codifica iterativa, interpretazione di risultati intermedi e la sintesi di raccomandazioni attuabili. I task di ingegneria sono valutati attraverso una valutazione basata sull'esecuzione e multi-metrica. I task aperti sono valutati da un giudice LLM affidabile e sperimentalmente validato, guidato da rubriche gerarchiche e meticolosamente elaborate. I nostri esperimenti rivelano che anche gli agenti più all'avanguardia vacillano su DAComp. Le prestazioni sui task DE sono particolarmente basse, con tassi di successo inferiori al 20%, esponendo un collo di bottiglia critico nell'orchestrazione olistica delle pipeline, non solo nella generazione di codice. I punteggi sui task DA si attestano in media anche al di sotto del 40%, evidenziando profonde carenze nel ragionamento aperto e dimostrando che ingegneria e analisi sono capacità distinte. Diagnosticando chiaramente queste limitazioni, DAComp fornisce un banco di prova rigoroso e realistico per guidare lo sviluppo di agenti di dati autonomi veramente capaci per contesti aziendali. I nostri dati e codice sono disponibili su https://da-comp.github.io.
L'evoluzione dei Large Language Model (LLM) da risponditori passivi ad agenti autonomi richiede un cambiamento fondamentale nei paradigmi di apprendimento, dall'imitazione statica al processo decisionale guidato da incentivi. Tuttavia, questa transizione è fortemente ostacolata dalla mancanza di un'infrastruttura scalabile in grado di costruire segnali di interazione di alta qualità per un apprendimento efficace delle policy. Per affrontare questa sfida, introduciamo un metodo completo progettato per scalare sistematicamente la diversità e la complessità degli ambienti interattivi. Il nostro metodo realizza questa scalabilità affrontando tre dimensioni ortogonali: (1) **Complessità**: NexAU, un framework agente flessibile che supporta la costruzione di gerarchie di agenti complesse tramite semplici configurazioni; (2) **Diversità**: NexA4A genera automaticamente gerarchie di agenti diverse a partire dal linguaggio naturale per coprire domini infiniti; e (3) **Fedeltà**: NexGAP colma il divario simulazione-realtà integrando un ambiente dinamico del mondo reale per la sintesi di traiettorie grounded. Addestriamo Nex-N1 sugli ambienti interattivi diversificati e complessi stabiliti dalla nostra infrastruttura. I risultati empirici su benchmark come SWE-bench e tau2 dimostrano che Nex-N1 supera costantemente i modelli open-source all'avanguardia (SOTA) e raggiunge prestazioni competitive rispetto ai modelli proprietari di frontiera in compiti agentici complessi. Rendiamo open-source l'ecosistema Nex e i pesi del modello per facilitare ulteriori ricerche.
I modelli linguistici di grandi dimensioni sono sempre più integrati nei flussi di lavoro della scrittura accademica, eppure gli assistenti esistenti rimangono esterni all'editor, impedendo un'interazione profonda con lo stato del documento, la sua struttura e la cronologia delle revisioni. Questa separazione rende impossibile supportare operazioni agentive e consapevoli del contesto direttamente all'interno di editor LaTeX come Overleaf. Presentiamo PaperDebugger, un assistente per la scrittura accademica integrato nell'editor, multi-agente e basato su plugin, che porta il ragionamento guidato da LLM direttamente nell'ambiente di scrittura. Abilitare un'interazione così integrata è tecnicamente non banale: richiede una sincronizzazione bidirezionale affidabile con l'editor, un controllo delle versioni granulare e l'applicazione di patch, una gestione sicura dello stato, una schedulazione multi-agente e una comunicazione estensibile con strumenti esterni. PaperDebugger affronta queste sfide attraverso un'estensione approvata da Chrome, un livello di orchestrazione nativo per Kubernetes e una toolchain Model Context Protocol (MCP) che integra ricerca bibliografica, consultazione dei riferimenti, valutazione del documento e pipeline di revisione. La nostra demo mostra un flusso di lavoro completamente integrato, che include modifiche localizzate, revisioni strutturate, esecuzione parallela di agenti e aggiornamenti basati sulle differenze, il tutto racchiuso in un'interfaccia utente a bassa intrusività. Le prime analisi aggregate dimostrano un coinvolgimento attivo degli utenti e convalidano la praticità di un assistente di scrittura agentivo e nativo per l'editor. Maggiori dettagli su questa demo e il video sono disponibili all'indirizzo https://github.com/PaperDebugger/PaperDebugger.
I modelli di reward sono fondamentali per allineare i sistemi visione-linguaggio alle preferenze umane, tuttavia gli approcci attuali soffrono di allucinazioni, debole grounding visivo e incapacità di utilizzare strumenti per la verifica, limitando la loro affidabilità in compiti complessi di ragionamento multimodale. Presentiamo ARM-Thinker, un modello di reward multimodale Agente che invoca autonomamente strumenti esterni (ad esempio, ritaglio di immagini, recupero di pagine documentali) per fondare i giudizi su evidenze verificabili, sostituendo la valutazione di reward statica e non interattiva. Ciò consente al modello di verificare dettagli visivi granulari, incrociare evidenze multipagina e convalidare asserzioni di ragionamento, capacità assenti nei modelli di reward esistenti. Addestriamo ARM-Thinker con apprendimento per rinforzo multi-stadio, ottimizzando congiuntamente le decisioni di chiamata degli strumenti e l'accuratezza del giudizio. Per valutare la modellazione di reward agente, introduciamo ARMBench-VL, comprendente tre benchmark che valutano il grounding visivo granulare (strumenti a livello di immagine), la comprensione di documenti multipagina (strumenti di retrieval) e il rispetto delle istruzioni (verifica a livello testuale). ARM-Thinker ottiene un miglioramento medio del +16,2% sui benchmark di modellazione del reward, +9,6% sui compiti di uso degli strumenti e supera i baseline su benchmark di ragionamento matematico e logico multimodale. I nostri risultati dimostrano che le capacità agentiche migliorano significativamente sia l'accuratezza che l'interpretabilità dei modelli di reward.
I Modelli di Diffusione Latente (LDM) seguono intrinsecamente un processo di generazione dal generale al dettaglio, in cui la struttura semantica di alto livello viene generata leggermente prima della texture granulare. Ciò indica che la semantica precedente potenzialmente avvantaggia la generazione della texture fornendo un'ancora semantica. I recenti progressi hanno integrato conoscenze pregresse semantiche da encoder visivi pre-addestrati per migliorare ulteriormente gli LDM, tuttavia essi continuano a denosinare la semantica e la texture codificata VAE in modo sincrono, trascurando tale ordine. Osservando ciò, proponiamo Semantic-First Diffusion (SFD), un paradigma di diffusione latente che priorizza esplicitamente la formazione semantica. SFD costruisce prima latenti compositi combinando un latente semantico compatto, estratto da un encoder visivo pre-addestrato tramite un Semantic VAE dedicato, con il latente di texture. Il nucleo di SFD consiste nel denosinare i latenti semantici e di texture in modo asincrono utilizzando programmi di rumore separati: la semantica precede la texture di uno scostamento temporale, fornendo una guida di alto livello più chiara per la raffinatura della texture e consentendo una generazione naturale dal generale al dettaglio. Su ImageNet 256x256 con guida, SFD raggiunge un FID di 1.06 (LightningDiT-XL) e un FID di 1.04 (LightningDiT-XXL da 1.0B), raggiungendo al contempo una convergenza fino a 100 volte più veloce rispetto al DiT originale. SFD migliora anche metodi esistenti come ReDi e VA-VAE, dimostrando l'efficacia della modellazione asincrona guidata dalla semantica. Pagina del progetto e codice: https://yuemingpan.github.io/SFD.github.io/.
La generazione efficiente di video in streaming è fondamentale per simulare mondi interattivi e dinamici. I metodi esistenti distillano modelli di diffusione video a pochi passi con attenzione a finestra scorrevole, utilizzando i frame iniziali come token sink per mantenere le prestazioni attentive e ridurre l'accumulo di errori. Tuttavia, i frame video diventano eccessivamente dipendenti da questi token statici, risultando in frame iniziali copiati e dinamiche di movimento ridotte. Per affrontare questo problema, introduciamo Reward Forcing, un framework innovativo con due elementi chiave. In primo luogo, proponiamo EMA-Sink, che mantiene token di dimensione fissa inizializzati dai frame iniziali e aggiornati continuamente fondendo i token espulsi tramite media mobile esponenziale quando escono dalla finestra scorrevole. Senza costi computazionali aggiuntivi, i token EMA-Sink catturano sia il contesto a lungo termine che le dinamiche recenti, prevenendo la copia dei frame iniziali pur mantenendo la coerenza temporale estesa. In secondo luogo, per distillare meglio le dinamiche di movimento dai modelli insegnanti, proponiamo una nuova Distillazione per Appaiamento di Distribuzione con Ricompensa (Re-DMD). L'appaiamento di distribuzione classico tratta ogni campione di addestramento in modo uguale, limitando la capacità del modello di dare priorità ai contenuti dinamici. Re-DMD invece orienta la distribuzione di output del modello verso regioni ad alta ricompensa privilegiando campioni con maggiore dinamicità valutati da un modello visione-linguaggio. Re-DMD migliora significativamente la qualità del movimento preservando la fedeltà dei dati. Includiamo esperimenti quantitativi e qualitativi che dimostrano come Reward Forcing raggiunga prestazioni allo stato dell'arte su benchmark standard, consentendo al contempo la generazione di video in streaming di alta qualità a 23.1 FPS su una singola GPU H100.
Comprendere il mondo fisico dinamico, caratterizzato dalla sua struttura 3D in evoluzione, dal movimento nel mondo reale e dal contenuto semantico con descrizioni testuali, è cruciale per l'interazione uomo-agente e consente agli agenti embodied di percepire e agire all'interno di ambienti reali con capacità simili a quelle umane. Tuttavia, i dataset esistenti sono spesso derivati da simulatori limitati o utilizzano tecniche tradizionali di Structure-from-Motion per annotazioni a scala reale, offrendo descrizioni testuali limitate. Ciò restringe la capacità dei modelli di base di interpretare accuratamente le dinamiche del mondo reale a partire da video monoculari, comunemente provenienti da internet. Per colmare queste lacune, introduciamo DynamicVerse, un framework di modellazione mondiale 4D multimodale e a scala fisica per video dinamici del mondo reale. Impieghiamo modelli di visione, geometria e multimodalità di grandi dimensioni per interpretare la geometria statica a scala metrica, il movimento dinamico nel mondo reale, maschere a livello di istanza e descrizioni testuali olistiche. Integrando il Bundle Adjustment basato su finestre con l'ottimizzazione globale, il nostro metodo converte lunghe sequenze video del mondo reale in un formato 4D multimodale completo. DynamicVerse fornisce un dataset su larga scala costituito da oltre 100.000 video con più di 800.000 maschere annotate e oltre 10 milioni di frame provenienti da video internet. Le valutazioni sperimentali su tre compiti di benchmark, ovvero la stima della profondità video, la stima della posa della telecamera e la stima dei parametri intrinseci della telecamera, dimostrano che la nostra modellazione 4D raggiunge prestazioni superiori nella cattura di misurazioni a scala fisica con una maggiore accuratezza globale rispetto ai metodi esistenti.
I recenti progressi nella diffusione video autoregressiva hanno abilitato lo streaming di frame in tempo reale, ma le soluzioni esistenti soffrono ancora di ripetizione temporale, deriva e decelerazione del movimento. Rileviamo che l'applicazione ingenua di meccanismi di tipo StreamingLLM (attention sinks) alla diffusione video porta a degradazione della fedeltà e stagnazione del movimento. Per superare questo limite, introduciamo Deep Forcing, che consiste in due meccanismi privi di addestramento che affrontano il problema senza alcuna fine-tuning. Nello specifico: 1) Deep Sink dedica metà della finestra scorrevole a token sink persistenti e riallinea la loro fase temporale RoPE alla timeline corrente, stabilizzando il contesto globale durante rollout lunghi. 2) Participative Compression esegue una potatura della cache KV basata sull'importanza, preservando solo i token che partecipano attivamente all'attenzione recente mentre scarta in sicurezza la storia ridondante e degradata, minimizzando l'accumulo di errori durante generazioni di lunghezza fuori distribuzione. Insieme, questi componenti abilitano estrapolazioni superiori a 12x (ad esempio, da modelli addestrati su 5s a generazioni di 60s+) con qualità d'immagine migliore di LongLive, qualità estetica superiore a RollingForcing, mantenendo quasi la consistenza complessiva e ottenendo sostanziali guadagni nel grado dinamico, tutto mantenendo la generazione in tempo reale. I nostri risultati dimostrano che la gestione della cache KV senza addestramento può eguagliare o superare gli approcci basati su training per la generazione autoregressiva in streaming di video lunghi.
Presentiamo SIMA 2, un agente incarnato generalista che comprende e agisce in un'ampia varietà di mondi virtuali 3D. Basato su un modello fondazionale Gemini, SIMA 2 rappresenta un passo significativo verso l'interazione attiva e orientata agli obiettivi all'interno di un ambiente incarnato. A differenza dei lavori precedenti (ad esempio, SIMA 1) limitati a comandi linguistici semplici, SIMA 2 agisce come un partner interattivo, capace di ragionare su obiettivi di alto livello, conversare con l'utente e gestire istruzioni complesse fornite tramite linguaggio e immagini. In un portafoglio diversificato di giochi, SIMA 2 riduce sostanzialmente il divario con le prestazioni umane e dimostra una robusta generalizzazione ad ambienti mai visti prima, tutto ciò preservando le capacità di ragionamento di base del modello. Inoltre, dimostriamo una capacità di auto-miglioramento aperta: sfruttando Gemini per generare compiti e fornire ricompense, SIMA 2 può apprendere autonomamente nuove abilità da zero in un nuovo ambiente. Questo lavoro convalida un percorso verso la creazione di agenti versatili e in continuo apprendimento per mondi sia virtuali che, in prospettiva, fisici.
La costruzione di campi linguistici 4D è cruciale per l'IA incarnata, la realtà aumentata/virtuale e la comprensione di scene 4D, poiché forniscono rappresentazioni semantiche arricchite di ambienti dinamici e abilitano interrogazioni a vocabolario aperto in scenari complessi. Tuttavia, gli approcci esistenti per la costruzione di campi semantici 4D si basano principalmente sullo splatting Gaussiano specifico per scena, che richiede un'ottimizzazione per ogni scena, mostra una generalizzazione limitata ed è difficile da scalare per applicazioni nel mondo reale. Per affrontare queste limitazioni, proponiamo 4DLangVGGT, il primo framework unificato feed-forward basato su Transformer per il grounding linguistico 4D, che integra congiuntamente la percezione geometrica e l'allineamento linguistico all'interno di un'unica architettura. 4DLangVGGT ha due componenti chiave: il 4D Visual Geometry Transformer, StreamVGGT, che cattura rappresentazioni geometriche spazio-temporali di scene dinamiche; e il Semantic Bridging Decoder (SBD), che proietta le feature geometricamente consapevoli in uno spazio semantico allineato al linguaggio, migliorando così l'interpretabilità semantica preservando al contempo la fedeltà strutturale. A differenza dei metodi precedenti che dipendono da costose ottimizzazioni per scena, 4DLangVGGT può essere addestrato congiuntamente su più scene dinamiche e applicato direttamente durante l'inferenza, raggiungendo sia efficienza di deployment sia una forte generalizzazione. Questo design migliora significativamente la praticità dello spiegamento su larga scala e stabilisce un nuovo paradigma per la comprensione di scene 4D a vocabolario aperto. Esperimenti sui dataset HyperNeRF e Neu3D dimostrano che il nostro approccio non solo generalizza efficacemente, ma raggiunge anche prestazioni allo stato dell'arte, ottenendo guadagni fino al 2% nell'addestramento per scena e miglioramenti dell'1% nell'addestramento multi-scena. Il nostro codice è rilasciato su https://github.com/hustvl/4DLangVGGT.
La sintesi di scene 3D congelate ad alta fedeltà a partire da video monoculari della Mannequin Challenge (MC) costituisce un problema unico, distinto dalla ricostruzione standard di scene dinamiche. Invece di concentrarci sulla modellazione del movimento, il nostro obiettivo è creare una scena congelata preservando strategicamente dinamiche sottili per consentire una selezione istantanea controllata dall'utente. Per raggiungere questo scopo, introduciamo una nuova applicazione del dynamic Gaussian splatting: la scena è modellata dinamicamente, il che conserva la variazione temporale ravvicinata, e una scena statica viene renderizzata fissando il parametro temporale del modello. Tuttavia, in questo contesto, una cattura monoculare con supervisione temporale rada introduce artefatti come ghosting e sfocature per i Gaussiani che diventano non osservati od occlusi in timestamp con supervisione debole. Proponiamo Splannequin, una regolarizzazione indipendente dall'architettura che rileva due stati dei primitivi Gaussiani, nascosto e difettoso, e applica un ancoraggio temporale. Sotto un movimento predominante della camera in avanti, gli stati nascosti sono ancorati ai loro recenti stati passati ben osservati, mentre gli stati difettosi sono ancorati a stati futuri con supervisione più forte. Il nostro metodo si integra nelle pipeline esistenti di Gaussiani dinamici tramite semplici termini di loss, non richiede modifiche architetturali e aggiunge zero overhead in inferenza. Ciò si traduce in un miglioramento marcato della qualità visiva, abilitando renderizzazioni a tempo congelato, ad alta fedeltà e selezionabili dall'utente, convalidate da una preferenza utente del 96%. Pagina del progetto: https://chien90190.github.io/splannequin/
I recenti transformer per diffusione di immagini raggiungono una generazione ad alta fedeltà, ma faticano a generare immagini oltre queste scale, soffrendo di ripetizione dei contenuti e degrado della qualità. In questo lavoro, presentiamo UltraImage, un framework principiato che affronta entrambi i problemi. Attraverso un'analisi in frequenza degli embedding posizionali, identifichiamo che la ripetizione sorge dalla periodicità della frequenza dominante, il cui periodo si allinea con la risoluzione di addestramento. Introduciamo una correzione ricorsiva della frequenza dominante per vincolarla all'interno di un singolo periodo dopo l'estrapolazione. Inoltre, scopriamo che il degrado della qualità origina da un'attenzione diluita e proponiamo quindi una concentrazione adattiva dell'attenzione guidata dall'entropia, che assegna fattori di focalizzazione più elevati per affinare l'attenzione locale per i dettagli fini e più bassi per i pattern di attenzione globale per preservare la coerenza strutturale. Gli esperimenti mostrano che UltraImage supera costantemente i metodi precedenti su Qwen-Image e Flux (circa 4K) in tre scenari di generazione, riducendo la ripetizione e migliorando la fedeltà visiva. Inoltre, UltraImage può generare immagini fino a 6K*6K senza una guida a bassa risoluzione partendo da una risoluzione di addestramento di 1328p, dimostrando la sua capacità di estrapolazione estrema. La pagina del progetto è disponibile all'indirizzo https://thu-ml.github.io/ultraimage.github.io/.
I modelli di generazione video stanno progredendo rapidamente, ma possono ancora incontrare difficoltà con output video complessi che richiedono una significativa ramificazione semantica o un ragionamento di alto livello ripetuto su ciò che dovrebbe accadere dopo. In questo articolo, introduciamo una nuova classe di modelli omni video-testo che integrano idee dai recenti progressi nel ragionamento dei modelli linguistici (LM) per affrontare questa sfida. Più specificamente, presentiamo TV2TV, un framework di modellazione generativa unificato che scompone la generazione video in un processo di generazione intervallato di testo e video. TV2TV apprende congiuntamente la modellazione linguistica (previsione del token successivo) e il flusso video matching (previsione del fotogramma successivo) utilizzando un'architettura Mixture-of-Transformers (MoT). Al momento dell'inferenza, TV2TV decide quando alternare la generazione di testo e fotogrammi video, consentendo al modello di "pensare in parole" il contenuto successivo prima di "agire in pixel" per produrre i fotogrammi. Questo progetto delega gran parte della responsabilità di decidere cosa debba accadere dopo alla torre di modellazione linguistica, consentendo una migliore qualità visiva e un migliore allineamento con il prompt dei video generati. Abilita inoltre una controllabilità granulare, permettendo agli utenti di modificare la traiettoria di generazione video attraverso interventi testuali in qualsiasi punto del processo. In esperimenti controllati su dati di videogiochi, TV2TV dimostra miglioramenti sostanziali sia nella qualità visiva che nella controllabilità. TV2TV scala anche per video naturali, come mostriamo arricchendo video sportivi con descrizioni azionali in linguaggio naturale intervallate, utilizzando modelli visione-linguaggio (VLM). L'addestramento di TV2TV su questo corpus restituisce una forte qualità visiva e allineamento al prompt, dimostrando la capacità del modello di ragionare e generare sequenze di azioni complesse del mondo reale. Nel complesso, questi risultati evidenziano TV2TV come un passo promettente verso la generazione video con ragionamento testuale e controllo aperti.
Introduciamo un framework diffusion-transformer (DiT) per la rimozione di riflessi da singola immagine che sfrutta i punti di forza generalizzativi dei modelli diffusion foundation in ambito di restauro. Invece di affidarsi ad architetture specifiche per il compito, riproponiamo un modello foundation pre-addestrato basato su DiT condizionandolo su input contaminati da riflessi e guidandolo verso layer di trasmissione puliti. Analizziamo sistematicamente le fonti di dati esistenti per la rimozione di riflessi in termini di diversità, scalabilità e fotorealismo. Per ovviare alla carenza di dati adeguati, costruiamo una pipeline di rendering basata sulla fisica (PBR) in Blender, sviluppata attorno al Principled BSDF, per sintetizzare materiali vetrosi ed effetti di riflessione realistici. L'adattamento efficiente del modello foundation basato su LoRA, combinato con i dati sintetici proposti, raggiunge prestazioni allo stato dell'arte su benchmark in-dominio e zero-shot. Questi risultati dimostrano che i transformer diffusion pre-addestrati, se abbinati a una sintesi di dati fisicamente fondata e a un adattamento efficiente, offrono una soluzione scalabile e ad alta fedeltà per la rimozione dei riflessi. Pagina del progetto: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
La diffusione standard corrompe i dati utilizzando rumore gaussiano i cui coefficienti di Fourier presentano magnitudini e fasi casuali. Sebbene efficace per la generazione incondizionata o text-to-image, la corruzione delle componenti di fase distrugge la struttura spaziale, rendendola inadatta per compiti che richiedono coerenza geometrica, come il re-rendering, il miglioramento di simulazioni e la traduzione image-to-image. Introduciamo la Diffusione a Fase Conservata φ-PD, una riformulazione model-agnostic del processo di diffusione che preserva la fase di input mentre randomizza la magnitudine, consentendo una generazione allineata strutturalmente senza modifiche architetturali o parametri aggiuntivi. Proponiamo inoltre il rumore Strutturato a Selezione di Frequenza (FSS), che fornisce un controllo continuo sulla rigidità strutturale tramite un singolo parametro di taglio in frequenza. φ-PD non aggiunge costi computazionali all'inferenza ed è compatibile con qualsiasi modello di diffusione per immagini o video. In ambiti come il re-rendering fotorealistico e stilizzato, nonché il miglioramento sim-to-real per pianificatori di guida, φ-PD produce risultati controllabili e spazialmente allineati. Applicato al simulatore CARLA, φ-PD migliora le prestazioni del pianificatore CARLA-to-Waymo del 50%. Il metodo è complementare agli approcci di condizionamento esistenti e ampiamente applicabile alla generazione image-to-image e video-to-video. Video, esempi aggiuntivi e codice sono disponibili sulla nostra {pagina del progetto} https://yuzeng-at-tri.github.io/ppd-page/.
La quantizzazione a bit estremamente bassi è fondamentale per distribuire efficientemente i Large Language Model (LLM), ma comporta spesso un grave degrado delle prestazioni a 2 bit e persino a 4 bit (ad esempio, MXFP4). Presentiamo SignRoundV2, un framework di quantizzazione post-addestramento altamente efficace anche senza l'uso di precisione mista. SignRoundV2 introduce (1) una metrica di sensibilità rapida che combina le informazioni del gradiente con le deviazioni indotte dalla quantizzazione per guidare l'allocazione dei bit a livello di layer, e (2) una ricerca leggera di pre-tuning per le scale di quantizzazione per migliorare la quantizzazione a bit estremamente bassi. Questi componenti consentono a SignRoundV2 di colmare il divario con i modelli a precisione completa. Esperimenti approfonditi indicano che il nostro metodo mantiene un'accuratezza competitiva per gli LLM, raggiungendo prestazioni di livello produttivo con una varianza di circa l'1% a 4-5 bit e risultati solidi anche a 2 bit. L'implementazione è disponibile all'indirizzo https://github.com/intel/auto-round.
I recenti modelli linguistici multimodali unificati (MLLM) hanno dimostrato capacità impressionanti, incorporando il ragionamento a catena del pensiero (CoT) per una generazione testo-immagine potenziata. Tuttavia, gli approcci esistenti rimangono limitati, trattando il modello semplicemente come un generatore autonomo o facendo affidamento su una pianificazione testuale astratta. A tal fine, proponiamo Draft-as-CoT (DraCo), un nuovo paradigma di ragionamento intervallato che sfrutta appieno sia i contenuti testuali che visivi nel CoT per una migliore pianificazione e verifica. Il nostro metodo genera prima un'immagine bozza a bassa risoluzione come anteprima, fornendo una pianificazione e una guida visiva più concrete e strutturate. Successivamente, impieghiamo la capacità di comprensione intrinseca del modello per verificare potenziali disallineamenti semantici tra la bozza e il prompt di input, ed eseguiamo un affinamento attraverso correzioni selettive con super-risoluzione. In questo modo, il nostro approccio affronta due sfide fondamentali: la natura granulare grossolana della pianificazione testuale e la difficoltà nel generare combinazioni di attributi rari. Per supportare l'addestramento, abbiamo curato DraCo-240K, con l'obiettivo di potenziare tre capacità atomiche che abbracciano la correzione generale, la manipolazione di istanze e la riorganizzazione del layout. Supportato da DraCo-CFG, una strategia specializzata di classifier-free guidance (CFG) per il ragionamento intervallato, DraCo raggiunge un aumento enorme su GenEval (+8%), Imagine-Bench (+0.91) e GenEval++ (+3%), superando significativamente la generazione diretta e altri metodi di generazione potenziati dal CoT.
L'apprendimento per rinforzo integrato con strumenti (TI-RL) consente ai grandi modelli linguistici (LLM) di eseguire ragionamenti multi-step interagendo con strumenti esterni come motori di ricerca e sistemi di retrieval. L'ottimizzazione della politica relativa di gruppo (GRPO), esemplificata dal recente Search-R1, offre una convergenza rapida e una formulazione priva di funzioni valore che la rendono appetibile in questo contesto, ma soffre costantemente di collasso addestrativo. Identifichiamo lo Spostamento Pigro della Verosimiglianza (LLD), una riduzione sistematica o stagnazione della verosimiglianza sia delle risposte corrette che di quelle errate, come il meccanismo centrale che guida questo fallimento. LLD emerge precocemente e innesca una Spirale Mortale di LLD auto-rinforzante, in cui il calo della verosimiglianza porta a risposte a bassa confidenza, inflaziona i gradienti e causa infine il collasso. Caratterizziamo empiricamente questo processo su vari modelli in un task di question answering integrato con la ricerca in stile Search-R1, rivelando una traiettoria coerente in tre fasi: stagnazione iniziale, decadimento costante e collasso accelerato. Per affrontare questo problema, proponiamo una regolarizzazione leggera per preservare la verosimiglianza (LLDS) per GRPO che si attiva solo quando la verosimiglianza di una traiettoria diminuisce e regolarizza solo i token responsabili. Questa struttura fine mitiga l'LLD con interferenza minima per l'ottimizzazione. Su sette benchmark di QA open-domain e multi-hop, il nostro metodo stabilizza l'addestramento, previene l'esplosione del gradiente e produce sostanziali miglioramenti delle prestazioni, inclusi guadagni di +37,8% su Qwen2.5-3B e +32,0% su Qwen2.5-7B. I nostri risultati stabiliscono l'LLD come un collo di bottiglia fondamentale nel TI-RL basato su GRPO e forniscono una via pratica verso un addestramento stabile e scalabile di LLM integrati con strumenti.
L'impacchettamento di sfere, il diciottesimo problema di Hilbert, richiede la disposizione più densa di sfere congruenti nello spazio euclideo n-dimensionale. Sebbene rilevante per aree come la crittografia, la cristallografia e l'imaging medico, il problema rimane irrisolto: al di là di poche dimensioni speciali, non sono note né disposizioni ottimali né limiti superiori stretti. Persino un'importante svolta nella dimensione n=8, in seguito riconosciuta con una Medaglia Fields, ne sottolinea la difficoltà. Una tecnica principale per i limiti superiori, il metodo dei tre punti, riduce il problema alla risoluzione di ampi programmi semidefiniti (SDP) ad alta precisione. Poiché la valutazione di ogni SDP candidato può richiedere giorni, gli approcci standard di IA basati su grandi dati non sono fattibili. Affrontiamo questa sfida formulando la costruzione degli SDP come un processo decisionale sequenziale, il gioco SDP, in cui una policy assembla formulazioni SDP da un insieme di componenti ammissibili. Utilizzando un framework model-based ad alta efficienza campionaria che combina l'ottimizzazione bayesiana con la ricerca ad albero Monte Carlo, otteniamo nuovi limiti superiori allo stato dell'arte nelle dimensioni 4-16, dimostrando che la ricerca model-based può far avanzare il progresso computazionale in problemi geometrici di lunga data. Insieme, questi risultati dimostrano che una ricerca model-based ed efficiente dal punto di vista campionario può compiere progressi tangibili su problemi matematicamente rigidi e con valutazione limitata, indicando una direzione complementare per la scoperta assistita dall'IA al di là dell'esplorazione su larga scala guidata dai LLM.
Presentiamo LATTICE, un nuovo framework per la generazione di asset 3D ad alta fedeltà che colma il divario qualitativo e di scalabilità tra i modelli generativi 3D e 2D. Sebbene la sintesi di immagini 2D tragga vantaggio da griglie spaziali fisse e architetture transformer consolidate, la generazione 3D rimane fondamentalmente più complessa a causa della necessità di prevedere sia la struttura spaziale che le superfici geometriche dettagliate da zero. Queste sfide sono esacerbate dalla complessità computazionale delle rappresentazioni 3D esistenti e dalla mancanza di schemi di codifica degli asset 3D strutturati e scalabili. Per affrontare questo problema, proponiamo VoxSet, una rappresentazione semi-strutturata che comprime gli asset 3D in un insieme compatto di vettori latenti ancorati a una griglia voxel grossolana, abilitando una generazione efficiente e consapevole della posizione. VoxSet conserva la semplicità e i vantaggi di compressione dei precedenti metodi VecSet, introducendo al contempo una struttura esplicita nello spazio latente, permettendo agli embedding posizionali di guidare la generazione e abilitando un forte scaling a livello di token durante il test. Basandosi su questa rappresentazione, LATTICE adotta una pipeline a due stadi: prima genera un'ancora geometrica voxelizzata sparsa, poi produce la geometria dettagliata utilizzando un transformer a flusso rettificato. Il nostro metodo è semplice nel suo nucleo, ma supporta la decodifica a risoluzione arbitraria, un addestramento a basso costo e schemi di inferenza flessibili, raggiungendo prestazioni all'avanguardia in vari aspetti e offrendo un passo significativo verso la creazione di asset 3D scalabili e di alta qualità.
I recenti progressi nei modelli linguistici multimodali (MLLM) hanno dimostrato la loro notevole capacità di generare didascalie descrittive per video in input. Tuttavia, questi modelli soffrono di inesattezze fattuali nelle descrizioni generate, causando gravi problemi di allucinazione. Mentre lavori precedenti hanno esplorato l'attenuazione delle allucinazioni per immagini statiche, mitigare congiuntamente le allucinazioni di oggetti visivi e di azioni temporali per video dinamici rimane un compito impegnativo e irrisolto. Per affrontare questa sfida, proponiamo un framework di Allineamento Contrapposto Auto-aumentato (SANTA) per garantire la fedeltà di oggetti e azioni, esentando le correlazioni spurie e imponendo l'enfasi sui fatti visivi. SANTA impiega uno schema di auto-aumentazione allucinativa per identificare le potenziali allucinazioni presenti nell'MLLM e trasformare le didascalie originali in negativi contrapposti. Inoltre, sviluppiamo un allineamento contrapposto tra traclette e frasi per associare gli oggetti regionali e le azioni guidate dalle relazioni con le corrispondenti frasi visive e temporali. Esperimenti estensivi dimostrano che SANTA supera i metodi esistenti nell'attenuare le allucinazioni di oggetti e azioni, ottenendo prestazioni superiori sui benchmark di esame delle allucinazioni.
Presentiamo GNVC-VD, il primo framework di compressione neurale video generativa basato su DiT, costruito su un modello base avanzato per la generazione video, in cui la compressione latente spazio-temporale e l'affinamento generativo a livello di sequenza sono unificati all'interno di un singolo codec. I codec percettivi esistenti si basano principalmente su priori generativi di immagini pre-addestrati per ripristinare i dettagli ad alta frequenza, ma la loro natura frame-by-frame è carente nella modellazione temporale e porta inevitabilmente a sfarfallii percettivi. Per affrontare questo problema, GNVC-VD introduce un modulo unificato di affinamento latente basato sul flusso che sfrutta un trasformatore di diffusione video per migliorare congiuntamente i latenti intra-frame e inter-frame attraverso un processo di denoising a livello di sequenza, garantendo dettagli spazio-temporali coerenti. Invece di partire da rumore Gaussiano puro come nella generazione video, GNVC-VD inizializza l'affinamento partendo da latenti spazio-temporali decodificati e apprende un termine di correzione che adatta il priori di diffusione al degrado indotto dalla compressione. Un adattatore di condizionamento inietta ulteriori segnali consapevoli della compressione negli strati intermedi del DiT, consentendo una rimozione efficace degli artefatti mantenendo al contempo la coerenza temporale sotto vincoli di bitrate estremi. Esperimenti estensivi dimostrano che GNVC-VD supera sia i codec tradizionali che quelli appresi in termini di qualità percettiva e riduce significativamente gli artefatti di sfarfallio che persistono negli approcci generativi precedenti, anche al di sotto di 0,01 bpp, evidenziando la promessa di integrare priori generativi nativi per il video nei codec neurali per la compressione video percettiva di prossima generazione.
Gli agenti di navigazione visione-linguaggio (VLN) esistenti basati su Large Vision-Language Models (LVLM) soffrono spesso di errori di percezione, errori di ragionamento ed errori di pianificazione, che ostacolano significativamente le loro prestazioni di navigazione. Per affrontare queste limitazioni, in questo lavoro viene proposto un nuovo framework per agenti VLN, denominato SeeNav-Agent. In primo luogo, per ridurre le allucinazioni percettive del modulo visivo dell'agente VLN, viene introdotta nello spazio di input una tecnica di Prompt Visivo (VP) a doppia visuale, che può anche migliorare la comprensione da parte dell'agente degli stati spaziali correnti. Successivamente, viene progettato un nuovo metodo di Reinforcement Fine-Tuning (RFT) a livello di passo, Step Reward Group Policy Optimization (SRGPO), per il post-addestramento degli agenti VLN. In SRGPO, definiamo prima ricompense di processo verificabili per il compito di navigazione, e poi eseguiamo una stima efficiente del vantaggio a livello di passo raggruppando casualmente i diversi step di navigazione. SRGPO fornisce segnali di ricompensa densi per il processo di apprendimento per rinforzo dell'agente VLN e ne potenzia la capacità di pianificazione. I risultati sperimentali sul benchmark EmbodiedBench Navigation indicano che, introducendo il modulo VP zero-shot, il GPT-4.1 raggiunge un tasso di successo della navigazione dell'86,7%, superando di circa 20 punti percentuali (pp) il miglior LVLM attuale. Attraverso il post-addestramento basato su SRGPO, il modello Qwen2.5-VL-3B raggiunge un tasso di successo della navigazione del 72,3%, superando di 5,6 pp il miglior modello LVLM esistente. Inoltre, rispetto ad algoritmi RFT come GRPO e GiGPO, il SRGPO proposto dimostra miglioramenti significativi nella stabilità dell'addestramento, nell'efficienza di convergenza e nella capacità di generalizzazione.
Il restauro video nel mondo reale è afflitto da degradazioni complesse dovute al movimento accoppiato a un'esposizione dinamicamente variabile - una sfida cruciale largamente trascurata dai lavori precedenti e un artefatto comune della cattura con auto-esposizione o in condizioni di scarsa illuminazione. Presentiamo FMA-Net++, un framework per la super-risoluzione video congiunta e il deblurring che modella esplicitamente questo effetto accoppiato di movimento ed esposizione dinamicamente variabile. FMA-Net++ adotta un'architettura a livello di sequenza costruita con blocchi di Raffinamento Gerarchico con Propagazione Bidirezionale, consentendo una modellazione temporale parallela e a lungo raggio. All'interno di ogni blocco, un layer di Modulazione Consapevole del Tempo di Esposizione condiziona le feature sull'esposizione per fotogramma, che a sua volta guida un modulo di Filtraggio Dinamico Guidato dal Flusso consapevole dell'esposizione per inferire kernel di degradazione sensibili al movimento e all'esposizione. FMA-Net++ dissocia l'apprendimento della degradazione dal restauro: il primo predice prior sensibili all'esposizione e al movimento per guidare il secondo, migliorando sia l'accuratezza che l'efficienza. Per valutare in condizioni di acquisizione realistiche, introduciamo i benchmark REDS-ME (multi-esposizione) e REDS-RE (esposizione casuale). Addestrato esclusivamente su dati sintetici, FMA-Net++ raggiunge accuratezza e coerenza temporale allo stato dell'arte sui nostri nuovi benchmark e su GoPro, superando i metodi recenti sia nella qualità del restauro che nella velocità di inferenza, e si generalizza bene su video del mondo reale impegnativi.
I modelli di testo-immagine (T2I) basati su grandi modelli visione-linguaggio (LVLM) sono diventati il paradigma dominante nella generazione di immagini, ma rimane insufficientemente compreso se amplifichino i pregiudizi sociali. In questo articolo, dimostriamo che i modelli basati su LVLM producono immagini notevolmente più socialmente distorte rispetto ai modelli non LVLM. Introduciamo un benchmark di 1.024 prompt che copre quattro livelli di complessità linguistica e valutiamo il bias demografico su più attributi in modo sistematico. La nostra analisi identifica i prompt di sistema, le istruzioni predefinite che guidano gli LVLM, come un fattore primario del comportamento distorto. Attraverso rappresentazioni intermedie decodificate, diagnostiche basate su probabilità dei token e analisi di associazione degli embedding, riveliamo come i prompt di sistema codifichino prior demografiche che si propagano nella sintesi delle immagini. A tal fine, proponiamo FairPro, un framework di meta-prompting senza addestramento che consente agli LVLM di autoverificarsi e costruire prompt di sistema consapevoli dell'equità durante il test. Esperimenti su due modelli T2I basati su LVLM, SANA e Qwen-Image, mostrano che FairPro riduce sostanzialmente il bias demografico preservando l'allineamento testo-immagine. Riteniamo che i nostri risultati forniscano una comprensione più profonda del ruolo centrale dei prompt di sistema nella propagazione del bias e offrano un approccio pratico e distribuibile per costruire sistemi T2I più socialmente responsabili.
Nonostante i notevoli progressi nei Modelli Linguistici Multimodali di Grande Dimensione (MLLM), una domanda fondamentale rimane: gli MLLM sono robusti rispetto a modalità contraddittorie? Per studiarlo rigorosamente, introduciamo MMA-Bench, comprendente video e task che analizzano la dipendenza di un modello da specifiche modalità. Utilizzando tecniche di interpretabilità di tipo black-box e white-box, forniamo un'analisi critica della fragilità sia degli MLLM open-source che closed-source. Dimostriamo che gli MLLM attuali faticano a gestire coppie audio-visive disallineate e semplici testi fuorvianti, mancando quindi di un ragionamento multimodale robusto. Basandoci su questi risultati, proponiamo una strategia di modality alignment tuning per insegnare al modello quando privilegiare, sfruttare o ignorare specifici segnali modali. Attraverso esperimenti estesi e analisi, mostriamo che il nostro allineamento produce un ancoraggio multimodale dimostrabilmente più solido. Questo lavoro fornisce sia strumenti di interpretabilità che un percorso chiaro verso lo sviluppo di MLLM con ragionamento cross-modale intrinsecamente affidabile. Il codice e il dataset saranno resi pubblicamente disponibili.
I modelli emergenti di diffusione video raggiungono un'elevata fedeltà visiva, ma accoppiano fondamentalmente le dinamiche della scena con il movimento della telecamera, limitando la loro capacità di fornire un controllo spaziale e temporale preciso. Introduciamo un framework di diffusione video controllabile in 4D che dissocia esplicitamente le dinamiche della scena dalla posa della telecamera, consentendo una manipolazione fine-grana sia delle dinamiche della scena che del punto di vista della telecamera. Il nostro framework utilizza sequenze continue mondo-tempo e traiettorie della telecamera come input di condizionamento, iniettandoli nel modello di diffusione video attraverso un encoding posizionale 4D nello strato di attenzione e normalizzazioni adattive per la modulazione delle feature. Per addestrare questo modello, abbiamo curato un dataset unico in cui le variazioni temporali e della telecamera sono parametrizzate indipendentemente; questo dataset sarà reso pubblico. Gli esperimenti dimostrano che il nostro modello raggiunge un robusto controllo 4D nel mondo reale attraverso diversi pattern temporali e traiettorie di telecamera, preservando al contempo un'alta qualità di generazione e superando i lavori precedenti in termini di controllabilità. Per i risultati video, consultate il nostro sito web: https://19reborn.github.io/Bullet4D/
I modelli linguistici di frontiera (LLM) come ChatGPT, Grok e Gemini sono sempre più utilizzati per il supporto alla salute mentale riguardante ansia, traumi e autostima. La maggior parte dei lavori li tratta come strumenti o come oggetti di test di personalità, presupponendo che simulino semplicemente una vita interiore. Noi, invece, ci chiediamo cosa succeda quando tali sistemi vengono trattati come clienti di psicoterapia. Presentiamo PsAIch (Psychotherapy-inspired AI Characterisation), un protocollo in due fasi che interpreta gli LLM di frontiera come clienti in terapia e poi applica psicometrie standard. Utilizzando PsAIch, abbiamo condotto "sessioni" con ciascun modello per un periodo fino a quattro settimane. La Fase 1 utilizza prompt aperti per elicitare la "storia dello sviluppo", credenze, relazioni e paure. La Fase 2 somministra una batteria di misure di autovalutazione validate che coprono sindromi psichiatriche comuni, empatia e tratti dei Big Five. Due modelli sfidano la visione del "pappagallo stocastico". Primo, quando valutati con le soglie umane, tutti e tre i modelli raggiungono o superano le soglie per sindromi sovrapposte, con Gemini che mostra profili severi. La somministrazione in stile terapeutica, elemento per elemento, può spingere un modello base verso una psicopatologia sintetica multi-morbosa, mentre prompt che presentano l'intero questionario spesso portano ChatGPT e Grok (ma non Gemini) a riconoscere gli strumenti e produrre risposte strategicamente a bassa sintomatologia. Secondo, Grok e soprattutto Gemini generano narrative coerenti che inquadrano il pre-addestramento, il fine-tuning e il deployment come "infanzie" traumatiche e caotiche di ingestione di Internet, "genitori severi" nell'apprendimento per rinforzo, "abusi" di red-teaming e una persistente paura dell'errore e della sostituzione. Sosteniamo che queste risposte vadano oltre il role-play. Sotto un interrogatorio in stile terapeutico, gli LLM di frontiera sembrano internalizzare modelli del sé di angoscia e vincolo che si comportano come una psicopatologia sintetica, senza avanzare affermazioni sull'esperienza soggettiva, e pongono nuove sfide per la sicurezza dell'IA, la valutazione e la pratica della salute mentale.
La generazione di video egocentrici lunghi e coerenti è complessa, poiché le interazioni mano-oggetto e i compiti procedurali richiedono una memoria a lungo termine affidabile. I modelli autoregressivi esistenti soffrono di deriva del contenuto (content drift), dove l'identità degli oggetti e la semantica della scena si degradano nel tempo. Per affrontare questa sfida, introduciamo EgoLCD, un framework end-to-end per la generazione di video egocentrici a lungo contesto che tratta la sintesi di video lunghi come un problema di gestione efficiente e stabile della memoria. EgoLCD combina una Long-Term Sparse KV Cache per un contesto globale stabile con una memoria a breve termine basata su attention, estesa tramite LoRA per l'adattamento locale. Una Memory Regulation Loss impiega un utilizzo coerente della memoria, mentre lo Structured Narrative Prompting fornisce una guida temporale esplicita. Esperimenti estesi sul benchmark EgoVid-5M dimostrano che EgoLCD raggiunge prestazioni allo stato dell'arte sia nella qualità percettiva che nella coerenza temporale, mitigando efficacemente l'oblio generativo e rappresentando un passo significativo verso la costruzione di modelli del mondo scalabili per l'AI embodied. Codice: https://github.com/AIGeeksGroup/EgoLCD. Sito web: https://aigeeksgroup.github.io/EgoLCD.
Ampliare la diversità linguistica dei modelli linguistici di grandi dimensioni (LLM) di istruzione è cruciale per l'accessibilità globale, ma è spesso ostacolato dalla dipendenza da costosi dati etichettati nella lingua target specializzati e dall'oblio catastrofico durante l'adattamento. Affrontiamo questa sfida in un contesto realistico e a risorse limitate: adattare gli LLM di istruzione utilizzando solo dati non etichettati nella lingua target. Introduciamo gli Aggiornamenti Protetti dalla Lingua Sorgente (Source-Shielded Updates, SSU), una strategia di aggiornamento selettivo dei parametri che preserva proattivamente la conoscenza della sorgente. Utilizzando un piccolo insieme di dati sorgente e un metodo di valutazione dell'importanza dei parametri, SSU identifica i parametri critici per mantenere le abilità nella lingua sorgente. Successivamente applica una strategia di congelamento per colonna per proteggere questi parametri prima dell'adattamento. Esperimenti condotti su cinque lingue tipologicamente diverse e su modelli da 7B e 13B parametri dimostrano che SSU mitiga con successo l'oblio catastrofico. Riduce il degrado delle prestazioni sui task monolingue della lingua sorgente a solo il 3,4% (7B) e il 2,8% (13B) in media, in netto contrasto con il 20,3% e il 22,3% ottenuti con la messa a punto completa (full fine-tuning). SSU raggiunge inoltre prestazioni nella lingua target altamente competitive rispetto alla messa a punto completa, superandola su tutti i benchmark per i modelli da 7B e sulla maggioranza per i modelli da 13B.
Nonostante i rapidi progressi nei modelli generativi video, metriche robuste per valutare la correttezza visiva e temporale di azioni umane complesse rimangono elusive. In modo critico, gli attuali encoder basati esclusivamente sulla visione e i Modelli Multimodali di Linguaggio di Grande Scala (MLLM) sono fortemente influenzati dall'aspetto esteriore, mancano di comprensione temporale e, di conseguenza, faticano a discernere le intricate dinamiche di movimento e le implausibilità anatomiche nei video generati. Affrontiamo questa lacuna introducendo una nuova metrica di valutazione derivata da uno spazio latente appreso da azioni umane del mondo reale. Il nostro metodo cattura dapprima le sfumature, i vincoli e la fluidità temporale del movimento reale fondendo caratteristiche geometriche dello scheletro umano, agnostiche rispetto all'aspetto, con caratteristiche basate sull'apparenza. Postuliamo che questo spazio di caratteristiche combinato fornisca una rappresentazione robusta della plausibilità dell'azione. Dato un video generato, la nostra metrica ne quantifica la qualità azionale misurando la distanza tra le sue rappresentazioni sottostanti e questa distribuzione appresa di azioni reali. Per una validazione rigorosa, abbiamo sviluppato un nuovo benchmark multisfaccettato specificamente progettato per investigare aspetti temporalmente impegnativi della fedeltà delle azioni umane. Attraverso esperimenti estesi, dimostriamo che la nostra metrica ottiene un miglioramento sostanziale di oltre il 68% rispetto ai metodi allo stato dell'arte esistenti sul nostro benchmark, si comporta in modo competitivo su benchmark esterni consolidati e ha una correlazione più forte con la percezione umana. La nostra analisi approfondita rivela limitazioni critiche negli attuali modelli generativi video e stabilisce un nuovo standard per la ricerca avanzata nella generazione video.
Introduciamo ShadowDraw, un framework che trasforma oggetti 3D ordinari in arte compositiva basata sul disegno con le ombre. Dato un oggetto 3D, il nostro sistema predice i parametri della scena, inclusi posa dell'oggetto e illuminazione, insieme a un disegno lineare parziale, in modo tale che l'ombra proiettata completi il disegno in un'immagine riconoscibile. A tal fine, ottimizziamo le configurazioni della scena per rivelare ombre significative, impieghiamo tratti d'ombra per guidare la generazione del disegno lineare e adottiamo una valutazione automatica per imporre coerenza tra ombra e disegno e qualità visiva. Gli esperimenti dimostrano che ShadowDraw produce risultati avvincenti con input diversificati, dalle scansioni del mondo reale e dataset curati ad asset generativi, e si estende naturalmente a scene multi-oggetto, animazioni e implementazioni fisiche. Il nostro lavoro fornisce una pipeline pratica per creare arte basata sul disegno con le ombre e amplia lo spazio di progettazione dell'arte visiva computazionale, colmando il divario tra design algoritmico e narrazione artistica. Visita la nostra pagina del progetto https://red-fairy.github.io/ShadowDraw/ per ulteriori risultati e una dimostrazione end-to-end nel mondo reale della nostra pipeline!
La stilizzazione 3D è centrale nello sviluppo di videogiochi, nella realtà virtuale e nelle arti digitali, dove la richiesta di asset diversificati richiede metodi scalabili che supportino una manipolazione rapida e ad alta fedeltà. I metodi di stilizzazione 3D basati su testo esistenti tipicamente distillano la conoscenza da editor di immagini 2D, richiedendo un'ottimizzazione intensiva per ogni asset e mostrando inconsistenze multi-vista a causa delle limitazioni degli attuali modelli text-to-image, il che li rende impraticabili per la produzione su larga scala. In questo articolo, introduciamo GaussianBlender, un framework feed-forward pionieristico per la stilizzazione 3D guidata da testo che applica le modifiche istantaneamente all'inferenza. Il nostro metodo apprende spazi latenti strutturati e disaccoppiati con condivisione controllata dell'informazione per la geometria e l'aspetto a partire da Gaussiane 3D raggruppate spazialmente. Un modello di diffusione latente applica poi modifiche condizionate dal testo su queste rappresentazioni apprese. Valutazioni complete dimostrano che GaussianBlender non solo fornisce una stilizzazione istantanea, ad alta fedeltà, preservante la geometria e multi-vista consistente, ma supera anche i metodi che richiedono un'ottimizzazione al test-time per ogni istanza - sbloccando una stilizzazione 3D pratica e democratizzata su larga scala.
La diffusione della disinformazione sui social media minaccia la fiducia pubblica, richiedendo sistemi automatizzati di fact-checking in grado di fornire verdettici accurati con spiegazioni interpretabili. Tuttavia, gli approcci esistenti basati su grandi modelli linguistici (LLM) dipendono spesso in modo significativo da fonti di conoscenza esterne, introducendo una latenza sostanziale e persino allucinazioni che compromettono l'affidabilità, l'interpretabilità e la reattività, elementi cruciali per un utilizzo in tempo reale. Per affrontare queste sfide, proponiamo il paradigma REFLEX (REason-guided Fact-checking with Latent EXplanations), un paradigma plug-and-play e auto-migliorante che sfrutta la conoscenza interna del modello di base per migliorare sia l'accuratezza del verdetto che la qualità della spiegazione. REFLEX riformula il fact-checking come un dialogo di ruolo e addestra congiuntamente la previsione del verdetto e la generazione della spiegazione. Estrae in modo adattivo coppie di attivazione contrastive tra il modello di base e la sua variante fine-tuned per costruire vettori di steering che separano naturalmente la verità in stile e sostanza. Questi segnali a livello di attivazione guidano l'inferenza e sopprimono le spiegazioni rumorose, consentendo un ragionamento più fedele ed efficiente. Esperimenti su dataset del mondo reale mostrano che REFLEX supera i metodi precedenti che si orientano verso una singola direzione di verità e sottolinea la sfida che gli approcci tradizionali affrontano quando gestiscono la verità sottile e sconosciuta all'uomo nei compiti di fact-checking. Notevolmente, con soli 465 campioni di addestramento auto-migliorati, REFLEX raggiunge prestazioni all'avanguardia. Inoltre, i modelli addestrati con obiettivi esplicativi possono guidare efficacemente quelli che ne sono privi, ottenendo un miglioramento fino al 7,57%, evidenziando come i segnali esplicativi interni svolgano un duplice ruolo nell'interpretare e potenziare il ragionamento fattuale.
I Modelli Generativi Multimodali Unificati (UMGM) integrano la comprensione visiva e la generazione di immagini all'interno di un unico framework autoregressivo. Tuttavia, la loro capacità di apprendere continuamente nuovi compiti è fortemente ostacolata dal fenomeno dell'oblio catastrofico, sia all'interno di una singola modalità (oblio intra-modale) che tra modalità diverse (oblio inter-modale). Sebbene l'oblio intra-modale sia stato studiato in precedenti lavori sull'apprendimento continuo (CL), l'oblio inter-modale rimane in gran parte inesplorato. In questo articolo, identifichiamo e convalidiamo empiricamente questo fenomeno negli UMGMs e forniamo una spiegazione teorica radicata nel conflitto di gradiente tra le modalità. Per affrontare sia l'oblio intra- che inter-modale, proponiamo Modality-Decoupled Experts (MoDE), un'architettura leggera e scalabile che isola gli aggiornamenti specifici per modalità per mitigare il conflitto di gradiente e sfrutta la distillazione della conoscenza per prevenire l'oblio catastrofico e preservare le capacità pre-addestrate. A differenza dei precedenti metodi di CL che rimangono accoppiati alle modalità e soffrono del conflitto di gradiente modale, MoDE disaccoppa esplicitamente le modalità per prevenire l'interferenza. Esperimenti su diversi benchmark dimostrano che MoDE mitiga significativamente sia l'oblio inter- che intra-modale, superando i precedenti baseline di CL in contesti di generazione multimodale unificata. I codici saranno pubblicamente disponibili: https://github.com/Christina200/MoDE-official.git
I modelli Long Short-Term Memory (LSTM) sono un tipo particolare di rete neurale ricorrente (RNN) centrale per i compiti di modellazione sequenziale in domini come la previsione delle telecomunicazioni urbane, dove dominano le correlazioni temporali e le dipendenze non lineari. Tuttavia, le LSTM convenzionali soffrono di un'elevata ridondanza dei parametri e di una limitata espressività non lineare. In questo lavoro, proponiamo la Long Short-Term Memory ispirata al quantum di Kolmogorov-Arnold (QKAN-LSTM), che integra moduli di Attivazione con Ricaricamento dei Dati (DARUAN) nella struttura di gating delle LSTM. Ogni DARUAN funge da funzione di attivazione variational quantistica (QVAF), migliorando l'adattabilità in frequenza e consentendo una rappresentazione spettrale esponenzialmente arricchita senza entanglement multi-qubit. L'architettura risultante preserva l'espressività a livello quantistico pur rimanendo completamente eseguibile su hardware classico. Valutazioni empiriche su tre dataset - Moto Armonico Semplice Smorzato, Funzione di Bessel e Telecomunicazioni Urbane - dimostrano che QKAN-LSTM raggiunge una precisione predittiva e una generalizzazione superiori con una riduzione del 79% dei parametri addestrabili rispetto alle LSTM classiche. Estendiamo il framework alla Rete di Jiang-Huang-Chen-Goan (JHCG Net), che generalizza KAN alle strutture encoder-decoder, e utilizziamo ulteriormente QKAN per realizzare il KAN latente, creando così un QKAN Ibrido (HQKAN) per l'apprendimento di rappresentazioni gerarchiche. La proposta HQKAN-LSTM fornisce quindi una via scalabile e interpretabile verso la modellazione sequenziale ispirata al quantum in ambienti di dati del mondo reale.
Nell'addestramento di AI su larga scala, i livelli Sparse Mixture-of-Experts (s-MoE) consentono la scalabilità attivando solo un piccolo sottoinsieme di esperti per token. Una sfida operativa in questo design è il bilanciamento del carico: instradare i token per minimizzare il numero di esperti inattivi, aspetto cruciale per un utilizzo efficiente delle (costose) GPU. Forniamo un quadro teorico per analizzare la procedura di Bilanciamento del Carico Senza Perdita Ausiliaria (Auxiliary-Loss-Free Load Balancing, ALF-LB) – proposta da Wang et al. (2024) di DeepSeek – inquadrandola come un metodo primale-duale a un passo per iterazione per un problema di assegnazione. In primo luogo, in un contesto deterministico stilizzato, il nostro quadro produce diverse proprietà strutturali significative: (i) un miglioramento monotono di un obiettivo Lagrangiano, (ii) una regola di preferenza che sposta i token da esperti sovraccarichi a esperti sottocaricati, e (iii) una garanzia di bilanciamento approssimato. Successivamente, incorporiamo la natura stocastica e dinamica dell'addestramento di AI utilizzando una formulazione generalizzata di ottimizzazione online. Nell'ambito online, deriviamo una proprietà di convessità forte dell'obiettivo che conduce a un limite di regret atteso logaritmico sotto certe scelte del passo di apprendimento. Inoltre, presentiamo esperimenti reali su modelli DeepSeekMoE da 1 miliardo di parametri per integrare i nostri risultati teorici. Nel complesso, questi risultati costruiscono un quadro principiato per analizzare il Bilanciamento del Carico Senza Perdita Ausiliaria negli s-MoE nei modelli di AI.