Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Future-KL Influenced Policy Optimization (FIPO), un algoritmo di apprendimento per rinforzo progettato per superare i colli di bottiglia del ragionamento nei grandi modelli linguistici. Sebbene l'addestramento in stile GRPO sia efficacemente scalabile, tipicamente si affida a ricompense basate sul risultato (ORM) che distribuiscono un vantaggio globale in modo uniforme su ogni token in una traiettoria. Sosteniamo che questa assegnazione del credito a grana grossa impone un limite massimo alle prestazioni, poiché non riesce a distinguere i punti critici logici dai token banali. FIPO affronta questo problema incorporando la divergenza KL futura scontata nell'aggiornamento della policy, creando una formulazione di vantaggio densa che ripesca i token in base alla loro influenza sul comportamento successivo della traiettoria. Empiricamente, FIPO consente ai modelli di superare la stagnazione della lunghezza osservata nei baseline standard. Valutato su Qwen2.5-32B, FIPO estende la lunghezza media del ragionamento a catena da circa 4.000 a oltre 10.000 token e aumenta l'accuratezza Pass@1 di AIME 2024 dal 50,0% a un picco del 58,0% (convergenza a circa 56,0%). Questo risultato supera sia DeepSeek-R1-Zero-Math-32B (circa 47,0%) che o1-mini (circa 56,0%). I nostri risultati suggeriscono che stabilire formulazioni di vantaggio dense è un percorso vitale per far evolvere gli algoritmi basati su ORM e sbloccare il pieno potenziale di ragionamento dei modelli base. Rendiamo open-source il nostro sistema di addestramento, costruito sul framework verl.
La convergenza tra economie a bassa quota, intelligenza embodied e sistemi cooperativi aria-terra genera una crescente domanda di infrastrutture di simulazione in grado di modellare congiuntamente agenti aerei e terrestri in un unico ambiente fisicamente coerente. Le piattaforme open-source esistenti rimangono segmentate per dominio: i simulatori di guida mancano di dinamiche aeree, mentre i simulatori per multirotori non dispongono di scene terrestri realistiche. La co-simulazione basata su bridge introduce un sovraccarico di sincronizzazione e non può garantire una rigorosa coerenza spazio-temporale. Presentiamo CARLA-Air, un'infrastruttura open-source che unisce la guida urbana ad alta fedeltà e il volo fisicamente accurato per multirotori all'interno di un singolo processo Unreal Engine. La piattaforma preserva sia le API Python native di CARLA e AirSim che le interfacce ROS 2, consentendo il riutilizzo del codice senza modifiche. All'interno di una pipeline condivisa di tick fisici e rendering, CARLA-Air fornisce ambienti fotorealistici con traffico conforme alle regole, pedoni socialmente consapevoli e dinamiche UAV aerodinamicamente coerenti, acquisendo in modo sincrono fino a 18 modalità sensoriali su tutte le piattaforme ad ogni tick. La piattaforma supporta carichi di lavoro rappresentativi per l'intelligenza embodied aria-terra, tra cui cooperazione, navigazione embodied e azione visione-linguaggio, percezione multi-modale e costruzione di dataset, e addestramento di policy basato su reinforcement learning. Una pipeline di asset estensibile consente l'integrazione di piattaforme robotiche personalizzate nel mondo condiviso. Ereditando le capacità aeree di AirSim - il cui sviluppo upstream è stato archiviato - CARLA-Air garantisce che questo stack di volo ampiamente adottato continui a evolversi all'interno di un'infrastruttura moderna. Rilasciato con binari precompilati e codice sorgente completo: https://github.com/louiszengCN/CarlaAir
Il paradigma predominante della Predizione del Prossimo Token (NTP) ha guidato il successo dei grandi modelli linguistici attraverso la modellazione autoregressiva discreta. Tuttavia, i sistemi multimodali contemporanei rimangono incentrati sul linguaggio, trattando spesso le modalità non linguistiche come allegati esterni, il che porta ad architetture frammentate e un'integrazione non ottimale. Per superare questa limitazione, introduciamo Discrete Native Autoregressive (DiNA), un framework unificato che rappresenta le informazioni multimodali all'interno di uno spazio discreto condiviso, abilitando una modellazione autoregressiva coerente e rigorosa attraverso le modalità. Un'innovazione chiave è il Discrete Native Any-resolution Visual Transformer (dNaViT), che esegue la tokenizzazione e la de-tokenizzazione a risoluzioni arbitrarie, trasformando segnali visivi continui in token discreti gerarchici. Sulla base di questo fondamento, sviluppiamo LongCat-Next, un modello multimodale nativo che elabora testo, visione e audio con un unico obiettivo autoregressivo e una progettazione specifica per modalità minima. In quanto modello fondazionale di livello industriale, eccelle nel vedere, disegnare e parlare all'interno di un unico framework, raggiungendo prestazioni solide su un'ampia gamma di benchmark multimodali. In particolare, LongCat-Next affronta il limite di performance di lunga data della modellazione visiva discreta sui compiti di comprensione e fornisce un approccio unificato per riconciliare efficacemente il conflitto tra comprensione e generazione. Come tentativo verso una multimodalità nativa, rendiamo open-source LongCat-Next e i suoi tokenizer, con la speranza di promuovere ulteriori ricerche e sviluppi nella comunità. GitHub: https://github.com/meituan-longcat/LongCat-Next
La modellizzazione degli stati cellulari e la previsione delle loro risposte alle perturbazioni rappresentano sfide centrali in biologia computazionale e nello sviluppo di cellule virtuali. I modelli foundation esistenti per la trascrittomica a cellula singola forniscono rappresentazioni statiche potenti, ma non modellano esplicitamente la distribuzione degli stati cellulari per la simulazione generativa. Qui introduciamo Lingshu-Cell, un modello di diffusione discreta mascherato che apprende le distribuzioni degli stati trascrittomici e supporta la simulazione condizionale sotto perturbazione. Operando direttamente in uno spazio di token discreti compatibile con la natura sparsa e non sequenziale dei dati trascrittomici a cellula singola, Lingshu-Cell cattura complesse dipendenze espressive a livello di trascrittoma attraverso circa 18.000 geni senza fare affidamento su una selezione genica preliminare, come il filtraggio per alta variabilità o la classificazione per livello di espressione. In diversi tessuti e specie, Lingshu-Cell riproduce accuratamente le distribuzioni trascrittomiche, i modelli di espressione dei geni marker e le proporzioni dei sottotipi cellulari, dimostrando la sua capacità di catturare una complessa eterogeneità cellulare. Inoltre, incorporando congiuntamente l'identità del tipo cellulare o del donatore con la perturbazione, Lingshu-Cell può prevedere i cambiamenti dell'espressione dell'intero trascrittoma per nuove combinazioni di identità e perturbazione. Raggiunge prestazioni leader nel benchmark di perturbazione genetica H1 della Virtual Cell Challenge e nella previsione delle risposte indotte da citochine nelle PBMC umane. Nel complesso, questi risultati stabiliscono Lingshu-Cell come un modello mondiale cellulare flessibile per la simulazione in silico degli stati cellulari e delle risposte alle perturbazioni, gettando le basi per un nuovo paradigma nella scoperta biologica e nello screening delle perturbazioni.
I recenti modelli multimodali di generazione hanno compiuto progressi notevoli in compiti generici, ma continuano a mostrare difficoltà con istruzioni complesse e task specialistici downstream. Ispirati dal successo di framework avanzati come Claude Code, proponiamo GEMS (Agent-Native Multimodal GEneration with Memory and Skills), un'architettura che supera i limiti intrinseci dei modelli fondazionali sia su compiti generali che downstream. GEMS si basa su tre componenti fondamentali. L'Agent Loop introduce un framework multi-agente strutturato che migliora iterativamente la qualità della generazione attraverso ottimizzazione a ciclo chiuso. L'Agent Memory fornisce una memoria persistente a livello di traiettoria che archivia gerarchicamente sia stati fattuali che sintesi esperienziali compresse, consentendo una visione globale del processo di ottimizzazione riducendo la ridondanza. L'Agent Skill offre una collezione estensibile di competenze specialistiche con caricamento on-demand, permettendo al sistema di gestire efficacemente applicazioni downstream diversificate. Su cinque task mainstream e quattro task downstream, valutati su molteplici backend generativi, GEMS ottiene costantemente miglioramenti prestazionali significativi. Notevolmente, consente al modello leggero Z-Image-Turbo da 6B di superare lo state-of-the-art Nano Banana 2 su GenEval2, dimostrando l'efficacia dell'approccio agent-based nell'estendere le capacità dei modelli oltre i loro limiti originari.
I modelli di base hanno dimostrato un successo notevole in diversi domini e compiti, principalmente grazie alla proliferazione di dataset di grandi dimensioni, diversificati e di alta qualità. Tuttavia, nel campo dell'imaging medico, la cura e l'assemblaggio di tali dataset medici sono estremamente impegnativi a causa della dipendenza da competenze cliniche e di stringenti vincoli etici e di privacy, con la conseguente scarsità di dataset medici unificati su larga scala e l'ostacolo allo sviluppo di potenti modelli di base per la medicina. In questo lavoro, presentiamo la più vasta analisi ad oggi sui dataset di immagini mediche, coprendo oltre 1.000 dataset ad accesso aperto con una catalogazione sistematica delle loro modalità, compiti, anatomie, annotazioni, limitazioni e potenziale di integrazione. La nostra analisi rivela un panorama modesto in scala, frammentato in compiti a scopo ristretto e distribuito in modo disomogeneo tra organi e modalità, il che a sua volta limita l'utilità dei dataset di immagini mediche esistenti per lo sviluppo di modelli di base medici versatili e robusti. Per trasformare la frammentazione in scala, proponiamo un paradigma di fusione guidato dai metadati (MDFP) che integra i dataset pubblici con modalità o compiti condivisi, trasformando così molteplici piccoli silos di dati in risorse più ampie e coerenti. Basandoci sull'MDFP, rilasciamo un portale interattivo di scoperta che consente l'integrazione automatizzata end-to-end dei dataset di immagini mediche, e raccogliamo tutti i dataset analizzati in una tabella unificata e strutturata che riassume chiaramente le loro caratteristiche chiave e fornisce link di riferimento, offrendo alla comunità un repository accessibile e completo. Tracciando il terreno attuale e offrendo un percorso strutturato per il consolidamento dei dataset, la nostra analisi fornisce una roadmap pratica per il ridimensionamento dei corpora di imaging medico, supportando una più rapida scoperta dei dati, una creazione dei dataset più strutturata e modelli di base medici più capaci.
I modelli di diffusione video su larga scala raggiungono un'impressionante qualità visiva, ma spesso non preservano la coerenza geometrica. Gli approcci precedenti migliorano la coerenza aumentando il generatore con moduli aggiuntivi o applicando un allineamento consapevole della geometria. Tuttavia, le modifiche architetturali possono compromettere la generalizzazione dei modelli preaddestrati su dati internet-scale, mentre i metodi di allineamento esistenti sono limitati a scene statiche e si basano su ricompense nello spazio RGB che richiedono una ripetuta decodifica VAE, comportando un sovraccarico computazionale sostanziale e fallendo nella generalizzazione a scene dinamiche del mondo reale. Per preservare la capacità preaddestrata migliorando al contempo la coerenza geometrica, proponiamo VGGRPO (Visual Geometry GRPO), un framework di post-addestramento video guidato dalla geometria nello spazio latente. VGGRPO introduce un Modello di Geometria Latente (LGM) che collega i latenti della diffusione video a modelli fondazionali di geometria, consentendo la decodifica diretta della geometria della scena dallo spazio latente. Costruendo l'LGM a partire da un modello di geometria con capacità di ricostruzione 4D, VGGRPO si estende naturalmente alle scene dinamiche, superando le limitazioni delle scene statiche dei metodi precedenti. Su questa base, eseguiamo un'ottimizzazione delle politiche relative di gruppo nello spazio latente con due ricompense complementari: una ricompensa di morbidezza del movimento della fotocamera che penalizza le traiettorie tremolanti, e una ricompensa di coerenza della riproiezione geometrica che impone una coerenza geometrica multi-vista. Esperimenti su benchmark statici e dinamici mostrano che VGGRPO migliora la stabilità della fotocamera, la coerenza geometrica e la qualità complessiva, eliminando al contempo la costosa decodifica VAE, rendendo il rinforzo guidato dalla geometria nello spazio latente un approccio efficiente e flessibile per la generazione video coerente con il mondo.
I modelli multimodali unificati forniscono un'architettura naturale e promettente per comprendere conoscenze reali diverse e complesse, generando al contempo immagini di alta qualità. Tuttavia, si basano ancora principalmente su conoscenze parametriche congelate, il che li porta a incontrare difficoltà nella generazione di immagini del mondo reale che coinvolgono concetti a coda lunga e ad alta intensità di conoscenza. Ispirati dall'ampio successo degli agenti nei compiti del mondo reale, esploriamo la modellazione agentica per affrontare questa limitazione. Nello specifico, presentiamo Unify-Agent, un agente multimodale unificato per la sintesi di immagini ancorate al mondo reale, che riformula la generazione di immagini come una pipeline agentica composta da comprensione del prompt, ricerca di evidenze multimodali, ricaptioning ancorato e sintesi finale. Per addestrare il nostro modello, costruiamo una pipeline di dati multimodali su misura e curiamo 143.000 traiettorie agentiche di alta qualità per la sintesi di immagini ancorate al mondo reale, consentendo una supervisione efficace sull'intero processo di generazione agentico. Introduciamo inoltre FactIP, un benchmark che copre 12 categorie di concetti fattuali culturalmente significativi e a coda lunga, che richiede esplicitamente un ancoraggio a conoscenze esterne. Esperimenti estesi mostrano che il nostro Unify-Agent proposto migliora sostanzialmente rispetto al suo modello base unificato su diversi benchmark e compiti di generazione del mondo reale, avvicinandosi alle capacità di conoscenza mondiale dei modelli proprietari più potenti. In quanto esplorazione pionieristica della modellazione basata su agenti per la sintesi di immagini ancorate al mondo reale, il nostro lavoro evidenzia il valore di un accoppiamento stretto tra ragionamento, ricerca e generazione per una sintesi agentica di immagini affidabile in un mondo aperto.
L'edizione di contenuti video con allineamento audio costituisce una forma d'arte digitale realizzata dall'uomo nell'attuale panorama dei social media. Tuttavia, la natura dispendiosa in termini di tempo e ripetitiva dell'edizione video manuale ha a lungo rappresentato una sfida sia per i cineasti che per i creatori di contenuti professionali. In questo articolo presentiamo CutClaw, un framework multi-agente autonomo progettato per trasformare riprese grezze di ore in video brevi e significativi, che sfrutta le capacità di modelli linguistici multimodali (MLLM) multipli come sistema di agenti. Il sistema produce video con musica sincronizzata, che seguono istruzioni specifiche e presentano un aspetto visivamente accattivante. Nel dettaglio, il nostro approccio inizia impiegando una scomposizione multimodale gerarchica che cattura sia i dettagli granulari che le strutture globali attraverso il materiale visivo e audio. Successivamente, per garantire la coerenza narrativa, un Agente Playwriter orchestra l'intero flusso narrativo e struttura la narrazione a lungo termine, ancorando le scene visive ai cambiamenti musicali. Infine, per costruire un video editato di breve durata, gli Agenti Editor e Reviewer ottimizzano collaborativamente il montaggio finale selezionando contenuti visivi granulari basandosi su rigorosi criteri estetici e semantici. Abbiamo condotto esperimenti dettagliati che dimostrano come CutClaw superi significativamente i baseline state-of-the-art nella generazione di video di alta qualità e allineati ritmicamente. Il codice è disponibile all'indirizzo: https://github.com/GVCLab/CutClaw.
La fase fondamentale di pretraining determina il limite superiore delle capacità di un modello, poiché l'addestramento successivo fatica a superare le fondamenta stabilite durante il pretraining, eppure questa fase rimane criticamente poco esplorata. Ciò deriva da un paradosso strutturale: le organizzazioni con risorse computazionali operano sotto pressioni commerciali che inibiscono la divulgazione trasparente, mentre le istituzioni accademiche possiedono libertà di ricerca ma mancano di risorse computazionali su scala di pretraining. daVinci-LLM occupa questa intersezione inesplorata, combinando risorse di scala industriale con piena libertà di ricerca per far progredire la scienza del pretraining. Adottiamo un paradigma completamente aperto che tratta l'apertura come metodologia scientifica, rilasciando le pipeline complete di elaborazione dei dati, i processi di addestramento completi e i risultati di esplorazione sistematica. Riconoscendo che il campo manca di una metodologia sistematica per l'elaborazione dei dati, impieghiamo il framework Data Darwinism, una tassonomia principiata L0-L9 che va dal filtraggio alla sintesi. Addestriamo un modello da 3 miliardi di parametri dall'inizializzazione casuale su 8T di token utilizzando un curriculum adattivo a due stadi che passa progressivamente da capacità fondamentali a un potenziamento intensivo sul ragionamento. Attraverso oltre 200 ablation study controllate, stabiliamo che: la profondità di elaborazione migliora sistematicamente le capacità, stabilendola come una dimensione critica insieme al scaling del volume; diversi domini mostrano dinamiche di saturazione distinte, necessitando di strategie adattive che vanno da aggiustamenti proporzionali a cambi di formato; l'equilibrio composizionale permette un'intensificazione mirata prevenendo il collasso delle prestazioni; come le scelte del protocollo di valutazione modellano la nostra comprensione dei progressi nel pretraining. Rilasciando il processo di esplorazione completo, permettiamo alla comunità di costruire sui nostri risultati e metodologie sistematiche per formare una conoscenza scientifica cumulativa nel pretraining.
I grandi modelli linguistici (LLM) possono generare catene di pensiero (CoT) che non sono sempre causalmente responsabili dei loro output finali. Quando si verifica una tale discrepanza, la CoT non riflette più fedelmente i fattori critici per la decisione che guidano il comportamento del modello, portando al problema della ridotta monitorabilità delle CoT. Tuttavia, manca ancora un benchmark completo e completamente open-source per studiare la monitorabilità delle CoT. Per colmare questa lacuna, proponiamo MonitorBench, un benchmark sistematico per valutare la monitorabilità delle CoT negli LLM. MonitorBench fornisce: (1) un insieme diversificato di 1.514 istanze di test con fattori critici per la decisione accuratamente progettati, relativi a 19 attività che coprono 7 categorie, per caratterizzare quando le CoT possono essere utilizzate per monitorare i fattori che guidano il comportamento degli LLM; e (2) due impostazioni di stress-test per quantificare la misura in cui la monitorabilità delle CoT può essere degradata. Esperimenti approfonditi su molteplici LLM popolari con capacità variabili mostrano che la monitorabilità delle CoT è più elevata quando la produzione della risposta target finale richiede un ragionamento strutturato attraverso il fattore critico per la decisione. Gli LLM closed-source mostrano generalmente una monitorabilità inferiore e esiste una relazione negativa tra monitorabilità e capacità del modello. Inoltre, sia gli LLM open-source che quelli closed-source possono ridurre intenzionalmente la monitorabilità sotto stress-test, con un calo della monitorabilità fino al 30% in alcune attività che non richiedono un ragionamento strutturato sui fattori critici per la decisione. Oltre a queste intuizioni empiriche, MonitorBench fornisce una base per ulteriori ricerche sulla valutazione dei futuri LLM, sullo studio di tecniche avanzate di monitorabilità sotto stress-test e sullo sviluppo di nuovi approcci di monitoraggio.
In questo articolo proponiamo Extend3D, una pipeline senza fase di addestramento per la generazione di scene 3D a partire da una singola immagine, basata su un modello generativo 3D object-centric. Per superare le limitazioni degli spazi latenti di dimensione fissa nei modelli object-centric nella rappresentazione di scene ampie, estendiamo lo spazio latente lungo le direzioni x e y. Successivamente, suddividendo lo spazio latente esteso in patch sovrapposte, applichiamo il modello generativo 3D object-centric a ciascuna patch e le accoppiamo ad ogni passo temporale. Poiché la generazione 3D per patch con condizionamento tramite immagine richiede un allineamento spaziale rigoroso tra le patch dell'immagine e quelle latenti, inizializziamo la scena utilizzando una precedente di nuvola di punti da un estimatore di profondità monoculare e raffi niamo iterativamente le regioni occluse tramite SDEdit. Abbiamo scoperto che trattare l'incompletezza della struttura 3D come rumore durante il raffinamento 3D permette il completamento 3D attraverso un concetto che definiamo under-noising. Inoltre, per affrontare la sub-ottimalità dei modelli object-centric nella generazione di sotto-scene, ottimizziamo lo spazio latente esteso durante il denoising, assicurando che le traiettorie di denoising rimangano coerenti con la dinamica della sotto-scena. A tal fine, introduciamo obiettivi di ottimizzazione 3D-aware per migliorare la struttura geometrica e la fedeltà della texture. Dimostriamo che il nostro metodo produce risultati migliori rispetto ai metodi precedenti, come evidenziato dal preference umano e da esperimenti quantitativi.
La generazione di idee scientifiche (SIG) è fondamentale per la ricerca autonoma guidata dall'intelligenza artificiale, tuttavia gli approcci esistenti sono spesso limitati da un paradigma statico di recupero-e-generazione, che porta a idee omogenee e insufficientemente divergenti. In questo lavoro, proponiamo FlowPIE, un framework accoppiato di recupero-generazione che tratta l'esplorazione della letteratura e la generazione di idee come un processo co-evolutivo. FlowPIE espande le traiettorie letterarie attraverso una Ricerca ad Albero di Monte Carlo (MCTS) guidata da flussi, ispirata alle GFlowNets, utilizzando la qualità delle idee correnti – valutata da un modello di ricompensa generativa (GRM) basato su LLM – come segnale supervisionato per guidare il recupero adattivo e costruire una popolazione iniziale diversificata e di alta qualità. Sulla base di questa popolazione, FlowPIE modella la generazione di idee come un processo di evoluzione delle idee al tempo di test, applicando selezione, crossover e mutazione con il paradigma delle isole di isolamento e il calcolo dell'idoneità basato sul GRM per incorporare conoscenze transdisciplinari. Mitiga efficacemente le camere d'eco informative che derivano dalla sovradipendenza dalla conoscenza parametrica e dalla letteratura statica. Valutazioni estensive dimostrano che FlowPIE produce costantemente idee con maggiore novità, fattibilità e diversità rispetto a solidi framework basati su LLM e agenti, consentendo al contempo il ridimensionamento della ricompensa durante il tempo di test.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) per il ragionamento si sono basati principalmente sul *pensiero anticipato*, in cui il ragionamento avviene prima della risposta finale. Tuttavia, questo approccio presenta limitazioni critiche nella generazione di codice, dove il pensiero anticipato è spesso insufficiente poiché la complessità completa dei problemi si rivela solo durante l'implementazione del codice. Inoltre, non è in grado di allocare adattativamente lo sforzo di ragionamento durante il processo di generazione del codice, dove la difficoltà varia significativamente. In questo articolo, proponiamo Think-Anywhere, un nuovo meccanismo di ragionamento che consente agli LLM di invocare il pensiero on-demand in qualsiasi posizione token durante la generazione del codice. Realizziamo Think-Anywhere prima insegnando agli LLM a imitare i pattern di ragionamento attraverso un addestramento *cold-start*, per poi sfruttare ricompense RL basate sui risultati per guidare l'esplorazione autonoma del modello su quando e dove invocare il ragionamento. Esperimenti estesi su quattro benchmark principali di generazione di codice (ovvero LeetCode, LiveCodeBench, HumanEval e MBPP) mostrano che Think-Anywhere raggiunge prestazioni allo stato dell'arte sia rispetto ai metodi di ragionamento esistenti che agli approcci recenti di *post-training*, dimostrando al contempo una generalizzazione coerente su diversi LLM. La nostra analisi rivela inoltre che Think-Anywhere consente al modello di invocare adattivamente il ragionamento in posizioni ad alta entropia, fornendo una migliore interpretabilità.
I recenti progressi nei modelli di generazione di immagini hanno ampliato le loro applicazioni oltre la creazione di immagini estetiche verso la produzione di contenuti visivi pratici. Tuttavia, i benchmark esistenti si concentrano principalmente sulla sintesi di immagini naturali e non riescono a valutare sistematicamente i modelli in base alle esigenze strutturate e multi-vincolo tipiche dei compiti di design commerciale del mondo reale. In questo lavoro, presentiamo BizGenEval, un benchmark sistematico per la generazione di contenuti visivi commerciali. Il benchmark copre cinque tipi di documento rappresentativi: presentazioni, grafici, pagine web, poster e figure scientifiche, e valuta quattro dimensioni chiave delle capacità: rendering del testo, controllo del layout, associazione di attributi e ragionamento basato sulla conoscenza, formando 20 diverse attività di valutazione. BizGenEval contiene 400 prompt accuratamente curati e 8000 domande di verifica controllate da esseri umani per valutare rigorosamente se le immagini generate soddisfano vincoli visivi e semantici complessi. Abbiamo condotto un benchmarking su larga scala di 26 sistemi di generazione di immagini popolari, incluse API commerciali all'avanguardia e modelli open-source leader. I risultati rivelano divari sostanziali tra le capacità dei modelli generativi attuali e i requisiti della creazione professionale di contenuti visivi. Speriamo che BizGenEval serva come benchmark standardizzato per la generazione di contenuti visivi commerciali nel mondo reale.
La capacità di trasformare un foglio piatto in una struttura tridimensionale complessa rappresenta una prova fondamentale dell'intelligenza fisica. A differenza della manipolazione di tessuti, l'origami è governato da assiomi geometrici rigorosi e vincoli cinematici rigidi, dove una singola piega non valida o una collisione può invalidare l'intera sequenza di piegatura. Di conseguenza, l'origami richiede un ragionamento costruttivo a lungo termine che soddisfi congiuntamente leggi fisiche precise e un'intenzione semantica di alto livello. Gli approcci esistenti ricadono in due paradigmi separati: i metodi basati sull'ottimizzazione impongono la validità fisica ma richiedono input densi e precisamente specificati, rendendoli inadatti per descrizioni linguistiche naturali sparse, mentre i modelli generativi foundation eccellono nella sintesi semantica e percettiva, ma non riescono a produrre processi di piegatura a lungo termine e fisicamente coerenti. Conseguentemente, generare sequenze di piegatura origami valide direttamente dal testo rimane una sfida aperta. Per colmare questa lacuna, introduciamo Learn2Fold, un framework neuro-simbolico che formula la piegatura origami come induzione condizionata di programmi su un grafo del pattern di pieghe. La nostra intuizione chiave è disaccoppiare la proposta semantica dalla verifica fisica. Un grande modello linguistico genera programmi di piegatura candidati da prompt testuali astratti, mentre un modello di mondo appreso con struttura a grafo funge da simulatore surrogato differenziabile che prevede la fattibilità fisica e le modalità di fallimento prima dell'esecuzione. Integrato in un ciclo di pianificazione con lookahead, Learn2Fold consente la generazione robusta di sequenze di piegatura fisicamente valide per pattern complessi e fuori distribuzione, dimostrando che un'efficace intelligenza spaziale nasce dalla sinergia tra ragionamento simbolico e simulazione fisica fondata.
I sistemi incentrati sulla percezione sono tipicamente implementati con una pipeline modulare encoder-decoder: un backbone visivo per l'estrazione di caratteristiche e un decoder separato (o modulo di fusione tardiva) per la previsione del compito. Ciò solleva una domanda centrale: questa separazione architetturale è essenziale o può un singolo stack a fusione precoce svolgere sia la modellazione della percezione che quella del compito su larga scala? Introduciamo Falcon Perception, un Transformer denso unificato che elabora patch di immagini e token di testo in uno spazio dei parametri condiviso fin dal primo strato, utilizzando uno schema di attenzione ibrido (bidirezionale tra i token immagine, causale per i token di previsione) per combinare il contesto visivo globale con una generazione di istanze autoregressiva e a lunghezza variabile. Per mantenere pratici gli output densi, Falcon Perception conserva un'interfaccia token leggera e decodifica output spaziali continui con testine specializzate, consentendo la previsione parallela di maschere ad alta risoluzione. Il nostro design promuove la semplicità: manteniamo un unico backbone scalabile e spostiamo la complessità verso i dati e i segnali di addestramento, aggiungendo solo piccole testine dove gli output sono continui e densi. Su SA-Co, Falcon Perception migliora la qualità delle maschere portandola a 68.0 Macro-F_1 rispetto al 62.3 di SAM3. Introduciamo anche PBench, un benchmark che si concentra su prompt composizionali (OCR, vincoli spaziali, relazioni) e regimi di contesto lungo denso, dove il modello mostra migliori guadagni. Infine, estendiamo la stessa ricetta a fusione precoce a Falcon OCR: un modello compatto da 300 milioni di parametri che raggiunge l'80.3% su olmOCR e 88.64 su OmniDocBench.
I grandi modelli linguistici falliscono sistematicamente quando un indizio superficiale saliente entra in conflitto con un vincolo di fattibilità non dichiarato. Studiamo questo fenomeno attraverso un framework diagnostica-misura-ponte-trattamento. L'analisi causale-comportamentale del "problema del lavaggio auto" su sei modelli rivela euristiche sigmoidali approssimativamente indipendenti dal contesto: l'indizio della distanza esercita un'influenza da 8,7 a 38 volte maggiore rispetto all'obiettivo, e l'attribuzione a livello di token mostra pattern più coerenti con associazioni di parole chiave che con inferenze composizionali. L'Heuristic Override Benchmark (HOB) – 500 istanze che abbracciano 4 famiglie di euristiche per 5 famiglie di vincoli con coppie minime e gradienti di esplicitazione – dimostra la generalità su 14 modelli: sotto valutazione rigorosa (10/10 corrette), nessun modello supera il 75%, e i vincoli di presenza sono i più difficili (44%). Un suggerimento minimo (ad esempio, enfatizzare l'oggetto chiave) recupera in media +15 punti percentuali, suggerendo che il fallimento risieda nell'inferenza del vincolo piuttosto che nella mancanza di conoscenza; 12/14 modelli performano peggio quando il vincolo viene rimosso (fino a -39 pp), rivelando un bias conservativo. Le sonde parametriche confermano che il pattern sigmoidale si generalizza a euristiche di costo, efficienza e similarità semantica; il prompting con scomposizione dell'obiettivo recupera da +6 a 9 pp costringendo i modelli a enumerare i prerequisiti prima di rispondere. Nel complesso, questi risultati caratterizzano l'override euristico come una vulnerabilità sistematica del ragionamento e forniscono un benchmark per misurare i progressi verso la sua risoluzione.
L'addestramento continuo pre-training è ampiamente utilizzato per adattare i LLM a lingue e domini target, tuttavia il rapporto di miscelazione dei dati di addestramento rimane un iperparametro sensibile e costoso da ottimizzare: questi rapporti devono essere fissati prima dell'inizio dell'addestramento, e una scelta non ottimale può sprecare settimane di potenza di calcolo. In questo lavoro, proponiamo OptiMer, che disaccoppia la selezione del rapporto dall'addestramento: addestriamo un modello CPT per ogni dataset, estraiamo il vettore di distribuzione di ciascun modello, che rappresenta lo spostamento parametrico indotto da quel dataset, e cerchiamo i pesi di composizione ottimali post-hoc tramite ottimizzazione bayesiana. Esperimenti su Gemma 3 27B su lingue (giapponese, cinese) e domini (Matematica, Codice) mostrano che OptiMer supera costantemente i baseline di miscela di dati e media dei modelli con un costo di ricerca inferiore di 15-35 volte. I risultati chiave rivelano che 1) i pesi ottimizzati possono essere interpretati come rapporti di miscela dei dati, e il riaddestramento con questi rapporti migliora il CPT con miscela di dati, e 2) lo stesso pool di vettori può essere ri-ottimizzato per un dato obiettivo senza alcun riaddestramento, producendo modelli su misura per il target on-demand. Il nostro lavoro stabilisce che la selezione del rapporto di miscela dei dati, tradizionalmente una decisione pre-addestramento, può essere riformulata come un'ottimizzazione post-hoc su vettori di distribuzione, offrendo un paradigma più flessibile per l'addestramento continuo pre-training.
I recenti modelli multimodali per la generazione di volti affrontano le limitazioni del controllo spaziale dei modelli di diffusione testo-immagine integrando il condizionamento testuale con informazioni spaziali come maschere di segmentazione, schizzi o mappe dei bordi. Questa fusione multimodale consente una sintesi controllata allineata sia con l'intento semantico di alto livello che con il layout strutturale di basso livello. Tuttavia, la maggior parte degli approcci esistenti estende generalmente le pipeline pre-addestrate testo-immagine aggiungendo moduli di controllo ausiliari o unendo insieme reti separate unimodali. Questi progetti ad hoc ereditano vincoli architetturali, duplicano parametri e spesso falliscono in caso di modalità conflittuali o spazi latenti non corrispondenti, limitando la loro capacità di eseguire una fusione sinergica tra domini semantici e spaziali. Introduciamo MMFace-DiT, un transformer di diffusione dual-stream unificato progettato per la sintesi multimodale sinergica di volti. La sua principale novità risiede in un blocco transformer dual-stream che elabora in parallelo i token spaziali (maschera/schizzo) e semantici (testo), fondendoli profondamente attraverso un meccanismo di attenzione condiviso basato su Rotary Position Embedding (RoPE). Questo progetto previene la dominanza modale e garantisce una forte aderenza sia al testo che ai priors strutturali, raggiungendo una coerenza spaziale-semantica senza precedenti per la generazione controllata di volti. Inoltre, un nuovo Modality Embedder consente a un unico modello coeso di adattarsi dinamicamente a varie condizioni spaziali senza bisogno di riaddestramento. MMFace-DiT raggiunge un miglioramento del 40% nella fedeltà visiva e nell'allineamento al prompt rispetto a sei modelli multimodali all'avanguardia per la generazione di volti, stabilendo un nuovo paradigma flessibile per la modellazione generativa controllata end-to-end. Il codice e il dataset sono disponibili sulla nostra pagina progetto: https://vcbsl.github.io/MMFace-DiT/
I modelli generativi video hanno fatto progressi significativi nella sintesi foto-realistica di condizioni meteorologiche avverse per la guida autonoma; tuttavia, richiedono costantemente dataset massicci per apprendere scenari meteorologici rari. Sebbene i metodi di editing 3D-aware allevino questi vincoli di dati aumentando i filmati video esistenti, sono fondamentalmente limitati da una costosa ottimizzazione per scena e soffrono di un'inestricabile entanglement geometrico e illuminotecnico intrinseco. In questo lavoro, introduciamo AutoWeather4D, un framework di editing meteorologico 3D-aware feed-forward progettato per disaccoppiare esplicitamente geometria e illuminazione. Al centro del nostro approccio c'è un meccanismo di G-buffer Dual-pass Editing. Il Geometry Pass sfrutta fondazioni strutturali esplicite per abilitare interazioni fisiche ancorate alla superficie, mentre il Light Pass risolve analiticamente il trasporto della luce, accumulando i contributi degli illuminanti locali nell'illuminazione globale per abilitare un re-illuminazione locale 3D dinamica. Esperimenti estensivi dimostrano che AutoWeather4D raggiunge un foto-realismo e una coerenza strutturale comparabili ai baseline generativi, abilitando al contempo un controllo fisico parametrico granulare, servendo come un pratico motore di dati per la guida autonoma.
I modelli linguistici di grandi dimensioni (LLM) sono ampiamente utilizzati come basi conoscitive per i Modelli Linguistici Audio di Grande Dimensione (LALM), ma rimane poco chiaro quanta conoscenza uditiva essi codifichino attraverso il pre-addestramento esclusivamente testuale e come questo influisca sulle prestazioni a valle. Studiamo questa lacuna confrontando diversi LLM in tre contesti: due basati solo su testo e uno basato sull'audio: (1) probing diretto su AKB-2000, un benchmark curato che testa l'ampiezza e la profondità della conoscenza uditiva; (2) valutazione a cascata, in cui gli LLM ragionano su descrizioni testuali provenienti da un captioner audio; e (3) valutazione basata sull'audio, in cui ogni LLM viene fine-tuned per diventare un LALM con un encoder audio. I nostri risultati rivelano che la conoscenza uditiva varia sostanzialmente tra le diverse famiglie di modelli, e i risultati ottenuti solo con il testo sono fortemente correlati con le prestazioni audio. Il nostro lavoro fornisce un fondamento empirico per una comprensione completa degli LLM nella ricerca audio.
L'acquisizione di dataset annotati per la stima della mesh umana 3D è complessa a causa delle ambiguità di profondità e della difficoltà intrinseca di annotare la geometria 3D a partire da immagini monoculari. I dataset esistenti sono di due tipi: reali, con geometria 3D annotata manualmente e di scala limitata, o sintetici, generati da motori 3D che forniscono etichette precise ma soffrono di fotorealismo limitato, bassa diversità e alti costi di produzione. In questo lavoro, esploriamo una terza via: i dati generati. Introduciamo PoseDreamer, una pipeline innovativa che sfrutta i modelli di diffusione per generare dataset sintetici su larga scala con annotazioni di mesh 3D. Il nostro approccio combina la generazione controllata di immagini con l'ottimizzazione diretta delle preferenze per l'allineamento del controllo, il mining di campioni difficili basato su curriculum e un filtraggio di qualità multi-stadio. Insieme, questi componenti mantengono naturalmente la corrispondenza tra le etichette 3D e le immagini generate, privilegiando al contempo i campioni più impegnativi per massimizzare l'utilità del dataset. Utilizzando PoseDreamer, abbiamo generato oltre 500.000 campioni sintetici di alta qualità, ottenendo un miglioramento del 76% nelle metriche di qualità dell'immagine rispetto ai dataset basati sul rendering. I modelli addestrati su PoseDreamer raggiungono prestazioni paragonabili o superiori a quelli addestrati su dataset del mondo reale e sintetici tradizionali. Inoltre, combinare PoseDreamer con dataset sintetici tradizionali produce prestazioni migliori rispetto alla combinazione di dataset reali e sintetici, dimostrando la natura complementare del nostro dataset. Rilasceremo il dataset completo e il codice di generazione.
Introduciamo VectorGym, una suite di benchmark completa per la grafica vettoriale scalabile (SVG) che abbraccia la generazione a partire da testo e schizzi, l'editing complesso e la comprensione visiva. VectorGym affronta la carenza di benchmark realistici e stimolanti allineati con i flussi di lavoro del design professionale. Il nostro benchmark comprende quattro task con annotazioni esperte redatte da umani: il nuovo task Sketch2SVG (VG-Sketch); un nuovo dataset per l'editing SVG (VG-Edit) che presenta modifiche complesse e multi-step con primitive di ordine superiore; la generazione Text2SVG (VG-Text); e la descrizione di immagini SVG (VG-Cap). A differenza dei benchmark precedenti che si basano su modifiche sintetiche, VectorGym fornisce annotazioni gold-standard umane che richiedono una comprensione semantica e l'intento progettuale. Proponiamo anche un approccio di apprendimento per rinforzo multi-task che ottimizza congiuntamente tutti e quattro i task utilizzando ricompense basate sul rendering. Il nostro metodo, basato su GRPO con apprendimento per curriculum, addestra un modello Qwen3-VL 8B che raggiunge prestazioni state-of-the-art tra i modelli open-source, superando modelli molto più grandi, incluso Qwen3-VL 235B, e pareggiando GPT-4o. Introduciamo inoltre una metrica VLM-as-a-Judge per la generazione SVG, validata attraverso studi di correlazione umana. La nostra valutazione dei VLM di frontiera rivela significativi gap prestazionali, posizionando VectorGym come un framework rigoroso per far progredire la generazione di codice visivo. VectorGym è pubblicamente disponibile su huggingface.co/datasets/ServiceNow/VectorGym.
La manipolazione multimodale di immagini basata su istruzioni ha recentemente compiuto rapidi progressi. Tuttavia, i metodi di valutazione esistenti mancano di un quadro sistematico e allineato all'umano per valutare le prestazioni dei modelli in compiti di editing complessi e creativi. Per colmare questa lacuna, proponiamo CREval, una pipeline di valutazione automatizzata basata su domande-risposte (QA) che supera l'incompletezza e la scarsa interpretabilità della valutazione opaca tramite Modelli Linguistici Multimodali (MLLM). Contemporaneamente, introduciamo CREval-Bench, un benchmark completo specificamente progettato per la manipolazione creativa di immagini sotto istruzioni complesse. CREval-Bench copre tre categorie e nove dimensioni creative, comprendendo oltre 800 campioni di editing e 13.000 query di valutazione. Sfruttando questa pipeline e benchmark, valutiamo sistematicamente una serie diversificata di modelli all'avanguardia open-source e proprietari. I risultati rivelano che, sebbene i modelli proprietari superino generalmente quelli open-source nei compiti complessi e creativi, tutti i modelli faticano ancora a completare efficacemente tali modifiche. Inoltre, studi sugli utenti dimostrano una forte coerenza tra le metriche automatizzate di CREval e i giudizi umani. Pertanto, CREval fornisce una base affidabile per valutare i modelli di editing di immagini su compiti di manipolazione complessi e creativi, ed evidenzia le principali sfide e opportunità per la ricerca futura.
La generazione di mondi 3D illimitati sta emergendo come un compito fondamentale per la modellazione di scene nella computer vision, nella grafica e nella robotica. In questo lavoro, presentiamo WorldFlow3D, un metodo innovativo in grado di generare mondi 3D illimitati. Basandoci su una proprietà fondamentale del *flow matching* - ovvero la definizione di un percorso di trasporto tra due distribuzioni di dati - modelliamo la generazione 3D in modo più generale come un problema di flusso attraverso distribuzioni di dati 3D, non limitato al *denoising* condizionale. Rileviamo che il nostro approccio *latent-free flow* genera una struttura 3D causale e accurata e può utilizzarla come distribuzione intermedia per guidare la generazione di strutture più complesse e texture di alta qualità, il tutto convergendo più rapidamente rispetto ai metodi esistenti. Abilitiamo la controllabilità sulle scene generate mediante condizioni di layout di scena vettorizzate per il controllo della struttura geometrica e il controllo della texture visiva attraverso attributi della scena. Confermiamo l'efficacia di WorldFlow3D sia su scene reali di guida all'aperto che su scene indoor sintetiche, validando la generalizzabilità cross-dominio e una generazione di alta qualità su distribuzioni di dati reali. Riconfermiamo una fedeltà di generazione della scene favorevole rispetto agli approcci in tutti gli ambienti testati per la generazione di scene illimitate. Per maggiori informazioni, consultare https://light.princeton.edu/worldflow3d.
La valutazione accurata della privacy dei dati testuali rimane una sfida critica nell'elaborazione del linguaggio naturale preservando la riservatezza. Recenti lavori hanno dimostrato che i grandi modelli linguistici (LLM) possono fungere da valutatori affidabili della privacy, raggiungendo un forte accordo con i giudizi umani; tuttavia, il loro costo computazionale e l'impraticabilità per l'elaborazione su larga scala di dati sensibili ne limitano l'adozione reale. Colmiamo questa lacuna distillando le capacità di valutazione della privacy di Mistral Large 3 (675B) in modelli encoder leggeri con appena 150 milioni di parametri. Sfruttando un dataset su larga scala di testi annotati per la privacy che copre 10 domini diversi, addestriamo classificatori efficienti che preservano un forte accordo con le annotazioni umane riducendo drasticamente i requisiti computazionali. Convalidiamo il nostro approccio su dati di test annotati da esseri umani e ne dimostriamo l'utilità pratica come metrica di valutazione per i sistemi di de-identificazione.
I metodi esistenti per le interazioni mano-oggetto (HOI) sono largamente limitati agli oggetti rigidi, mentre i metodi di ricostruzione 4D per oggetti articolati richiedono generalmente una pre-scansione dell'oggetto o persino video multi-vista. Ricostruire interazioni 4D tra umani e oggetti articolati a partire da un singolo video RGB monoculare rimane una sfida inesplorata ma significativa. Fortunatamente, i recenti progressi nei modelli fondazionali presentano una nuova opportunità per affrontare questo problema altamente mal posto. A tal fine, introduciamo ArtHOI, un framework basato sull'ottimizzazione che integra e affina i priori provenienti da molteplici modelli fondazionali. Il nostro contributo principale è una serie di metodologie innovative progettate per risolvere le intrinseche imprecisioni e la mancanza di realismo fisico di questi priori. In particolare, introduciamo un metodo di Raffinamento Campionamento Adattivo (ASR) per ottimizzare la scala metrica e la posa dell'oggetto per ancorarne la mesh normalizzata nello spazio mondo. Inoltre, proponiamo un metodo di allineamento mano-oggetto guidato da un Modello Linguistico Multimodale di Grande Dimensione (MLLM), che utilizza informazioni di ragionamento sul contatto come vincoli per l'ottimizzazione della composizione delle mesh mano-oggetto. Per facilitare una valutazione completa, contribuiamo anche con due nuovi dataset, ArtHOI-RGBD e ArtHOI-Wild. Esperimenti estensivi convalidano la robustezza e l'efficacia del nostro ArtHOI su oggetti e interazioni diversificati. Progetto: https://arthoi-reconstruction.github.io.
I modelli visione-linguaggio (VLM) sono stati ampiamente adottati per il task di question answering 3D (3D QA). Nelle pipeline tipiche, i token visivi estratti da più punti di vista vengono concatenati con i token linguistici ed elaborati congiuntamente da un grande modello linguistico (LLM) per l'inferenza. Tuttavia, l'aggregazione di osservazioni multi-vista introduce inevitabilmente una severa ridondanza di token, portando a un insieme di token visivi eccessivamente grande che ostacola significativamente l'efficienza inferenziale sotto vincoli di budget di token. La potatura dei token visivi è emersa come una strategia prevalente per affrontare questo problema. Ciononostante, la maggior parte dei potatori esistenti è principalmente concepita per input 2D o si affida a indizi geometrici indiretti, il che limita la loro capacità di trattenere esplicitamente oggetti semanticamente critici e mantenere una copertura spaziale sufficiente per un ragionamento 3D robusto. In questo articolo, proponiamo SeGPruner, un framework di riduzione dei token guidato dalla semantica e dalla geometria per un efficiente 3D QA con immagini multi-vista. Nello specifico, SeGPruner preserva inizialmente i token semanticamente salienti attraverso un modulo di importanza basato sull'attenzione (Selettore di Token basato sulla Salienza), assicurando che le evidenze critiche relative agli oggetti siano mantenute. Successivamente, integra questi token con altri spazialmente diversificati tramite un selettore guidato dalla geometria (Diversificatore di Token basato sulla Geometria), che considera congiuntamente la rilevanza semantica e la distanza geometrica 3D. Questa cooperazione tra preservazione della salienza e diversificazione guidata dalla geometria bilancia le evidenze a livello di oggetto e la copertura globale della scena sotto una riduzione aggressiva dei token. Esperimenti estensivi su ScanQA e OpenEQA dimostrano che SeGPruner migliora sostanzialmente l'efficienza inferenziale, riducendo il budget dei token visivi del 91% e la latenza inferenziale dell'86%, pur mantenendo prestazioni competitive nei task di ragionamento 3D.
Lo screening precoce tramite colonscopia è fondamentale per la prevenzione del cancro al colon, tuttavia lo sviluppo di sistemi di IA robusti per questo ambito è ostacolato dalla carenza di dataset video di sequenze lunghe e densamente annotate. I dataset esistenti si concentrano prevalentemente sul rilevamento di polipi a classe singola e mancano delle ricche annotazioni spaziali, temporali e linguistiche necessarie per valutare i moderni Modelli Linguistici Multimodali di Grande Dimensione (MLLM). Per colmare questa lacuna critica, introduciamo Colon-Bench, generato tramite un innovativo workflow agente multi-stadio. La nostra pipeline integra in modo fluido proposte temporali, tracciamento dei bounding-box, conferma visiva guidata dall'IA e revisione umana in-the-loop per annotare in modo scalabile video di procedure complete. Il benchmark verificato risultante è senza precedenti per portata, comprendendo 528 video, 14 distinte categorie di lesioni (inclusi polipi, ulcere e sanguinamenti), oltre 300.000 bounding box, 213.000 maschere di segmentazione e 133.000 parole di descrizioni cliniche. Utilizziamo Colon-Bench per valutare rigorosamente gli MLLM all'avanguardia in compiti di classificazione delle lesioni, Segmentazione di Oggetti Video Open-Vocabulary (OV-VOS) e Video Visual Question Answering (VQA). I risultati degli MLLM dimostrano una performance di localizzazione sorprendentemente elevata negli ambiti medici rispetto a SAM-3. Infine, analizziamo gli errori VQA comuni degli MLLM per introdurre una nuova strategia di prompting "colon-skill", che migliora le prestazioni zero-shot degli MLLM fino al 9,7% nella maggior parte dei modelli. Il dataset e il codice sono disponibili al sito https://abdullahamdi.com/colon-bench.
Le architetture Transformer, in particolare i Diffusion Transformer (DiT), sono diventate ampiamente utilizzate nei modelli di diffusione e di flow-matching grazie alle loro prestazioni superiori rispetto alle UNet convoluzionali. Tuttavia, la progettazione isotropa dei DiT elabora lo stesso numero di token suddivisi in patch in ogni blocco, comportando un calcolo relativamente oneroso durante il processo di addestramento. In questo lavoro, introduciamo una progettazione transformer multi-patch in cui i blocchi iniziali operano su patch più grandi per catturare il contesto globale approssimativo, mentre i blocchi successivi utilizzano patch più piccole per rifinire i dettagli locali. Questa progettazione gerarchica può ridurre il costo computazionale fino al 50\% in termini di GFLOPs, raggiungendo al contempo buone prestazioni generative. Inoltre, proponiamo anche progetti migliorati per gli embedding temporali e di classe che accelerano la convergenza dell'addestramento. Esperimenti estesi sul dataset ImageNet dimostrano l'efficacia delle nostre scelte architetturali. Il codice è rilasciato all'indirizzo https://github.com/quandao10/MPDiT.
Il LiDAR è diventato una modalità di rilevamento essenziale per la guida autonoma, la robotica e le applicazioni di smart city. Tuttavia, i punti fantasma (o ghost), ovvero falsi riflessi causati da rimbalzi laser multi-percorso su superfici di vetro e riflettenti, degradano gravemente l'accuratezza della mappatura e della localizzazione 3D. I precedenti metodi di rimozione dei ghost si basano sulla consistenza geometrica in nuvole di punti dense, fallendo sui dati dinamici e sparsi del LiDAR mobile. Noi affrontiamo questo problema sfruttando il LiDAR a forma d'onda completa (FWL), che cattura i profili di intensità temporali completi, e non solo le distanze di picco, fornendo indizi cruciali per distinguere i ghost dai riflessi genuini in scenari mobili. Trattandosi di un compito nuovo, presentiamo Ghost-FWL, il primo e più grande dataset FWL mobile annotato per il rilevamento e la rimozione dei ghost. Ghost-FWL comprende 24.000 frame in 10 scenari diversi con 7,5 miliardi di annotazioni a livello di picco, risultando 100 volte più grande dei dataset FWL annotati esistenti. Grazie a questo dataset su larga scala, stabiliamo un modello di base basato su FWL per il rilevamento dei ghost e proponiamo FWL-MAE, un autoencoder mascherato per un efficiente apprendimento auto-supervisionato delle rappresentazioni sui dati FWL. Gli esperimenti dimostrano che il nostro modello di base supera i metodi esistenti in accuratezza di rimozione dei ghost, e la nostra rimozione dei ghost migliora ulteriormente compiti a valle come lo SLAM basato su LiDAR (riduzione del 66% dell'errore di traiettoria) e il rilevamento di oggetti 3D (riduzione di 50 volte dei falsi positivi). Il dataset e il codice sono pubblicamente disponibili e accessibili tramite la pagina del progetto: https://keio-csg.github.io/Ghost-FWL.
I materiali educativi per i pazienti riguardanti il trapianto di organi solidi variano notevolmente tra i centri statunitensi, ma non esiste un metodo sistematico per quantificare questa eterogeneità su larga scala. Introduciamo un framework che ancorando le stesse domande del paziente ai manuali di diversi centri, utilizzando modelli linguistici potenziati dal retrieval, confronta le risultanze risposte utilizzando una tassonomia di consistenza a cinque etichette. Applicato a 102 manuali provenienti da 23 centri e a 1.115 domande di benchmark, il framework quantifica l'eterogeneità lungo quattro dimensioni: domanda, argomento, organo e centro. Rileviamo che il 20,8% dei confronti a coppie non assenti presenta una divergenza clinicamente significativa, concentrata negli argomenti di monitoraggio delle condizioni e stile di vita. Le lacune nella copertura sono ancora più evidenti: il 96,2% delle coppie domanda-manuale presenta contenuti rilevanti mancanti, con la salute riproduttiva al 95,1% di assenza. I profili di divergenza a livello di centro sono stabili e interpretabili, dove l'eterogeneità riflette differenze istituzionali sistematiche, verosimilmente dovute alla diversità dei pazienti. Questi risultati mettono in luce un divario informativo nei materiali educativi per i pazienti trapiantati, con il question answering medico ancorato ai documenti che evidenzia opportunità di miglioramento dei contenuti.
Gli artefatti di flicker, derivanti da un'illuminazione instabile e da incoerenze nell'esposizione riga per riga, rappresentano una sfida significativa nella fotografia a breve esposizione, degradando gravemente la qualità dell'immagine. A differenza di artefatti tipici, come il rumore e la scarsa illuminazione, il flicker è un degrado strutturato con specifici pattern spazio-temporali, che non sono considerati negli attuali framework di restauro generici, portando a una soppressione subottimale del flicker e ad artefatti di ghosting. In questo lavoro, riveliamo che gli artefatti di flicker presentano due caratteristiche intrinseche, periodicità e direzionalità, e proponiamo Flickerformer, un'architettura basata su transformer che rimuove efficacemente il flicker senza introdurre ghosting. Nello specifico, Flickerformer comprende tre componenti chiave: un modulo di fusione basato sulla fase (PFM), una rete feed-forward di autocorrelazione (AFFN) e un modulo di attenzione direzionale basato su wavelet (WDAM). Basandosi sulla periodicità, il PFM esegue una correlazione di fase inter-frame per aggregare in modo adattivo le caratteristiche del burst, mentre l'AFFN sfrutta le regolarità strutturali intra-frame attraverso l'autocorrelazione, migliorando congiuntamente la capacità della rete di percepire pattern ricorrenti spazialmente. Inoltre, motivati dalla direzionalità degli artefatti di flicker, il WDAM sfrutta le variazioni in alta frequenza nel dominio wavelet per guidare il restauro delle regioni scure in bassa frequenza, producendo una localizzazione precisa degli artefatti di flicker. Esperimenti approfonditi dimostrano che Flickerformer supera gli approcci allo stato dell'arte sia nelle metriche quantitative che nella qualità visiva. Il codice sorgente è disponibile all'indirizzo https://github.com/qulishen/Flickerformer.
I sistemi di riconoscimento vocale basati su LLM (Large Language Model) tipicamente elaborano gli enunciati in modo isolato, limitando la loro capacità di sfruttare il contesto conversazionale. In questo lavoro, studiamo se il contesto multimodale proveniente dai turni precedenti migliori l'ASR basato su LLM e come rappresentare tale contesto in modo efficiente. Scopriamo che, dopo un addestramento supervisionato multi-turno, il contesto conversazionale aiuta principalmente nel riconoscimento di entità contestuali. Tuttavia, il condizionamento sul contesto grezzo è oneroso perché la sequenza di token audio del turno precedente cresce rapidamente con la lunghezza della conversazione. Per affrontare questo problema, proponiamo la Compressione Astratta, che sostituisce la porzione audio dei turni precedenti con un numero fisso di token latenti appresi, mantenendo esplicitamente le trascrizioni corrispondenti. Sia su set di test in-dominio che out-of-dominio, il modello compresso recupera parte dei vantaggi del condizionamento sul contesto grezzo, con un'impronta audio dei turni precedenti più ridotta. Forniamo inoltre analisi mirate della configurazione di compressione e dei suoi compromessi.
La modellazione di scene mediante modelli di generazione video ha attirato un crescente interesse di ricerca negli ultimi anni. Tuttavia, la maggior parte degli approcci esistenti si basa su modelli video prospettici che sintetizzano solo osservazioni limitate di una scena, portando a problemi di completezza e coerenza globale. Proponiamo OmniRoam, un framework controllabile per la generazione di video panoramici che sfrutta la ricca copertura scenica per fotogramma e l'intrinseca coerenza spaziale e temporale a lungo termine della rappresentazione panoramica, abilitando l'esplorazione scenica a lungo termine. Il nostro framework inizia con una fase di anteprima, in cui un modello di generazione video controllato da traiettorie crea una panoramica rapida della scena a partire da un'immagine o un video di input. Successivamente, nella fase di raffinamento, questo video viene esteso temporalmente e campionato spazialmente per produrre video a lungo raggio e ad alta risoluzione, consentendo così un'esplorazione del mondo ad alta fedeltà. Per addestrare il nostro modello, introduciamo due dataset di video panoramici che includono video sia sintetici che catturati nel mondo reale. Gli esperimenti mostrano che il nostro framework supera costantemente i metodi allo stato dell'arte in termini di qualità visiva, controllabilità e coerenza scenica a lungo termine, sia qualitativamente che quantitativamente. Mostriamo inoltre diverse estensioni di questo framework, inclusa la generazione video in tempo reale e la ricostruzione 3D. Il codice è disponibile all'indirizzo https://github.com/yuhengliu02/OmniRoam.
L'editing video generativo ha reso possibili diverse operazioni di modifica intuitive per brevi videoclip che in precedenza sarebbero state difficili da realizzare, specialmente per editor non esperti. I metodi esistenti si concentrano sul prescrivere la traiettoria del movimento 3D o 2D di un oggetto in un video, o sull'alterare l'aspetto di un oggetto o di una scena, preservando sia la plausibilità del video che l'identità. Tuttavia, un metodo per spostare la traiettoria del movimento 3D di un oggetto in un video, ovvero spostare un oggetto preservandone il movimento relativo 3D, è attualmente ancora assente. La sfida principale risiede nell'ottenere dati video accoppiati per questo scenario. I metodi precedenti tipicamente si affidano ad approcci intelligenti di generazione dei dati per costruire dati accoppiati plausibili a partire da video non accoppiati, ma questo approccio fallisce se uno dei video in una coppia non può essere facilmente costruito a partire dall'altro. Invece, introduciamo TrajectoryAtlas, una nuova pipeline di generazione dati per dati video sintetici accoppiati su larga scala e un generatore video, TrajectoryMover, messo a punto con questi dati. Dimostriamo che ciò abilita con successo lo spostamento generativo delle traiettorie degli oggetti. Pagina del progetto: https://chhatrekiran.github.io/trajectorymover
La diagnosi accurata del morbo di Alzheimer (MA) richiede l'elaborazione di dati biomarcatori in formato tabellare, tuttavia tali dati sono spesso esigui e incompleti, contesti in cui i modelli di deep learning spesso non riescono a superare le metodologie classiche. I grandi modelli linguistici (LLM) preaddestrati offrono generalizzazione few-shot, ragionamento strutturato e output interpretabili, rappresentando un potente cambio di paradigma per la predizione clinica. Proponiamo TAP-GPT (Tabular Alzheimer's Prediction GPT), un framework di LLM tabellare adattato al dominio, basato su TableGPT2 e raffinato per la classificazione few-shot del MA utilizzando prompt tabellari anziché testo semplice. Valutiamo TAP-GPT su quattro dataset derivati da ADNI, inclusi biomarcatori QT-PAD e risonanza magnetica strutturale a livello regionale, PET amiloide e PET tau per la classificazione binaria del MA. In contesti multimodali e unimodali, TAP-GPT migliora i modelli di partenza e supera i baseline di machine learning tradizionale in setting few-shot, mantenendo al contempo competitività con gli LLM general-purpose allo stato dell'arte. Dimostriamo che la selezione delle caratteristiche mitiga il degrado con input ad alta dimensionalità e che TAP-GPT mantiene prestazioni stabili in condizioni di dati mancanti simulati e reali senza necessità di imputazione. Inoltre, TAP-GPT produce un ragionamento strutturato e consapevole della modalità, allineato con la biologia consolidata del MA, e mostra una maggiore stabilità sotto auto-riflessione, supportandone l'uso in sistemi multi-agente iterativi. A nostra conoscenza, questa è la prima applicazione sistematica di un LLM specializzato in dati tabellari alla predizione del MA basata su biomarcatori multimodali, dimostrando che tali modelli preaddestrati possono affrontare efficacemente compiti di predizione clinica strutturata e gettando le basi per sistemi di supporto alle decisioni cliniche multi-agente guidati da LLM tabellari. Il codice sorgente è pubblicamente disponibile su GitHub: https://github.com/sophie-kearney/TAP-GPT.
Presentiamo TokenDial, un framework per il controllo continuo di attributi in stile cursore nei modelli preaddestrati di generazione video da testo. Sebbene i generatori moderni producano video olisticamente solidi, offrono un controllo limitato sull'entità della variazione di un attributo (ad esempio, l'intensità di un effetto o l'ampiezza di un movimento) senza alterare l'identità, lo sfondo o la coerenza temporale. TokenDial si basa sull'osservazione che gli offset additivi nello spazio intermedio dei token visivi spaziotemporali (patch-token) formano una direzione di controllo semantico, in cui l'aggiustamento dell'ampiezza dell'offset produce modifiche coerenti e prevedibili sia per l'aspetto che per la dinamica del movimento. Apprendiamo offset dei token specifici per attributo senza riaddestrare il modello base, utilizzando segnali di comprensione preaddestrati: abbinamento della direzione semantica per l'aspetto e scalatura dell'ampiezza del movimento per il moto. Dimostriamo l'efficacia di TokenDial su attributi e prompt diversi, raggiungendo una controllabilità superiore e modifiche di qualità più elevata rispetto ai baseline state-of-the-art, supportati da un'ampia valutazione quantitativa e studi umani.