HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

39 papers found

FIPO: Stimolazione del Ragionamento Profondo con Ottimizzazione della Politica Influenzata da Future-KL
FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Mar 20

ByChiyu Ma, Shuo Yang, Kexin Huang, Jinda Lu, Haoming Meng, Shangshang Wang, Bolin Ding, Soroush Vosoughi, Guoyin Wang, Jingren Zhou

290

Presentiamo Future-KL Influenced Policy Optimization (FIPO), un algoritmo di apprendimento per rinforzo progettato per superare i colli di bottiglia del ragionamento nei grandi modelli linguistici. Sebbene l'addestramento in stile GRPO sia efficacemente scalabile, tipicamente si affida a ricompense basate sul risultato (ORM) che distribuiscono un vantaggio globale in modo uniforme su ogni token in una traiettoria. Sosteniamo che questa assegnazione del credito a grana grossa impone un limite massimo alle prestazioni, poiché non riesce a distinguere i punti critici logici dai token banali. FIPO affronta questo problema incorporando la divergenza KL futura scontata nell'aggiornamento della policy, creando una formulazione di vantaggio densa che ripesca i token in base alla loro influenza sul comportamento successivo della traiettoria. Empiricamente, FIPO consente ai modelli di superare la stagnazione della lunghezza osservata nei baseline standard. Valutato su Qwen2.5-32B, FIPO estende la lunghezza media del ragionamento a catena da circa 4.000 a oltre 10.000 token e aumenta l'accuratezza Pass@1 di AIME 2024 dal 50,0% a un picco del 58,0% (convergenza a circa 56,0%). Questo risultato supera sia DeepSeek-R1-Zero-Math-32B (circa 47,0%) che o1-mini (circa 56,0%). I nostri risultati suggeriscono che stabilire formulazioni di vantaggio dense è un percorso vitale per far evolvere gli algoritmi basati su ORM e sbloccare il pieno potenziale di ragionamento dei modelli base. Rendiamo open-source il nostro sistema di addestramento, costruito sul framework verl.

CARLA-Air: Far volare droni all'interno di un mondo CARLA – Un'infrastruttura unificata per l'intelligenza embodied aria-terra
CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

Mar 30

ByTianle Zeng, Hanxuan Chen, Yanci Wen, Hong Zhang

228

La convergenza tra economie a bassa quota, intelligenza embodied e sistemi cooperativi aria-terra genera una crescente domanda di infrastrutture di simulazione in grado di modellare congiuntamente agenti aerei e terrestri in un unico ambiente fisicamente coerente. Le piattaforme open-source esistenti rimangono segmentate per dominio: i simulatori di guida mancano di dinamiche aeree, mentre i simulatori per multirotori non dispongono di scene terrestri realistiche. La co-simulazione basata su bridge introduce un sovraccarico di sincronizzazione e non può garantire una rigorosa coerenza spazio-temporale. Presentiamo CARLA-Air, un'infrastruttura open-source che unisce la guida urbana ad alta fedeltà e il volo fisicamente accurato per multirotori all'interno di un singolo processo Unreal Engine. La piattaforma preserva sia le API Python native di CARLA e AirSim che le interfacce ROS 2, consentendo il riutilizzo del codice senza modifiche. All'interno di una pipeline condivisa di tick fisici e rendering, CARLA-Air fornisce ambienti fotorealistici con traffico conforme alle regole, pedoni socialmente consapevoli e dinamiche UAV aerodinamicamente coerenti, acquisendo in modo sincrono fino a 18 modalità sensoriali su tutte le piattaforme ad ogni tick. La piattaforma supporta carichi di lavoro rappresentativi per l'intelligenza embodied aria-terra, tra cui cooperazione, navigazione embodied e azione visione-linguaggio, percezione multi-modale e costruzione di dataset, e addestramento di policy basato su reinforcement learning. Una pipeline di asset estensibile consente l'integrazione di piattaforme robotiche personalizzate nel mondo condiviso. Ereditando le capacità aeree di AirSim - il cui sviluppo upstream è stato archiviato - CARLA-Air garantisce che questo stack di volo ampiamente adottato continui a evolversi all'interno di un'infrastruttura moderna. Rilasciato con binari precompilati e codice sorgente completo: https://github.com/louiszengCN/CarlaAir

LongCat-Next: Lessicalizzazione delle modalità come token discreti
LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Mar 29

ByMeituan LongCat Team, Bin Xiao, Chao Wang, Chengjiang Li, Chi Zhang, Chong Peng, Hang Yu, Hao Yang, Haonan Yan, Haoze Sun, Haozhe Zhao, Hong Liu, Hui Su, Jiaqi Zhang, Jiawei Wang, Jing Li, Kefeng Zhang, Manyuan Zhang, Minhao Jing, Peng Pei, Quan Chen, Taofeng Xue, Tongxin Pan, Xiaotong Li, Xiaoyang Li, Xiaoyu Zhao, Xing Hu, Xinyang Lin, Xunliang Cai, Yan Bai, Yan Feng, Yanjie Li, Yao Qiu, Yerui Sun, Yifan Lu, Ying Luo, Yipeng Mei, Yitian Chen, Yuchen Xie, Yufang Liu, Yufei Chen, Yulei Qian, Yuqi Peng, Zhihang Yu, Zhixiong Han, Changran Wang, Chen Chen, Dian Zheng, Fengjiao Chen, Ge Yang, Haowei Guo, Haozhe Wang, Hongyu Li, Huicheng Jiang, Jiale Hong, Jialv Zou, Jiamu Li, Jianping Lin, Jiaxing Liu, Jie Yang, Jing Jin, Jun Kuang, Juncheng She, Kunming Luo, Kuofeng Gao, Lin Qiu, Linsen Guo, Mianqiu Huang, Qi Li, Qian Wang, Rumei Li, Siyu Ren, Wei Wang, Wenlong He, Xi Chen, Xiao Liu, Xiaoyu Li, Xu Huang, Xuanyu Zhu, Xuezhi Cao, Yaoming Zhu, Yifei Cao, Yimeng Jia, Yizhen Jiang, Yufei Gao, Zeyang Hu, Zhenlong Yuan, Zijian Zhang, Ziwen Wang

117

Il paradigma predominante della Predizione del Prossimo Token (NTP) ha guidato il successo dei grandi modelli linguistici attraverso la modellazione autoregressiva discreta. Tuttavia, i sistemi multimodali contemporanei rimangono incentrati sul linguaggio, trattando spesso le modalità non linguistiche come allegati esterni, il che porta ad architetture frammentate e un'integrazione non ottimale. Per superare questa limitazione, introduciamo Discrete Native Autoregressive (DiNA), un framework unificato che rappresenta le informazioni multimodali all'interno di uno spazio discreto condiviso, abilitando una modellazione autoregressiva coerente e rigorosa attraverso le modalità. Un'innovazione chiave è il Discrete Native Any-resolution Visual Transformer (dNaViT), che esegue la tokenizzazione e la de-tokenizzazione a risoluzioni arbitrarie, trasformando segnali visivi continui in token discreti gerarchici. Sulla base di questo fondamento, sviluppiamo LongCat-Next, un modello multimodale nativo che elabora testo, visione e audio con un unico obiettivo autoregressivo e una progettazione specifica per modalità minima. In quanto modello fondazionale di livello industriale, eccelle nel vedere, disegnare e parlare all'interno di un unico framework, raggiungendo prestazioni solide su un'ampia gamma di benchmark multimodali. In particolare, LongCat-Next affronta il limite di performance di lunga data della modellazione visiva discreta sui compiti di comprensione e fornisce un approccio unificato per riconciliare efficacemente il conflitto tra comprensione e generazione. Come tentativo verso una multimodalità nativa, rendiamo open-source LongCat-Next e i suoi tokenizer, con la speranza di promuovere ulteriori ricerche e sviluppi nella comunità. GitHub: https://github.com/meituan-longcat/LongCat-Next

Lingshu-Cell: Un modello generativo cellulare mondiale per la modellazione del trascrittoma verso cellule virtuali
Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

Mar 26

ByHan Zhang, Guo-Hua Yuan, Chaohao Yuan, Tingyang Xu, Tian Bian, Hong Cheng, Wenbing Huang, Deli Zhao, Yu Rong

La modellizzazione degli stati cellulari e la previsione delle loro risposte alle perturbazioni rappresentano sfide centrali in biologia computazionale e nello sviluppo di cellule virtuali. I modelli foundation esistenti per la trascrittomica a cellula singola forniscono rappresentazioni statiche potenti, ma non modellano esplicitamente la distribuzione degli stati cellulari per la simulazione generativa. Qui introduciamo Lingshu-Cell, un modello di diffusione discreta mascherato che apprende le distribuzioni degli stati trascrittomici e supporta la simulazione condizionale sotto perturbazione. Operando direttamente in uno spazio di token discreti compatibile con la natura sparsa e non sequenziale dei dati trascrittomici a cellula singola, Lingshu-Cell cattura complesse dipendenze espressive a livello di trascrittoma attraverso circa 18.000 geni senza fare affidamento su una selezione genica preliminare, come il filtraggio per alta variabilità o la classificazione per livello di espressione. In diversi tessuti e specie, Lingshu-Cell riproduce accuratamente le distribuzioni trascrittomiche, i modelli di espressione dei geni marker e le proporzioni dei sottotipi cellulari, dimostrando la sua capacità di catturare una complessa eterogeneità cellulare. Inoltre, incorporando congiuntamente l'identità del tipo cellulare o del donatore con la perturbazione, Lingshu-Cell può prevedere i cambiamenti dell'espressione dell'intero trascrittoma per nuove combinazioni di identità e perturbazione. Raggiunge prestazioni leader nel benchmark di perturbazione genetica H1 della Virtual Cell Challenge e nella previsione delle risposte indotte da citochine nelle PBMC umane. Nel complesso, questi risultati stabiliscono Lingshu-Cell come un modello mondiale cellulare flessibile per la simulazione in silico degli stati cellulari e delle risposte alle perturbazioni, gettando le basi per un nuovo paradigma nella scoperta biologica e nello screening delle perturbazioni.

GEMS: Generazione Multimodale Nativa degli Agenti con Memoria e Abilità
GEMS: Agent-Native Multimodal Generation with Memory and Skills

Mar 30

ByZefeng He, Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Yu Cheng, Yang Yang

I recenti modelli multimodali di generazione hanno compiuto progressi notevoli in compiti generici, ma continuano a mostrare difficoltà con istruzioni complesse e task specialistici downstream. Ispirati dal successo di framework avanzati come Claude Code, proponiamo GEMS (Agent-Native Multimodal GEneration with Memory and Skills), un'architettura che supera i limiti intrinseci dei modelli fondazionali sia su compiti generali che downstream. GEMS si basa su tre componenti fondamentali. L'Agent Loop introduce un framework multi-agente strutturato che migliora iterativamente la qualità della generazione attraverso ottimizzazione a ciclo chiuso. L'Agent Memory fornisce una memoria persistente a livello di traiettoria che archivia gerarchicamente sia stati fattuali che sintesi esperienziali compresse, consentendo una visione globale del processo di ottimizzazione riducendo la ridondanza. L'Agent Skill offre una collezione estensibile di competenze specialistiche con caricamento on-demand, permettendo al sistema di gestire efficacemente applicazioni downstream diversificate. Su cinque task mainstream e quattro task downstream, valutati su molteplici backend generativi, GEMS ottiene costantemente miglioramenti prestazionali significativi. Notevolmente, consente al modello leggero Z-Image-Turbo da 6B di superare lo state-of-the-art Nano Banana 2 su GenEval2, dimostrando l'efficacia dell'approccio agent-based nell'estendere le capacità dei modelli oltre i loro limiti originari.

Progetto Imaging-X: Un'Indagine su Oltre 1000 Dataset di Imaging Medico ad Accesso Aperto per lo Sviluppo di Modelli di Base
Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

Mar 29

ByZhongying Deng, Cheng Tang, Ziyan Huang, Jiashi Lin, Ying Chen, Junzhi Ning, Chenglong Ma, Jiyao Liu, Wei Li, Yinghao Zhu, Shujian Gao, Yanyan Huang, Sibo Ju, Yanzhou Su, Pengcheng Chen, Wenhao Tang, Tianbin Li, Haoyu Wang, Yuanfeng Ji, Hui Sun, Shaobo Min, Liang Peng, Feilong Tang, Haochen Xue, Rulin Zhou, Chaoyang Zhang, Wenjie Li, Shaohao Rui, Weijie Ma, Xingyue Zhao, Yibin Wang, Kun Yuan, Zhaohui Lu, Shujun Wang, Jinjie Wei, Lihao Liu, Dingkang Yang, Lin Wang, Yulong Li, Haolin Yang, Yiqing Shen, Lequan Yu, Xiaowei Hu, Yun Gu, Yicheng Wu, Benyou Wang, Minghui Zhang, Angelica I. Aviles-Rivero, Qi Gao, Hongming Shan, Xiaoyu Ren, Fang Yan, Hongyu Zhou, Haodong Duan, Maosong Cao, Shanshan Wang, Bin Fu, Xiaomeng Li, Zhi Hou, Chunfeng Song, Lei Bai, Yuan Cheng, Yuandong Pu, Xiang Li, Wenhai Wang, Hao Chen, Jiaxin Zhuang, Songyang Zhang, Huiguang He, Mengzhang Li, Bohan Zhuang, Zhian Bai, Rongshan Yu, Liansheng Wang, Yukun Zhou, Xiaosong Wang, Xin Guo, Guanbin Li, Xiangru Lin, Dakai Jin, Mianxin Liu, Wenlong Zhang, Qi Qin, Conghui He, Yuqiang Li, Ye Luo, Nanqing Dong, Jie Xu, Wenqi Shao, Bo Zhang, Qiujuan Yan, Yihao Liu, Jun Ma, Zhi Lu, Yuewen Cao, Zongwei Zhou, Jianming Liang, Shixiang Tang, Qi Duan, Dongzhan Zhou, Chen Jiang, Yuyin Zhou, Yanwu Xu, Jiancheng Yang, Shaoting Zhang, Xiaohong Liu, Siqi Luo, Yi Xin, Chaoyu Liu, Haochen Wen, Xin Chen, Alejandro Lozano, Min Woo Sun, Yuhui Zhang, Yue Yao, Xiaoxiao Sun, Serena Yeung-Levy, Xia Li, Jing Ke, Chunhui Zhang, Zongyuan Ge, Ming Hu, Jin Ye, Zhifeng Li, Yirong Chen, Yu Qiao, Junjun He

I modelli di base hanno dimostrato un successo notevole in diversi domini e compiti, principalmente grazie alla proliferazione di dataset di grandi dimensioni, diversificati e di alta qualità. Tuttavia, nel campo dell'imaging medico, la cura e l'assemblaggio di tali dataset medici sono estremamente impegnativi a causa della dipendenza da competenze cliniche e di stringenti vincoli etici e di privacy, con la conseguente scarsità di dataset medici unificati su larga scala e l'ostacolo allo sviluppo di potenti modelli di base per la medicina. In questo lavoro, presentiamo la più vasta analisi ad oggi sui dataset di immagini mediche, coprendo oltre 1.000 dataset ad accesso aperto con una catalogazione sistematica delle loro modalità, compiti, anatomie, annotazioni, limitazioni e potenziale di integrazione. La nostra analisi rivela un panorama modesto in scala, frammentato in compiti a scopo ristretto e distribuito in modo disomogeneo tra organi e modalità, il che a sua volta limita l'utilità dei dataset di immagini mediche esistenti per lo sviluppo di modelli di base medici versatili e robusti. Per trasformare la frammentazione in scala, proponiamo un paradigma di fusione guidato dai metadati (MDFP) che integra i dataset pubblici con modalità o compiti condivisi, trasformando così molteplici piccoli silos di dati in risorse più ampie e coerenti. Basandoci sull'MDFP, rilasciamo un portale interattivo di scoperta che consente l'integrazione automatizzata end-to-end dei dataset di immagini mediche, e raccogliamo tutti i dataset analizzati in una tabella unificata e strutturata che riassume chiaramente le loro caratteristiche chiave e fornisce link di riferimento, offrendo alla comunità un repository accessibile e completo. Tracciando il terreno attuale e offrendo un percorso strutturato per il consolidamento dei dataset, la nostra analisi fornisce una roadmap pratica per il ridimensionamento dei corpora di imaging medico, supportando una più rapida scoperta dei dati, una creazione dei dataset più strutturata e modelli di base medici più capaci.

VGGRPO: Verso una generazione video coerente con il mondo attraverso ricompense latenti 4D
VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

Mar 27

ByZhaochong An, Orest Kupyn, Théo Uscidda, Andrea Colaco, Karan Ahuja, Serge Belongie, Mar Gonzalez-Franco, Marta Tintore Gazulla

I modelli di diffusione video su larga scala raggiungono un'impressionante qualità visiva, ma spesso non preservano la coerenza geometrica. Gli approcci precedenti migliorano la coerenza aumentando il generatore con moduli aggiuntivi o applicando un allineamento consapevole della geometria. Tuttavia, le modifiche architetturali possono compromettere la generalizzazione dei modelli preaddestrati su dati internet-scale, mentre i metodi di allineamento esistenti sono limitati a scene statiche e si basano su ricompense nello spazio RGB che richiedono una ripetuta decodifica VAE, comportando un sovraccarico computazionale sostanziale e fallendo nella generalizzazione a scene dinamiche del mondo reale. Per preservare la capacità preaddestrata migliorando al contempo la coerenza geometrica, proponiamo VGGRPO (Visual Geometry GRPO), un framework di post-addestramento video guidato dalla geometria nello spazio latente. VGGRPO introduce un Modello di Geometria Latente (LGM) che collega i latenti della diffusione video a modelli fondazionali di geometria, consentendo la decodifica diretta della geometria della scena dallo spazio latente. Costruendo l'LGM a partire da un modello di geometria con capacità di ricostruzione 4D, VGGRPO si estende naturalmente alle scene dinamiche, superando le limitazioni delle scene statiche dei metodi precedenti. Su questa base, eseguiamo un'ottimizzazione delle politiche relative di gruppo nello spazio latente con due ricompense complementari: una ricompensa di morbidezza del movimento della fotocamera che penalizza le traiettorie tremolanti, e una ricompensa di coerenza della riproiezione geometrica che impone una coerenza geometrica multi-vista. Esperimenti su benchmark statici e dinamici mostrano che VGGRPO migliora la stabilità della fotocamera, la coerenza geometrica e la qualità complessiva, eliminando al contempo la costosa decodifica VAE, rendendo il rinforzo guidato dalla geometria nello spazio latente un approccio efficiente e flessibile per la generazione video coerente con il mondo.

Unify-Agent: Un Agente Multimodale Unificato per la Sintesi di Immagini Radicate nel Mondo
Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Mar 31

ByShuang Chen, Quanxin Shou, Hangting Chen, Yucheng Zhou, Kaituo Feng, Wenbo Hu, Yi-Fan Zhang, Yunlong Lin, Wenxuan Huang, Mingyang Song, Dasen Dai, Bolin Jiang, Manyuan Zhang, Shi-Xue Zhang, Zhengkai Jiang, Lucas Wang, Zhao Zhong, Yu Cheng, Nanyun Peng

I modelli multimodali unificati forniscono un'architettura naturale e promettente per comprendere conoscenze reali diverse e complesse, generando al contempo immagini di alta qualità. Tuttavia, si basano ancora principalmente su conoscenze parametriche congelate, il che li porta a incontrare difficoltà nella generazione di immagini del mondo reale che coinvolgono concetti a coda lunga e ad alta intensità di conoscenza. Ispirati dall'ampio successo degli agenti nei compiti del mondo reale, esploriamo la modellazione agentica per affrontare questa limitazione. Nello specifico, presentiamo Unify-Agent, un agente multimodale unificato per la sintesi di immagini ancorate al mondo reale, che riformula la generazione di immagini come una pipeline agentica composta da comprensione del prompt, ricerca di evidenze multimodali, ricaptioning ancorato e sintesi finale. Per addestrare il nostro modello, costruiamo una pipeline di dati multimodali su misura e curiamo 143.000 traiettorie agentiche di alta qualità per la sintesi di immagini ancorate al mondo reale, consentendo una supervisione efficace sull'intero processo di generazione agentico. Introduciamo inoltre FactIP, un benchmark che copre 12 categorie di concetti fattuali culturalmente significativi e a coda lunga, che richiede esplicitamente un ancoraggio a conoscenze esterne. Esperimenti estesi mostrano che il nostro Unify-Agent proposto migliora sostanzialmente rispetto al suo modello base unificato su diversi benchmark e compiti di generazione del mondo reale, avvicinandosi alle capacità di conoscenza mondiale dei modelli proprietari più potenti. In quanto esplorazione pionieristica della modellazione basata su agenti per la sintesi di immagini ancorate al mondo reale, il nostro lavoro evidenzia il valore di un accoppiamento stretto tra ragionamento, ricerca e generazione per una sintesi agentica di immagini affidabile in un mondo aperto.

CutClaw: Modifica Video di Ore con Sincronizzazione Musicale Basata su Agenti
CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

Mar 31

ByShifang Zhao, Yihan Hu, Ying Shan, Yunchao Wei, Xiaodong Cun

L'edizione di contenuti video con allineamento audio costituisce una forma d'arte digitale realizzata dall'uomo nell'attuale panorama dei social media. Tuttavia, la natura dispendiosa in termini di tempo e ripetitiva dell'edizione video manuale ha a lungo rappresentato una sfida sia per i cineasti che per i creatori di contenuti professionali. In questo articolo presentiamo CutClaw, un framework multi-agente autonomo progettato per trasformare riprese grezze di ore in video brevi e significativi, che sfrutta le capacità di modelli linguistici multimodali (MLLM) multipli come sistema di agenti. Il sistema produce video con musica sincronizzata, che seguono istruzioni specifiche e presentano un aspetto visivamente accattivante. Nel dettaglio, il nostro approccio inizia impiegando una scomposizione multimodale gerarchica che cattura sia i dettagli granulari che le strutture globali attraverso il materiale visivo e audio. Successivamente, per garantire la coerenza narrativa, un Agente Playwriter orchestra l'intero flusso narrativo e struttura la narrazione a lungo termine, ancorando le scene visive ai cambiamenti musicali. Infine, per costruire un video editato di breve durata, gli Agenti Editor e Reviewer ottimizzano collaborativamente il montaggio finale selezionando contenuti visivi granulari basandosi su rigorosi criteri estetici e semantici. Abbiamo condotto esperimenti dettagliati che dimostrano come CutClaw superi significativamente i baseline state-of-the-art nella generazione di video di alta qualità e allineati ritmicamente. Il codice è disponibile all'indirizzo: https://github.com/GVCLab/CutClaw.

daVinci-LLM: Verso la Scienza del Pretraining
daVinci-LLM:Towards the Science of Pretraining

Mar 28

ByYiwei Qin, Yixiu Liu, Tiantian Mi, Muhang Xie, Zhen Huang, Weiye Si, Pengrui Lu, Siyuan Feng, Xia Wu, Liming Liu, Ye Luo, Jinlong Hou, Qipeng Guo, Yu Qiao, Pengfei Liu

La fase fondamentale di pretraining determina il limite superiore delle capacità di un modello, poiché l'addestramento successivo fatica a superare le fondamenta stabilite durante il pretraining, eppure questa fase rimane criticamente poco esplorata. Ciò deriva da un paradosso strutturale: le organizzazioni con risorse computazionali operano sotto pressioni commerciali che inibiscono la divulgazione trasparente, mentre le istituzioni accademiche possiedono libertà di ricerca ma mancano di risorse computazionali su scala di pretraining. daVinci-LLM occupa questa intersezione inesplorata, combinando risorse di scala industriale con piena libertà di ricerca per far progredire la scienza del pretraining. Adottiamo un paradigma completamente aperto che tratta l'apertura come metodologia scientifica, rilasciando le pipeline complete di elaborazione dei dati, i processi di addestramento completi e i risultati di esplorazione sistematica. Riconoscendo che il campo manca di una metodologia sistematica per l'elaborazione dei dati, impieghiamo il framework Data Darwinism, una tassonomia principiata L0-L9 che va dal filtraggio alla sintesi. Addestriamo un modello da 3 miliardi di parametri dall'inizializzazione casuale su 8T di token utilizzando un curriculum adattivo a due stadi che passa progressivamente da capacità fondamentali a un potenziamento intensivo sul ragionamento. Attraverso oltre 200 ablation study controllate, stabiliamo che: la profondità di elaborazione migliora sistematicamente le capacità, stabilendola come una dimensione critica insieme al scaling del volume; diversi domini mostrano dinamiche di saturazione distinte, necessitando di strategie adattive che vanno da aggiustamenti proporzionali a cambi di formato; l'equilibrio composizionale permette un'intensificazione mirata prevenendo il collasso delle prestazioni; come le scelte del protocollo di valutazione modellano la nostra comprensione dei progressi nel pretraining. Rilasciando il processo di esplorazione completo, permettiamo alla comunità di costruire sui nostri risultati e metodologie sistematiche per formare una conoscenza scientifica cumulativa nel pretraining.

MonitorBench: un benchmark completo per la monitorabilità del ragionamento a catena nei grandi modelli linguistici
MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Mar 30

ByHan Wang, Yifan Sun, Brian Ko, Mann Talati, Jiawen Gong, Zimeng Li, Naicheng Yu, Xucheng Yu, Wei Shen, Vedant Jolly, Huan Zhang

I grandi modelli linguistici (LLM) possono generare catene di pensiero (CoT) che non sono sempre causalmente responsabili dei loro output finali. Quando si verifica una tale discrepanza, la CoT non riflette più fedelmente i fattori critici per la decisione che guidano il comportamento del modello, portando al problema della ridotta monitorabilità delle CoT. Tuttavia, manca ancora un benchmark completo e completamente open-source per studiare la monitorabilità delle CoT. Per colmare questa lacuna, proponiamo MonitorBench, un benchmark sistematico per valutare la monitorabilità delle CoT negli LLM. MonitorBench fornisce: (1) un insieme diversificato di 1.514 istanze di test con fattori critici per la decisione accuratamente progettati, relativi a 19 attività che coprono 7 categorie, per caratterizzare quando le CoT possono essere utilizzate per monitorare i fattori che guidano il comportamento degli LLM; e (2) due impostazioni di stress-test per quantificare la misura in cui la monitorabilità delle CoT può essere degradata. Esperimenti approfonditi su molteplici LLM popolari con capacità variabili mostrano che la monitorabilità delle CoT è più elevata quando la produzione della risposta target finale richiede un ragionamento strutturato attraverso il fattore critico per la decisione. Gli LLM closed-source mostrano generalmente una monitorabilità inferiore e esiste una relazione negativa tra monitorabilità e capacità del modello. Inoltre, sia gli LLM open-source che quelli closed-source possono ridurre intenzionalmente la monitorabilità sotto stress-test, con un calo della monitorabilità fino al 30% in alcune attività che non richiedono un ragionamento strutturato sui fattori critici per la decisione. Oltre a queste intuizioni empiriche, MonitorBench fornisce una base per ulteriori ricerche sulla valutazione dei futuri LLM, sullo studio di tecniche avanzate di monitorabilità sotto stress-test e sullo sviluppo di nuovi approcci di monitoraggio.

Extend3D: Generazione 3D su Scala Urbana
Extend3D: Town-Scale 3D Generation

Mar 31

BySeungwoo Yoon, Jinmo Kim, Jaesik Park

In questo articolo proponiamo Extend3D, una pipeline senza fase di addestramento per la generazione di scene 3D a partire da una singola immagine, basata su un modello generativo 3D object-centric. Per superare le limitazioni degli spazi latenti di dimensione fissa nei modelli object-centric nella rappresentazione di scene ampie, estendiamo lo spazio latente lungo le direzioni x e y. Successivamente, suddividendo lo spazio latente esteso in patch sovrapposte, applichiamo il modello generativo 3D object-centric a ciascuna patch e le accoppiamo ad ogni passo temporale. Poiché la generazione 3D per patch con condizionamento tramite immagine richiede un allineamento spaziale rigoroso tra le patch dell'immagine e quelle latenti, inizializziamo la scena utilizzando una precedente di nuvola di punti da un estimatore di profondità monoculare e raffi niamo iterativamente le regioni occluse tramite SDEdit. Abbiamo scoperto che trattare l'incompletezza della struttura 3D come rumore durante il raffinamento 3D permette il completamento 3D attraverso un concetto che definiamo under-noising. Inoltre, per affrontare la sub-ottimalità dei modelli object-centric nella generazione di sotto-scene, ottimizziamo lo spazio latente esteso durante il denoising, assicurando che le traiettorie di denoising rimangano coerenti con la dinamica della sotto-scena. A tal fine, introduciamo obiettivi di ottimizzazione 3D-aware per migliorare la struttura geometrica e la fedeltà della texture. Dimostriamo che il nostro metodo produce risultati migliori rispetto ai metodi precedenti, come evidenziato dal preference umano e da esperimenti quantitativi.

FlowPIE: Evoluzione di Idee Scientifiche al Momento del Test con Esplorazione Letteraria Guidata da Flussi
FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

Mar 31

ByQiyao Wang, Hongbo Wang, Longze Chen, Zhihao Yang, Guhong Chen, Hamid Alinejad-Rokny, Hui Li, Yuan Lin, Min Yang

La generazione di idee scientifiche (SIG) è fondamentale per la ricerca autonoma guidata dall'intelligenza artificiale, tuttavia gli approcci esistenti sono spesso limitati da un paradigma statico di recupero-e-generazione, che porta a idee omogenee e insufficientemente divergenti. In questo lavoro, proponiamo FlowPIE, un framework accoppiato di recupero-generazione che tratta l'esplorazione della letteratura e la generazione di idee come un processo co-evolutivo. FlowPIE espande le traiettorie letterarie attraverso una Ricerca ad Albero di Monte Carlo (MCTS) guidata da flussi, ispirata alle GFlowNets, utilizzando la qualità delle idee correnti – valutata da un modello di ricompensa generativa (GRM) basato su LLM – come segnale supervisionato per guidare il recupero adattivo e costruire una popolazione iniziale diversificata e di alta qualità. Sulla base di questa popolazione, FlowPIE modella la generazione di idee come un processo di evoluzione delle idee al tempo di test, applicando selezione, crossover e mutazione con il paradigma delle isole di isolamento e il calcolo dell'idoneità basato sul GRM per incorporare conoscenze transdisciplinari. Mitiga efficacemente le camere d'eco informative che derivano dalla sovradipendenza dalla conoscenza parametrica e dalla letteratura statica. Valutazioni estensive dimostrano che FlowPIE produce costantemente idee con maggiore novità, fattibilità e diversità rispetto a solidi framework basati su LLM e agenti, consentendo al contempo il ridimensionamento della ricompensa durante il tempo di test.

Pensare Ovunque nella Generazione di Codice
Think Anywhere in Code Generation

Mar 31

ByXue Jiang, Tianyu Zhang, Ge Li, Mengyang Liu, Taozhi Chen, Zhenhua Xu, Binhua Li, Wenpin Jiao, Zhi Jin, Yongbin Li, Yihong Dong

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) per il ragionamento si sono basati principalmente sul *pensiero anticipato*, in cui il ragionamento avviene prima della risposta finale. Tuttavia, questo approccio presenta limitazioni critiche nella generazione di codice, dove il pensiero anticipato è spesso insufficiente poiché la complessità completa dei problemi si rivela solo durante l'implementazione del codice. Inoltre, non è in grado di allocare adattativamente lo sforzo di ragionamento durante il processo di generazione del codice, dove la difficoltà varia significativamente. In questo articolo, proponiamo Think-Anywhere, un nuovo meccanismo di ragionamento che consente agli LLM di invocare il pensiero on-demand in qualsiasi posizione token durante la generazione del codice. Realizziamo Think-Anywhere prima insegnando agli LLM a imitare i pattern di ragionamento attraverso un addestramento *cold-start*, per poi sfruttare ricompense RL basate sui risultati per guidare l'esplorazione autonoma del modello su quando e dove invocare il ragionamento. Esperimenti estesi su quattro benchmark principali di generazione di codice (ovvero LeetCode, LiveCodeBench, HumanEval e MBPP) mostrano che Think-Anywhere raggiunge prestazioni allo stato dell'arte sia rispetto ai metodi di ragionamento esistenti che agli approcci recenti di *post-training*, dimostrando al contempo una generalizzazione coerente su diversi LLM. La nostra analisi rivela inoltre che Think-Anywhere consente al modello di invocare adattivamente il ragionamento in posizioni ad alta entropia, fornendo una migliore interpretabilità.

BizGenEval: Un Benchmark Sistematico per la Generazione di Contenuti Visivi Commerciali
BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

Mar 26

ByYan Li, Zezi Zeng, Ziwei Zhou, Xin Gao, Muzhao Tian, Yifan Yang, Mingxi Cheng, Qi Dai, Yuqing Yang, Lili Qiu, Zhendong Wang, Zhengyuan Yang, Xue Yang, Lijuan Wang, Ji Li, Chong Luo

I recenti progressi nei modelli di generazione di immagini hanno ampliato le loro applicazioni oltre la creazione di immagini estetiche verso la produzione di contenuti visivi pratici. Tuttavia, i benchmark esistenti si concentrano principalmente sulla sintesi di immagini naturali e non riescono a valutare sistematicamente i modelli in base alle esigenze strutturate e multi-vincolo tipiche dei compiti di design commerciale del mondo reale. In questo lavoro, presentiamo BizGenEval, un benchmark sistematico per la generazione di contenuti visivi commerciali. Il benchmark copre cinque tipi di documento rappresentativi: presentazioni, grafici, pagine web, poster e figure scientifiche, e valuta quattro dimensioni chiave delle capacità: rendering del testo, controllo del layout, associazione di attributi e ragionamento basato sulla conoscenza, formando 20 diverse attività di valutazione. BizGenEval contiene 400 prompt accuratamente curati e 8000 domande di verifica controllate da esseri umani per valutare rigorosamente se le immagini generate soddisfano vincoli visivi e semantici complessi. Abbiamo condotto un benchmarking su larga scala di 26 sistemi di generazione di immagini popolari, incluse API commerciali all'avanguardia e modelli open-source leader. I risultati rivelano divari sostanziali tra le capacità dei modelli generativi attuali e i requisiti della creazione professionale di contenuti visivi. Speriamo che BizGenEval serva come benchmark standardizzato per la generazione di contenuti visivi commerciali nel mondo reale.

Learn2Fold: Generazione Strutturata di Origami con Pianificazione tramite Modello del Mondo
Learn2Fold: Structured Origami Generation with World Model Planning

Feb 2

ByYanjia Huang, Yunuo Chen, Ying Jiang, Jinru Han, Zhengzhong Tu, Yin Yang, Chenfanfu Jiang

La capacità di trasformare un foglio piatto in una struttura tridimensionale complessa rappresenta una prova fondamentale dell'intelligenza fisica. A differenza della manipolazione di tessuti, l'origami è governato da assiomi geometrici rigorosi e vincoli cinematici rigidi, dove una singola piega non valida o una collisione può invalidare l'intera sequenza di piegatura. Di conseguenza, l'origami richiede un ragionamento costruttivo a lungo termine che soddisfi congiuntamente leggi fisiche precise e un'intenzione semantica di alto livello. Gli approcci esistenti ricadono in due paradigmi separati: i metodi basati sull'ottimizzazione impongono la validità fisica ma richiedono input densi e precisamente specificati, rendendoli inadatti per descrizioni linguistiche naturali sparse, mentre i modelli generativi foundation eccellono nella sintesi semantica e percettiva, ma non riescono a produrre processi di piegatura a lungo termine e fisicamente coerenti. Conseguentemente, generare sequenze di piegatura origami valide direttamente dal testo rimane una sfida aperta. Per colmare questa lacuna, introduciamo Learn2Fold, un framework neuro-simbolico che formula la piegatura origami come induzione condizionata di programmi su un grafo del pattern di pieghe. La nostra intuizione chiave è disaccoppiare la proposta semantica dalla verifica fisica. Un grande modello linguistico genera programmi di piegatura candidati da prompt testuali astratti, mentre un modello di mondo appreso con struttura a grafo funge da simulatore surrogato differenziabile che prevede la fattibilità fisica e le modalità di fallimento prima dell'esecuzione. Integrato in un ciclo di pianificazione con lookahead, Learn2Fold consente la generazione robusta di sequenze di piegatura fisicamente valide per pattern complessi e fuori distribuzione, dimostrando che un'efficace intelligenza spaziale nasce dalla sinergia tra ragionamento simbolico e simulazione fisica fondata.

Percezione Falcon
Falcon Perception

Mar 28

ByAviraj Bevli, Sofian Chaybouti, Yasser Dahou, Hakim Hacid, Ngoc Dung Huynh, Phuc H. Le Khac, Sanath Narayan, Wamiq Reyaz Para, Ankit Singh

I sistemi incentrati sulla percezione sono tipicamente implementati con una pipeline modulare encoder-decoder: un backbone visivo per l'estrazione di caratteristiche e un decoder separato (o modulo di fusione tardiva) per la previsione del compito. Ciò solleva una domanda centrale: questa separazione architetturale è essenziale o può un singolo stack a fusione precoce svolgere sia la modellazione della percezione che quella del compito su larga scala? Introduciamo Falcon Perception, un Transformer denso unificato che elabora patch di immagini e token di testo in uno spazio dei parametri condiviso fin dal primo strato, utilizzando uno schema di attenzione ibrido (bidirezionale tra i token immagine, causale per i token di previsione) per combinare il contesto visivo globale con una generazione di istanze autoregressiva e a lunghezza variabile. Per mantenere pratici gli output densi, Falcon Perception conserva un'interfaccia token leggera e decodifica output spaziali continui con testine specializzate, consentendo la previsione parallela di maschere ad alta risoluzione. Il nostro design promuove la semplicità: manteniamo un unico backbone scalabile e spostiamo la complessità verso i dati e i segnali di addestramento, aggiungendo solo piccole testine dove gli output sono continui e densi. Su SA-Co, Falcon Perception migliora la qualità delle maschere portandola a 68.0 Macro-F_1 rispetto al 62.3 di SAM3. Introduciamo anche PBench, un benchmark che si concentra su prompt composizionali (OCR, vincoli spaziali, relazioni) e regimi di contesto lungo denso, dove il modello mostra migliori guadagni. Infine, estendiamo la stessa ricetta a fusione precoce a Falcon OCR: un modello compatto da 300 milioni di parametri che raggiunge l'80.3% su olmOCR e 88.64 su OmniDocBench.

Il Modello Dice Cammina: Come le Euristiche di Superficie Sovrascrivono i Vincoli Impliciti nel Ragionamento degli LLM
The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

Mar 30

ByYubo Li, Lu Zhang, Tianchong Jiang, Ramayya Krishnan, Rema Padman

I grandi modelli linguistici falliscono sistematicamente quando un indizio superficiale saliente entra in conflitto con un vincolo di fattibilità non dichiarato. Studiamo questo fenomeno attraverso un framework diagnostica-misura-ponte-trattamento. L'analisi causale-comportamentale del "problema del lavaggio auto" su sei modelli rivela euristiche sigmoidali approssimativamente indipendenti dal contesto: l'indizio della distanza esercita un'influenza da 8,7 a 38 volte maggiore rispetto all'obiettivo, e l'attribuzione a livello di token mostra pattern più coerenti con associazioni di parole chiave che con inferenze composizionali. L'Heuristic Override Benchmark (HOB) – 500 istanze che abbracciano 4 famiglie di euristiche per 5 famiglie di vincoli con coppie minime e gradienti di esplicitazione – dimostra la generalità su 14 modelli: sotto valutazione rigorosa (10/10 corrette), nessun modello supera il 75%, e i vincoli di presenza sono i più difficili (44%). Un suggerimento minimo (ad esempio, enfatizzare l'oggetto chiave) recupera in media +15 punti percentuali, suggerendo che il fallimento risieda nell'inferenza del vincolo piuttosto che nella mancanza di conoscenza; 12/14 modelli performano peggio quando il vincolo viene rimosso (fino a -39 pp), rivelando un bias conservativo. Le sonde parametriche confermano che il pattern sigmoidale si generalizza a euristiche di costo, efficienza e similarità semantica; il prompting con scomposizione dell'obiettivo recupera da +6 a 9 pp costringendo i modelli a enumerare i prerequisiti prima di rispondere. Nel complesso, questi risultati caratterizzano l'override euristico come una vulnerabilità sistematica del ragionamento e forniscono un benchmark per misurare i progressi verso la sua risoluzione.

OptiMer: La fusione ottimale dei vettori di distribuzione è migliore della miscelazione dei dati per il pre-addestramento continuo
OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Mar 30

ByHaiyue Song, Masao Utiyama

L'addestramento continuo pre-training è ampiamente utilizzato per adattare i LLM a lingue e domini target, tuttavia il rapporto di miscelazione dei dati di addestramento rimane un iperparametro sensibile e costoso da ottimizzare: questi rapporti devono essere fissati prima dell'inizio dell'addestramento, e una scelta non ottimale può sprecare settimane di potenza di calcolo. In questo lavoro, proponiamo OptiMer, che disaccoppia la selezione del rapporto dall'addestramento: addestriamo un modello CPT per ogni dataset, estraiamo il vettore di distribuzione di ciascun modello, che rappresenta lo spostamento parametrico indotto da quel dataset, e cerchiamo i pesi di composizione ottimali post-hoc tramite ottimizzazione bayesiana. Esperimenti su Gemma 3 27B su lingue (giapponese, cinese) e domini (Matematica, Codice) mostrano che OptiMer supera costantemente i baseline di miscela di dati e media dei modelli con un costo di ricerca inferiore di 15-35 volte. I risultati chiave rivelano che 1) i pesi ottimizzati possono essere interpretati come rapporti di miscela dei dati, e il riaddestramento con questi rapporti migliora il CPT con miscela di dati, e 2) lo stesso pool di vettori può essere ri-ottimizzato per un dato obiettivo senza alcun riaddestramento, producendo modelli su misura per il target on-demand. Il nostro lavoro stabilisce che la selezione del rapporto di miscela dei dati, tradizionalmente una decisione pre-addestramento, può essere riformulata come un'ottimizzazione post-hoc su vettori di distribuzione, offrendo un paradigma più flessibile per l'addestramento continuo pre-training.

MMFace-DiT: Un Trasformatore a Diffusione Dual-Stream per la Generazione di Volti Multimodale ad Alta Fedeltà
MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Mar 30

ByBharath Krishnamurthy, Ajita Rattani

I recenti modelli multimodali per la generazione di volti affrontano le limitazioni del controllo spaziale dei modelli di diffusione testo-immagine integrando il condizionamento testuale con informazioni spaziali come maschere di segmentazione, schizzi o mappe dei bordi. Questa fusione multimodale consente una sintesi controllata allineata sia con l'intento semantico di alto livello che con il layout strutturale di basso livello. Tuttavia, la maggior parte degli approcci esistenti estende generalmente le pipeline pre-addestrate testo-immagine aggiungendo moduli di controllo ausiliari o unendo insieme reti separate unimodali. Questi progetti ad hoc ereditano vincoli architetturali, duplicano parametri e spesso falliscono in caso di modalità conflittuali o spazi latenti non corrispondenti, limitando la loro capacità di eseguire una fusione sinergica tra domini semantici e spaziali. Introduciamo MMFace-DiT, un transformer di diffusione dual-stream unificato progettato per la sintesi multimodale sinergica di volti. La sua principale novità risiede in un blocco transformer dual-stream che elabora in parallelo i token spaziali (maschera/schizzo) e semantici (testo), fondendoli profondamente attraverso un meccanismo di attenzione condiviso basato su Rotary Position Embedding (RoPE). Questo progetto previene la dominanza modale e garantisce una forte aderenza sia al testo che ai priors strutturali, raggiungendo una coerenza spaziale-semantica senza precedenti per la generazione controllata di volti. Inoltre, un nuovo Modality Embedder consente a un unico modello coeso di adattarsi dinamicamente a varie condizioni spaziali senza bisogno di riaddestramento. MMFace-DiT raggiunge un miglioramento del 40% nella fedeltà visiva e nell'allineamento al prompt rispetto a sei modelli multimodali all'avanguardia per la generazione di volti, stabilendo un nuovo paradigma flessibile per la modellazione generativa controllata end-to-end. Il codice e il dataset sono disponibili sulla nostra pagina progetto: https://vcbsl.github.io/MMFace-DiT/

AutoWeather4D: Conversione Meteorologica per Video di Guida Autonoma tramite Editing a Doppio Passaggio su G-Buffer
AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

Mar 27

ByTianyu Liu, Weitao Xiong, Kunming Luo, Manyuan Zhang, Peng Liu, Yuan Liu, Ping Tan

I modelli generativi video hanno fatto progressi significativi nella sintesi foto-realistica di condizioni meteorologiche avverse per la guida autonoma; tuttavia, richiedono costantemente dataset massicci per apprendere scenari meteorologici rari. Sebbene i metodi di editing 3D-aware allevino questi vincoli di dati aumentando i filmati video esistenti, sono fondamentalmente limitati da una costosa ottimizzazione per scena e soffrono di un'inestricabile entanglement geometrico e illuminotecnico intrinseco. In questo lavoro, introduciamo AutoWeather4D, un framework di editing meteorologico 3D-aware feed-forward progettato per disaccoppiare esplicitamente geometria e illuminazione. Al centro del nostro approccio c'è un meccanismo di G-buffer Dual-pass Editing. Il Geometry Pass sfrutta fondazioni strutturali esplicite per abilitare interazioni fisiche ancorate alla superficie, mentre il Light Pass risolve analiticamente il trasporto della luce, accumulando i contributi degli illuminanti locali nell'illuminazione globale per abilitare un re-illuminazione locale 3D dinamica. Esperimenti estensivi dimostrano che AutoWeather4D raggiunge un foto-realismo e una coerenza strutturale comparabili ai baseline generativi, abilitando al contempo un controllo fisico parametrico granulare, servendo come un pratico motore di dati per la guida autonoma.

Come le Conoscenze Auditive nei Backbone dei LLM Modellano i Modelli Linguistici Audio: Una Valutazione Olistica
How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

Mar 19

ByKe-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee

I modelli linguistici di grandi dimensioni (LLM) sono ampiamente utilizzati come basi conoscitive per i Modelli Linguistici Audio di Grande Dimensione (LALM), ma rimane poco chiaro quanta conoscenza uditiva essi codifichino attraverso il pre-addestramento esclusivamente testuale e come questo influisca sulle prestazioni a valle. Studiamo questa lacuna confrontando diversi LLM in tre contesti: due basati solo su testo e uno basato sull'audio: (1) probing diretto su AKB-2000, un benchmark curato che testa l'ampiezza e la profondità della conoscenza uditiva; (2) valutazione a cascata, in cui gli LLM ragionano su descrizioni testuali provenienti da un captioner audio; e (3) valutazione basata sull'audio, in cui ogni LLM viene fine-tuned per diventare un LALM con un encoder audio. I nostri risultati rivelano che la conoscenza uditiva varia sostanzialmente tra le diverse famiglie di modelli, e i risultati ottenuti solo con il testo sono fortemente correlati con le prestazioni audio. Il nostro lavoro fornisce un fondamento empirico per una comprensione completa degli LLM nella ricerca audio.

PoseDreamer: Pipeline scalabile e fotorealistica per la generazione di dati umani con modelli di diffusione
PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

Mar 30

ByLorenza Prospero, Orest Kupyn, Ostap Viniavskyi, João F. Henriques, Christian Rupprecht

L'acquisizione di dataset annotati per la stima della mesh umana 3D è complessa a causa delle ambiguità di profondità e della difficoltà intrinseca di annotare la geometria 3D a partire da immagini monoculari. I dataset esistenti sono di due tipi: reali, con geometria 3D annotata manualmente e di scala limitata, o sintetici, generati da motori 3D che forniscono etichette precise ma soffrono di fotorealismo limitato, bassa diversità e alti costi di produzione. In questo lavoro, esploriamo una terza via: i dati generati. Introduciamo PoseDreamer, una pipeline innovativa che sfrutta i modelli di diffusione per generare dataset sintetici su larga scala con annotazioni di mesh 3D. Il nostro approccio combina la generazione controllata di immagini con l'ottimizzazione diretta delle preferenze per l'allineamento del controllo, il mining di campioni difficili basato su curriculum e un filtraggio di qualità multi-stadio. Insieme, questi componenti mantengono naturalmente la corrispondenza tra le etichette 3D e le immagini generate, privilegiando al contempo i campioni più impegnativi per massimizzare l'utilità del dataset. Utilizzando PoseDreamer, abbiamo generato oltre 500.000 campioni sintetici di alta qualità, ottenendo un miglioramento del 76% nelle metriche di qualità dell'immagine rispetto ai dataset basati sul rendering. I modelli addestrati su PoseDreamer raggiungono prestazioni paragonabili o superiori a quelli addestrati su dataset del mondo reale e sintetici tradizionali. Inoltre, combinare PoseDreamer con dataset sintetici tradizionali produce prestazioni migliori rispetto alla combinazione di dataset reali e sintetici, dimostrando la natura complementare del nostro dataset. Rilasceremo il dataset completo e il codice di generazione.

VectorGym: Un Benchmark Multitask per la Generazione, il Disegno e la Modifica di Codice SVG
VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

Feb 22

ByJuan Rodriguez, Haotian Zhang, Abhay Puri, Tianyang Zhang, Rishav Pramanik, Meng Lin, Xiaoqing Xie, Marco Terral, Darsh Kaushik, Aly Shariff, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli

Introduciamo VectorGym, una suite di benchmark completa per la grafica vettoriale scalabile (SVG) che abbraccia la generazione a partire da testo e schizzi, l'editing complesso e la comprensione visiva. VectorGym affronta la carenza di benchmark realistici e stimolanti allineati con i flussi di lavoro del design professionale. Il nostro benchmark comprende quattro task con annotazioni esperte redatte da umani: il nuovo task Sketch2SVG (VG-Sketch); un nuovo dataset per l'editing SVG (VG-Edit) che presenta modifiche complesse e multi-step con primitive di ordine superiore; la generazione Text2SVG (VG-Text); e la descrizione di immagini SVG (VG-Cap). A differenza dei benchmark precedenti che si basano su modifiche sintetiche, VectorGym fornisce annotazioni gold-standard umane che richiedono una comprensione semantica e l'intento progettuale. Proponiamo anche un approccio di apprendimento per rinforzo multi-task che ottimizza congiuntamente tutti e quattro i task utilizzando ricompense basate sul rendering. Il nostro metodo, basato su GRPO con apprendimento per curriculum, addestra un modello Qwen3-VL 8B che raggiunge prestazioni state-of-the-art tra i modelli open-source, superando modelli molto più grandi, incluso Qwen3-VL 235B, e pareggiando GPT-4o. Introduciamo inoltre una metrica VLM-as-a-Judge per la generazione SVG, validata attraverso studi di correlazione umana. La nostra valutazione dei VLM di frontiera rivela significativi gap prestazionali, posizionando VectorGym come un framework rigoroso per far progredire la generazione di codice visivo. VectorGym è pubblicamente disponibile su huggingface.co/datasets/ServiceNow/VectorGym.

CREval: Una Valutazione Automatica e Interpretabile per la Manipolazione Creativa di Immagini con Istruzioni Complesse
CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

Mar 27

ByChonghuinan Wang, Zihan Chen, Yuxiang Wei, Tianyi Jiang, Xiaohe Wu, Fan Li, Wangmeng Zuo, Hongxun Yao

La manipolazione multimodale di immagini basata su istruzioni ha recentemente compiuto rapidi progressi. Tuttavia, i metodi di valutazione esistenti mancano di un quadro sistematico e allineato all'umano per valutare le prestazioni dei modelli in compiti di editing complessi e creativi. Per colmare questa lacuna, proponiamo CREval, una pipeline di valutazione automatizzata basata su domande-risposte (QA) che supera l'incompletezza e la scarsa interpretabilità della valutazione opaca tramite Modelli Linguistici Multimodali (MLLM). Contemporaneamente, introduciamo CREval-Bench, un benchmark completo specificamente progettato per la manipolazione creativa di immagini sotto istruzioni complesse. CREval-Bench copre tre categorie e nove dimensioni creative, comprendendo oltre 800 campioni di editing e 13.000 query di valutazione. Sfruttando questa pipeline e benchmark, valutiamo sistematicamente una serie diversificata di modelli all'avanguardia open-source e proprietari. I risultati rivelano che, sebbene i modelli proprietari superino generalmente quelli open-source nei compiti complessi e creativi, tutti i modelli faticano ancora a completare efficacemente tali modifiche. Inoltre, studi sugli utenti dimostrano una forte coerenza tra le metriche automatizzate di CREval e i giudizi umani. Pertanto, CREval fornisce una base affidabile per valutare i modelli di editing di immagini su compiti di manipolazione complessi e creativi, ed evidenzia le principali sfide e opportunità per la ricerca futura.

WorldFlow3D: Scorrere Attraverso Distribuzioni 3D per la Generazione di Mondi Illimitati
WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

Mar 31

ByAmogh Joshi, Julian Ost, Felix Heide

La generazione di mondi 3D illimitati sta emergendo come un compito fondamentale per la modellazione di scene nella computer vision, nella grafica e nella robotica. In questo lavoro, presentiamo WorldFlow3D, un metodo innovativo in grado di generare mondi 3D illimitati. Basandoci su una proprietà fondamentale del *flow matching* - ovvero la definizione di un percorso di trasporto tra due distribuzioni di dati - modelliamo la generazione 3D in modo più generale come un problema di flusso attraverso distribuzioni di dati 3D, non limitato al *denoising* condizionale. Rileviamo che il nostro approccio *latent-free flow* genera una struttura 3D causale e accurata e può utilizzarla come distribuzione intermedia per guidare la generazione di strutture più complesse e texture di alta qualità, il tutto convergendo più rapidamente rispetto ai metodi esistenti. Abilitiamo la controllabilità sulle scene generate mediante condizioni di layout di scena vettorizzate per il controllo della struttura geometrica e il controllo della texture visiva attraverso attributi della scena. Confermiamo l'efficacia di WorldFlow3D sia su scene reali di guida all'aperto che su scene indoor sintetiche, validando la generalizzabilità cross-dominio e una generazione di alta qualità su distribuzioni di dati reali. Riconfermiamo una fedeltà di generazione della scene favorevole rispetto agli approcci in tutti gli ambienti testati per la generazione di scene illimitate. Per maggiori informazioni, consultare https://light.princeton.edu/worldflow3d.

Distillare una Valutazione della Sensibilità della Privacy Allineata con l'Umano dai Grandi Modelli Linguistici
Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

Mar 31

ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi

La valutazione accurata della privacy dei dati testuali rimane una sfida critica nell'elaborazione del linguaggio naturale preservando la riservatezza. Recenti lavori hanno dimostrato che i grandi modelli linguistici (LLM) possono fungere da valutatori affidabili della privacy, raggiungendo un forte accordo con i giudizi umani; tuttavia, il loro costo computazionale e l'impraticabilità per l'elaborazione su larga scala di dati sensibili ne limitano l'adozione reale. Colmiamo questa lacuna distillando le capacità di valutazione della privacy di Mistral Large 3 (675B) in modelli encoder leggeri con appena 150 milioni di parametri. Sfruttando un dataset su larga scala di testi annotati per la privacy che copre 10 domini diversi, addestriamo classificatori efficienti che preservano un forte accordo con le annotazioni umane riducendo drasticamente i requisiti computazionali. Convalidiamo il nostro approccio su dati di test annotati da esseri umani e ne dimostriamo l'utilità pratica come metrica di valutazione per i sistemi di de-identificazione.

ArtHOI: Addomesticare i Modelli Fondamentali per la Ricostruzione Monoculare 4D delle Interazioni Mano-Oggetto Articolato
ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

Mar 26

ByZikai Wang, Zhilu Zhang, Yiqing Wang, Hui Li, Wangmeng Zuo

I metodi esistenti per le interazioni mano-oggetto (HOI) sono largamente limitati agli oggetti rigidi, mentre i metodi di ricostruzione 4D per oggetti articolati richiedono generalmente una pre-scansione dell'oggetto o persino video multi-vista. Ricostruire interazioni 4D tra umani e oggetti articolati a partire da un singolo video RGB monoculare rimane una sfida inesplorata ma significativa. Fortunatamente, i recenti progressi nei modelli fondazionali presentano una nuova opportunità per affrontare questo problema altamente mal posto. A tal fine, introduciamo ArtHOI, un framework basato sull'ottimizzazione che integra e affina i priori provenienti da molteplici modelli fondazionali. Il nostro contributo principale è una serie di metodologie innovative progettate per risolvere le intrinseche imprecisioni e la mancanza di realismo fisico di questi priori. In particolare, introduciamo un metodo di Raffinamento Campionamento Adattivo (ASR) per ottimizzare la scala metrica e la posa dell'oggetto per ancorarne la mesh normalizzata nello spazio mondo. Inoltre, proponiamo un metodo di allineamento mano-oggetto guidato da un Modello Linguistico Multimodale di Grande Dimensione (MLLM), che utilizza informazioni di ragionamento sul contatto come vincoli per l'ottimizzazione della composizione delle mesh mano-oggetto. Per facilitare una valutazione completa, contribuiamo anche con due nuovi dataset, ArtHOI-RGBD e ArtHOI-Wild. Esperimenti estensivi convalidano la robustezza e l'efficacia del nostro ArtHOI su oggetti e interazioni diversificati. Progetto: https://arthoi-reconstruction.github.io.

SeGPruner: Potatore di Token Visivi Semantico-Geometrico per il Question Answering 3D
SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Mar 31

ByWenli Li, Kai Zhao, Haoran Jiang, Enquan Yang, Yi Su, Dan Zeng

I modelli visione-linguaggio (VLM) sono stati ampiamente adottati per il task di question answering 3D (3D QA). Nelle pipeline tipiche, i token visivi estratti da più punti di vista vengono concatenati con i token linguistici ed elaborati congiuntamente da un grande modello linguistico (LLM) per l'inferenza. Tuttavia, l'aggregazione di osservazioni multi-vista introduce inevitabilmente una severa ridondanza di token, portando a un insieme di token visivi eccessivamente grande che ostacola significativamente l'efficienza inferenziale sotto vincoli di budget di token. La potatura dei token visivi è emersa come una strategia prevalente per affrontare questo problema. Ciononostante, la maggior parte dei potatori esistenti è principalmente concepita per input 2D o si affida a indizi geometrici indiretti, il che limita la loro capacità di trattenere esplicitamente oggetti semanticamente critici e mantenere una copertura spaziale sufficiente per un ragionamento 3D robusto. In questo articolo, proponiamo SeGPruner, un framework di riduzione dei token guidato dalla semantica e dalla geometria per un efficiente 3D QA con immagini multi-vista. Nello specifico, SeGPruner preserva inizialmente i token semanticamente salienti attraverso un modulo di importanza basato sull'attenzione (Selettore di Token basato sulla Salienza), assicurando che le evidenze critiche relative agli oggetti siano mantenute. Successivamente, integra questi token con altri spazialmente diversificati tramite un selettore guidato dalla geometria (Diversificatore di Token basato sulla Geometria), che considera congiuntamente la rilevanza semantica e la distanza geometrica 3D. Questa cooperazione tra preservazione della salienza e diversificazione guidata dalla geometria bilancia le evidenze a livello di oggetto e la copertura globale della scena sotto una riduzione aggressiva dei token. Esperimenti estensivi su ScanQA e OpenEQA dimostrano che SeGPruner migliora sostanzialmente l'efficienza inferenziale, riducendo il budget dei token visivi del 91% e la latenza inferenziale dell'86%, pur mantenendo prestazioni competitive nei task di ragionamento 3D.

Colon-Bench: Un flusso di lavoro agentivo per l'annotazione scalabile di lesioni dense nei video di colonscopia a procedura completa
Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

Mar 26

ByAbdullah Hamdi, Changchun Yang, Xin Gao

Lo screening precoce tramite colonscopia è fondamentale per la prevenzione del cancro al colon, tuttavia lo sviluppo di sistemi di IA robusti per questo ambito è ostacolato dalla carenza di dataset video di sequenze lunghe e densamente annotate. I dataset esistenti si concentrano prevalentemente sul rilevamento di polipi a classe singola e mancano delle ricche annotazioni spaziali, temporali e linguistiche necessarie per valutare i moderni Modelli Linguistici Multimodali di Grande Dimensione (MLLM). Per colmare questa lacuna critica, introduciamo Colon-Bench, generato tramite un innovativo workflow agente multi-stadio. La nostra pipeline integra in modo fluido proposte temporali, tracciamento dei bounding-box, conferma visiva guidata dall'IA e revisione umana in-the-loop per annotare in modo scalabile video di procedure complete. Il benchmark verificato risultante è senza precedenti per portata, comprendendo 528 video, 14 distinte categorie di lesioni (inclusi polipi, ulcere e sanguinamenti), oltre 300.000 bounding box, 213.000 maschere di segmentazione e 133.000 parole di descrizioni cliniche. Utilizziamo Colon-Bench per valutare rigorosamente gli MLLM all'avanguardia in compiti di classificazione delle lesioni, Segmentazione di Oggetti Video Open-Vocabulary (OV-VOS) e Video Visual Question Answering (VQA). I risultati degli MLLM dimostrano una performance di localizzazione sorprendentemente elevata negli ambiti medici rispetto a SAM-3. Infine, analizziamo gli errori VQA comuni degli MLLM per introdurre una nuova strategia di prompting "colon-skill", che migliora le prestazioni zero-shot degli MLLM fino al 9,7% nella maggior parte dei modelli. Il dataset e il codice sono disponibili al sito https://abdullahamdi.com/colon-bench.

MPDiT: Architettura Transformer Globale-to-Locale Multi-Patch per un Modello di Flow Matching e Diffusione Efficiente
MPDiT: Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model

Mar 27

ByQuan Dao, Dimitris Metaxas

Le architetture Transformer, in particolare i Diffusion Transformer (DiT), sono diventate ampiamente utilizzate nei modelli di diffusione e di flow-matching grazie alle loro prestazioni superiori rispetto alle UNet convoluzionali. Tuttavia, la progettazione isotropa dei DiT elabora lo stesso numero di token suddivisi in patch in ogni blocco, comportando un calcolo relativamente oneroso durante il processo di addestramento. In questo lavoro, introduciamo una progettazione transformer multi-patch in cui i blocchi iniziali operano su patch più grandi per catturare il contesto globale approssimativo, mentre i blocchi successivi utilizzano patch più piccole per rifinire i dettagli locali. Questa progettazione gerarchica può ridurre il costo computazionale fino al 50\% in termini di GFLOPs, raggiungendo al contempo buone prestazioni generative. Inoltre, proponiamo anche progetti migliorati per gli embedding temporali e di classe che accelerano la convergenza dell'addestramento. Esperimenti estesi sul dataset ImageNet dimostrano l'efficacia delle nostre scelte architetturali. Il codice è rilasciato all'indirizzo https://github.com/quandao10/MPDiT.

Ghost-FWL: Un dataset su larga scala di LiDAR a onda completa per il rilevamento e la rimozione di artefatti fantasma
Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

Mar 30

ByKazuma Ikeda, Ryosei Hara, Rokuto Nagata, Ozora Sako. Zihao Ding, Takahiro Kado, Ibuki Fujioka, Taro Beppu, Mariko Isogawa, Kentaro Yoshioka

Il LiDAR è diventato una modalità di rilevamento essenziale per la guida autonoma, la robotica e le applicazioni di smart city. Tuttavia, i punti fantasma (o ghost), ovvero falsi riflessi causati da rimbalzi laser multi-percorso su superfici di vetro e riflettenti, degradano gravemente l'accuratezza della mappatura e della localizzazione 3D. I precedenti metodi di rimozione dei ghost si basano sulla consistenza geometrica in nuvole di punti dense, fallendo sui dati dinamici e sparsi del LiDAR mobile. Noi affrontiamo questo problema sfruttando il LiDAR a forma d'onda completa (FWL), che cattura i profili di intensità temporali completi, e non solo le distanze di picco, fornendo indizi cruciali per distinguere i ghost dai riflessi genuini in scenari mobili. Trattandosi di un compito nuovo, presentiamo Ghost-FWL, il primo e più grande dataset FWL mobile annotato per il rilevamento e la rimozione dei ghost. Ghost-FWL comprende 24.000 frame in 10 scenari diversi con 7,5 miliardi di annotazioni a livello di picco, risultando 100 volte più grande dei dataset FWL annotati esistenti. Grazie a questo dataset su larga scala, stabiliamo un modello di base basato su FWL per il rilevamento dei ghost e proponiamo FWL-MAE, un autoencoder mascherato per un efficiente apprendimento auto-supervisionato delle rappresentazioni sui dati FWL. Gli esperimenti dimostrano che il nostro modello di base supera i metodi esistenti in accuratezza di rimozione dei ghost, e la nostra rimozione dei ghost migliora ulteriormente compiti a valle come lo SLAM basato su LiDAR (riduzione del 66% dell'errore di traiettoria) e il rilevamento di oggetti 3D (riduzione di 50 volte dei falsi positivi). Il dataset e il codice sono pubblicamente disponibili e accessibili tramite la pagina del progetto: https://keio-csg.github.io/Ghost-FWL.

Quando i Documenti Sono in Disaccordo: Misurare la Variazione Istituzionale nelle Linee Guida sui Trapianti con Modelli Linguistici ad Arricchimento Retrieval
When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models

Mar 23

ByYubo Li, Ramayya Krishnan, Rema Padman

I materiali educativi per i pazienti riguardanti il trapianto di organi solidi variano notevolmente tra i centri statunitensi, ma non esiste un metodo sistematico per quantificare questa eterogeneità su larga scala. Introduciamo un framework che ancorando le stesse domande del paziente ai manuali di diversi centri, utilizzando modelli linguistici potenziati dal retrieval, confronta le risultanze risposte utilizzando una tassonomia di consistenza a cinque etichette. Applicato a 102 manuali provenienti da 23 centri e a 1.115 domande di benchmark, il framework quantifica l'eterogeneità lungo quattro dimensioni: domanda, argomento, organo e centro. Rileviamo che il 20,8% dei confronti a coppie non assenti presenta una divergenza clinicamente significativa, concentrata negli argomenti di monitoraggio delle condizioni e stile di vita. Le lacune nella copertura sono ancora più evidenti: il 96,2% delle coppie domanda-manuale presenta contenuti rilevanti mancanti, con la salute riproduttiva al 95,1% di assenza. I profili di divergenza a livello di centro sono stabili e interpretabili, dove l'eterogeneità riflette differenze istituzionali sistematiche, verosimilmente dovute alla diversità dei pazienti. Questi risultati mettono in luce un divario informativo nei materiali educativi per i pazienti trapiantati, con il question answering medico ancorato ai documenti che evidenzia opportunità di miglioramento dei contenuti.

A due voci: un duetto di periodicità e direzionalità per la rimozione del flicker a raffica
It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal

Mar 24

ByLishen Qu, Shihao Zhou, Jie Liang, Hui Zeng, Lei Zhang, Jufeng Yang

Gli artefatti di flicker, derivanti da un'illuminazione instabile e da incoerenze nell'esposizione riga per riga, rappresentano una sfida significativa nella fotografia a breve esposizione, degradando gravemente la qualità dell'immagine. A differenza di artefatti tipici, come il rumore e la scarsa illuminazione, il flicker è un degrado strutturato con specifici pattern spazio-temporali, che non sono considerati negli attuali framework di restauro generici, portando a una soppressione subottimale del flicker e ad artefatti di ghosting. In questo lavoro, riveliamo che gli artefatti di flicker presentano due caratteristiche intrinseche, periodicità e direzionalità, e proponiamo Flickerformer, un'architettura basata su transformer che rimuove efficacemente il flicker senza introdurre ghosting. Nello specifico, Flickerformer comprende tre componenti chiave: un modulo di fusione basato sulla fase (PFM), una rete feed-forward di autocorrelazione (AFFN) e un modulo di attenzione direzionale basato su wavelet (WDAM). Basandosi sulla periodicità, il PFM esegue una correlazione di fase inter-frame per aggregare in modo adattivo le caratteristiche del burst, mentre l'AFFN sfrutta le regolarità strutturali intra-frame attraverso l'autocorrelazione, migliorando congiuntamente la capacità della rete di percepire pattern ricorrenti spazialmente. Inoltre, motivati dalla direzionalità degli artefatti di flicker, il WDAM sfrutta le variazioni in alta frequenza nel dominio wavelet per guidare il restauro delle regioni scure in bassa frequenza, producendo una localizzazione precisa degli artefatti di flicker. Esperimenti approfonditi dimostrano che Flickerformer supera gli approcci allo stato dell'arte sia nelle metriche quantitative che nella qualità visiva. Il codice sorgente è disponibile all'indirizzo https://github.com/qulishen/Flickerformer.

Distillare Conversazioni: Compressione Astratta del Contesto Audio Conversazionale per ASR Basato su LLM
Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

Mar 27

ByShashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke

I sistemi di riconoscimento vocale basati su LLM (Large Language Model) tipicamente elaborano gli enunciati in modo isolato, limitando la loro capacità di sfruttare il contesto conversazionale. In questo lavoro, studiamo se il contesto multimodale proveniente dai turni precedenti migliori l'ASR basato su LLM e come rappresentare tale contesto in modo efficiente. Scopriamo che, dopo un addestramento supervisionato multi-turno, il contesto conversazionale aiuta principalmente nel riconoscimento di entità contestuali. Tuttavia, il condizionamento sul contesto grezzo è oneroso perché la sequenza di token audio del turno precedente cresce rapidamente con la lunghezza della conversazione. Per affrontare questo problema, proponiamo la Compressione Astratta, che sostituisce la porzione audio dei turni precedenti con un numero fisso di token latenti appresi, mantenendo esplicitamente le trascrizioni corrispondenti. Sia su set di test in-dominio che out-of-dominio, il modello compresso recupera parte dei vantaggi del condizionamento sul contesto grezzo, con un'impronta audio dei turni precedenti più ridotta. Forniamo inoltre analisi mirate della configurazione di compressione e dei suoi compromessi.

OmniRoam: Vagabondaggio Mondiale tramite Generazione di Video Panoramici a Lungo Orizzonte
OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

Mar 31

ByYuheng Liu, Xin Lin, Xinke Li, Baihan Yang, Chen Wang, Kalyan Sunkavalli, Yannick Hold-Geoffroy, Hao Tan, Kai Zhang, Xiaohui Xie, Zifan Shi, Yiwei Hu

La modellazione di scene mediante modelli di generazione video ha attirato un crescente interesse di ricerca negli ultimi anni. Tuttavia, la maggior parte degli approcci esistenti si basa su modelli video prospettici che sintetizzano solo osservazioni limitate di una scena, portando a problemi di completezza e coerenza globale. Proponiamo OmniRoam, un framework controllabile per la generazione di video panoramici che sfrutta la ricca copertura scenica per fotogramma e l'intrinseca coerenza spaziale e temporale a lungo termine della rappresentazione panoramica, abilitando l'esplorazione scenica a lungo termine. Il nostro framework inizia con una fase di anteprima, in cui un modello di generazione video controllato da traiettorie crea una panoramica rapida della scena a partire da un'immagine o un video di input. Successivamente, nella fase di raffinamento, questo video viene esteso temporalmente e campionato spazialmente per produrre video a lungo raggio e ad alta risoluzione, consentendo così un'esplorazione del mondo ad alta fedeltà. Per addestrare il nostro modello, introduciamo due dataset di video panoramici che includono video sia sintetici che catturati nel mondo reale. Gli esperimenti mostrano che il nostro framework supera costantemente i metodi allo stato dell'arte in termini di qualità visiva, controllabilità e coerenza scenica a lungo termine, sia qualitativamente che quantitativamente. Mostriamo inoltre diverse estensioni di questo framework, inclusa la generazione video in tempo reale e la ricostruzione 3D. Il codice è disponibile all'indirizzo https://github.com/yuhengliu02/OmniRoam.

TrajectoryMover: Movimento Generativo delle Traiettorie degli Oggetti nei Video
TrajectoryMover: Generative Movement of Object Trajectories in Videos

Mar 31

ByKiran Chhatre, Hyeonho Jeong, Yulia Gryaditskaya, Christopher E. Peters, Chun-Hao Paul Huang, Paul Guerrero

L'editing video generativo ha reso possibili diverse operazioni di modifica intuitive per brevi videoclip che in precedenza sarebbero state difficili da realizzare, specialmente per editor non esperti. I metodi esistenti si concentrano sul prescrivere la traiettoria del movimento 3D o 2D di un oggetto in un video, o sull'alterare l'aspetto di un oggetto o di una scena, preservando sia la plausibilità del video che l'identità. Tuttavia, un metodo per spostare la traiettoria del movimento 3D di un oggetto in un video, ovvero spostare un oggetto preservandone il movimento relativo 3D, è attualmente ancora assente. La sfida principale risiede nell'ottenere dati video accoppiati per questo scenario. I metodi precedenti tipicamente si affidano ad approcci intelligenti di generazione dei dati per costruire dati accoppiati plausibili a partire da video non accoppiati, ma questo approccio fallisce se uno dei video in una coppia non può essere facilmente costruito a partire dall'altro. Invece, introduciamo TrajectoryAtlas, una nuova pipeline di generazione dati per dati video sintetici accoppiati su larga scala e un generatore video, TrajectoryMover, messo a punto con questi dati. Dimostriamo che ciò abilita con successo lo spostamento generativo delle traiettorie degli oggetti. Pagina del progetto: https://chhatrekiran.github.io/trajectorymover

Modelli LLM Tabellari per la Predizione Interpretabile del Morbo di Alzheimer in Few-Shot con Dati Biomedici Multimodali
Tabular LLMs for Interpretable Few-Shot Alzheimer's Disease Prediction with Multimodal Biomedical Data

Mar 17

BySophie Kearney, Shu Yang, Zixuan Wen, Weimin Lyu, Bojian Hou, Duy Duong-Tran, Tianlong Chen, Jason H. Moore, Marylyn D. Ritchie, Chao Chen, Li Shen

La diagnosi accurata del morbo di Alzheimer (MA) richiede l'elaborazione di dati biomarcatori in formato tabellare, tuttavia tali dati sono spesso esigui e incompleti, contesti in cui i modelli di deep learning spesso non riescono a superare le metodologie classiche. I grandi modelli linguistici (LLM) preaddestrati offrono generalizzazione few-shot, ragionamento strutturato e output interpretabili, rappresentando un potente cambio di paradigma per la predizione clinica. Proponiamo TAP-GPT (Tabular Alzheimer's Prediction GPT), un framework di LLM tabellare adattato al dominio, basato su TableGPT2 e raffinato per la classificazione few-shot del MA utilizzando prompt tabellari anziché testo semplice. Valutiamo TAP-GPT su quattro dataset derivati da ADNI, inclusi biomarcatori QT-PAD e risonanza magnetica strutturale a livello regionale, PET amiloide e PET tau per la classificazione binaria del MA. In contesti multimodali e unimodali, TAP-GPT migliora i modelli di partenza e supera i baseline di machine learning tradizionale in setting few-shot, mantenendo al contempo competitività con gli LLM general-purpose allo stato dell'arte. Dimostriamo che la selezione delle caratteristiche mitiga il degrado con input ad alta dimensionalità e che TAP-GPT mantiene prestazioni stabili in condizioni di dati mancanti simulati e reali senza necessità di imputazione. Inoltre, TAP-GPT produce un ragionamento strutturato e consapevole della modalità, allineato con la biologia consolidata del MA, e mostra una maggiore stabilità sotto auto-riflessione, supportandone l'uso in sistemi multi-agente iterativi. A nostra conoscenza, questa è la prima applicazione sistematica di un LLM specializzato in dati tabellari alla predizione del MA basata su biomarcatori multimodali, dimostrando che tali modelli preaddestrati possono affrontare efficacemente compiti di predizione clinica strutturata e gettando le basi per sistemi di supporto alle decisioni cliniche multi-agente guidati da LLM tabellari. Il codice sorgente è pubblicamente disponibile su GitHub: https://github.com/sophie-kearney/TAP-GPT.

TokenDial: Controllo Continuo degli Attributi nel Text-to-Video tramite Offset Spaziotemporali dei Token
TokenDial: Continuous Attribute Control in Text-to-Video via Spatiotemporal Token Offsets

Mar 29

ByZhixuan Liu, Peter Schaldenbrand, Yijun Li, Long Mai, Aniruddha Mahapatra, Cusuh Ham, Jean Oh, Jui-Hsien Wang

Presentiamo TokenDial, un framework per il controllo continuo di attributi in stile cursore nei modelli preaddestrati di generazione video da testo. Sebbene i generatori moderni producano video olisticamente solidi, offrono un controllo limitato sull'entità della variazione di un attributo (ad esempio, l'intensità di un effetto o l'ampiezza di un movimento) senza alterare l'identità, lo sfondo o la coerenza temporale. TokenDial si basa sull'osservazione che gli offset additivi nello spazio intermedio dei token visivi spaziotemporali (patch-token) formano una direzione di controllo semantico, in cui l'aggiustamento dell'ampiezza dell'offset produce modifiche coerenti e prevedibili sia per l'aspetto che per la dinamica del movimento. Apprendiamo offset dei token specifici per attributo senza riaddestrare il modello base, utilizzando segnali di comprensione preaddestrati: abbinamento della direzione semantica per l'aspetto e scalatura dell'ampiezza del movimento per il moto. Dimostriamo l'efficacia di TokenDial su attributi e prompt diversi, raggiungendo una controllabilità superiore e modifiche di qualità più elevata rispetto ai baseline state-of-the-art, supportati da un'ampia valutazione quantitativa e studi umani.