HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

48 papers found

DeepSeek-V3.2: Spingere Avanti le Frontiere dei Modelli Linguistici di Grandi Dimensioni Open Source
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

Dec 2

ByDeepSeek-AI, Aixin Liu, Aoxue Mei, Bangcai Lin, Bing Xue, Bingxuan Wang, Bingzheng Xu, Bochao Wu, Bowei Zhang, Chaofan Lin, Chen Dong, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenhao Xu, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Erhang Li, Fangqi Zhou, Fangyun Lin, Fucong Dai, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Hao Li, Haofen Liang, Haoran Wei, Haowei Zhang, Haowen Luo, Haozhe Ji, Honghui Ding, Hongxuan Tang, Huanqi Cao, Huazuo Gao, Hui Qu, Hui Zeng, Jialiang Huang, Jiashi Li, Jiaxin Xu, Jiewen Hu, Jingchang Chen, Jingting Xiang, Jingyang Yuan, Jingyuan Cheng, Jinhua Zhu, Jun Ran, Junguang Jiang, Junjie Qiu, Junlong Li, Junxiao Song, Kai Dong, Kaige Gao, Kang Guan, Kexin Huang, Kexing Zhou, Kezhao Huang, Kuai Yu, Lean Wang, Lecong Zhang, Lei Wang, Liang Zhao, Liangsheng Yin, Lihua Guo, Lingxiao Luo, Linwang Ma, Litong Wang, Liyue Zhang, M. S. Di, M. Y Xu, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingxu Zhou, Panpan Huang, Peixin Cong, Peiyi Wang, Qiancheng Wang, Qihao Zhu, Qingyang Li, Qinyu Chen, Qiushi Du, Ruiling Xu, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, Runqiu Yin, Runxin Xu, Ruomeng Shen, Ruoyu Zhang, S. H. Liu, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaofei Cai, Shaoyuan Chen, Shengding Hu, Shengyu Liu, Shiqiang Hu, Shirong Ma, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, Songyang Zhou, Tao Ni, Tao Yun, Tian Pei, Tian Ye, Tianyuan Yue, Wangding Zeng, Wen Liu, Wenfeng Liang, Wenjie Pang, Wenjing Luo, Wenjun Gao, Wentao Zhang, Xi Gao, Xiangwen Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaokang Zhang, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xingkai Yu, Xingyou Li, Xinyu Yang, Xinyuan Li, Xu Chen, Xuecheng Su, Xuehai Pan, Xuheng Lin, Xuwei Fu, Y. Q. Wang, Yang Zhang, Yanhong Xu, Yanru Ma, Yao Li, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Qian, Yi Yu, Yichao Zhang, Yifan Ding, Yifan Shi, Yiliang Xiong, Ying He, Ying Zhou, Yinmin Zhong, Yishi Piao, Yisong Wang, Yixiao Chen, Yixuan Tan, Yixuan Wei, Yiyang Ma, Yiyuan Liu, Yonglun Yang, Yongqiang Guo, Yongtong Wu, Yu Wu, Yuan Cheng, Yuan Ou, Yuanfan Xu, Yuduan Wang, Yue Gong, Yuhan Wu, Yuheng Zou, Yukun Li, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Z. F. Wu, Z. Z. Ren, Zehua Zhao, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhibin Gou, Zhicheng Ma, Zhigang Yan, Zhihong Shao, Zhixian Huang, Zhiyu Wu, Zhuoshu Li, Zhuping Zhang, Zian Xu, Zihao Wang, Zihui Gu, Zijia Zhu, Zilin Li, Zipeng Zhang, Ziwei Xie, Ziyi Gao, Zizheng Pan, Zongqing Yao, Bei Feng, Hui Li, J. L. Cai, Jiaqi Ni, Lei Xu, Meng Li, Ning Tian, R. J. Chen, R. L. Jin, S. S. Li, Shuang Zhou, Tianyu Sun, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xinnan Song, Xinyi Zhou, Y. X. Zhu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Dongjie Ji, Jian Liang, Jianzhong Guo, Jin Chen, Leyi Xia, Miaojun Wang, Mingming Li, Peng Zhang, Ruyi Chen, Shangmian Sun, Shaoqing Wu, Shengfeng Ye, T. Wang, W. L. Xiao, Wei An, Xianzu Wang, Xiaowen Sun, Xiaoxiang Wang, Ying Tang, Yukun Zha, Zekai Zhang, Zhe Ju, Zhen Zhang, Zihua Qu

253

Presentiamo DeepSeek-V3.2, un modello che armonizza un'elevata efficienza computazionale con prestazioni superiori nel ragionamento e nelle capacità agentive. Le principali innovazioni tecniche di DeepSeek-V3.2 sono le seguenti: (1) DeepSeek Sparse Attention (DSA): Introduciamo il DSA, un meccanismo di attenzione efficiente che riduce sostanzialmente la complessità computazionale preservando le prestazioni del modello in scenari di contesto lungo. (2) Framework Scalabile di Reinforcement Learning: Implementando un protocollo robusto di reinforcement learning e scalando il calcolo post-addestramento, DeepSeek-V3.2 performa in modo comparabile a GPT-5. In particolare, la nostra variante ad alto calcolo, DeepSeek-V3.2-Speciale, supera GPT-5 ed esibisce una competenza nel ragionamento pari a Gemini-3.0-Pro, raggiungendo una performance da medaglia d'oro sia alle Olimpiadi Internazionali di Matematica (IMO) 2025 che alle Olimpiadi Internazionali di Informatica (IOI). (3) Pipeline di Sintesi Su Larga Scala per Task Agenti-ci: Per integrare il ragionamento in scenari di utilizzo di strumenti, abbiamo sviluppato una nuova pipeline di sintesi che genera sistematicamente dati di addestramento su larga scala. Questa metodologia facilita un post-addestramento agentivo scalabile, producendo miglioramenti sostanziali nella generalizzazione e nella robustezza nel seguire istruzioni all'interno di ambienti complessi e interattivi.

ToolOrchestra: Elevare l'Intelligenza tramite un'Orchestrazione Efficiente di Modelli e Strumenti
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Nov 26

ByHongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov

123

I grandi modelli linguistici sono potenti generalisti, ma risolvere problemi profondi e complessi come quelli dell'Esame Finale dell'Umanità (HLE) rimane sia concettualmente impegnativo che computazionalmente costoso. Dimostriamo che piccoli orchestratori che gestiscono altri modelli e una varietà di strumenti possono sia spingere il limite superiore dell'intelligenza sia migliorare l'efficienza nella risoluzione di compiti agentici difficili. Introduciamo ToolOrchestra, un metodo per addestrare piccoli orchestratori che coordinano strumenti intelligenti. ToolOrchestra utilizza esplicitamente l'apprendimento per rinforzo con ricompense basate sui risultati, sull'efficienza e sulle preferenze dell'utente. Utilizzando ToolOrchestra, produciamo Orchestrator, un modello da 8B che raggiunge una maggiore accuratezza a un costo inferiore rispetto ai precedenti agenti che utilizzano strumenti, allineandosi alle preferenze dell'utente su quali strumenti utilizzare per una determinata query. Su HLE, Orchestrator ottiene un punteggio del 37.1%, superando GPT-5 (35.1%) con un'efficienza 2.5 volte maggiore. Su tau2-Bench e FRAMES, Orchestrator supera GPT-5 di un ampio margine utilizzando solo circa il 30% del costo. Un'analisi approfondita mostra che Orchestrator raggiunge il miglior compromesso tra prestazioni e costo secondo molteplici metriche e generalizza in modo robusto a strumenti non visti. Questi risultati dimostrano che comporre strumenti diversificati con un modello di orchestrazione leggero è sia più efficiente che più efficace dei metodi esistenti, spianando la strada a sistemi di ragionamento potenziati da strumenti pratici e scalabili.

Ricerca Approfondita: Una Revisione Sistematica
Deep Research: A Systematic Survey

Nov 24

ByZhengliang Shi, Yiqun Chen, Haitao Li, Weiwei Sun, Shiyu Ni, Yougang Lyu, Run-Ze Fan, Bowen Jin, Yixuan Weng, Minjun Zhu, Qiujie Xie, Xinyu Guo, Qu Yang, Jiayi Wu, Jujia Zhao, Xiaqiang Tang, Xinbei Ma, Cunxiang Wang, Jiaxin Mao, Qingyao Ai, Jen-Tse Huang, Wenxuan Wang, Yue Zhang, Yiming Yang, Zhaopeng Tu, Zhaochun Ren

I grandi modelli linguistici (LLM) si sono rapidamente evoluti da generatori di testo a potenti risolutori di problemi. Tuttavia, molti compiti aperti richiedono pensiero critico, l'integrazione di molteplici fonti e output verificabili, caratteristiche che vanno oltre il prompting one-shot o la generazione aumentata dal recupero standard. Recentemente, numerosi studi hanno esplorato la Ricerca Approfondita (Deep Research, DR), che mira a combinare le capacità di ragionamento degli LLM con strumenti esterni, come i motori di ricerca, consentendo così agli LLM di agire come agenti di ricerca in grado di portare a termine compiti complessi e aperti. Questo survey fornisce una panoramica completa e sistematica dei sistemi di ricerca approfondita, includendo una roadmap chiara, i componenti fondamentali, le tecniche di implementazione pratica, le sfide importanti e le direzioni future. Nello specifico, i nostri principali contributi sono i seguenti: (i) formalizziamo una roadmap in tre fasi e distinguiamo la ricerca approfondita dai paradigmi correlati; (ii) introduciamo quattro componenti chiave: pianificazione delle query, acquisizione delle informazioni, gestione della memoria e generazione della risposta, ciascuna associata a sottotassonomie granulari; (iii) riassumiamo le tecniche di ottimizzazione, inclusi il prompting, il fine-tuning supervisionato e l'apprendimento per rinforzo agentivo; e (iv) consolidiamo i criteri di valutazione e le sfide aperte, con l'obiettivo di guidare e facilitare lo sviluppo futuro. Poiché il campo della ricerca approfondita continua a evolversi rapidamente, ci impegniamo ad aggiornare costantemente questo survey per riflettere i progressi più recenti in quest'area.

MultiShotMaster: Un Framework Controllabile per la Generazione di Video Multi-Shot
MultiShotMaster: A Controllable Multi-Shot Video Generation Framework

Dec 2

ByQinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia

Le attuali tecniche di generazione video eccellono nella creazione di clip singole, ma faticano a produrre video narrativi multi-inquadratura, che richiedono una disposizione flessibile delle inquadrature, una narrazione coerente e una controllabilità che va oltre i prompt testuali. Per affrontare queste sfide, proponiamo MultiShotMaster, un framework per la generazione di video multi-inquadratura altamente controllabile. Estendiamo un modello preaddestrato per video singoli integrando due nuove varianti di RoPE. In primo luogo, introduciamo la RoPE Narrativa Multi-Inquadratura, che applica uno sfasamento di fase esplicito nelle transizioni tra le inquadrature, consentendo una disposizione flessibile delle stesse preservando l'ordine narrativo temporale. In secondo luogo, progettiamo la RoPE Consapevole della Posizione Spazio-Temporale per incorporare token di riferimento e segnali di grounding, abilitando l'iniezione di riferimenti ancorati spaziotemporalmente. Inoltre, per ovviare alla scarsità di dati, abbiamo stabilito una pipeline automatizzata di annotazione dei dati per estrarre video multi-inquadratura, didascalie, segnali di grounding trans-inquadratura e immagini di riferimento. Il nostro framework sfrutta le proprietà architetturali intrinseche per supportare la generazione di video multi-inquadratura, caratterizzata da coerenza inter-inquadratura guidata dal testo, soggetti personalizzati con controllo del movimento e scene personalizzate guidate dallo sfondo. Sia il numero di inquadrature che la loro durata sono configurabili in modo flessibile. Esperimenti estensivi dimostrano le prestazioni superiori e l'eccezionale controllabilità del nostro framework.

Linguaggi di Grandi Modelli Autoevolutivi Guidati con Supervisione Umana Minima
Guided Self-Evolving LLMs with Minimal Human Supervision

Dec 2

ByWenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu

L'auto-evoluzione dell'IA è stata a lungo immaginata come un percorso verso la superintelligenza, in cui i modelli acquisiscono, affinano e interiorizzano autonomamente la conoscenza dalle proprie esperienze di apprendimento. Tuttavia, nella pratica, i sistemi di auto-evoluzione non guidati spesso raggiungono rapidamente un plateau o addirittura si degradano con il progredire dell'addestramento. Questi fallimenti derivano da problemi come il *concept drift*, il collasso della diversità e la *mis-evolution*, poiché i modelli rafforzano i propri bias e convergono verso comportamenti a bassa entropia. Per consentire ai modelli di auto-evolversi in modo stabile e controllabile, minimizzando al contempo la dipendenza dalla supervisione umana, introduciamo R-Few, un framework di auto-competizione (*Self-Play*) guidato "Challenger-Solver" che incorpora una supervisione umana leggera attraverso il *grounding* in contesto (*in-context grounding*) e l'addestramento misto. Ad ogni iterazione, il Challenger campiona un piccolo insieme di esempi etichettati dall'uomo per guidare la generazione sintetica di domande, mentre il Solver si addestra congiuntamente su esempi umani e sintetici seguendo un curriculum online basato sulla difficoltà. Su benchmark di matematica e ragionamento generale, R-Few ottiene miglioramenti consistenti e iterativi. Ad esempio, Qwen3-8B-Base migliora di +3,0 punti rispetto a R-Zero sui compiti matematici e raggiunge prestazioni pari a General-Reasoner, nonostante quest'ultimo sia stato addestrato su 20 volte più dati umani. Studi di *ablation* confermano i contributi complementari dell'addestramento del Challenger basato sul *grounding* e dell'addestramento del Solver basato sul curriculum, e un'analisi più approfondita mostra che R-Few mitiga il *drift*, producendo dinamiche co-evolutive più stabili e controllabili.

MG-Nav: Navigazione Visiva a Doppia Scala tramite Memoria Spaziale Sparsa
MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

Nov 27

ByBo Wang, Jiehong Lin, Chenzhi Liu, Xinting Hu, Yifei Yu, Tianjia Liu, Zhongrui Wang, Xiaojuan Qi

Presentiamo MG-Nav (Memory-Guided Navigation), un framework a doppia scala per la navigazione visiva zero-shot che unisce una pianificazione globale guidata dalla memoria con un controllo locale potenziato dalla geometria. Il suo nucleo è il Sparse Spatial Memory Graph (SMG), una memoria compatta e centrata sulle regioni in cui ogni nodo aggrega semantiche di keyframe multi-vista e di oggetti, catturando sia l'aspetto visivo che la struttura spaziale preservando la diversità dei punti di vista. A livello globale, l'agente viene localizzato sull'SMG e un percorso di nodi condizionato all'obiettivo viene pianificato tramite un retrieval ibrido immagine-istanza, producendo una sequenza di waypoint raggiungibili per una guida a lungo termine. A livello locale, una policy di navigazione foundation esegue questi waypoint in modalità punto-obiettivo con controllo consapevole degli ostacoli, e passa alla modalità immagine-obiettivo quando naviga dal nodo finale verso il target visivo. Per migliorare ulteriormente l'allineamento del punto di vista e il riconoscimento dell'obiettivo, introduciamo VGGT-adapter, un modulo geometrico leggero costruito sul modello VGGT pre-addestrato, che allinea le caratteristiche dell'osservazione e dell'obiettivo in uno spazio condiviso e consapevole della 3D. MG-Nav opera la pianificazione globale e il controllo locale a frequenze diverse, utilizzando una ri-localizzazione periodica per correggere gli errori. Esperimenti sui benchmark HM3D Instance-Image-Goal e MP3D Image-Goal dimostrano che MG-Nav raggiunge prestazioni zero-shot allo stato dell'arte e rimane robusto in condizioni di riarrangiamenti dinamici e scene non viste.

Skywork-R1V4: Verso un'Intelligenza Multimodale Agente attraverso il Ragionamento Intervallato con Immagini e DeepResearch
Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch

Dec 2

ByYifan Zhang, Liang Hu, Haofeng Sun, Peiyu Wang, Yichen Wei, Shukang Yin, Jiangbo Pei, Wei Shen, Peng Xia, Yi Peng, Tianyidan Xie, Eric Li, Yang Liu, Xuchen Song, Yahui Zhou

Nonostante i recenti progressi nei sistemi agente multimodali, gli approcci esistenti spesso trattano la manipolazione delle immagini e la ricerca web come capacità separate, si basano pesantemente su costosi apprendimenti per rinforzo e mancano di una pianificazione basata su tracce reali di esecuzione di strumenti. Per affrontare queste limitazioni, presentiamo Skywork-R1V4, un modello agente multimodale da 30B (A3B) parametri che unifica la pianificazione multimodale, la manipolazione attiva delle immagini ("pensare con le immagini"), la ricerca multimodale approfondita e, aspetto cruciale, un ragionamento intervallato che alterna dinamicamente operazioni visive e recupero di conoscenze esterne. Addestrato esclusivamente tramite fine-tuning supervisionato su meno di 30.000 traiettorie di alta qualità, consistenti nella pianificazione-esecuzione e convalidato tramite filtraggio della coerenza passo-passo, Skywork-R1V4 raggiunge risultati all'avanguardia in benchmark di percezione e ricerca multimodale: ottiene un punteggio di 66,1 su MMSearch e 67,2 su FVQA, superando Gemini 2.5 Flash in tutte le 11 metriche. Skywork-R1V4 mostra un ragionamento emergente a lungo orizzonte al momento dell'inferenza, riuscendo a orchestrare più di 10 chiamate a strumenti per risolvere compiti complessi e multi-step. I nostri risultati dimostrano che un'intelligenza agente multimodale sofisticata può essere ottenuta tramite il solo apprendimento supervisionato accuratamente curato, senza alcuna dipendenza dall'apprendimento per rinforzo.

DualCamCtrl: Modello di Diffusione a Doppio Ramo per la Generazione di Video Controllati dalla Fotocamera con Consapevolezza Geometrica
DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

Nov 28

ByHongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen

Questo articolo presenta DualCamCtrl, un innovativo modello di diffusione end-to-end per la generazione di video controllati da telecamera. I lavori recenti hanno fatto progredire questo campo rappresentando le pose della telecamera come condizioni basate su raggi, ma spesso mancano di una comprensione della scena e di una consapevolezza geometrica sufficienti. DualCamCtrl affronta specificamente questa limitazione introducendo un framework a doppio ramo che genera mutualmente sequenze RGB e di profondità consistenti con la telecamera. Per armonizzare queste due modalità, proponiamo ulteriormente il meccanismo di Allineamento Reciproco Guidato dalla Semantica (SIGMA), che esegue la fusione RGB-profondità in modo guidato semanticamente e rafforzato reciprocamente. Questi design consentono collettivamente a DualCamCtrl di separare meglio la modellazione dell'aspetto e della geometria, generando video che aderiscono più fedelmente alle traiettorie specificate della telecamera. Inoltre, analizziamo e riveliamo la distinta influenza della profondità e delle pose della telecamera attraverso le fasi di denoising e dimostriamo ulteriormente che gli stadi iniziali e finali svolgono ruoli complementari nella formazione della struttura globale e nel perfezionamento dei dettagli locali. Esperimenti estensivi dimostrano che DualCamCtrl raggiunge una generazione di video controllati da telecamera più consistente, con una riduzione di oltre il 40% degli errori di movimento della telecamera rispetto ai metodi precedenti. La nostra pagina del progetto: https://soyouthinkyoucantell.github.io/dualcamctrl-page/

SimScale: Imparare a Guidare tramite Simulazione Realistica su Larga Scala
SimScale: Learning to Drive via Real-World Simulation at Scale

Nov 28

ByHaochen Tian, Tianyu Li, Haochen Liu, Jiazhi Yang, Yihang Qiu, Guang Li, Junli Wang, Yinfeng Gao, Zhang Zhang, Liang Wang, Hangjun Ye, Tieniu Tan, Long Chen, Hongyang Li

Il raggiungimento di sistemi di guida completamente autonomi richiede l'apprendimento di decisioni razionali in un'ampia gamma di scenari, inclusi quelli critici per la sicurezza e fuori distribuzione. Tuttavia, tali casi sono sottorappresentati nel corpus del mondo reale raccolto da esperti umani. Per compensare la mancanza di diversità dei dati, introduciamo un framework di simulazione innovativo e scalabile in grado di sintetizzare stati non visti su larga scala a partire da log di guida esistenti. La nostra pipeline utilizza il neural rendering avanzato con un ambiente reattivo per generare osservazioni multi-vista ad alta fedeltà controllate dalla traiettoria ego perturbata. Inoltre, sviluppiamo un meccanismo di generazione di traiettorie pseudo-esperte per questi nuovi stati simulati, al fine di fornire una supervisione delle azioni. Utilizzando i dati sintetizzati, riscontriamo che una semplice strategia di co-addestramento su campioni sia reali che simulati può portare a miglioramenti significativi sia nella robustezza che nella generalizzazione per vari metodi di pianificazione su benchmark reali impegnativi, fino a +6,8 EPDMS su navhard e +2,9 su navtest. Ancora più importante, tale miglioramento delle politiche scala fluidamente aumentando solo i dati di simulazione, anche senza un flusso aggiuntivo di dati reali. Riveliamo inoltre diversi risultati cruciali di un tale sistema di apprendimento simulato-reale, che denominiamo SimScale, includendo la progettazione degli pseudo-esperti e le proprietà di scaling per diverse architetture di politiche. I nostri dati di simulazione e il codice verranno rilasciati.

InnoGym: Valutare il Potenziale Innovativo degli Agenti di Intelligenza Artificiale
InnoGym: Benchmarking the Innovation Potential of AI Agents

Dec 1

ByJintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang

I modelli linguistici di grandi dimensioni (LLM) e gli agenti hanno ottenuto progressi significativi nella generazione di codice, nel ragionamento matematico e nella scoperta scientifica. Tuttavia, i benchmark esistenti misurano principalmente la correttezza, tralasciando la diversità dei metodi alla base delle soluzioni. La vera innovazione dipende non solo dalla produzione di risposte corrette, ma anche dall'originalità dell'approccio. Presentiamo InnoGym, il primo benchmark e framework progettato per valutare sistematicamente il potenziale innovativo degli agenti di intelligenza artificiale. InnoGym introduce due metriche complementari: il guadagno di prestazione, che misura il miglioramento rispetto alle soluzioni più note, e la novità, che cattura le differenze metodologiche rispetto agli approcci precedenti. Il benchmark include 18 task accuratamente selezionati da domini ingegneristici e scientifici del mondo reale, ciascuno standardizzato attraverso filtraggio delle risorse, validazione dei valutatori e raccolta di soluzioni. Inoltre, forniamo iGym, un ambiente di esecuzione unificato per valutazioni riproducibili e a lungo termine. Esperimenti estensivi dimostrano che, sebbene alcuni agenti producano approcci innovativi, la loro mancanza di robustezza ne limita il guadagno prestazionale. Questi risultati evidenziano un divario cruciale tra creatività ed efficacia, sottolineando la necessità di benchmark che valutino entrambi gli aspetti.

SimWorld: Un Simulatore Realistico e Aperto per Agenti Autonomi nei Mondi Fisici e Sociali
SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds

Nov 30

ByJiawei Ren, Yan Zhuang, Xiaokang Ye, Lingjun Mao, Xuhong He, Jianzhi Shen, Mrinaal Dogra, Yiming Liang, Ruixuan Zhang, Tianai Yue, Yiqing Yang, Eric Liu, Ryan Wu, Kevin Benavente, Rajiv Mandya Nagaraju, Muhammad Faayez, Xiyan Zhang, Dhruv Vivek Sharma, Xianrui Zhong, Ziqiao Ma, Tianmin Shu, Zhiting Hu, Lianhui Qin

Mentre gli agenti IA basati su LLM/VLM hanno fatto rapidi progressi in matematica, programmazione e utilizzo del computer, le loro applicazioni in ambienti fisici e sociali complessi rimangono una sfida. La costruzione di agenti in grado di sopravvivere e prosperare nel mondo reale (ad esempio, guadagnando reddito in modo autonomo o gestendo un'impresa) richiede un'interazione, un ragionamento, un addestramento e una valutazione su larga scala attraverso scenari embodied diversificati. Tuttavia, i simulatori del mondo esistenti per tale sviluppo sono carenti: spesso si basano su ambienti limitati e creati manualmente, simulano fisiche e regole sociali semplificate simili a quelle dei giochi e mancano di un supporto nativo per gli agenti LLM/VLM. Introduciamo SimWorld, un nuovo simulatore basato su Unreal Engine 5, progettato per sviluppare e valutare agenti LLM/VLM in ambienti ricchi e simili al mondo reale. SimWorld offre tre capacità fondamentali: (1) una simulazione realistica e aperta del mondo, che include dinamiche fisiche e sociali accurate e una generazione procedurale di ambienti guidata dal linguaggio; (2) un'interfaccia ricca per gli agenti LLM/VLM, con input mondiali multimodali e azioni a vocabolario aperto a diversi livelli di astrazione; e (3) scenari di ragionamento fisico e sociale diversificati ed estensibili, facilmente personalizzabili dagli utenti. Dimostriamo SimWorld distribuendo agenti LLM all'avanguardia (ad esempio, GPT-4o, Gemini-2.5-Flash, Claude-3.5 e DeepSeek-Prover-V2) in compiti di consegna multi-agente a lungo termine che coinvolgono cooperazione e competizione strategica. I risultati rivelano distinti modelli di ragionamento e limitazioni tra i modelli. Rilasciamo SimWorld come open-source e speriamo che diventi una piattaforma fondamentale per far progredire l'intelligenza degli agenti nel mondo reale in tutte le discipline: https://simworld.org.

PixelDiT: Trasformatori per Diffusione di Pixel per la Generazione di Immagini
PixelDiT: Pixel Diffusion Transformers for Image Generation

Nov 25

ByYongsheng Yu, Wei Xiong, Weili Nie, Yichen Sheng, Shiqiu Liu, Jiebo Luo

La modellazione dello spazio latente è stata lo standard per i Diffusion Transformer (DiT). Tuttavia, questo approccio si basa su una pipeline a due stadi in cui l'autoencoder preaddestrato introduce una ricostruzione con perdita di informazioni, portando a un accumulo di errori e ostacolando l'ottimizzazione congiunta. Per affrontare questi problemi, proponiamo PixelDiT, un modello monostadio end-to-end che elimina la necessità dell'autoencoder e apprende il processo di diffusione direttamente nello spazio dei pixel. PixelDiT adotta un'architettura interamente basata su transformer modellata da un design a doppio livello: un DiT a livello di patch che cattura la semantica globale e un DiT a livello di pixel che raffina i dettagli testurali, consentendo l'addestramento efficiente di un modello di diffusione nello spazio dei pixel preservando i dettagli fini. La nostra analisi rivela che una modellazione efficace dei token a livello di pixel è essenziale per il successo della diffusione sui pixel. PixelDiT raggiunge un FID di 1.61 su ImageNet 256x256, superando di ampio margine i modelli generativi su pixel esistenti. Estendiamo inoltre PixelDiT alla generazione text-to-image e lo preaddestriamo alla risoluzione 1024x1024 nello spazio dei pixel. Il modello raggiunge 0.74 su GenEval e 83.5 su DPG-bench, avvicinandosi alle prestazioni dei migliori modelli di diffusione latente.

Glance: Accelerare i Modelli di Diffusione con 1 Campione
Glance: Accelerating Diffusion Models with 1 Sample

Dec 2

ByZhuobai Dong, Rui Zhao, Songjie Wu, Junchao Yi, Linjie Li, Zhengyuan Yang, Lijuan Wang, Alex Jinpeng Wang

I modelli di diffusione hanno ottenuto un notevole successo nella generazione di immagini, ma il loro dispiegamento rimane limitato dall'elevato costo computazionale e dalla necessità di numerosi passi inferenziali. I precedenti tentativi di distillazione con meno passi cercano di saltare i passi ridondanti addestrando modelli studente compatti, ma spesso soffrono di elevati costi di riaddestramento e di una generalizzazione degradata. In questo lavoro, adottiamo una prospettiva diversa: acceleriamo in modo intelligente, non uniforme, applicando accelerazioni minori alle fasi semantiche iniziali e maggiori alle fasi ridondanti successive. Istanziamo questa strategia consapevole delle fasi con due esperti specializzati rispettivamente nelle fasi di denoising lente e veloci. Sorprendentemente, invece di investire uno sforzo massiccio nel riaddestrare modelli studente, scopriamo che semplicemente dotando il modello base di adattatori LoRA leggeri si ottengono sia un'efficiente accelerazione che una forte generalizzazione. Ci riferiamo a questi due adattatori come Slow-LoRA e Fast-LoRA. Attraverso esperimenti estesi, il nostro metodo raggiunge un'accelerazione fino a 5 volte rispetto al modello base mantenendo una qualità visiva comparabile su benchmark diversificati. Notevolmente, gli esperti LoRA sono addestrati con soli 1 campione su una singola V100 in un'ora, eppure i modelli risultanti generalizzano fortemente su prompt non visti.

WorldMM: Agente di Memoria Multimodale Dinamico per il Ragionamento su Video Lunghi
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

Dec 2

ByWoongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang

I recenti progressi nei modelli linguistici di grandi dimensioni per video hanno dimostrato notevoli capacità nella comprensione di clip brevi. Tuttavia, scalare tali modelli per video della durata di ore o giorni rimane estremamente impegnativo a causa della limitata capacità di contesto e della perdita di dettagli visivi critici durante l'astrazione. I metodi esistenti potenziati dalla memoria mitigano questo problema sfruttando riassunti testuali di segmenti video, ma si basano fortemente sul testo e non riescono a utilizzare evidenze visive durante il ragionamento su scene complesse. Inoltre, il recupero da scale temporali fisse limita ulteriormente la loro flessibilità nel catturare eventi che si estendono su durate variabili. Per affrontare ciò, introduciamo WorldMM, un innovativo agente di memoria multimodale che costruisce e recupera da memorie multiple complementari, comprendenti sia rappresentazioni testuali che visive. WorldMM comprende tre tipi di memoria: la memoria episodica indicizza eventi fattuali su scale temporali multiple, la memoria semantica aggiorna continuamente la conoscenza concettuale di alto livello e la memoria visiva preserva informazioni dettagliate sulle scene. Durante l'inferenza, un agente di recupero adattivo seleziona iterativamente la fonte di memoria più rilevante e sfrutta multiple granularità temporali in base alla query, continuando fino a determinare che sono state raccolte informazioni sufficienti. WorldMM supera significativamente i metodi baseline esistenti su cinque benchmark di question-answering per video lunghi, raggiungendo un miglioramento prestazionale medio dell'8,4% rispetto ai precedenti metodi state-of-the-art, dimostrando la sua efficacia nel ragionamento su video lunghi.

WUSH: Trasformazioni Adattive Quasi Ottimali per la Quantizzazione di LLM
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization

Nov 30

ByJiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh

La quantizzazione a bassa larghezza di bit è un approccio standard per il deployment di grandi modelli linguistici. Tuttavia, alcuni pesi e attivazioni estremi ampliano l'intervallo dinamico e riducono la risoluzione effettiva del quantizzatore. Una comune strategia di mitigazione consiste nell'applicare alcune trasformazioni ortogonali fisse, come le matrici di Hadamard, prima della quantizzazione, operazione che tipicamente riduce l'intervallo dinamico. Ciononostante, queste trasformazioni ignorano le statistiche dei dati, e la loro ottimalità non è attualmente compresa. In questo lavoro, deriviamo per la prima volta trasformazioni lineari ottimali in forma chiusa, applicate a blocchi, per la quantizzazione congiunta di pesi e attivazioni, utilizzando quantizzatori standard senza dati per formati numerici comuni. Nello specifico, forniamo le derivazioni delle trasformazioni adattive (data-aware) ottimali per quantizzatori a blocchi con arrotondamento al valore più vicino (RTN) e scalati secondo il valore assoluto massimo (AbsMax), sia per formati interi che in virgola mobile. La costruzione risultante, che chiamiamo WUSH, combina una struttura base di Hadamard con una componente dipendente dai dati basata sui momenti del secondo ordine, producendo una trasformazione non ortogonale che è dimostrabilmente ottimale sotto lievi assunzioni e rimane strutturata per un'implementazione efficiente. I risultati sperimentali preliminari mostrano che il nostro approccio migliora costantemente la trasformazione di Hadamard per i formati comuni.

ViSAudio: Generazione di Audio Spaziale Binaurale End-to-End Guidata da Video
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

Dec 2

ByMengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin

Nonostante i progressi nella generazione audio da video, il campo si concentra prevalentemente sull'output mono, mancando di immersività spaziale. Gli approcci binaurali esistenti rimangono vincolati a una pipeline in due fasi che genera prima l'audio mono e successivamente effettua la spazializzazione, con conseguente accumulo di errori e incoerenze spazio-temporali. Per superare questa limitazione, introduciamo il compito di generazione audio binaurale spaziale end-to-end direttamente da video silenziosi. A supporto di questo compito, presentiamo il dataset BiAudio, comprendente circa 97.000 coppie video-audio binaurale che abbracciano scenari del mondo reale e traiettorie di rotazione della fotocamera diversificati, costruito tramite una pipeline semi-automatizzata. Inoltre, proponiamo ViSAudio, un framework end-to-end che impiega il conditional flow matching con un'architettura di generazione audio a doppio ramo, in cui due rami dedicati modellano i flussi latenti audio. Integrato con un modulo condizionato spazio-temporale, esso bilancia la coerenza tra i canali preservando al contempo le caratteristiche spaziali distintive, garantendo un allineamento spazio-temporale preciso tra l'audio e il video in input. Esperimenti esaustivi dimostrano che ViSAudio supera i metodi state-of-the-art esistenti sia nelle metriche oggettive che nelle valutazioni soggettive, generando audio binaurale di alta qualità con immersività spaziale che si adatta efficacemente ai cambiamenti del punto di vista, al movimento delle sorgenti sonore e a diversi ambienti acustici. Sito web del progetto: https://kszpxxzmc.github.io/ViSAudio-project.

Miscela di Orizzonti nel Frammentare l'Azione
Mixture of Horizons in Action Chunking

Nov 24

ByDong Jing, Gang Wang, Jiaqi Liu, Weiliang Tang, Zelong Sun, Yunchao Yao, Zhenyu Wei, Yunhui Liu, Zhiwu Lu, Mingyu Ding

I modelli visione-linguaggio-azione (VLA) hanno dimostrato capacità notevoli nella manipolazione robotica, ma le loro prestazioni sono sensibili alla lunghezza del blocco d'azione utilizzato durante l'addestramento, denominata orizzonte. Il nostro studio empirico rivela un compromesso intrinseco: orizzonti più lunghi forniscono una maggiore capacità di previsione globale ma degradano la precisione fine, mentre quelli più corti affinano il controllo locale ma faticano nei compiti a lungo termine, implicando che la scelta fissa di un singolo orizzonte sia subottimale. Per mitigare questo compromesso, proponiamo una strategia a miscela di orizzonti (MoH). MoH riorganizza il blocco d'azione in diversi segmenti con orizzonti differenti, li elabora in parallelo con un transformer d'azione condiviso e fonde gli output con un leggero gate lineare. La strategia offre tre vantaggi fondamentali: 1) MoH sfrutta congiuntamente la previsione a lungo termine e la precisione a breve termine all'interno di un unico modello, migliorando sia le prestazioni che la generalizzabilità a compiti complessi. 2) MoH è plug-and-play per moduli d'azione con attenzione completa, con un overhead minimo in addestramento e inferenza. 3) MoH abilita un'inferenza dinamica con orizzonti adattativi, che seleziona azioni stabili attraverso un consenso incrociato tra orizzonti, raggiungendo un throughput 2,5 volte superiore rispetto ai baseline preservando prestazioni superiori. Esperimenti estesi sulle politiche basate su flusso π₀, π₀.₅ e sulla politica di regressione one-step π_reg dimostrano che MoH produce guadagni consistenti e significativi sia in simulazione che in compiti del mondo reale. In particolare, in uno scenario di compiti misti, π₀.₅ con MoH raggiunge un nuovo stato dell'arte con un tasso di successo medio del 99% su LIBERO dopo sole 30k iterazioni di addestramento. Pagina del progetto: https://github.com/Timsty1/MixtureOfHorizons

GoRL: un framework indipendente dall'algoritmo per l'apprendimento per rinforzo online con politiche generative
GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

Dec 2

ByChubin Zhang, Zhenglin Wan, Feng Chen, Xingrui Yu, Ivor Tsang, Bo An

L'apprendimento per rinforzo (RL) affronta una tensione persistente: le policy che sono stabili da ottimizzare sono spesso troppo semplici per rappresentare le distribuzioni di azioni multimodali necessarie per il controllo complesso. Le policy gaussiane forniscono verosimiglianze trattabili e gradienti regolari, ma la loro forma unimodale ne limita l'espressività. Al contrario, le policy generative basate su modelli di diffusione o di flusso possono modellare comportamenti multimodali ricchi; tuttavia, nell'RL online, sono spesso instabili a causa di verosimiglianze intrattabili e gradienti rumorosi che si propagano attraverso catene di campionamento profonde. Affrontiamo questa tensione con un principio strutturale chiave: disaccoppiare l'ottimizzazione dalla generazione. Sulla base di questa intuizione, introduciamo GoRL (Generative Online Reinforcement Learning), un framework che ottimizza una policy latente trattabile utilizzando al contempo un decodificatore generativo condizionato per sintetizzare le azioni. Uno schema di aggiornamento a due scale temporali consente alla policy latente di apprendere in modo stabile mentre il decodificatore aumenta progressivamente l'espressività, senza richiedere verosimiglianze delle azioni trattabili. In una serie di compiti di controllo continuo, GoRL supera costantemente sia le policy gaussiane che i recenti baseline di policy generative. In particolare, nel compito HopperStand, raggiunge un ritorno normalizzato superiore a 870, più del triplo rispetto al baseline più forte. Questi risultati dimostrano che separare l'ottimizzazione dalla generazione fornisce un percorso pratico verso policy che sono sia stabili che altamente espressive.

L'udito aiuta la vista? Uno studio sulla rimozione congiunta del rumore audio-video per la generazione di video
Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

Dec 2

ByJianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang

I recenti sistemi generativi audio-video suggeriscono che l'accoppiamento delle modalità avvantaggia non solo la sincronia audio-video, ma anche la modalità video stessa. Ci poniamo una domanda fondamentale: l'addestramento congiunto di denoising audio-video migliora la generazione video, anche quando siamo interessati esclusivamente alla qualità video? Per studiarlo, introduciamo un'architettura Audio-Video Full DiT (AVFullDiT) efficiente in parametri che sfrutta moduli pre-addestrati text-to-video (T2V) e text-to-audio (T2A) per il denoising congiunto. Addestriamo (i) un modello T2AV con AVFullDiT e (ii) una controparte T2V-only in condizioni identiche. I nostri risultati forniscono la prima evidenza sistematica che il denoising congiunto audio-video può offrire più della semplice sincronia. Osserviamo miglioramenti consistenti su sottoinsiemi complessi caratterizzati da movimenti ampi e da contatto tra oggetti. Ipotesi che la previsione dell'audio agisca come un segnale privilegiato, incoraggiando il modello a internalizzare relazioni causali tra eventi visivi e le loro conseguenze acustiche (ad esempio, i tempi di collisione influenzano il suono), il che a sua volta regolarizza le dinamiche video. I nostri risultati suggeriscono che il co-addestramento cross-modale è un approccio promettente per sviluppare modelli del mondo più robusti e fisicamente fondati. Codice e dataset saranno resi pubblicamente disponibili.

Il caso curioso delle analogie: un'indagine sul ragionamento analogico nei grandi modelli linguistici
The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

Nov 25

ByTaewhoo Lee, Minju Song, Chanwoong Yoon, Jungwoo Park, Jaewoo Kang

Il ragionamento analogico è al centro della cognizione umana, rappresentando un importante fondamento per varie attività intellettuali. Sebbene ricerche precedenti abbiano dimostrato che i LLM possono rappresentare pattern di compiti e concetti superficiali, rimane poco chiaro se questi modelli possano codificare concetti relazionali di alto livello e applicarli a situazioni nuove attraverso confronti strutturati. In questo lavoro, esploriamo questo aspetto fondamentale utilizzando analogie proporzionali e narrative, identificando tre risultati chiave. Primo, i LLM codificano efficacemente le relazioni sottostanti tra entità analoghe; sia le informazioni attributive che relazionali si propagano attraverso gli strati medio-alti nei casi corretti, mentre i fallimenti del ragionamento riflettono l'assenza di informazioni relazionali in questi strati. Secondo, a differenza degli umani, i LLM spesso incontrano difficoltà non solo quando mancano informazioni relazionali, ma anche quando tentano di applicarle a nuove entità. In tali casi, la correzione strategica delle rappresentazioni nascoste in posizioni token critiche può facilitare il trasferimento di informazioni in una certa misura. Infine, un ragionamento analogico di successo nei LLM è caratterizzato da un forte allineamento strutturale tra situazioni analoghe, mentre i fallimenti spesso riflettono un allineamento degradato o fuori posto. Nel complesso, i nostri risultati rivelano che i LLM mostrano capacità emergenti ma limitate nella codifica e applicazione di concetti relazionali di alto livello, evidenziando sia parallelismi che lacune rispetto alla cognizione umana.

CUDA-L2: Superare le Prestazioni di cuBLAS per la Moltiplicazione di Matrici tramite Apprendimento per Rinforzo
CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

Dec 2

BySongqiao Su, Xiaofei Sun, Xiaoya Li, Albert Wang, Jiwei Li, Chris Shum

In questo articolo proponiamo CUDA-L2, un sistema che combina modelli linguistici di grandi dimensioni (LLM) e apprendimento per rinforzo (RL) per ottimizzare automaticamente i kernel CUDA Half-precision General Matrix Multiply (HGEMM). Utilizzando la velocità di esecuzione CUDA come ricompensa per l'RL, CUDA-L2 ottimizza automaticamente i kernel HGEMM su 1.000 configurazioni. CUDA-L2 supera sistematicamente i principali benchmark matmul fino ad oggi, dal diffusissimo {\it torch.matmul} alle librerie closed-source all'avanguardia di Nvidia, ovvero {\it cuBLAS} e {\it cuBLASLt}. In modalità offline, dove i kernel vengono eseguiti consecutivamente senza intervalli di tempo, CUDA-L2 produce un miglioramento medio del +22,0% rispetto a {\it torch.matmul}; +19,2% rispetto a {\it cuBLAS} utilizzando la configurazione di layout ottimale (normale-normale NN e trasposto-normale TN); +16,8% rispetto a {\it cuBLASLt-heuristic}, che interroga la libreria {\it cuBLASLt} e seleziona l'algoritmo in base al suggerimento dell'euristica; e +11,4% rispetto al più competitivo modello {\it cuBLASLt-AutoTuning}, che seleziona l'algoritmo più veloce tra fino a 100 candidati suggeriti da {\it cuBLASLt}. In modalità server, dove i kernel vengono eseguiti a intervalli casuali simulando l'inferenza in tempo reale, i miglioramenti di velocità aumentano ulteriormente a +28,7%, +26,0%, +22,4% e +15,9% rispettivamente per {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} e {\it cuBLASLt-AutoTuning}. CUDA-L2 dimostra che anche kernel estremamente critici per le prestazioni e pesantemente ottimizzati come HGEMM possono essere migliorati attraverso l'automazione RL guidata da LLM, esplorando sistematicamente spazi di configurazione su scale impraticabili per gli esseri umani. Il progetto e il codice sono disponibili su github.com/deepreinforce-ai/CUDA-L2.

MagicQuillV2: Modifica Precisa e Interattiva delle Immagini con Suggerimenti Visivi a Livelli
MagicQuillV2: Precise and Interactive Image Editing with Layered Visual Cues

Dec 2

ByZichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Shuailei Ma, Ka Leong Cheng, Wen Wang, Qingyan Bai, Yuxuan Zhang, Yanhong Zeng, Yixuan Li, Xing Zhu, Yujun Shen, Qifeng Chen

Proponiamo MagicQuill V2, un sistema innovativo che introduce un paradigma di composizione a livelli nell'editing generativo di immagini, colmando il divario tra la potenza semantica dei modelli di diffusione e il controllo granulare dei software grafici tradizionali. Sebbene i transformer di diffusione eccellano nella generazione olistica, il loro uso di prompt singolari e monolitici non riesce a districare le distinte intenzioni dell'utente relative a contenuto, posizione e aspetto. Per superare questa limitazione, il nostro metodo scompone l'intento creativo in una pila di suggerimenti visivi controllabili: un livello di contenuto per *cosa* creare, un livello spaziale per *dove* posizionarlo, un livello strutturale per *come* è modellato e un livello colore per la sua palette. I nostri contributi tecnici includono una pipeline specializzata per la generazione di dati per l'integrazione di contenuti consapevole del contesto, un modulo di controllo unificato per elaborare tutti i suggerimenti visivi e un ramo spaziale messo a punto per un editing locale di precisione, inclusa la rimozione di oggetti. Esperimenti estensivi convalidano che questo approccio a livelli risolve efficacemente il divario dell'intenzione dell'utente, conferendo ai creativi un controllo diretto e intuitivo sul processo generativo.

TRivia: Fine-tuning auto-supervisionato di modelli visione-linguaggio per il riconoscimento di tabelle
TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

Dec 1

ByJunyuan Zhang, Bin Wang, Qintong Zhang, Fan Wu, Zichen Wen, Jialin Lu, Junjie Shan, Ziqi Zhao, Shuya Yang, Ziling Wang, Ziyang Miao, Huaping Zhong, Yuhang Zang, Xiaoyi Dong, Ka-Ho Chow, Conghui He

La riconoscimento di tabelle (TR) mira a trasformare immagini di tabelli in rappresentazioni semi-strutturate come HTML o Markdown. Come componente fondamentale del parsing documentale, il TR si è a lungo basato sull'apprendimento supervisionato, con recenti sforzi dominati dal fine-tuning di modelli vision-language (VLM) utilizzando dati etichettati. Sebbene i VLM abbiano portato il TR a un livello superiore, spingere ulteriormente le prestazioni richiede dati etichettati su larga scala che sono costosi da ottenere. Di conseguenza, sebbene i modelli proprietari abbiano continuamente spinto i limiti delle prestazioni, i modelli open-source, spesso addestrati con risorse limitate e, nella pratica, l'unica opzione praticabile per molti a causa delle normative sulla privacy, rimangono ancora molto indietro. Per colmare questa lacuna, introduciamo TRivia, un metodo di fine-tuning auto-supervisionato che consente ai VLM preaddestrati di apprendere il TR direttamente da immagini di tabelle non etichettate in contesti reali. Basato sul Group Relative Policy Optimization, TRivia identifica automaticamente campioni non etichettati che facilitano più efficacemente l'apprendimento ed elimina la necessità di annotazioni umane attraverso un meccanismo di ricompensa basato su domande e risposte. Un modulo guidato dall'attenzione genera domande diversificate per ogni immagine di tabella, e la capacità di interpretare i risultati del riconoscimento e rispondere correttamente fornisce feedback per ottimizzare il modello TR. Questo processo a ciclo chiuso consente al modello TR di apprendere autonomamente a riconoscere, strutturare e ragionare sulle tabelle senza dati etichettati. Sfruttando questa pipeline, presentiamo TRivia-3B, un modello TR open-source, compatto e all'avanguardia che supera i sistemi esistenti (ad esempio, Gemini 2.5 Pro, MinerU2.5) su tre benchmark popolari. Modello e codice sono rilasciati su: https://github.com/opendatalab/TRivia

DiG-Flow: Flow Matching Guidato dalla Discrepanza per Modelli VLA Robusti
DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

Dec 1

ByWanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Yicheng Feng, Sipeng Zheng, Qin Jin, Zongqing Lu

I modelli Vision-Language-Action (VLA) addestrati con il flow matching hanno dimostrato capacità impressionanti nei compiti di manipolazione robotica. Tuttavia, le loro prestazioni spesso si degradano in presenza di uno shift distributivo e in compiti multi-step complessi, suggerendo che le rappresentazioni apprese potrebbero non catturare in modo robusto la semantica rilevante per il compito. Introduciamo DiG-Flow, un framework metodologico che migliora la robustezza dei modelli VLA attraverso una regolarizzazione geometrica. La nostra intuizione chiave è che la discrepanza distributiva tra gli embedding delle osservazioni e delle azioni fornisce un segnale geometrico significativo: un costo di trasporto inferiore indica rappresentazioni compatibili, mentre un costo più elevato suggerisce un potenziale disallineamento. DiG-Flow calcola una misura di discrepanza tra le distribuzioni empiriche degli embedding di osservazione e azione, la mappa su un peso di modulazione tramite una funzione monotona, e applica aggiornamenti residui agli embedding di osservazione prima del flow matching. Fondamentalmente, questo intervento opera a livello di rappresentazione senza modificare il percorso del flow matching o il campo vettoriale target. Forniamo garanzie teoriche che dimostrano come l'addestramento guidato dalla discrepanza riduca in modo dimostrabile la funzione obiettivo, e che il raffinamento inferenziale guidato converga con contrazione. Empiricamente, DiG-Flow si integra nelle architetture VLA esistenti con un overhead trascurabile e migliora costantemente le prestazioni, con guadagni particolarmente pronunciati nei compiti multi-step complessi e in condizioni di dati di addestramento limitati.

RULER-Bench: Analisi delle Capacità di Ragionamento Basato su Regole nei Modelli di Generazione Video di Prossima Generazione per l'Intelligenza Visiva Fondamentale
RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

Dec 2

ByXuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu

I recenti progressi nella generazione video hanno consentito la sintesi di video con una forte coerenza temporale e un'impressionante qualità visiva, segnando un passo cruciale verso i modelli fondazionali per la visione. Per valutare questi modelli di generazione video, i benchmark esistenti si concentrano principalmente su fattori legati alla percezione e comprensione visiva, come l'estetica visiva, l'aderenza alle istruzioni e la coerenza temporale. Tuttavia, le capacità di ragionamento basato su regole dei modelli di generazione video rimangono in gran parte inesplorate. Sebbene studi recenti abbiano condotto esplorazioni preliminari sulla possibilità che i modelli video funzionino come apprendisti zero-shot, essi mancano ancora di una scomposizione granulare delle capacità di ragionamento e di un protocollo di valutazione completo. Per colmare questa lacuna, introduciamo RULER-Bench, un benchmark progettato per valutare la capacità di ragionamento dei modelli di generazione video dalla prospettiva delle regole cognitive. Basato su due paradigmi fondamentali (text-to-video e image-to-video), RULER-Bench copre 40 task rappresentativi che abbracciano sei categorie di regole con 622 istanze annotate di alta qualità. Per la valutazione di ciascun video generato, costruiamo una checklist che copre quattro metriche e sfruttiamo GPT-4o per assegnare punteggi a ogni domanda, raggiungendo un'allineamento dell'85% con i giudizi umani. Esperimenti estensivi mostrano che il modello allo stato dell'arte raggiunge solo il 48.87% sulla metrica della coerenza regolare, evidenziando un margine di miglioramento significativo nella capacità di ragionamento dei modelli video di prossima generazione. Ci aspettiamo che le intuizioni ottenute da RULER-Bench facilitino ulteriori sviluppi nella generazione video consapevole del ragionamento, avvicinando i modelli di generazione video all'intelligenza fondazionale per la visione.

Riconsiderare la necessità di lunghe catene di ragionamento nella generalizzazione del ragionamento centrato sulla visione
Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization

Nov 27

ByYifan Du, Kun Zhou, Yingqian Min, Yue Ling, Wayne Xin Zhao, Youbin Wu

Studiamo come diverse progettazioni di Chain-of-Thought (CoT) influenzino l'acquisizione di capacità di ragionamento visivo generalizzabile nei modelli visione-linguaggio (VLM). Sebbene i dati CoT, specialmente quelli lunghi o visivi come il "pensare con le immagini", siano ampiamente utilizzati per supervisionare il ragionamento intermedio, non è ancora chiaro il motivo per cui specifici design CoT siano d'aiuto e quali supportino veramente un ragionamento generalizzabile. Per valutarlo sistematicamente, ci concentriamo su un benchmark controllato di risoluzione di labirinti, dove le regole di ragionamento sono puramente visive, la difficoltà può essere modulata dalla dimensione della griglia e tutti i passaggi intermedi possono essere generati automaticamente. Utilizzando Qwen2.5-VL-7B all'interno di una pipeline standard SFT-seguito-da-RL, confrontiamo tre formati CoT rappresentativi: CoT Linguistico, CoT con Grounding (con traiettorie di coordinate spaziali) e CoT Visivo (con manipolazioni di immagini). I nostri esperimenti rivelano che i CoT visivi e più lunghi accelerano principalmente la convergenza ma non innalzano il limite prestazionale finale; i CoT concisi, contenenti solo i passi essenziali di grounding, superano le tracce più lunghe; e, in modo sorprendente, i CoT che mantengono solo i risultati minimi di grounding si generalizzano meglio attraverso diverse dimensioni di labirinto. Validiamo ulteriormente queste intuizioni su altri task incentrati sulla visione. Questi risultati evidenziano un effetto "il corto è lungo" e forniscono una guida pratica per costruire dataset SFT più generalizzabili per il ragionamento visivo.

SwiftVLA: Sbloccare le Dinamiche Spazio-Temporali per Modelli VLA Leggeri con Sovraccarico Minimo
SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

Nov 30

ByChaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei

I modelli Vision-Language-Action (VLA) basati su modelli linguistici visivi (VLM) pre-addestrati mostrano un forte potenziale, ma sono limitati nella praticità a causa del loro elevato numero di parametri. Per mitigare questo problema, l'uso di un VLM leggero è stato esplorato, ma ciò compromette il ragionamento spaziotemporale. Sebbene alcuni metodi suggeriscano che l'incorporamento di input 3D aggiuntivi possa aiutare, questi solitamente si affidano a VLM di grandi dimensioni per fondere input 3D e 2D e mancano ancora di comprensione temporale. Pertanto, proponiamo SwiftVLA, un'architettura che potenzia un modello compatto con una comprensione 4D preservando l'efficienza progettuale. Nello specifico, il nostro approccio include un trasformatore di geometria visiva 4D pre-addestrato con una cache temporale che estrae caratteristiche 4D da immagini 2D. Quindi, per potenziare la capacità del VLM di sfruttare sia le immagini 2D che le caratteristiche 4D, introduciamo i Fusion Token, un insieme di token apprendibili addestrati con un obiettivo di predizione futura per generare rappresentazioni unificate per la generazione di azioni. Infine, introduciamo una strategia di mascheramento e ricostruzione che maschera gli input 4D al VLM e addestra il VLA a ricostruirli, consentendo al VLM di apprendere rappresentazioni 4D efficaci e permettendo di eliminare il ramo 4D durante l'inferenza con una perdita di prestazioni minima. Esperimenti in ambienti reali e simulati mostrano che SwiftVLA supera i baseline leggeri e rivaleggia con VLA fino a 7 volte più grandi, raggiungendo prestazioni comparabili su dispositivi edge mentre è 18 volte più veloce e riduce l'ingombro di memoria di 12 volte.

Video4Spatial: Verso l'Intelligenza Visuo-Spaziale con Generazione Video Guidata dal Contesto
Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation

Dec 2

ByZeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan

Indaghiamo se i modelli generativi video possano esibire intelligenza visuospaziale, una capacità centrale nella cognizione umana, utilizzando esclusivamente dati visivi. A tal fine, presentiamo Video4Spatial, un framework che dimostra come modelli di diffusione video condizionati unicamente sul contesto scenico basato su video possano eseguire compiti spaziali complessi. Validiamo l'approccio su due compiti: navigazione scenica - seguire istruzioni di posa della camera mantenendo la coerenza con la geometria 3D della scena - e grounding di oggetti - che richiede localizzazione semantica, esecuzione di istruzioni e pianificazione. Entrambi i compiti utilizzano input esclusivamente video, senza modalità ausiliarie come dati di profondità o pose. Grazie a scelte progettuali semplici ma efficaci nel framework e nella cura dei dati, Video4Spatial dimostra una solida comprensione spaziale a partire dal contesto video: pianifica la navigazione e effettua il grounding di oggetti target end-to-end, segue le istruzioni sulla posa della camera mantenendo la coerenza spaziale e generalizza a contesti lunghi e ambienti fuori dominio. Nel complesso, questi risultati fanno progredire i modelli generativi video verso un ragionamento visuospaziale generale.

PAI-Bench: Un Benchmark Completo per l'Intelligenza Artificiale Fisica
PAI-Bench: A Comprehensive Benchmark For Physical AI

Dec 1

ByFengzhe Zhou, Jiannan Huang, Jialuo Li, Deva Ramanan, Humphrey Shi

L'Intelligenza Artificiale Fisica (Physical AI) mira a sviluppare modelli in grado di percepire e prevedere le dinamiche del mondo reale; tuttavia, la misura in cui gli attuali modelli linguistici di grandi dimensioni multimodali e i modelli generativi video supportino queste capacità non è ancora sufficientemente compresa. Introduciamo Physical AI Bench (PAI-Bench), un benchmark unificato e completo che valuta le capacità di percezione e previsione attraverso la generazione video, la generazione video condizionata e la comprensione video, comprendendo 2.808 casi del mondo reale con metriche allineate al compito progettate per catturare la plausibilità fisica e il ragionamento dominio-specifico. Il nostro studio fornisce una valutazione sistematica dei modelli recenti e mostra che i modelli generativi video, nonostante un'elevata fedeltà visiva, spesso faticano a mantenere dinamiche fisicamente coerenti, mentre i modelli linguistici di grandi dimensioni multimodali mostrano prestazioni limitate nella previsione e nell'interpretazione causale. Queste osservazioni suggeriscono che i sistemi attuali si trovano ancora in una fase iniziale nella gestione delle richieste percettive e predittive dell'Intelligenza Artificiale Fisica. In sintesi, PAI-Bench stabilisce una base realistica per valutare l'Intelligenza Artificiale Fisica ed evidenzia le lacune chiave che i sistemi futuri dovranno colmare.

Rapporto Tecnico Ovis-Image
Ovis-Image Technical Report

Nov 28

ByGuo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen

Introduciamo Ovis-Image, un modello text-to-image da 7B parametri specificamente ottimizzato per il rendering di testo di alta qualità, progettato per operare efficientemente sotto stringenti vincoli computazionali. Basato sul nostro precedente framework Ovis-U1, Ovis-Image integra un decoder visivo di tipo diffusion con il più potente backbone multimodale Ovis 2.5, sfruttando una pipeline di addestramento incentrata sul testo che combina pre-training su larga scala con raffinatezze post-allenamento accuratamente calibrate. Nonostante l'architettura compatta, Ovis-Image raggiunge prestazioni di rendering del testo pari a modelli open significativamente più grandi come Qwen-Image e si avvicina a sistemi closed-source come Seedream e GPT4o. Fondamentalmente, il modello rimane distribuibile su una singola GPU high-end con memoria moderata, riducendo il divario tra il rendering di testo di livello avanzato e la distribuzione pratica. I nostri risultati indicano che combinare un backbone multimodale solido con una ricetta di addestramento attentamente progettata e focalizzata sul testo è sufficiente per ottenere un rendering di testo bilingue affidabile senza ricorrere a modelli sovradimensionati o proprietari.

YingVideo-MV: Generazione di Video Multi-Stage Guidata dalla Musica
YingVideo-MV: Music-Driven Multi-Stage Video Generation

Dec 2

ByJiahui Chen, Weida Wang, Runhua Shi, Huan Yang, Chaofan Ding, Zihao Chen

Sebbene i modelli di diffusione per la generazione di video di avatar guidati dall'audio abbiano ottenuto progressi significativi nella sintesi di sequenze lunghe con una sincronizzazione audio-visiva naturale e una consistenza dell'identità, la generazione di video di performance musicali con movimenti di camera rimane in gran parte inesplorata. Presentiamo YingVideo-MV, il primo framework a cascata per la generazione di video lunghi guidati dalla musica. Il nostro approccio integra l'analisi semantica dell'audio, un modulo interpretabile di pianificazione delle inquadrature (MV-Director), architetture di Transformer di diffusione temporale-consapevole e una modellizzazione della consistenza per sequenze lunghe, per abilitare la sintesi automatica di video di performance musicali di alta qualità a partire da segnali audio. Abbiamo costruito un dataset su larga scala "Music-in-the-Wild" raccogliendo dati dal web per supportare il raggiungimento di risultati diversificati e di alta qualità. Osservando che i metodi esistenti per la generazione di video lunghi mancano di un controllo esplicito del movimento della camera, introduciamo un modulo adattatore per la camera che incorpora le pose della camera nel rumore latente. Per migliorare la continuità tra i clip durante l'inferenza di sequenze lunghe, proponiamo inoltre una strategia dinamica e temporale-consapevole dell'intervallo della finestra che regola adattivamente i range di denoising basandosi sugli embedding audio. Test di benchmarking completi dimostrano che YingVideo-MV raggiunge prestazioni eccezionali nella generazione di video musicali coerenti ed espressivi e abilita una precisa sincronizzazione musica-movimento-camera. Altri video sono disponibili nella nostra pagina del progetto: https://giantailab.github.io/YingVideo-MV/.

Valutazione delle capacità di comprensione e ragionamento scientifico nella generazione video mediante VideoScience-Bench
Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench

Dec 2

ByLanxiang Hu, Abhilash Shankarampeta, Yixin Huang, Zilin Dai, Haoyang Yu, Yujie Zhao, Haoqiang Kang, Daniel Zhao, Tajana Rosing, Hao Zhang

La prossima frontiera per la generazione video risiede nello sviluppo di modelli capaci di ragionamento zero-shot, dove la comprensione delle leggi scientifiche del mondo reale è cruciale per una modellizzazione accurata degli esiti fisici in condizioni diverse. Tuttavia, i benchmark video esistenti si basano sul senso comune fisico, offrendo una visione limitata delle capacità di ragionamento scientifico dei modelli video. Introduciamo VideoScience-Bench, un benchmark progettato per valutare la comprensione scientifica di livello universitario nei modelli video. Ogni prompt codifica uno scenario scientifico composito che richiede la comprensione e il ragionamento su molteplici concetti scientifici per generare il fenomeno corretto. Il benchmark comprende 200 prompt accuratamente selezionati, che abbracciano 14 argomenti e 103 concetti di fisica e chimica. Conduciamo valutazioni annotate da esperti su sette modelli video all'avanguardia in contesti T2V e I2V lungo cinque dimensioni: Coerenza con il Prompt, Congruenza del Fenomeno, Dinamismo Corretto, Immutabilità e Continuità Spazio-Temporale. Utilizzando un VLM-as-a-Judge per valutare le generazioni video, osserviamo una forte correlazione con le valutazioni umane. Per quanto a nostra conoscenza, VideoScience-Bench è il primo benchmark che valuta i modelli video non solo come generatori ma anche come ragionatori, richiedendo che le loro generazioni dimostrino una comprensione scientifica coerente con i fenomeni fisici e chimici attesi. I nostri dati e il codice di valutazione sono disponibili al seguente indirizzo: https://github.com/hao-ai-lab/VideoScience.

BlockVid: Diffusione a Blocchi per la Generazione di Video di Alta Qualità e Coerenti della Durata di Minuti
BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

Nov 28

ByZeyu Zhang, Shuning Chang, Yuanyu He, Yizeng Han, Jiasheng Tang, Fan Wang, Bohan Zhuang

La generazione di video della durata di un minuto rappresenta un passo cruciale verso lo sviluppo di modelli mondiali, fornendo una base per scene estese realistiche e simulatori di IA avanzati. Il paradigma emergente semi-autoregressivo (block diffusion) integra i punti di forza dei modelli diffusion e autoregressivi, consentendo la generazione di video di lunghezza arbitraria e migliorando l'efficienza inferenziale attraverso la KV caching e il campionamento parallelo. Tuttavia, esso deve ancora affrontare due sfide persistenti: (i) l'accumulo di errori a lungo orizzonte indotto dalla KV cache, e (ii) la mancanza di benchmark granulari per video lunghi e metriche basate sulla coerenza. Per superare queste limitazioni, proponiamo BlockVid, un nuovo framework di block diffusion dotato di una KV cache sparsa semanticamente consapevole, una strategia di training efficace chiamata Block Forcing, e dedicati meccanismi di schedulazione e shuffling del rumore per chunk, per ridurre la propagazione degli errori e migliorare la coerenza temporale. Introduciamo inoltre LV-Bench, un benchmark granulare per video della durata di un minuto, completo con nuove metriche per valutare la coerenza a lungo raggio. Esperimenti estensivi su VBench e LV-Bench dimostrano che BlockVid supera costantemente i metodi esistenti nella generazione di video di un minuto di alta qualità e coerenti. In particolare, registra un miglioramento del 22.2% su VDE Subject e del 19.4% su VDE Clarity in LV-Bench rispetto agli approcci state-of-the-art. Sito del progetto: https://ziplab.co/BlockVid. Inferix (Codice): https://github.com/alibaba-damo-academy/Inferix.

UnicEdit-10M: Un Dataset e Benchmark che Superano la Barriera Scala-Qualità tramite Verifica Unificata per Modifiche Arricchite di Ragionamento
UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

Dec 1

ByKeming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang

Con i rapidi progressi di potenti modelli multimodali come GPT-4o, Nano Banana e Seedream 4.0 nell'ambito dell'Image Editing, il divario prestazionale tra modelli closed-source e open-source si sta ampliando, principalmente a causa della scarsità di dati di addestramento su larga scala e di alta qualità, nonché di benchmark completi in grado di diagnosticare le debolezze dei modelli attraverso comportamenti di editing diversificati. I metodi esistenti per la costruzione di dati affrontano un compromesso tra scala e qualità: le annotazioni umane sono di alta qualità ma non scalabili, mentre le pipeline automatizzate soffrono di propagazione degli errori e rumore. Per affrontare questo problema, introduciamo una pipeline dati leggera che sostituisce le multi-toolchain con un modello end-to-end e una fase unificata di post-verifica. Per un controllo di qualità scalabile, addestriamo un modello esperto da 7B per doppio compito, Qwen-Verify, per il rilevamento efficiente degli errori e la nuova didascalia delle istruzioni. Questa pipeline produce UnicEdit-10M, un dataset di 10 milioni di elementi che abbraccia vari task di editing, sia basilari che complessi. Proponiamo anche UnicBench, un benchmark generale che si estende oltre le modifiche di base per valutare esplicitamente il ragionamento spaziale e guidato dalla conoscenza. Per consentire una diagnosi granulare, introduciamo nuove metriche, tra cui la Coerenza delle Non-modifiche e l'Accuratezza del Ragionamento. La nostra analisi dei modelli mainstream su UnicBench ne rivela i limiti e fornisce direzioni chiare per la ricerca futura.

Laboratorio di Esplorazione GUI: Miglioramento della Navigazione su Schermo negli Agenti tramite Apprendimento per Rinforzo Multiturno
GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

Dec 2

ByHaolong Yan, Yeqing Shen, Xin Huang, Jia Wang, Kaijun Tan, Zhixuan Liang, Hongxin Li, Zheng Ge, Osamu Yoshie, Si Li, Xiangyu Zhang, Daxin Jiang

Con il rapido sviluppo dei Large Vision Language Models, l'attenzione nei compiti degli agenti per interfacce grafiche (GUI) si sta spostando da attività su schermate singole a sfide complesse di navigazione tra schermi. Tuttavia, gli ambienti GUI reali, come i software per PC e le app mobili, sono spesso complessi e proprietari, rendendo difficile ottenere le informazioni ambientali complete necessarie per l'addestramento e la valutazione degli agenti. Questa limitazione ostacola un'indagine sistematica e un benchmarking delle capacità di navigazione degli agenti. Per affrontare questa limitazione, introduciamo GUI Exploration Lab, un motore di ambiente simulato per la ricerca sulla navigazione degli agenti GUI che consente la definizione e la composizione flessibile di schermate, icone e grafi di navigazione, fornendo al contempo accesso completo alle informazioni ambientali per un addestramento e una valutazione approfonditi degli agenti. Attraverso esperimenti estesi, abbiamo riscontrato che il supervised fine-tuning consente una memorizzazione efficace della conoscenza di base, fungendo da fondamento cruciale per l'addestramento successivo. Basandosi su questo, il reinforcement learning a turno singolo migliora ulteriormente la generalizzazione a scenari non visti. Infine, il reinforcement learning a turni multipli favorisce lo sviluppo di strategie di esplorazione attraverso tentativi ed errori interattivi, portando a ulteriori miglioramenti nelle prestazioni di navigazione tra schermi. Convalidiamo i nostri metodi su benchmark sia statici che interattivi, dimostrando che i nostri risultati si generalizzano efficacemente a scenari reali. Questi risultati evidenziano i vantaggi degli approcci di reinforcement learning nella navigazione GUI e offrono una guida pratica per costruire agenti GUI più capaci e generalizzabili.

C^2DLM: Modelli Linguistici di Grande Dimensione a Diffusione Guidati da Concetti Causali
C^2DLM: Causal Concept-Guided Diffusion Large Language Models

Nov 27

ByKairong Han, Nuanqiao Shan, Ziyu Zhao, Zijing Hu, Xinpeng Dong, Junjian Ye, Lujia Pan, Fei Wu, Kun Kuang

I modelli linguistici autoregressivi (AR) e i Modelli Linguistici a Diffusione (DLM) costituiscono i due principali paradigmi dei grandi modelli linguistici. Tuttavia, entrambi i paradigmi soffrono di capacità di ragionamento insufficienti. Il ragionamento umano si basa intrinsecamente su conoscenze e pensieri causali, che si riflettono nel linguaggio naturale. Ma nel paradigma AR, il linguaggio è modellato come previsione del token successivo (un ordine strettamente da sinistra a destra, token per token), mentre il linguaggio naturale stesso presenta strutture causali più flessibili. Nel paradigma DLM, il meccanismo di attenzione è completamente connesso, il che ignora completamente l'ordine causale. Per colmare questa lacuna, proponiamo un **M**odello **L**inguistico a **D**iffusione **G**uidato da **C**oncetti **C**ausali (C²DLM). Partendo dall'attenzione completamente connessa del DLM, C²DLM ottiene prima un grafo causale a livello concettuale dal modello insegnante, per poi guidare esplicitamente l'attenzione ad apprendere le relazioni causali tra i concetti. Concentrandosi sulle relazioni causali ed evitando l'interferenza da sottobiettivi difficili che implicano inversioni causali, C²DLM migliora del 12% con un'accelerazione dell'addestramento di circa 3,2 volte nel task COT-OrderPerturb e ottiene un guadagno medio dell'1,31% su sei task di ragionamento downstream. Maggiori dettagli nel repository ~https://github.com/Kairong-Han/C-2-DLM{qui}.

Oltre la Descrizione: Valutazione Cognitiva delle Azioni di Dettaglio per Agenti Embodied
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

Nov 24

ByDayong Liu, Chao Xu, Weihong Chen, Suyu Zhang, Juncheng Wang, Jiankang Deng, Baigui Sun, Yang Liu

I modelli linguistici multimodali di grandi dimensioni (MLLM) mostrano risultati promettenti come motori decisionali per agenti embodied che operano in ambienti fisici complessi. Tuttavia, i benchmark esistenti privilegiano spesso la pianificazione di alto livello o il ragionamento spaziale, lasciando inesplorata l'intelligenza delle azioni granulari necessaria per l'interazione fisica embodied. Per colmare questa lacuna, introduciamo CFG-Bench, un nuovo benchmark progettato per valutare sistematicamente questa capacità cruciale. CFG-Bench è composto da 1.368 video selezionati, accoppiati a 19.562 coppie domanda-risposta a tre modalità, che mirano a quattro abilità cognitive: 1) Interazione Fisica, 2) Relazione Temporale-Causale, 3) Comprensione Intenzionale e 4) Giudizio Valutativo. Insieme, queste dimensioni forniscono una struttura sistematica per valutare la capacità di un modello di tradurre le osservazioni visive in conoscenza azionabile, andando oltre il mero riconoscimento superficiale. La nostra valutazione completa su CFG-Bench rivela che i principali MLLM faticano a produrre istruzioni dettagliate per le interazioni fisiche ed esibiscono limitazioni profonde nel ragionamento di ordine superiore riguardante l'intenzione e la valutazione. Inoltre, l'addestramento supervisionato (SFT) sui nostri dati dimostra che insegnare a un MLLM ad articolare azioni granulari si traduce direttamente in significativi miglioramenti delle prestazioni su benchmark embodied consolidati. La nostra analisi evidenzia queste limitazioni e offre spunti per lo sviluppo di agenti embodied più capaci e fondati nella realtà.

Sincronizzazione Visiva: Sincronizzazione Multi-Camera tramite Movimento di Oggetti in Vista Incrociata
Visual Sync: Multi-Camera Synchronization via Cross-View Object Motion

Dec 1

ByShaowei Liu, David Yifan Yao, Saurabh Gupta, Shenlong Wang

Oggi le persone possono facilmente registrare momenti memorabili, come concerti, eventi sportivi, lezioni, riunioni familiari e feste di compleanno, utilizzando molteplici videocamere consumer. Tuttavia, la sincronizzazione di questi flussi video multi-camera rimane una sfida. I metodi esistenti presuppongono ambienti controllati, soggetti specifici, correzioni manuali o hardware costoso. Presentiamo VisualSync, un framework di ottimizzazione basato sulla dinamica multi-vista che allinea video non preparati e non sincronizzati con precisione al millisecondo. La nostra intuizione chiave è che qualsiasi punto 3D in movimento, quando visibile contemporaneamente in due telecamere, obbedisce ai vincoli epipolari una volta sincronizzato correttamente. Per sfruttare ciò, VisualSync utilizza tecniche standard di ricostruzione 3D, corrispondenza di caratteristiche e tracciamento denso per estrarre traiettorie, pose relative e corrispondenze incrociate tra le viste. Successivamente, minimizza congiuntamente l'errore epipolare per stimare lo sfasamento temporale di ogni telecamera. Esperimenti su quattro dataset diversificati e complessi dimostrano che VisualSync supera i metodi baseline, raggiungendo un errore di sincronizzazione mediano inferiore a 50 ms.

FlashVGGT: Trasformatori di Geometria Visiva Efficienti e Scalabili con Attenzione a Descrittori Compressi
FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

Dec 1

ByZipeng Wang, Dan Xu

La ricostruzione 3D da immagini multi-view è una sfida fondamentale nella visione artificiale. Recentemente, i metodi feed-forward sono emersi come alternative efficienti e robuste alle tradizionali tecniche di ottimizzazione per scena. Tra questi, modelli all'avanguardia come il Visual Geometry Grounding Transformer (VGGT) sfruttano l'auto-attenzione completa su tutti i token immagine per catturare relazioni globali. Tuttavia, questo approccio soffre di una scarsa scalabilità a causa della complessità quadratica dell'auto-attenzione e dell'elevato numero di token generati in sequenze di immagini lunghe. In questo lavoro, introduciamo FlashVGGT, un'alternativa efficiente che affronta questo collo di bottiglia attraverso un meccanismo di attenzione basato su descrittori. Invece di applicare un'attenzione globale densa su tutti i token, FlashVGGT comprime le informazioni spaziali di ogni fotogramma in un insieme compatto di token descrittori. L'attenzione globale viene quindi calcolata come cross-attention tra l'insieme completo dei token immagine e questo insieme di descrittori più piccolo, riducendo significativamente il sovraccarico computazionale. Inoltre, la compattezza dei descrittori consente l'inferenza online su sequenze lunghe tramite un meccanismo chunk-recursive che riutilizza i descrittori memorizzati nella cache dai chunk precedenti. I risultati sperimentali mostrano che FlashVGGT raggiunge un'accuratezza di ricostruzione competitiva con VGGT, riducendo il tempo di inferenza a solo il 9,3% di quello di VGGT per 1.000 immagini, e scalando efficientemente a sequenze che superano le 3.000 immagini. La nostra pagina del progetto è disponibile all'indirizzo https://wzpscott.github.io/flashvggt_page/.

Sincronizzazione In-Contesto di LoRA per l'Editing di Video Ritrattistici
In-Context Sync-LoRA for Portrait Video Editing

Dec 2

BySagi Polaczek, Or Patashnik, Ali Mahdavi-Amiri, Daniel Cohen-Or

La modifica di video ritratto è un compito impegnativo che richiede un controllo flessibile ma preciso su un'ampia gamma di modifiche, come cambiamenti d'aspetto, editing delle espressioni o aggiunta di oggetti. La difficoltà principale risiede nel preservare il comportamento temporale originale del soggetto, richiedendo che ogni fotogramma modificato rimanga perfettamente sincronizzato con il corrispondente fotogramma sorgente. Presentiamo Sync-LoRA, un metodo per l'editing di video ritratto che ottiene modifiche visive di alta qualità mantenendo una sincronizzazione precisa a livello di fotogramma e la coerenza dell'identità. Il nostro approccio utilizza un modello di diffusione da immagine a video, in cui la modifica viene definita agendo sul primo fotogramma e poi propagata all'intera sequenza. Per abilitare una sincronizzazione accurata, addestriamo un LoRA in-context utilizzando video accoppiati che raffigurano identiche traiettorie di movimento ma differiscono nell'aspetto. Queste coppie vengono generate e curate automaticamente attraverso un processo di filtraggio basato sulla sincronizzazione, che seleziona solo gli esempi temporalmente più allineati per l'addestramento. Questa configurazione di training insegna al modello a combinare gli indizi di movimento dal video sorgente con i cambiamenti visivi introdotti nel primo fotogramma modificato. Addestrato su un insieme compatto e altamente curato di ritratti umani sincronizzati, Sync-LoRA generalizza a identità non viste e a modifiche diverse (ad esempio, modifica dell'aspetto, aggiunta di oggetti o cambiamento dello sfondo), gestendo in modo robusto le variazioni di posa ed espressione. I nostri risultati dimostrano un'elevata fedeltà visiva e una forte coerenza temporale, raggiungendo un solido equilibrio tra fedeltà della modifica e preservazione precisa del movimento.

Risoluzione di Problemi di Geometria Olimpica a Livello Medaglia d'Oro con Costruzioni Ausiliarie Euristiche Efficaci
Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions

Nov 27

ByBoyan Duan, Xiao Liang, Shuai Lu, Yaoxiang Wang, Yelong Shen, Kai-Wei Chang, Ying Nian Wu, Mao Yang, Weizhu Chen, Yeyun Gong

La dimostrazione automatizzata di teoremi di geometria euclidea, in particolare per problemi di livello Olimpiadi Internazionali della Matematica (IMO), rimane una sfida significativa e un importante focus di ricerca nell'ambito dell'Intelligenza Artificiale. In questo articolo, presentiamo un metodo altamente efficiente per la dimostrazione di teoremi geometrici che viene eseguito interamente su CPU senza fare affidamento su inferenze basate su reti neurali. Il nostro studio iniziale dimostra che una semplice strategia casuale per l'aggiunta di punti ausiliari può raggiungere prestazioni pari a quelle umane di livello medaglia d'argento alle IMO. Sviluppando questo concetto, proponiamo HAGeo, un metodo euristico per l'aggiunta di costruzioni ausiliarie nella deduzione geometrica, che risolve 28 dei 30 problemi del benchmark IMO-30, raggiungendo prestazioni di livello medaglia d'oro e superando AlphaGeometry, un competitivo approccio basato su reti neurali, con un margine considerevole. Per valutare il nostro metodo e gli approcci esistenti in modo più completo, abbiamo inoltre costruito HAGeo-409, un benchmark composto da 409 problemi di geometria con livelli di difficoltà valutati da esseri umani. Rispetto al diffusamente utilizzato IMO-30, il nostro benchmark presenta sfide maggiori e fornisce una valutazione più precisa, stabilendo un livello più elevato per la dimostrazione automatizzata di teoremi geometrici.

Le maschere possono distrarre: sulla comprensione del contesto nei modelli linguistici di diffusione
Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models

Nov 26

ByJulianna Piskorz, Cristina Pinneri, Alvaro Correia, Motasem Alfarra, Risheek Garrepalli, Christos Louizos

I modelli linguistici basati su diffusione con mascheramento (MDLM, Masked Diffusion Language Models) sono recentemente emersi come una promettente alternativa ai modelli linguistici autoregressivi (ARLM, Autoregressive Language Models), sfruttando un obiettivo di denoising che, in linea di principio, dovrebbe consentire un utilizzo del contesto più uniforme. In questo lavoro, esaminiamo le capacità di comprensione del contesto degli MDLM e identifichiamo due limitazioni chiave. In primo luogo, nonostante il loro obiettivo di addestramento più globale e il meccanismo di attenzione bidirezionale, similmente agli ARLM, gli MDLM mostrano un forte bias di località: le prestazioni sono altamente sensibili alla posizione delle informazioni rilevanti all'interno dell'input, favorendo il contesto locale rispetto a quello distante. In secondo luogo, dimostriamo che l'aggiunta di un numero elevato di token di maschera – necessari per la generazione – può degradare significativamente la comprensione del contesto. Attraverso ablazioni sistematiche, scopriamo che queste maschere agiscono come distrattori, riducendo la capacità del modello di elaborare le informazioni rilevanti. Per affrontare questo problema, introduciamo una funzione di loss indipendente dalle maschere che incoraggia le previsioni a rimanere invariate rispetto al numero di maschere aggiunte. Il fine-tuning con questo obiettivo mitiga sostanzialmente l'effetto distraente delle maschere, migliorando la robustezza degli MDLM. Nel complesso, i nostri risultati rivelano limitazioni critiche dell'attuale paradigma di addestramento degli MDLM e forniscono spunti pratici per costruire modelli linguistici basati sulla diffusione con una comprensione del contesto più solida.

Apprendimento Indipendente dallo Stile della Scarpa e Consapevole del Terreno per la Stima Densa del Contatto del Piede
Shoe Style-Invariant and Ground-Aware Learning for Dense Foot Contact Estimation

Nov 27

ByDaniel Sungho Jung, Kyoung Mu Lee

Il contatto del piede svolge un ruolo fondamentale nell'interazione umana con il mondo, pertanto l'esplorazione del contatto podalico può far progredire la nostra comprensione del movimento umano e dell'interazione fisica. Nonostante la sua importanza, i metodi esistenti spesso approssimano il contatto del piede utilizzando un vincolo di velocità zero e si concentrano sul contatto a livello articolare, non riuscendo a catturare l'interazione dettagliata tra il piede e il mondo. La stima densa del contatto del piede è cruciale per modellare accuratamente questa interazione, eppure la previsione del contatto podalico denso a partire da una singola immagine RGB rimane in gran parte inesplorata. Esistono due sfide principali per l'apprendimento della stima del contatto podalico denso. In primo luogo, le calzature presentano aspetto estremamente vario, rendendo difficile per i modelli generalizzare tra stili diversi. In secondo luogo, il terreno ha spesso un aspetto monotono, rendendo difficile l'estrazione di caratteristiche informative. Per affrontare questi problemi, presentiamo un framework per la stima del COntatto del PIEde (FECO) che apprende il contatto podalico denso mediante apprendimento invariante allo stile della calzatura e consapevole del terreno. Per superare la sfida della diversità dell'aspetto delle calzature, il nostro approccio incorpora un addestramento adversarial sullo stile della scarpa che impone caratteristiche invarianti allo stile per la stima del contatto. Per utilizzare efficacemente le informazioni sul terreno, introduciamo un estrattore di caratteristiche del terreno che cattura le proprietà del suolo basandosi sul contesto spaziale. Di conseguenza, il nostro metodo proposto raggiunge una stima robusta del contatto del piede indipendentemente dall'aspetto della calzatura e sfrutta efficacemente le informazioni del terreno. Il codice sarà rilasciato.

CodeV: Programmazione con Immagini per un Ragionamento Visivo Fedele tramite Ottimizzazione di Politiche Consapevoli degli Strumenti
CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

Nov 24

ByXinhai Hou, Shaoyuan Xu, Manan Biyani, Mayan Li, Jia Liu, Todd C. Hollon, Bryan Wang

I modelli visione-linguaggio agentivi vengono sempre più addestrati a "pensare con le immagini" richiamando operazioni visive. Tuttavia, dimostriamo che un'elevata accuratezza nella risposta finale spesso nasconde un ragionamento visivo non fedele: i modelli possono invocare strumenti su regioni irrilevanti o ignorarne completamente gli output, pur indovinando la risposta corretta. In questo lavoro, proponiamo innanzitutto un protocollo di valutazione della fedeltà che misura se gli output visivi intermedi (ad esempio, ritagli) contengano effettivamente le evidenze richieste. Ciò rivela che i recenti agenti visivi raggiungono un'elevata accuratezza finale ma mostrano bassi tassi di utilizzo fedele degli strumenti su benchmark di ricerca visiva. Introduciamo quindi CodeV, un agente visivo basato su codice addestrato con Tool-Aware Policy Optimization (TAPO). TAPO è un framework di RL a livello di processo che potenzia GRPO con ricompense dense definite direttamente sugli input e output degli strumenti visivi, anziché sui token del ragionamento a catena, rendendo la supervisione più facile da verificare e meno suscettibile a manipolazioni del reward. CodeV rappresenta gli strumenti visivi come codice Python eseguibile, e TAPO assegna ricompense passo-passo basate esclusivamente sulla domanda e sull'output dello strumento, incoraggiando un utilizzo sia necessario che coerente con le evidenze. In una pipeline a due stadi SFT+RL, CodeV raggiunge un'accuratezza competitiva o superiore aumentando sostanzialmente i tassi di utilizzo fedele degli strumenti su benchmark di ricerca visiva correlati. Oltre alla ricerca visiva, CodeV ottiene prestazioni solide su una gamma di benchmark di ragionamento multimodale e matematico, suggerendo che la supervisione esplicita del comportamento intermedio degli strumenti sia cruciale per costruire sistemi di ragionamento visivo agentivi e affidabili.

BOOM: Oltre la Singola Modalità - Il Compagno Multimodale e Multilingue per le Lezioni del KIT
BOOM: Beyond Only One Modality KIT's Multimodal Multilingual Lecture Companion

Dec 2

BySai Koneru, Fabian Retkowski, Christian Huber, Lukas Hilgert, Seymanur Akti, Enes Yavuz Ugan, Alexander Waibel, Jan Niehues

La globalizzazione dell'istruzione e la rapida crescita dell'apprendimento online hanno reso la localizzazione dei contenuti educativi una sfida cruciale. I materiali didattici sono intrinsecamente multimodali, combinando audio parlato con slide visive, il che richiede sistemi in grado di elaborare molteplici modalità di input. Per fornire un'esperienza di apprendimento accessibile e completa, le traduzioni devono preservare tutte le modalità: testo per la lettura, slide per la comprensione visiva e parlato per l'apprendimento uditivo. Presentiamo BOOM, un compagno didattico multilingue e multimodale che traduce congiuntamente l'audio delle lezioni e le slide per produrre output sincronizzati su tre modalità: testo tradotto, slide localizzate con elementi visivi preservati e sintesi vocale. Questo approccio end-to-end consente agli studenti di accedere alle lezioni nella loro lingua madre preservando integralmente il contenuto originale. I nostri esperimenti dimostrano che le trascrizioni consapevoli delle slide producono anche benefici a cascata per compiti downstream come la riassunzione e il question answering. Rilasciamo il nostro codice per la traduzione delle slide all'indirizzo https://github.com/saikoneru/image-translator e lo integriamo in Lecture Translator all'indirizzo https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Tutto il codice e i modelli rilasciati sono concessi in licenza MIT License.}

Comprendere e sfruttare la sparsità nei modelli multimodali unificati
Understanding and Harnessing Sparsity in Unified Multimodal Models

Dec 2

ByShwai He, Chaorui Deng, Ang Li, Shen Yan

I modelli multimodali di grandi dimensioni hanno compiuto progressi notevoli sia nella comprensione che nella generazione. Recenti sforzi mirano a realizzare modelli multimodali unificati che integrino componenti eterogenei per supportare entrambe le capacità all'interno di un unico framework. Tuttavia, tale unificazione introduce inefficienze nell'inferenza; ad esempio, specifici task o campioni potrebbero non richiedere la conoscenza o la capacità completa del modello unificato. Tuttavia, una comprensione sistematica di come queste inefficienze si manifestino attraverso i diversi componenti rimane limitata. In questo lavoro, conduciamo prima un'analisi sistematica dei componenti dei modelli multimodali unificati utilizzando il pruning *training-free* come metodologia di indagine, considerando sia il pruning in profondità che la riduzione in ampiezza. Il nostro studio rivela che il componente di comprensione mostra una notevole comprimibilità sia nei task di comprensione che di generazione, risultando più pronunciata in quest'ultimo caso. Al contrario, i componenti di generazione sono altamente sensibili alla compressione, con una performance che si deteriora bruscamente anche con modici rapporti di compressione. Per affrontare questa limitazione, proponiamo l'Adattamento a Miscela di Esperti (*Mixture-of-Experts, MoE*), ispirato dai pattern di attivazione dinamica osservati tra diversi campioni. Questo approccio suddivide il modulo di generazione in più esperti e abilita un'attivazione sparsa per ripristinare la qualità della generazione. Validiamo l'efficacia dell'attivazione sparsa attraverso una messa a punto con esperti congelati (*expert-frozen tuning*) e dimostriamo ulteriormente che un adattamento completamente addestrabile fornisce miglioramenti aggiuntivi. Di conseguenza, il modello BAGEL adattato raggiunge performance paragonabili al modello completo attivando solo circa la metà dei suoi parametri. Il codice è rilasciato all'indirizzo https://github.com/Shwai-He/SparseUnifiedModel{questo link}.

Artemis: Ragionamento Visivo Strutturato per l'Apprendimento di Politiche Percettive
Artemis: Structured Visual Reasoning for Perception Policy Learning

Dec 1

ByWei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li

I recenti framework di apprendimento per rinforzo per politiche di percezione visiva hanno iniziato a incorporare catene di ragionamento intermedie espresse in linguaggio naturale. Osservazioni empiriche indicano che tali ragionamenti intermedi puramente linguistici spesso riducono le prestazioni sui compiti di percezione. Sosteniamo che il problema centrale non risieda nel ragionamento in sé, ma nella sua forma: mentre queste catene effettuano un ragionamento semantico in uno spazio linguistico non strutturato, la percezione visiva richiede un ragionamento in uno spazio spaziale e centrato sugli oggetti. In risposta, introduciamo Artemis, un framework di apprendimento per politiche di percezione che esegue un ragionamento strutturato basato su proposte, dove ogni passo intermedio è rappresentato come una coppia (etichetta, riquadro di delimitazione) che cattura uno stato visivo verificabile. Questo design consente il tracciamento esplicito degli stati intermedi, una supervisione diretta sulla qualità delle proposte ed evita l'ambiguità introdotta dal ragionamento basato sul linguaggio. Artemis è costruito su Qwen2.5-VL-3B, raggiunge prestazioni elevate nei compiti di grounding e rilevamento e mostra una sostanziale generalizzazione ai compiti di conteggio e percezione geometrica. I miglioramenti consistenti in questi diversi contesti confermano che l'allineamento del ragionamento con le rappresentazioni spaziali potenzia l'apprendimento delle politiche di percezione. Grazie al suo ragionamento visivo potenziato, Artemis raggiunge anche prestazioni competitive su benchmark MLLM generali, illustrando come un ragionamento spazialmente ancorato fornisca una via principiata verso politiche di percezione scalabili e generali.

Click2Graph: Grafi Scene Panottici Video Interattivi con un Singolo Click
Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

Nov 20

ByRaphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath

I sistemi all'avanguardia per la Generazione di Scene Graph da Video (VSGG) forniscono una comprensione visiva strutturata, ma operano come pipeline chiuse e feed-forward, senza la capacità di incorporare una guida umana. Al contrario, i modelli di segmentazione promptable come SAM2 consentono un'interazione utente precisa, ma mancano di ragionamento semantico o relazionale. Introduciamo Click2Graph, il primo framework interattivo per la Generazione Panottica di Scene Graph da Video (PVSG) che unisce il prompting visivo con la comprensione spaziale, temporale e semantica. Partendo da un singolo input utente, come un click o un bounding box, Click2Graph segmenta e traccia il soggetto nel tempo, scopre autonomamente gli oggetti interagenti e predice triplette <soggetto, oggetto, predicato> per formare un scene graph temporalmente consistente. Il nostro framework introduce due componenti chiave: un Modulo di Scoperta Interattiva Dinamica che genera prompt di oggetti condizionati al soggetto, e una Testa di Classificazione Semantica che esegue un ragionamento congiunto su entità e predicati. Esperimenti sul benchmark OpenPVSG dimostrano che Click2Graph stabilisce una solida base per la PVSG guidata dall'utente, mostrando come il prompting umano possa essere combinato con il grounding panottico e l'inferenza relazionale per abilitare una comprensione delle scene video controllabile e interpretabile.