HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

15 papers found

Auto-Addestramento con Rinforzo per la Rimozione della Ridondanza Visiva
Self-Distilled RLVR

Apr 3

ByChenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan

La distillazione on-policy (OPD) è diventata un paradigma di addestramento popolare nella comunità dei LLM. Questo paradigma seleziona un modello più grande come insegnante per fornire segnali densi e granulari per ogni traiettoria campionata, in contrasto con l'apprendimento per rinforzo con ricompense verificabili (RLVR), che ottiene solo segnali sparsi da risultati verificabili nell'ambiente. Recentemente, la comunità ha esplorato l'auto-distillazione on-policy (OPSD), in cui lo stesso modello funge sia da insegnante che da studente, con l'insegnante che riceve informazioni privilegiate aggiuntive, come risposte di riferimento, per consentire l'auto-evoluzione. Questo articolo dimostra che i segnali di apprendimento derivati esclusivamente dall'insegnante privilegiato risultano in una grave dispersione di informazioni e in un addestramento a lungo termine instabile. Di conseguenza, identifichiamo la nicchia ottimale per l'auto-distillazione e proponiamo RLSD (RLVR con Auto-Distillazione). Nello specifico, sfruttiamo l'auto-distillazione per ottenere differenze di policy a livello di token per determinare le magnitudini di aggiornamento granulari, continuando a utilizzare l'RLVR per derivare direzioni di aggiornamento affidabili dal feedback ambientale (ad esempio, la correttezza della risposta). Ciò consente a RLSD di sfruttare simultaneamente i punti di forza sia di RLVR che di OPSD, raggiungendo un limite di convergenza più elevato e una stabilità di addestramento superiore.

Una Linea di Base Semplice per la Comprensione di Video in Streaming
A Simple Baseline for Streaming Video Understanding

Apr 2

ByYujiao Shen, Shulin Tian, Jingkang Yang, Ziwei Liu

I metodi recenti per la comprensione di video in streaming si basano sempre più su complessi meccanismi di memoria per gestire flussi video lunghi. Noi contestiamo questa tendenza con un semplice risultato: una baseline a finestra mobile che fornisce a un VLM standard solo gli N frame più recenti eguaglia già o supera i modelli di streaming pubblicati. Formalizziamo questa baseline come SimpleStream e la valutiamo rispetto a 13 principali baseline di modelli linguistici visivi (VLM) offline e online su OVO-Bench e StreamingBench. Nonostante la sua semplicità, SimpleStream fornisce prestazioni costantemente solide. Con soli 4 frame recenti, raggiunge una precisione media del 67,7% su OVO-Bench e dell'80,59% su StreamingBench. Ablazioni controllate mostrano inoltre che il valore di un contesto più lungo dipende dall'architettura di base piuttosto che aumentare uniformemente con la scala del modello, e rivelano un costante compromesso percezione-memoria: aggiungere più contesto storico può migliorare il richiamo, ma spesso indebolisce la percezione in tempo reale. Ciò suggerisce che moduli di memoria, recupero o compressione più potenti non dovrebbero essere considerati prove di progresso a meno che non superino chiaramente SimpleStream con lo stesso protocollo. Sosteniamo quindi che i futuri benchmark di streaming dovrebbero separare la percezione della scena recente dalla memoria a lungo raggio, in modo che i miglioramenti prestazionali derivanti da complessità aggiuntive possano essere valutati più chiaramente.

Il Warping dei Token Aiuta i MLLM a Osservare da Punti di Vista Vicini
Token Warping Helps MLLMs Look from Nearby Viewpoints

Apr 3

ByPhillip Y. Lee, Chanho Park, Mingue Park, Seungwoo Yoo, Juil Koo, Minhyuk Sung

La deformazione a livello di token, anziché di pixel, può aiutare i modelli linguistici multimodali di grandi dimensioni (MLLM) a comprendere come una scena appare da un punto di vista ravvicinato? Sebbene gli MLLM ottengano buone prestazioni nel ragionamento visivo, rimangono fragili rispetto ai cambiamenti di punto di vista, poiché la deformazione pixel per pixel è altamente sensibile a piccoli errori di profondità e spesso introduce distorsioni geometriche. Ispirandoci alle teorie sull'immaginazione mentale che ipotizzano rappresentazioni strutturali a livello di parti come base per la trasformazione prospettica umana, esaminiamo se i token immagine negli MLLM basati su ViT costituiscano un substrato efficace per i cambiamenti di punto di vista. Confrontiamo la deformazione in avanti e quella all'indietro, rilevando che la deformazione all'indietro dei token, che definisce una griglia densa sulla vista target e recupera un token corrispondente della vista sorgente per ogni punto della griglia, garantisce una maggiore stabilità e preserva meglio la coerenza semantica durante gli spostamenti del punto di vista. Esperimenti sul nostro benchmark proposto, ViewBench, dimostrano che la deformazione a livello di token consente agli MLLM di ragionare in modo affidabile da punti di vista vicini, superando costantemente tutte le baseline, inclusi gli approcci di deformazione pixel per pixel, MLLM ottimizzati spazialmente e un metodo di deformazione generativo.

Agentic-MME: Cosa Porta Veramente la Capacità Agente all'Intelligenza Multimodale?
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Apr 3

ByQianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang

I modelli linguistici multimodali di grandi dimensioni (MLLM) si stanno evolvendo da osservatori passivi ad agenti attivi, risolvendo problemi attraverso l'Espansione Visiva (invocazione di strumenti visivi) e l'Espansione della Conoscenza (ricerca sul web aperto). Tuttavia, le valutazioni esistenti sono carenti: mancano di un'integrazione flessibile degli strumenti, testano separatamente gli strumenti visivi e di ricerca e valutano principalmente in base alle risposte finali. Di conseguenza, non possono verificare se gli strumenti siano stati effettivamente invocati, applicati correttamente o utilizzati in modo efficiente. Per affrontare questo problema, introduciamo Agentic-MME, un benchmark verificato a livello di processo per le Capacità Agenti-che Multimodali. Esso contiene 418 compiti del mondo reale suddivisi in 6 domini e 3 livelli di difficoltà per valutare la sinergia delle capacità, caratterizzato da oltre 2.000 checkpoint graduali che richiedono in media oltre 10 ore-persona di annotazione manuale per compito. Ogni compito include un framework di valutazione unificato che supporta codice in sandbox e API, insieme a una traiettoria di riferimento umana annotata con checkpoint graduali lungo un doppio asse: Asse-S e Asse-V. Per abilitare una vera verifica a livello di processo, controlliamo stati intermedi granulari piuttosto che solo le risposte finali, e quantifichiamo l'efficienza attraverso una metrica di *overthinking* relativa alle traiettorie umane. I risultati sperimentali mostrano che il modello migliore, Gemini3-pro, raggiunge un'accuratezza complessiva del 56,3%, che scende significativamente al 23,0% sui compiti di Livello-3, sottolineando la difficoltà della risoluzione agentica multimodale di problemi nel mondo reale.

Il Ridimensionamento al Momento del Test Rende il Sovrallenamento Computazionalmente Ottimale
Test-Time Scaling Makes Overtraining Compute-Optimal

Apr 1

ByNicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala

I moderni LLM scalano al momento del test, ad esempio tramite campionamento ripetuto, dove il costo dell'inferenza cresce con la dimensione del modello e il numero di campioni. Ciò crea un compromesso che le leggi di scala del preaddestramento, come Chinchilla, non affrontano. Presentiamo le leggi di scala Train-to-Test (T²) che ottimizzano congiuntamente la dimensione del modello, i token di addestramento e il numero di campioni di inferenza sotto budget end-to-end fissi. T² modernizza le leggi di scala del preaddestramento con la modellazione pass@k utilizzata per la scalabilità al momento del test, per poi ottimizzare congiuntamente le decisioni di preaddestramento e di test. Le previsioni di T² sono robuste su approcci di modellazione distinti: misurano l'effetto di scaling congiunto sulla loss del task e modellano l'impatto sull'accuratezza del task. Attraverso otto task downstream, scopriamo che quando si tiene conto del costo dell'inferenza, le decisioni ottimali di preaddestramento si spostano radicalmente verso il regime di overtraining, ben al di fuori dell'intervallo delle suite di scaling di preaddestramento standard. Convalidiamo i nostri risultati preaddestrando modelli fortemente overtrained nella regione ottimale prevista dallo scaling T², confermando le loro prestazioni sostanzialmente superiori rispetto al solo scaling del preaddestramento. Infine, poiché i LLM all'avanguardia vengono post-addestrati, dimostriamo che le nostre scoperte sopravvivono alla fase di post-addestramento, rendendo lo scaling T² significativo negli impieghi moderni.

Comunicare lo spazio: integrazione spaziale mediata dal linguaggio attraverso visioni parziali
Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

Mar 28

ByAnkur Sikarwar, Debangan Mishra, Sudarshan Nikhil, Ponnurangam Kumaraguru, Aishwarya Agrawal

Gli esseri umani costruiscono una comprensione spaziale condivisa comunicando osservazioni parziali e dipendenti dal punto di vista. Ci chiediamo se i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) possano fare lo stesso, allineando diversi punti di vista egocentrici attraverso il dialogo per formare un modello mentale coerente e allocentrico di un ambiente condiviso. Per studiarlo in modo sistematico, introduciamo COSMIC, un benchmark per la Comunicazione Spaziale Collaborativa. In questo contesto, due agenti MLLM statici osservano un ambiente interno 3D da punti di vista diversi e si scambiano messaggi in linguaggio naturale per risolvere query spaziali. COSMIC contiene 899 scene diverse e 1250 coppie domanda-risposta che coprono cinque compiti. Troviamo una gerarchia di capacità coerente: gli MLLM sono più affidabili nell'identificare oggetti di ancoraggio condivisi tra le visuali, hanno prestazioni peggiori nel ragionamento relazionale e falliscono in gran parte nella costruzione di mappe globalmente coerenti, con prestazioni vicine al caso, anche per i modelli più all'avanguardia. Inoltre, scopriamo che la capacità di ragionamento produce miglioramenti consistenti nell'ancoraggio degli oggetti, ma non è sufficiente per una comunicazione spaziale di livello superiore. Per contestualizzare il comportamento del modello, raccogliamo inoltre 250 dialoghi umano-umano. Gli umani raggiungono un'accuratezza aggregata del 95%, lasciando un margine di miglioramento significativo anche per il modello con le migliori prestazioni, Gemini-3-Pro-Thinking, che raggiunge un'accuratezza aggregata del 72%. Inoltre, le conversazioni umane diventano progressivamente più specifiche man mano che i partner convergono su un modello mentale condiviso, mentre i dialoghi dei modelli continuano a esplorare nuove possibilità invece di convergere, in linea con una capacità limitata di costruire e mantenere un modello mentale condiviso robusto. Il nostro codice e i nostri dati sono disponibili su https://github.com/ankursikarwar/Cosmic

InCoder-32B-Thinking: Modello Mondiale del Codice Industriale per il Ragionamento
InCoder-32B-Thinking: Industrial Code World Model for Thinking

Apr 3

ByJian Yang, Wei Zhang, Jiajun Wu, Junhang Cheng, Tuney Zheng, Fanglin Xu, Weicheng Gu, Lin Jing, Yaxin Du, Joseph Li, Yizhi Li, Yan Xing, Chuan Hao, Ran Tao, Ruihao Gong, Aishan Liu, Zhoujun Li, Mingjie Tang, Chenghua Lin, Siheng Chen, Wayne Xin Zhao, Xianglong Liu, Ming Zhou, Bryan Dai, Weifeng Lv

Lo sviluppo di software industriale nell'ambito della progettazione di chip, dell'ottimizzazione GPU e dei sistemi embedded manca di tracce di ragionamento esperto che mostrino come gli ingegneri ragionano sui vincoli hardware e sulla semantica temporale. In questo lavoro, proponiamo InCoder-32B-Thinking, addestrato sui dati del framework di sintesi Error-driven Chain-of-Thought (ECoT) con un modello del mondo del codice industriale (ICWM) per generare tracce di ragionamento. Nello specifico, ECoT genera catene di ragionamento sintetizzando il contenuto del pensiero da dialoghi multi-turno con feedback di errore ambientale, modellando esplicitamente il processo di correzione degli errori. ICWM è addestrato su tracce di esecuzione specifiche del dominio provenienti da simulazioni Verilog, profilazioni GPU, ecc., apprende le dinamiche causali di come il codice influisce sul comportamento hardware e abilita l'auto-verifica prevedendo i risultati dell'esecuzione prima della compilazione effettiva. Tutte le tracce di ragionamento sintetizzate sono validate attraverso toolchain di dominio, creando dati di addestramento che corrispondono alla distribuzione naturale della profondità di ragionamento dei compiti industriali. La valutazione su 14 benchmark generali (81.3% su LiveCodeBench v5) e 9 benchmark industriali (84.0% su CAD-Coder e 38.0% su KernelBench) mostra che InCoder-32B-Thinking raggiunge risultati di primo livello tra i modelli open-source in tutti i domini.

AgentSocialBench: Valutazione dei Rischi per la Privacy nelle Reti Sociali Agenti-Centrate sull'Uomo
AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Apr 1

ByPrince Zizhuang Wang, Shuli Jiang

Con l'emergere di framework di agenti LLM persistenti e personalizzati come OpenClaw, le reti sociali agent-centriche orientate all'uomo, in cui team di agenti IA collaborativi servono utenti individuali in una rete sociale attraverso molteplici domini, stanno diventando una realtà. Questo contesto crea nuove sfide per la privacy: gli agenti devono coordinarsi oltre i confini di dominio, mediare tra esseri umani e interagire con gli agenti di altri utenti, il tutto proteggendo informazioni personali sensibili. Sebbene lavori precedenti abbiano valutato il coordinamento multi-agente e la preservazione della privacy, le dinamiche e i rischi per la privacy nelle reti sociali agent-centriche orientate all'uomo rimangono inesplorati. A tal fine, introduciamo AgentSocialBench, il primo benchmark per valutare sistematicamente il rischio per la privacy in questo contesto, comprendente scenari in sette categorie che abbracciano interazioni diadiche e multipartecipanti, basati su profili utente realistici con etichette di sensibilità gerarchiche e grafi sociali diretti. I nostri esperimenti rivelano che la privacy nelle reti sociali agent-centriche è fondamentalmente più difficile che in contesti mono-agente: (1) il coordinamento cross-dominio e cross-utente crea una pressione di dispersione persistente anche quando agli agenti viene esplicitamente ordinato di proteggere le informazioni, (2) le istruzioni sulla privacy che insegnano agli agenti come astrarre le informazioni sensibili paradossalmente li portano a discuterne di più (lo definiamo paradosso dell'astrazione). Questi risultati sottolineano che gli attuali agenti LLM mancano di meccanismi robusti per la preservazione della privacy nelle reti sociali agent-centriche orientate all'uomo, e che sono necessari nuovi approcci oltre l'ingegneria dei prompt per rendere sicuro il coordinamento sociale mediato da agenti per un dispiegamento nel mondo reale.

Swift-SVD: Ottimalità Teorica e Efficienza Pratica nella Compressione LLM a Basso Rango
Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

Apr 2

ByRuoling Qi, Yirui Liu, Xuaner Wu, Xiangyu Wang, Ming Li, Chen Chen, Jian Chen, Yin Chen, Qizhen Weng

L'implementazione dei Large Language Model è limitata dalle richieste di memoria e banda passante dei pesi statici e della cache dinamica Chiave-Valore. La compressione basata su SVD fornisce una soluzione hardware-friendly per ridurre questi costi. Tuttavia, i metodi esistenti presentano due limitazioni chiave: alcuni sono subottimali per l'errore di ricostruzione, mentre altri sono teoricamente ottimali ma praticamente inefficienti. In questo articolo, proponiamo Swift-SVD, un framework di compressione closed-form e activation-aware che garantisce simultaneamente l'ottimalità teorica, l'efficienza pratica e la stabilità numerica. Swift-SVD aggrega incrementalmente la covarianza delle attivazioni in output dato un batch di input ed esegue una singola decomposizione agli autovalori dopo l'aggregazione, consentendo un'approssimazione di basso rango layer-wise ottimale, rapida e senza necessità di training. Utilizziamo il rango effettivo per analizzare la comprimibilità locale layer-wise e progettiamo una strategia di allocazione dinamica del rango che considera congiuntamente la perdita di ricostruzione locale e l'importanza layer end-to-end. Esperimenti estesi su sei LLM e otto dataset dimostrano che Swift-SVD supera i baseline state-of-the-art, raggiungendo un'accuratezza di compressione ottimale e fornendo un'accelerazione di 3-70X nel tempo di compressione end-to-end. Il nostro codice verrà rilasciato al momento dell'accettazione.

AgentHazard: un benchmark per la valutazione di comportamenti dannosi negli agenti di utilizzo informatico
AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Apr 3

ByYunhao Feng, Yifan Ding, Yingshui Tan, Xingjun Ma, Yige Li, Yutao Wu, Yifeng Gao, Kun Zhai, Yanming Guo

Gli agenti di utilizzo informatico estendono i modelli linguistici dalla generazione di testo ad azioni persistenti su strumenti, file e ambienti di esecuzione. A differenza dei sistemi di chat, mantengono uno stato attraverso le interazioni e traducono output intermedi in azioni concrete. Ciò crea una sfida di sicurezza distinta, poiché comportamenti dannosi possono emergere attraverso sequenze di passaggi individualmente plausibili, incluse azioni intermedie che appaiono localmente accettabili ma collettivamente conducono ad azioni non autorizzate. Presentiamo AgentHazard, un benchmark per valutare il comportamento dannoso negli agenti di utilizzo informatico. AgentHazard contiene 2.653 istanze che coprono diverse categorie di rischio e strategie di attacco. Ogni istanza accoppia un obiettivo dannoso con una sequenza di passaggi operativi localmente legittimi ma che congiuntamente inducono comportamenti non sicuri. Il benchmark valuta se gli agenti possono riconoscere e interrompere danni derivanti da contesto accumulato, uso ripetuto di strumenti, azioni intermedie e dipendenze tra i passaggi. Valutiamo AgentHazard su Claude Code, OpenClaw e IFlow utilizzando principalmente modelli open o distribuibili liberamente delle famiglie Qwen3, Kimi, GLM e DeepSeek. I nostri risultati sperimentali indicano che i sistemi attuali rimangono altamente vulnerabili. In particolare, quando alimentato da Qwen3-Coder, Claude Code mostra un tasso di successo degli attacchi del 73,63%, suggerendo che l'allineamento del modello da solo non garantisce in modo affidabile la sicurezza degli agenti autonomi.

Xpertbench: Compiti di Livello Esperto con Valutazione Basata su Rubriche
Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Mar 27

ByXue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu

Mentre i modelli linguistici di grandi dimensioni (LLM) mostrano prestazioni stagnanti sui benchmark convenzionali, rimane una sfida cruciale: valutare la loro competenza in compiti complessi e aperti che caratterizzano una cognizione autentica di livello esperto. I framework esistenti soffrono di una copertura di dominio limitata, dipendenza da compiti generalisti o bias di autovalutazione. Per colmare questa lacuna, presentiamo XpertBench, un benchmark ad alta fedeltà progettato per valutare gli LLM in domini professionali autentici. XpertBench consiste in 1.346 compiti meticolosamente curati in 80 categorie, che abbracciano finanza, sanità, servizi legali, istruzione e ricerca a doppio binario (STEM e discipline umanistiche). Questi compiti sono derivati da oltre 1.000 contributi di esperti di dominio—inclusi ricercatori di istituzioni d'eccellenza e professionisti con ampia esperienza clinica o industriale—garantendo una superiore validità ecologica. Ogni compito utilizza rubriche dettagliate con per lo più 15-40 checkpoint ponderati per valutare il rigore professionale. Per facilitare una valutazione scalabile ma allineata all'umano, introduciamo ShotJudge, un nuovo paradigma di valutazione che impiega giudici LLM calibrati con esempi few-shot di esperti per mitigare i bias di autopremialità. La nostra valutazione empirica degli LLM più all'avanguardia rivela un marcato limite prestazionale: anche i modelli leader raggiungono un tasso di successo massimo di solo ~66%, con un punteggio medio attorno al 55%. I modelli mostrano anche una divergenza dominio-specifica, evidenziando punti di forza non sovrapposti nel ragionamento quantitativo rispetto alla sintesi linguistica. Questi risultati sottolineano un significativo "divario esperto" negli attuali sistemi di IA e stabiliscono XpertBench come uno strumento cruciale per guidare la transizione da assistenti generici a collaboratori professionali specializzati.

I VLMs Hanno Bisogno di Parole: I Modelli Linguistico-Visivi Trascurano i Dettagli Visivi a Favore di Ancore Semantiche
VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Apr 2

ByHaz Sameen Shahgir, Xiaofu Chen, Yu Fu, Erfan Shayegani, Nael Abu-Ghazaleh, Yova Kementchedjhieva, Yue Dong

I modelli linguistici visivi (VLM) raggiungono prestazioni impressionanti in un'ampia gamma di attività multimodali. Tuttavia, in alcuni compiti che richiedono una percezione visiva fine, spesso falliscono anche quando le informazioni necessarie sono presenti nelle loro rappresentazioni interne. In questo lavoro, dimostriamo che questo divario deriva dalla loro ristretta pipeline di addestramento, che si concentra sul trasferimento delle informazioni visive allo spazio testuale. Di conseguenza, i VLM possono ragionare solo su entità visive che possono essere mappate a concetti noti nello spazio linguistico, lasciando i compiti focalizzati sulla visione, come la corrispondenza visiva e il ragionamento su entità visive nuove, scarsamente supportati. Come risultato, i VLM sono fortemente limitati in diverse importanti capacità multimodali perché si affidano a fragili descrizioni testuali allucinate di entità visive che non possono mappare su rappresentazioni testuali. Verifichiamo questo comportamento attraverso compiti di corrispondenza visiva, in cui i VLM devono rilevare entità corrispondenti tra due immagini. Testando su compiti di corrispondenza semantica, di forma e facciale, scopriamo che i VLM performano molto meglio quando le entità rilevanti sono denominabili linguisticamente rispetto a quando non lo sono. Meccanicamente, le nostre analisi Logit Lens confermano che i VLM assegnano esplicitamente etichette semantiche alle entità denominabili e producono token corrispondenti più unici rispetto alle entità non denominabili. Inoltre, dimostriamo che insegnare nomi completamente arbitrari per entità sconosciute migliora le prestazioni, ma un fine-tuning specifico per il compito produce una generalizzazione ancora più forte senza fare affidamento su preconcetti linguistici. I nostri risultati suggeriscono che gli attuali fallimenti dei VLM sui compiti visivi riflettono scorciatoie apprese durante l'addestramento, piuttosto che una limitazione fondamentale delle architetture multimodali.

Salt: Adattamento della Distribuzione Auto-Consistente con Addestramento Cache-Aware per la Generazione Rapida di Video
Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation

Apr 3

ByXingtong Ge, Yi Zhang, Yushi Huang, Dailan He, Xiahong Wang, Bingqi Ma, Guanglu Song, Yu Liu, Jun Zhang

La distillazione di modelli di generazione video verso budget inferenziali estremamente ridotti (ad es., 2-4 NFE) è cruciale per il deployment in tempo reale, ma rimane una sfida. La distillazione di consistenza in stile traiettoria tende a diventare conservativa sotto dinamiche video complesse, producendo un aspetto eccessivamente levigato e un movimento debole. La distillazione per matching di distribuzione (DMD) può recuperare campioni nitidi e mode-seeking, ma i suoi segnali di training locali non regolarizzano esplicitamente come gli aggiornamenti di denoising si compongono attraverso i timestep, rendendo le rollout composte soggette a deriva. Per superare questa sfida, proponiamo la Self-Consistent Distribution Matching Distillation (SC-DMD), che regolarizza esplicitamente la composizione endpoint-consistent di aggiornamenti di denoising consecutivi. Per la generazione video autoregressiva in tempo reale, trattiamo ulteriormente la cache KV come una condizione parametrizzata per qualità e proponiamo un training Cache-Distribution-Aware. Questo schema di training applica la SC-DMD su rollout multi-step e introduce un obiettivo di allineamento delle feature condizionato alla cache che indirizza gli output di bassa qualità verso riferimenti di alta qualità. In numerosi esperimenti su backbone non autoregressive (ad es., Wan 2.1) e paradigmi autoregressivi in tempo reale (ad es., Self Forcing), il nostro metodo, denominato Salt, migliora costantemente la qualità della generazione video a basso NFE rimanendo compatibile con diversi meccanismi di memoria della cache KV. Il codice sorgente sarà rilasciato su https://github.com/XingtongGe/Salt.

CoME-VL: Scalabilità dell'Apprendimento Visione-Linguaggio con Encoder Multipli Complementari
CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

Apr 3

ByAnkan Deria, Komal Kumar, Xilin He, Imran Razzak, Hisham Cholakkal, Fahad Shahbaz Khan, Salman Khan

I modelli visione-linguaggio (VLM) recenti si basano tipicamente su un singolo encoder visivo addestrato con obiettivi contrastivi immagine-testo, come il pre-addestramento in stile CLIP. Sebbene gli encoder contrastivi siano efficaci per l'allineamento cross-modale e il retrieval, gli encoder visivi auto-supervisionati spesso catturano semantiche dense più ricche ed esibiscono una robustezza maggiore nelle attività di riconoscimento e comprensione. In questo lavoro, investigiamo come scalare la fusione di queste rappresentazioni visive complementari per la modellazione visione-linguaggio. Proponiamo CoME-VL: Complementary Multi-Encoder Vision-Language, un framework di fusione modulare che integra un encoder visivo addestrato in modo contrastivo con un encoder DINO auto-supervisionato. Il nostro approccio esegue una fusione a livello di rappresentazione mediante (i) aggregazione multi-livello guidata dall'entropia con proiezioni a vincolo di ortogonalità per ridurre la ridondanza, e (ii) cross-attention potenziata con RoPE per allineare griglie di token eterogenee e produrre token visivi fusi e compatti. I token fusi possono essere iniettati in un LLM a solo-decodifica con modifiche minime alle pipeline VLM standard. Esperimenti estesi su diversi benchmark visione-linguaggio dimostrano che CoME-VL supera costantemente i baseline a encoder singolo. In particolare, osserviamo un miglioramento medio del 4.9% sulle attività di comprensione visiva e del 5.4% sulle attività di grounding. Il nostro metodo raggiunge prestazioni state-of-the-art su RefCOCO per la detection, migliorando il baseline di un ampio margine. Infine, conduciamo studi di ablazione sulla fusione dei livelli, sul mixing di feature non ridondanti e sulla capacità di fusione per valutare come i segnali contrastivi e auto-supervisionati complementari influenzino le prestazioni dei VLM.

I Modelli di Azione Mondiale Generalizzano Meglio dei VLA? Uno Studio sulla Robustezza
Do World Action Models Generalize Better than VLAs? A Robustness Study

Apr 1

ByZhanguang Zhang, Zhiyuan Li, Behnam Rahmati, Rui Heng Yang, Yintao Ma, Amir Rasouli, Sajjad Pakdamansavoji, Yangzheng Wu, Lingfeng Zhang, Tongtong Cao, Feng Wen, Xinyu Wang, Xingyue Quan, Yingxue Zhang

La pianificazione delle azioni robotiche nel mondo reale è impegnativa poiché richiede non solo la comprensione dello stato attuale dell'ambiente, ma anche la previsione della sua evoluzione in risposta alle azioni. I modelli visione-linguaggio-azione (VLA), che riadattano modelli linguistico-visivi su larga scala per la generazione di azioni robotiche mediante l'uso di esperti d'azione, hanno ottenuto successi significativi in varie attività robotiche. Tuttavia, le loro prestazioni rimangono limitate dall'ambito dei dati di addestramento, mostrando una generalizzazione ridotta per scenari non visti e una vulnerabilità a diverse perturbazioni contestuali. Più recentemente, i modelli mondiali sono stati rivalutati come alternativa ai VLA. Questi modelli, denominati modelli d'azione mondiali (WAM), sono costruiti su modelli mondiali addestrati su ampi corpora di dati video per prevedere stati futuri. Con lievi adattamenti, la loro rappresentazione latente può essere decodificata in azioni robotiche. Si ritiene che la loro esplicita capacità predittiva dinamica, combinata con prior spazio-temporali acquisite dal pre-addestramento su video web-scale, consenta ai WAM di generalizzare più efficacemente rispetto ai VLA. In questo articolo, conduciamo uno studio comparativo di prominenti politiche VLA allo stato dell'arte e di WAM recentemente rilasciati. Valutiamo le loro prestazioni sui benchmark LIBERO-Plus e RoboTwin 2.0-Plus sotto varie perturbazioni visive e linguistiche. I nostri risultati mostrano che i WAM raggiungono una forte robustezza, con LingBot-VA che raggiunge il 74,2% di tasso di successo su RoboTwin 2.0-Plus e Cosmos-Policy che raggiunge l'82,2% su LIBERO-Plus. Sebbene VLA come π_{0,5} possano raggiungere una robustezza comparabile su determinati compiti, tipicamente richiedono un addestramento estensivo con dataset robotici diversificati e obiettivi di apprendimento variati. Approcci ibridi che incorporano parzialmente l'apprendimento dinamico basato su video mostrano una robustezza intermedia, evidenziando l'importanza di come i prior video sono integrati.

I Modelli di Azione Mondiale Generalizzano Meglio dei VLA? Uno Studio sulla Robustezza
Do World Action Models Generalize Better than VLAs? A Robustness Study

Apr 1