Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

LLM Drag-and-Drop: Prompt-to-Weights in Modalità Zero-Shot
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

Jun 19, 2025

Zhiyuan Liang, Dongwen Tang, Yuhao Zhou, Xuanlei Zhao, Mingjia Shi, Wangbo Zhao, Zekai Li, Peihao Wang, Konstantin Schürholt, Damian Borth, Michael M. Bronstein, Yang You, Zhangyang Wang, Kai Wang

11619

I moderni metodi di fine-tuning efficiente in termini di parametri (PEFT), come l'adattamento a basso rango (LoRA), riducono il costo di personalizzazione dei grandi modelli linguistici (LLM), ma richiedono comunque un'ottimizzazione separata per ogni dataset downstream. Introduciamo Drag-and-Drop LLMs (\textit{DnD}), un generatore di parametri condizionato da prompt che elimina l'addestramento per ogni task mappando una manciata di prompt non etichettati direttamente agli aggiornamenti dei pesi LoRA. Un encoder di testo leggero distilla ogni batch di prompt in embedding condizionati, che vengono poi trasformati da un decoder iper-convoluzionale a cascata nell'intero set di matrici LoRA. Una volta addestrato su una raccolta diversificata di coppie prompt-checkpoint, DnD produce parametri specifici per il task in pochi secondi, ottenendo i) un overhead fino a 12.000 volte inferiore rispetto al fine-tuning completo, ii) miglioramenti medi fino al 30\% nelle prestazioni rispetto ai LoRA addestrati più forti su benchmark di ragionamento di senso comune, matematica, codifica e multimodalità non visti, e iii) una robusta generalizzazione cross-domain nonostante non abbia mai visto i dati o le etichette target. I nostri risultati dimostrano che la generazione di parametri condizionata da prompt è un'alternativa valida all'adattamento basato su gradienti per specializzare rapidamente gli LLM. Il nostro progetto è disponibile all'indirizzo https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.

La Segmentazione Guidata dalla Visione è Tutto Ciò che Serve: Migliorare il RAG con la Comprensione Multimodale dei Documenti
Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

Jun 19, 2025

Vishesh Tripathi, Tanmay Odapally, Indraneel Das, Uday Allu, Biddwan Ahmed

847

I sistemi di Generazione Aumentata dal Recupero (RAG) hanno rivoluzionato il recupero delle informazioni e il question answering, ma i tradizionali metodi di suddivisione in chunk basati su testo faticano a gestire strutture documentali complesse, tabelle multipagina, figure incorporate e dipendenze contestuali che attraversano i confini delle pagine. Presentiamo un nuovo approccio multimodale per la suddivisione in chunk di documenti che sfrutta Modelli Multimodali di Grande Scala (LMM) per elaborare documenti PDF in batch mantenendo la coerenza semantica e l'integrità strutturale. Il nostro metodo elabora i documenti in batch di pagine configurabili con conservazione del contesto tra batch, consentendo una gestione accurata di tabelle che si estendono su più pagine, elementi visivi incorporati e contenuti procedurali. Valutiamo il nostro approccio su un dataset curato di documenti PDF con query create manualmente, dimostrando miglioramenti nella qualità dei chunk e nelle prestazioni downstream dei sistemi RAG. Il nostro approccio guidato dalla visione raggiunge una maggiore accuratezza rispetto ai tradizionali sistemi RAG standard, con un'analisi qualitativa che mostra una conservazione superiore della struttura del documento e della coerenza semantica.

PAROAttention: Riordinamento Consapevole del Modello per un'Attenzione Sparse e Quantizzata Efficiente nei Modelli di Generazione Visiva
PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

Jun 19, 2025

Tianchen Zhao, Ke Hong, Xinhao Yang, Xuefeng Xiao, Huixia Li, Feng Ling, Ruiqi Xie, Siqi Chen, Hongyu Zhu, Yichong Zhang, Yu Wang

572

Nella generazione visiva, la complessità quadratica dei meccanismi di attenzione comporta costi elevati in termini di memoria e calcolo, specialmente per sequenze di token più lunghe necessarie nella generazione di immagini ad alta risoluzione o video multi-frame. Per affrontare questo problema, ricerche precedenti hanno esplorato tecniche come la sparsificazione e la quantizzazione. Tuttavia, queste tecniche incontrano sfide significative in condizioni di bassa densità e ridotta larghezza di bit. Attraverso un'analisi sistematica, abbiamo identificato che la difficoltà principale deriva dalle caratteristiche disperse e irregolari dei modelli di attenzione visiva. Pertanto, invece di introdurre progetti specializzati di sparsificazione e quantizzazione per adattarsi a tali modelli, proponiamo una strategia alternativa: *riorganizzare* il modello di attenzione per alleviare le sfide. Ispirati dalla natura di aggregazione locale dell'estrazione di caratteristiche visive, abbiamo progettato una nuova tecnica **Pattern-Aware token ReOrdering (PARO)**, che unifica i diversi modelli di attenzione in un modello a blocchi compatibile con l'hardware. Questa unificazione semplifica e migliora sostanzialmente sia la sparsificazione che la quantizzazione. Valutiamo i compromessi tra prestazioni ed efficienza di varie scelte progettuali e finalizziamo una metodologia adatta al modello unificato. Il nostro approccio, **PAROAttention**, consente la generazione di video e immagini con metriche senza perdita e risultati quasi identici rispetto ai baseline a precisione completa (FP), operando a densità notevolmente inferiori (~20%-30%) e larghezza di bit (**INT8/INT4**), ottenendo un'accelerazione end-to-end da **1.9x** a **2.7x**.

Hunyuan-GameCraft: Generazione di Video di Giochi Interattivi ad Alta Dinamica con Condizione Ibrida della Cronologia
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition

Jun 20, 2025

Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu

513

I recenti progressi nella generazione di video basata su diffusione e controllabile hanno consentito la sintesi di video di alta qualità e temporalmente coerenti, gettando le basi per esperienze di gioco interattive e immersive. Tuttavia, i metodi attuali presentano limitazioni in termini di dinamicità, generalità, coerenza a lungo termine ed efficienza, che ostacolano la creazione di vari video di gameplay. Per colmare queste lacune, introduciamo Hunyuan-GameCraft, un nuovo framework per la generazione di video interattivi ad alta dinamicità in ambienti di gioco. Per ottenere un controllo granulare delle azioni, unifichiamo gli input standard da tastiera e mouse in uno spazio di rappresentazione condiviso della telecamera, facilitando un'interpolazione fluida tra varie operazioni di movimento e della telecamera. Proponiamo inoltre una strategia di addestramento ibrida condizionata dalla cronologia, che estende le sequenze video in modo autoregressivo preservando le informazioni della scena di gioco. Inoltre, per migliorare l'efficienza inferenziale e la giocabilità, otteniamo una distillazione del modello per ridurre il sovraccarico computazionale mantenendo la coerenza su lunghe sequenze temporali, rendendolo adatto alla distribuzione in tempo reale in ambienti interattivi complessi. Il modello è addestrato su un ampio dataset che comprende oltre un milione di registrazioni di gameplay provenienti da più di 100 giochi AAA, garantendo un'ampia copertura e diversità, ed è poi affinato su un dataset sintetico accuratamente annotato per migliorare precisione e controllo. I dati curati delle scene di gioco migliorano significativamente la fedeltà visiva, il realismo e la controllabilità delle azioni. Esperimenti estensivi dimostrano che Hunyuan-GameCraft supera significativamente i modelli esistenti, avanzando il realismo e la giocabilità nella generazione di video di gioco interattivi.

VIKI-R: Coordinamento della Cooperazione Multi-Agente Embodied tramite Apprendimento per Rinforzo
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Jun 10, 2025

Li Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin

332

Il coordinamento di più agenti incarnati in ambienti dinamici rimane una sfida fondamentale nell'intelligenza artificiale, richiedendo sia ragionamenti guidati dalla percezione che strategie di cooperazione scalabili. Sebbene lavori recenti abbiano sfruttato modelli linguistici di grandi dimensioni (LLM) per la pianificazione multi-agente, pochi hanno iniziato a esplorare modelli visione-linguaggio (VLM) per il ragionamento visivo. Tuttavia, questi approcci basati su VLM rimangono limitati nel supporto a diversi tipi di incarnazione. In questo lavoro, introduciamo VIKI-Bench, il primo benchmark gerarchico progettato per la cooperazione multi-agente incarnata, caratterizzato da tre livelli strutturati: attivazione degli agenti, pianificazione dei compiti e percezione delle traiettorie. VIKI-Bench include diverse incarnazioni robotiche, osservazioni visive multi-vista e segnali di supervisione strutturati per valutare il ragionamento basato su input visivi. Per dimostrare l'utilità di VIKI-Bench, proponiamo VIKI-R, un framework a due stadi che perfeziona un modello visione-linguaggio (VLM) pre-addestrato utilizzando dimostrazioni annotate con Chain-of-Thought, seguito da apprendimento per rinforzo sotto segnali di ricompensa multi-livello. I nostri esperimenti estesi mostrano che VIKI-R supera significativamente i metodi di base in tutti i livelli di compito. Inoltre, dimostriamo che l'apprendimento per rinforzo consente l'emergere di modelli di cooperazione composizionali tra agenti eterogenei. Insieme, VIKI-Bench e VIKI-R offrono un banco di prova unificato e un metodo per avanzare nella cooperazione multi-agente guidata dalla visione nei sistemi di intelligenza artificiale incarnata.

Immaginazione Mentale della Macchina: Potenziare il Ragionamento Multimodale con Token Visivi Latenti
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

Jun 20, 2025

Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, Chuang Gan

262

I modelli visione-linguaggio (VLMs) eccellono nella comprensione multimodale, tuttavia la loro decodifica basata esclusivamente sul testo li costringe a verbalizzare il ragionamento visivo, limitando le prestazioni nei compiti che richiedono immaginazione visiva. Recenti tentativi hanno addestrato i VLMs a generare immagini esplicite, ma il pesante pre-addestramento per la generazione di immagini spesso ostacola la capacità di ragionamento. Ispirati dal modo in cui gli esseri umani ragionano con immagini mentali - la costruzione e manipolazione interna di segnali visivi - abbiamo indagato se i VLMs possano ragionare attraverso traiettorie multimodali intervallate senza produrre immagini esplicite. A tal fine, presentiamo un framework di Machine Mental Imagery, denominato Mirage, che potenzia la decodifica dei VLMs con token visivi latenti affiancati al testo ordinario. Nello specifico, ogni volta che il modello sceglie di "pensare visivamente", riconverte i suoi stati nascosti in token successivi, continuando così una traiettoria multimodale senza generare immagini a livello di pixel. Inizialmente supervisioniamo i token latenti attraverso la distillazione da embedding di immagini reali, per poi passare a una supervisione basata solo sul testo, in modo che la traiettoria latente si allinei strettamente all'obiettivo del compito. Una successiva fase di apprendimento per rinforzo migliora ulteriormente la capacità di ragionamento multimodale. Esperimenti su diversi benchmark dimostrano che Mirage sblocca un ragionamento multimodale più forte senza la generazione esplicita di immagini.

Hunyuan3D 2.5: Verso la Generazione di Asset 3D ad Alta Fedeltà con Dettagli Estremi
Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details

Jun 19, 2025

Zeqiang Lai, Yunfei Zhao, Haolin Liu, Zibo Zhao, Qingxiang Lin, Huiwen Shi, Xianghui Yang, Mingxin Yang, Shuhui Yang, Yifei Feng, Sheng Zhang, Xin Huang, Di Luo, Fan Yang, Fang Yang, Lifu Wang, Sicong Liu, Yixuan Tang, Yulin Cai, Zebin He, Tian Liu, Yuhong Liu, Jie Jiang, Linus, Jingwei Huang, Chunchao Guo

222

In questo rapporto presentiamo Hunyuan3D 2.5, una suite robusta di modelli di diffusione 3D progettata per generare asset 3D ad alta fedeltà e dettagliati con texture. Hunyuan3D 2.5 segue la pipeline in due fasi della sua versione precedente, Hunyuan3D 2.0, dimostrando però progressi significativi sia nella generazione delle forme che delle texture. Per quanto riguarda la generazione delle forme, introduciamo un nuovo modello di base per le forme — LATTICE — addestrato con dataset di alta qualità scalati, dimensioni del modello e capacità di calcolo. Il nostro modello più grande raggiunge 10 miliardi di parametri e genera forme 3D nitide e dettagliate con un preciso allineamento immagine-3D, mantenendo la superficie della mesh pulita e liscia, riducendo significativamente il divario tra le forme 3D generate e quelle realizzate manualmente. Per quanto riguarda la generazione delle texture, è stato migliorato con il rendering basato su fisica (PBR) attraverso una nuova architettura multi-vista estesa dal modello Paint di Hunyuan3D 2.0. La nostra valutazione estensiva dimostra che Hunyuan3D 2.5 supera significativamente i metodi precedenti sia nella generazione delle forme che in quella end-to-end delle texture.

Ottimizzazione del Text-To-Speech Multilingue con Accenti ed Emozioni
Optimizing Multilingual Text-To-Speech with Accents & Emotions

Jun 19, 2025

Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey

228

I sistemi all'avanguardia di sintesi vocale (TTS) raggiungono un elevato livello di naturalezza in contesti monolingue, ma la sintesi del parlato con accenti multilingue corretti (specialmente per le lingue indiane) e con emozioni pertinenti al contesto presenta ancora difficoltà a causa delle discrepanze nelle sfumature culturali nei framework attuali. Questo articolo introduce una nuova architettura TTS che integra l'accento insieme alla preservazione della traslitterazione con una modellizzazione delle emozioni su più scale, particolarmente ottimizzata per l'hindi e l'accento dell'inglese indiano. Il nostro approccio estende il modello Parler-TTS integrando un'architettura ibrida encoder-decoder specifica per l'allineamento fonemico linguistico, strati di embedding delle emozioni sensibili alla cultura addestrati su corpora di parlanti nativi, nonché un code switching dinamico dell'accento con quantizzazione vettoriale residua. Test quantitativi dimostrano un miglioramento del 23,7% nell'accuratezza dell'accento (riduzione del Word Error Rate dal 15,4% all'11,8%) e un'accuratezza del riconoscimento delle emozioni dell'85,3% da parte di ascoltatori nativi, superando i benchmark METTS e VECL-TTS. La novità del sistema è che può mescolare i codici in tempo reale, generando frasi come "Namaste, parliamo di <frase in hindi>" con cambiamenti di accento ininterrotti mantenendo la coerenza emotiva. Una valutazione soggettiva con 200 utenti ha riportato un punteggio medio di opinione (MOS) di 4,2/5 per la correttezza culturale, molto migliore rispetto ai sistemi multilingue esistenti (p<0,01). Questa ricerca rende la sintesi cross-lingue più fattibile mostrando una separazione scalabile tra accento ed emozione, con applicazione diretta nel settore dell'EdTech sudasiatico e nei software di accessibilità.

DreamCube: Generazione di Panorami 3D tramite Sincronizzazione Multi-piano
DreamCube: 3D Panorama Generation via Multi-plane Synchronization

Jun 20, 2025

Yukun Huang, Yanning Zhou, Jianan Wang, Kaiyi Huang, Xihui Liu

205

La sintesi di panorami 3D è un compito promettente ma impegnativo che richiede un aspetto visivo di alta qualità e diversificato, nonché una geometria accurata del contenuto omnidirezionale generato. I metodi esistenti sfruttano ricchi prior di immagini provenienti da modelli di base 2D pre-addestrati per ovviare alla scarsità di dati panoramici 3D, ma l'incompatibilità tra i panorami 3D e le viste singole 2D ne limita l'efficacia. In questo lavoro, dimostriamo che applicando la sincronizzazione multi-piano agli operatori dei modelli di base 2D, le loro capacità possono essere estese senza soluzione di continuità al dominio omnidirezionale. Basandoci su questo design, introduciamo ulteriormente DreamCube, un modello di diffusione RGB-D multi-piano per la generazione di panorami 3D, che massimizza il riutilizzo dei prior dei modelli di base 2D per ottenere aspetti diversificati e una geometria accurata, mantenendo al contempo la coerenza multi-vista. Esperimenti estensivi dimostrano l'efficacia del nostro approccio nella generazione di immagini panoramiche, nella stima della profondità panoramica e nella generazione di scene 3D.

InfiniPot-V: Compressione della Cache KV con Vincoli di Memoria per lo Streaming Video Comprensione
InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding

Jun 18, 2025

Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang

122

I moderni modelli linguistici multimodali di grandi dimensioni (MLLM) sono in grado di ragionare su video della durata di un'ora, ma la loro cache chiave-valore (KV) cresce linearmente nel tempo, superando rapidamente la memoria fissa di telefoni, occhiali AR e robot periferici. I precedenti schemi di compressione presuppongono che l'intero video e la query dell'utente siano disponibili offline o debbano prima costruire la cache completa, quindi la memoria scala comunque con la lunghezza dello stream. InfiniPot-V è il primo framework senza addestramento e agnostico rispetto alla query che impone un limite di memoria rigido e indipendente dalla lunghezza per la comprensione di video in streaming. Durante la codifica del video, monitora la cache e, una volta raggiunta una soglia impostata dall'utente, esegue una passata di compressione leggera che (i) rimuove i token temporalmente ridondanti tramite la metrica di ridondanza sull'asse temporale (TaR) e (ii) mantiene i token semanticamente significativi tramite il ranking basato sulla norma dei valori (VaN). Su quattro MLLM open-source e quattro benchmark per video lunghi e due per video in streaming, InfiniPot-V riduce la memoria GPU di picco fino al 94%, mantiene la generazione in tempo reale e corrisponde o supera l'accuratezza della cache completa, anche in dialoghi multi-turno. Eliminando il collo di bottiglia della cache KV senza necessità di riaddestramento o conoscenza della query, InfiniPot-V colma il divario per gli assistenti video in streaming su dispositivo.

Hunyuan3D 2.1: Da immagini a risorse 3D ad alta fedeltà con materiali PBR pronti per la produzione
Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material

Jun 18, 2025

Team Hunyuan3D, Shuhui Yang, Mingxin Yang, Yifei Feng, Xin Huang, Sheng Zhang, Zebin He, Di Luo, Haolin Liu, Yunfei Zhao, Qingxiang Lin, Zeqiang Lai, Xianghui Yang, Huiwen Shi, Zibo Zhao, Bowen Zhang, Hongyu Yan, Lifu Wang, Sicong Liu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Yulin Cai, Jiaao Yu, Yixuan Tang, Dongyuan Guo, Junlin Yu, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Shida Wei, Chao Zhang, Yonghao Tan, Yifu Sun, Lin Niu, Shirui Huang, Bojian Zheng, Shu Liu, Shilin Chen, Xiang Yuan, Xiaofeng Yang, Kai Liu, Jianchen Zhu, Peng Chen, Tian Liu, Di Wang, Yuhong Liu, Linus, Jie Jiang, Jingwei Huang, Chunchao Guo

112

Il contenuto 3D generato dall'IA (AIGC) è un campo appassionante che ha accelerato significativamente la creazione di modelli 3D nel gaming, nel cinema e nel design. Nonostante lo sviluppo di diversi modelli rivoluzionari che hanno trasformato la generazione 3D, il campo rimane largamente accessibile solo a ricercatori, sviluppatori e designer a causa delle complessità legate alla raccolta, elaborazione e addestramento dei modelli 3D. Per affrontare queste sfide, presentiamo Hunyuan3D 2.1 come caso di studio in questo tutorial. Questo tutorial offre una guida completa e passo-passo sull'elaborazione dei dati 3D, l'addestramento di un modello generativo 3D e la valutazione delle sue prestazioni utilizzando Hunyuan3D 2.1, un sistema avanzato per la produzione di asset 3D ad alta risoluzione e texture. Il sistema è composto da due componenti principali: Hunyuan3D-DiT per la generazione delle forme e Hunyuan3D-Paint per la sintesi delle texture. Esploreremo l'intero flusso di lavoro, inclusa la preparazione dei dati, l'architettura del modello, le strategie di addestramento, le metriche di valutazione e il deployment. Al termine di questo tutorial, avrete le conoscenze necessarie per ottimizzare o sviluppare un modello generativo 3D robusto, adatto ad applicazioni nel gaming, nella realtà virtuale e nel design industriale.

UniFork: Esplorazione dell'Allineamento delle Modalità per la Comprensione e Generazione Multimodale Unificata
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation

Jun 20, 2025

Teng Li, Quanfeng Lu, Lirui Zhao, Hao Li, Xizhou Zhu, Yu Qiao, Jun Zhang, Wenqi Shao

La comprensione e generazione unificata delle immagini è emersa come un paradigma promettente nell'intelligenza artificiale multimodale. Nonostante i recenti progressi, la progettazione architetturale ottimale per tali modelli unificati rimane una sfida aperta. In questo lavoro, iniziamo analizzando i comportamenti di allineamento delle modalità nei modelli esperti specifici per compiti di comprensione e generazione, nonché nei modelli unificati attuali. La nostra analisi rivela un'osservazione cruciale: i compiti di comprensione beneficiano di un allineamento progressivamente crescente delle modalità attraverso la profondità della rete, che aiuta a costruire informazioni semantiche per una migliore comprensione; al contrario, i compiti di generazione seguono una tendenza diversa: l'allineamento delle modalità aumenta negli strati iniziali ma diminuisce negli strati profondi per recuperare i dettagli spaziali. Questi modelli divergenti di allineamento creano un conflitto fondamentale nei backbone Transformer completamente condivisi, dove un flusso rappresentativo uniforme spesso porta a compromessi nelle prestazioni tra i due compiti. Motivati da questa scoperta, introduciamo UniFork, una nuova architettura a forma di Y che condivide gli strati superficiali per l'apprendimento rappresentativo cross-task, mentre impiega rami specifici per compito negli strati più profondi per evitare interferenze tra i compiti. Questo design bilancia efficacemente l'apprendimento condiviso e la specializzazione per compito. Attraverso ampi esperimenti di ablazione, dimostriamo che UniFork supera costantemente le architetture Transformer completamente condivise convenzionali e raggiunge prestazioni pari o migliori rispetto ai modelli specifici per compito.

Dall'Intenzione all'Esecuzione: Esplorando i Confini della Generalizzazione nei Modelli Visione-Linguaggio-Azione
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

Jun 11, 2025

Irving Fang, Juexiao Zhang, Shengbang Tong, Chen Feng

Una delle promesse dei modelli Vision-Language-Action (VLA) rispetto all'apprendimento per imitazione tradizionale nella robotica è quella di sfruttare le ampie capacità di generalizzazione dei grandi modelli Vision-Language (VLM) per produrre politiche robotiche versatili e "generaliste". Tuttavia, le valutazioni attuali dei VLA rimangono insufficienti. I benchmark tradizionali per l'apprendimento per imitazione non sono adatti a causa della mancanza di istruzioni linguistiche. I benchmark emergenti per i VLA che incorporano il linguaggio spesso presentano compiti di valutazione limitati e non intendono indagare quanto il pre-addestramento dei VLM contribuisca realmente alle capacità di generalizzazione della politica robotica downstream. Nel frattempo, gran parte della ricerca si basa su configurazioni robotiche del mondo reale progettate in isolamento da diverse istituzioni, il che crea una barriera alla riproducibilità e all'accessibilità. Per colmare questa lacuna, introduciamo una suite unificata di 50 task basati su simulazione, suddivisi in 10 sottocategorie che abbracciano istruzioni linguistiche, visione e oggetti. Valutiamo sistematicamente diverse architetture VLA all'avanguardia su questa suite per comprenderne la capacità di generalizzazione. I nostri risultati mostrano che, sebbene i backbone VLM conferiscano ai VLA una solida comprensione percettiva e una pianificazione di alto livello, che definiamo come buone intenzioni, ciò non si traduce in modo affidabile in un'esecuzione motoria precisa: quando si trovano di fronte a osservazioni fuori distribuzione, le politiche spesso mostrano intenzioni coerenti, ma vacillano nell'esecuzione delle azioni. Inoltre, il fine-tuning sui dati di azione può erodere le capacità di ragionamento generalista del VLM originale. Rilasciamo la nostra suite di task e il codice di valutazione per servire come benchmark standardizzato per i futuri VLA e per guidare la ricerca sul colmare il divario percezione-azione. Ulteriori informazioni, incluso il codice sorgente, sono disponibili all'indirizzo https://ai4ce.github.io/INT-ACT/.

Simulazione del Traffico a Lungo Termine con Movimento Autoregressivo Intervallato e Generazione di Scenari
Long-term Traffic Simulation with Interleaved Autoregressive Motion and Scenario Generation

Jun 20, 2025

Xiuyu Yang, Shuhan Tan, Philipp Krähenbühl

Un simulatore di traffico ideale replica il realistico viaggio punto a punto a lungo termine che un sistema di guida autonoma sperimenta durante il dispiegamento. I modelli e i benchmark precedenti si concentrano sulla simulazione a ciclo chiuso del movimento per gli agenti iniziali in una scena. Ciò è problematico per la simulazione a lungo termine. Gli agenti entrano ed escono dalla scena man mano che il veicolo ego entra in nuove regioni. Proponiamo InfGen, un modello unificato di previsione del token successivo che esegue una simulazione intervallata del movimento a ciclo chiuso e la generazione della scena. InfGen passa automaticamente tra la modalità di simulazione del movimento a ciclo chiuso e la generazione della scena. Ciò consente una simulazione stabile a lungo termine. InfGen si colloca allo stato dell'arte nella simulazione del traffico a breve termine (9s) e supera significativamente tutti gli altri metodi nella simulazione a lungo termine (30s). Il codice e il modello di InfGen saranno rilasciati su https://orangesodahub.github.io/InfGen.

MEXA: Verso un Ragionamento Multimodale Generale con Aggregazione Dinamica di Multi-Esperti
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation

Jun 20, 2025

Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal

La combinazione di modelli esperti pre-addestrati offre un potenziale significativo per il ragionamento multimodale scalabile, ma la creazione di un framework unificato rimane una sfida a causa della crescente diversità delle modalità di input e della complessità dei compiti. Ad esempio, la diagnosi medica richiede un ragionamento preciso su tabelle cliniche strutturate, mentre la previsione finanziaria dipende dall'interpretazione di dati basati su grafici per effettuare previsioni informate. Per affrontare questa sfida, introduciamo MEXA, un framework senza necessità di addestramento che esegue un'aggregazione consapevole della modalità e del compito di più modelli esperti per abilitare un ragionamento multimodale efficace in domini diversi e distinti. MEXA seleziona dinamicamente i modelli esperti in base alla modalità di input e alle esigenze di ragionamento specifiche del compito (ovvero, le competenze). Ogni modello esperto, specializzato in una coppia modalità-compito, genera output di ragionamento testuali interpretabili. MEXA aggrega e ragiona su questi output utilizzando un Large Reasoning Model (LRM) per produrre la risposta finale. Questo design modulare consente un ragionamento multimodale flessibile e trasparente in diversi domini senza ulteriori costi di addestramento. Valutiamo ampiamente il nostro approccio su diversi benchmark multimodali, tra cui Ragionamento Video, Ragionamento Audio, Comprensione 3D e QA Medico. MEXA fornisce costantemente miglioramenti delle prestazioni rispetto a forti baseline multimodali, evidenziando l'efficacia e l'ampia applicabilità della nostra selezione e aggregazione guidata da esperti in vari compiti di ragionamento multimodale.

Generazione basata su riordinamento per la sintesi imparziale delle prospettive
Reranking-based Generation for Unbiased Perspective Summarization

Jun 19, 2025

Narutatsu Ri, Nicholas Deas, Kathleen McKeown

La generazione di riassunti imparziali in contesti reali come la sintesi di prospettive politiche rimane un'applicazione cruciale dei Modelli Linguistici di Grande Scala (LLM). Tuttavia, i framework di valutazione esistenti si basano su metriche tradizionali per misurare attributi chiave come copertura e fedeltà senza verificarne l'applicabilità, e gli sforzi per sviluppare sistemi di sintesi migliorati sono ancora agli inizi. Affrontiamo queste lacune (1) identificando metriche affidabili per misurare la qualità dei riassunti prospettici e (2) investigando l'efficacia dei metodi basati su LLM oltre l'inferenza zero-shot. In particolare, costruiamo un set di test per valutare l'affidabilità delle metriche utilizzando annotazioni umane e dimostriamo che le metriche tradizionali sono inferiori rispetto a quelle basate su modelli linguistici, che si rivelano valutatori robusti. Utilizzando queste metriche, mostriamo che i metodi basati su riordinamento producono risultati solidi e che l'ottimizzazione delle preferenze con dati generati sinteticamente ed etichettati tramite riordinamento migliora ulteriormente le prestazioni. I nostri risultati mirano a contribuire alla valutazione affidabile e allo sviluppo di metodi di sintesi prospettica.

Filigranatura della Generazione Autoregressiva di Immagini
Watermarking Autoregressive Image Generation

Jun 19, 2025

Nikola Jovanović, Ismail Labiad, Tomáš Souček, Martin Vechev, Pierre Fernandez

La marcatura delle uscite dei modelli generativi è emersa come un approccio promettente per tracciarne la provenienza. Nonostante il significativo interesse verso i modelli di generazione di immagini autoregressivi e il loro potenziale di abuso, nessun lavoro precedente ha tentato di marcare le loro uscite a livello di token. In questo lavoro, presentiamo il primo approccio di questo tipo adattando le tecniche di marcatura dei modelli linguistici a questo contesto. Identifichiamo una sfida chiave: la mancanza di coerenza inversa del ciclo (RCC), in cui la ritokenizzazione dei token di immagini generate altera significativamente la sequenza di token, cancellando di fatto la marca. Per affrontare questo problema e rendere il nostro metodo robusto alle comuni trasformazioni delle immagini, alla compressione neurale e agli attacchi di rimozione, introduciamo (i) una procedura di fine-tuning personalizzata per tokenizer-detokenizer che migliora la RCC, e (ii) uno strato complementare di sincronizzazione della marca. Come dimostrano i nostri esperimenti, il nostro approccio consente un rilevamento affidabile e robusto della marca con valori p teoricamente fondati.

Migliorare l'Inversione del Modello Linguistico attraverso una Rappresentazione Compatta delle Distribuzioni del Token Successivo
Better Language Model Inversion by Compactly Representing Next-Token Distributions

Jun 20, 2025

Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta

L'inversione del modello linguistico mira a recuperare prompt nascosti utilizzando solo gli output del modello linguistico. Questa capacità ha implicazioni per la sicurezza e la responsabilità nelle implementazioni dei modelli linguistici, come la fuoriuscita di informazioni private dal messaggio di sistema di un modello linguistico protetto da API. Proponiamo un nuovo metodo -- l'inversione del prompt da sequenze di logprob (PILS) -- che recupera prompt nascosti raccogliendo indizi dalle probabilità del token successivo del modello nel corso di più passaggi di generazione. Il nostro metodo è reso possibile da una chiave di intuizione: gli output vettoriali di un modello linguistico occupano un sottospazio a bassa dimensionalità. Ciò ci consente di comprimere senza perdite l'intera distribuzione di probabilità del token successivo su più passaggi di generazione utilizzando una mappa lineare, permettendo di utilizzare più informazioni di output per l'inversione. Il nostro approccio produce guadagni significativi rispetto ai precedenti metodi all'avanguardia per il recupero di prompt nascosti, raggiungendo tassi di recupero esatto da 2 a 3,5 volte più alti su set di test, in un caso aumentando il tasso di recupero dal 17% al 60%. Il nostro metodo mostra anche un comportamento di generalizzazione sorprendentemente buono; ad esempio, un inverter addestrato su 16 passaggi di generazione ottiene un recupero del prompt da 5 a 27 punti più alto quando aumentiamo il numero di passaggi a 32 durante il test. Inoltre, dimostriamo una forte performance del nostro metodo sul compito più impegnativo di recuperare messaggi di sistema nascosti. Analizziamo anche il ruolo della ripetizione letterale nel recupero del prompt e proponiamo un nuovo metodo per il trasferimento di modelli tra famiglie per inverter basati su logit. I nostri risultati mostrano che le probabilità del token successivo rappresentano una superficie di attacco considerevolmente più vulnerabile per gli attacchi di inversione rispetto a quanto si conoscesse in precedenza.

Dall'Intenzione all'Esecuzione: Esplorando i Confini della Generalizzazione nei Modelli Visione-Linguaggio-Azione
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

Jun 11, 2025

Irving Fang, Juexiao Zhang, Shengbang Tong, Chen Feng

Paper Giornalieri

LLM Drag-and-Drop: Prompt-to-Weights in Modalità Zero-Shot
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

La Segmentazione Guidata dalla Visione è Tutto Ciò che Serve: Migliorare il RAG con la Comprensione Multimodale dei Documenti
Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

PAROAttention: Riordinamento Consapevole del Modello per un'Attenzione Sparse e Quantizzata Efficiente nei Modelli di Generazione Visiva
PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

Hunyuan-GameCraft: Generazione di Video di Giochi Interattivi ad Alta Dinamica con Condizione Ibrida della Cronologia
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition

VIKI-R: Coordinamento della Cooperazione Multi-Agente Embodied tramite Apprendimento per Rinforzo
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Immaginazione Mentale della Macchina: Potenziare il Ragionamento Multimodale con Token Visivi Latenti
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

Hunyuan3D 2.5: Verso la Generazione di Asset 3D ad Alta Fedeltà con Dettagli Estremi
Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details

Ottimizzazione del Text-To-Speech Multilingue con Accenti ed Emozioni
Optimizing Multilingual Text-To-Speech with Accents & Emotions

DreamCube: Generazione di Panorami 3D tramite Sincronizzazione Multi-piano
DreamCube: 3D Panorama Generation via Multi-plane Synchronization

InfiniPot-V: Compressione della Cache KV con Vincoli di Memoria per lo Streaming Video Comprensione
InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding

Hunyuan3D 2.1: Da immagini a risorse 3D ad alta fedeltà con materiali PBR pronti per la produzione
Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material

UniFork: Esplorazione dell'Allineamento delle Modalità per la Comprensione e Generazione Multimodale Unificata
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation

Dall'Intenzione all'Esecuzione: Esplorando i Confini della Generalizzazione nei Modelli Visione-Linguaggio-Azione
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

Simulazione del Traffico a Lungo Termine con Movimento Autoregressivo Intervallato e Generazione di Scenari
Long-term Traffic Simulation with Interleaved Autoregressive Motion and Scenario Generation

MEXA: Verso un Ragionamento Multimodale Generale con Aggregazione Dinamica di Multi-Esperti
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation

Generazione basata su riordinamento per la sintesi imparziale delle prospettive
Reranking-based Generation for Unbiased Perspective Summarization

Filigranatura della Generazione Autoregressiva di Immagini
Watermarking Autoregressive Image Generation

Migliorare l'Inversione del Modello Linguistico attraverso una Rappresentazione Compatta delle Distribuzioni del Token Successivo
Better Language Model Inversion by Compactly Representing Next-Token Distributions

Support

Support

Paper Giornalieri

LLM Drag-and-Drop: Prompt-to-Weights in Modalità Zero-Shot
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights

La Segmentazione Guidata dalla Visione è Tutto Ciò che Serve: Migliorare il RAG con la Comprensione Multimodale dei Documenti
Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding

PAROAttention: Riordinamento Consapevole del Modello per un'Attenzione Sparse e Quantizzata Efficiente nei Modelli di Generazione Visiva
PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

Hunyuan-GameCraft: Generazione di Video di Giochi Interattivi ad Alta Dinamica con Condizione Ibrida della Cronologia
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition

VIKI-R: Coordinamento della Cooperazione Multi-Agente Embodied tramite Apprendimento per Rinforzo
VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning

Immaginazione Mentale della Macchina: Potenziare il Ragionamento Multimodale con Token Visivi Latenti
Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens

Hunyuan3D 2.5: Verso la Generazione di Asset 3D ad Alta Fedeltà con Dettagli Estremi
Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details

Ottimizzazione del Text-To-Speech Multilingue con Accenti ed Emozioni
Optimizing Multilingual Text-To-Speech with Accents & Emotions

DreamCube: Generazione di Panorami 3D tramite Sincronizzazione Multi-piano
DreamCube: 3D Panorama Generation via Multi-plane Synchronization

InfiniPot-V: Compressione della Cache KV con Vincoli di Memoria per lo Streaming Video Comprensione
InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding

Hunyuan3D 2.1: Da immagini a risorse 3D ad alta fedeltà con materiali PBR pronti per la produzione
Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material

UniFork: Esplorazione dell'Allineamento delle Modalità per la Comprensione e Generazione Multimodale Unificata
UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation

Dall'Intenzione all'Esecuzione: Esplorando i Confini della Generalizzazione nei Modelli Visione-Linguaggio-Azione
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

Simulazione del Traffico a Lungo Termine con Movimento Autoregressivo Intervallato e Generazione di Scenari
Long-term Traffic Simulation with Interleaved Autoregressive Motion and Scenario Generation

MEXA: Verso un Ragionamento Multimodale Generale con Aggregazione Dinamica di Multi-Esperti
MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation

Generazione basata su riordinamento per la sintesi imparziale delle prospettive
Reranking-based Generation for Unbiased Perspective Summarization

Filigranatura della Generazione Autoregressiva di Immagini
Watermarking Autoregressive Image Generation

Migliorare l'Inversione del Modello Linguistico attraverso una Rappresentazione Compatta delle Distribuzioni del Token Successivo
Better Language Model Inversion by Compactly Representing Next-Token Distributions