Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Rapporto Tecnico Ovis-U1
Ovis-U1 Technical Report

Jun 29, 2025

Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen

582

In questo rapporto, presentiamo Ovis-U1, un modello unificato da 3 miliardi di parametri che integra capacità di comprensione multimodale, generazione di immagini da testo e modifica di immagini. Basandosi sulle fondamenta della serie Ovis, Ovis-U1 incorpora un decodificatore visivo basato su diffusione accoppiato con un raffinatore di token bidirezionale, abilitando compiti di generazione di immagini paragonabili a modelli leader come GPT-4o. A differenza di alcuni modelli precedenti che utilizzano un MLLM congelato per i compiti di generazione, Ovis-U1 sfrutta un nuovo approccio di addestramento unificato partendo da un modello linguistico. Rispetto all'addestramento esclusivo su compiti di comprensione o generazione, l'addestramento unificato produce prestazioni migliori, dimostrando il miglioramento ottenuto integrando questi due compiti. Ovis-U1 ottiene un punteggio di 69,6 sul benchmark accademico multimodale OpenCompass, superando modelli recenti all'avanguardia come Ristretto-3B e SAIL-VL-1.5-2B. Nella generazione di immagini da testo, eccelle con punteggi di 83,72 e 0,89 rispettivamente sui benchmark DPG-Bench e GenEval. Per la modifica di immagini, raggiunge 4,00 e 6,42 rispettivamente su ImgEdit-Bench e GEdit-Bench-EN. Come versione iniziale della serie di modelli unificati Ovis, Ovis-U1 spinge i confini della comprensione, generazione e modifica multimodale.

SPIRAL: L'Autogioco su Giochi a Somma Zero Incentiva il Ragionamento attraverso l'Apprendimento per Rinforzo Multi-Agente e Multi-Turno
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Jun 30, 2025

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques

423

I recenti progressi nell'apprendimento per rinforzo hanno dimostrato che i modelli linguistici possono sviluppare un ragionamento sofisticato attraverso l'addestramento su compiti con ricompense verificabili, ma questi approcci dipendono da coppie problema-risposta curate da esseri umani e da un'ingegneria delle ricompense specifica per dominio. Introduciamo SPIRAL, un framework di auto-gioco in cui i modelli apprendono giocando partite a turni multipli e a somma zero contro versioni di se stessi in continuo miglioramento, eliminando la necessità di supervisione umana. Attraverso l'auto-gioco, SPIRAL genera un curriculum infinito di problemi progressivamente più impegnativi, poiché i modelli devono costantemente adattarsi a avversari più forti. Per abilitare questo addestramento su larga scala, implementiamo un sistema di apprendimento per rinforzo completamente online, a turni multipli e multi-agente per LLM e proponiamo la stima del vantaggio condizionata al ruolo (RAE) per stabilizzare l'addestramento multi-agente. Utilizzando SPIRAL, l'auto-gioco su giochi a somma zero produce capacità di ragionamento che si trasferiscono ampiamente. L'addestramento di Qwen3-4B-Base solo su Kuhn Poker raggiunge un miglioramento dell'8,6% in matematica e dell'8,4% nel ragionamento generale, superando l'SFT su 25.000 traiettorie di gioco esperte. L'analisi rivela che questo trasferimento avviene attraverso tre schemi cognitivi: scomposizione sistematica, calcolo del valore atteso e analisi caso per caso. L'addestramento su più giochi (TicTacToe, Kuhn Poker, Simple Negotiation) migliora ulteriormente le prestazioni, poiché ogni gioco sviluppa punti di forza distinti nel ragionamento. Applicare SPIRAL a un modello di ragionamento avanzato (DeepSeek-R1-Distill-Qwen-7B) può comunque portare a un miglioramento medio del 2,0%. Questi risultati dimostrano che i giochi a somma zero sviluppano naturalmente capacità di ragionamento trasferibili, evidenziando una direzione promettente per lo sviluppo autonomo del ragionamento.

Calligrapher: Personalizzazione Libera di Immagini di Testo
Calligrapher: Freestyle Text Image Customization

Jun 30, 2025

Yue Ma, Qingyan Bai, Hao Ouyang, Ka Leong Cheng, Qiuyu Wang, Hongyu Liu, Zichen Liu, Haofan Wang, Jingye Chen, Yujun Shen, Qifeng Chen

313

Presentiamo Calligrapher, un innovativo framework basato su diffusione che integra in modo creativo la personalizzazione avanzata del testo con la tipografia artistica per applicazioni di calligrafia digitale e design. Affrontando le sfide del controllo preciso dello stile e della dipendenza dai dati nella personalizzazione tipografica, il nostro framework incorpora tre contributi tecnici chiave. In primo luogo, sviluppiamo un meccanismo di auto-distillazione che sfrutta il modello generativo pre-addestrato da testo a immagine insieme al modello linguistico di grandi dimensioni per costruire automaticamente un benchmark tipografico centrato sullo stile. In secondo luogo, introduciamo un framework di iniezione dello stile localizzato tramite un codificatore di stile addestrabile, che comprende sia Qformer che strati lineari, per estrarre caratteristiche robuste dello stile da immagini di riferimento. Viene inoltre impiegato un meccanismo di generazione in contesto per incorporare direttamente le immagini di riferimento nel processo di denoising, migliorando ulteriormente l'allineamento raffinato degli stili target. Valutazioni quantitative e qualitative estese su diversi font e contesti di design confermano la riproduzione accurata da parte di Calligrapher di dettagli stilistici intricati e di un posizionamento preciso dei glifi. Automatizzando una tipografia di alta qualità e visivamente coerente, Calligrapher supera i modelli tradizionali, potenziando i professionisti creativi nell'arte digitale, nel branding e nel design tipografico contestuale.

VMoBA: Attenzione a Miscela di Blocchi per Modelli di Diffusione Video
VMoBA: Mixture-of-Block Attention for Video Diffusion Models

Jun 30, 2025

Jianzong Wu, Liang Hou, Haotian Yang, Xin Tao, Ye Tian, Pengfei Wan, Di Zhang, Yunhai Tong

311

La complessità quadratica dei meccanismi di attenzione completa rappresenta un significativo collo di bottiglia per i Modelli di Diffusione Video (VDM) che mirano a generare video di lunga durata e ad alta risoluzione. Sebbene siano stati proposti vari metodi di attenzione sparsa, molti sono progettati come acceleratori di inferenza senza addestramento o non catturano in modo ottimale le caratteristiche spazio-temporali uniche intrinseche ai dati video quando addestrati nativamente. Questo articolo introduce Video Mixture of Block Attention (VMoBA), un nuovo meccanismo di attenzione sparsa specificamente adattato per i VDM. Motivato da un'analisi approfondita dei modelli di attenzione all'interno di trasformatori video pre-addestrati, che ha rivelato una forte località spazio-temporale, un'importanza variabile delle query e livelli di concentrazione specifici per ogni testa, VMoBA migliora il framework MoBA originale con tre modifiche chiave: (1) uno schema di partizione ricorrente a blocchi per livello (1D-2D-3D) per adattarsi dinamicamente a diversi modelli di attenzione spazio-temporale e migliorare l'efficienza; (2) selezione globale dei blocchi per dare priorità alle interazioni query-chiave più salienti in un'intera testa di attenzione; e (3) selezione dei blocchi basata su soglia per determinare dinamicamente il numero di blocchi a cui prestare attenzione in base alla loro somiglianza cumulativa. Esperimenti estesi dimostrano che VMoBA accelera significativamente l'addestramento dei VDM su sequenze più lunghe, raggiungendo un miglioramento di 2.92x nei FLOP e di 1.48x nella latenza, ottenendo al contempo una qualità di generazione comparabile o addirittura superiore rispetto all'attenzione completa. Inoltre, VMoBA mostra prestazioni competitive nell'inferenza senza addestramento, offrendo un miglioramento di 2.40x nei FLOP e di 1.35x nella latenza per la generazione di video ad alta risoluzione.

Pensiero Premializzato dall'Ascoltatore nei Modelli Linguistici Visivi per le Preferenze Immagine
Listener-Rewarded Thinking in VLMs for Image Preferences

Jun 28, 2025

Alexander Gambashidze, Li Pengyi, Matvey Skripkin, Andrey Galichin, Anton Gusarov, Konstantin Sobolev, Andrey Kuznetsov, Ivan Oseledets

241

L'addestramento di modelli di ricompensa robusti e generalizzabili per le preferenze visive umane è essenziale per allineare i modelli generativi da testo a immagine e da testo a video con l'intento umano. Tuttavia, gli attuali modelli di ricompensa spesso non riescono a generalizzare, e la messa a punto supervisionata porta a una memorizzazione, richiedendo pipeline di annotazione complesse. Sebbene l'apprendimento per rinforzo (RL), in particolare l'ottimizzazione relativa delle politiche di gruppo (GRPO), migliori la generalizzazione, abbiamo scoperto un problema chiave: si verifica un calo significativo nell'accuratezza del ragionamento quando la traccia di ragionamento di un modello contraddice quella di un modello visione-linguaggio indipendente e congelato ("ascoltatore") che valuta lo stesso output. Per affrontare questo problema, introduciamo un framework GRPO arricchito dall'ascoltatore. Qui, l'ascoltatore rivaluta la catena di pensiero del ragionatore per fornire un punteggio di confidenza denso e calibrato, modellando il segnale di ricompensa RL. Questo incoraggia il ragionatore non solo a rispondere correttamente, ma a produrre spiegazioni che siano persuasive per un modello indipendente. Il nostro schema di ricompensa modellato dall'ascoltatore raggiunge la migliore accuratezza sul benchmark ImageReward (67,4%), migliora significativamente le prestazioni fuori distribuzione (OOD) su un ampio dataset di preferenze umane (1,2M di voti, fino a +6% rispetto al ragionatore ingenuo) e riduce le contraddizioni di ragionamento rispetto ai forti baseline GRPO e SFT. Questi risultati dimostrano che le ricompense basate sull'ascoltatore forniscono un percorso scalabile ed efficiente in termini di dati per allineare i modelli visione-linguaggio con le sfumature delle preferenze umane. Rilasceremo il nostro modello di ragionamento qui: https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.

MEMFOF: Addestramento ad Alta Risoluzione per la Stima del Flusso Ottico Multi-Frame Efficiente in Memoria
MEMFOF: High-Resolution Training for Memory-Efficient Multi-Frame Optical Flow Estimation

Jun 29, 2025

Vladislav Bargatin, Egor Chistov, Alexander Yakovenko, Dmitriy Vatolin

232

I recenti progressi nella stima del flusso ottico hanno privilegiato l'accuratezza a scapito di un crescente consumo di memoria GPU, in particolare per input ad alta risoluzione (FullHD). Introduciamo MEMFOF, un metodo multi-frame per il flusso ottico efficiente in termini di memoria che identifica un compromesso favorevole tra la stima multi-frame e l'utilizzo della memoria GPU. In particolare, MEMFOF richiede solo 2,09 GB di memoria GPU in fase di esecuzione per input 1080p e 28,5 GB durante l'addestramento, posizionando in modo unico il nostro metodo per essere addestrato a risoluzione nativa 1080p senza la necessità di ritagli o ridimensionamenti. Rivediamo sistematicamente le scelte progettuali delle architetture simili a RAFT, integrando volumi di correlazione ridotti e protocolli di addestramento ad alta risoluzione insieme alla stima multi-frame, per ottenere prestazioni all'avanguardia su più benchmark riducendo sostanzialmente l'overhead di memoria. Il nostro metodo supera alternative più dispendiose in termini di risorse sia in accuratezza che in efficienza di runtime, validandone la robustezza per la stima del flusso ad alte risoluzioni. Al momento della presentazione, il nostro metodo si classifica primo sul benchmark Spring con un tasso di outlier a 1 pixel (1px) del 3,289, guida Sintel (clean) con un errore di endpoint (EPE) di 0,963 e raggiunge il miglior errore Fl-all su KITTI-2015 al 2,94%. Il codice è disponibile all'indirizzo https://github.com/msu-video-group/memfof.

Evoluzione dei Prompt In-Context: Una Prospettiva Aperta e Auto-replicante
Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

Jun 22, 2025

Jianyu Wang, Zhiqiang Hu, Lidong Bing

192

Proponiamo un nuovo paradigma di progettazione dei prompt che sfida la saggezza convenzionale nel prompting dei modelli linguistici di grandi dimensioni (LLM). Mentre la saggezza convenzionale privilegia istruzioni ben strutturate e dimostrazioni per l'apprendimento in contesto (ICL), dimostriamo che la potatura di dimostrazioni casuali in "gibberish" apparentemente incoerenti può migliorare notevolmente le prestazioni su una vasta gamma di task. È degno di nota che il "gibberish" eguagli o superi sempre le tecniche di ottimizzazione automatica dei prompt all'avanguardia, ottenendo guadagni sostanziali indipendentemente dall'allineamento dell'LLM. Tuttavia, scoprire una strategia di potatura efficace non è banale, poiché i metodi di attribuzione esistenti e gli algoritmi di compressione dei prompt non riescono a fornire risultati robusti, figuriamoci l'intuizione umana. A tal proposito, proponiamo un framework di ottimizzazione dei prompt auto-scoprente, PromptQuine, un framework di ricerca evolutiva che cerca automaticamente la strategia di potatura utilizzando solo regimi a basso contenuto di dati. Similmente alla complessità emergente in natura—come la simbiosi e l'auto-organizzazione—che sorge in risposta ai vincoli di risorse, il nostro framework evolve e affina prompt non convenzionali ma altamente efficaci sfruttando solo i token presenti nel contesto. Ne dimostriamo l'efficacia su task di classificazione, risposta a domande a scelta multipla, generazione e ragionamento matematico su vari LLM, raggiungendo un'efficienza di runtime decente. Speriamo che i nostri risultati possano guidare studi meccanicistici sull'apprendimento in contesto e fornire un invito all'azione, per aprire la strada a algoritmi di ricerca più aperti per un prompting degli LLM più efficace.

SparseLoRA: Accelerare il Fine-Tuning dei Modelli Linguistici con Spaziatura Contestuale
SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

Jun 19, 2025

Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu

152

Il fine-tuning dei LLM è sia computazionalmente che in termini di memoria molto intensivo. Sebbene i metodi di fine-tuning efficiente in termini di parametri, come QLoRA e DoRA, riducano il numero di parametri addestrabili e diminuiscano l'uso della memoria, non riducono il costo computazionale. In alcuni casi, potrebbero persino rallentare il processo di fine-tuning. In questo articolo, introduciamo SparseLoRA, un metodo che accelera il fine-tuning dei LLM attraverso la sparsità contestuale. Proponiamo un leggero stimatore di sparsità SVD che non richiede addestramento e seleziona dinamicamente un sottoinsieme sparso di pesi per il calcolo della perdita e del gradiente. Inoltre, analizziamo e affrontiamo sistematicamente la sensibilità attraverso i livelli, i token e i passi di addestramento. I nostri risultati sperimentali dimostrano che SparseLoRA riduce il costo computazionale fino a 2,2 volte e un'accelerazione misurata fino a 1,6 volte, mantenendo l'accuratezza in vari compiti downstream, tra cui il ragionamento di buon senso e aritmetico, la generazione di codice e il seguimento di istruzioni.

Denoising coerente della profondità Time-of-Flight tramite attenzione geometrica informata da grafi
Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention

Jun 30, 2025

Weida Wang, Changyong He, Jin Zeng, Di Qiu

142

Le immagini di profondità acquisite dai sensori Time-of-Flight (ToF) sono soggette a rumore, richiedendo un processo di denoising per applicazioni downstream affidabili. I lavori precedenti si concentrano principalmente sull'elaborazione di singoli fotogrammi o eseguono un'elaborazione multi-fotogramma senza considerare le variazioni di profondità nei pixel corrispondenti tra i fotogrammi, portando a un'incertezza temporale e ambiguità spaziale indesiderate. In questo articolo, proponiamo una nuova rete di denoising per immagini di profondità ToF che sfrutta la fusione di grafi invarianti al movimento per migliorare simultaneamente la stabilità temporale e la nitidezza spaziale. Nello specifico, nonostante gli spostamenti di profondità tra i fotogrammi, le strutture dei grafi mostrano un'auto-similarità temporale, consentendo un'attenzione geometrica inter-fotogramma per la fusione dei grafi. Successivamente, incorporando un precedente di regolarità dell'immagine sul grafo fuso e un termine di fedeltà ai dati derivato dalla distribuzione del rumore ToF, formuliamo un problema di massima a posteriori per il denoising ToF. Infine, la soluzione viene scomposta in filtri iterativi i cui pesi sono appresi in modo adattivo dall'attenzione geometrica informata dal grafo, producendo una rete ad alte prestazioni ma interpretabile. I risultati sperimentali dimostrano che lo schema proposto raggiunge prestazioni all'avanguardia in termini di accuratezza e coerenza sul dataset sintetico DVToF e mostra una robusta generalizzazione sul dataset reale Kinectv2. Il codice sorgente sarà rilasciato su https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.

MARBLE: Un Benchmark Complesso per il Ragionamento e la Pianificazione Spaziale Multimodale
MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning

Jun 28, 2025

Yulun Jiang, Yekun Chai, Maria Brbić, Michael Moor

124

La capacità di elaborare informazioni provenienti da molteplici modalità e di ragionare attraverso di esse passo dopo passo rimane una sfida cruciale per il progresso dell'intelligenza artificiale. Tuttavia, i benchmark di ragionamento esistenti si concentrano su ragionamenti basati esclusivamente sul testo o impiegano domande multimodali che possono essere risolte recuperando direttamente informazioni da una modalità non testuale. Di conseguenza, il ragionamento complesso rimane poco compreso nei domini multimodali. Qui presentiamo MARBLE, un benchmark di ragionamento multimodale impegnativo progettato per valutare i modelli linguistici multimodali (MLLM) nella loro capacità di ragionare attentamente passo dopo passo attraverso problemi e ambienti multimodali complessi. MARBLE è composto da due compiti altamente impegnativi, M-Portal e M-Cube, che richiedono la creazione e la comprensione di piani a più fasi sotto vincoli spaziali, visivi e fisici. Abbiamo riscontrato che gli attuali MLLM ottengono prestazioni scarse su MARBLE: tutti i 12 modelli avanzati raggiungono prestazioni quasi casuali su M-Portal e un'accuratezza dello 0% su M-Cube. Solo in alcuni sottocompiti semplificati alcuni modelli superano la linea di base casuale, indicando che il ragionamento complesso rimane una sfida per gli MLLM esistenti. Inoltre, dimostriamo che la percezione rimane un collo di bottiglia, dove gli MLLM occasionalmente non riescono a estrarre informazioni dagli input visivi. Mettendo in luce i limiti degli MLLM, speriamo che MARBLE stimoli lo sviluppo della prossima generazione di modelli con la capacità di ragionare e pianificare attraverso molti passi di ragionamento multimodale.

RExBench: Gli agenti di programmazione possono implementare autonomamente estensioni della ricerca in IA?
RExBench: Can coding agents autonomously implement AI research extensions?

Jun 27, 2025

Nicholas Edwards, Yukyung Lee, Yujun, Mao, Yulu Qin, Sebastian Schuster, Najoung Kim

111

Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato potenziale nell'eseguire in modo autonomo compiti avanzati di ingegneria del software. Inoltre, sono stati compiuti progressi nello sviluppo di agenti in grado di svolgere parti del processo di ricerca nell'apprendimento automatico e nelle scienze naturali. Sosteniamo che l'estensione della ricerca e la sua implementazione rappresentino una capacità cruciale per tali sistemi e introduciamo RExBench per supportare la valutazione di questa capacità. RExBench è un benchmark composto da 12 task realistici di implementazione di esperimenti di ricerca, progettati per indagare ipotesi di ricerca non precedentemente implementate. Ogni task è configurato come un'estensione di un articolo di ricerca e di una codebase esistenti, accompagnati da istruzioni scritte da esperti del dominio. RExBench è robusto alla contaminazione dei dati e supporta un'infrastruttura di valutazione automatica che esegue gli output degli agenti per determinare se i criteri di successo sono soddisfatti. Utilizziamo questo benchmark per valutare nove agenti LLM implementati utilizzando tre framework diversi: aider, Claude Code e OpenHands. Rileviamo che tutti gli agenti valutati non riescono a implementare autonomamente la maggior parte delle estensioni. Sebbene il tasso di successo migliori con l'aggiunta di suggerimenti scritti da esseri umani, la migliore prestazione in questo contesto rimane inferiore al 40%. Ciò indica che gli agenti attuali non sono ancora in grado di gestire task realistici di estensione della ricerca senza un sostanziale intervento umano.

Momento "Aha" Rivisitato: I Modelli Linguistici Visivi Sono Veramente in Grado di Auto-Verificarsi nel Ridimensionamento al Momento dell'Inferenza?
Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?

Jun 20, 2025

Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt

111

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato che le tecniche di calcolo in fase di inferenza, come lo scaling al momento del decoding e l'auto-affinamento, possono migliorare significativamente le capacità di ragionamento senza fare affidamento su conoscenze esterne. Un fattore chiave di questo successo è l'emergere di comportamenti di auto-correzione e auto-verifica, spesso stimolati attraverso l'apprendimento per rinforzo (RL). In questo articolo, indaghiamo se queste tecniche in fase di inferenza si estendano efficacemente ai modelli visione-linguaggio (VLM), in particolare a quelli addestrati con RL. Scopriamo che, sebbene strategie di decoding come il voto a maggioranza e la selezione best-of-N con auto-verifica migliorino tutte le prestazioni di ragionamento dei VLM, i metodi basati sulla generazione, come il primo, ottengono guadagni significativamente maggiori rispetto ai metodi basati sulla verifica, come il secondo. Inoltre, il comportamento di auto-correzione spesso associato ai modelli ottimizzati con RL, come il momento "aha", non porta a miglioramenti misurabili. Mostriamo, attraverso un'ampia sperimentazione all'interno del framework di scaling in fase di inferenza, una causa principale: i VLM addestrati con RL mancano ancora di capacità robuste di auto-verifica sia nelle modalità visive che testuali.

UrbanLLaVA: Un Modello Linguistico Multimodale di Grande Scala per l'Intelligenza Urbana con Ragionamento e Comprensione Spaziale
UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

Jun 29, 2025

Jie Feng, Shengyuan Wang, Tianhui Liu, Yanxin Xi, Yong Li

La ricerca urbana coinvolge una vasta gamma di scenari e compiti che richiedono la comprensione di dati multi-modali. I metodi attuali spesso si concentrano su tipi specifici di dati e mancano di un framework unificato nel campo urbano per elaborarli in modo completo. Il recente successo dei modelli linguistici multi-modali di grandi dimensioni (MLLMs) presenta un'opportunità promettente per superare questa limitazione. In questo articolo, introduciamo UrbanLLaVA, un modello linguistico multi-modale di grandi dimensioni progettato per elaborare simultaneamente questi quattro tipi di dati e ottenere prestazioni solide in una varietà di compiti urbani rispetto ai MLLMs generali. In UrbanLLaVA, curiamo innanzitutto un dataset di istruzioni urbane diversificato che comprende sia dati urbani mono-modali che cross-modali, spaziando dalla vista locale alla vista globale dell'ambiente urbano. Inoltre, proponiamo un framework di addestramento multi-fase che separa il miglioramento del ragionamento spaziale dall'apprendimento delle conoscenze di dominio, migliorando così la compatibilità e le prestazioni downstream di UrbanLLaVA in una varietà di compiti urbani. Infine, estendiamo anche i benchmark esistenti per la ricerca urbana per valutare le prestazioni dei MLLMs in un'ampia gamma di compiti urbani. I risultati sperimentali provenienti da tre città dimostrano che UrbanLLaVA supera i MLLMs open-source e proprietari sia nei compiti mono-modali che in quelli cross-modali complessi e mostra robuste capacità di generalizzazione tra le città. I codici sorgenti e i dati sono accessibili alla comunità di ricerca tramite https://github.com/tsinghua-fib-lab/UrbanLLaVA.

ThinkSound: Ragionamento a Catena di Pensiero nei Modelli Linguistici Multimodali di Grande Scala per la Generazione e Modifica Audio
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

Jun 26, 2025

Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue

Sebbene la generazione end-to-end da video ad audio abbia fatto notevoli progressi, produrre audio ad alta fedeltà che catturi autenticamente le sfumature del contenuto visivo rimane una sfida. Come i professionisti del settore creativo, tale generazione richiede un ragionamento sofisticato su elementi come le dinamiche visive, gli ambienti acustici e le relazioni temporali. Presentiamo ThinkSound, un nuovo framework che sfrutta il ragionamento a catena del pensiero (Chain-of-Thought, CoT) per abilitare la generazione e la modifica interattiva e graduale dell'audio per i video. Il nostro approccio scompone il processo in tre fasi complementari: generazione di foley di base che crea paesaggi sonori semanticamente coerenti, raffinamento interattivo centrato sugli oggetti attraverso interazioni precise dell'utente, e modifica mirata guidata da istruzioni in linguaggio naturale. In ogni fase, un modello linguistico multimodale di grandi dimensioni genera un ragionamento CoT allineato contestualmente che guida un modello audio unificato di base. Inoltre, introduciamo AudioCoT, un dataset completo con annotazioni strutturate di ragionamento che stabilisce connessioni tra contenuto visivo, descrizioni testuali e sintesi del suono. Gli esperimenti dimostrano che ThinkSound raggiunge prestazioni all'avanguardia nella generazione da video ad audio sia nelle metriche audio che in quelle CoT e si distingue nel benchmark Movie Gen Audio fuori distribuzione. La pagina demo è disponibile all'indirizzo https://ThinkSound-Project.github.io.

RoboScape: Modello di Mondo Incorporato Informato dalla Fisica
RoboScape: Physics-informed Embodied World Model

Jun 29, 2025

Yu Shang, Xin Zhang, Yinzhou Tang, Lei Jin, Chen Gao, Wei Wu, Yong Li

I modelli del mondo sono diventati strumenti indispensabili per l'intelligenza incarnata, fungendo da potenti simulatori in grado di generare video robotici realistici affrontando al contempo le sfide critiche della scarsità di dati. Tuttavia, gli attuali modelli del mondo incarnati mostrano una consapevolezza fisica limitata, in particolare nella modellazione della geometria 3D e delle dinamiche del movimento, risultando in una generazione di video poco realistica per scenari robotici ricchi di contatti. In questo articolo, presentiamo RoboScape, un modello del mondo unificato informato dalla fisica che apprende congiuntamente la generazione di video RGB e la conoscenza fisica all'interno di un framework integrato. Introduciamo due compiti chiave di addestramento congiunto informati dalla fisica: la previsione della profondità temporale che migliora la coerenza geometrica 3D nel rendering video, e l'apprendimento delle dinamiche dei punti chiave che codifica implicitamente le proprietà fisiche (ad esempio, la forma degli oggetti e le caratteristiche dei materiali) migliorando al contempo la modellazione del movimento complesso. Esperimenti estensivi dimostrano che RoboScape genera video con una fedeltà visiva superiore e una plausibilità fisica in diversi scenari robotici. Validiamo ulteriormente la sua utilità pratica attraverso applicazioni a valle, inclusa la formazione di politiche robotiche con dati generati e la valutazione delle politiche. Il nostro lavoro fornisce nuove intuizioni per la costruzione di modelli del mondo efficienti informati dalla fisica per avanzare la ricerca sull'intelligenza incarnata. Il codice è disponibile all'indirizzo: https://github.com/tsinghua-fib-lab/RoboScape.

Insegnare a un Modello Linguistico a Parlare il Linguaggio degli Strumenti
Teaching a Language Model to Speak the Language of Tools

Jun 29, 2025

Simeon Emanuilov

L'integrazione di strumenti esterni tramite il richiamo di funzioni è essenziale per applicazioni pratiche dei modelli linguistici, tuttavia la maggior parte dei modelli multilingue manca di capacità affidabili di utilizzo degli strumenti nelle lingue diverse dall'inglese. Anche i modelli multilingue all'avanguardia faticano a determinare quando utilizzare gli strumenti e a generare gli output strutturati necessari per il richiamo di funzioni, mostrando spesso confusione linguistica quando sollecitati in lingue con risorse limitate. Questo lavoro presenta una metodologia per adattare i modelli linguistici esistenti al fine di abilitare un utilizzo robusto degli strumenti in qualsiasi lingua target, utilizzando il bulgaro come caso di studio. L'approccio prevede un addestramento continuo della serie di modelli BgGPT (2,6B, 9B, 27B parametri) su un nuovo dataset bilingue di 10.035 esempi di richiamo di funzioni progettato per supportare protocolli standardizzati come MCP (Model Context Protocol). La ricerca introduce TUCAN (Tool-Using Capable Assistant Navigator), che raggiunge un miglioramento fino al 28,75% nell'accuratezza del richiamo di funzioni rispetto ai modelli base, preservando al contempo la comprensione linguistica fondamentale, come verificato su benchmark bulgari consolidati. Oltre ai guadagni in termini di accuratezza, i modelli TUCAN dimostrano una formattazione delle risposte pronta per la produzione con richiami di funzioni puliti e analizzabili, in contrasto con gli output verbosi e incoerenti dei modelli base. I modelli, il framework di valutazione e il dataset vengono rilasciati per consentire la replicazione per altre lingue. Questo lavoro dimostra un approccio pratico per estendere le capacità potenziate dagli strumenti oltre i sistemi centrati sull'inglese.

VOCABTRIM: Potatura del Vocabolario per un Decodifica Speculativa Efficiente nei Modelli Linguistici di Grande Dimensione
VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs

Jun 28, 2025

Raghavv Goel, Sudhanshu Agrawal, Mukul Gagrani, Junyoung Park, Yifan Zao, He Zhang, Tian Liu, Yiping Yang, Xin Yuan, Jiuyan Lu, Chris Lott, Mingu Lee

In questo articolo, introduciamo una semplice tecnica priva di addestramento per migliorare le prestazioni dei metodi di decodifica speculativa (SpD) basati su drafter, che incorporano la testa di modellazione del linguaggio (LM head) durante il processo di drafting. La decodifica speculativa basata su drafter sfrutta uno o più modelli linguistici più piccoli, noti come drafter o modelli di draft, per campionare una sequenza o un albero di draft composto da più token, seguiti dalla verifica da parte di un LLM di base, il modello target, che accetta un sottoinsieme come sua generazione valida. Poiché si considera generalmente che la decodifica speculativa richieda una mappatura uno-a-uno tra i vocabolari del modello target e del modello di draft, è stato naturale condividere il vocabolario tra di essi, o persino condividere la LM head come in EAGLE o Medusa. Identifichiamo innanzitutto che questo schema di campionamento dei token di draft contiene intrinsecamente un sovraccarico di inferenza non necessario durante il drafting, specialmente per alcuni LLM target con vocabolari molto ampi. Proponiamo quindi una semplice tecnica, VocabTrim, per mitigare il sovraccarico di drafting e migliorare la velocità di generazione in ambienti vincolati dalla memoria. VocabTrim ricostruisce la LM head del drafter per contenere solo un insieme limitato di token, selezionati tra quelli campionati più frequentemente dal vocabolario del modello target. Sebbene la limitazione del vocabolario durante il drafting degradi leggermente il tasso di accettazione, riduce significativamente la latenza di drafting nei processi vincolati dalla memoria, come spesso accade sui dispositivi edge, risultando in un maggiore speed-up vincolato dalla memoria (MBSU). Mostriamo che il nostro metodo può aumentare lo speed-up vincolato dalla memoria per i modelli Llama-3 su Spec-Bench, in particolare del 16% per Llama-3.2-3B-Instruct.

Tower+: Colmare il Divario tra Generalità e Specializzazione nella Traduzione nei Modelli Linguistici Multilingue
Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs

Jun 20, 2025

Ricardo Rei, Nuno M. Guerreiro, José Pombal, João Alves, Pedro Teixeirinha, Amin Farajian, André F. T. Martins

Il fine-tuning di LLM pre-addestrati si è dimostrato una strategia efficace per raggiungere prestazioni all'avanguardia in compiti specifici come la traduzione automatica. Tuttavia, questo processo di adattamento spesso implica il sacrificio di capacità generali, come il ragionamento conversazionale e il seguire istruzioni, limitando l'utilità del sistema in applicazioni reali che richiedono un mix di competenze. In questo articolo, introduciamo Tower+, una suite di modelli progettati per offrire prestazioni solide sia nella traduzione che nelle capacità multilingue di elaborazione del testo generico. Raggiungiamo una frontiera di Pareto tra specializzazione nella traduzione e capacità multilingue generiche introducendo una nuova ricetta di addestramento che si basa su Tower (Alves et al., 2024), comprendendo pre-addestramento continuo, fine-tuning supervisionato, ottimizzazione delle preferenze e apprendimento per rinforzo con ricompense verificabili. In ogni fase dell'addestramento, generiamo e curiamo attentamente i dati per rafforzare le prestazioni sia nella traduzione che in compiti generici come la generazione di codice, la risoluzione di problemi matematici e il seguire istruzioni generali. Sviluppiamo modelli su più scale: 2B, 9B e 72B. I nostri modelli più piccoli spesso superano LLM generali open-weight e proprietari di dimensioni maggiori (ad esempio, Llama 3.3 70B, GPT-4o). Il nostro modello più grande offre prestazioni di traduzione di livello superiore per lingue ad alta risorsa e risultati eccellenti nelle valutazioni multilingue Arena Hard e in IF-MT, un benchmark che introduciamo per valutare sia la traduzione che il seguire istruzioni. I nostri risultati evidenziano che è possibile rivaleggiare con i modelli di frontiera nelle capacità generali, ottimizzando al contempo per domini aziendali specifici, come la traduzione e la localizzazione.

Diffusione Multipath Modellata su Degradazione per Fotografia con Metasuperficie Regolabile
Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography

Jun 28, 2025

Jianing Zhang, Jiayi Zhu, Feiyu Ji, Xiaokang Yang, Xiaoyun Yuan

Le metalenti offrono un potenziale significativo per l'imaging computazionale ultra-compatto, ma affrontano sfide legate alla complessa degradazione ottica e alle difficoltà di ripristino computazionale. I metodi esistenti si basano tipicamente su una calibrazione ottica precisa o su enormi dataset accoppiati, che non sono banali per i sistemi di imaging nel mondo reale. Inoltre, la mancanza di controllo sul processo di inferenza spesso porta a indesiderati artefatti allucinati. Introduciamo il Degradation-Modeled Multipath Diffusion per la fotografia con metalenti regolabile, sfruttando potenti prior di immagini naturali da modelli pre-addestrati invece di grandi dataset. Il nostro framework utilizza percorsi di prompt positivi, neutri e negativi per bilanciare la generazione di dettagli ad alta frequenza, la fedeltà strutturale e la soppressione della degradazione specifica delle metalenti, insieme a una pseudo-aumentazione dei dati. Un decoder regolabile consente compromessi controllati tra fedeltà e qualità percettiva. Inoltre, un modulo di attenzione consapevole della degradazione spazialmente variabile (SVDA) modella in modo adattivo la complessa degradazione ottica e indotta dal sensore. Infine, progettiamo e costruiamo una MetaCamera su scala millimetrica per la validazione nel mondo reale. I risultati estesi dimostrano che il nostro approccio supera i metodi all'avanguardia, raggiungendo una ricostruzione di immagini ad alta fedeltà e nitidezza. Ulteriori materiali: https://dmdiff.github.io/.

SPIRAL: L'Autogioco su Giochi a Somma Zero Incentiva il Ragionamento attraverso l'Apprendimento per Rinforzo Multi-Agente e Multi-Turno
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

Jun 30, 2025

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques

423