HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

47 papers found

Il passato non è passato: modellamento dinamico delle ricompense potenziato dalla memoria
The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

Apr 13

ByYang Liu, Enxi Wang, Yufei Gao, Weixin Zhang, Bo Wang, Zhiyuan Zeng, Yikai Zhang, Yining Zheng, Xipeng Qiu

136

Nonostante il successo dell'apprendimento per rinforzo per i grandi modelli linguistici, una modalità di fallimento comune è la ridotta diversità del campionamento, in cui la politica genera ripetutamente comportamenti erronei simili. La classica regolarizzazione dell'entropia incoraggia la casualità sotto la politica corrente, ma non scoraggia esplicitamente i modelli di fallimento ricorrenti tra i diversi rollout. Proponiamo MEDS, un framework di modellazione dinamica delle ricompense potenziato dalla memoria, che incorpora segnali comportamentali storici nella progettazione delle ricompense. Memorizzando e sfruttando le rappresentazioni intermedie del modello, catturiamo le caratteristiche dei rollout passati e utilizziamo il clustering basato sulla densità per identificare modelli di errore che si ripetono frequentemente. I rollout assegnati a cluster di errore più prevalenti vengono penalizzati più pesantemente, incoraggiando un'esplorazione più ampia riducendo al contempo gli errori ripetuti. Su cinque dataset e tre modelli di base, MEDS migliora costantemente le prestazioni medie rispetto ai baseline esistenti, ottenendo guadagni fino a 4,13 punti pass@1 e 4,37 punti pass@128. Ulteriori analisi che utilizzano sia annotazioni basate su LLM che metriche di diversità quantitative mostrano che MEDS aumenta la diversità comportamentale durante il campionamento.

QuanBench+: un benchmark unificato multi-framework per la generazione di codice quantistico basata su LLM
QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Mar 25

ByAli Slim, Haydar Hamieh, Jawad Kotaich, Yehya Ghosn, Mahdi Chehimi, Ammar Mohanna, Hasan Abed Al Kader Hammoud, Bernard Ghanem

123

I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati per la generazione di codice, ma la generazione di codice quantistico è ancora valutata principalmente all'interno di singoli framework, rendendo difficile separare il ragionamento quantistico dalla familiarità con il framework. Introduciamo QuanBench+, un benchmark unificato che comprende Qiskit, PennyLane e Cirq, con 42 task allineati che coprono algoritmi quantistici, decomposizione di porte e preparazione degli stati. Valutiamo i modelli con test funzionali eseguibili, riportiamo Pass@1 e Pass@5 e utilizziamo un'accettazione basata sulla divergenza KL per gli output probabilistici. Studiamo inoltre il Pass@1 dopo una riparazione basata sul feedback, in cui un modello può revisionare il codice dopo un errore di runtime o una risposta errata. Tra i framework, i punteggi one-shot più elevati raggiungono il 59,5% in Qiskit, il 54,8% in Cirq e il 42,9% in PennyLane; con la riparazione basata sul feedback, i punteggi migliori salgono rispettivamente all'83,3%, al 76,2% e al 66,7%. Questi risultati mostrano un progresso evidente, ma anche che una generazione affidabile di codice quantistico multi-framework rimane irrisolta e dipende ancora fortemente dalla conoscenza specifica del framework.

Attenzione Sink nei Trasformatori: Un'Analisi su Utilizzo, Interpretazione e Mitigazione
Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

Apr 11

ByZunhai Su, Hengyuan Zhang, Wei Wu, Yifan Zhang, Yaxiu Liu, He Xiao, Qingyao Yang, Yuxuan Sun, Rui Yang, Chao Zhang, Keyu Fan, Weihao Ye, Jing Xiong, Hui Shen, Chaofan Tao, Taiqiang Wu, Zhongwei Wan, Yulei Qian, Yuchen Xie, Ngai Wong

In qualità di architettura fondante del machine learning moderno, i Transformer hanno trainato progressi straordinari in svariati ambiti dell’IA. Nonostante il loro impatto rivoluzionario, una sfida persistente in varie implementazioni dei Transformer è il fenomeno dell’Attention Sink (AS), in cui una quantità sproporzionata di attenzione si concentra su un piccolo sottoinsieme di token specifici ma non informativi. L’AS complica l’interpretabilità, influenzando significativamente le dinamiche di addestramento e inferenza, e aggrava problemi come le allucinazioni. Negli ultimi anni, una cospicua mole di ricerca è stata dedicata a comprendere e sfruttare l’AS. Tuttavia, manca ancora una rassegna completa che consolidi sistematicamente gli studi correlati all’AS e offra linee guida per i progressi futuri. Per colmare questa lacuna, presentiamo la prima survey sull’AS, strutturata attorno a tre dimensioni chiave che definiscono lo scenario di ricerca attuale: Utilizzo Fondamentale, Interpretazione Meccanicistica e Mitigazione Strategica. Il nostro lavoro fornisce un contributo cruciale chiarendo i concetti chiave e guidando i ricercatori attraverso l’evoluzione e le tendenze del campo. Auspichiamo che questa survey diventi una risorsa di riferimento, consentendo a ricercatori e professionisti di gestire efficacemente l’AS nell’attuale paradigma dei Transformer, ispirando al contempo avanzamenti innovativi per la prossima generazione di Transformer. L’elenco dei paper di questo lavoro è disponibile all’indirizzo https://github.com/ZunhaiSu/Awesome-Attention-Sink.

OmniShow: Unificazione di Condizioni Multimodali per la Generazione di Video di Interazione Uomo-Oggetto
OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

Apr 13

ByDonghao Zhou, Guisheng Liu, Hao Yang, Jiatong Li, Jingyu Lin, Xiaohu Huang, Yichen Liu, Xin Gao, Cunjian Chen, Shilei Wen, Chi-Wing Fu, Pheng-Ann Heng

In questo lavoro, studiamo la Generazione di Video di Interazione Uomo-Oggetto (HOIVG), che mira a sintetizzare video di alta qualità di interazioni uomo-oggetto condizionati da testo, immagini di riferimento, audio e postura. Questo compito ha un notevole valore pratico per l'automazione della creazione di contenuti in applicazioni reali, come dimostrazioni di e-commerce, produzione di video brevi e intrattenimento interattivo. Tuttavia, gli approcci esistenti non riescono a soddisfare tutte queste condizioni necessarie. Presentiamo OmniShow, un framework end-to-end progettato per questo compito pratico ma impegnativo, in grado di armonizzare condizioni multimodali e fornire prestazioni di livello industriale. Per superare il compromesso tra controllabilità e qualità, introduciamo il Condizionamento Unificato per Canale per un'efficiente iniezione di immagini e postura, e l'Attenzione con Cancello al Contesto Locale per garantire una precisa sincronizzazione audio-video. Per affrontare efficacemente la scarsità di dati, sviluppiamo una strategia di Addestramento Disaccoppiato-Poi-Congiunto che sfrutta un processo di training multi-stadio con fusione di modelli per utilizzare efficientemente dataset eterogenei di sotto-compiti. Inoltre, per colmare il divario valutativo in questo campo, istituiamo HOIVG-Bench, un benchmark dedicato e completo per HOIVG. Esperimenti estensivi dimostrano che OmniShow raggiunge prestazioni complessive all'avanguardia in varie configurazioni di condizionamento multimodale, stabilendo uno standard solido per il nascente compito HOIVG.

Strips come Token: Generazione di Mesh per Artisti con Segmentazione UV Nativa
Strips as Tokens: Artist Mesh Generation with Native UV Segmentation

Apr 10

ByRui Xu, Dafei Qin, Kaichun Qiao, Qiujie Dong, Huaijin Pi, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu, Wenping Wang, Taku Komura

I recenti progressi nei trasformatori autoregressivi hanno dimostrato un notevole potenziale nella generazione di mesh di qualità artistica. Tuttavia, le strategie di ordinamento dei token impiegate dai metodi esistenti generalmente non soddisfano gli standard professionali degli artisti, dove l'ordinamento basato sulle coordinate produce sequenze inefficientemente lunghe, e le euristiche basate su patch interrompono il flusso continuo dei bordi e la regolarità strutturale essenziali per una modellazione di alta qualità. Per affrontare queste limitazioni, proponiamo Strips as Tokens (SATO), un nuovo framework con una strategia di ordinamento dei token ispirata alle strip triangolari. Costruendo la sequenza come una catena connessa di facce che codifica esplicitamente i contorni UV, il nostro metodo preserva naturalmente il flusso organizzato dei bordi e il layout semantico caratteristici delle mesh create dagli artisti. Un vantaggio chiave di questa formulazione è la sua rappresentazione unificata, che consente alla stessa sequenza di token di essere decodificata in una mesh triangolare o quadrilatera. Questa flessibilità facilita l'addestramento congiunto su entrambi i tipi di dati: i dati triangolari su larga scala forniscono prior strutturali fondamentali, mentre i dati quad di alta qualità migliorano la regolarità geometrica degli output. Esperimenti estesi dimostrano che SATO supera costantemente i metodi precedenti in termini di qualità geometrica, coerenza strutturale e segmentazione UV.

Uni-ViGU: Verso un Sistema Unificato per la Generazione e Comprensione Video tramite un Generatore di Video Basato su Diffusione
Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Apr 9

ByLuozheng Qin, Jia Gong, Qian Qiao, Tianjiao Li, Li Xu, Haoyu Pan, Chao Qu, Zhiyu Tan, Hao Li

I modelli multimodali unificati che integrano comprensione e generazione visiva affrontano una sfida fondamentale: la generazione visiva comporta costi computazionali sostanzialmente più elevati rispetto alla comprensione, in particolare per il video. Questo squilibrio ci motiva a invertire il paradigma convenzionale: piuttosto che estendere i modelli linguistici multimodali orientati alla comprensione per supportare la generazione, proponiamo Uni-ViGU, un framework che unifica la generazione e la comprensione video estendendo un generatore video come base. Introduciamo un metodo di flusso unificato che esegue il *flow matching* continuo per il video e quello discreto per il testo all'interno di un unico processo, abilitando una generazione multimodale coerente. Proponiamo ulteriormente un framework basato su MoE (*Mixture of Experts*) guidato dalla modalità, che potenzia i blocchi Transformer con layer leggeri per la generazione testuale preservando al contempo i priori generativi. Per riutilizzare la conoscenza generativa per la comprensione, progettiamo un meccanismo di addestramento bidirezionale con due stadi: il *Knowledge Recall* ricostruisce i prompt di input per sfruttare le corrispondenze testo-video apprese, mentre il *Capability Refinement* effettua un fine-tuning su didascalie dettagliate per stabilire rappresentazioni condivise discriminative. Gli esperimenti dimostrano che Uni-ViGU raggiunge prestazioni competitive sia nella generazione che nella comprensione video, validando le architetture incentrate sulla generazione come percorso scalabile verso un'intelligenza multimodale unificata. Pagina del Progetto e Codice: https://fr0zencrane.github.io/uni-vigu-page/.

Audio-Omni: Estendere la comprensione multimodale verso una generazione e un'editing audio versatile
Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Apr 12

ByZeyue Tian, Binxin Yang, Zhaoyang Liu, Jiexuan Zhang, Ruibin Yuan, Hubery Yin, Qifeng Chen, Chen Li, Jing Lv, Wei Xue, Yike Guo

I recenti progressi nei modelli multimodali hanno stimolato rapidi avanzamenti nella comprensione, generazione e modifica dell'audio. Tuttavia, queste capacità sono tipicamente affrontate da modelli specializzati, lasciando lo sviluppo di un framework veramente unificato in grado di integrare perfettamente tutti e tre i compiti ancora poco esplorato. Sebbene alcuni lavori pionieristici abbiano esplorato l'unificazione della comprensione e della generazione audio, essi rimangono spesso confinati a domini specifici. Per affrontare questa lacuna, introduciamo Audio-Omni, il primo framework end-to-end che unifica generazione e modifica attraverso i domini generali del suono, della musica e della voce, con integrate capacità di comprensione multimodale. La nostra architettura sinergizza un Modello Linguistico Multimodale Large congelato per il ragionamento di alto livello con un Diffusion Transformer addestrabile per la sintesi ad alta fedeltà. Per superare la critica carenza di dati nella modifica audio, abbiamo costruito AudioEdit, un nuovo dataset su larga scala comprendente oltre un milione di coppie di editing meticolosamente curate. Esperimenti estensivi dimostrano che Audio-Omni raggiunge prestazioni allo stato dell'arte su una serie di benchmark, superando gli approcci unificati precedenti e ottenendo prestazioni pari o superiori a modelli specialistici esperti. Oltre alle sue capacità fondamentali, Audio-Omni mostra notevoli capacità ereditate, tra cui la generazione con ragionamento arricchito da conoscenza, la generazione in-context e il controllo cross-linguale zero-shot per la generazione audio, evidenziando una direzione promettente verso un'intelligenza audio generativa universale. Il codice, il modello e il dataset saranno rilasciati pubblicamente su https://zeyuet.github.io/Audio-Omni.

CodeTracer: Verso Stati Agente Tracciabili
CodeTracer: Towards Traceable Agent States

Apr 13

ByHan Li, Yifan Yao, Letian Zhu, Rili Feng, Hongyi Ye, Jiaming Wang, Yancheng He, Pengyu Zou, Lehan Zhang, Xinping Lei, Haoyang Huang, Ken Deng, Ming Sun, Zhaoxiang Zhang, He Ye, Jiaheng Liu

Gli agenti di codice stanno progredendo rapidamente, ma il debug degli stessi sta diventando sempre più difficile. Poiché i framework orchestrano chiamate parallele a strumenti e flussi di lavoro multi-stadio su compiti complessi, le transizioni di stato dell'agente e la propagazione degli errori diventano difficili da osservare. In queste esecuzioni, un passo falso iniziale può intrappolare l'agente in loop improduttivi o persino degenerare in errori fondamentali, formando catene di errori nascoste che rendono difficile capire quando l'agente devia dal percorso e perché. Le attuali analisi di tracciamento degli agenti si concentrano su interazioni semplici o si basano su ispezioni manuali su piccola scala, limitandone la scalabilità e l'utilità per flussi di lavoro di codifica reali. Presentiamo CodeTracer, un'architettura di tracciamento che analizza artefatti di esecuzione eterogenei tramite estrattori evolutivi, ricostruisce la cronologia completa delle transizioni di stato come un albero di traccia gerarchico con memoria persistente ed esegue la localizzazione dell'insorgenza di fallimenti per identificare l'origine del fallimento e la sua catena discendente. Per abilitare una valutazione sistematica, costruiamo CodeTraceBench da una vasta raccolta di traiettorie eseguite generate da quattro framework di agenti di codice ampiamente utilizzati su vari compiti di programmazione (ad esempio, correzione di bug, refactoring e interazione con terminale), con supervisione a livello di stadio e di passo per la localizzazione dei fallimenti. Gli esperimenti mostrano che CodeTracer supera sostanzialmente il prompting diretto e i baseline leggeri, e che la riproduzione dei suoi segnali diagnostici recupera costantemente le esecuzioni originariamente fallite con budget equivalenti. Il nostro codice e i nostri dati sono pubblicamente disponibili.

Pseudo-Unificazione: L'Analisi dell'Entropia Rivela Modelli Informativi Divergenti nei Modelli Multimodali Unificati
Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Apr 13

BySonglin Yang, Xianghao Kong, Anyi Rao

I modelli multimodali unificati (UMM) sono stati concepiti per combinare la capacità di ragionamento dei grandi modelli linguistici (LLM) con la capacità generativa dei modelli visivi. Tuttavia, nella pratica, questa sinergia rimane elusiva: gli UMM non riescono a trasferire un ragionamento simile a quello degli LLM nella sintesi di immagini ed esibiscono comportamenti di risposta divergenti. Definiamo questo fenomeno *pseudo-unificazione*. Diagnosticarne le cause interne è importante, ma i metodi di analisi esistenti o mancano di insight interno al modello o ignorano le dipendenze tra prompt e risposta. Per affrontare queste limitazioni, proponiamo un framework di analisi di tipo information-theoretic che analizza congiuntamente come gli UMM codificano gli input e generano gli output. Applicato a dieci UMM rappresentativi, il nostro framework rivela che la pseudo-unificazione origina da una duplice divergenza: (i) *Codifica Modo-Asimmetrica*, dove la visione e il linguaggio seguono traiettorie di entropia diverse, e (ii) *Risposta a Pattern Separati*, dove la generazione di testo mostra un'elevata entropia creativa mentre la sintesi di immagini impone una fedeltà a bassa entropia. Solo i modelli che unificano entrambi gli aspetti (ad esempio, tramite predizione contestuale) raggiungono un'unificazione più genuina, abilitando una generazione testo-immagine basata sul ragionamento più robusta anche con un numero inferiore di parametri. Il nostro lavoro fornisce la prima analisi interna al modello dell'unificazione, dimostrando che una reale sinergia multimodale richiede coerenza nel flusso di informazioni, non solo parametri condivisi.

CocoaBench: Valutazione di Agenti Digitali Unificati in Ambiente Reale
CocoaBench: Evaluating Unified Digital Agents in the Wild

Apr 13

ByCocoaBench Team, Shibo Hao, Zhining Zhang, Zhiqi Liang, Tianyang Liu, Yuheng Zha, Qiyue Gao, Jixuan Chen, Zilong Wang, Zhoujun Cheng, Haoxiang Zhang, Junli Wang, Hexi Jin, Boyuan Zheng, Kun Zhou, Yu Wang, Feng Yao, Licheng Liu, Yijiang Li, Zhifei Li, Zhengtao Han, Pracha Promthaw, Tommaso Cerruti, Xiaohan Fu, Ziqiao Ma, Jingbo Shang, Lianhui Qin, Julian McAuley, Eric P. Xing, Zhengzhong Liu, Rupesh Kumar Srivastava, Zhiting Hu

Gli agenti LLM dimostrano oggi prestazioni solide nell'ingegneria del software, nella ricerca approfondita, nell'automazione di interfacce grafiche e in varie altre applicazioni, mentre i recenti modelli e architetture di agenti integrano sempre più queste capacità in sistemi unificati. Tuttavia, la maggior parte delle valutazioni continua a testare queste capacità in modo isolato, lasciando un vuoto per casi d'uso più diversificati che richiedono agli agenti di combinare diverse abilità. Presentiamo CocoaBench, un benchmark per agenti digitali unificati, costruito a partire da compiti umani a lungo orizzonte che richiedono una composizione flessibile di visione, ricerca e codifica. I compiti sono specificati solo da un'istruzione e da una funzione di valutazione automatica sull'output finale, consentendo una valutazione affidabile e scalabile across diverse infrastrutture di agenti. Presentiamo anche CocoaAgent, un'architettura condivisa e leggera per confronti controllati tra diversi modelli di base. Gli esperimenti mostrano che gli agenti attuali sono ancora lontani dall'essere affidabili su CocoaBench, con il miglior sistema valutato che raggiunge solo il 45,1% di tasso di successo. La nostra analisi indica inoltre un ampio margine di miglioramento nel ragionamento e nella pianificazione, nell'uso degli strumenti e nella loro esecuzione, e nella comprensione visiva.

Audio Flamingo Next: Modelli Audio-Linguistici Aperti di Nuova Generazione per Voce, Suono e Musica
Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Apr 13

BySreyan Ghosh, Arushi Goel, Kaousheik Jayakumar, Lasha Koroshinadze, Nishit Anand, Zhifeng Kong, Siddharth Gururani, Sang-gil Lee, Jaehyeon Kim, Aya Aljafari, Chao-Han Huck Yang, Sungwon Kim, Ramani Duraiswami, Dinesh Manocha, Mohammad Shoeybi, Bryan Catanzaro, Ming-Yu Liu, Wei Ping

Presentiamo Audio Flamingo Next (AF-Next), la nuova generazione e il modello linguistico-audio di grandi dimensioni più capace della serie Audio Flamingo, progettato per far progredire la comprensione e il ragionamento su parlato, suoni ambientali e musica. Risppetto ad Audio Flamingo 3, AF-Next introduce: (i) un modello linguistico-audio base più potente che migliora significativamente l'accuratezza in varie attività di comprensione audio; (ii) strategie scalabili per costruire dati su larga scala per la comprensione e il ragionamento audio, andando oltre i benchmark accademici esistenti; (iii) il supporto per input audio lunghi e complessi fino a 30 minuti; e (iv) il Temporal Audio Chain-of-Thought, un nuovo paradigma di ragionamento che ancora esplicitamente i passaggi di ragionamento intermedi a timestamp nell'audio lungo, consentendo un allineamento temporale granulare e una migliore interpretabilità. Per abilitare queste capacità, abbiamo prima condotto un'analisi sistematica di Audio Flamingo 3 per identificare le lacune chiave nella comprensione e nel ragionamento audio. Successivamente, abbiamo curato e scalato nuovi dataset su larga scala, per un totale di oltre 1 milione di ore, per affrontare queste limitazioni ed espandere i dataset esistenti AudioSkills-XL, LongAudio-XL, AF-Think e AF-Chat. AF-Next è stato addestrato utilizzando una strategia basata su un curriculum che abbraccia stadi di pre-addestramento, mid-addestramento e post-addestramento. Esperimenti estensivi su 20 benchmark di comprensione e ragionamento audio, inclusi compiti impegnativi con audio lungo, mostrano che AF-Next supera modelli open di dimensioni simili con ampi margini e rimane altamente competitivo, a volte superando, modelli open-weight e closed molto più grandi. Oltre alle prestazioni sui benchmark, AF-Next mostra una forte utilità nel mondo reale e si trasferisce bene a compiti non visti, evidenziando la sua robustezza e capacità di generalizzazione. Oltre a tutti i dati, il codice e i metodi, rendiamo open-source 3 varianti di AF-Next, tra cui AF-Next-Instruct, AF-Next-Think e AF-Next-Captioner.

SCOPE: Miglioramento della Distillazione On-Policy con Calibrazione del Segnale e Ponderazione Adattiva a Doppio Percorso
SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Apr 12

ByBinbin Zheng, Xing Ma, Yiheng Liang, Jingqing Ruan, Xiaoliang Fu, Kepeng Lin, Benchang Zhu, Ke Zeng, Xunliang Cai

L'apprendimento per rinforzo on-policy è diventato il paradigma dominante per il ragionamento sull'allineamento nei grandi modelli linguistici, tuttavia le sue ricompense sparse, a livello di risultato, rendono notoriamente difficile l'attribuzione del credito a livello di token. La Distillazione On-Policy (OPD) mitiga questo problema introducendo una supervisione densa di KL a livello di token da un modello insegnante, ma tipicamente applica questa supervisione uniformemente su tutti i rollout, ignorando le differenze fondamentali nella qualità del segnale. Proponiamo Signal-Calibrated On-Policy Distillation Enhancement (SCOPE), un framework di addestramento adattivo a doppio percorso che instrada i rollout on-policy in base alla correttezza in due percorsi di supervisione complementari. Per le traiettorie errate, SCOPE esegue una distillazione KL pesata in base alla perplexity dell'insegnante, per dare priorità agli esempi in cui quest'ultimo dimostra una genuina capacità correttiva, riducendo al contempo il peso delle indicazioni inaffidabili. Per le traiettorie corrette, applica una Massima Verosimiglianza (MLE) pesata in base alla perplexity dello studente, per concentrare il rinforzo sugli esempi a bassa confidenza al confine delle capacità, piuttosto che rinforzare eccessivamente quelli già padroneggiati. Entrambi i percorsi impiegano una normalizzazione a livello di gruppo per calibrare adattivamente le distribuzioni dei pesi, tenendo conto della variazione intrinseca della difficoltà tra i prompt. Esperimenti estesi su sei benchmark di ragionamento mostrano che SCOPE ottiene un miglioramento relativo medio dell'11,42% in Avg@32 e del 7,30% in Pass@32 rispetto a baseline competitive, dimostrando la sua efficacia consistente.

Modelli Linguistici di Diffusione Introspettiva
Introspective Diffusion Language Models

Apr 13

ByYifan Yu, Yuqing Jian, Junxiong Wang, Zhongzhu Zhou, Donglin Zhuang, Xinyu Fang, Sri Yanamandra, Xiaoxia Wu, Qingyang Wu, Shuaiwen Leon Song, Tri Dao, Ben Athiwaratkun, James Zou, Fan Lai, Chenfeng Xu

I modelli linguistici di diffusione promettono una generazione parallela, ma rimangono ancora inferiori ai modelli autoregressivi (AR) in termini di qualità. Attribuiamo questo divario a un fallimento della coerenza introspettiva: i modelli AR sono coerenti con le proprie generazioni, mentre i DLM spesso non lo sono. Definiamo il tasso di accettazione introspettiva, che misura se un modello accetta i propri token generati in precedenza. Ciò rivela perché l'addestramento AR abbia un vantaggio strutturale: il masking causale e lo shifting dei logit impongono implicitamente la coerenza introspettiva. Sulla base di questa osservazione, introduciamo l'Introspective Diffusion Language Model (I-DLM), un paradigma che mantiene il decoding parallelo di tipo diffusion mentre eredita la coerenza introspettiva dell'addestramento AR. I-DLM utilizza un nuovo algoritmo di decoding a passi introspettivo (ISD), che consente al modello di verificare i token generati in precedenza mentre ne avanza di nuovi nello stesso passaggio in avanti. Dal punto di vista dei sistemi, costruiamo il motore di inferenza di I-DLM su ottimizzazioni ereditate dall'AR e lo personalizziamo ulteriormente con uno scheduler a batch stazionario. Per quanto a nostra conoscenza, I-DLM è il primo DLM a eguagliare la qualità della sua controparte AR della stessa scala, superando al contempo i DLM precedenti sia nella qualità del modello che nell'efficienza pratica di servizio su 15 benchmark. Raggiunge 69,6 su AIME-24 e 45,7 su LiveCodeBench-v6, superando rispettivamente LLaMA-2.1-mini (16B) di oltre 26 e 15 punti. Oltre alla qualità, I-DLM è progettato per la crescente domanda di servizi con elevata concorrenza, offrendo un throughput circa 3 volte superiore rispetto ai precedenti DLM all'avanguardia.

Tracciare le Radici: Un Framework Multi-Agente per Scoprire la Linea Dati nei LLM Post-Addestrati
Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Apr 12

ByYu Li, Xiaoran Shang, Qizhi Pei, Yun Zhu, Xin Gao, Honglin Lin, Zhanping Zhong, Zhuoshi Pan, Zheng Liu, Xiaoyang Wang, Conghui He, Dahua Lin, Feng Zhao, Lijun Wu

I dati post-addestramento svolgono un ruolo cruciale nel determinare le capacità dei Large Language Model (LLM), eppure i dataset sono spesso trattati come artefatti isolati, trascurando le connessioni sistemiche che ne sottendono l'evoluzione. Per districare queste relazioni complesse, introduciamo il concetto di lignaggio dei dati nell'ecosistema degli LLM e proponiamo un framework multi-agente automatizzato per ricostruire il grafo evolutivo dello sviluppo dei dataset. Attraverso un'analisi su larga scala dei lignaggi, caratterizziamo pattern strutturali dominio-specifici, come l'affinamento verticale nei dataset orientati alla matematica e l'aggregazione orizzontale nei corpora di dominio generale. Inoltre, individuiamo diffuse problematiche sistemiche, inclusa la ridondanza strutturale indotta da intersezioni implicite tra dataset e la propagazione della contaminazione dei benchmark lungo i percorsi di lignaggio. Per dimostrare il valore pratico dell'analisi del lignaggio nella costruzione di dati, sfruttiamo il grafo di lignaggio ricostruito per creare un dataset orientato alla diversità e consapevole del lignaggio. Ancorando il campionamento delle istruzioni alle sorgenti root a monte, questo approccio mitiga l'omogeneizzazione a valle e la ridondanza nascosta, producendo un corpus post-addestramento più diversificato. Sottolineiamo inoltre come l'analisi centrata sul lignaggio rappresenti un'alternativa topologica efficiente e robusta al confronto dei dataset a livello di campione per ecosistemi di dati su larga scala. Basando la costruzione dei dati su strutture di lignaggio esplicite, il nostro lavoro avanza la curatela dei dati post-addestramento verso un paradigma più sistematico e controllabile.

Addestramento Efficiente di LLM con RL tramite Replay delle Esperienze
Efficient RL Training for LLMs with Experience Replay

Apr 9

ByCharles Arnal, Vivien Cabannes, Taco Cohen, Julia Kempe, Remi Munos

Mentre l'Experience Replay - la pratica di memorizzare le traiettorie e riutilizzarle più volte durante l'addestramento - è una tecnica fondamentale nell'RL generale, essa rimane in gran parte inesplorata nel post-addestramento degli LLM a causa della convinzione prevalente che dati freschi e on-policy siano essenziali per ottenere prestazioni elevate. In questo lavoro, mettiamo in discussione questo assunto. Presentiamo uno studio sistematico dei replay buffer per il post-addestramento degli LLM, formalizzando la progettazione ottimale come un compromesso tra la varianza indotta dalla obsolescenza dei dati, la diversità dei campioni e l'elevato costo computazionale della generazione. Dimostriamo che un campionamento rigorosamente on-policy è subottimale quando la generazione è costosa. Empiricamente, mostriamo che un replay buffer ben progettato può ridurre drasticamente il costo computazionale di inferenza senza degradare - e in alcuni casi persino migliorando - le prestazioni finali del modello, preservando al contempo l'entropia della politica.

Risoluzione delle Olimpiadi della Fisica tramite Apprendimento per Rinforzo su Simulatori Fisici
Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Apr 13

ByMihir Prabhudesai, Aryan Satpathy, Yangmin Li, Zheyang Qin, Nikash Bhardwaj, Amir Zadeh, Chuan Li, Katerina Fragkiadaki, Deepak Pathak

Abbiamo assistito a notevoli progressi nelle capacità di ragionamento dei LLM con l'avvento di DeepSeek-R1. Tuttavia, gran parte di questo progresso è stato alimentato dall'abbondanza di coppie domanda-risposta (QA) disponibili su Internet, che rappresentano un collo di bottiglia significativo per il futuro, poiché tali dati sono limitati in scala e concentrati principalmente in domini come la matematica. Al contrario, altre scienze come la fisica mancano di dataset QA su larga scala per addestrare efficacemente modelli capaci di ragionamento. In questo lavoro, dimostriamo che i simulatori fisici possono fungere da potente fonte alternativa di supervisione per l'addestramento di LLM per il ragionamento fisico. Generiamo scene casuali nei motori fisici, creiamo coppie domanda-risposta sintetiche dalle interazioni simulate e addestriamo i LLM utilizzando l'apprendimento per rinforzo su questi dati sintetici. I nostri modelli mostrano un trasferimento zero-shot da simulazione a realtà verso benchmark fisici del mondo reale: ad esempio, l'addestramento esclusivamente su dati sintetici simulati migliora le prestazioni sui problemi delle Olimpiadi Internazionali di Fisica (IPhO) di 5-10 punti percentuali su diverse dimensioni del modello. Questi risultati dimostrano che i simulatori fisici possono fungere da generatori di dati scalabili, consentendo ai LLM di acquisire abilità di ragionamento fisico profondo oltre i limiti dei dati QA su scala internet. Codice disponibile all'indirizzo: https://sim2reason.github.io/.

Relè di Prompt: Controllo Temporale al Momento dell'Inferenza per la Generazione di Video con Eventi Multipli
Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

Apr 11

ByGordon Chen, Ziqi Huang, Ziwei Liu

I modelli di diffusione video hanno ottenuto progressi notevoli nella generazione di video di alta qualità. Tuttavia, questi modelli faticano a rappresentare la successione temporale di eventi multipli nei video del mondo reale e mancano di meccanismi espliciti per controllare quando compaiono i concetti semantici, quanto a lungo persistono e l'ordine in cui si verificano eventi multipli. Questo controllo è particolarmente importante per la sintesi video di livello cinematografico, dove una narrazione coerente dipende dalla temporizzazione precisa, dalla durata e dalle transizioni tra gli eventi. Quando si utilizza un singolo prompt in stile paragrafo per descrivere una sequenza di eventi complessi, i modelli spesso presentano un entanglement semantico, in cui concetti destinati a momenti diversi nel video si mescolano tra loro, risultando in un allineamento testo-video scadente. Per affrontare queste limitazioni, proponiamo Prompt Relay, un metodo plug-and-play, utilizzabile al momento dell'inferenza, per abilitare un controllo temporale granulare nella generazione di video multi-evento, senza richiedere modifiche architetturali né sovraccarichi computazionali aggiuntivi. Prompt Relay introduce una penalizzazione nel meccanismo di cross-attention, in modo che ogni segmento temporale si concentri solo sul prompt a esso assegnato, consentendo al modello di rappresentare un concetto semantico alla volta e migliorando così l'allineamento temporale al prompt, riducendo l'interferenza semantica e migliorando la qualità visiva.

Aggregazione Agente per il Ridimensionamento Parallelo di Attività Agenti a Lungo Orizzonte
Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Apr 13

ByYoonsang Lee, Howard Yen, Xi Ye, Danqi Chen

Studiamo lo scaling parallelo al momento del test per compiti agentici a lungo orizzonte, come la ricerca agentica e la ricerca approfondita, in cui vengono generate multiple rollout in parallelo e aggregate in una risposta finale. Sebbene tale scaling si sia rivelato efficace per il ragionamento a catena di pensiero, i compiti agentici pongono sfide uniche: le traiettorie sono lunghe, multi-turno e potenziate da strumenti, e gli output sono spesso aperti. Aggregare solo le risposte finali scarta informazioni preziose dalle traiettorie, mentre concatenare tutte le traiettorie supera la finestra contestuale del modello. Per affrontare ciò, proponiamo AggAgent, un agente di aggregazione che tratta le traiettorie parallele come un ambiente. Lo dotiamo di strumenti leggeri per ispezionare le soluzioni candidate e cercare attraverso le traiettorie, consentendogli di navigare e sintetizzare le informazioni on-demand. Su sei benchmark e tre famiglie di modelli (GLM-4.7, Qwen3.5, MiniMax-M2.5), AggAgent supera tutti i metodi di aggregazione esistenti—fino al 5,3% assoluto in media e al 10,3% su due compiti di ricerca approfondita—aggiungendo un sovraccarico minimo, poiché il costo di aggregazione rimane limitato a una singola rollout agentica. I nostri risultati stabiliscono l'aggregazione agentica come un approccio efficace e conveniente allo scaling parallelo al momento del test.

TRACE: Addestramento Agente Orientato alle Capacità
TRACE: Capability-Targeted Agentic Training

Apr 7

ByHangoo Kang, Tarun Suresh, Jon Saad-Falcon, Azalia Mirhoseini

I Modelli Linguistici di Grande Dimensione (LLM) impiegati in ambienti agentici devono esercitare molteplici capacità attraverso diverse istanze di compito, dove una capacità consiste nell'eseguire una o più azioni in una traiettoria che sono necessarie per risolvere con successo un sottoinsieme di compiti nell'ambiente. Molti approcci esistenti si basano su dati di addestramento sintetici non mirati ai deficit effettivi di capacità del modello nell'ambiente target, oppure addestrano direttamente sull'ambiente target, dove il modello deve apprendere implicitamente le capacità attraverso i compiti. Introduciamo TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), un sistema end-to-end per l'auto-miglioramento specifico dell'ambiente per agenti. TRACE confronta le traiettorie di successo e di fallimento per identificare automaticamente le capacità carenti, sintetizza un ambiente di addestramento mirato per ciascuna che premia l'esercizio della capacità, e addestra un adattatore LoRA tramite RL su ciascun ambiente sintetico, instradando verso l'adattatore rilevante durante l'inferenza. Empiricamente, TRACE generalizza attraverso diversi ambienti, migliorando l'agente base di +14,1 punti su τ²-bench (servizio clienti) e di +7 punteggi perfetti su ToolSandbox (uso di strumenti), superando la baseline più forte rispettivamente di +7,4 punti e +4 punteggi perfetti. A parità di numero di rollout, TRACE scala in modo più efficiente delle baseline, superando GRPO e GEPA di +9,2 e +7,4 punti su τ²-bench.

Dal Ragionamento all’Agenticità: Assegnazione del Credito nell’Apprendimento per Rinforzo per i Grandi Modelli Linguistici
From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

Apr 13

ByChenchen Zhang

L'apprendimento per rinforzo (RL) per i grandi modelli linguistici (LLM) fa sempre più affidamento su ricompense sparse a livello di risultato, ma determinare quali azioni all'interno di una lunga traiettoria abbiano causato il risultato rimane difficile. Questo problema di assegnazione del credito (CA) si manifesta in due regimi: il RL ragionativo, in cui il credito deve essere distribuito tra token e passaggi all'interno di una singola generazione a catena di pensiero (500-30K+ token); e il RL agenziale, in cui l'interazione multi-turno con l'ambiente introduce transizioni stocastiche, osservabilità parziale e orizzonti di 100+ turni (100K-1M token), rendendo il credito a livello di episodio sempre meno informativo. Esaminiamo 47 metodi di CA (41 principali, 6 abilitatori adiacenti) pubblicati tra il 2024 e l'inizio del 2026, organizzandoli in una tassonomia bidimensionale per granularità di assegnazione (token, segmento, passaggio, turno, multi-agente) e metodologia (Monte Carlo, differenza temporale, basato su modello, teoria dei giochi, teoria dell'informazione). Oltre al survey stesso, contribuiamo con tre risorse riutilizzabili: (1) un inventario strutturato e machine-readable degli articoli con etichette tassonomiche, famiglie di baseline e livelli di evidenza; (2) una checklist di reporting per i futuri articoli su CA, validata sulla letteratura revisionata per identificare lacune metodologiche sistematiche; e (3) una specifica di protocollo di benchmark con famiglie di task, requisiti di metadati e task di biforcazione controllata, accompagnata da un albero decisionale per la selezione del metodo. La nostra sintesi suggerisce che il passaggio dal RL ragionativo a quello agenziale complica e rimodella il panorama dell'assegnazione del credito: il CA per il ragionamento si sta consolidando attorno a modelli di ricompensa del processo e al confronto di gruppo senza critico, mentre il CA agenziale sta guidando approcci genuinamente nuovi – analisi controfattuale hindsight, critici asimmetrici privilegiati e riformulazioni MDP a livello di turno – che non hanno precedenti diretti nel RL ragionativo.

Personalizzazione della Privacy dell'Agente GUI Mobile con Ottimizzazione delle Preferenze Indotta dalla Traiettoria
Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Apr 13

ByZhixin Lin, Jungang Li, Dongliang Xu, Shidong Pan, Yibo Shi, Yuchi Liu, Yuecong Min, Yue Yao

Gli agenti GUI mobili alimentati da Modelli Linguistici Multimodali di Grande Dimensioni (MLLM) possono eseguire compiti complessi su dispositivi mobili. Nonostante questi progressi, la maggior parte dei sistemi esistenti ottimizza ancora il successo o l'efficienza del compito, trascurando la personalizzazione della privacy degli utenti. In questo articolo, studiamo il problema spesso trascurato della personalizzazione degli agenti. Osserviamo che la personalizzazione può indurre un'eterogeneità strutturale sistematica nelle traiettorie di esecuzione. Ad esempio, gli utenti orientati alla privacy spesso preferiscono azioni protettive, come rifiutare le autorizzazioni, effettuare il logout e minimizzare l'esposizione, portando a traiettorie di esecuzione logicamente diverse da quelle degli utenti orientati all'utilità. Tali traiettorie a lunghezza variabile e strutturalmente diverse rendono l'ottimizzazione delle preferenze standard instabile e meno informativa. Per affrontare questo problema, proponiamo la Trajectory Induced Preference Optimization (TIPO), che utilizza una ponderazione dell'intensità delle preferenze per enfatizzare i passaggi chiave relativi alla privacy e un gate di riempimento (padding gating) per sopprimere il rumore di allineamento. I risultati sul nostro Privacy Preference Dataset mostrano che TIPO migliora l'allineamento e la distinzione della personalità, preservando al contempo una forte eseguibilità del compito, raggiungendo il 65,60% di SR, il 46,22% di Compliance e il 66,67% di PD, superando i metodi di ottimizzazione esistenti in varie attività GUI. Il codice e il dataset saranno rilasciati pubblicamente su https://github.com/Zhixin-L/TIPO.

SPEED-Bench: Un Benchmark Unificato e Diversificato per il Decodifica Speculativa
SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Feb 10

ByTalor Abramovich, Maor Ashkenazi, Carl, Putterman, Benjamin Chislett, Tiyasa Mitra, Bita Darvish Rouhani, Ran Zilberstein, Yonatan Geifman

Lo Speculative Decoding (SD) è emerso come una tecnica fondamentale per accelerare l'inferenza dei Large Language Model (LLM). A differenza delle ottimizzazioni di sistema deterministiche, le prestazioni dello SD sono intrinsecamente dipendenti dai dati, il che significa che carichi di lavoro diversificati e rappresentativi sono essenziali per misurarne accuratamente l'efficacia. I benchmark esistenti soffrono di una limitata diversità dei task, di un supporto inadeguato per la valutazione orientata alla produttività (throughput) e di una dipendenza da implementazioni di alto livello che non riflettono gli ambienti di produzione. Per affrontare questo problema, introduciamo SPEED-Bench, una suite completa progettata per standardizzare la valutazione dello SD attraverso diversi domini semantici e regimi di servizio realistici. SPEED-Bench offre una partizione dei dati qualitativa accuratamente curata, selezionata dando priorità alla diversità semantica tra i campioni di dati. Inoltre, include una partizione dei dati per la produttività (Throughput), che consente la valutazione del miglioramento delle prestazioni su un intervallo di concorrenze, dalle impostazioni a basso batch sensibili alla latenza, agli scenari ad alto carico orientati alla produttività. Integrandosi con motori di produzione come vLLM e TensorRT-LLM, SPEED-Bench consente ai professionisti di analizzare comportamenti del sistema che spesso sono mascherati da altri benchmark. Sottolineiamo questo aspetto quantificando come gli input sintetici sovrastimino la produttività nel mondo reale, identificando le lunghezze ottimali delle bozze dipendenti dalla dimensione del batch e i bias nei dati a bassa diversità, e analizzando le avvertenze della potatura del vocabolario nei drafters più all'avanguardia. Rilasciamo SPEED-Bench per stabilire uno standard di valutazione unificato per confronti pratici degli algoritmi di Speculative Decoding.

General365: Valutazione delle Capacità di Ragionamento Generale nei Grandi Modelli Linguistici su Compiti Diversificati e Complessi
General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Apr 13

ByJunlin Liu, Shengnan An, Shuang Zhou, Dan Ma, Shixiong Luo, Ying Xie, Yuan Zhang, Wenling Yuan, Yifan Zhou, Xiaoyu Li, Ziwen Wang, Xuezhi Cao, Xunliang Cai

I modelli linguistici di grandi dimensioni (LLM) contemporanei hanno dimostrato capacità di ragionamento notevoli, in particolare in domini specializzati come la matematica e la fisica. Tuttavia, la loro capacità di generalizzare queste abilità di ragionamento a contesti più generali e ampi – spesso definita *ragionamento generale* – rimane poco esplorata. A differenza del ragionamento dominio-specifico, il ragionamento generale si basa meno sulla conoscenza esperta ma presenta comunque sfide formidabili, come vincoli complessi, ramificazioni logiche annidate e interferenze semantiche. Per colmare questa lacuna, introduciamo General365, un benchmark specificamente progettato per valutare il ragionamento generale negli LLM. Limitando la conoscenza di base a un livello scolastico pre-universitario, General365 dissocia esplicitamente il ragionamento dalla competenza specializzata. Il benchmark comprende 365 problemi seminali e 1.095 problemi varianti across otto categorie, garantendo sia un'alta difficoltà che una grande diversità. Le valutazioni su 26 LLM leader di mercato rivelano che anche il modello con le migliori prestazioni raggiunge solo un'accuratezza del 62.8%, in netto contrasto con le prestazioni quasi perfette degli LLM nei benchmark di matematica e fisica. Questi risultati suggeriscono che le abilità di ragionamento degli LLM attuali sono fortemente dipendenti dal dominio, lasciando un ampio margine di miglioramento per applicazioni più estese. Prevediamo che General365 funga da catalizzatore per far progredire il ragionamento degli LLM oltre i compiti dominio-specifici verso scenari reali robusti e a scopo generale. Codice, Dataset e Classifica: https://general365.github.io

Modelli di Flusso Adversariali Continui
Continuous Adversarial Flow Models

Apr 13

ByShanchuan Lin, Ceyuan Yang, Zhijie Lin, Hao Chen, Haoqi Fan

Proponiamo i modelli di flusso avversariale continuo, un tipo di modello di flusso a tempo continuo addestrato con un obiettivo avversariale. A differenza del flow matching, che utilizza un criterio fisso di errore quadratico medio, il nostro approccio introduce un discriminatore appreso per guidare l'addestramento. Questo cambiamento nell'obiettivo induce una distribuzione generalizzata diversa, che empiricamente produce campioni meglio allineati con la distribuzione dei dati target. Il nostro metodo è proposto principalmente per il post-training di modelli di flow matching esistenti, sebbene possa anche addestrare modelli da zero. Nel task di generazione ImageNet 256px, il nostro post-training migliora sostanzialmente l'FID senza guida del SiT in spazio latente da 8.26 a 3.63 e del JiT in spazio pixel da 7.17 a 3.57. Migliora anche la generazione guidata, riducendo l'FID da 2.06 a 1.53 per SiT e da 1.86 a 1.80 per JiT. Valutiamo ulteriormente il nostro approccio sulla generazione text-to-image, dove ottiene risultati migliorati sia sui benchmark GenEval che DPG.

Non tutti i passi di denoising sono uguali: pianificazione del modello per modelli linguistici di diffusione mascherata più veloci
Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Apr 11

ByIvan Sedykh, Nikita Sorokin, Valentin Malykh

I recenti progressi nei modelli linguistici di diffusione mascherata (MDLM) riducono il divario qualitativo rispetto ai modelli linguistici autoregressivi, ma il loro campionamento rimane costoso poiché la generazione richiede numerosi passaggi di denoising dell'intera sequenza con un Transformer di grandi dimensioni e, a differenza della decodifica autoregressiva, non può trarre vantaggio dalla KV cache. In questo lavoro, sfruttiamo la flessibilità del framework di diffusione e studiamo lo scheduling del modello, in cui un MDLM più piccolo sostituisce il modello completo in un sottoinsieme dei passaggi di denoising. Sui modelli addestrati su OpenWebText e LM1B, dimostriamo che i passaggi di denoising iniziali e finali sono sostanzialmente più robusti a tale sostituzione rispetto ai passaggi intermedi, consentendo una riduzione fino al 17% dei FLOP con solo un modesto peggioramento della perplexity generativa sia in generazione incondizionata che condizionata da prefisso, preservando al contempo la diversità dei campioni. Supportiamo questi risultati con un'analisi dell'importanza dei passaggi basata sulla loss e sulla divergenza KL tra modelli piccoli e grandi lungo i timestep, nonché con una ricerca esaustiva su segmenti di passaggi approssimati, entrambi i quali identificano costantemente la parte centrale della traiettoria di diffusione come la più sensibile, coerentemente attraverso i dataset. I nostri risultati suggeriscono che semplici regole di scheduling indipendenti dall'architettura possono accelerare significativamente il campionamento degli MDLM preservando in larga misura la qualità della generazione.

I modelli del mondo a zero colpi sono apprendenti efficienti dal punto di vista dello sviluppo
Zero-shot World Models Are Developmentally Efficient Learners

Apr 11

ByKhai Loong Aw, Klemen Kotar, Wanhee Lee, Seungwoo Kim, Khaled Jedoui, Rahul Venkatesh, Lilian Naing Chen, Michael C. Frank, Daniel L. K. Yamins

I bambini piccoli dimostrano precoci abilità nel comprendere il loro mondo fisico, stimando profondità, movimento, coerenza degli oggetti, interazioni e molti altri aspetti della comprensione delle scene fisiche. I bambini sono sistemi cognitivi sia efficienti dal punto di vista dei dati che flessibili, sviluppando competenze nonostante dati di addestramento estremamente limitati, generalizzando al contempo verso una miriade di compiti non addestrati – una sfida importante anche per i migliori sistemi di IA odierni. Qui introduciamo una nuova ipotesi computazionale per queste abilità, il Modello Visivo del Mondo a Zero-shot (ZWM). Lo ZWM si basa su tre principi: un predittore sparso a fattorizzazione temporale che disaccoppia l'aspetto esteriore dalla dinamica; una stima zero-shot attraverso l'inferenza causale approssimata; e la composizione di inferenze per costruire abilità più complesse. Mostriamo che lo ZWM può essere appreso dall'esperienza in prima persona di un singolo bambino, generando rapidamente competenza su molteplici benchmark di comprensione fisica. Esso riproduce anche ampiamente le firme comportamentali dello sviluppo infantile e costruisce rappresentazioni interne simili a quelle cerebrali. Il nostro lavoro presenta un progetto per un apprendimento efficiente e flessibile da dati di scala umana, avanzando sia una spiegazione computazionale della precoce comprensione fisica dei bambini che un percorso verso sistemi di IA efficienti nell'uso dei dati.

TorchUMM: Una Codebase Unificata per Modelli Multimodali per Valutazione, Analisi e Post-Addestramento
TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Apr 12

ByYinyi Luo, Wenwen Wang, Hayes Bai, Hongyu Zhu, Hao Chen, Pan He, Marios Savvides, Sharon Li, Jindong Wang

I recenti progressi nei modelli multimodali unificati (UMM) hanno portato a una proliferazione di architetture in grado di comprendere, generare e modificare contenuti attraverso le modalità visiva e testuale. Tuttavia, lo sviluppo di un framework unificato per gli UMM rimane impegnativo a causa della diversità delle architetture dei modelli e dell'eterogeneità dei paradigmi di addestramento e dei dettagli implementativi. In questo articolo, presentiamo TorchUMM, il primo codice unificato per la valutazione completa, l'analisi e il post-training su diverse backbone di UMM, task e dataset. TorchUMM supporta un'ampia gamma di modelli che coprono diverse scale e paradigmi progettuali. Il nostro benchmark comprende tre dimensioni di task fondamentali: comprensione, generazione e editing multimodale, e integra sia dataset consolidati che innovativi per valutare le capacità di percezione, ragionamento, composizionalità e aderenza alle istruzioni. Fornendo un'interfaccia unificata e protocolli di valutazione standardizzati, TorchUMM consente confronti equi e riproducibili tra modelli eterogenei e favorisce una comprensione più approfondita dei loro punti di forza e di debolezza, facilitando lo sviluppo di sistemi multimodali unificati più capaci. Il codice è disponibile all'indirizzo: https://github.com/AIFrontierLab/TorchUMM.

Apprendimento di Embedding Motori a Lungo Termine per una Generazione Efficiente della Cinematica
Learning Long-term Motion Embeddings for Efficient Kinematics Generation

Apr 13

ByNick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer

Comprendere e prevedere il movimento è un componente fondamentale dell'intelligenza visiva. Sebbene i moderni modelli video mostrino una forte comprensione della dinamica delle scene, esplorare futuri possibili multipli attraverso la sintesi completa di video rimane proibitivamente inefficiente. Noi modelliamo la dinamica delle scene in modo ordini di grandezza più efficiente operando direttamente su un embedding di movimento a lungo termine, appreso da traiettorie su larga scala ottenute da modelli tracker. Ciò consente la generazione efficiente di movimenti lunghi e realistici che soddisfano obiettivi specificati tramite prompt testuali o interazioni spaziali (pokes). Per ottenere questo, apprendiamo prima un embedding di movimento altamente compresso con un fattore di compressione temporale di 64x. In questo spazio, addestriamo un modello di flow-matching condizionato per generare latenti di movimento condizionati da descrizioni del compito. Le distribuzioni di movimento risultanti superano quelle sia dei modelli video all'avanguardia che degli approcci specializzati per compiti specifici.

Avanzamento della Modellizzazione della Lingua Polacca attraverso l'Ottimizzazione del Tokenizzatore nella Serie Bielik v3 7B e 11B
Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

Apr 12

ByKrzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej

Lo sviluppo della serie Bielik v3 PL, che comprende sia le varianti da 7B che da 11B di parametri, rappresenta una pietra miliare significativa nel campo dell'ottimizzazione di modelli linguistici di grandi dimensioni (LLM) specifici per lingua. Sebbene i modelli a scopo generale dimostrino spesso capacità multilingue impressionanti, soffrono frequentemente di un'inefficienza architetturale fondamentale: l'uso di tokenizzatori universali. Questi tokenizzatori, tipicamente progettati per coprire un ampio spettro di lingue, spesso non riescono a cogliere le sfumature morfologiche di lingue specifiche come il polacco, portando a rapporti di fertilità più elevati, costi di inferenza aumentati e finestre di contesto effettivo ridotte. Questo rapporto dettaglia la transizione dalla tokenizzazione universale basata su Mistral a un vocabolario dedicato e ottimizzato per il polacco per i modelli Bielik v3, esplorando l'inizializzazione degli embedding basata su FOCUS, il curriculum di pre-addestramento multi-stadio e il successivo allineamento post-addestramento che coinvolge Fine-Tuning Supervisionato, Ottimizzazione Diretta delle Preferenze e Apprendimento per Rinforzo attraverso l'Ottimizzazione delle Politiche Relative di Gruppo con ricompense verificabili.

Elicitazione del Ragionamento Medico mediante Sintesi di Dati Arricchiti con Conoscenza: Un Approccio di Apprendimento per Rinforzo Semi-Supervisionato
Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Apr 13

ByHaolin Li, Shuyang Jiang, Ruipeng Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang

Sebbene i grandi modelli linguistici siano promettenti per applicazioni mediche complesse, il loro sviluppo è ostacolato dalla scarsità di dati di ragionamento di alta qualità. Per affrontare questo problema, gli approcci esistenti tipicamente distillano tracce di ragionamento a catena (chain-of-thought) da grandi modelli proprietari tramite fine-tuning supervisionato, per poi condurre apprendimento per rinforzo (RL). Questi metodi mostrano miglioramenti limitati in domini sottorappresentati come le malattie rare, comportando al contempo costi sostanziali per la generazione di catene di ragionamento complesse. Per potenziare efficientemente il ragionamento medico, proponiamo MedSSR, un framework di Sintesi dei dati arricchita con conoscenze mediche e Apprendimento per Rinforzo Semi-supervisionato. Il nostro framework utilizza prima le conoscenze sulle malattie rare per sintetizzare domande di ragionamento a distribuzione controllabile. Successivamente, impiega il modello policy stesso per generare pseudo-etichette di alta qualità. Ciò abilita un paradigma di addestramento a due stadi, intrinseco-estrinseco: RL auto-supervisionato sui dati sintetici con pseudo-etichette, seguito da RL supervisionato sui dati reali annotati da umani. MedSSR scala efficientemente l'addestramento del modello senza fare affidamento sulla costosa distillazione di tracce. Esperimenti estensivi su Qwen e Llama dimostrano che il nostro metodo supera quelli esistenti su dieci benchmark medici, raggiungendo un guadagno fino al +5,93% sui compiti relativi alle malattie rare. Il nostro codice è disponibile all'indirizzo https://github.com/tdlhl/MedSSR.

Modellizzazione delle Traiettorie di Ottimizzazione a Basso Rango per l'Accelerazione RLVR di LLM
Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Apr 13

ByZhipeng Chen, Tao Qian, Wayne Xin Zhao, Ji-Rong Wen

Recentemente, il potenziamento dell'apprendimento per rinforzo con ricompense verificabili (RLVR) per i grandi modelli linguistici (LLM) è emerso come un paradigma di addestramento efficace per migliorare significativamente le capacità del modello. Questo approccio richiede di guidare il modello a compiere un'ampia esplorazione e apprendimento, comportando un sovraccarico computazionale sostanziale che rappresenta una sfida chiave. Per ridurre il numero di step di addestramento, i lavori precedenti effettuano un'estrapolazione lineare dei parametri del modello. Tuttavia, la dinamica degli aggiornamenti dei parametri durante l'addestramento RLVR rimane insufficientemente compresa. Per indagare ulteriormente l'evoluzione degli LLM durante l'addestramento RLVR, abbiamo condotto esperimenti empirici e riscontrato che il sottospazio di rango 1 del modello non evolve linearmente, e la sua dominanza sui parametri originali viene ulteriormente amplificata durante l'addestramento LoRA. Sulla base di queste osservazioni, proponiamo l'Estrapolazione Nonlineare delle traiettorie a basso rango (NExt), un framework innovativo che modella ed estrapola le traiettorie dei parametri a basso rango in maniera non lineare. Nello specifico, addestriamo inizialmente il modello utilizzando LoRA ed estraiamo il sottospazio di rango 1 delle differenze parametriche in più step di addestramento, che viene poi utilizzato per la successiva estrapolazione non lineare. Successivamente, utilizziamo il sottospazio di rango 1 estratto per addestrare un predittore, in grado di modellare la traiettoria degli aggiornamenti parametrici durante l'RLVR, e quindi eseguiamo il processo di "previsione-estensione" per estrapolare i parametri del modello, ottenendo così l'accelerazione dell'RLVR. Per studiare e comprendere ulteriormente NExt, abbiamo condotto esperimenti completi che dimostrano l'efficacia e la robustezza del metodo. Il nostro metodo riduce il sovraccarico computazionale di circa il 37,5%, mantenendo al contempo la compatibilità con un'ampia gamma di algoritmi e task RLVR. Rilasciamo il nostro codice all'indirizzo https://github.com/RUCAIBox/NExt.

Giocando a Doppio Giochi: Apprendimento di un Difensore Agente Doppio per il Pilotaggio delle Credenze Tramite la Teoria della Mente
Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

Apr 13

ByHanqi Xiao, Vaidehi Patil, Zaid Khan, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal

Mentre i grandi modelli linguistici (LLM) diventano il motore alla base dei sistemi conversazionali, la loro capacità di ragionare sulle intenzioni e sugli stati dei loro interlocutori (cioè, formare e utilizzare una teoria della mente, o ToM) diventa sempre più critica per interagire in sicurezza con partner potenzialmente avversari. Proponiamo una nuova sfida ToM a tema privacy, la ToM per l'Orientamento delle Credenze (ToM-SB), in cui un difensore deve agire come Agente Doppio per orientare le credenze di un attaccante con conoscenza preliminare parziale all'interno di un universo condiviso. Per avere successo nella ToM-SB, il difensore deve interagire con e formare una ToM dell'attaccante, con l'obiettivo di ingannare l'attaccante facendogli credere di aver avuto successo nell'estrarre informazioni sensibili. Troviamo che modelli all'avanguardia forti come Gemini3-Pro e GPT-5.4 hanno difficoltà nella ToM-SB, spesso fallendo nell'ingannare gli attaccanti in scenari difficili con conoscenza preliminare parziale dell'attaccante, anche quando sollecitati a ragionare sulle credenze dell'attaccante (prompting ToM). Per colmare questa lacuna, addestriamo modelli sulla ToM-SB per agire come Agenti Doppi dell'IA utilizzando l'apprendimento per rinforzo, testando sia ricompense per l'inganno che per la ToM. Notevolmente, troviamo una relazione bidirezionale emergente tra ToM e inganno dell'attaccante: premiare il solo successo nell'inganno migliora la ToM, e premiare la sola ToM migliora l'inganno. Attraverso quattro attaccanti con diverse capacità, sei metodi di difesa e valutazioni sia in-distribuzione che fuori-distribuzione (OOD), troviamo che i guadagni in ToM e nell'inganno dell'attaccante sono ben correlati, evidenziando la modellazione delle credenze come un fattore chiave per il successo nella ToM-SB. Gli Agenti Doppi dell'IA che combinano sia le ricompense ToM che quelle per l'inganno producono le prestazioni più forti in termini di inganno e ToM, superando Gemini3-Pro e GPT-5.4 con prompting ToM in scenari difficili. Mostriamo anche che la ToM-SB e gli Agenti Doppi dell'IA possono essere estesi ad attaccanti più forti, dimostrando la generalizzazione a contesti OOD e l'aggradabilità del nostro compito.

SciPredict: I LLM Possono Prevedere i Risultati di Esperimenti Scientifici nelle Scienze Naturali?
SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?

Apr 12

ByUdari Madhushani Sehwag, Elaine Lau, Haniyeh Ehsani Oskouie, Shayan Shabihi, Erich Liang, Andrea Toledo, Guillermo Mangialardi, Sergio Fonrouge, Ed-Yeremai Hernandez Cardona, Paula Vergara, Utkarsh Tyagi, Chen Bo Calvin Zhang, Pavi Bhatter, Nicholas Johnson, Furong Huang, Ernesto Gabriel Hernandez Montoya, Bing Liu

L'accelerazione della scoperta scientifica richiede l'identificazione di quali esperimenti possano produrre i risultati migliori prima di impegnare risorse in una costosa validazione fisica. Sebbene i benchmark esistenti valutino gli LLM sulle conoscenze e sul ragionamento scientifico, la loro capacità di prevedere i risultati sperimentali - un compito in cui l'IA potrebbe superare significativamente le capacità umane - rimane in gran parte inesplorata. Introduciamo SciPredict, un benchmark che comprende 405 task derivati da studi empirici recenti in 33 sottocampi specializzati di fisica, biologia e chimica. SciPredict affronta due questioni critiche: (a) gli LLM possono prevedere l'esito di esperimenti scientifici con sufficiente accuratezza? e (b) tali previsioni possono essere utilizzate in modo affidabile nel processo di ricerca scientifica? Le valutazioni rivelano limitazioni fondamentali su entrambi i fronti. Le accuratezze dei modelli sono del 14-26% e le prestazioni degli esperti umani sono di circa il 20%. Sebbene alcuni modelli all'avanguardia superino le prestazioni umane, l'accuratezza dei modelli è ancora ben al di sotto di quanto necessario per fornire una guida sperimentale affidabile. Anche all'interno delle prestazioni limitate, i modelli non riescono a distinguere le previsioni affidabili da quelle inaffidabili, raggiungendo solo circa il 20% di accuratezza indipendentemente dalla loro confidenza o dal giudizio sulla prevedibilità degli esiti senza sperimentazione fisica. Gli esperti umani, al contrario, dimostrano una forte calibrazione: la loro accuratezza aumenta da circa il 5% a circa l'80% man mano che ritengono gli esiti più prevedibili senza condurre l'esperimento. SciPredict stabilisce un quadro rigoroso dimostrando che prestazioni sovrumane nella scienza sperimentale richiedono non solo previsioni migliori, ma anche una migliore consapevolezza dell'affidabilità predittiva. Per garantire la riproducibilità, tutti i nostri dati e codice sono disponibili su https://github.com/scaleapi/scipredict.

SWE-AGILE: Un Framework per Agenti Software per la Gestione Efficiente di Contesti Dinamici di Ragionamento
SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

Apr 13

ByShuquan Lian, Juncheng Liu, Yazhe Chen, Yuhong Chen, Hui Li

I precedenti approcci rappresentativi di tipo ReAct nell'ambito dell'Ingegneria del Software (SWE) autonoma tipicamente mancano del ragionamento esplicito di Sistema-2 necessario per analisi approfondite e per gestire casi limite complessi. Sebbene i recenti modelli di ragionamento dimostrino il potenziale di una Catena di Pensiero (CoT) estesa, applicarli al compito SWE multi-turn crea un dilemma fondamentale: mantenere l'intera cronologia del ragionamento porta a un'esplosione del contesto e a un degrado da "Smarriti-nel-Mezo", mentre scartarla costringerebbe l'agente a ri-ragionare ridondantemente ad ogni passo. Per affrontare queste sfide, proponiamo SWE-AGILE, un nuovo framework per agenti software progettato per colmare il divario tra profondità di ragionamento, efficienza e vincoli contestuali. SWE-AGILE introduce una strategia di Contesto di Ragionamento Dinamico, che mantiene una "finestra scorrevole" di ragionamento dettagliato per la continuità immediata, prevenendo una rianalisi ridondante, mentre comprime il contenuto del ragionamento storico in Sintesi di Ragionamento concise. Empiricamente, SWE-AGILE stabilisce un nuovo standard per modelli da 7B-8B su SWE-Bench-Verified utilizzando solo 2.2k traiettorie e 896 task. Il codice è disponibile all'indirizzo https://github.com/KDEGroup/SWE-AGILE.

ADD per la Filigrana Multibit su Immagini
ADD for Multi-Bit Image Watermarking

Apr 13

ByAn Luo, Jie Ding

Man mano che i modelli generativi consentono la creazione rapida di immagini ad alta fedeltà, le preoccupazioni sociali riguardanti la disinformazione e l'autenticità si sono intensificate. Un rimedio promettente è la filigrana digitale multi-bit per immagini, che incorpora un messaggio multi-bit in un'immagine in modo che un verificatore possa successivamente rilevare se l'immagine è stata generata da qualcuno e identificare ulteriormente la fonte decodificando il messaggio incorporato. Gli approcci esistenti spesso risultano carenti in termini di capacità, resilienza alle distorsioni immagine comuni e giustificazione teorica. Per affrontare queste limitazioni, proponiamo ADD (Add, Dot, Decode), un metodo di filigrana digitale multi-bit per immagini con due fasi: l'apprendimento di una filigrana da combinare linearmente con il messaggio multi-bit e aggiunta all'immagine, e la decodifica attraverso prodotti interni tra l'immagine filigranata e la filigrana appresa. Sul benchmark standard MS-COCO, dimostriamo che per il compito impegnativo della filigrana a 48 bit, ADD raggiunge un'accuratezza di decodifica del 100%, con una performance che cala al massimo del 2% sotto un'ampia gamma di distorsioni immagine, sostanzialmente inferiore al calo medio del 14% dei metodi allo stato dell'arte. Inoltre, ADD raggiunge sostanziali vantaggi computazionali, con un'incorporazione 2 volte più veloce e una decodifica 7,4 volte più veloce rispetto al metodo esistente più rapido. Forniamo inoltre un'analisi teorica che spiega perché la filigrana appresa e la corrispondente regola di decodifica sono efficaci.

DiningBench: un Benchmark Gerarchico Multi-vista per la Percezione e il Ragionamento nel Dominio Alimentare
DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain

Apr 12

BySong Jin, Juntian Zhang, Xun Zhang, Zeying Tian, Fei Jiang, Guojun Yin, Wei Lin, Yong Liu, Rui Yan

I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno rivoluzionato la comprensione visiva generale. Tuttavia, la loro applicazione nel dominio alimentare rimane limitata da benchmark che si basano su categorie a grana grossa, immagini a vista singola e metadati imprecisi. Per colmare questa lacuna, presentiamo DiningBench, un benchmark gerarchico e multi-vista progettato per valutare i VLM su tre livelli di complessità cognitiva: Classificazione Fine-Grained, Stima Nutrizionale e Risposta a Domande Visive. A differenza dei dataset precedenti, DiningBench comprende 3.021 piatti distinti con una media di 5,27 immagini per voce, incorporando negativi "difficili" fine-grained da menu identici e dati nutrizionali rigorosi, basati su verifica. Abbiamo condotto una valutazione estensiva di 29 modelli open-source e proprietari all'avanguardia. I nostri esperimenti rivelano che, sebbene i VLM attuali eccellano nel ragionamento generale, hanno notevoli difficoltà con la discriminazione visiva fine-grained e il ragionamento nutrizionale preciso. Inoltre, abbiamo studiato sistematicamente l'impatto degli input multi-vista e del ragionamento a Catena di Pensiero (Chain-of-Thought), identificando cinque modalità primarie di fallimento. DiningBench funge da banco di prova impegnativo per guidare la prossima generazione della ricerca sui VLM incentrati sul cibo. Tutti i codici sono rilasciati su https://github.com/meituan/DiningBench.

SPASM: Simulazione Agente Stabile Basata su Personaggio per la Generazione di Dialoghi Multi-turn
SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation

Apr 10

ByHan Luo, Guy Laban

I modelli linguistici di grandi dimensioni sono sempre più impiegati in contesti multi-turno come tutoraggio, supporto e consulenza, dove l'affidabilità dipende dalla capacità di preservare ruoli, personaggi e obiettivi coerenti su lunghi orizzonti. Questo requisito diventa critico quando gli LLM sono utilizzati per generare dialoghi sintetici per l'addestramento e la valutazione, poiché le conversazioni LLM--LLM possono accumulare errori legati all'identità come la deriva del personaggio, la confusione di ruolo e l'"eco", dove un agente riflette gradualmente il suo partner. Introduciamo SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation), un framework modulare, orientato alla stabilità, che scompone la simulazione in (i) creazione del personaggio mediante campionamento di schemi, validazione di plausibilità e creazione del personaggio in linguaggio naturale, (ii) generazione del dialogo Cliente--Risponditore, e (iii) rilevamento della terminazione per un arresto coerente. Per migliorare la stabilità su lungo orizzonte senza modificare i pesi del modello, proponiamo la Proiezione EgoCentrica del Contesto (ECP): la cronologia del dialogo viene memorizzata in una rappresentazione indipendente dalla prospettiva e proiettata deterministicamente nella visione egocentrica di ciascun agente prima della generazione. Attraverso tre modelli LLM di base (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) e nove accoppiamenti Cliente--Risponditore, abbiamo costruito un dataset di 4.500 personaggi e 45.000 conversazioni (500 personaggi X 10 conversazioni per accoppiamento). Le ablazioni mostrano che l'ECP riduce sostanzialmente la deriva del personaggio e, convalidato da esseri umani, elimina l'eco; le analisi degli embedding recuperano la struttura del personaggio e rivelano una forte geometria d'interazione guidata dal risponditore. Il nostro codice è disponibile all'indirizzo https://github.com/lhannnn/SPASM.

Il tempo non è un'etichetta: rotazione di fase continua per grafi della conoscenza temporali e memoria agentica
Time is Not a Label: Continuous Phase Rotation for Temporal Knowledge Graphs and Agentic Memory

Apr 13

ByWeixian Waylon Li, Jiaxin Zhang, Xianan Jim Yang, Tiejun Ma, Yiwen Guo

Le rappresentazioni di memoria strutturata come i knowledge graph sono fondamentali per gli agenti autonomi e altri sistemi longevi. Tuttavia, la maggior parte degli approcci esistenti modella il tempo come metadato discreto, limitandosi a ordinare per recentezza (seppellendo conoscenze vecchie ma permanenti), a sovrascrivere semplicemente i fatti obsoleti, o a richiedere una costosa chiamata a un LLM a ogni passo di ingestione, rendendoli incapaci di distinguere fatti persistenti da quelli in evoluzione. Per affrontare questo problema, introduciamo RoMem, un modulo temporale per knowledge graph plug-and-play per sistemi di memoria strutturata, applicabile alla memoria agentica e oltre. Un Semantic Speed Gate preaddestrato mappa l'embedding testuale di ogni relazione a un punteggio di volatilità, apprendendo dai dati che le relazioni evolutive (ad esempio, "presidente di") dovrebbero ruotare rapidamente, mentre quelle persistenti (ad esempio, "nato a") dovrebbero rimanere stabili. Combinato con la rotazione di fase continua, ciò abilita l'ombreggiatura geometrica: i fatti obsoleti vengono ruotati fuori fase nello spazio vettoriale complesso, così i fatti temporalmente corretti superano naturalmente le contraddizioni senza necessità di cancellazione. Sul completamento temporale di knowledge graph, RoMem raggiunge risultati all'avanguardia su ICEWS05-15 (72.6 MRR). Applicato alla memoria agentica, garantisce un miglioramento di 2-3x nell'MRR e nell'accuratezza delle risposte sul ragionamento temporale (MultiTQ), domina benchmark ibridi (LoCoMo), preserva la memoria statica senza alcuna degradazione (DMR-MSC) e si generalizza zero-shot a domini finanziari non visti (FinTMMBench).

Grafo di Distorsione a Coppie Panottico
Panoptic Pairwise Distortion Graph

Apr 13

ByMuhammad Kamran Janjua, Abdul Wahab, Bahador Rashidi

In questo lavoro, introduciamo una nuova prospettiva sulla valutazione comparativa di immagini rappresentando una coppia di immagini come una composizione strutturata delle sue regioni. Al contrario, i metodi esistenti si concentrano sull'analisi dell'immagine nel suo complesso, basandosi implicitamente su una comprensione a livello di regione. Estendiamo la nozione intra-immagine di un grafo di scene a una inter-immagine e proponiamo un nuovo compito denominato Distortion Graph (DG). Il DG tratta le immagini in coppia come una topologia strutturata ancorata alle regioni e rappresenta informazioni dense sul degrado, come il tipo di distorsione, la gravità, il confronto e il punteggio di qualità, in una struttura di grafo compatta e interpretabile. Per realizzare il compito di apprendimento di un distortion graph, forniamo (i) un dataset a livello regionale, PandaSet, (ii) una suite di benchmark, PandaBench, con diversi livelli di difficoltà regionale, e (iii) un'architettura efficiente, Panda, per generare distortion graph. Dimostriamo che PandaBench rappresenta una sfida significativa per i modelli linguistici multimodali all'avanguardia (MLLM), poiché questi non riescono a comprendere i degradi a livello regionale anche quando vengono forniti loro indizi espliciti sulle regioni. Mostriamo che l'addestramento su PandaSet o il prompting con il DG suscita una comprensione delle distorsioni per regione, aprendo una nuova direzione per la valutazione pairwise di immagini strutturata e fine.

IceCache: Gestione efficiente della memoria della KV-cache per LLM a sequenza lunga
IceCache: Memory-efficient KV-cache Management for Long-Sequence LLMs

Apr 12

ByYuzhen Mao, Qitong Wang, Martin Ester, Ke Li

La cache chiave-valore (KV) svolge un ruolo cruciale nell'accelerare l'inferenza nei grandi modelli linguistici (LLM) memorizzando gli stati intermedi dell'attenzione ed evitando calcoli ridondanti durante la generazione autoregressiva. Tuttavia, la sua impronta di memoria scala linearmente con la lunghezza della sequenza, portando spesso a severi colli di bottiglia della memoria su hardware con risorse limitate. Lavori precedenti hanno esplorato l'offloading della cache KV sulla CPU mantenendo solo un sottoinsieme sulla GPU, ma questi approcci spesso si basano su una selezione imprecisa dei token e soffrono di degradazione delle prestazioni in compiti di generazione lunga come il ragionamento a catena del pensiero. In questo articolo, proponiamo una nuova strategia di gestione della cache KV, IceCache, che integra il clustering semantico dei token con PagedAttention. Organizzando token semanticamente correlati in regioni di memoria contigue gestite da una struttura dati gerarchica e aggiornabile dinamicamente, il nostro metodo consente una selezione più efficiente dei token e una migliore utilizzazione della larghezza di banda di memoria durante i trasferimenti CPU-GPU. I risultati sperimentali su LongBench mostrano che, con un budget di 256 token, IceCache mantiene il 99% dell'accuratezza originale ottenuta dal modello con cache KV completa. Inoltre, rispetto ad altri metodi basati sull'offloading, IceCache raggiunge una latenza e un'accuratezza competitive o addirittura superiori utilizzando solo il 25% del budget di token della cache KV, dimostrando la sua efficacia negli scenari con sequenze lunghe. Il codice è disponibile sul nostro sito web del progetto all'indirizzo https://yuzhenmao.github.io/IceCache/.

Contare fino a Quattro Rimane un Compito Arduo per i Modelli Linguistici Visivi
Counting to Four is still a Chore for VLMs

Apr 11

ByDuy Le Dinh Anh, Patrick Amadeus Irawan, Tuan Van Vo

I modelli visione-linguaggio (VLM) hanno ottenuto prestazioni impressionanti in compiti complessi di ragionamento multimodale, ma falliscono ancora in abilità di base come il conteggio di oggetti. Le valutazioni esistenti misurano principalmente gli output finali, offrendo una comprensione limitata di dove si originino questi errori all'interno del modello. In questo lavoro, presentiamo uno studio empirico sul comportamento di conteggio dei VLM attraverso analisi comportamentali e meccanicistiche. Introduciamo COUNTINGTRICKS, una suite di valutazione controllata costituita da semplici casi di conteggio basati su forme, progettata per evidenziare vulnerabilità in diverse configurazioni di patchification e condizioni di prompt adversarial. Utilizzando l'analisi dell'attenzione e probing componente per componente, dimostriamo che l'evidenza visiva rilevante per il conteggio è più forte nella fase di proiezione di modalità ma si degrada sostanzialmente negli strati linguistici successivi, dove i modelli diventano più suscettibili a prior testuali. Sulla base di questa scoperta, valutiamo ulteriormente Modality Attention Share (MAS), un intervento leggero che incoraggia un budget minimo di attenzione visiva durante la generazione della risposta. I nostri risultati suggeriscono che gli errori di conteggio nei VLM derivano non solo dai limiti della percezione visiva, ma anche dal sottoutilizzo dell'evidenza visiva durante il ragionamento nella fase linguistica. Codice e dataset saranno rilasciati su https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.

BMdataset: un dataset LilyPond curato musicologicamente
BMdataset: A Musicologically Curated LilyPond Dataset

Apr 12

ByMatteo Spanio, Ilay Guler, Antonio Rodà

La ricerca sulla musica simbolica si è basata quasi esclusivamente su dataset in formato MIDI; i formati di notazione basati su testo come LilyPond rimangono inesplorati per la comprensione musicale. Presentiamo BMdataset, un dataset musicologicamente curato di 393 partiture LilyPond (2.646 movimenti) trascritte da esperti direttamente da manoscritti barocchi originali, con metadati che coprono compositore, forma musicale, organico e attributi sezionali. Basandoci su questa risorsa, introduciamo LilyBERT (i pesi sono disponibili su https://huggingface.co/csc-unipd/lilybert), un encoder basato su CodeBERT adattato alla musica simbolica tramite l'estensione del vocabolario con 115 token specifici di LilyPond e un pre-training con modello di linguaggio mascherato. Il linear probing sul corpus Mutopia (out-of-domain) mostra che, nonostante le sue dimensioni modeste (~90 milioni di token), il fine-tuning sul solo BMdataset supera il pre-training continuo sull'intero corpus PDMX (~15 miliardi di token) sia per la classificazione del compositore che dello stile, dimostrando che piccoli dataset, accuratamente curati da esperti, possono essere più efficaci di grandi corpora rumorosi per la comprensione musicale. La combinazione di un pre-training ampio con un fine-tuning dominio-specifico produce i migliori risultati complessivi (84,3% di accuratezza sul compositore), confermando che i due regimi di dati sono complementari. Rilasciamo il dataset, il tokenizer e il modello per stabilire un baseline per l'apprendimento di rappresentazioni su LilyPond.

Insegnanti Poliglotti: Valutazione dei Modelli Linguistici per la Generazione di Dati Sintetici Multilingue
Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Apr 13

ByLester James V. Miranda, Ivan Vulić, Anna Korhonen

La sintesi di dati per il fine-tuning supervisionato (SFT) da modelli linguistici (LM) per insegnare compiti multilingue a modelli più piccoli è diventata una pratica sempre più comune. Tuttavia, la selezione del modello insegnante è spesso ad hoc, ricadendo tipicamente sull'opzione più grande disponibile, nonostante tali modelli possano presentare lacune significative nelle capacità per le lingue non inglesi. Questa pratica può portare a dati sintetici di scarsa qualità e a prestazioni subottimali dello studente downstream. In questo lavoro, caratterizziamo sistematicamente cosa costituisce un insegnante multilingue efficace. Misuriamo metriche intrinseche della qualità dei dati con le prestazioni estrinseche del modello studente in una metrica che chiamiamo Polyglot Score; valutiamo 10 LM in 6 lingue tipologicamente diverse, generando oltre 1,4 milioni di esempi SFT e addestrando 240 modelli studente. Tra i modelli testati, Gemma 3 27B e Aya Expanse 32B emergono come insegnanti costantemente efficaci su diverse famiglie di modelli studente di base. Ulteriori analisi rivelano che la sola scala del modello non predice in modo significativo l'efficacia dell'insegnante; invece, qualità dei dati come la diversità dei prompt, la lunghezza e la fluidità della risposta catturano oltre il 93,3% della varianza nella qualità intrinseca dei dati e predicono le prestazioni dello studente. Infine, forniamo raccomandazioni pratiche, tra cui l'abbinamento delle famiglie di modelli per le coppie insegnante-studente e il tradurre da o rispondere a prompt esistenti, che possono portare a miglioramenti per le lingue con meno risorse. Speriamo che il nostro lavoro avanzi la ricerca data-centrica nello sviluppo di dati sintetici multilingue e di LM.

TAIHRI: Localizzazione 3D dei Punti Chiave Umani con Consapevolezza del Compito per l'Interazione Uomo-Robot a Corto Raggio
TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction

Apr 10

ByAo Li, Yonggen Ling, Yiyang Lin, Yuji Wang, Yong Deng, Yansong Tang

La localizzazione accurata dei keypoint umani 3D è una tecnologia fondamentale che consente ai robot di ottenere un'interazione fisica naturale e sicura con gli utenti. I metodi convenzionali di stima dei keypoint umani 3D si concentrano principalmente sulla qualità della ricostruzione corporea totale rispetto all'articolazione radice. Tuttavia, negli scenari pratici di interazione uomo-robot (HRI), i robot sono maggiormente interessati alla localizzazione spaziale precisa in scala metrica delle parti del corpo rilevanti per il compito, nel sistema di coordinate 3D della camera egocentrica. Proponiamo TAIHRI, il primo modello visione-linguaggio (VLM) sviluppato specificamente per la percezione HRI a corto raggio, in grado di comprendere i comandi di movimento degli utenti e dirigere l'attenzione del robot verso i keypoint più rilevanti per il compito. Quantizzando i keypoint 3D in uno spazio d'interazione finito, TAIHRI localizza con precisione le coordinate spaziali 3D delle parti corporee critiche mediante ragionamento sui keypoint 2D tramite previsione del token successivo, e si adatta perfettamente a compiti downstream come il controllo tramite linguaggio naturale o la ricostruzione globale della mesh umana nello spazio. Esperimenti su benchmark di interazione egocentrica dimostrano che TAIHRI raggiunge un'accuratezza di stima superiore per le parti del corpo critiche per il compito. Riteniamo che TAIHRI apra nuove strade di ricerca nel campo dell'interazione uomo-robot incarnata. Il codice è disponibile all'indirizzo: https://github.com/Tencent/TAIHRI.

Come si Allineano i Percorsi: Localizzazione, Scalabilità e Controllo dei Circuiti delle Politiche nei Modelli Linguistici
How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

Apr 13

ByGregory N. Frank

Questo studio individua il meccanismo di instradamento delle policy nei modelli linguistici addestrati all'allineamento. Un gate di attenzione a livello intermedio legge il contenuto rilevato e attiva teste amplificatrici più profonde che potenziano il segnale verso il rifiuto. Nei modelli più piccoli, il gate e l'amplificatore sono teste singole; a scala maggiore diventano gruppi di teste su strati adiacenti. Il gate contribuisce per meno dell'1% all'attivazione DLA in output, ma test di scambio (p<0,001) e interruzione a cascata confermano che è causalmente necessario. Uno screening di scambio su n>=120 rileva lo stesso motivo in dodici modelli di sei laboratori (da 2B a 72B), sebbene le teste specifiche differiscano per laboratorio. L'ablazione per testa indebolisce fino a 58x a 72B e non rileva i gate che lo scambio identifica; lo scambio è l'unico audit affidabile su larga scala. Modulare il segnale dello strato di rilevamento controlla continuamente la policy, dal rifiuto netto passando per l'evasione fino alla risposta fattuale. Su prompt di sicurezza, lo stesso intervento trasforma il rifiuto in indicazioni dannose, mostrando che la capacità addestrata per la sicurezza è governata dall'instradamento piuttosto che rimossa. Le soglie variano per argomento e lingua di input, e il circuito si riposiziona tra le generazioni all'interno di una famiglia mentre i benchmark comportamentali non registrano cambiamenti. L'instradamento è a impegno precoce: il gate si impegna al proprio strato prima che gli strati più profondi completino l'elaborazione dell'input. Sotto un cifrario a sostituzione in-context, la necessità del gate per scambio crolla dal 70 al 99% in tre modelli e il modello passa alla risoluzione dell'enigma. Iniettare l'attivazione del gate del testo in chiaro nel passaggio in avanti del cifrario ripristina il 48% dei rifiuti in Phi-4-mini, localizzando il bypass sull'interfaccia di instradamento. Un secondo metodo, l'analisi del contrasto cifrario, utilizza le differenze DLA testo chiaro/cifrato per mappare l'intero circuito di instradamento sensibile al cifrario in O(3n) passaggi in avanti. Qualsiasi codifica che eluda il pattern matching a livello di rilevamento bypassa la policy indipendentemente dal fatto che gli strati più profondi ricostruiscano il contenuto.

ATANT: Un Quadro di Valutazione per la Continuità dell'IA
ATANT: An Evaluation Framework for AI Continuity

Apr 8

BySamuel Sameer Tanguturi

Presentiamo ATANT (Automated Test for Acceptance of Narrative Truth), un framework di valutazione open source per misurare la continuità nei sistemi di IA: la capacità di persistere, aggiornare, disambiguare e ricostruire un contesto significativo nel tempo. Sebbene l'industria dell'IA abbia prodotto componenti di memoria (pipeline RAG, database vettoriali, contesti lunghi, layer di profilo), nessun framework pubblicato definisce o misura formalmente se questi componenti producano una continuità genuina. Definiamo la continuità come una proprietà di sistema con 7 requisiti, introduciamo una metodologia di valutazione a 10 checkpoint che opera senza un LLM nel ciclo di valutazione e presentiamo un corpus di test narrativo di 250 storie comprendente 1.835 domande di verifica in 6 domini di vita. Valutiamo un'implementazione di riferimento attraverso 5 iterazioni della suite di test, passando dal 58% (architettura legacy) al 100% in modalità isolata (250 storie) e al 100% in modalità cumulativa a 50 storie, con il 96% su scala cumulativa a 250 storie. Il risultato cumulativo è la misura principale: quando 250 narrative di vita distinte coesistono nello stesso database, il sistema deve recuperare il fatto corretto per il contesto corretto senza contaminazione incrociata. ATANT è indipendente dal sistema e dal modello, ed è progettato come una metodologia sequenziale per costruire e validare sistemi di continuità. Le specifiche del framework, le storie di esempio e il protocollo di valutazione sono disponibili su https://github.com/Kenotic-Labs/ATANT. Il corpus completo di 250 storie sarà rilasciato in modo incrementale.

SHARE: Intelligenza Artificiale Socio-Umanistica per la Ricerca e l'Educazione
SHARE: Social-Humanities AI for Research and Education

Apr 13

ByJoão Gonçalves, Sonia de Jager, Petr Knoth, David Pride, Nick Jelicic

Questo rapporto tecnico intermedio presenta la famiglia di modelli base SHARE e l'interfaccia utente MIRROR. I modelli SHARE sono i primi modelli linguistici causali interamente preaddestrati da e per le scienze sociali e umanistiche (SSH). Le loro prestazioni nella modellazione di testi SSH sono vicine a quelle di modelli a scopo generale (Phi-4) che utilizzano 100 volte più token, come dimostrato dal nostro benchmark SSH Cloze personalizzato. L'interfaccia utente MIRROR è progettata per la revisione di input testuali delle discipline SSH preservando il coinvolgimento critico. Prototipando un'interfaccia di intelligenza artificiale generativa che non produce testo, proponiamo un modo per sfruttare le capacità dei modelli SHARE senza compromettere l'integrità dei principi e delle norme SSH.