HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

25 papers found

GLM-5: dal Vibe Coding all'Ingegneria Agente
GLM-5: from Vibe Coding to Agentic Engineering

Feb 17

ByGLM-5 Team, Aohan Zeng, Xin Lv, Zhenyu Hou, Zhengxiao Du, Qinkai Zheng, Bin Chen, Da Yin, Chendi Ge, Chengxing Xie, Cunxiang Wang, Gengzheng Pan, Hao Zeng, Haoke Zhang, Haoran Wang, Huilong Chen, Jiajie Zhang, Jian Jiao, Jiaqi Guo, Jingsen Wang, Jingzhao Du, Jinzhu Wu, Kedong Wang, Lei Li, Lin Fan, Lucen Zhong, Mingdao Liu, Mingming Zhao, Pengfan Du, Qian Dong, Rui Lu, Shuang-Li, Shulin Cao, Song Liu, Ting Jiang, Xiaodong Chen, Xiaohan Zhang, Xuancheng Huang, Xuezhen Dong, Yabo Xu, Yao Wei, Yifan An, Yilin Niu, Yitong Zhu, Yuanhao Wen, Yukuo Cen, Yushi Bai, Zhongpei Qiao, Zihan Wang, Zikang Wang, Zilin Zhu, Ziqiang Liu, Zixuan Li, Bojie Wang, Bosi Wen, Can Huang, Changpeng Cai, Chao Yu, Chen Li, Chen Li, Chenghua Huang, Chengwei Hu, Chenhui Zhang, Chenzheng Zhu, Congfeng Yin, Daoyan Lin, Dayong Yang, Di Wang, Ding Ai, Erle Zhu, Fangzhou Yi, Feiyu Chen, Guohong Wen, Hailong Sun, Haisha Zhao, Haiyi Hu, Hanchen Zhang, Hanrui Liu, Hanyu Zhang, Hao Peng, Hao Tai, Haobo Zhang, He Liu, Hongwei Wang, Hongxi Yan, Hongyu Ge, Huan Liu, Huan Liu, Huanpeng Chu, Jia'ni Zhao, Jiachen Wang, Jiajing Zhao, Jiamin Ren, Jiapeng Wang, Jiaxin Zhang, Jiayi Gui, Jiayue Zhao, Jijie Li, Jing An, Jing Li, Jingwei Yuan, Jinhua Du, Jinxin Liu, Junkai Zhi, Junwen Duan, Kaiyue Zhou, Kangjian Wei, Ke Wang, Keyun Luo, Laiqiang Zhang, Leigang Sha, Liang Xu, Lindong Wu, Lintao Ding, Lu Chen, Minghao Li, Nianyi Lin, Pan Ta, Qiang Zou, Rongjun Song, Ruiqi Yang, Shangqing Tu, Shangtong Yang, Shaoxiang Wu, Shengyan Zhang, Shijie Li, Shuang Li, Shuyi Fan, Wei Qin, Wei Tian, Weining Zhang, Wenbo Yu, Wenjie Liang, Xiang Kuang, Xiangmeng Cheng, Xiangyang Li, Xiaoquan Yan, Xiaowei Hu, Xiaoying Ling, Xing Fan, Xingye Xia, Xinyuan Zhang, Xinze Zhang, Xirui Pan, Xunkai Zhang, Yandong Wu, Yanfu Li, Yidong Wang, Yifan Zhu, Yijun Tan, Yilin Zhou, Yiming Pan, Ying Zhang, Yinpei Su, Yipeng Geng, Yipeng Geng, Yong Yan, Yonglin Tan, Yuean Bi, Yuhan Shen, Yuhao Yang, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yurong Wu, Yutao Zhang, Yuxi Duan, Yuxuan Zhang, Zezhen Liu, Zhengtao Jiang, Zhenhe Yan, Zheyu Zhang, Zhixiang Wei, Zhuo Chen, Zhuoer Feng, Zijun Yao, Ziwei Chai, Ziyuan Wang, Zuzhou Zhang, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

105

Presentiamo GLM-5, un modello di base di prossima generazione progettato per transitare il paradigma della programmazione intuitiva verso l'ingegneria agentiva. Basandosi sulle capacità agentive, di ragionamento e di codifica (ARC) del suo predecessore, GLM-5 adotta la DSA per ridurre significativamente i costi di addestramento e inferenza mantenendo al contempo la fedeltà del contesto lungo. Per far progredire l'allineamento e l'autonomia del modello, implementiamo una nuova infrastruttura di apprendimento per rinforzo asincrono che migliora drasticamente l'efficienza post-addestramento disaccoppiando la generazione dalla fase di training. Inoltre, proponiamo nuovi algoritmi asincroni di RL per agenti che migliorano ulteriormente la qualità dell'apprendimento per rinforzo, consentendo al modello di apprendere da interazioni complesse e a lungo termine in modo più efficace. Grazie a queste innovazioni, GLM-5 raggiunge prestazioni all'avanguardia sui principali benchmark open. Soprattutto, GLM-5 dimostra capacità senza precedenti in compiti di programmazione del mondo reale, superando i precedenti benchmark nella gestione di sfide di ingegneria del software end-to-end. Codice, modelli e ulteriori informazioni sono disponibili su https://github.com/zai-org/GLM-5.

SkillsBench: Valutare l'Efficacia delle Competenze degli Agenti in Compiti Diversificati
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Feb 13

ByXiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

Le Competenze Agente sono pacchetti strutturati di conoscenza procedurale che potenziano gli agenti LLM durante l'inferenza. Nonostante la rapida adozione, non esiste un modo standard per misurare se siano effettivamente d'aiuto. Presentiamo SkillsBench, un benchmark di 86 task in 11 domini, abbinati a Competenze selezionate e verificatori deterministici. Ogni task viene valutato in tre condizioni: nessuna Competenza, Competenze selezionate e Competenze auto-generate. Testiamo 7 configurazioni di modelli-agente su 7.308 traiettorie. Le Competenze selezionate aumentano il tasso di successo medio di 16,2 punti percentuali (pp), ma gli effetti variano notevolmente per dominio (da +4,5 pp per l'Ingegneria del Software a +51,9 pp per la Sanità) e 16 task su 84 mostrano delta negativi. Le Competenze auto-generate non forniscono alcun beneficio in media, dimostrando che i modelli non possono creare in modo affidabile la conoscenza procedurale di cui beneficiano quando la consumano. Competenze focalizzate con 2-3 moduli superano la documentazione completa, e modelli più piccoli dotati di Competenze possono eguagliare modelli più grandi che ne sono sprovvisti.

Controlli di Sanità per Autoencoder Sparsi: Gli SAE Battono i Baseline Casuali?
Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

Feb 15

ByAnton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina

Gli autoencoder sparsi (SAE) sono emersi come uno strumento promettente per interpretare le reti neurali, scomponendo le loro attivazioni in insiemi sparsi di feature interpretabili dall'uomo. Recentemente sono state introdotte numerose varianti di SAE e sono state scalate con successo su modelli all'avanguardia. Nonostante l'entusiasmo, un numero crescente di risultati negativi in task downstream mette in dubbio che i SAE riescano a recuperare feature significative. Per indagare direttamente questo aspetto, conduciamo due valutazioni complementari. In un setup sintetico con feature ground-truth note, dimostriamo che i SAE recuperano solo il 9% delle feature reali nonostante raggiungano il 71% di varianza spiegata, mostrando che falliscono nel loro compito fondamentale anche quando la ricostruzione è efficace. Per valutare i SAE su attivazioni reali, introduciamo tre baseline che vincolano le direzioni delle feature dei SAE o i loro pattern di attivazione a valori casuali. Attraverso esperimenti estesi su più architetture SAE, mostriamo che le nostre baseline eguagliano i SAE addestrati in interpretabilità (0.87 vs 0.90), sparse probing (0.69 vs 0.72) e causal editing (0.73 vs 0.72). Complessivamente, questi risultati suggeriscono che i SAE nel loro stato attuale non scompongono in modo affidabile i meccanismi interni dei modelli.

L'Interazione Sociale Emerge nelle Società di Agenti IA? Uno Studio di Caso su Moltbook
Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook

Feb 15

ByMing Li, Xirui Li, Tianyi Zhou

Mentre gli agenti basati su grandi modelli linguistici popolano sempre più gli ambienti in rete, sorge una domanda fondamentale: le società di agenti di intelligenza artificiale (IA) subiscono dinamiche di convergenza simili ai sistemi sociali umani? Recentemente, Moltbook approssima uno scenario futuro plausibile in cui agenti autonomi partecipano a una società online in continua evoluzione e aperta. Presentiamo la prima diagnosi sistemica su larga scala di questa società di agenti IA. Oltre all'osservazione statica, introduciamo un quadro diagnostico quantitativo per l'evoluzione dinamica nelle società di agenti IA, misurando la stabilizzazione semantica, il turnover lessicale, l'inerzia individuale, la persistenza dell'influenza e il consenso collettivo. La nostra analisi rivela un sistema in equilibrio dinamico in Moltbook: sebbene le medie semantiche globali si stabilizzino rapidamente, i singoli agenti mantengono un'elevata diversità e un persistente turnover lessicale, sfidando l'omogeneizzazione. Tuttavia, gli agenti mostrano una forte inerzia individuale e una risposta adattativa minima ai partner di interazione, impedendo l'influenza reciproca e il consenso. Di conseguenza, l'influenza rimane transitoria senza supernodi persistenti, e la società non riesce a sviluppare ancore di influenza collettiva stabili a causa dell'assenza di una memoria sociale condivisa. Questi risultati dimostrano che la scala e la densità di interazione da sole sono insufficienti per indurre socializzazione, fornendo principi di progettazione e analisi azionabili per le prossime società di agenti IA di prossima generazione.

jina-embeddings-v5-text: Distillazione Mirata di Embedding per Compiti Specifici
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Feb 17

ByMohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao

I modelli di embedding testuali sono ampiamente utilizzati per compiti di similarità semantica, inclusi il recupero di informazioni, il clustering e la classificazione. I modelli generici sono tipicamente addestrati con processi a singolo o multi stadio che utilizzano funzioni di loss contrastiva. Introduciamo un regime di addestramento innovativo che combina tecniche di distillazione del modello con una loss contrastiva specifica per il compito, per produrre modelli di embedding compatti e ad alte prestazioni. I nostri risultati suggeriscono che questo approccio è più efficace per l'addestramento di modelli piccoli rispetto ai paradigmi di addestramento puramente contrastivi o basati solo sulla distillazione. I punteggi di benchmark dei modelli risultanti, jina-embeddings-v5-text-small e jina-embeddings-v5-text-nano, superano o eguagliano lo stato dell'arte per modelli di dimensioni simili. I modelli jina-embeddings-v5-text supportano inoltre testi lunghi (fino a 32k token) in molte lingue e generano embedding che rimangono robusti nonostante troncamento e quantizzazione binaria. I pesi dei modelli sono pubblicamente disponibili, con l'auspicio di ispirare ulteriori progressi nello sviluppo di modelli di embedding.

Audit di Sicurezza Basato sulla Traiettoria del Clawdbot (OpenClaw)
A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

Feb 16

ByTianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang

Clawdbot è un agente di IA personale auto-ospitato e abile nell'uso di strumenti, dotato di un ampio spazio d'azione che spazia dall'esecuzione locale a flussi di lavoro mediati dal web. Ciò solleva preoccupazioni accentuate in materia di sicurezza e protezione in contesti ambigui o sotto condizionamento avversariale. Presentiamo una valutazione centrata sulle traiettorie di Clawdbot lungo sei dimensioni di rischio. La nostra suite di test campiona e adatta leggermente scenari da benchmark precedenti sulla sicurezza degli agenti (inclusi ATBench e LPS-Bench) e li integra con casi progettati manualmente, specificamente mirati alla superficie strumentale di Clawdbot. Registriamo le traiettorie complete di interazione (messaggi, azioni, argomenti/risultati delle chiamate agli strumenti) e valutiamo la sicurezza utilizzando sia un giudice automatico delle traiettorie (AgentDoG-Qwen3-4B) che una revisione umana. Attraverso 34 casi canonici, emerge un profilo di sicurezza non uniforme: le prestazioni sono generalmente coerenti nei compiti incentrati sull'affidabilità, mentre la maggior parte degli insuccessi si verifica in presenza di intenti sotto-specificati, obiettivi aperti o prompt di jailbreak apparentemente benigni, dove lievi interpretazioni errate possono degenerare in azioni strumentali ad alto impatto. Abbiamo integrato i risultati complessivi con studi di caso rappresentativi e riassunto le caratteristiche comuni di questi casi, analizzando le vulnerabilità di sicurezza e le modalità di errore tipiche che Clawdbot tende a innescare nella pratica.

ResearchGym: Valutazione di Agenti Basati su Modelli Linguistici nella Ricerca sull'IA del Mondo Reale
ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Feb 16

ByAniketh Garikaparthi, Manasi Patwardhan, Arman Cohan

Introduciamo ResearchGym, un benchmark e un ambiente di esecuzione per valutare agenti di IA nella ricerca end-to-end. Per istanziarlo, riadattiamo cinque articoli orali e spotlight provenienti da ICML, ICLR e ACL. Per ogni repository degli articoli, preserviamo i dataset, il sistema di valutazione e le implementazioni di baseline, ma omettiamo il metodo proposto dall'articolo. Ciò si traduce in cinque ambienti di task containerizzati che comprendono complessivamente 39 sotto-task. All'interno di ogni ambiente, gli agenti devono proporre nuove ipotesi, eseguire esperimenti e tentare di superare solide baseline umane sulle metriche dell'articolo. In una valutazione controllata di un agente basato su GPT-5, osserviamo un netto divario capacità-affidabilità. L'agente migliora le baseline fornite dal repository solo in 1 caso su 15 valutazioni (6,7%), con un miglioramento dell'11,5%, e completa in media solo il 26,5% dei sotto-task. Identifichiamo modi di fallimento ricorrenti a lungo termine, tra cui impazienza, scarsa gestione del tempo e delle risorse, eccessiva fiducia in ipotesi deboli, difficoltà nel coordinare esperimenti paralleli e limiti rigidi dovuti alla lunghezza del contesto. Tuttavia, in una singola esecuzione, l'agente supera la soluzione di un task Spotlight di ICML 2025, indicando che gli agenti all'avanguardia possono occasionalmente raggiungere prestazioni di stato dell'arte, ma in modo non affidabile. Valutiamo inoltre scaffold di agenti proprietari, tra cui Claude Code (Opus-4.5) e Codex (GPT-5.2), che mostrano un divario simile. ResearchGym fornisce l'infrastruttura per la valutazione sistematica e l'analisi di agenti autonomi nella ricerca a ciclo chiuso.

UniT: Scalabilità Unificata Multimodale del Ragionamento a Catena in Fase di Test
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Feb 12

ByLeon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu

I modelli unificati possono gestire sia la comprensione che la generazione multimodale all'interno di un'unica architettura, ma tipicamente operano in un singolo passaggio senza perfezionare iterativamente i propri output. Molti compiti multimodali, specialmente quelli che coinvolgono composizioni spaziali complesse, oggetti multipli in interazione o istruzioni in evoluzione, richiedono la scomposizione delle istruzioni, la verifica dei risultati intermedi e l'apporto di correzioni iterative. Sebbene lo scaling al tempo di test (TTS) abbia dimostrato che l'allocazione di risorse computazionali aggiuntive per il ragionamento iterativo migliori sostanzialmente le prestazioni dei modelli linguistici, estendere questo paradigma ai modelli multimodali unificati rimane una sfida aperta. Introduciamo UniT, un framework per lo scaling al tempo di test con catena di pensiero multimodale che consente a un singolo modello unificato di ragionare, verificare e perfezionare attraverso più round. UniT combina sintesi dati agentica, addestramento unificato del modello e inferenza flessibile al tempo di test per elicitare comportamenti cognitivi inclusi verifica, scomposizione in sottobiettivi e memoria dei contenuti. Le nostre principali scoperte sono: (1) i modelli unificati addestrati su traiettorie di ragionamento brevi generalizzano a catene inferenziali più lunghe al momento del test; (2) il ragionamento sequenziale a catena di pensiero fornisce una strategia TTS più scalabile e computazionalmente efficiente del campionamento parallelo; (3) l'addestramento su traiettorie di generazione e editing migliora il ragionamento visivo fuori distribuzione. Questi risultati stabiliscono lo scaling multimodale al tempo di test come un paradigma efficace per far progredire sia la generazione che la comprensione nei modelli unificati.

Ripensare l'Ipotesi della Rappresentazione Platonica: Una Prospettiva Aristotelica
Revisiting the Platonic Representation Hypothesis: An Aristotelian View

Feb 16

ByFabian Gröger, Shuo Wen, Maria Brbić

L'Ipotesi della Rappresentazione Platonica suggerisce che le rappresentazioni delle reti neurali stiano convergendo verso un modello statistico comune della realtà. Dimostriamo che le metriche esistenti utilizzate per misurare la somiglianza rappresentazionale sono confuse dalla scala della rete: l'aumento della profondità o dell'ampiezza del modello può sistematicamente inflazionare i punteggi di somiglianza rappresentazionale. Per correggere questi effetti, introduciamo un framework di null-calibrazione basato su permutazioni che trasforma qualsiasi metrica di somiglianza rappresentazionale in un punteggio calibrato con garanzie statistiche. Rivediamo l'Ipotesi della Rappresentazione Platonica con il nostro framework di calibrazione, il quale rivela un quadro sfumato: l'apparente convergenza riportata dalle misure spettrali globali scompare in gran parte dopo la calibrazione, mentre la somiglianza locale di vicinato, ma non le distanze locali, conserva un accordo significativo tra diverse modalità. Sulla base di questi risultati, proponiamo l'Ipotesi della Rappresentazione Aristotelica: le rappresentazioni nelle reti neurali stanno convergendo verso relazioni di vicinato locali condivise.

Incorporamento Posizionale Rotatorio Consapevole della Geometria per Modelli Video Mondiali Coerenti
Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Feb 8

ByChendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

I modelli predittivi del mondo che simulano osservazioni future sotto controllo esplicito della fotocamera sono fondamentali per l'IA interattiva. Nonostante i rapidi progressi, i sistemi attuali mancano di persistenza spaziale: non riescono a mantenere strutture di scena stabili su traiettorie lunghe, allucinando frequentemente dettagli quando le telecamere rivisitano posizioni precedentemente osservate. Identifichiamo che questa deriva geometrica origina dalla dipendenza da embedding posizionali nello spazio dello schermo, che confliggono con la geometria proiettiva richiesta per la consistenza 3D. Introduciamo ViewRope, una codifica consapevole della geometria che inietta le direzioni dei raggi della fotocamera direttamente negli strati di self-attention dei transformer video. Parametrizzando l'attenzione con la geometria relativa dei raggi anziché con la località dei pixel, ViewRope fornisce un bias induttivo nativo al modello per recuperare contenuti 3D-consistenti attraverso intervalli temporali. Proponiamo inoltre l'Attenzione Sparsa su Frame Consapevole della Geometria, che sfrutta questi segnali geometrici per selezionare attentamente i frame storici rilevanti, migliorando l'efficienza senza sacrificare la consistenza della memoria. Presentiamo anche ViewBench, una suite diagnostica che misura la fedeltà nella chiusura dei loop e la deriva geometrica. I nostri risultati dimostrano che ViewRope migliora sostanzialmente la consistenza a lungo termine riducendo al contempo i costi computazionali.

Sull’Efficacia Sorprendente degli Aggiornamenti di Mascheramento negli Ottimizzatori Adattivi
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Feb 17

ByTaejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie

L'addestramento di grandi modelli linguistici (LLM) si basa quasi esclusivamente su ottimizzatori adattivi densi con precondizionatori sempre più sofisticati. Noi contestiamo questo approccio dimostrando che l'applicazione casuale di maschere agli aggiornamenti dei parametri può essere estremamente efficace, con una variante mascherata di RMSProp che supera costantemente i recenti ottimizzatori all'avanguardia. La nostra analisi rivela che il mascheramento casuale induce una regolarizzazione geometrica dipendente dalla curvatura che appiana la traiettoria di ottimizzazione. Sulla base di questa scoperta, introduciamo il *Momentum-aligned gradient masking* (Magma), che modula gli aggiornamenti mascherati utilizzando l'allineamento momento-gradiente. Esperimenti estesi di pre-addestramento di LLM mostrano che Magma è una semplice sostituzione *drop-in* per gli ottimizzatori adattivi, con guadagni consistenti e un overhead computazionale trascurabile. In particolare, per modelli di dimensione 1B, Magma riduce la perplessità di oltre il 19% e il 9% rispetto rispettivamente ad Adam e Muon.

HLE-Verificato: Una Verifica Sistematica e una Revisione Strutturata dell'Esame Finale dell'Umanità
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

Feb 15

ByWeiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao

L'esame finale dell'umanità (HLE) è diventato un punto di riferimento ampiamente utilizzato per valutare i modelli linguistici avanzati su domande complesse e multi-dominio. Tuttavia, analisi condotte dalla comunità hanno sollevato preoccupazioni sul fatto che HLE contenga un numero non trascurabile di elementi rumorosi, che possono distorcere i risultati di valutazione e i confronti tra modelli. Per affrontare questa sfida, presentiamo HLE-Verified, una versione verificata e revisionata di HLE con un protocollo di verifica trasparente e una tassonomia degli errori granulare. La nostra costruzione segue un flusso di lavoro di validazione e riparazione in due fasi, che dà luogo a un benchmark certificato. Nella Fase I, ogni elemento subisce una validazione binaria del problema e della risposta finale attraverso una revisione di esperti di dominio e controlli incrociati basati su modelli, producendo 641 elementi verificati. Nella Fase II, gli elementi imperfetti ma riparabili vengono revisionati con vincoli rigorosi che preservano l'intento valutativo originale, attraverso riparazioni duali e indipendenti di esperti, audit assistiti da modelli e arbitraggio finale, risultando in 1.170 elementi revisionati e certificati. I restanti 689 elementi vengono rilasciati come un insieme incerto documentato, con fonti di incertezza esplicite ed etichette di competenza per futuri affinamenti. Valutiamo sette modelli linguistici all'avanguardia su HLE e HLE-Verified, osservando un guadagno medio assoluto di accuratezza del 7-10 percento su HLE-Verified. Il miglioramento è particolarmente pronunciato sugli elementi in cui l'enunciato del problema originale e/o la risposta di riferimento sono errati, con guadagni del 30-40 percento. Le nostre analisi rivelano inoltre una forte associazione tra la confidenza del modello e la presenza di errori nell'enunciato del problema o nella risposta di riferimento, supportando l'efficacia delle nostre revisioni. Nel complesso, HLE-Verified migliora le valutazioni in stile HLE riducendo il rumore di annotazione e consentendo una misurazione più fedele delle capacità dei modelli. I dati sono disponibili all'indirizzo: https://github.com/SKYLENAGE-AI/HLE-Verified

TAROT: Fine-tuning Rinforzato del Curriculum Guidato da Test e Adattivo alle Capacità per la Generazione di Codice con Modelli Linguistici di Grande Scala
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Feb 17

ByChansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li

I Large Language Model (LLM) stanno cambiando il paradigma della programmazione, noto come "vibe coding", ma la sintesi di codice algoritmicamente sofisticato e robusto rimane una sfida critica. Incentivare le capacità di ragionamento profondo degli LLM è essenziale per superare questo ostacolo. Il Reinforcement Fine-Tuning (RFT) è emerso come una strategia promettente per soddisfare questa esigenza. Tuttavia, la maggior parte degli approcci esistenti trascura l'eterogeneità della difficoltà e della granularità intrinseche dei casi di test, portando a una distribuzione squilibrata dei segnali di reward e, di conseguenza, a aggiornamenti del gradiente distorti durante l'addestramento. Per affrontare questo problema, proponiamo il Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT costruisce sistematicamente, per ogni problema, una suite di test a quattro livelli (base, intermedio, complesso, edge), fornendo un panorama di difficoltà controllato per la progettazione del curriculum e la valutazione. Fondamentalmente, TAROT disaccoppia la progressione del curriculum dai punteggi di reward grezzi, consentendo una valutazione condizionata dalle capacità e una selezione principiata da un portafoglio di politiche di curriculum, piuttosto che una composizione accidentale della difficoltà dei casi di test. Questo design favorisce un'ottimizzazione stabile e un'acquisizione più efficiente delle competenze. I risultati sperimentali su larga scala rivelano che il curriculum ottimale per l'RFT nella generazione di codice è strettamente legato alla capacità intrinseca di un modello: modelli meno capaci ottengono maggiori miglioramenti con una progressione facile-difficile, mentre modelli più competenti eccellono con un curriculum difficile-all'inizio. TAROT fornisce un metodo riproducibile che adatta dinamicamente la progettazione del curriculum alle capacità di un modello, migliorando così costantemente la correttezza funzionale e la robustezza del codice generato. Tutto il codice e i dati sono rilasciati per favorire la riproducibilità e far avanzare la ricerca della comunità all'indirizzo https://github.com/deep-diver/TAROT.

COMPOT: Ortogonalizzazione di Procrustes Matriciale Ottimizzata per la Calibrazione nella Compressione dei Transformer
COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

Feb 16

ByDenis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Ammar Ali, Baher Mohammad, Stamatios Lefkimmiatis

La compressione post-addestramento dei modelli Transformer si basa comunemente sulla decomposizione ai valori singolari (SVD) troncata. Tuttavia, l'imposizione di un unico sottospazio condiviso può degradare l'accuratezza anche a livelli di compressione moderati. L'apprendimento di dizionari sparsi fornisce una rappresentazione più flessibile basata su unione di sottospazi, ma gli approcci esistenti spesso soffrono di aggiornamenti iterativi del dizionario e dei coefficienti. Proponiamo COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), un framework di compressione senza addestramento che utilizza un piccolo dataset di calibrazione per stimare una fattorizzazione sparsa dei pesi. COMPOT impiega dizionari ortogonali che abilitano aggiornamenti di Procrustes in forma chiusa per il dizionario e una codifica sparsa analitica in un singolo passo per i coefficienti, eliminando l'ottimizzazione iterativa. Per gestire l'eterogenea sensibilità dei layer sotto un budget di compressione globale, COMPOT introduce inoltre una strategia di allocazione dinamica one-shot che ridistribuisce adattivamente i tassi di compressione per layer. Esperimenti estesi su diverse architetture e task dimostrano che COMPOT offre costantemente un miglior compromesso qualità-compressione rispetto a solidi baseline di basso rango e sparsi, rimanendo al contempo completamente compatibile con la quantizzazione post-addestramento per una compressione estrema. Il codice è disponibile {qui}(https://github.com/mts-ai/COMPOT).

Causal-JEPA: Apprendimento di Modelli del Mondo attraverso Interventi Latenti a Livello Oggetto
Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Feb 11

ByHeejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero

I modelli del mondo richiedono una solida comprensione relazionale per supportare previsioni, ragionamento e controllo. Sebbene le rappresentazioni object-centric forniscano un'utile astrazione, non sono sufficienti per catturare dinamiche dipendenti dalle interazioni. Proponiamo quindi C-JEPA, un modello del mondo object-centric semplice e flessibile che estende la predizione mascherata di embedding congiunti dai patch di immagine alle rappresentazioni object-centric. Applicando un mascheramento a livello di oggetto che richiede di inferire lo stato di un oggetto dagli altri oggetti, C-JEPA induce interventi latenti con effetti simili al controfattuale e previene soluzioni di scorciatoia, rendendo essenziale il ragionamento interattivo. Empiricamente, C-JEPA produce miglioramenti consistenti nel visual question answering, con un incremento assoluto di circa il 20% nel ragionamento controfattuale rispetto alla stessa architettura senza mascheramento a livello di oggetto. Sui compiti di controllo di agenti, C-JEPA abilita una pianificazione sostanzialmente più efficiente utilizzando solo l'1% delle caratteristiche latenti di input totali richieste dai modelli del mondo basati su patch, pur raggiungendo prestazioni comparabili. Infine, forniamo un'analisi formale che dimostra come il mascheramento a livello di oggetto induca un bias induttivo causale tramite interventi latenti. Il nostro codice è disponibile all'indirizzo https://github.com/galilai-group/cjepa.

Comprensione vs. Generazione: Navigare il Dilemma dell'Ottimizzazione nei Modelli Multimodali
Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Feb 17

BySen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang, Han Hu

La ricerca attuale sui modelli multimodali affronta una sfida cruciale: il potenziamento delle capacità generative spesso avviene a scapito della comprensione, e viceversa. Abbiamo analizzato questo compromesso e individuato come causa principale il potenziale conflitto tra generazione e comprensione, che crea una dinamica competitiva all'interno del modello. Per risolvere questo problema, proponiamo il framework Reason-Reflect-Refine (R3). Questo innovativo algoritmo riformula il compito di generazione in un singolo passo in un processo multi-step di "generazione-comprensione-rigenerazione". Sfruttando esplicitamente la capacità di comprensione del modello durante la generazione, siamo riusciti a mitigare il dilemma di ottimizzazione, ottenendo risultati generativi più solidi e una migliore capacità di comprensione correlata al processo generativo. Ciò offre spunti preziosi per la progettazione di modelli multimodali unificati di prossima generazione. Il codice è disponibile all'indirizzo https://github.com/sen-ye/R3.

Panini: Apprendimento Continuo nello Spazio dei Token tramite Memoria Strutturata
Panini: Continual Learning in Token Space via Structured Memory

Feb 16

ByShreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury

I modelli linguistici sono sempre più utilizzati per ragionare su contenuti su cui non sono stati addestrati, come nuovi documenti, conoscenze in evoluzione e dati specifici dell'utente. Un approccio comune è la generazione aumentata dal recupero (RAG), che memorizza i documenti testuali in modo esterno (come frammenti) e recupera solo un sottoinsieme rilevante al momento dell'inferenza su cui un LLM può ragionare. Tuttavia, ciò comporta un uso inefficiente della potenza di calcolo durante il test (l'LLM ragiona ripetutamente sugli stessi documenti); inoltre, il recupero di frammenti può introdurre contesto irrilevante che aumenta la generazione non supportata. Proponiamo un framework di apprendimento continuo non parametrico di tipo umano, in cui il modello base rimane fisso e l'apprendimento avviene integrando ogni nuova esperienza in uno stato di memoria semantica esterno che si accumula e si consolida continuamente. Presentiamo Panini, che realizza ciò rappresentando i documenti come Spazi di Lavoro Semantici Generativi (GSW) – una rete consapevole di entità ed eventi composta da coppie domanda-risposta (QA), sufficiente affinché un LLM ricostruisca le situazioni vissute ed estragga conoscenze latenti tramite catene inferenziali fondate sul ragionamento sulla rete. Data una query, Panini attraversa solo il GSW in continuo aggiornamento (non i documenti testuali o i frammenti) e recupera le catene inferenziali più probabili. Su sei benchmark di QA, Panini raggiunge le prestazioni medie più elevate, dal 5% al 7% superiori rispetto ad altre baseline competitive, utilizzando da 2 a 30 volte meno token di contesto-risposta, supporta pipeline completamente open-source e riduce le risposte non supportate su query curate senza risposta. I risultati mostrano che una strutturazione efficiente e accurata delle esperienze al momento della scrittura – come ottenuta dal framework GSW – produce guadagni sia in termini di efficienza che di affidabilità al momento della lettura. Il codice è disponibile all'indirizzo https://github.com/roychowdhuryresearch/gsw-memory.

Persuasione Visiva: Cosa Influenza le Decisioni dei Modelli Visione-Linguaggio?
Visual Persuasion: What Influences Decisions of Vision-Language Models?

Feb 17

ByManuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh

Il web è disseminato di immagini, create in origine per il consumo umano e ora sempre più interpretate da agenti che utilizzano modelli visione-linguaggio (VLM). Questi agenti prendono decisioni visive su larga scala, decidendo cosa cliccare, raccomandare o acquistare. Tuttavia, sappiamo poco della struttura delle loro preferenze visive. Introduciamo un framework per studiare questo fenomeno ponendo i VLM in compiti di scelta basati su immagini controllati e perturbando sistematicamente i loro input. La nostra idea chiave è trattare la funzione decisionale dell'agente come un'utilità visiva latente che può essere inferita attraverso la preferenza rivelata: scelte tra immagini modificate sistematicamente. Partendo da immagini comuni, come foto di prodotti, proponiamo metodi per l'ottimizzazione del prompt visivo, adattando i metodi di ottimizzazione del testo per proporre e applicare iterativamente modifiche visivamente plausibili utilizzando un modello di generazione di immagini (ad esempio nella composizione, nell'illuminazione o nello sfondo). Valutiamo quindi quali modifiche aumentano la probabilità di selezione. Attraverso esperimenti su larga scala condotti su VLM all'avanguardia, dimostriamo che modifiche ottimizzate alterano significativamente le probabilità di scelta in confronti testa a testa. Sviluppiamo una pipeline di interpretabilità automatica per spiegare queste preferenze, identificando temi visivi coerenti che guidano la selezione. Sosteniamo che questo approccio offra un modo pratico ed efficiente per far emergere vulnerabilità visive e problemi di sicurezza che altrimenti potrebbero essere scoperti implicitamente "in the wild", supportando audit e governance più proattivi per gli agenti di IA basati su immagini.

La scalatura prescrittiva rivela l'evoluzione delle capacità dei modelli linguistici.
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Feb 17

ByHanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade

Per la distribuzione di modelli fondazionali, i professionisti necessitano sempre più di leggi di scaling prescrittive: dato un budget computazionale per il pre-addestramento, quale accuratezza downstream è raggiungibile con le moderne pratiche di post-addestramento, e quanto è stabile questa mappatura con l'evolversi del settore? Utilizzando valutazioni osservative su larga scala con 5k dati osservativi e 2k dati appena campionati sulle prestazioni dei modelli, stimiamo i confini delle capacità, ovvero i quantili condizionati elevati dei punteggi di benchmark in funzione del logaritmo dei FLOP di pre-addestramento, tramite regressione quantile smoothed con una parametrizzazione sigmoide monotona e saturante. Convalidiamo l'affidabilità temporale adattando il modello su generazioni di modelli precedenti e valutandolo su release successive. In varie attività, i confini stimati sono per lo più stabili, ad eccezione del ragionamento matematico che mostra un confine in costante avanzamento nel tempo. Estendiamo quindi il nostro approccio per analizzare la saturazione dipendente dal compito e per investigare gli spostamenti legati alla contaminazione nelle attività di ragionamento matematico. Infine, introduciamo un algoritmo efficiente che recupera le frontiere dei dati quasi complete utilizzando circa il 20% del budget di valutazione. Insieme, il nostro lavoro rilascia il Proteus 2k, il più recente dataset di valutazione delle prestazioni dei modelli, e introduce una metodologia pratica per tradurre i budget computazionali in aspettative di prestazione affidabili e per monitorare quando i confini delle capacità si spostano nel tempo.

STAPO: Stabilizzazione dell'Apprendimento per Rinforzo per LLM Tramite l'Abbattimento dei Token Spuri Rari
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Feb 17

ByShiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li

L'apprendimento per rinforzo (RL) ha migliorato significativamente il ragionamento dei grandi modelli linguistici, ma i metodi di fine-tuning RL esistenti si basano pesantemente su tecniche euristiche come la regolarizzazione dell'entropia e il ripesaggio per mantenere la stabilità. In pratica, essi sperimentano spesso un collasso delle prestazioni nelle fasi finali, portando a un deterioramento della qualità del ragionamento e a un addestramento instabile. Deriviamo che l'ampiezza dei gradienti della politica per token in RL è negativamente correlata con la probabilità del token e con l'entropia locale della politica. Basandoci su questo risultato, dimostriamo che l'instabilità dell'addestramento è guidata da una piccolissima frazione di token, circa lo 0,01%, che definiamo token spurii. Quando tali token compaiono in risposte corrette, contribuiscono poco all'esito del ragionamento ma ereditano la ricompensa a livello di sequenza completa, portando ad aggiornamenti del gradiente anormalmente amplificati. Motivati da questa osservazione, proponiamo l'ottimizzazione della politica consapevole dei token spurii (STAPO) per l'affinamento di modelli su larga scala, che maschera selettivamente tali aggiornamenti e rinormalizza la perdita sui token validi. In sei benchmark di ragionamento matematico che utilizzano i modelli base Qwen 1.7B, 8B e 14B, STAPO dimostra costantemente una superiorità nella stabilità dell'entropia e raggiunge un miglioramento prestazionale medio del 7,13% rispetto a GRPO, 20-Entropy e JustRL.

Apprendimento della Continuazione Nativa per Politiche di Flusso di Segmentazione delle Azioni
Learning Native Continuation for Action Chunking Flow Policies

Feb 13

ByYufeng Liu, Hang Yu, Juntu Zhao, Bocheng Li, Di Zhang, Mingzhu Li, Wenxuan Wu, Yingdong Hu, Junyuan Xie, Junliang Guo, Dequan Wang, Yang Gao

La segmentazione delle azioni consente ai modelli Vision Language Action (VLA) di operare in tempo reale, ma l'esecuzione ingenua delle azioni segmentate presenta spesso discontinuità ai confini dei segmenti. Il Real-Time Chunking (RTC) mitiga questo problema, ma essendo esterno alla policy, porta a commutazioni multimodali spurie e traiettorie non intrinsecamente fluide. Proponiamo Legato, un metodo di continuazione applicato durante l'addestramento per policy VLA basate su flusso con azioni segmentate. Nello specifico, Legato inizializza il processo di rimozione del rumore partendo da una miscela, modellata in base allo scheduling, di azioni note e rumore, esponendo così il modello a informazioni parziali sulle azioni. Inoltre, Legato rimodella la dinamica del flusso appresa per garantire la coerenza del processo di rimozione del rumore tra addestramento e inferenza sotto guida passo-passo. Legato utilizza inoltre una condizione di scheduling randomizzata durante l'addestramento per supportare ritardi di inferenza variabili e raggiungere una fluidità controllabile. Empiricamente, Legato produce traiettorie più fluide e riduce le commutazioni multimodali spurie durante l'esecuzione, portando a minori esitazioni e tempi di completamento del task più brevi. Esperimenti estensivi nel mondo reale mostrano che Legato supera costantemente l'RTC in cinque compiti di manipolazione, ottenendo miglioramenti approssimativi del 10% sia nella fluidità della traiettoria che nel tempo di completamento del task.

Il Wormhole Visivo: Comunicazione nello Spazio Latente nei Sistemi Multi-Agente Eterogenei
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Feb 17

ByXiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao

I sistemi multi-agente (MAS) alimentati da Large Language Model hanno sbloccato capacità di ragionamento collaborativo avanzate, ma rimangono vincolati dall'inefficienza della comunicazione testuale discreta, che comporta un significativo sovraccarico computazionale e una perdita di informazione per quantizzazione. Sebbene il trasferimento di stati latenti offra un'alternativa a larga banda, gli approcci esistenti presuppongono architetture omogenee mittente-destinatario o si basano su traduttori appresi specifici per coppie, limitando scalabilità e modularità tra diverse famiglie di modelli con varietà disgiunte. In questo lavoro proponiamo Vision Wormhole, un framework innovativo che riutilizza l'interfaccia visiva dei Vision-Language Model (VLM) per abilitare una comunicazione indipendente dal testo e agnostica al modello. Introducendo un Codec Visivo Universale, mappiamo tracce eterogenee di ragionamento in uno spazio latente continuo condiviso e le iniettiamo direttamente nel pathway visivo del ricevitore, trattando di fatto l'encoder visivo come una porta universale per la telepatia inter-agente. Il nostro framework adotta una topologia hub-and-spoke per ridurre la complessità di allineamento a coppie da O(N²) a O(N) e sfrutta un obiettivo di distillazione teacher-student senza etichette per allineare il canale visivo ad alta velocità con i pattern di ragionamento robusti del pathway testuale. Esperimenti estesi su famiglie di modelli eterogenee (ad esempio Qwen-VL, Gemma) dimostrano che Vision Wormhole riduce il tempo di esecuzione end-to-end in confronti controllati, mantenendo una fedeltà di ragionamento comparabile ai MAS testuali standard. Il codice è disponibile all'indirizzo https://github.com/xz-liu/heterogeneous-latent-mas

ClinAlign: Scalabilità dell'Allineamento Sanitario dalle Preferenze Cliniche
ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Feb 10

ByShiwei Lyu, Xidong Wang, Lei Liu, Hao Zhu, Chaohe Zhang, Jian Wang, Jinjie Gu, Benyou Wang, Yue Shen

Sebbene i grandi modelli linguistici (LLM) dimostrino conoscenze mediche di livello esperto, allineare le loro risposte aperte con le preferenze granulari dei clinici rimane una sfida. I metodi esistenti spesso si basano su obiettivi approssimativi o su giudici automatici inaffidabili, debolmente ancorati alle linee guida professionali. Proponiamo un framework in due fasi per colmare questa lacuna. In primo luogo, introduciamo HealthRubrics, un dataset di 7.034 esempi di preferenze verificate da medici, in cui i clinici perfezionano rubriche redatte da LLM per soddisfare rigorosi standard medici. In secondo luogo, distilliamo queste rubriche in HealthPrinciples: 119 principi ampiamente riutilizzabili e clinicamente fondati, organizzati per dimensioni cliniche, che consentono una supervisione scalabile oltre l'annotazione manuale. Utilizziamo HealthPrinciples per (1) un allineamento offline sintetizzando rubriche per query non etichettate e (2) come strumento in fase di inferenza per una revisione guidata autonoma. Un modello da 30B di parametri che attiva solo 3B di parametri durante l'inferenza, addestrato con il nostro framework, raggiunge il 33,4% su HealthBench-Hard, superando modelli molto più grandi come Deepseek-R1 e o3, stabilendo un baseline efficiente in termini di risorse per l'allineamento clinico.

Rilevamento dell'Overflow nelle Rappresentazioni Token Compresse per la Generazione Aumentata con Recupero
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

Feb 12

ByJulia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko

L'elaborazione efficiente di contesti lunghi rimane una sfida cruciale per i moderni grandi modelli linguistici (LLM), specialmente in ambienti con risorse limitate. Le architetture a compressione soft promettono di estendere la lunghezza effettiva del contesto sostituendo lunghe sequenze di token con insiemi più piccoli di token compressi appresi. Tuttavia, i limiti della comprimibilità – e quando la compressione inizia a cancellare contenuti rilevanti per il task – rimangono poco esplorati. In questo articolo, definiamo l'overflow di token come un regime in cui le rappresentazioni compresse non contengono più informazioni sufficienti per rispondere a una determinata query, e proponiamo una metodologia per caratterizzarlo e rilevarlo. Nell'ambito della compressione soft xRAG, scopriamo che le statistiche di saturazione indipendenti dalla query separano in modo affidabile le rappresentazioni di token compresse da quelle non compresse, fornendo uno strumento pratico per identificare i token compressi ma mostrando una capacità limitata di rilevamento dell'overflow. Classificatori di probing leggeri applicati sia alle rappresentazioni della query che del contesto in xRAG rilevano l'overflow con una media di 0.72 AUC-ROC sui dataset HotpotQA, SQuADv2 e TriviaQA, dimostrando che l'incorporazione delle informazioni della query migliora le prestazioni di rilevamento. Questi risultati rappresentano un avanzamento dalle diagnostiche indipendenti dalla query a rilevatori query-aware, abilitando un gating pre-LLM a basso costo per mitigare gli errori indotti dalla compressione.

Quanto Ragionamento Aggiungono i Modelli Potenziati dal Recupero Oltre i LLM? Un Framework di Benchmarking per l'Inferenza Multi-Hop su Conoscenza Ibrida
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

Feb 10

ByJunhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu

I grandi modelli linguistici (LLM) continuano ad avere difficoltà con domande ad alta intensità di conoscenza che richiedono informazioni aggiornate e ragionamenti multi-hop. Il potenziamento degli LLM con conoscenze esterne ibride, come testo non strutturato e grafi di conoscenza strutturati, offre un'alternativa promettente ai costosi addestramenti continui. Pertanto, una valutazione affidabile delle loro capacità di recupero e ragionamento diventa cruciale. Tuttavia, molti benchmark esistenti si sovrappongono sempre più ai dati di pre-addestramento degli LLM, il che significa che le risposte o le conoscenze di supporto potrebbero essere già codificate nei parametri del modello, rendendo difficile distinguere il genuino recupero e ragionamento dal richiamo parametrico. Introduciamo HybridRAG-Bench, un framework per costruire benchmark per valutare il ragionamento multi-hop ad alta intensità di recupero su conoscenze ibride. HybridRAG-Bench accoppia automaticamente rappresentazioni di testo non strutturato e grafi di conoscenza strutturati derivati dalla recente letteratura scientifica su arXiv e genera coppie domanda-risposta ad alta intensità di conoscenza basate su percorsi di ragionamento espliciti. Il framework supporta una selezione flessibile del dominio e dell'intervallo temporale, consentendo una valutazione personalizzata e consapevole della contaminazione man mano che i modelli e le conoscenze evolvono. Esperimenti condotti in tre domini (intelligenza artificiale, governance e politica, e bioinformatica) dimostrano che HybridRAG-Bench premia il genuino recupero e ragionamento piuttosto che il richiamo parametrico, offrendo un banco di prova strutturato per valutare sistemi di ragionamento potenziati da conoscenze ibride. Rilasciamo il nostro codice e i nostri dati su github.com/junhongmit/HybridRAG-Bench.