HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

21 papers found

AgentDoG: Un Quadro di Guardrail Diagnostico per la Sicurezza e la Protezione degli Agenti IA
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Jan 26

ByDongrui Liu, Qihan Ren, Chen Qian, Shuai Shao, Yuejin Xie, Yu Li, Zhonghao Yang, Haoyu Luo, Peng Wang, Qingyu Liu, Binxin Hu, Ling Tang, Jilin Mei, Dadi Guo, Leitao Yuan, Junyao Yang, Guanxu Chen, Qihao Lin, Yi Yu, Bo Zhang, Jiaxuan Guo, Jie Zhang, Wenqi Shao, Huiqi Deng, Zhiheng Xi, Wenjie Wang, Wenxuan Wang, Wen Shen, Zhikai Chen, Haoyu Xie, Jialing Tao, Juntao Dai, Jiaming Ji, Zhongjie Ba, Linfeng Zhang, Yong Liu, Quanshi Zhang, Lei Zhu, Zhihua Wei, Hui Xue, Chaochao Lu, Jing Shao, Xia Hu

122

L'ascesa degli agenti di IA introduce complesse sfide di sicurezza e protezione derivanti dall'uso autonomo di strumenti e dalle interazioni ambientali. Gli attuali modelli di guardrail mancano di consapevolezza del rischio agentico e di trasparenza nella diagnosi del rischio. Per introdurre un guardrail agentico che copra comportamenti rischiosi complessi e numerosi, proponiamo innanzitutto una tassonomia tridimensionale unificata che categorizza ortogonalmente i rischi agentici in base alla loro fonte (dove), modalità di fallimento (come) e conseguenza (cosa). Guidati da questa tassonomia strutturata e gerarchica, introduciamo un nuovo benchmark di sicurezza agentica granulare (ATBench) e un framework di Guardrail Diagnostico per la sicurezza e protezione degli agenti (AgentDoG). AgentDoG fornisce un monitoraggio granulare e contestuale lungo le traiettorie degli agenti. Ancora più crucialmente, AgentDoG è in grado di diagnosticare le cause profonde delle azioni non sicure e delle azioni apparentemente sicure ma irragionevoli, offrendo provenienza e trasparenza oltre le etichette binarie per facilitare un efficace allineamento degli agenti. Le varianti di AgentDoG sono disponibili in tre dimensioni (4B, 7B e 8B parametri) tra le famiglie di modelli Qwen e Llama. I risultati sperimentali estensivi dimostrano che AgentDoG raggiunge prestazioni all'avanguardia nella moderazione della sicurezza agentica in scenari interattivi diversificati e complessi. Tutti i modelli e i dataset sono rilasciati apertamente.

AdaReasoner: Orchestrazione Dinamica di Strumenti per il Ragionamento Visivo Iterativo
AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Jan 26

ByMingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng

Quando gli esseri umani affrontano problemi che superano le loro capacità immediate, ricorrono a strumenti, offrendo un paradigma promettente per migliorare il ragionamento visivo nei modelli linguistici multimodali di grandi dimensioni (MLLM). Un ragionamento efficace, pertanto, dipende dalla capacità di sapere quali strumenti utilizzare, quando invocarli e come combinarli in più fasi, anche quando si confrontano con strumenti nuovi o compiti inediti. Presentiamo AdaReasoner, una famiglia di modelli multimodali che apprende l'uso degli strumenti come abilità di ragionamento generale, anziché come comportamento specifico per un dato strumento o supervisionato esplicitamente. AdaReasoner è reso possibile da: (i) una pipeline scalabile di curatela dei dati che espone i modelli a interazioni con strumenti multi-step e a lungo termine; (ii) Tool-GRPO, un algoritmo di apprendimento per rinforzo che ottimizza la selezione e la sequenziazione degli strumenti in base al successo del compito finale; e (iii) un meccanismo di apprendimento adattivo che regola dinamicamente l'uso degli strumenti. Insieme, questi componenti consentono ai modelli di inferire l'utilità degli strumenti dal contesto del compito e dai risultati intermedi, permettendo il coordinamento di più strumenti e la generalizzazione a strumenti non visti. Empiricamente, AdaReasoner mostra comportamenti marcati di adattamento e generalizzazione nell'uso degli strumenti: adotta autonomamente strumenti benefici, sopprime quelli irrilevanti e regola la frequenza d'uso in base alle esigenze del compito, pur non essendo mai stato addestrato esplicitamente per farlo. Queste capacità si traducono in prestazioni all'avanguardia su benchmark complessi, migliorando il modello base da 7B in media del +24,9% e superando forti sistemi proprietari come GPT-5 in molteplici compiti, inclusi VSP e Jigsaw.

Un Modello di Base Pragmatico per il VLA
A Pragmatic VLA Foundation Model

Jan 26

ByWei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang, Shuailei Ma, Yiyu Ren, Kejia Zhang, Hui Yu, Jingmei Zhao, Shuai Zhou, Zhenqi Qiu, Houlong Xiong, Ziyu Wang, Zechen Wang, Ran Cheng, Yong-Lu Li, Yongtao Huang, Xing Zhu, Yujun Shen, Kecheng Zheng

Dotato di un grande potenziale nella manipolazione robotica, un modello base VLA (Vision-Language-Action) capace è atteso per generalizzare fedelmente tra diversi compiti e piattaforme, garantendo al contempo efficienza dei costi (ad esempio, in termini di dati e ore di GPU necessarie per l'adattamento). A tal fine, abbiamo sviluppato LingBot-VLA utilizzando circa 20.000 ore di dati del mondo reale provenienti da 9 configurazioni popolari di robot a doppio braccio. Attraverso una valutazione sistematica su 3 piattaforme robotiche, ciascuna delle quali ha completato 100 compiti con 130 episodi post-addestramento per compito, il nostro modello ha dimostrato una chiara superiorità rispetto ai concorrenti, evidenziando le sue solide prestazioni e un'ampia generalizzabilità. Abbiamo inoltre realizzato una codebase efficiente, che garantisce una velocità di elaborazione di 261 campioni al secondo per GPU con una configurazione di addestramento a 8 GPU, rappresentando un incremento di velocità di 1,5~2,8 volte (a seconda del modello base VLM utilizzato) rispetto alle codebase esistenti orientate al VLA. Le caratteristiche sopra descritte garantiscono che il nostro modello sia ben adatto per un impiego nel mondo reale. Per far progredire il campo dell'apprendimento robotico, forniamo libero accesso al codice, al modello base e ai dati di benchmark, con l'obiettivo di abilitare compiti più impegnativi e promuovere standard di valutazione solidi.

Youtu-VL: Sfruttare il Potenziale Visivo tramite Supervisione Unificata Visione-Linguaggio
Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision

Jan 27

ByZhixiang Wei, Yi Li, Zhehan Kan, Xinghua Jiang, Zuwei Long, Shifeng Liu, Hongze Shen, Wei Liu, Xiaoyu Tan, Haojia Lin, Yubo Zhu, Qianyu Li, Di Yin, Haoyu Cao, Weibo Gu, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Mingkong Tang, Shuangyin Liu, Lexiang Tang, Haodong Lin, Junru Lu, Jiarui Qin, Lingfeng Qiao, Ruizhi Qiao, Bo Ke, Jianfeng He, Ke Li, Yangning Li, Yunhang Shen, Mengdan Zhang, Peixian Chen, Kun Yin, Bing Liu, Yunfei Wu, Huang Chen, Zhongpeng Cai, Xiaotian Li

Nonostante i significativi progressi rappresentati dai Modelli Visione-Linguaggio (VLM), le architetture attuali mostrano spesso limitazioni nel conservare le informazioni visive di fine dettaglio, portando a una comprensione multimodale di tipo granulare-grossolano. Attribuiamo questa carenza a un paradigma di addestramento subottimale, intrinseco ai VLM prevalenti, che presenta un bias di ottimizzazione dominato dal testo, concettualizzando i segnali visivi semplicemente come input condizionali passivi piuttosto che come target di supervisione. Per mitigare ciò, introduciamo Youtu-VL, un framework che sfrutta il paradigma di Supervisione Autoregressiva Unificata Visione-Linguaggio (VLUAS), che sposta fondamentalmente l'obiettivo di ottimizzazione da "visione-come-input" a "visione-come-target". Integrando direttamente i token visivi nel flusso predittivo, Youtu-VL applica una supervisione autoregressiva unificata sia ai dettagli visivi che al contenuto linguistico. Inoltre, estendiamo questo paradigma per includere task incentrati sulla visione, consentendo a un VLM standard di eseguire tali compiti senza aggiunte specifiche. Valutazioni empiriche estensive dimostrano che Youtu-VL raggiunge prestazioni competitive sia sui task multimodali generali che su quelli incentrati sulla visione, stabilendo una solida base per lo sviluppo di agenti visivi generalisti e completi.

La Generazione Visiva Sblocca il Ragionamento Umano attraverso Modelli Multimodali del Mondo
Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Jan 27

ByJialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long

Gli esseri umani costruiscono modelli interni del mondo e ragionano manipolando i concetti all'interno di questi modelli. I recenti progressi nell'IA, in particolare il ragionamento a catena di pensiero (CoT), approssimano tali abilità cognitive umane, dove si ritiene che i modelli del mondo siano incorporati all'interno di grandi modelli linguistici. Prestazioni di livello esperto in domini formali e astratti come la matematica e la programmazione sono state raggiunte dai sistemi attuali affidandosi prevalentemente al ragionamento verbale. Tuttavia, questi sistemi sono ancora molto inferiori agli esseri umani in domini come l'intelligenza fisica e spaziale, che richiedono rappresentazioni e conoscenze pregresse più ricche. L'emergere di modelli multimodali unificati (UMM) capaci di generazione sia verbale che visiva ha quindi suscitato interesse verso un ragionamento più simile a quello umano, basato su percorsi multimodali complementari, sebbene i loro benefici rimangano poco chiari. Da una prospettiva di modellazione del mondo, questo articolo presenta il primo studio sistematico su quando e come la generazione visiva avvantaggia il ragionamento. La nostra posizione chiave è l'ipotesi della superiorità visiva: per determinati compiti – in particolare quelli radicati nel mondo fisico – la generazione visiva serve più naturalmente come modello del mondo, mentre i modelli del mondo puramente verbali incontrano colli di bottiglia derivanti da limitazioni rappresentative o da conoscenze pregresse insufficienti. Teoricamente, formalizziamo la modellazione interna del mondo come componente centrale del ragionamento CoT e analizziamo le distinzioni tra le diverse forme di modelli del mondo. Empiricamente, identifichiamo compiti che necessitano di un ragionamento CoT visivo-verbale intervallato, costruendo una nuova suite di valutazione, VisWorld-Eval. Esperimenti controllati su un UMM all'avanguardia mostrano che il CoT intervallato supera significativamente il CoT puramente verbale nei compiti che favoriscono la modellazione visiva del mondo, ma non offre alcun chiaro vantaggio negli altri casi. Nel complesso, questo lavoro chiarisce il potenziale della modellazione multimodale del mondo per un'IA multimodale più potente e simile a quella umana.

L'Auto-Distillazione Abilita l'Apprendimento Continuo
Self-Distillation Enables Continual Learning

Jan 27

ByIdan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal

L'apprendimento continuo, che consente ai modelli di acquisire nuove abilità e conoscenze senza degradare le capacità esistenti, rimane una sfida fondamentale per i modelli di base. Sebbene l'apprendimento per rinforzo on-policy possa ridurre la dimenticanza, richiede funzioni di ricompensa esplicite che spesso non sono disponibili. L'apprendimento da dimostrazioni di esperti, la principale alternativa, è dominato dalla messa a punto supervisionata (SFT), che è intrinsecamente off-policy. Introduciamo la messa a punto per auto-distillazione (SDFT), un metodo semplice che consente l'apprendimento on-policy direttamente dalle dimostrazioni. SDFT sfrutta l'apprendimento contestuale utilizzando un modello condizionato alla dimostrazione come proprio insegnante, generando segnali di addestramento on-policy che preservano le capacità pregresse mentre acquisiscono nuove abilità. In compiti di apprendimento di abilità e acquisizione di conoscenze, SDFT supera costantemente la SFT, raggiungendo una maggiore accuratezza nei nuovi compiti riducendo sostanzialmente la dimenticanza catastrofica. In esperimenti di apprendimento sequenziale, SDFT consente a un singolo modello di accumulare più abilità nel tempo senza regressioni delle prestazioni, stabilendo la distillazione on-policy come un percorso pratico per l'apprendimento continuo da dimostrazioni.

Post-LayerNorm è di ritorno: Stabile, Espressivo e Profondo
Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

Jan 27

ByChen Chen, Lai Wei

La scalabilità dei grandi modelli linguistici (LLM) sta raggiungendo un limite. L'ampliamento dei modelli produce rendimenti decrescenti e l'estensione della lunghezza del contesto non migliora l'espressività fondamentale. Al contrario, la scalabilità in profondità offre un'espressività teoricamente superiore, eppure le attuali architetture Transformer faticano ad addestrarsi in modo affidabile a profondità estreme. Riconsideriamo la formulazione Post-LayerNorm (Post-LN), la cui instabilità su larga scala ne ha causato la sostituzione con la Pre-LN nei moderni LLM. Dimostriamo che la principale modalità di fallimento della Post-LN deriva dal percorso residuo in stile ResNet, che introduce lo scomparsa del gradiente nelle reti profonde. Presentiamo Keel, un Transformer Post-LN che sostituisce questo percorso residuo con una connessione in stile Highway. Questa modifica preserva il flusso del gradiente attraverso il ramo residuo, prevenendo la scomparsa del segnale dagli strati superiori a quelli inferiori. A differenza dei metodi precedenti, Keel consente un addestramento stabile a profondità estreme senza richiedere inizializzazioni specializzate o complessi trucchi di ottimizzazione. Keel si addestra in modo robusto a profondità superiori a 1000 livelli e migliora costantemente la perplessità e le caratteristiche di scalabilità in profondità rispetto alla Pre-LN. Questi risultati indicano che la Post-LN, se abbinata a una connessione in stile Highway, fornisce una base semplice ed efficace per costruire LLM profondamente scalabili, aprendo la possibilità per future architetture a profondità infinita.

AVMeme Exam: Un Benchmark Multimodale, Multilingue e Multiculturale per le Conoscenze Contestuali, Culturali e il Ragionamento dei Modelli Linguistici di Grande Dimensione
AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

Jan 25

ByXilin Jiang, Qiaolin Wang, Junkai Wu, Xiaomin He, Zhongweiyang Xu, Yinghao Ma, Minshuo Piao, Kaiyi Yang, Xiuwen Zheng, Riki Shimizu, Yicong Chen, Arsalan Firoozi, Gavin Mischler, Sukru Samet Dindar, Richard Antonello, Linyang He, Tsun-An Hsieh, Xulin Fan, Yulun Wu, Yuesheng Ma, Chaitanya Amballa, Weixiong Chen, Jiarui Hai, Ruisi Li, Vishal Choudhari, Cong Han, Yinghao Aaron Li, Adeen Flinker, Mounya Elhilali, Emmanouil Benetos, Mark Hasegawa-Johnson, Romit Roy Choudhury, Nima Mesgarani

I clip audio-visuali di Internet veicolano significati attraverso suoni e movimenti variabili nel tempo, che vanno oltre ciò che il solo testo può rappresentare. Per esaminare se i modelli di intelligenza artificiale possono comprendere tali segnali nei contesti culturali umani, introduciamo AVMeme Exam, un benchmark curato da esseri umani comprendente oltre mille suoni e video iconici di Internet, che spaziano da discorsi, canzoni, musica a effetti sonori. Ogni meme è associato a un unico set di domande e risposte che valuta i livelli di comprensione, dal contenuto superficiale al contesto, dall'emozione all'uso e alla conoscenza generale, insieme a metadati come l'anno originale, la trascrizione, il riassunto e la sensibilità. Valutiamo sistematicamente modelli linguistici multimodali all'avanguardia (MLLM) insieme a partecipanti umani utilizzando questo benchmark. I nostri risultati rivelano una limitazione costante: i modelli attuali performano scarsamente su musica ed effetti sonori privi di testo, e faticano a ragionare in modo contestuale e culturale rispetto al contenuto superficiale. Questi risultati evidenziano un divario cruciale nell'intelligenza multimodale allineata con le capacità umane e richiedono modelli in grado di percepire oltre la superficie di ciò che sentono e vedono, in modo contestuale e culturale. Pagina del progetto: avmemeexam.github.io/public

World Craft: Framework Agente per Creare Mondi Visualizzabili tramite Testo
World Craft: Agentic Framework to Create Visualizable Worlds via Text

Jan 14

ByJianwen Sun, Yukang Feng, Kaining Ying, Chuanhao Li, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Yifan Chang, Yu Dai, Yifei Huang, Kaipeng Zhang

I modelli linguistici di grandi dimensioni (LLM) motivano la simulazione di agenti generativi (ad esempio, AI Town) per creare un "mondo dinamico", rivestendo un immenso valore in ambito sia ludico che di ricerca. Tuttavia, per i non esperti, in particolare per chi non possiede competenze di programmazione, è difficile personalizzare autonomamente un ambiente visualizzabile. In questo articolo presentiamo World Craft, un framework per la creazione di mondi agentivi che permette di generare una AI Town eseguibile e visualizzabile tramite descrizioni testuali dell'utente. Esso si compone di due moduli principali: World Scaffold e World Guild. World Scaffold è una standardizzazione strutturata e concisa per sviluppare scene di gioco interattive, fungendo da impalcatura efficiente per gli LLM per personalizzare un ambiente eseguibile simile ad AI Town. World Guild è un framework multi-agente che analizza progressivamente le intenzioni dell'utente partendo da descrizioni approssimative e sintetizza i contenuti strutturati richiesti (ad esempio, layout dell'ambiente e asset) per World Scaffold. Inoltre, abbiamo costruito un dataset di correzione errori di alta qualità tramite reverse engineering per migliorare la conoscenza spaziale e aumentare la stabilità e la controllabilità della generazione del layout, riportando al contempo metriche di valutazione multidimensionali per analisi future. Esperimenti estensivi dimostrano che il nostro framework supera significativamente gli agenti di codice commerciali esistenti (Cursor e Antigravity) e gli LLM (Qwen3 e Gemini-3-Pro) nella costruzione di scene e nella trasmissione dell'intento narrativo, fornendo una soluzione scalabile per la democratizzazione della creazione di ambienti.

Verso una Percezione VLM a Livello di Pixel tramite una Semplice Predizione di Punti
Towards Pixel-Level VLM Perception via Simple Points Prediction

Jan 27

ByTianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang

Presentiamo SimpleSeg, un approccio sorprendentemente semplice ma altamente efficace per dotare i Modelli Linguistici Multimodali (MLLM) di una percezione nativa a livello di pixel. Il nostro metodo ridefinisce la segmentazione come un semplice problema di generazione di sequenze: il modello predice direttamente sequenze di punti (coordinate testuali) che delineano i contorni degli oggetti, interamente all'interno del suo spazio linguistico. Per ottenere un'alta fedeltà, introduciamo una pipeline di addestramento in due fasi SFtoRL, in cui l'Apprendimento per Rinforzo con una ricompensa basata sull'IoU affina le sequenze di punti per farle corrispondere accuratamente ai contorni di verità fondamentale. Scopriamo che l'architettura standard degli MLLM possiede una forte capacità intrinseca per la percezione di basso livello che può essere sbloccata senza alcuna architettura specializzata. Sui benchmark di segmentazione, SimpleSeg raggiunge prestazioni paragonabili, e spesso superiori, a metodi che si basano su progetti complessi e specifici per il compito. Questo lavoro dimostra che una comprensione spaziale precisa può emergere dalla semplice predizione di punti, mettendo in discussione la necessità prevalente di componenti ausiliarie e spianando la strada per VLM più unificati e capaci. Homepage: https://simpleseg.github.io/

FABLE: Recupero Adattivo a Doppio Percorso Basato su Foreste e Potenziato da LLM per il Ragionamento su Multi-Documento
FABLE: Forest-Based Adaptive Bi-Path LLM-Enhanced Retrieval for Multi-Document Reasoning

Jan 26

ByLin Sun, Linglin Zhang, Jingang Huang, Change Jia, Zhengwei Cheng, Xiangzheng Zhang

La rapida espansione dei Large Language Model (LLM) a contesto lungo ha riacceso il dibattito sulla necessità della Generazione Aumentata dal Recupero (RAG). Tuttavia, evidenze empiriche rivelano persistenti limitazioni dell'inferenza a contesto lungo, incluso il fenomeno del "lost-in-the-middle", l'alto costo computazionale e la scarsa scalabilità per il ragionamento su più documenti. Al contrario, i tradizionali sistemi RAG, sebbene efficienti, sono limitati da un recupero piatto a livello di segmenti (chunk) che introduce rumore semantico e non supporta una sintesi strutturata tra documenti. Presentiamo FABLE, un framework di recupero bi-direzionale adattativo e potenziato da LLM, basato su una struttura ad albero (forest), che integra gli LLM sia nell'organizzazione della conoscenza che nel recupero. FABLE costruisce indici gerarchici a foresta potenziati da LLM con strutture semantiche multi-granularità, quindi impiega una strategia bi-direzionale che combina una traversata gerarchica guidata da LLM con una propagazione consapevole della struttura per un'acquisizione fine delle evidenze, con un controllo esplicito del budget per compromessi adattivi di efficienza. Esperimenti estensivi dimostrano che FABLE supera costantemente i metodi RAG allo stato dell'arte e raggiunge un'accuratezza paragonabile all'inferenza LLM a contesto completo con una riduzione fino al 94% dei token, mostrando come gli LLM a contesto lungo amplifichino, piuttosto che sostituire completamente, la necessità di un recupero strutturato.

TriPlay-RL: Apprendimento per Rinforzo con Auto-Gioco a Tre Ruoli per l'Allineamento alla Sicurezza degli LLM
TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

Jan 26

ByZhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun

Negli ultimi anni, i rischi per la sicurezza associati ai grandi modelli linguistici sono diventati sempre più rilevanti, evidenziando l'urgente necessità di mitigare la generazione di contenuti tossici e dannosi. Il paradigma principale per l'allineamento alla sicurezza degli LLM adotta tipicamente una struttura collaborativa che coinvolge tre ruoli: un attaccante per la generazione di prompt avversariali, un difensore per la sicurezza e un valutatore per la valutazione delle risposte. In questo articolo, proponiamo una struttura di apprendimento per rinforzo a ciclo chiuso denominata TriPlay-RL, che consente una collaborazione iterativa e di miglioramento reciproco tra i tre ruoli con un'annotazione manuale quasi nulla. I risultati sperimentali mostrano che l'attaccante preserva un'elevata diversità di output ottenendo al contempo un miglioramento del 20%-50% nell'efficacia avversariale; il difensore raggiunge un incremento del 10%-30% nelle prestazioni di sicurezza senza degradare le capacità di ragionamento generale; e il valutatore affina continuamente la sua capacità di giudizio granulare attraverso le iterazioni, distinguendo accuratamente tra risposte non sicure, rifiuti semplici e indicazioni utili. Nel complesso, la nostra struttura stabilisce un paradigma efficiente e scalabile per l'allineamento alla sicurezza degli LLM, consentendo una continua co-evoluzione all'interno di un ciclo di apprendimento unificato.

Riconsiderazione del Parameter Server nel Post-Addestramento dei Modelli Linguistici di Grande Dimensione
Revisiting Parameter Server in LLM Post-Training

Jan 27

ByXinyi Wan, Penghui Qi, Guangxing Huang, Chaoyi Ruan, Min Lin, Jialin Li

L'addestramento dati parallelo (DP) moderno privilegia la comunicazione collettiva rispetto ai server dei parametri (PS) per la sua semplicità ed efficienza in condizioni di carico di lavoro bilanciato. Tuttavia, l'assunzione di carico bilanciato non è più valida nel post-addestramento di grandi modelli linguistici (LLM) a causa dell'elevata varianza nelle lunghezze delle sequenze. In condizioni di carico di lavoro squilibrato, la comunicazione collettiva crea barriere di sincronizzazione, portando a un sottoutilizzo dei dispositivi con carichi di lavoro minori. Questo cambiamento nelle dinamiche di addestramento richiede una rivalutazione del paradigma PS per la sua robustezza a tali squilibri. Proponiamo la Comunicazione On-Demand (ODC), che adatta i PS al Fully Sharded Data Parallel (FSDP) sostituendo le operazioni collettive di all-gather e reduce-scatter con una comunicazione diretta punto-punto. Rispetto a FSDP, ODC riduce la barriera di sincronizzazione da una volta per layer a una volta per minibatch e disaccoppia il carico di lavoro su ciascun dispositivo, evitando che i worker più veloci vengano bloccati. Consente inoltre un bilanciamento del carico più semplice ed efficace a livello di minibatch. In varie attività di post-addestramento di LLM, ODC migliora costantemente l'utilizzo dei dispositivi e la velocità di addestramento, raggiungendo un incremento delle prestazioni fino al 36% rispetto allo standard FSDP. Questi risultati dimostrano che ODC è una soluzione superiore per i prevalenti carichi di lavoro squilibrati nel post-addestramento degli LLM. La nostra implementazione di ODC e l'integrazione con FSDP è open-source all'indirizzo https://github.com/sail-sg/odc.

Questioni di HalluCitation: Rivelare l'Impatto dei Riferimenti Allucinati con 300 Articoli Allucinati nelle Conferenze ACL
HalluCitation Matters: Revealing the Impact of Hallucinated References with 300 Hallucinated Papers in ACL Conferences

Jan 26

ByYusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

Recentemente, abbiamo spesso osservato citazioni o riferimenti allucinati che non corrispondono a lavori esistenti in articoli in fase di revisione, preprint o articoli pubblicati. Tali citazioni allucinate pongono un serio problema per l'affidabilità scientifica. Quando compaiono in articoli accettati, possono anche influire negativamente sulla credibilità delle conferenze. In questo studio, ci riferiamo alle citazioni allucinate come "HalluCitation" e indaghiamo sistematicamente la loro prevalenza e il loro impatto. Analizziamo tutti gli articoli pubblicati ad ACL, NAACL ed EMNLP nel 2024 e nel 2025, inclusi gli articoli della conferenza principale, di Findings e dei workshop. La nostra analisi rivela che quasi 300 articoli contengono almeno una HalluCitation, la maggior parte dei quali è stata pubblicata nel 2025. Notevolmente, la metà di questi articoli è stata identificata all'EMNLP 2025, la conferenza più recente, indicando che il problema è in rapida crescita. Inoltre, più di 100 di questi articoli sono stati accettati come contributi per la conferenza principale e per Findings all'EMNLP 2025, compromettendone la credibilità.

HyperAlign: Iper-rete per l'Allineamento Efficiente al Momento del Test di Modelli di Diffusione
HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models

Jan 22

ByXin Xie, Jiaxian Guo, Dong Gong

I modelli di diffusione raggiungono prestazioni all'avanguardia, ma spesso falliscono nel generare output allineati con le preferenze e le intenzioni umane, producendo immagini di scarsa qualità estetica e con incoerenze semantiche. I metodi di allineamento esistenti presentano un difficile compromesso: gli approcci di fine-tuning soffrono di una perdita di diversità a causa dell'iper-ottimizzazione del reward, mentre i metodi di scaling a tempo di test introducono un sovraccarico computazionale significativo e tendono a una sotto-ottimizzazione. Per affrontare queste limitazioni, proponiamo HyperAlign, un framework innovativo che addestra un hypernetwork per un allineamento efficiente ed efficace a tempo di test. Invece di modificare gli stati latenti, HyperAlign genera dinamicamente pesi di adattamento a basso rango per modulare gli operatori di generazione del modello di diffusione. Ciò consente di regolare adattivamente la traiettoria di denoising in base ai latenti di input, ai time-step e ai prompt per un allineamento condizionato al reward. Introduciamo multiple varianti di HyperAlign che differiscono per la frequenza di applicazione dell'hypernetwork, bilanciando prestazioni ed efficienza. Inoltre, ottimizziamo l'hypernetwork utilizzando un obiettivo di punteggio di reward regolarizzato con dati di preferenza per ridurre il reward hacking. Valutiamo HyperAlign su molteplici paradigmi generativi estesi, inclusi Stable Diffusion e FLUX. Il metodo supera significativamente le baseline esistenti di fine-tuning e scaling a tempo di test nel migliorare la coerenza semantica e l'attrattiva visiva.

Controllo Selettivo: Controllo che Preserva le Norme Attraverso la Selezione Stratificata Discriminativa
Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

Jan 27

ByQuy-Anh Dang, Chris Ngo

Nonostante i significativi progressi nell'allineamento, i grandi modelli linguistici (LLM) rimangono vulnerabili ad attacchi avversari che inducono comportamenti dannosi. Le tecniche di *steering* delle attivazioni offrono un approccio promettente di intervento al momento dell'inferenza, ma i metodi esistenti presentano limitazioni critiche: l'addizione di attivazioni richiede una regolazione accurata dei coefficienti ed è sensibile alle variazioni di norma specifiche per strato, mentre l'ablazione direzionale fornisce solo un controllo binario. Recenti lavori sull'*Angular Steering* introducono un controllo continuo mediante rotazione in un sottospazio 2D, ma la sua implementazione pratica viola la preservazione della norma, causando uno spostamento della distribuzione e un collasso della generazione, specialmente in modelli con meno di 7B di parametri. Proponiamo lo *Selective Steering*, che affronta queste limitazioni attraverso due innovazioni chiave: (1) una formulazione matematicamente rigorosa della rotazione che preserva la norma, mantenendo l'integrità della distribuzione delle attivazioni, e (2) una selezione discriminativa degli strati che applica lo *steering* solo dove le rappresentazioni delle feature mostrano un allineamento di classe con segno opposto. Esperimenti condotti su nove modelli dimostrano che lo *Selective Steering* raggiunge tassi di successo degli attacchi 5,5 volte superiori rispetto ai metodi precedenti, mantenendo zero violazioni della perplessità e una ritenzione delle capacità approssimativamente del 100% su benchmark standard. Il nostro approccio fornisce una struttura rigorosa ed efficiente per una modifica del comportamento degli LLM controllabile e stabile. Codice: https://github.com/knoveleng/steering

DeFM: Apprendimento di rappresentazioni di base dalla profondità per la robotica
DeFM: Learning Foundation Representations from Depth for Robotics

Jan 26

ByManthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter

I sensori di profondità sono ampiamente impiegati su piattaforme robotiche, e i progressi nella simulazione di profondità rapida e ad alta fedeltà hanno consentito a politiche robotiche addestrate su osservazioni di profondità di ottenere un robusto trasferimento sim-to-real per un'ampia gamma di compiti. Nonostante ciò, l'apprendimento di rappresentazioni per la modalità di profondità rimane poco esplorato rispetto all'RGB, dove modelli foundation su larga scala definiscono ora lo stato dell'arte. Per colmare questa lacuna, presentiamo DeFM, un modello foundation auto-supervisionato addestrato interamente su immagini di profondità per applicazioni robotiche. Utilizzando un obiettivo di auto-distillazione in stile DINO su un dataset curato di 60 milioni di immagini di profondità, DeFM apprende rappresentazioni geometriche e semantiche che generalizzano a diversi ambienti, compiti e sensori. Per preservare la consapevolezza metrica attraverso scale multiple, introduciamo una nuova strategia di normalizzazione dell'input. Inoltre, distilliamo DeFM in modelli compatti adatti a sistemi robotici con risorse limitate. Quando valutato su benchmark di classificazione, segmentazione, navigazione, locomozione e manipolazione basati sulla profondità, DeFM raggiunge prestazioni all'avanguardia e dimostra una forte generalizzazione dagli ambienti simulati a quelli del mondo reale. Rilasciamo tutti i nostri modelli pre-addestrati, che possono essere adottati immediatamente per l'apprendimento robotico basato sulla profondità senza una messa a punto specifica per il compito. Pagina web: https://de-fm.github.io/

EvolVE: Ricerca Evolutiva per la Generazione e Ottimizzazione di Verilog Basata su LLM
EvolVE: Evolutionary Search for LLM-based Verilog Generation and Optimization

Jan 26

ByWei-Po Hsin, Ren-Hao Deng, Yao-Ting Hsieh, En-Ming Huang, Shih-Hao Hung

Il ciclo di progettazione in Verilog è intrinsecamente laborioso e richiede un'ampia competenza di dominio. Sebbene i Large Language Model (LLM) offrano una strada promettente verso l'automazione, i loro dati di addestramento limitati e il ragionamento sequenziale intrinseco non riescono a cogliere la logica formale rigorosa e la concorrenza insite nei sistemi hardware. Per superare queste barriere, presentiamo EvolVE, il primo framework che analizza multiple strategie evolutive su compiti di progettazione di chip, rivelando come il Monte Carlo Tree Search (MCTS) eccella nel massimizzare la correttezza funzionale, mentre l'Idea-Guided Refinement (IGR) si dimostri superiore per l'ottimizzazione. Sfruttiamo inoltre la Structured Testbench Generation (STG) per accelerare il processo evolutivo. Per colmare la carenza di benchmark complessi di ottimizzazione, introduciamo IC-RTL, mirato a problemi di scala industriale derivati dal National Integrated Circuit Contest. Le valutazioni stabiliscono EvolVE come il nuovo stato dell'arte, raggiungendo il 98,1% su VerilogEval v2 e il 92% su RTLLM v2. Inoltre, sulla suite industriale IC-RTL, il nostro framework supera le implementazioni di riferimento realizzate dai partecipanti al concorso, riducendo il prodotto Power, Performance, Area (PPA) fino al 66% nella codifica di Huffman e del 17% nella media geometrica su tutti i problemi. Il codice sorgente del benchmark IC-RTL è disponibile all'indirizzo https://github.com/weiber2002/ICRTL.

CooperBench: Perché gli Agenti di Programmazione Non Possono Ancora Essere i Tuoi Compagni di Squadra
CooperBench: Why Coding Agents Cannot be Your Teammates Yet

Jan 19

ByArpandeep Khatua, Hao Zhu, Peter Tran, Arya Prabhudesai, Frederic Sadrieh, Johann K. Lieberwirth, Xinkai Yu, Yicheng Fu, Michael J. Ryan, Jiaxin Pei, Diyi Yang

Risolvere i conflitti di team richiede non solo competenze specifiche del compito, ma anche intelligenza sociale per trovare un terreno comune e costruire un consenso. Poiché gli agenti di IA collaborano sempre più spesso in lavori complessi, essi devono sviluppare capacità di coordinamento per funzionare come membri efficaci di una squadra. Tuttavia, ipotizziamo che gli agenti attuali siano privi di queste capacità. Per testare ciò, introduciamo CooperBench, un benchmark composto da oltre 600 compiti di programmazione collaborativa relativi a 12 librerie in 4 linguaggi di programmazione. A ciascun compito vengono assegnati due agenti con diverse funzionalità che possono essere implementate in modo indipendente, ma che potrebbero entrare in conflitto senza un adeguato coordinamento. I compiti sono basati su repository open-source reali con test scritti da esperti. Valutando gli agenti di programmazione all'avanguardia, osserviamo la maledizione del coordinamento: gli agenti raggiungono in media tassi di successo inferiori del 30% quando lavorano insieme, rispetto all'esecuzione di entrambi i compiti individualmente. Ciò contrasta nettamente con i team umani, dove l'aggiunta di membri al team tipicamente migliora la produttività. La nostra analisi rivela tre problemi chiave: (1) i canali di comunicazione si intasano con messaggi vaghi, inopportuni e imprecisi; (2) anche con una comunicazione efficace, gli agenti deviano dai propri impegni; e (3) gli agenti spesso nutrono aspettative errate riguardo ai piani e alla comunicazione altrui. Attraverso simulazioni su larga scala, osserviamo anche comportamenti emergenti di coordinamento rari ma interessanti, tra cui la divisione dei ruoli, la divisione delle risorse e la negoziazione. La nostra ricerca presenta un nuovo benchmark per la programmazione collaborativa e invoca un cambiamento di prospettiva: dal perseguimento della capacità del singolo agente allo sviluppo dell'intelligenza sociale.

GPCR-Filter: un framework di deep learning per la scoperta efficiente e precisa di modulatori dei GPCR
GPCR-Filter: a deep learning framework for efficient and precise GPCR modulator discovery

Jan 27

ByJingjie Ning, Xiangzhen Shen, Li Hou, Shiyi Shen, Jiahao Yang, Junrui Li, Hong Shan, Sanan Wu, Sihan Gao, Huaqiang Eric Xu, Xinheng He

I recettori accoppiati a proteine G (GPCR) regolano diversi processi fisiologici e sono centrali nella farmacologia moderna. Tuttavia, la scoperta di modulatori dei GPCR rimane impegnativa poiché l'attivazione del recettore spesso deriva da complessi effetti allosterici piuttosto che dall'affinità di legame diretta, e i saggi convenzionali sono lenti, costosi e non ottimizzati per catturare queste dinamiche. Qui presentiamo GPCR-Filter, un framework di deep learning sviluppato specificamente per la scoperta di modulatori dei GPCR. Abbiamo assemblato un dataset di alta qualità di oltre 90.000 coppie GPCR-ligando validate sperimentalmente, fornendo una solida base per l'addestramento e la valutazione. GPCR-Filter integra il modello linguistico per proteine ESM-3 per rappresentazioni ad alta fedeltà delle sequenze dei GPCR con reti neurali grafo che codificano le strutture dei ligandi, accoppiate attraverso un meccanismo di fusione basato sull'attenzione che apprende le relazioni funzionali recettore-ligando. In molteplici contesti di valutazione, GPCR-Filter supera costantemente i modelli all'avanguardia per le interazioni composto-proteina ed esibisce una forte generalizzazione per recettori e ligandi non visti. Significativamente, il modello ha identificato con successo agonisti a livello micromolare del recettore 5-HT1A con distinti scaffold chimici. Questi risultati stabiliscono GPCR-Filter come un approccio computazionale scalabile ed efficace per la scoperta di modulatori dei GPCR, avanzando lo sviluppo di farmaci assistito dall'IA per sistemi di segnalazione complessi.

I benchmark si saturano quando il modello diventa più intelligente del giudice
Benchmarks Saturate When The Model Gets Smarter Than The Judge

Jan 27

ByMarthe Ballon, Andres Algaba, Brecht Verbeken, Vincent Ginis

I benchmark sono strumenti importanti per monitorare i progressi nello sviluppo dei Large Language Model (LLM), ma le imprecisioni nei dataset e nei metodi di valutazione ne minano costantemente l'efficacia. Presentiamo qui Omni-MATH-2, una versione rivista manualmente del dataset Omni-MATH che comprende un sottoinsieme pulito con risposte esatte (n=4181) e un sottoinsieme etichettato e non standard (n=247). Ogni problema è stato verificato per garantire la compilabilità in LaTeX, la risolvibilità e la verificabilità, operazione che ha comportato l'aggiunta di figure o informazioni mancanti, l'etichettatura dei problemi che richiedono una dimostrazione, una stima o un'immagine e la rimozione del disordine. Questo processo riduce significativamente il rumore indotto dal dataset, fornendo così una valutazione più precisa delle prestazioni del modello. Il dataset annotato ci permette anche di valutare il rumore indotto dal giudice confrontando GPT-5 mini con l'Omni-Judge originale, rivelando discrepanze sostanziali tra i giudici sia sui sottoinsiemi di problemi puliti che su quelli etichettati. Le annotazioni esperte rivelano che Omni-Judge è errato nel 96,4% delle discrepanze tra giudici, indicando la sua incapacità di differenziare le abilità dei modelli, anche molto prima che il benchmark raggiunga la saturazione. Man mano che i problemi diventano più complessi, scopriamo che giudici sempre più competenti diventano essenziali per evitare che gli errori di giudizio mascherino le differenze genuine tra i modelli. Infine, nessuno dei due giudici identifica le modalità di fallimento presenti per il sottoinsieme di problemi etichettati, dimostrando che la qualità del dataset e l'affidabilità del giudice sono entrambe critiche per sviluppare benchmark accurati delle prestazioni dei modelli.

La Generazione Visiva Sblocca il Ragionamento Umano attraverso Modelli Multimodali del Mondo
Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models

Jan 27

ByJialong Wu, Xiaoying Zhang, Hongyi Yuan, Xiangcheng Zhang, Tianhao Huang, Changjing He, Chaoyi Deng, Renrui Zhang, Youbin Wu, Mingsheng Long