HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

23 papers found

ThinkMorph: Proprietà Emergenti nel Ragionamento a Catena di Pensiero Intervallato Multimodale
ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

Oct 30

ByJiawei Gu, Yunzhuo Hao, Huichen Will Wang, Linjie Li, Michael Qizhe Shieh, Yejin Choi, Ranjay Krishna, Yu Cheng

Il ragionamento multimodale richiede una coordinazione iterativa tra linguaggio e visione, ma rimane poco chiaro cosa costituisca una catena di pensiero intervallata significativa. Proponiamo che i pensieri testuali e visivi dovrebbero funzionare come modalità complementari, piuttosto che isomorfe, che avanzano reciprocamente il ragionamento. Guidati da questo principio, costruiamo ThinkMorph, un modello unificato addestrato su 24.000 tracce di ragionamento intervallato di alta qualità, che abbracciano compiti con diverso coinvolgimento visivo. ThinkMorph impara a generare passaggi di ragionamento testo-immagine progressivi che manipolano concretamente il contenuto visivo mantenendo al contempo una logica verbale coerente. Il modello consegue notevoli miglioramenti su benchmark incentrati sulla visione (in media +34,7% rispetto al modello base) e generalizza a compiti fuori dominio, eguagliando o superando modelli linguistici visivi (VLM) più grandi e proprietari. Oltre alle prestazioni, ThinkMorph mostra un'intelligenza multimodale emergente, che include abilità inedite di manipolazione visiva, commutazione adattiva tra modalità di ragionamento e una migliore scalabilità durante il test grazie a pensieri multimodali diversificati. Questi risultati suggeriscono direzioni promettenti per caratterizzare le capacità emergenti dei modelli unificati per il ragionamento multimodale.

INT contro FP: Uno Studio Completo sui Formati di Quantizzazione a Basso Bit a Grana Fine
INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

Oct 29

ByMengzhao Chen, Meng Wu, Hui Jin, Zhihang Yuan, Jing Liu, Chaoyi Zhang, Yunshui Li, Jie Huang, Jin Ma, Zeyue Xue, Zhiheng Liu, Xingyan Bin, Ping Luo

L'hardware AI moderno, come l'architettura Blackwell di Nvidia, sta abbracciando sempre più formati floating-point (FP) a bassa precisione per gestire i pervasivi outlier di attivazione nei Large Language Model (LLM). Nonostante questa tendenza industriale, è mancato un confronto unificato tra la quantizzazione FP e intera (INT) attraverso diverse granularità, lasciando la co-progettazione di algoritmi e hardware senza una guida chiara. Questo articolo colma tale lacuna investigando sistematicamente i compromessi tra i formati FP e INT. Riveliamo un critico punto di crossover nelle prestazioni: mentre l'FP eccelle nella quantizzazione a granularità grossolana, il confronto a livelli di granularità fine (a livello di blocco) è più articolato. Il nostro confronto completo dimostra che per i popolari formati a 8 bit a granularità fine (ad esempio, MX con dimensione del blocco 32), MXINT8 è superiore alla sua controparte FP sia in accuratezza algoritmica che in efficienza hardware. Tuttavia, per i formati a 4 bit, l'FP (ad esempio, MXFP4, NVFP4) mantiene spesso un vantaggio in accuratezza, sebbene mostriamo che NVINT4 può superare NVFP4 quando vengono applicate tecniche di mitigazione degli outlier come la rotazione di Hadamard. Introduciamo anche un metodo di clipping simmetrico che risolve il bias del gradiente nell'addestramento INT a basso bit e granularità fine, consentendo prestazioni quasi senza perdite per l'addestramento MXINT8. Questi risultati sfidano la traiettoria hardware attuale, dimostrando che un approccio FP universale è subottimale e sostenendo che i formati INT a granularità fine, in particolare MXINT8, offrono un migliore bilanciamento tra accuratezza, potenza ed efficienza per i futuri acceleratori AI.

Modelli linguistici autoregressivi continui
Continuous Autoregressive Language Models

Oct 31

ByChenze Shao, Darren Li, Fandong Meng, Jie Zhou

L'efficienza dei grandi modelli linguistici (LLM) è fondamentalmente limitata dal loro processo di generazione sequenziale, token per token. Sosteniamo che per superare questo collo di bottiglia sia necessario un nuovo asse di progettazione per il scaling degli LLM: aumentare la larghezza di banda semantica di ogni passo generativo. A tal fine, introduciamo i Modelli Linguistici Autoregressivi Continui (CALM), un cambio di paradigma dalla previsione del token successivo discreta alla previsione del vettore successivo continuo. CALM utilizza un autoencoder ad alta fedeltà per comprimere un blocco di K token in un singolo vettore continuo, dal quale i token originali possono essere ricostruiti con un'accuratezza superiore al 99,9%. Ciò ci permette di modellare il linguaggio come una sequenza di vettori continui invece che di token discreti, riducendo il numero di passi generativi di un fattore K. Il cambio di paradigma richiede un nuovo toolkit di modellazione; pertanto, sviluppiamo un framework completo senza verosimiglianza (likelihood-free) che consente un addestramento robusto, una valutazione e un campionamento controllabile nel dominio continuo. Gli esperimenti mostrano che CALM migliora significativamente il compromesso prestazioni-calcolo, raggiungendo le prestazioni di solidi baseline discreti a un costo computazionale significativamente inferiore. Ancora più importante, questi risultati stabiliscono la previsione del vettore successivo come un percorso potente e scalabile verso modelli linguistici ultra-efficienti. Codice: https://github.com/shaochenze/calm. Progetto: https://shaochenze.github.io/blog/2025/CALM.

OS-Sentinel: Verso Agenti GUI Mobili con Sicurezza Potenziata tramite Validazione Ibrida in Flussi di Lavoro Realistici
OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

Oct 28

ByQiushi Sun, Mukai Li, Zhoumianze Liu, Zhihui Xie, Fangzhi Xu, Zhangyue Yin, Kanzhi Cheng, Zehao Li, Zichen Ding, Qi Liu, Zhiyong Wu, Zhuosheng Zhang, Ben Kao, Lingpeng Kong

Gli agenti informatici basati su modelli visione-linguaggio (VLM) hanno dimostrato capacità simili a quelle umane nell'utilizzo di ambienti digitali come le piattaforme mobili. Sebbene questi agenti promettano notevoli progressi nell'automazione digitale, il loro potenziale di operazioni non sicure, come il compromettere sistemi e la violazione della privacy, sta sollevando serie preoccupazioni. Rilevare questi rischi per la sicurezza nell'ampio e complesso spazio operativo degli ambienti mobili rappresenta una sfida formidabile che rimane criticamente poco esplorata. Per gettare le basi della ricerca sulla sicurezza degli agenti mobili, presentiamo MobileRisk-Live, un ambiente sandbox dinamico accompagnato da un benchmark di rilevamento della sicurezza che comprende traiettorie realistiche con annotazioni granulari. Sulla base di questo, proponiamo OS-Sentinel, un innovativo framework ibrido per il rilevamento della sicurezza che combina sinergicamente un Verificatore Formale per individuare violazioni esplicite a livello di sistema con un Giudice Contestuale basato su VLM per valutare i rischi contestuali e le azioni dell'agente. Gli esperimenti mostrano che OS-Sentinel raggiunge miglioramenti del 10%-30% rispetto agli approcci esistenti su molteplici metriche. Un'ulteriore analisi fornisce insight cruciali che favoriscono lo sviluppo di agenti mobili autonomi più sicuri e affidabili.

π_RL: Fine-tuning Online RL per Modelli Flusso-Based Visione-Linguaggio-Azione
π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

Oct 29

ByKang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu

I modelli Vision-Language-Action (VLA) consentono ai robot di comprendere ed eseguire compiti complessi a partire da input multimodali. Sebbene lavori recenti esplorino l'uso dell'apprendimento per rinforzo (RL) per automatizzare il laborioso processo di raccolta dati nel ridimensionamento della messa a punto supervisionata (SFT), l'applicazione dell'RL su larga scala ai VLA basati su flussi (ad es. π₀, π₀.₅) rimane impegnativa a causa delle intrattabili log-verosimiglianze delle azioni derivanti dalla rimozione iterativa del rumore. Affrontiamo questa sfida con π_RL, un framework open-source per l'addestramento di VLA basati su flussi in simulazione parallela. π_RL implementa due algoritmi di RL: (1) *Flow-Noise* modella il processo di rimozione del rumore come un MDP a tempo discreto con una rete del rumore apprendibile per il calcolo esatto della log-verosimiglianza. (2) *Flow-SDE* integra la rimozione del rumore con l'interazione agente-ambiente, formulando un MDP a due livelli che impiega la conversione da ODE a SDE per un'esplorazione RL efficiente. Valutiamo π_RL sui benchmark LIBERO e ManiSkill. Su LIBERO, π_RL migliora i modelli SFT few-shot π₀ e π₀.₅ rispettivamente dal 57.6% al 97.6% e dal 77.1% al 98.3%. In ManiSkill, addestriamo π_RL in 320 ambienti paralleli, migliorando π₀ dal 41.6% all'85.7% e π₀.₅ dal 40.0% all'84.8% su 4352 compiti di pick-and-place, dimostrando un RL multitask scalabile in condizioni di simulazione eterogenea. Nel complesso, π_RL raggiunge significativi miglioramenti delle prestazioni e una generalizzazione più robusta rispetto ai modelli SFT, validando l'efficacia dell'RL online per i VLA basati su flussi.

Sconfiggere la discrepanza addestramento-inferenza tramite FP16
Defeating the Training-Inference Mismatch via FP16

Oct 30

ByPenghui Qi, Zichen Liu, Xiangxin Zhou, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin

L'addestramento per rinforzo (RL) dei grandi modelli linguistici (LLM) soffre spesso di instabilità a causa della discrepanza numerica tra le politiche di training e inferenza. Sebbene lavori precedenti abbiano tentato di mitigare questo problema attraverso correzioni algoritmiche o allineamenti ingegneristici, dimostriamo che la causa principale risiede nella stessa precisione in virgola mobile. Il formato BF16, nonostante il suo ampio range dinamico, introduce grandi errori di arrotondamento che compromettono la coerenza tra training e inferenza. In questo lavoro, dimostriamo che semplicemente ritornando all'FP16 si elimina efficacemente questa discrepanza. La modifica è semplice, è pienamente supportata dai framework moderni con solo poche righe di codice cambiate e non richiede alcuna modifica all'architettura del modello o all'algoritmo di apprendimento. I nostri risultati suggeriscono che l'uso uniforme dell'FP16 produce un'ottimizzazione più stabile, una convergenza più rapida e prestazioni più solide su vari compiti, algoritmi e framework. Speriamo che questi risultati stimolino una più ampia riconsiderazione dei compromessi di precisione nel fine-tuning RL.

Spatial-SSRL: Migliorare la Comprensione Spaziale tramite Apprendimento per Rinforzo Auto-Supervisionato
Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

Oct 31

ByYuhong Liu, Beichen Zhang, Yuhang Zang, Yuhang Cao, Long Xing, Xiaoyi Dong, Haodong Duan, Dahua Lin, Jiaqi Wang

La comprensione spaziale rimane un punto debole dei Large Vision-Language Models (LVLM). Le pipeline esistenti di supervised fine-tuning (SFT) e le recenti tecniche di reinforcement learning con ricompense verificabili (RLVR) dipendono da supervisione costosa, strumenti specializzati o ambienti vincolati che ne limitano la scalabilità. Introduciamo Spatial-SSRL, un paradigma di RL auto-supervisionato che ricava segnali verificabili direttamente da normali immagini RGB o RGB-D. Spatial-SSRL formula automaticamente cinque compiti preliminari che catturano la struttura spaziale 2D e 3D: riordinamento di patch rimescolate, riconoscimento di patch capovolte, inpaint di patch ritagliate, ordinamento di profondità regionale e predizione di posizione 3D relativa. Questi compiti forniscono risposte di ground-truth facili da verificare e non richiedono annotazioni umane o da parte di LVLM. L'addestramento sui nostri compiti migliora sostanzialmente il ragionamento spaziale preservando le capacità visive generali. Su sette benchmark di comprensione spaziale, sia per immagini che per video, Spatial-SSRL fornisce guadagni di accuratezza medi del 4.63% (modelli da 3B) e del 3.89% (modelli da 7B) rispetto ai baseline Qwen2.5-VL. I nostri risultati dimostrano che una supervisione intrinseca e semplice abilita l'RLVR su larga scala e fornisce una via pratica per una maggiore intelligenza spaziale negli LVLM.

DMD a Fasi: Distillazione di Matching di Distribuzione in Pochi Passi tramite Score Matching all'interno di Sottointervalli
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals

Oct 31

ByXiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang

La distillazione per corrispondenza di distribuzione (DMD) riduce i modelli generativi basati su punteggi in generatori efficienti a un singolo passaggio, senza richiedere una corrispondenza uno-a-uno con le traiettorie di campionamento dei modelli insegnanti. Tuttavia, la capacità limitata del modello fa sì che i modelli distillati in un solo passaggio abbiano prestazioni inferiori in compiti generativi complessi, come la sintesi di movimenti oggettuali intricati nella generazione video da testo. Estendere direttamente la DMD alla distillazione multi-passaggio aumenta l'utilizzo di memoria e la profondità computazionale, portando a instabilità e ridotta efficienza. Sebbene lavori precedenti propongano la troncatura stocastica del gradiente come potenziale soluzione, noi osserviamo che essa riduce sostanzialmente la diversità generativa dei modelli distillati multi-passaggio, riportandola al livello delle controparti a singolo passaggio. Per affrontare queste limitazioni, proponiamo Phased DMD, un framework di distillazione multi-passaggio che combina l'idea di distillazione per fasi con le Misture di Esperti (MoE), riducendo la difficoltà di apprendimento mentre aumenta la capacità del modello. Phased DMD si basa su due idee chiave: corrispondenza di distribuzione progressiva e corrispondenza dei punteggi all'interno di sottointervalli. In primo luogo, il nostro modello divide l'intervallo SNR in sottointervalli, affinando progressivamente il modello verso livelli SNR più alti, per catturare meglio distribuzioni complesse. Successivamente, per garantire l'accuratezza dell'obiettivo di addestramento in ciascun sottointervallo, abbiamo condotto rigorose derivazioni matematiche. Convalidiamo Phased DMD distillando modelli all'avanguardia per la generazione di immagini e video, inclusi Qwen-Image (20B parametri) e Wan2.2 (28B parametri). I risultati sperimentali dimostrano che Phased DMD preserva la diversità dell'output meglio di DMD, mantenendo al contempo le capacità generative chiave. Rilasceremo il nostro codice e i nostri modelli.

Riesaminare la codifica posizionale multimodale nei modelli visione-linguaggio
Revisiting Multimodal Positional Encoding in Vision-Language Models

Oct 27

ByJie Huang, Xuejing Liu, Sibo Song, Ruibing Hou, Hong Chang, Junyang Lin, Shuai Bai

La codifica posizionale multimodale è essenziale per i modelli visione-linguaggio, nonostante ciò non vi sia stata un'indagine sistematica approfondita su di essa. Conduciamo un'analisi completa del Rotary Positional Embedding (RoPE) multimodale esaminandone le due componenti fondamentali: la progettazione posizionale e l'allocazione delle frequenze. Attraverso esperimenti estensivi, identifichiamo tre linee guida chiave: coerenza posizionale, piena utilizzazione delle frequenze e preservazione dei preconcetti testuali - garantendo un layout non ambiguo, una rappresentazione ricca e un trasferimento fedele dal LLM pre-addestrato. Sulla base di queste intuizioni, proponiamo Multi-Head RoPE (MHRoPE) e MRoPE-Interleave (MRoPE-I), due varianti semplici e plug-and-play che non richiedono modifiche architetturali. I nostri metodi superano costantemente gli approcci esistenti in vari benchmark, con miglioramenti significativi sia nella comprensione multimodale generale che in quella granulare. Il codice sarà disponibile su https://github.com/JJJYmmm/Multimodal-RoPEs.

HyperClick: Migliorare l'Affidabilità del Grounding delle GUI tramite Calibrazione dell'Incertezza
HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration

Oct 31

ByShaojie Zhang, Pei Fu, Ruoceng Zhang, Jiahui Yang, Anan Du, Xiuwen Xi, Shaokang Wang, Ying Huang, Bin Qin, Zhenbo Luo, Jian Luan

Gli agenti autonomi per interfacce grafiche (GUI) si basano su un accurato grounding della GUI, che mappa le istruzioni linguistiche alle coordinate sullo schermo, per eseguire i comandi utente. Tuttavia, i modelli attuali, siano essi addestrati tramite fine-tuning supervisionato (SFT) o fine-tuning per rinforzo (RFT), mancano di autoconsapevolezza riguardo ai propri limiti di capacità, portando a eccessiva sicurezza e previsioni inaffidabili. Inizialmente valutiamo sistematicamente la confidenza probabilistica e verbalizzata in modelli generici e specifici per GUI, rivelando un disallineamento tra la confidenza e l'accuratezza effettiva, particolarmente critico nei compiti di automazione GUI dinamici, dove singoli errori possono causare il fallimento del task. Per affrontare questo problema, proponiamo HyperClick, un framework innovativo che migliora l'affidabilità del grounding della GUI attraverso la calibrazione dell'incertezza. HyperClick introduce un meccanismo di ricompensa duale, combinando una ricompensa binaria per le azioni corrette con una modellazione della confidenza spaziale basata su Gaussiana troncata, calibrata utilizzando il punteggio di Brier. Questo approccio ottimizza congiuntamente l'accuratezza del grounding e l'affidabilità della confidenza, promuovendo l'autocritica introspettiva. Esperimenti estesi su sette benchmark di difficoltà mostrano che HyperClick raggiunge prestazioni allo stato dell'arte fornendo al contempo una confidenza ben calibrata. Abilitando la calibrazione esplicita della confidenza e l'autocritica introspettiva, HyperClick riduce l'eccessiva sicurezza e supporta un'automazione GUI più affidabile.

SemCoT: Accelerazione del Ragionamento a Catena di Pensiero mediante Token Impliciti Semantica-Allineati
SemCoT: Accelerating Chain-of-Thought Reasoning through Semantically-Aligned Implicit Tokens

Oct 28

ByYinhan He, Wendy Zheng, Yaochen Zhu, Zaiyi Zheng, Lin Su, Sriram Vasudevan, Qi Guo, Liangjie Hong, Jundong Li

La verbosità del ragionamento a catena di pensiero (CoT) ne ostacola la diffusione su larga scala nelle applicazioni critiche per l'efficienza. Recentemente sono emersi approcci CoT impliciti, che codificano i passaggi di ragionamento all'interno degli embedding nascosti dei LLM (definiti "ragionamento implicito") anziché in token espliciti. Questo approccio accelera il CoT riducendo la lunghezza del ragionamento e bypassando alcuni componenti del LLM. Tuttavia, i metodi CoT impliciti esistenti affrontano due sfide significative: (1) non riescono a preservare l'allineamento semantico tra il ragionamento implicito (quando trasformato in linguaggio naturale) e il ragionamento di ground-truth, risultando in un significativo degrado delle prestazioni del CoT, e (2) si concentrano sulla riduzione della lunghezza del ragionamento implicito; tuttavia, trascurano il notevole costo temporale per un LLM di generare un singolo token di ragionamento implicito. Per affrontare queste sfide, proponiamo una nuova struttura CoT implicita semanticamente allineata denominata SemCoT. In particolare, per la prima sfida, progettiamo un sentence transformer addestrato in modo contrastivo che valuta l'allineamento semantico tra ragionamento implicito ed esplicito, utilizzato per imporre la preservazione semantica durante l'ottimizzazione del ragionamento implicito. Per affrontare la seconda sfida, introduciamo un generatore di ragionamento implicito efficiente effettuando il fine-tuning di un modello linguistico leggero utilizzando la distillazione della conoscenza. Questo generatore è guidato dal nostro sentence transformer per distillare il ragionamento di ground-truth in un ragionamento implicito semanticamente allineato, ottimizzando anche per l'accuratezza. SemCoT è il primo approccio che migliora l'efficienza del CoT ottimizzando congiuntamente la velocità di generazione a livello di token e preservando l'allineamento semantico con il ragionamento di ground-truth. Esperimenti estensivi dimostrano le prestazioni superiori di SemCoT rispetto ai metodi allo stato dell'arte sia in termini di efficienza che di efficacia. Il nostro codice è disponibile all'indirizzo https://github.com/YinhanHe123/SemCoT/.

Attenzione Lineare di Ordine Superiore
Higher-order Linear Attention

Oct 31

ByYifan Zhang, Zhen Qin, Quanquan Gu

Il costo quadratico dell'attenzione dot-product scalata rappresenta un ostacolo fondamentale per il ridimensionamento dei modelli linguistici autoregressivi verso contesti lunghi. L'attenzione a tempo lineare e i Modelli Spazio di Stato (SSM) offrono alternative scalabili, ma sono tipicamente limitati ad approssimazioni del primo ordine o basate su kernel, il che può limitarne l'espressività. Introduciamo Higher-order Linear Attention (HLA), un meccanismo causale e in streaming che realizza interazioni di ordine superiore tramite statistiche sufficienti compatte del prefisso. Nel caso del secondo ordine, HLA mantiene uno stato di dimensione costante e calcola output per token in tempo lineare senza materializzare alcuna matrice n × n. Forniamo identità di streaming in forma chiusa, una variante mascherata strettamente causale che utilizza due sommari aggiuntivi e uno schema di addestramento parallelo a blocchi basato su scansioni associative che riproduce esattamente le attivazioni di una ricorrenza seriale. Delineiamo inoltre estensioni al terzo ordine e superiori. Collettivamente, questi risultati posizionano HLA come un blocco costitutivo scalabile e fondato su principi, che combina la miscelazione dipendente dai dati, simile all'attenzione, con l'efficienza delle moderne architetture ricorrenti. Pagina del progetto: https://github.com/yifanzhang-pro/HLA.

Attacchi Backdoor Visivi sul Processo Decisionale Embodied dei MLLM tramite Apprendimento Contrastivo di Trigger
Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning

Oct 31

ByQiusi Zhan, Hyeonjeong Ha, Rui Yang, Sirui Xu, Hanyang Chen, Liang-Yan Gui, Yu-Xiong Wang, Huan Zhang, Heng Ji, Daniel Kang

I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno fatto progredire gli agenti embodied consentendo la percezione diretta, il ragionamento e la pianificazione di azioni orientate al compito a partire da input visivi. Tuttavia, tali agenti embodied guidati dalla visione aprono una nuova superficie di attacco: gli attacchi backdoor visivi, in cui l'agente si comporta normalmente fino a quando un trigger visivo appare nella scena, per poi eseguire persistentemente una politica multi-step specificata dall'attaccante. Introduciamo BEAT, il primo framework per iniettare tali backdoor visivi in agenti embodied basati su MLLM utilizzando oggetti nell'ambiente come trigger. A differenza dei trigger testuali, i trigger oggetto presentano un'ampia variazione tra punti di vista e condizioni di illuminazione, rendendoli difficili da impiantare in modo affidabile. BEAT affronta questa sfida (1) costruendo un set di training che abbraccia scene, compiti e posizionamenti dei trigger diversificati per esporre gli agenti alla variabilità del trigger, e (2) introducendo uno schema di training a due stadi che applica prima il fine-tuning supervisionato (SFT) e poi la nostra nuova Contrastive Trigger Learning (CTL). La CTL formula la discriminazione del trigger come un apprendimento per preferenza tra input con trigger presente e assente, affilando esplicitamente i confini decisionali per garantire un'attivazione precisa del backdoor. In vari benchmark per agenti embodied e su diversi MLLM, BEAT raggiunge tassi di successo dell'attacco fino all'80%, mantenendo al contempo solide prestazioni nelle attività benigne, e si generalizza in modo affidabile a posizionamenti di trigger fuori distribuzione. Significativamente, rispetto al SFT ingenuo, la CTL aumenta l'accuratezza di attivazione del backdoor fino al 39% in condizioni di dati backdoor limitati. Questi risultati espongono un rischio per la sicurezza critico e inesplorato negli agenti embodied basati su MLLM, sottolineando la necessità di difese robuste prima del dispiegamento nel mondo reale.

Deriva dei Valori: Tracciare l'Allineamento Valoriale Durante il Post-Addestramento degli LLM
Value Drifts: Tracing Value Alignment During LLM Post-Training

Oct 30

ByMehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy

Man mano che i modelli linguistici di grandi dimensioni (LLM) assumono un ruolo sempre più importante nella società, si trovano sempre più spesso a dover affrontare domande che richiedono non solo di attingere alla loro conoscenza generale, ma anche di allinearsi a determinati sistemi di valori umani. Pertanto, lo studio dell'allineamento degli LLM con i valori umani è diventato un campo d'indagine cruciale. Tuttavia, i lavori precedenti si sono concentrati prevalentemente sulla valutazione dell'allineamento di modelli completamente addestrati, trascurando le dinamiche di apprendimento attraverso cui i modelli imparano a esprimere valori umani. In questo lavoro, indaghiamo come e in quale fase l'allineamento ai valori emerge durante il corso del post-addestramento di un modello. La nostra analisi distingue gli effetti degli algoritmi e dei dataset di post-addestramento, misurando sia l'entità che il momento delle derive valoriali durante l'addestramento. Sperimentando con modelli Llama-3 e Qwen-3 di diverse dimensioni e con popolari dataset e algoritmi di fine-tuning supervisionato (SFT) e di ottimizzazione delle preferenze, abbiamo riscontrato che la fase SFT stabilisce generalmente i valori di un modello, e le successive ottimizzazioni delle preferenze raramente riallineano questi valori. Inoltre, utilizzando un dataset sintetico di preferenze che consente una manipolazione controllata dei valori, abbiamo scoperto che diversi algoritmi di ottimizzazione delle preferenze portano a risultati di allineamento valoriale differenti, anche quando i dati sulle preferenze sono mantenuti costanti. I nostri risultati forniscono indicazioni operative su come i valori vengono appresi durante il post-addestramento e contribuiscono a orientare la curazione dei dati, nonché la selezione di modelli e algoritmi per l'ottimizzazione delle preferenze, al fine di migliorare l'allineamento del modello ai valori umani.

Diffusione a Doppio Flusso per Modelli Visione-Linguaggio-Azione Potenziati da Modelli del Mondo
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

Oct 31

ByJohn Won, Kyungmin Lee, Huiwon Jang, Dongyoung Kim, Jinwoo Shin

Recentemente, l'arricchimento di modelli Visione-Linguaggio-Azione (VLA) con modelli del mondo ha mostrato potenzialità nel migliorare l'apprendimento di politiche robotiche. Tuttavia, predire congiuntamente le osservazioni dello stato successivo e le sequenze di azioni rimane una sfida a causa della differenza intrinseca tra le due modalità. Per affrontare questo problema, proponiamo DUal-STream diffusion (DUST), un framework VLA potenziato da modelli del mondo che gestisce il conflitto tra modalità e migliora le prestazioni dei VLA in compiti diversificati. Nello specifico, proponiamo un'architettura transformer di diffusione multimodale che mantiene esplicitamente flussi separati per ciascuna modalità, pur consentendo la condivisione di conoscenze cross-modale. Inoltre, introduciamo perturbazioni di rumore indipendenti per ogni modalità e una funzione di loss di flow-matching disaccoppiata. Questo design consente al modello di apprendere la distribuzione congiunta in modo bidirezionale evitando la necessità di uno spazio latente unificato. Basandoci sul disaccoppiamento delle modalità durante l'addestramento, introduciamo anche un metodo di campionamento congiunto che supporta lo scaling al tempo di test, dove i token visivi e azionali evolvono in modo asincrono a ritmi diversi. Tramite esperimenti su benchmark simulati come RoboCasa e GR-1, DUST ottiene miglioramenti fino al 6% rispetto ai metodi baseline, mentre il nostro approccio di scaling al test fornisce un ulteriore incremento del 2-5%. Su compiti nel mondo reale con il Franka Research 3, DUST migliora i tassi di successo del 13%, confermandone l'efficacia al di là della simulazione. Inoltre, il pre-addestramento su video privi di azioni da BridgeV2 produce significativi guadagni per transfer learning su RoboCasa, sottolineando il potenziale di DUST per il pre-addestramento su larga scala di VLA.

Il progetto Denario: Agenti di intelligenza artificiale a conoscenza profonda per la scoperta scientifica
The Denario project: Deep knowledge AI agents for scientific discovery

Oct 30

ByFrancisco Villaescusa-Navarro, Boris Bolliet, Pablo Villanueva-Domingo, Adrian E. Bayer, Aidan Acquah, Chetana Amancharla, Almog Barzilay-Siegal, Pablo Bermejo, Camille Bilodeau, Pablo Cárdenas Ramírez, Miles Cranmer, Urbano L. França, ChangHoon Hahn, Yan-Fei Jiang, Raul Jimenez, Jun-Young Lee, Antonio Lerario, Osman Mamun, Thomas Meier, Anupam A. Ojha, Pavlos Protopapas, Shimanto Roy, David N. Spergel, Pedro Tarancón-Álvarez, Ujjwal Tiwari, Matteo Viel, Digvijay Wadekar, Chi Wang, Bonny Y. Wang, Licong Xu, Yossi Yovel, Shuwen Yue, Wen-Han Zhou, Qiyao Zhu, Jiajun Zou, Íñigo Zubeldia

Presentiamo Denario, un sistema multi-agente di IA progettato per fungere da assistente alla ricerca scientifica. Denario è in grado di svolgere numerosi compiti, come generare idee, verificare la letteratura esistente, sviluppare piani di ricerca, scrivere ed eseguire codice, creare grafici e redigere e revisionare articoli scientifici. Il sistema possiede un'architettura modulare che gli consente di gestire attività specifiche, come la generazione di un'idea, o di condurre analisi scientifiche end-to-end utilizzando Cmbagent come backend per la ricerca approfondita. In questo lavoro, descriviamo in dettaglio Denario e i suoi moduli, e ne illustriamo le capacità presentando diversi articoli generati automaticamente da esso in molte discipline scientifiche, come astrofisica, biologia, biofisica, informatica biomedica, chimica, scienza dei materiali, fisica matematica, medicina, neuroscienze e scienze planetarie. Denario eccelle anche nel combinare idee provenienti da diverse discipline, aspetto che illustriamo mostrando un articolo che applica metodi della fisica quantistica e del machine learning a dati astrofisici. Riportiamo le valutazioni effettuate su questi articoli da esperti di dominio, che hanno fornito sia punteggi numerici che feedback simili a revisioni. Evidenziamo quindi punti di forza, debolezze e limitazioni dell'attuale sistema. Infine, discutiamo le implicazioni etiche della ricerca guidata dall'IA e riflettiamo su come tale tecnologia si relazioni con la filosofia della scienza. Rilasciamo pubblicamente il codice all'indirizzo https://github.com/AstroPilot-AI/Denario. Una demo di Denario può essere eseguita direttamente sul web all'indirizzo https://huggingface.co/spaces/astropilot-ai/Denario, e l'applicazione completa sarà distribuita sul cloud.

Limiti della Generalizzazione in RLVR: Due Casi di Studio sul Ragionamento Matematico
Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

Oct 30

ByMd Tanvirul Alam, Nidhi Rastogi

Il ragionamento matematico rappresenta una sfida centrale per i grandi modelli linguistici (LLM), richiedendo non solo risposte corrette ma anche processi di ragionamento fedeli. Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio promettente per potenziare tali capacità; tuttavia, la sua abilità di promuovere un ragionamento genuino rimane poco chiara. Investigiamo l'RLVR su due problemi combinatori con soluzioni completamente verificabili: Activity Scheduling e la Sottosequenza Crescente Più Lunga, utilizzando dataset accuratamente selezionati con ottimi unici. Attraverso molteplici progettazioni di ricompensa, scopriamo che l'RLVR migliora le metriche di valutazione, ma spesso rafforzando euristiche superficiali piuttosto che acquisendo nuove strategie di ragionamento. Questi risultati evidenziano i limiti della generalizzazione dell'RLVR, enfatizzando l'importanza di benchmark che separino il ragionamento matematico genuino dallo sfruttamento di scorciatoie e forniscano misure fedeli del progresso. Codice disponibile su https://github.com/xashru/rlvr-seq-generalization.

Uno Studio sui Modelli Efficienti Visione-Linguaggio-Azione
A Survey on Efficient Vision-Language-Action Models

Oct 27

ByZhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen

I modelli Vision-Language-Action (VLA) rappresentano una frontiera significativa nell'intelligenza embodied, con l'obiettivo di colmare il divario tra la conoscenza digitale e l'interazione con il mondo fisico. Sebbene questi modelli abbiano dimostrato notevoli capacità generaliste, il loro dispiegamento è fortemente ostacolato dalle sostanziali esigenze computazionali e di dati intrinseche ai modelli fondazionali su larga scala che ne sono alla base. Motivati dall'urgente necessità di affrontare queste sfide, questa survey presenta la prima rassegna completa dei modelli Efficient Vision-Language-Action (Efficient VLA) lungo l'intero processo dati-modello-addestramento. Nello specifico, introduciamo una tassonomia unificata per organizzare sistematicamente i diversi sforzi in questo dominio, categorizzando le tecniche attuali in tre pilastri fondamentali: (1) Progetto Efficiente del Modello, incentrato su architetture efficienti e compressione del modello; (2) Addestramento Efficiente, che riduce i carichi computazionali durante l'apprendimento del modello; e (3) Raccolta Efficiente dei Dati, che affronta i colli di bottiglia nell'acquisizione e utilizzo dei dati robotici. Attraverso una revisione critica dei metodi allo stato dell'arte all'interno di questo quadro, questa survey non solo stabilisce un riferimento fondamentale per la comunità, ma riassume anche applicazioni rappresentative, delinea le sfide chiave e traccia una roadmap per la ricerca futura. Manteniamo una pagina progetto costantemente aggiornata per monitorare i nostri ultimi sviluppi: https://evla-survey.github.io/

Rank-GRPO: Addestramento di Sistemi Conversazionali di Raccomandazione basati su LLM con Apprendimento per Rinforzo
Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

Oct 23

ByYaochen Zhu, Harald Steck, Dawen Liang, Yinhan He, Jundong Li, Nathan Kallus

I grandi modelli linguistici (LLM) stanno rimodellando il paradigma dei sistemi di raccomandazione consentendo agli utenti di esprimere le proprie preferenze e ricevere raccomandazioni attraverso conversazioni. Tuttavia, allineare gli LLM al compito di raccomandazione rimane una sfida: i LLM pre-addestrati spesso generano elementi fuori catalogo, violano i formati di output richiesti e la loro qualità di ranking si degrada bruscamente verso la fine della lista generata. A tal fine, proponiamo ConvRec-R1, un framework a due stadi per l'addestramento end-to-end di sistemi di raccomandazione conversazionali basati su LLM. Nello Stadio 1, costruiamo un dataset di clonazione comportamentale con una pipeline Remap-Reflect-Adjust, che produce dimostrazioni di alta qualità e ancorate al catalogo da potenti LLM blackbox per avviare il training di RL. Nello Stadio 2, proponiamo Rank-GRPO, un'estensione principiata dell'ottimizzazione della politica relativa di gruppo (GRPO) adattata a compiti con output di tipo rank. Rank-GRPO tratta ogni posizione nella lista di raccomandazione come unità invece del token (troppo granulare) o della sequenza (troppo grossolana), ridefinendo le ricompense per rimuovere l'assegnazione di credito non causale e introducendo un rapporto di importanza a livello di rank basato sulla media geometrica delle probabilità dei token per posizione per stabilizzare gli aggiornamenti della politica. Esperimenti sul dataset pubblico Reddit-v2 mostrano che ConvRec-R1 converge più velocemente e raggiunge Recall e NDCG più elevati rispetto ai baseline di tipo GRPO. Codice e dataset sono rilasciati su https://github.com/yaochenzhu/Rank-GRPO.

Oltre gli Oggetti: Generazione Contestuale di Dati Sintetici per la Classificazione di Alto Livello
Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification

Oct 28

ByWilliam Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky

I modelli text-to-image (T2I) sono sempre più utilizzati per la generazione di dataset sintetici, ma generare dati di addestramento sintetici efficaci per la classificazione rimane una sfida. Il fine-tuning di un modello T2I con pochi esempi reali può aiutare a migliorare la qualità dei dati di addestramento sintetici; tuttavia, può anche causare overfitting e ridurre la diversità nei campioni generati. Proponiamo una strategia di fine-tuning chiamata BOB (BeyondOBjects) per mitigare questi problemi nella classificazione fine-grained. Dato un piccolo insieme di esempi reali, estraiamo prima attributi agnostici rispetto alla classe, come lo sfondo della scena e la posa dell'oggetto. Condizioniamo quindi esplicitamente il fine-tuning del modello T2I su questi attributi e li marginalizziamo durante la generazione. Questo design mitiga l'overfitting, preserva il priore generativo del modello T2I, riduce gli errori di stima e minimizza ulteriormente associazioni indesiderate tra classi. Esperimenti estesi su molteplici modelli T2I, backbone e dataset mostrano che il nostro metodo raggiunge prestazioni state-of-the-art nella classificazione fine-grained a basso numero di esempi quando arricchita con dati sintetici. Nello specifico, BOB supera DataDream del 7.4% sul dataset Aircraft (passando dal 50.0% al 57.4% quando si effettua il fine-tuning di un classificatore CLIP con cinque immagini reali arricchite con 100 immagini sintetiche). In tre dei quattro benchmark, il fine-tuning di modelli downstream con 5 immagini reali arricchite con BOB ottiene prestazioni migliori rispetto al fine-tuning con 10 immagini reali. Nel complesso, BOB supera lo stato dell'arte in 18 delle 24 configurazioni sperimentali, con miglioramenti di accuratezza superiori al 2% in 14 di queste configurazioni.

Mask-to-Height: Un'architettura basata su YOLOv11 per la Segmentazione di Istanze Edilizie e la Classificazione dell'Altezza Congiunta da Immagini Satellitari
Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery

Oct 31

ByMahmoud El Hussieni, Bahadır K. Güntürk, Hasan F. Ateş, Oğuz Hanoğlu

La segmentazione accurata delle istanze edilizie e la classificazione dell'altezza sono fondamentali per la pianificazione urbana, la modellazione 3D delle città e il monitoraggio delle infrastrutture. Questo articolo presenta un'analisi dettagliata di YOLOv11, il recente progresso nella serie di modelli di deep learning YOLO, concentrandosi sulla sua applicazione per l'estrazione congiunta degli edifici e la classificazione discreta dell'altezza da immagini satellitari. YOLOv11 si basa sui punti di forza dei modelli YOLO precedenti introducendo un'architettura più efficiente che combina meglio le caratteristiche a diverse scale, migliora l'accuratezza della localizzazione degli oggetti e potenzia le prestazioni in scenari urbani complessi. Utilizzando il dataset DFC2023 Track 2 – che include oltre 125.000 edifici annotati in 12 città – valutiamo le prestazioni di YOLOv11 utilizzando metriche come precisione, recall, punteggio F1 e precisione media media (mAP). I nostri risultati dimostrano che YOLOv11 raggiunge solide prestazioni di segmentazione delle istanze con il 60,4% di mAP@50 e il 38,3% di mAP@50-95, mantenendo al contempo una robusta accuratezza di classificazione attraverso cinque fasce di altezza predefinite. Il modello eccelle nella gestione delle occlusioni, delle forme edilizie complesse e dello squilibrio delle classi, in particolare per le rare strutture a torre. L'analisi comparativa conferma che YOLOv11 supera i framework multitask precedenti sia in accuratezza di rilevamento che in velocità di inferenza, rendendolo adatto per la mappatura urbana in tempo reale e su larga scala. Questa ricerca evidenzia il potenziale di YOLOv11 di far progredire la ricostruzione urbana semantica attraverso una modellazione categoriale dell'altezza semplificata, offrendo spunti operativi per i futuri sviluppi nel telerilevamento e nell'intelligenza geospaziale.

MisSynth: Miglioramento della Classificazione delle Fallacie Logiche MISSCI tramite Dati Sintetici
MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data

Oct 30

ByMykhailo Poliakov, Nadiya Shvai

La disinformazione in ambito sanitario è molto diffusa e potenzialmente dannosa. È difficile da identificare, specialmente quando le affermazioni distorcono o interpretano erroneamente i risultati scientifici. Investigiamo l'impatto della generazione di dati sintetici e delle tecniche di fine-tuning leggero sulla capacità dei grandi modelli linguistici (LLM) di riconoscere argomentazioni fallaci, utilizzando il dataset e il framework MISSCI. In questo lavoro, proponiamo MisSynth, una pipeline che applica la generazione aumentata per recupero di informazioni (RAG) per produrre campioni sintetici di fallacie, che vengono poi utilizzati per effettuare il fine-tuning di un modello LLM. I nostri risultati mostrano sostanziali guadagni in accuratezza con i modelli sottoposti a fine-tuning rispetto ai baseline standard. Ad esempio, il modello LLaMA 3.1 8B dopo il fine-tuning ha ottenuto un miglioramento assoluto di oltre il 35% nell'F1-score sul test split di MISSCI rispetto al suo baseline standard. Dimostriamo che l'introduzione di dati sintetici di fallacie per aumentare le limitate risorse annotate può migliorare significativamente le prestazioni di classificazione zero-shot degli LLM su compiti reali di disinformazione scientifica, anche con risorse computazionali limitate. Il codice e il dataset sintetico sono disponibili su https://github.com/mxpoliakov/MisSynth.

Monopoly Deal: un ambiente di riferimento per i giochi a risposta unilaterale limitata
Monopoly Deal: A Benchmark Environment for Bounded One-Sided Response Games

Oct 29

ByWill Wolf

I giochi di carte sono ampiamente utilizzati per studiare il processo decisionale sequenziale in condizioni di incertezza, con analoghi nel mondo reale in ambiti come negoziazione, finanza e cybersecurity. Questi giochi si classificano tipicamente in tre categorie in base al flusso di controllo: sequenziale stretto (i giocatori alternano azioni singole), risposta deterministica (alcune azioni innescano un esito fisso) e risposta reciproca illimitata (sono permesse contro-mosse alternate). Una struttura meno esplorata ma strategicamente ricca è la risposta unilaterale limitata, in cui l'azione di un giocatore trasferisce temporaneamente il controllo all'avversario, che deve soddisfare una condizione fissa attraverso una o più mosse prima che il turno si risolva. Definiamo i giochi che presentano questo meccanismo come Giochi a Risposta Unilaterale Limitata (BORGs). Presentiamo una versione modificata di Monopoly Deal come ambiente di benchmark che isola questa dinamica, in cui un'azione Affitto costringe l'avversario a scegliere beni per il pagamento. L'algoritmo di riferimento, la Minimizzazione del Rimpianto Controfattuale (CFR), converge su strategie efficaci senza necessità di estensioni algoritmiche innovative. Una piattaforma di ricerca full-stack leggera unifica l'ambiente, un runtime CFR parallelizzato e un'interfaccia web giocabile da umani. L'agente CFR addestrato e il codice sorgente sono disponibili su https://monopolydeal.ai.