HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

25 papers found

Rapporto Tecnico di Qwen-Image
Qwen-Image Technical Report

Aug 4

ByChenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu

257

Presentiamo Qwen-Image, un modello di base per la generazione di immagini della serie Qwen che raggiunge progressi significativi nel rendering complesso di testo e nell'editing preciso delle immagini. Per affrontare le sfide del rendering complesso di testo, progettiamo una pipeline di dati completa che include la raccolta su larga scala, il filtraggio, l'annotazione, la sintesi e il bilanciamento dei dati. Inoltre, adottiamo una strategia di addestramento progressivo che inizia con il rendering da non-testo a testo, evolve da input testuali semplici a complessi e scala gradualmente fino a descrizioni a livello di paragrafo. Questo approccio di apprendimento curriculare migliora sostanzialmente le capacità native di rendering del testo del modello. Di conseguenza, Qwen-Image non solo si comporta eccezionalmente bene con lingue alfabetiche come l'inglese, ma raggiunge anche progressi notevoli con lingue logografiche più impegnative come il cinese. Per migliorare la coerenza nell'editing delle immagini, introduciamo un paradigma di addestramento multi-task migliorato che incorpora non solo i tradizionali task di testo-immagine (T2I) e testo-immagine-immagine (TI2I), ma anche la ricostruzione immagine-immagine (I2I), allineando efficacemente le rappresentazioni latenti tra Qwen2.5-VL e MMDiT. Inoltre, alimentiamo separatamente l'immagine originale in Qwen2.5-VL e nell'encoder VAE per ottenere rispettivamente rappresentazioni semantiche e ricostruttive. Questo meccanismo di doppia codifica consente al modulo di editing di bilanciare la coerenza semantica con la fedeltà visiva. Qwen-Image raggiunge prestazioni all'avanguardia, dimostrando forti capacità sia nella generazione che nell'editing delle immagini su più benchmark.

SitEmb-v1.5: Recupero Denso Consapevole del Contesto Migliorato per Associazioni Semantiche e Comprensione di Storie Lunghe
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension

Aug 3

ByJunjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu

La generazione aumentata da recupero (RAG) su documenti lunghi comporta tipicamente la suddivisione del testo in segmenti più piccoli, che fungono da unità di base per il recupero. Tuttavia, a causa delle dipendenze presenti nel documento originale, le informazioni contestuali sono spesso essenziali per interpretare accuratamente ciascun segmento. Per affrontare questo problema, lavori precedenti hanno esplorato la codifica di finestre contestuali più ampie per produrre embedding per segmenti più lunghi. Nonostante questi sforzi, i miglioramenti nel recupero e nelle attività downstream rimangono limitati. Ciò è dovuto a (1) i segmenti più lunghi mettono a dura prova la capacità dei modelli di embedding a causa della maggiore quantità di informazioni che devono codificare, e (2) molte applicazioni reali richiedono ancora la restituzione di evidenze localizzate a causa di vincoli sulla larghezza di banda del modello o umana. Proponiamo un approccio alternativo a questa sfida rappresentando i segmenti brevi in modo che siano condizionati da una finestra contestuale più ampia per migliorare le prestazioni di recupero, ovvero situando il significato di un segmento all'interno del suo contesto. Dimostriamo inoltre che i modelli di embedding esistenti non sono adeguatamente attrezzati per codificare efficacemente tale contesto situato, e quindi introduciamo un nuovo paradigma di addestramento e sviluppiamo i modelli di embedding situati (SitEmb). Per valutare il nostro metodo, abbiamo curato un dataset di recupero di trame di libri specificamente progettato per valutare le capacità di recupero situato. Su questo benchmark, il nostro modello SitEmb-v1 basato su BGE-M3 supera sostanzialmente i modelli di embedding all'avanguardia, inclusi diversi con fino a 7-8 miliardi di parametri, con solo 1 miliardo di parametri. Il nostro modello SitEmb-v1.5 da 8 miliardi di parametri migliora ulteriormente le prestazioni di oltre il 10% e mostra risultati solidi in diverse lingue e in diverse applicazioni downstream.

CellForge: Progettazione Agente di Modelli di Cellule Virtuali
CellForge: Agentic Design of Virtual Cell Models

Aug 4

ByXiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein

La modellazione di cellule virtuali rappresenta una frontiera emergente all'intersezione tra intelligenza artificiale e biologia, con l'obiettivo di prevedere quantità come le risposte a diverse perturbazioni in modo quantitativo. Tuttavia, costruire autonomamente modelli computazionali per cellule virtuali è impegnativo a causa della complessità dei sistemi biologici, dell'eterogeneità delle modalità di dati e della necessità di competenze specifiche del dominio in più discipline. Qui presentiamo CellForge, un sistema agentico che sfrutta un framework multi-agente per trasformare direttamente i dataset biologici e gli obiettivi di ricerca presentati in modelli computazionali ottimizzati per cellule virtuali. Più specificamente, dati solo dati grezzi multi-omici a singola cellula e descrizioni del compito come input, CellForge produce sia un'architettura di modello ottimizzata che codice eseguibile per l'addestramento di modelli di cellule virtuali e l'inferenza. Il framework integra tre moduli principali: Analisi del Compito per la caratterizzazione del dataset presentato e il recupero della letteratura pertinente, Progettazione del Metodo, dove agenti specializzati sviluppano collaborativamente strategie di modellazione ottimizzate, ed Esecuzione dell'Esperimento per la generazione automatizzata del codice. Gli agenti nel modulo di Progettazione sono separati in esperti con prospettive diverse e un moderatore centrale, e devono scambiare collaborativamente soluzioni fino a raggiungere un consenso ragionevole. Dimostriamo le capacità di CellForge nella previsione di perturbazioni a singola cellula, utilizzando sei dataset diversi che includono knockout genici, trattamenti farmacologici e stimolazioni citochiniche attraverso più modalità. CellForge supera costantemente i metodi all'avanguardia specifici per il compito. Nel complesso, CellForge dimostra come l'interazione iterativa tra agenti LLM con prospettive diverse fornisca soluzioni migliori rispetto all'affrontare direttamente una sfida di modellazione. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/gersteinlab/CellForge.

Oltre il compromesso: Apprendimento per rinforzo auto-supervisionato per il rispetto delle istruzioni nei modelli di ragionamento
Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

Aug 4

ByQingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu

I modelli di ragionamento eccellono nella risoluzione di problemi complessi, ma mostrano un preoccupante compromesso tra capacità di ragionamento e abilità di seguire le istruzioni. Gli approcci esistenti per migliorare il rispetto delle istruzioni si basano su modelli esterni più potenti, creando colli di bottiglia metodologici e limitazioni pratiche, tra cui costi più elevati e vincoli di accessibilità. Proponiamo un framework di apprendimento per rinforzo auto-supervisionato che sfrutta i segnali interni dei modelli di ragionamento per migliorare le capacità di seguire le istruzioni senza supervisione esterna. Esperimenti estensivi dimostrano che il nostro framework migliora significativamente le capacità di seguire le istruzioni mantenendo le prestazioni di ragionamento, offrendo un approccio scalabile e conveniente per migliorare il rispetto delle istruzioni nei modelli di ragionamento. I dati e il codice sono disponibili pubblicamente all'indirizzo https://github.com/Rainier-rq/verl-if.

Rapporto Tecnico di Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct
Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

Aug 1

BySajana Weerawardhena, Paul Kassianik, Blaine Nelson, Baturay Saglam, Anu Vellore, Aman Priyanshu, Supriti Vijay, Massimo Aufiero, Arthur Goldblatt, Fraser Burch, Ed Li, Jianliang He, Dhruv Kedia, Kojin Oshiba, Zhouran Yang, Yaron Singer, Amin Karbasi

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un notevole successo in molti ambiti, ma la loro integrazione nelle applicazioni di cybersecurity rimane limitata a causa della mancanza di dati di cybersecurity generici, della complessità rappresentazionale e delle preoccupazioni relative alla sicurezza e alla regolamentazione. Per colmare questa lacuna, abbiamo precedentemente introdotto Foundation-Sec-8B, un LLM focalizzato sulla cybersecurity adatto per il fine-tuning su task downstream. Tuttavia, quel modello non era progettato per interazioni in stile chat o per il seguimento di istruzioni. In questo report, rilasciamo Foundation-Sec-8B-Instruct: un modello specificamente addestrato per dialoghi generici di cybersecurity. Basato su Foundation-Sec-8B, combina conoscenze specifiche del dominio con capacità di seguimento delle istruzioni, abilità conversazionali e allineamento con le preferenze umane per produrre risposte di alta qualità e pertinenti. Valutazioni complete dimostrano che Foundation-Sec-8B-Instruct supera Llama 3.1-8B-Instruct in una gamma di task di cybersecurity, eguagliando le sue prestazioni nel seguimento delle istruzioni. È anche competitivo con GPT-4o-mini nelle attività di intelligence sulle minacce informatiche e nel seguimento delle istruzioni. Prevediamo che Foundation-Sec-8B-Instruct diventi un assistente indispensabile nei flussi di lavoro quotidiani dei professionisti della cybersecurity. Rilasciamo il modello pubblicamente all'indirizzo https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct.

La modellazione strutturale allineata al fitness consente uno screening virtuale scalabile con AuroBind
Fitness aligned structural modeling enables scalable virtual screening with AuroBind

Aug 4

ByZhongyue Zhang, Jiahua Rao, Jie Zhong, Weiqiang Bai, Dongxue Wang, Shaobo Ning, Lifeng Qiao, Sheng Xu, Runze Ma, Will Hua, Jack Xiaoyu Chen, Odin Zhang, Wei Lu, Hanyi Feng, He Yang, Xinchao Shi, Rui Li, Wanli Ouyang, Xinzhu Ma, Jiahao Wang, Jixian Zhang, Jia Duan, Siqi Sun, Jian Zhang, Shuangjia Zheng

La maggior parte delle proteine umane rimane non bersagliata da farmaci, con oltre il 96% delle proteine umane non sfruttate da terapie approvate. Sebbene lo screening virtuale basato sulla struttura prometta di espandere il proteoma bersagliabile, i metodi esistenti mancano di precisione a livello atomico e non riescono a prevedere l'affinità di legame, limitando l'impatto traslazionale. Presentiamo AuroBind, un framework scalabile per lo screening virtuale che ottimizza un modello strutturale personalizzato a livello atomico su dati chemiogenomici su scala milioni. AuroBind integra l'ottimizzazione diretta delle preferenze, l'auto-distillazione da complessi ad alta confidenza e una strategia di accelerazione insegnante-studente per prevedere congiuntamente le strutture legate ai ligandi e l'affinità di legame. I modelli proposti superano i modelli all'avanguardia su benchmark strutturali e funzionali, consentendo uno screening 100.000 volte più veloce su librerie di composti ultra-ampie. In uno screening prospettico su dieci target rilevanti per malattie, AuroBind ha raggiunto tassi di successo sperimentali del 7-69%, con i composti migliori che raggiungono potenze da sub-nanomolari a picomolari. Per i GPCR orfani GPR151 e GPR160, AuroBind ha identificato sia agonisti che antagonisti con tassi di successo del 16-30%, e saggi funzionali hanno confermato la modulazione di GPR160 in modelli di cancro al fegato e alla prostata. AuroBind offre un framework generalizzabile per l'apprendimento struttura-funzione e lo screening molecolare ad alto rendimento, colmando il divario tra la previsione strutturale e la scoperta terapeutica.

VeOmni: Scalabilità dell'Addestramento di Modelli per Qualsiasi Modalità con una Raccolta Distribuita di Ricette Centrate sul Modello
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

Aug 4

ByQianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno guidato un notevole avanzamento nella comprensione e generazione omni-modale. Tuttavia, l'addestramento di LLM omni-modali rimane una sfida significativa a causa delle architetture eterogenee richieste per elaborare diverse modalità, che necessitano di un design di sistema sofisticato per un addestramento su larga scala efficiente. I framework esistenti tipicamente intrecciano la definizione del modello con la logica parallela, comportando una scalabilità limitata e un notevole sovraccarico ingegneristico per l'addestramento end-to-end omni-modale. % Presentiamo \veomni, un framework di addestramento modulare ed efficiente per accelerare lo sviluppo di LLM omni-modali. \veomni introduce ricette distribuite centrate sul modello che disaccoppiano la comunicazione dal calcolo, abilitando un'efficiente parallelismo 3D su LLM omni-modali. \veomni include anche un'interfaccia di configurazione flessibile che supporta l'integrazione senza soluzione di continuità di nuove modalità con modifiche minime al codice. % Utilizzando \veomni, un modello omni-modale mixture-of-experts (MoE) con 30 miliardi di parametri può essere addestrato con una velocità di oltre 2.800 token/sec/GPU e scalare fino a lunghezze di contesto di 160K tramite parallelismo 3D su 128 GPU, dimostrando la sua superiore efficienza e scalabilità per l'addestramento di grandi LLM omni-modali.

Dynaword: Dai dataset one-shot ai dataset in sviluppo continuo
Dynaword: From One-shot to Continuously Developed Datasets

Aug 4

ByKenneth Enevoldsen, Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Andrea Blasi Núñez, Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per Møldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo

I dataset su larga scala sono fondamentali per la ricerca e lo sviluppo nel campo dell'elaborazione del linguaggio naturale. Tuttavia, gli approcci attuali affrontano tre sfide principali: (1) la dipendenza da fonti con licenze ambigue che limitano l'uso, la condivisione e le opere derivate; (2) rilasci statici di dataset che impediscono i contributi della comunità e riducono la longevità; (3) processi di controllo della qualità limitati ai team di pubblicazione, senza sfruttare l'esperienza della comunità. Per affrontare queste limitazioni, introduciamo due contributi: l'approccio Dynaword e Danish Dynaword. L'approccio Dynaword è un framework per creare dataset su larga scala e aperti, che possono essere aggiornati continuamente attraverso la collaborazione della comunità. Danish Dynaword è un'implementazione concreta che valida questo approccio e ne dimostra il potenziale. Danish Dynaword contiene oltre quattro volte il numero di token rispetto a rilasci comparabili, è esclusivamente con licenza aperta e ha ricevuto numerosi contributi da parte di industria e ricerca. Il repository include test leggeri per garantire la formattazione, la qualità e la documentazione dei dati, stabilendo un framework sostenibile per i contributi continui della comunità e l'evoluzione del dataset.

InstructVLA: Sintonizzazione delle Istruzioni Visione-Linguaggio-Azione dalla Comprensione alla Manipolazione
InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

Jul 23

ByShuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang

Per operare efficacemente nel mondo reale, i robot devono integrare il ragionamento multimodale con la generazione precisa di azioni. Tuttavia, i modelli esistenti visione-linguaggio-azione (VLA) spesso sacrificano uno per l'altro, limitano le loro capacità ai dati di manipolazione specifici per il compito e soffrono di un oblio catastrofico delle capacità pre-addestrate di visione-linguaggio. Per colmare questa lacuna, introduciamo InstructVLA, un modello VLA end-to-end che preserva il ragionamento flessibile dei grandi modelli di visione-linguaggio (VLM) mentre offre prestazioni leader nella manipolazione. InstructVLA introduce un nuovo paradigma di addestramento, Vision-Language-Action Instruction Tuning (VLA-IT), che utilizza un addestramento multimodale con adattamento a miscela di esperti per ottimizzare congiuntamente il ragionamento testuale e la generazione di azioni su corpora VLM standard e su un dataset VLA-IT curato di 650K campioni. Su compiti in-domain SimplerEnv, InstructVLA raggiunge un miglioramento del 30,5% rispetto a SpatialVLA. Per valutare la generalizzazione, introduciamo SimplerEnv-Instruct, un benchmark di 80 compiti che richiede controllo a ciclo chiuso e comprensione di istruzioni di alto livello, dove supera un OpenVLA fine-tuned del 92% e un esperto di azioni assistito da GPT-4o del 29%. Inoltre, InstructVLA supera i VLM di riferimento su compiti multimodali e mostra una scalabilità al momento dell'inferenza sfruttando il ragionamento testuale per migliorare le prestazioni di manipolazione sia in ambienti simulati che nel mondo reale. Questi risultati dimostrano il potenziale di InstructVLA per un'interazione uomo-robot intuitiva e controllabile con un apprendimento efficiente delle politiche.

Uno sguardo per comprimere: potatura dinamica dei token visivi per grandi modelli visione-linguaggio
A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

Aug 3

ByQuan-Sheng Zeng, Yunheng Li, Qilong Wang, Peng-Tao Jiang, Zuxuan Wu, Ming-Ming Cheng, Qibin Hou

La compressione dei token visivi è fondamentale per i Modelli Linguistico-Visuali di Grande Scala (LVLMs) per elaborare in modo efficiente input ad alta risoluzione. I metodi esistenti, che tipicamente adottano rapporti di compressione fissi, non riescono ad adattarsi a scene di varia complessità, causando spesso una potatura imprecisa che scarta token visivi informativi e porta a un degrado delle prestazioni del modello. Per affrontare questo problema, introduciamo un framework di potatura dinamica, GlimpsePrune, ispirato alla cognizione umana. Questo approccio prende una "sbirciata" guidata dai dati e pota i token visivi irrilevanti in un singolo passaggio in avanti prima della generazione della risposta. Questo metodo pota il 92,6% dei token visivi mantenendo in media pienamente le prestazioni di riferimento nei task di VQA a risposta libera. Il ridotto costo computazionale consente anche un fine-tuning più efficace: una versione migliorata, GlimpsePrune+, raggiunge il 110% delle prestazioni di riferimento mantenendo un tasso di potatura altrettanto elevato. Il nostro lavoro apre una nuova strada per la costruzione di LVLMs più potenti ed efficienti.

Sparse-dLLM: Accelerazione dei Modelli Linguistici di Diffusione con Evizione Dinamica della Cache
Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction

Aug 4

ByYuerong Song, Xiaoran Liu, Ruixiao Li, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu

I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) abilitano progressi nel ragionamento e nel decoding parallelo, ma soffrono di una complessità computazionale quadratica proibitiva e di un sovraccarico di memoria durante l'inferenza. Le attuali tecniche di caching accelerano il decoding memorizzando gli stati completi dei layer, ma impongono un uso sostanziale della memoria che limita le applicazioni con contesti lunghi. La nostra analisi dei pattern di attenzione nei dLLM rivela una persistente sparsità cross-layer, con token cruciali che rimangono salienti attraverso i passi di decoding e token a bassa rilevanza che restano irrilevanti, motivando un'evizione selettiva della cache. Proponiamo Sparse-dLLM, il primo framework senza training che integra l'evizione dinamica della cache con l'attenzione sparsa tramite un caching bidirezionale sparsificato ritardato. Sfruttando la stabilità della salienza dei token nel tempo, conserva i token critici ed elimina dinamicamente le voci non importanti di prefisso/suffisso utilizzando una strategia guidata dall'attenzione. Esperimenti estesi sulle serie LLaDA e Dream dimostrano che Sparse-dLLM raggiunge un throughput fino a 10 volte superiore rispetto ai dLLM standard, con prestazioni comparabili e costi di memoria massima simili, superando i metodi precedenti in termini di efficienza ed efficacia.

Voxlect: Un Benchmark per Modelli Fondamentali del Linguaggio Parlato per la Modellizzazione di Dialetti e Lingue Regionali in Tutto il Mondo
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe

Aug 3

ByTiantian Feng, Kevin Huang, Anfeng Xu, Xuan Shi, Thanathai Lertpetchpun, Jihwan Lee, Yoonjeong Lee, Dani Byrd, Shrikanth Narayanan

Presentiamo Voxlect, un nuovo benchmark per la modellazione di dialetti e lingue regionali a livello globale utilizzando modelli di base per il riconoscimento vocale. Nello specifico, riportiamo valutazioni complete del benchmark su varietà dialettali e linguistiche regionali in inglese, arabo, mandarino e cantonese, tibetano, lingue indiane, thai, spagnolo, francese, tedesco, portoghese brasiliano e italiano. Il nostro studio ha utilizzato oltre 2 milioni di espressioni di addestramento provenienti da 30 corpora vocali pubblicamente disponibili, forniti con informazioni dialettali. Valutiamo le prestazioni di diversi modelli di base per il riconoscimento vocale ampiamente utilizzati nella classificazione dei dialetti vocali. Analizziamo la robustezza dei modelli dialettali in condizioni rumorose e presentiamo un'analisi degli errori che evidenzia risultati di modellazione allineati con la continuità geografica. Oltre al benchmarking della classificazione dialettale, dimostriamo diverse applicazioni downstream abilitate da Voxlect. In particolare, mostriamo che Voxlect può essere applicato per arricchire i dataset esistenti di riconoscimento vocale con informazioni dialettali, consentendo un'analisi più dettagliata delle prestazioni ASR attraverso variazioni dialettali. Voxlect viene inoltre utilizzato come strumento per valutare le prestazioni dei sistemi di generazione vocale. Voxlect è disponibile pubblicamente con la licenza della famiglia RAIL all'indirizzo: https://github.com/tiantiaf0627/voxlect.

Cyber-Zero: Addestramento di Agenti per la Cybersicurezza Senza Runtime
Cyber-Zero: Training Cybersecurity Agents without Runtime

Jul 29

ByTerry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

I Large Language Model (LLM) hanno ottenuto un successo notevole nei compiti di ingegneria del software quando addestrati con ambienti di runtime eseguibili, in particolare nella risoluzione di issue su GitHub. Tuttavia, tali ambienti di runtime sono spesso indisponibili in altri domini, specialmente nella cybersecurity, dove le configurazioni delle sfide e i contesti di esecuzione sono effimeri o limitati. Presentiamo Cyber-Zero, il primo framework senza runtime per sintetizzare traiettorie di agenti di alta qualità per addestrare LLM nel campo della cybersecurity. Cyber-Zero sfrutta writeup pubblicamente disponibili di CTF e utilizza simulazioni guidate da persona tramite LLM per ricostruire i comportamenti di runtime e generare sequenze di interazione realistiche e a lungo termine senza ambienti reali. Utilizzando le traiettorie sintetizzate da Cyber-Zero, addestriamo agenti basati su LLM che raggiungono miglioramenti di prestazioni assoluti fino al 13,1% rispetto ai modelli di base su tre importanti benchmark CTF: InterCode-CTF, NYU CTF Bench e Cybench. Il nostro modello migliore, Cyber-Zero-32B, stabilisce nuove prestazioni all'avanguardia tra i modelli open-weight, eguagliando le capacità di sistemi proprietari come DeepSeek-V3-0324 e Claude-3.5-Sonnet, offrendo al contempo una superiore convenienza economica, e dimostrando che la sintesi di traiettorie senza runtime può efficacemente democratizzare lo sviluppo di agenti di cybersecurity all'avanguardia.

Intelligenza Artificiale e Disinformazione nell'Arte: i Modelli Linguaggio-Visione Possono Distinguere la Mano dall'Automazione Dietro la Tela?
Artificial Intelligence and Misinformation in Art: Can Vision Language Models Judge the Hand or the Machine Behind the Canvas?

Aug 2

ByTarian Fu, Javier Conde, Gonzalo Martínez, Pedro Reviriego, Elena Merino-Gómez, Fernando Moral

L'attribuzione delle opere d'arte in generale e dei dipinti in particolare è sempre stata una questione rilevante nel campo dell'arte. L'avvento di potenti modelli di intelligenza artificiale in grado di generare e analizzare immagini crea nuove sfide per l'attribuzione dei dipinti. Da un lato, i modelli di IA possono creare immagini che imitano lo stile di un pittore, le quali potrebbero essere erroneamente attribuite, ad esempio, da altri modelli di IA. Dall'altro lato, i modelli di IA potrebbero non essere in grado di identificare correttamente l'artista per dipinti reali, portando gli utenti a effettuare attribuzioni errate. In questo articolo, entrambi i problemi vengono studiati sperimentalmente utilizzando modelli di IA all'avanguardia per la generazione e l'analisi di immagini su un ampio dataset contenente quasi 40.000 dipinti di 128 artisti. I risultati dimostrano che i modelli di linguaggio visivo hanno capacità limitate nel: 1) eseguire l'attribuzione delle opere e 2) identificare le immagini generate da IA. Poiché gli utenti si affidano sempre più alle query ai modelli di IA per ottenere informazioni, questi risultati evidenziano la necessità di migliorare le capacità dei modelli di linguaggio visivo per eseguire in modo affidabile l'attribuzione degli artisti e il rilevamento delle immagini generate da IA, al fine di prevenire la diffusione di informazioni errate.

Allineamento Sicuro Personalizzato per Modelli di Diffusione da Testo a Immagine
Personalized Safety Alignment for Text-to-Image Diffusion Models

Aug 2

ByYu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu

I modelli di diffusione text-to-image hanno rivoluzionato la generazione di contenuti visivi, ma gli attuali meccanismi di sicurezza applicano standard uniformi che spesso non tengono conto delle preferenze individuali degli utenti. Questi modelli trascurano i diversi confini di sicurezza influenzati da fattori come età, salute mentale e credenze personali. Per affrontare questo problema, proponiamo il Personalized Safety Alignment (PSA), un framework che consente un controllo specifico dell'utente sui comportamenti di sicurezza nei modelli generativi. PSA integra profili utente personalizzati nel processo di diffusione, adattando il comportamento del modello per corrispondere alle preferenze di sicurezza individuali preservando la qualità dell'immagine. Introduciamo un nuovo dataset, Sage, che cattura le preferenze di sicurezza specifiche dell'utente e incorpora questi profili attraverso un meccanismo di cross-attention. Gli esperimenti dimostrano che PSA supera i metodi esistenti nella soppressione di contenuti dannosi e allinea meglio i contenuti generati con i vincoli dell'utente, ottenendo punteggi più alti in Win Rate e Pass Rate. Il nostro codice, dati e modelli sono disponibili pubblicamente all'indirizzo https://torpedo2648.github.io/PSAlign/.

Dens3R: Un Modello Fondamentale per la Predizione della Geometria 3D
Dens3R: A Foundation Model for 3D Geometry Prediction

Jul 22

ByXianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu

I recenti progressi nella ricostruzione 3D densa hanno portato a significativi avanzamenti, ma il raggiungimento di una previsione geometrica unificata e accurata rimane una sfida importante. La maggior parte dei metodi esistenti si limita a prevedere una singola quantità geometrica a partire da immagini di input. Tuttavia, quantità geometriche come profondità, normali di superficie e mappe di punti sono intrinsecamente correlate, e la loro stima isolata spesso non garantisce coerenza, limitando così sia l'accuratezza che l'applicabilità pratica. Ciò ci motiva a esplorare un framework unificato che modelli esplicitamente l'accoppiamento strutturale tra diverse proprietà geometriche per consentire una regressione congiunta. In questo articolo, presentiamo Dens3R, un modello di base 3D progettato per la previsione densa geometrica congiunta e adattabile a un'ampia gamma di task downstream. Dens3R adotta un framework di addestramento in due fasi per costruire progressivamente una rappresentazione di mappa di punti che sia sia generalizzabile che intrinsecamente invariante. Nello specifico, progettiamo un'architettura leggera condivisa encoder-decoder e introduciamo un posizionamento interpolato rotazionale per mantenere il potere espressivo migliorando al contempo la robustezza agli input ad alta risoluzione. Integrando le caratteristiche di corrispondenza tra coppie di immagini con la modellazione dell'invarianza intrinseca, Dens3R regredisce accuratamente multiple quantità geometriche come normali di superficie e profondità, ottenendo una percezione geometrica coerente da input a vista singola a multi-vista. Inoltre, proponiamo una pipeline di post-elaborazione che supporta l'inferenza multi-vista geometricamente coerente. Esperimenti estensivi dimostrano le prestazioni superiori di Dens3R in vari task di previsione densa 3D e ne evidenziano il potenziale per applicazioni più ampie.

RoboMemory: Un Framework Agente a Multi-Memoria Ispirato al Cervello per l'Apprendimento Continuo nei Sistemi Fisici Embodied
RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems

Aug 2

ByMingcong Lei, Honghao Cai, Zezhou Cui, Liangchen Tan, Junkun Hong, Gehan Hu, Shuangyu Zhu, Yimou Wu, Shaohan Jiang, Ge Wang, Zhen Li, Shuguang Cui, Yiming Zhao, Yatong Han

Presentiamo RoboMemory, un framework multi-memoria ispirato al cervello per l'apprendimento continuo in sistemi fisici incarnati, affrontando sfide critiche negli ambienti del mondo reale: apprendimento continuo, latenza della memoria multi-modulo, cattura delle correlazioni tra compiti e mitigazione dei loop infiniti nella pianificazione a ciclo chiuso. Basato sulle neuroscienze cognitive, integra quattro moduli principali: il Preprocessore delle Informazioni (simile al talamo), il Sistema di Memoria Incarnata a Lungo Termine (simile all'ippocampo), il Modulo di Pianificazione a Ciclo Chiuso (simile alla corteccia prefrontale) e l'Esecutore di Basso Livello (simile al cervelletto) per abilitare la pianificazione a lungo termine e l'apprendimento cumulativo. Il Sistema di Memoria Incarnata a Lungo Termine, centrale nel framework, allevia i problemi di velocità di inferenza nei framework di memoria complessi tramite aggiornamenti/recuperi paralleli tra i sottomoduli Spaziale, Temporale, Episodico e Semantico. Incorpora una Knowledge Graph (KG) dinamica e un design architettonico coerente per migliorare la consistenza e la scalabilità della memoria. Le valutazioni su EmbodiedBench mostrano che RoboMemory supera la baseline open-source (Qwen2.5-VL-72B-Ins) del 25% nella percentuale media di successo e supera lo State-of-the-Art (SOTA) closed-source (Claude3.5-Sonnet) del 5%, stabilendo un nuovo SOTA. Gli studi di ablazione convalidano i componenti chiave (critico, memoria spaziale, memoria a lungo termine), mentre il dispiegamento nel mondo reale conferma la sua capacità di apprendimento continuo con miglioramenti significativi nelle percentuali di successo su compiti ripetuti. RoboMemory allevia le sfide dell'alta latenza con scalabilità, servendo come riferimento fondamentale per l'integrazione di sistemi di memoria multi-modale nei robot fisici.

AgentTTS: Modello Linguistico di Grande Scala come Agente per Strategie di Scalabilità Ottimale al Tempo di Test in Compiti Complessi
AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

Jul 26

ByFali Wang, Hui Liu, Zhenwei Dai, Jingying Zeng, Zhiwei Zhang, Zongyu Wu, Chen Luo, Zhen Li, Xianfeng Tang, Qi He, Suhang Wang

Il ridimensionamento al momento del test (Test-Time Scaling, TTS) migliora le prestazioni dei modelli linguistici di grandi dimensioni (Large Language Models, LLMs) allocando risorse computazionali aggiuntive durante l'inferenza. Tuttavia, la ricerca esistente si concentra principalmente sul TTS in compiti a stadio singolo, mentre molti problemi del mondo reale sono compiti complessi multi-stadio, composti da una sequenza di sottocompiti eterogenei, ciascuno dei quali richiede un LLM con capacità specifiche. Pertanto, studiamo un nuovo problema: il ridimensionamento computazionale ottimale al momento del test in compiti complessi multi-stadio, con l'obiettivo di selezionare modelli adatti e allocare budget per ogni sottocompito per massimizzare le prestazioni complessive. Il TTS in compiti multi-stadio introduce due sfide fondamentali: (i) Lo spazio di ricerca combinatorio delle allocazioni di modelli e budget, combinato con l'elevato costo dell'inferenza, rende impraticabile una ricerca a forza bruta. (ii) Le allocazioni ottimali di modelli e budget tra i sottocompiti sono interdipendenti, aumentando la complessità della ricerca computazionale ottimale. Per colmare questa lacuna, conduciamo ampi esperimenti pilota su quattro compiti in sei dataset, derivando tre intuizioni empiriche che caratterizzano il comportamento dei LLM in compiti complessi multi-stadio. Sulla base di queste intuizioni, proponiamo AgentTTS, un framework basato su agenti LLM che ricerca autonomamente allocazioni computazionali ottimali attraverso interazioni iterative guidate dal feedback con l'ambiente di esecuzione. I risultati sperimentali dimostrano che AgentTTS supera significativamente i metodi tradizionali e altri approcci basati su LLM in termini di efficienza di ricerca, mostrando inoltre una maggiore robustezza rispetto a dimensioni variabili del set di addestramento e una migliore interpretabilità.

Lo Sfruttamento È Tutto Ciò di Cui Hai Bisogno... per l'Esplorazione
Exploitation Is All You Need... for Exploration

Aug 2

ByMicah Rentschler, Jesse Roberts

Garantire un'esplorazione sufficiente rappresenta una sfida centrale nell'addestramento di agenti di meta-apprendimento per rinforzo (meta-RL) per risolvere ambienti nuovi. Le soluzioni convenzionali al dilemma esplorazione-sfruttamento introducono incentivi espliciti come la randomizzazione, bonus di incertezza o ricompense intrinseche per incoraggiare l'esplorazione. In questo lavoro, ipotizziamo che un agente addestrato esclusivamente per massimizzare un obiettivo avido (solo sfruttamento) possa comunque mostrare un comportamento esplorativo emergente, purché siano soddisfatte tre condizioni: (1) Struttura Ambientale Ricorrente, in cui l'ambiente presenta regolarità ripetibili che consentono all'esperienza passata di informare le scelte future; (2) Memoria dell'Agente, che permette all'agente di conservare e utilizzare i dati storici delle interazioni; e (3) Assegnazione del Credito a Lungo Termine, in cui l'apprendimento propaga i rendimenti su un arco temporale sufficiente affinché i benefici ritardati dell'esplorazione possano influenzare le decisioni attuali. Attraverso esperimenti in bandit multi-armato stocastici e gridworld temporalmente estesi, osserviamo che, quando sono presenti sia la struttura che la memoria, una politica addestrata su un obiettivo strettamente avido mostra un comportamento esplorativo orientato alla ricerca di informazioni. Dimostriamo inoltre, attraverso ablazioni controllate, che l'esplorazione emergente scompare se manca la struttura ambientale o la memoria dell'agente (Condizioni 1 e 2). Sorprendentemente, la rimozione dell'assegnazione del credito a lungo termine (Condizione 3) non impedisce sempre l'esplorazione emergente, un risultato che attribuiamo all'effetto pseudo-Thompson Sampling. Questi risultati suggeriscono che, con i giusti prerequisiti, esplorazione e sfruttamento non devono essere trattati come obiettivi ortogonali, ma possono emergere da un processo unificato di massimizzazione della ricompensa.

SVM Quantistico-Classiche con Consapevolezza degli Embedding per l'Apprendimento Automatico Quantistico Scalabile
Embedding-Aware Quantum-Classical SVMs for Scalable Quantum Machine Learning

Jul 28

BySebastián Andrés Cajas Ordóñez, Luis Fernando Torres Torres, Mario Bifulco, Carlos Andrés Durán, Cristian Bosch, Ricardo Simón Carbajo

Le Quantum Support Vector Machines affrontano sfide di scalabilità a causa degli stati quantistici ad alta dimensionalità e delle limitazioni hardware. Proponiamo una pipeline quantistico-classica consapevole dell'embedding, che combina la distillazione k-means bilanciata per classi con gli embedding preaddestrati di Vision Transformer. La nostra scoperta chiave: gli embedding ViT abilitano in modo unico un vantaggio quantistico, ottenendo miglioramenti di accuratezza fino all'8,02% rispetto alle SVM classiche su Fashion-MNIST e del 4,42% su MNIST, mentre le feature CNN mostrano un degrado delle prestazioni. Utilizzando una simulazione di rete tensoriale a 16 qubit tramite cuTensorNet, forniamo la prima evidenza sistematica che il vantaggio del kernel quantistico dipende in modo critico dalla scelta dell'embedding, rivelando una sinergia fondamentale tra l'attenzione dei transformer e gli spazi delle feature quantistiche. Questo fornisce un percorso pratico per l'apprendimento automatico quantistico scalabile che sfrutta le moderne architetture neurali.

ReMoMask: Generazione di Movimenti Mascherati Potenziata dal Recupero di Informazioni
ReMoMask: Retrieval-Augmented Masked Motion Generation

Aug 4

ByZhengdao Li, Siheng Wang, Zeyu Zhang, Hao Tang

La generazione Text-to-Motion (T2M) mira a sintetizzare sequenze di movimento umano realistiche e semanticamente allineate a partire da descrizioni in linguaggio naturale. Tuttavia, gli approcci attuali affrontano una duplice sfida: i modelli generativi (ad esempio, i modelli di diffusione) soffrono di diversità limitata, accumulo di errori e implausibilità fisica, mentre i metodi di Generazione Aumentata con Recupero (RAG) presentano inerzia di diffusione, collasso parziale dei modi e artefatti asincroni. Per superare queste limitazioni, proponiamo ReMoMask, un framework unificato che integra tre innovazioni chiave: 1) Un Modello Bidirezionale Momentum Text-Motion disaccoppia la scala dei campioni negativi dalla dimensione del batch tramite code di momentum, migliorando sostanzialmente la precisione del recupero cross-modale; 2) Un meccanismo di Attenzione Semantica Spazio-temporale applica vincoli biomeccanici durante la fusione a livello di parti per eliminare gli artefatti asincroni; 3) La Guida RAG-Classier-Free incorpora una generazione incondizionata minore per migliorare la generalizzazione. Basato su RVQ-VAE di MoMask, ReMoMask genera in modo efficiente movimenti temporalmente coerenti in un numero minimo di passi. Esperimenti estensivi su benchmark standard dimostrano le prestazioni all'avanguardia di ReMoMask, con un miglioramento del 3,88% e del 10,97% nei punteggi FID su HumanML3D e KIT-ML, rispettivamente, rispetto al precedente metodo SOTA RAG-T2M. Codice: https://github.com/AIGeeksGroup/ReMoMask. Sito web: https://aigeeksgroup.github.io/ReMoMask.

Attenzione Sparsa Dinamica con Maschera Addestrabile
Trainable Dynamic Mask Sparse Attention

Aug 4

ByJingze Shi, Yifan Wu, Bingheng Wu, Yiran Peng, Liangdong Wang, Guang Liu, Yuyu Luo

Nei grandi modelli linguistici, la necessità di modellare contesti lunghi è in costante aumento, ma la complessità quadratica del meccanismo standard di self-attention spesso rappresenta un collo di bottiglia. Sebbene i meccanismi esistenti di attenzione sparsa abbiano migliorato l'efficienza, possono comunque incontrare problemi come pattern statici o perdita di informazioni. Introduciamo un meccanismo di attenzione sparsa con maschera dinamica addestrabile, Dynamic Mask Attention (DMA), che sfrutta efficacemente la sparsità consapevole del contenuto e della posizione. DMA raggiunge questo obiettivo attraverso due innovazioni chiave: in primo luogo, genera dinamicamente maschere sparse consapevoli del contenuto dalle rappresentazioni dei valori, consentendo al modello di identificare e concentrarsi in modo adattivo sulle informazioni critiche. In secondo luogo, implementa un calcolo di attenzione sparsa consapevole della posizione che salta efficacemente le regioni di calcolo non necessarie. Questo design a doppia sparsità consente al modello di ridurre significativamente la complessità computazionale delle informazioni importanti mantenendo al contempo l'informazione completa, raggiungendo un eccellente equilibrio tra fedeltà delle informazioni ed efficienza computazionale. Abbiamo verificato le prestazioni di DMA attraverso esperimenti completi. Studi comparativi dimostrano che DMA supera l'attenzione multi-testa, l'attenzione a finestra scorrevole, l'attenzione latente multi-testa e l'attenzione sparsa nativa in termini di perplessità nelle impostazioni della Chinchilla Scaling Law. Inoltre, in impegnativi compiti di richiamo associativo multi-query, DMA dimostra prestazioni e efficienza superiori rispetto a questi metodi. Crucialmente, nella valutazione di un modello con 1,7 miliardi di parametri, DMA supera significativamente l'attenzione multi-testa sia nelle prestazioni standard dei benchmark che nel complesso compito di "ago in un pagliaio". Questi risultati sperimentali evidenziano la sua capacità di bilanciare efficacemente l'efficienza del modello e la capacità di modellare contesti lunghi.

Rappresentazioni Platoniche per la Mappatura della Povertà: Codici Unificati Visione-Linguaggio o Novità Indotta dagli Agenti?
Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?

Aug 1

BySatiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud

Indaghiamo se indicatori socio-economici come la ricchezza familiare lascino tracce recuperabili nelle immagini satellitari (che catturano caratteristiche fisiche) e nei testi provenienti da Internet (che riflettono narrazioni storiche/economiche). Utilizzando i dati del Demographic and Health Survey (DHS) provenienti da quartieri africani, associamo immagini Landsat a descrizioni testuali generate da LLM condizionate su località/anno e testi recuperati da un agente di ricerca AI da fonti web. Sviluppiamo un framework multimodale che predice la ricchezza familiare (International Wealth Index) attraverso cinque pipeline: (i) modello di visione sulle immagini satellitari, (ii) LLM che utilizza solo località/anno, (iii) agente AI che cerca/sintetizza testi web, (iv) codificatore congiunto immagine-testo, (v) ensemble di tutti i segnali. Il nostro framework produce tre contributi. Primo, la fusione di visione e testo da agente/LLM supera i baseline basati solo sulla visione nella previsione della ricchezza (ad esempio, R-quadro di 0.77 vs. 0.63 su divisioni out-of-sample), con la conoscenza interna dell'LLM che si dimostra più efficace rispetto ai testi recuperati dall'agente, migliorando la robustezza nella generalizzazione out-of-country e out-of-time. Secondo, troviamo una convergenza rappresentativa parziale: gli embedding fusi dalle modalità visione/linguaggio correlano moderatamente (similarità coseno mediana di 0.60 dopo l'allineamento), suggerendo un codice latente condiviso di benessere materiale pur mantenendo dettagli complementari, in linea con l'Ipotesi della Rappresentazione Platonica. Sebbene i testi generati solo da LLM superino i dati recuperati dall'agente, sfidando la nostra Ipotesi della Novità Indotta dall'Agente, modesti guadagni dalla combinazione dei dati dell'agente in alcune divisioni supportano debolmente l'idea che le informazioni raccolte dall'agente introducano strutture rappresentative uniche non completamente catturate dalla conoscenza statica dell'LLM. Terzo, rilasciamo un dataset multimodale su larga scala che comprende più di 60.000 cluster DHS collegati a immagini satellitari, descrizioni generate da LLM e testi recuperati dall'agente.

SHAMI-MT: Un sistema di traduzione automatica bidirezionale tra il dialetto arabo siriano e l'arabo standard moderno
SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System

Aug 4

BySerry Sibaee, Omer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila

Il ricco panorama linguistico del mondo arabo è caratterizzato da un significativo divario tra l'Arabo Standard Moderno (MSA), la lingua della comunicazione formale, e i vari dialetti regionali utilizzati nella vita quotidiana. Questa diglossia rappresenta una sfida formidabile per l'elaborazione del linguaggio naturale, in particolare per la traduzione automatica. Questo articolo introduce SHAMI-MT, un sistema di traduzione automatica bidirezionale specificamente progettato per colmare il divario comunicativo tra l'MSA e il dialetto siriano. Presentiamo due modelli specializzati, uno per la traduzione da MSA a Shami e un altro da Shami a MSA, entrambi basati sull'architettura all'avanguardia AraT5v2-base-1024. I modelli sono stati perfezionati sul dataset completo Nabra e valutati rigorosamente su dati non visti del corpus MADAR. Il nostro modello MSA-to-Shami ha ottenuto un punteggio di qualità medio eccezionale di 4.01 su 5.0 quando valutato dal modello OPENAI GPT-4.1, dimostrando la sua capacità di produrre traduzioni non solo accurate ma anche autenticamente dialettali. Questo lavoro fornisce uno strumento cruciale e ad alta fedeltà per una coppia linguistica precedentemente poco servita, avanzando il campo della traduzione dialettale araba e offrendo applicazioni significative nella localizzazione dei contenuti, nel patrimonio culturale e nella comunicazione interculturale.

Metodi Basati sull'Incertezza per la Costruzione Automatica di Dati di Ricompensa dei Processi e l'Aggregazione degli Output nel Ragionamento Matematico
Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning

Aug 3

ByJiuzhou Han, Wray Buntine, Ehsan Shareghi

I grandi modelli linguistici hanno dimostrato capacità notevoli nei compiti di ragionamento matematico complesso, ma inevitabilmente generano errori durante soluzioni a più passaggi. I Modelli di Ricompensa a Livello di Processo (PRM) hanno mostrato grande potenziale fornendo supervisione e valutazione ad ogni passaggio intermedio, migliorando così efficacemente le capacità di ragionamento dei modelli. Tuttavia, l'addestramento di PRM efficaci richiede dati di ricompensa di processo di alta qualità, eppure i metodi esistenti per costruire tali dati sono spesso laboriosi o inefficienti. In questo articolo, proponiamo un framework guidato dall'incertezza per la costruzione automatizzata di dati di ricompensa di processo, che comprende sia i processi di generazione che di annotazione dei dati per i PRM. Inoltre, identifichiamo i limiti sia del voto a maggioranza che dei PRM, e introduciamo due metodi generici di aggregazione dell'output consapevoli dell'incertezza: Hybrid Majority Reward Vote e Weighted Reward Frequency Vote, che combinano i punti di forza del voto a maggioranza con i PRM. Esperimenti estesi su ProcessBench, MATH e GSMPlus dimostrano l'efficacia e l'efficienza del framework proposto per la costruzione di dati PRM, e mostrano che i due metodi di aggregazione dell'output migliorano ulteriormente le capacità di ragionamento matematico attraverso diversi PRM. Il codice e i dati saranno pubblicamente disponibili su https://github.com/Jiuzhouh/UnPRM.