HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

19 papers found

A.S.E: Un Benchmark a Livello di Repository per Valutare la Sicurezza nel Codice Generato dall'Intelligenza Artificiale
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

Aug 25

ByKeke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang

340

La crescente adozione di modelli linguistici di grandi dimensioni (LLM) nell'ingegneria del software rende necessaria una rigorosa valutazione della sicurezza del codice da essi generato. Tuttavia, i benchmark esistenti sono inadeguati, poiché si concentrano su frammenti di codice isolati, utilizzano metodi di valutazione instabili che mancano di riproducibilità e non collegano la qualità del contesto di input con la sicurezza dell'output. Per colmare queste lacune, introduciamo A.S.E (AI Code Generation Security Evaluation), un benchmark per la generazione sicura di codice a livello di repository. A.S.E costruisce task partendo da repository reali con CVE documentati, preservando il contesto completo del repository come i sistemi di build e le dipendenze tra file. Il suo framework di valutazione riproducibile e containerizzato utilizza regole definite da esperti per fornire valutazioni stabili e verificabili della sicurezza, della qualità della build e della stabilità della generazione. La nostra valutazione dei principali LLM su A.S.E rivela tre risultati chiave: (1) Claude-3.7-Sonnet ottiene le migliori prestazioni complessive. (2) Il divario di sicurezza tra modelli proprietari e open-source è ridotto; Qwen3-235B-A22B-Instruct raggiunge il punteggio di sicurezza più alto. (3) Strategie di decodifica concise e "a pensiero veloce" superano costantemente ragionamenti complessi e "a pensiero lento" per l'applicazione di patch di sicurezza.

Una rassegna sui grandi modelli linguistici scientifici: dalle fondamenta dei dati alle frontiere degli agenti
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Aug 28

ByMing Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou

140

I Large Language Models scientifici (Sci-LLMs) stanno trasformando il modo in cui la conoscenza viene rappresentata, integrata e applicata nella ricerca scientifica, sebbene il loro progresso sia influenzato dalla natura complessa dei dati scientifici. Questa rassegna presenta una sintesi completa e incentrata sui dati che ridefinisce lo sviluppo degli Sci-LLMs come una co-evoluzione tra i modelli e il loro substrato di dati sottostante. Formuliamo una tassonomia unificata dei dati scientifici e un modello gerarchico della conoscenza scientifica, enfatizzando le sfide multimodali, multiscala e specifiche del dominio che differenziano i corpora scientifici dai dataset generali di elaborazione del linguaggio naturale. Esaminiamo sistematicamente i recenti Sci-LLMs, dai modelli general-purpose a quelli specializzati in diverse discipline scientifiche, insieme a un'analisi estesa di oltre 270 dataset pre/post-training, dimostrando perché gli Sci-LLMs pongono richieste distinte — corpora eterogenei, multiscala e carichi di incertezza che richiedono rappresentazioni che preservino l'invarianza di dominio e abilitino il ragionamento cross-modale. Per quanto riguarda la valutazione, esaminiamo oltre 190 dataset di benchmark e tracciamo un passaggio da esami statici verso valutazioni orientate ai processi e alla scoperta, con protocolli di valutazione avanzati. Queste analisi incentrate sui dati evidenziano problemi persistenti nello sviluppo dei dati scientifici e discutono soluzioni emergenti che coinvolgono pipeline di annotazione semi-automatizzate e validazione esperta. Infine, delineiamo un cambiamento di paradigma verso sistemi a ciclo chiuso in cui agenti autonomi basati su Sci-LLMs sperimentano attivamente, validano e contribuiscono a una base di conoscenza vivente e in evoluzione. Collettivamente, questo lavoro fornisce una roadmap per costruire sistemi di intelligenza artificiale (AI) affidabili e in continua evoluzione che funzionino come veri partner nell'accelerare la scoperta scientifica.

R-4B: Incentivizzare la Capacità di Auto-Ragionamento Generale nei MLLM tramite Annealing Bi-Modale e Apprendimento per Rinforzo
R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

Aug 28

ByJie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng

109

I Modelli Linguistici Multimodali di Grande Dimensione (MLLM) dotati di capacità di pensiero passo-passo hanno dimostrato prestazioni notevoli su problemi complessi che richiedono ragionamento. Tuttavia, questo processo di pensiero risulta ridondante per problemi semplici che possono essere risolti senza un ragionamento complesso. Per affrontare questa inefficienza, proponiamo R-4B, un MLLM a pensiero automatico, che può decidere in modo adattivo quando attivare il pensiero in base alla complessità del problema. L'idea centrale di R-4B è quella di dotare il modello sia di capacità di pensiero che di non-pensiero utilizzando un annealing bi-modale e applicare l'Ottimizzazione della Politica Bi-modale (BPO) per migliorare l'accuratezza del modello nel determinare se attivare il processo di pensiero. Nello specifico, addestriamo prima il modello su un dataset accuratamente curato che copre vari argomenti, contenente campioni sia in modalità di pensiero che di non-pensiero. Successivamente, il modello viene sottoposto a una seconda fase di addestramento sotto un framework GRPO migliorato, in cui il modello di politica è costretto a generare risposte da entrambe le modalità per ogni query di input. I risultati sperimentali mostrano che R-4B raggiunge prestazioni all'avanguardia su 25 benchmark impegnativi. Supera Qwen2.5-VL-7B nella maggior parte dei compiti e raggiunge prestazioni paragonabili a modelli più grandi come Kimi-VL-A3B-Thinking-2506 (16B) su benchmark intensivi di ragionamento, con un costo computazionale inferiore.

EmbodiedOneVision: Pre-addestramento Intervallato Visione-Testo-Azione per il Controllo Generale dei Robot
EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

Aug 28

ByDelin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

La capacità umana di eseguire in modo fluido ragionamenti multimodali e interazioni fisiche nel mondo aperto rappresenta un obiettivo fondamentale per i sistemi intelligenti incarnati a scopo generale. I recenti modelli visione-linguaggio-azione (VLA), co-addestrati su vasti dataset robotici e visivo-testuali, hanno dimostrato progressi significativi nel controllo generale dei robot. Tuttavia, non riescono ancora a raggiungere la flessibilità umana nel ragionamento e nell'interazione intervallati. In questo lavoro, introduciamo EO-Robotics, composto dal modello EO-1 e dal dataset EO-Data1.5M. EO-1 è un modello fondazionale incarnato unificato che raggiunge prestazioni superiori nel ragionamento multimodale incarnato e nel controllo dei robot attraverso un pre-addestramento intervallato visione-testo-azione. Lo sviluppo di EO-1 si basa su due pilastri chiave: (i) un'architettura unificata che elabora in modo indiscriminato input multimodali (immagini, testo, video e azioni), e (ii) un vasto dataset di alta qualità per il ragionamento multimodale incarnato, EO-Data1.5M, che contiene oltre 1,5 milioni di campioni con enfasi sulla comprensione intervallata visione-testo-azione. EO-1 viene addestrato attraverso sinergie tra decodifica auto-regressiva e denoising con flow matching su EO-Data1.5M, consentendo una generazione fluida delle azioni robotiche e un ragionamento multimodale incarnato. Esperimenti estensivi dimostrano l'efficacia dell'apprendimento intervallato visione-testo-azione per la comprensione e la generalizzazione nel mondo aperto, validato attraverso una varietà di compiti di manipolazione dexterous a lungo orizzonte su molteplici incarnazioni. Questo articolo descrive in dettaglio l'architettura di EO-1, la strategia di costruzione dei dati di EO-Data1.5M e la metodologia di addestramento, offrendo spunti preziosi per lo sviluppo di modelli fondazionali incarnati avanzati.

Droplet3D: Priorità di buon senso dai video facilitano la generazione 3D
Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

Aug 28

ByXiaochuan Li, Guoguang Du, Runze Zhang, Liang Jin, Qi Jia, Lihua Lu, Zhenhua Guo, Yaqian Zhao, Haiyang Liu, Tianqi Wang, Changsheng Li, Xiaoli Gong, Rengang Li, Baoyu Fan

Le leggi di scala hanno validato il successo e le potenzialità dei modelli addestrati su grandi quantità di dati nella generazione creativa attraverso i domini di testo, immagini e video. Tuttavia, questo paradigma si scontra con la scarsità di dati nel dominio 3D, poiché ce ne sono molti meno disponibili su internet rispetto alle modalità menzionate. Fortunatamente, esistono video adeguati che contengono intrinsecamente conoscenze di senso comune, offrendo un segnale di supervisione alternativo per mitigare il collo di bottiglia nella generalizzazione causato dai dati 3D nativi limitati. Da un lato, i video che catturano più viste di un oggetto o di una scena forniscono un precedente di coerenza spaziale per la generazione 3D. Dall'altro, le ricche informazioni semantiche contenute nei video consentono ai contenuti generati di essere più fedeli ai prompt testuali e semanticamente plausibili. Questo articolo esplora come applicare la modalità video nella generazione di asset 3D, spaziando dai dataset ai modelli. Introduciamo Droplet3D-4M, il primo dataset video su larga scala con annotazioni a livello di multi-vista, e addestriamo Droplet3D, un modello generativo che supporta sia input di immagini che di testo denso. Esperimenti estensivi validano l'efficacia del nostro approccio, dimostrando la sua capacità di produrre contenuti spazialmente coerenti e semanticamente plausibili. Inoltre, in contrasto con le soluzioni 3D prevalenti, il nostro approccio mostra il potenziale per l'estensione ad applicazioni a livello di scena. Ciò indica che le conoscenze di senso comune dai video facilitano significativamente la creazione 3D. Abbiamo reso open-source tutte le risorse, inclusi il dataset, il codice, il framework tecnico e i pesi del modello: https://dropletx.github.io/.

Pensare nei Giochi: Apprendere il Ragionamento nei Giochi tramite Apprendimento per Rinforzo con Modelli Linguistici di Grande Scala
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

Aug 29

ByYi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang

I grandi modelli linguistici (LLM) eccellono in compiti di ragionamento complesso come la matematica e la programmazione, ma spesso faticano con semplici attività interattive che i bambini svolgono senza sforzo. Questa discrepanza evidenzia un divario critico tra conoscenza dichiarativa (sapere qualcosa) e conoscenza procedurale (sapere come fare qualcosa). Sebbene gli agenti tradizionali di apprendimento per rinforzo (RL) possano acquisire conoscenza procedurale attraverso l'interazione con l'ambiente, spesso operano come scatole nere e richiedono una quantità significativa di dati di addestramento. Al contrario, gli LLM possiedono una vasta conoscenza del mondo e capacità di ragionamento, ma non sono in grado di convertire efficacemente questa conoscenza statica in decision-making dinamico in contesti interattivi. Per affrontare questa sfida, proponiamo Think in Games (TiG), un nuovo framework che consente agli LLM di sviluppare comprensione procedurale attraverso l'interazione diretta con ambienti di gioco, mantenendo al contempo le loro innate capacità di ragionamento e spiegazione. Nello specifico, TiG riformula il decision-making basato su RL come un compito di modellazione linguistica: gli LLM generano politiche guidate dal linguaggio, che vengono affinate iterativamente attraverso l'apprendimento per rinforzo online basato sul feedback ambientale. I nostri risultati sperimentali dimostrano che TiG colma con successo il divario tra conoscenza dichiarativa e procedurale, raggiungendo prestazioni competitive con richieste di dati e computazione drasticamente inferiori rispetto ai metodi RL convenzionali. Inoltre, TiG fornisce spiegazioni passo-passo in linguaggio naturale per le sue decisioni, migliorando notevolmente la trasparenza e l'interpretabilità in compiti interattivi complessi.

Embedding di Codice Efficienti da Modelli di Generazione di Codice
Efficient Code Embeddings from Code Generation Models

Aug 29

ByDaria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao

jina-code-embeddings è una suite innovativa di modelli di embedding per codice progettata per recuperare codice da query in linguaggio naturale, eseguire risposte a domande tecniche e identificare frammenti di codice semanticamente simili tra diversi linguaggi di programmazione. Utilizza in modo innovativo un'architettura autoregressiva pre-addestrata sia su testo che su codice, generando embedding tramite il pooling sull'ultimo token. Descriviamo la procedura di addestramento e dimostriamo prestazioni all'avanguardia nonostante le dimensioni relativamente ridotte dei modelli, validando così questo approccio alla costruzione di modelli di embedding per codice.

TalkVid: Un Dataset Ampio e Diversificato per la Sintesi di Teste Parlanti Guidata dall'Audio
TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

Aug 19

ByShunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang

La sintesi di volti parlanti guidata da audio ha raggiunto un notevole fotorealismo, tuttavia i modelli all'avanguardia (SOTA) presentano un fallimento critico: mancano di generalizzazione rispetto all'intero spettro della diversità umana in termini di etnia, lingua e gruppi di età. Sosteniamo che questo divario di generalizzazione sia un sintomo diretto delle limitazioni nei dati di addestramento esistenti, che mancano della scala, qualità e diversità necessarie. Per affrontare questa sfida, introduciamo TalkVid, un nuovo dataset su larga scala, di alta qualità e diversificato, contenente 1244 ore di video provenienti da 7729 parlanti unici. TalkVid è curato attraverso una pipeline automatizzata e multi-fase che filtra rigorosamente per stabilità del movimento, qualità estetica e dettaglio facciale, ed è validato rispetto a giudizi umani per garantirne l'affidabilità. Inoltre, costruiamo e rilasciamo TalkVid-Bench, un set di valutazione stratificato di 500 clip bilanciato meticolosamente lungo assi demografici e linguistici chiave. I nostri esperimenti dimostrano che un modello addestrato su TalkVid supera le controparti addestrate su dataset precedenti, mostrando una generalizzazione cross-dataset superiore. Fondamentalmente, la nostra analisi su TalkVid-Bench rivela disparità di prestazioni tra sottogruppi che sono oscurate dalle metriche aggregate tradizionali, sottolineando la sua necessità per la ricerca futura. Codice e dati sono disponibili su https://github.com/FreedomIntelligence/TalkVid.

TiKMiX: Considerare l'Influenza dei Dati nella Miscela Dinamica per il Pre-addestramento dei Modelli Linguistici
TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

Aug 25

ByYifan Wang, Binbin Liu, Fengze Liu, Yuanfan Guo, Jiyao Deng, Xuecheng Wu, Weidong Zhou, Xiaohuan Zhou, Taifeng Wang

La miscela di dati utilizzata nel pre-addestramento di un modello linguistico rappresenta un elemento fondamentale per le sue prestazioni finali. Tuttavia, una strategia di miscelazione statica risulta subottimale, poiché le preferenze di apprendimento del modello per i vari domini di dati cambiano dinamicamente durante l'addestramento. In particolare, osservare queste preferenze in evoluzione in modo computazionalmente efficiente rimane una sfida significativa. Per affrontare questo problema, proponiamo TiKMiX, un metodo che regola dinamicamente la miscela di dati in base alle preferenze in evoluzione del modello. TiKMiX introduce l'Influenza di Gruppo, una metrica efficiente per valutare l'impatto dei domini di dati sul modello. Questa metrica consente di formulare il problema della miscelazione dei dati come una ricerca di una distribuzione ottimale che massimizzi l'influenza. Risolviamo questo problema attraverso due approcci: TiKMiX-D per l'ottimizzazione diretta e TiKMiX-M, che utilizza un modello di regressione per prevedere una miscela superiore. Abbiamo addestrato modelli con diversi numeri di parametri, su fino a 1 trilione di token. TiKMiX-D supera le prestazioni di metodi all'avanguardia come REGMIX utilizzando solo il 20% delle risorse computazionali. TiKMiX-M porta a un miglioramento medio delle prestazioni del 2% su 9 benchmark downstream. I nostri esperimenti rivelano che le preferenze di dati di un modello evolvono con il progresso dell'addestramento e la scala, e dimostriamo che l'aggiustamento dinamico della miscela di dati basato sull'Influenza di Gruppo, una misura diretta di queste preferenze, migliora significativamente le prestazioni mitigando la sottodigestione dei dati osservata con rapporti statici.

UItron: Agente GUI Fondamentale con Percezione Avanzata e Pianificazione
UItron: Foundational GUI Agent with Advanced Perception and Planning

Aug 29

ByZhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma

L'agente GUI mira a consentire operazioni automatizzate su dispositivi mobili e PC, un compito cruciale per il raggiungimento dell'intelligenza artificiale generale. Il rapido progresso dei modelli di linguaggio visivo (VLMs) accelera lo sviluppo degli agenti GUI, grazie alle loro potenti capacità di comprensione visiva e pianificazione delle attività. Tuttavia, costruire un agente GUI rimane un compito impegnativo a causa della scarsità di traiettorie operative, della disponibilità di infrastrutture interattive e delle limitazioni iniziali dei modelli di base. In questo lavoro, presentiamo UItron, un modello di base open-source per agenti GUI automatici, dotato di avanzate capacità di percezione, ancoraggio e pianificazione delle interfacce grafiche. UItron sottolinea la necessità di un'ingegneria dei dati sistematica e di infrastrutture interattive come componenti fondamentali per lo sviluppo degli agenti GUI. Non solo studia sistematicamente una serie di strategie di ingegneria dei dati per migliorare gli effetti dell'addestramento, ma stabilisce anche un ambiente interattivo che collega sia dispositivi mobili che PC. Durante l'addestramento, UItron adotta un fine-tuning supervisionato su compiti di percezione e pianificazione in vari scenari GUI, per poi sviluppare un framework di apprendimento per rinforzo curriculare per abilitare ragionamenti complessi e esplorazioni in ambienti online. Di conseguenza, UItron raggiunge prestazioni superiori nei benchmark di percezione, ancoraggio e pianificazione delle GUI. In particolare, UItron evidenzia la competenza interattiva con le migliori app mobili cinesi, poiché abbiamo identificato una generale mancanza di capacità in cinese anche nelle soluzioni più avanzate. A tal fine, raccogliamo manualmente oltre un milione di passaggi di traiettorie operative tra le 100 app più popolari e costruiamo ambienti di valutazione offline e online per gli agenti. I risultati sperimentali dimostrano che UItron compie progressi significativi negli scenari di app cinesi, avvicinando ulteriormente gli agenti GUI all'applicazione nel mondo reale.

AHELM: Una Valutazione Olistica dei Modelli Audio-Linguistici
AHELM: A Holistic Evaluation of Audio-Language Models

Aug 29

ByTony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang

Le valutazioni dei modelli audio-linguistici (ALM) — modelli multimodali che ricevono in input audio e testo intervallati e producono testo in output — sono ostacolate dalla mancanza di benchmark standardizzati; la maggior parte dei benchmark misura solo una o due capacità e tralascia aspetti valutativi come l'equità o la sicurezza. Inoltre, il confronto tra i modelli è difficile poiché valutazioni separate testano un numero limitato di modelli e utilizzano metodi di prompt e parametri di inferenza diversi. Per affrontare queste carenze, introduciamo AHELM, un benchmark che aggrega vari dataset — inclusi due nuovi dataset sintetici audio-testo chiamati PARADE, che valuta gli ALM nell'evitare stereotipi, e CoRe-Bench, che misura il ragionamento su audio conversazionale attraverso risposte a domande multi-turn inferenziali — per misurare in modo olistico le prestazioni degli ALM su 10 aspetti che abbiamo identificato come importanti per lo sviluppo e l'utilizzo degli ALM: percezione audio, conoscenza, ragionamento, rilevamento delle emozioni, bias, equità, multilinguità, robustezza, tossicità e sicurezza. Standardizziamo inoltre i prompt, i parametri di inferenza e le metriche di valutazione per garantire confronti equi tra i modelli. Testiamo 14 ALM open-weight e closed-API di 3 sviluppatori e 3 ulteriori sistemi di baseline semplici, ciascuno composto da un riconoscitore vocale automatico e un modello linguistico. I nostri risultati mostrano che, sebbene Gemini 2.5 Pro si posizioni al primo posto in 5 dei 10 aspetti, presenta un'ingiustizia di gruppo (p=0.01) nei task di ASR, mentre la maggior parte degli altri modelli no. Troviamo inoltre che i sistemi di baseline performano ragionevolmente bene su AHELM, con uno che si classifica al 5° posto nonostante abbia solo capacità di conversione da voce a testo. Per trasparenza, tutti i prompt grezzi, le generazioni dei modelli e gli output sono disponibili sul nostro sito web all'indirizzo https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM è concepito come un benchmark in evoluzione, e nuovi dataset e modelli verranno aggiunti nel tempo.

CLIPSym: Esplorazione del Rilevamento della Simmetria con CLIP
CLIPSym: Delving into Symmetry Detection with CLIP

Aug 19

ByTinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh

La simmetria è uno degli indizi geometrici più fondamentali nella visione artificiale, e la sua rilevazione rappresenta una sfida continua. Con i recenti progressi nei modelli visione-linguaggio, come CLIP, abbiamo indagato se un modello CLIP pre-addestrato possa facilitare la rilevazione della simmetria sfruttando gli ulteriori indizi di simmetria presenti nelle descrizioni delle immagini naturali. Proponiamo CLIPSym, che utilizza gli encoder di immagini e linguaggio di CLIP e un decoder rotazione-equivariante basato su un ibrido di Transformer e G-Convoluzione per rilevare simmetrie di rotazione e riflessione. Per sfruttare appieno l'encoder linguistico di CLIP, abbiamo sviluppato una nuova tecnica di prompting chiamata Semantic-Aware Prompt Grouping (SAPG), che aggrega un insieme diversificato di prompt basati su oggetti frequenti per integrare meglio gli indizi semantici nella rilevazione della simmetria. Empiricamente, dimostriamo che CLIPSym supera lo stato dell'arte attuale su tre dataset standard di rilevazione della simmetria (DENDI, SDRW e LDRS). Infine, conduiamo ablazioni dettagliate che verificano i vantaggi del pre-addestramento di CLIP, del decoder equivariante proposto e della tecnica SAPG. Il codice è disponibile all'indirizzo https://github.com/timyoung2333/CLIPSym.

L'allineamento Modello-Compito Guida Risultati RL Distinti
Model-Task Alignment Drives Distinct RL Outcomes

Aug 28

ByHaoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He

I recenti progressi nell'applicazione del reinforcement learning (RL) ai grandi modelli linguistici (LLM) hanno portato a significativi avanzamenti. In particolare, è stata riportata una serie di fenomeni notevoli ma spesso controintuitivi negli LLM, che mostrano schemi non tipicamente osservati nei contesti tradizionali di RL. Ad esempio, affermazioni degne di nota includono il fatto che un singolo esempio di addestramento possa eguagliare le prestazioni ottenute con un intero dataset, che il segnale di ricompensa non debba essere molto preciso e che l'addestramento esclusivamente con campioni negativi possa eguagliare o addirittura superare metodi sofisticati basati su ricompense. Tuttavia, le condizioni precise in cui queste osservazioni sono valide - e, in modo critico, quando falliscono - rimangono poco chiare. In questo lavoro, identifichiamo un fattore chiave che differenzia le osservazioni di RL: se il modello pre-addestrato mostra già un forte allineamento modello-compito (Model-Task Alignment), misurato dalla precisione pass@k sul compito valutato. Attraverso un esame sistematico e completo di una serie di affermazioni controintuitive, supportato da una rigorosa validazione sperimentale su diverse architetture di modelli e domini di compiti, i nostri risultati mostrano che, mentre l'addestramento RL standard rimane costantemente robusto in diverse configurazioni, molti di questi risultati controintuitivi emergono solo quando il modello e il compito mostrano già un forte allineamento modello-compito. Al contrario, queste tecniche non riescono a guidare un apprendimento sostanziale in contesti più impegnativi, dove i metodi RL standard rimangono efficaci.

Imitando l'occhio del fisico: un approccio centrato sui VLM per la scoperta di formule fisiche
Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery

Aug 24

ByJiaqi Liu, Songning Lai, Pengze Li, Di Yu, Wenjie Zhou, Yiyang Zhou, Peng Xia, Zijun Wang, Xi Chen, Shixiang Tang, Lei Bai, Wanli Ouyang, Mingyu Ding, Huaxiu Yao, Aoran Wang

La scoperta automatizzata di leggi fisiche a partire da dati osservativi nel mondo reale rappresenta una grande sfida per l'IA. I metodi attuali, che si basano sulla regressione simbolica o sui modelli linguistici di grandi dimensioni (LLM), sono limitati a dati unimodali e trascurano le ricche rappresentazioni fenomenologiche visive del movimento, indispensabili per i fisici. Questa "deprivazione sensoriale" indebolisce gravemente la loro capacità di interpretare i modelli spazio-temporali intrinseci nei fenomeni dinamici. Per colmare questa lacuna, proponiamo VIPER-R1, un modello multimodale che esegue l'Induzione Visiva per il Ragionamento su Equazioni Fisiche (Visual Induction for Physics-based Equation Reasoning) per scoprire formule simboliche fondamentali. Esso integra percezione visiva, dati di traiettoria e ragionamento simbolico per emulare il processo di scoperta scientifica. Il modello viene addestrato attraverso un curriculum di Induzione della Struttura del Movimento (Motion Structure Induction, MSI), utilizzando un affinamento supervisionato per interpretare i ritratti di fase cinematici e costruire ipotesi guidate da una Catena Causale del Pensiero (Causal Chain of Thought, C-CoT), seguita da una Calibrazione Simbolica Guidata da Ricompensa (Reward-Guided Symbolic Calibration, RGSC) per affinare la struttura della formula con l'apprendimento per rinforzo. Durante l'inferenza, il VIPER-R1 addestrato agisce come un agente: prima formula un'ipotesi simbolica ad alta confidenza, poi invoca proattivamente uno strumento esterno di regressione simbolica per eseguire un Riallineamento Simbolico dei Residui (Symbolic Residual Realignment, SR^2). Questo passaggio finale, analogo all'analisi delle perturbazioni di un fisico, riconcilia il modello teorico con i dati empirici. Per supportare questa ricerca, introduciamo PhysSymbol, un nuovo corpus multimodale di 5.000 istanze. Gli esperimenti dimostrano che VIPER-R1 supera costantemente i modelli di riferimento VLM (Vision-Language Models) all'avanguardia in termini di accuratezza e interpretabilità, consentendo una scoperta più precisa delle leggi fisiche. Pagina del progetto: https://jiaaqiliu.github.io/VIPER-R1/

Morae: Sospensione Proattiva degli Agenti UI per le Scelte dell'Utente
Morae: Proactively Pausing UI Agents for User Choices

Aug 29

ByYi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel

Gli agenti di interfaccia utente (UI) promettono di rendere più accessibili le UI complesse o inaccessibili per gli utenti non vedenti o ipovedenti (BLV). Tuttavia, gli attuali agenti UI eseguono tipicamente i compiti in modo end-to-end senza coinvolgere gli utenti nelle scelte critiche o renderli consapevoli di informazioni contestuali importanti, riducendo così l’agenzia dell’utente. Ad esempio, nel nostro studio sul campo, un partecipante BLV ha chiesto di acquistare l’acqua frizzante più economica disponibile, e l’agente ha scelto automaticamente una tra diverse opzioni allo stesso prezzo, senza menzionare prodotti alternativi con sapori diversi o valutazioni migliori. Per affrontare questo problema, introduciamo Morae, un agente UI che identifica automaticamente i punti di decisione durante l’esecuzione dei compiti e si ferma per consentire agli utenti di fare scelte. Morae utilizza modelli multimodali di grandi dimensioni per interpretare le query degli utenti insieme al codice dell’interfaccia e agli screenshot, e chiede chiarimenti agli utenti quando è necessario fare una scelta. In uno studio su compiti web del mondo reale con partecipanti BLV, Morae ha aiutato gli utenti a completare più compiti e selezionare opzioni che corrispondevano meglio alle loro preferenze, rispetto agli agenti di base, incluso OpenAI Operator. Più in generale, questo lavoro esemplifica un approccio a iniziativa mista in cui gli utenti beneficiano dell’automazione degli agenti UI pur potendo esprimere le proprie preferenze.

Reti Neurali Ricorrenti Residue Profonde con Stato Eco: esplorazione delle connessioni residue ortogonali in reti neurali ricorrenti non addestrate
Deep Residual Echo State Networks: exploring residual orthogonal connections in untrained Recurrent Neural Networks

Aug 28

ByMatteo Pinna, Andrea Ceni, Claudio Gallicchio

Le Echo State Network (ESN) sono un particolare tipo di Reti Neurali Ricorrenti (RNN) non addestrate all'interno del framework di Reservoir Computing (RC), note per il loro apprendimento rapido ed efficiente. Tuttavia, le ESN tradizionali spesso incontrano difficoltà nell'elaborazione di informazioni a lungo termine. In questo articolo, introduciamo una nuova classe di RNN non addestrate basate su connessioni residue temporali, chiamate Deep Residual Echo State Networks (DeepResESN). Dimostriamo che sfruttare una gerarchia di strati ricorrenti residui non addestrati aumenta significativamente la capacità di memoria e la modellazione temporale a lungo termine. Per le connessioni residue temporali, consideriamo diverse configurazioni ortogonali, tra cui configurazioni generate casualmente e a struttura fissa, e studiamo il loro effetto sulla dinamica della rete. Un'analisi matematica approfondita delinea le condizioni necessarie e sufficienti per garantire dinamiche stabili all'interno delle DeepResESN. I nostri esperimenti su una varietà di task di serie temporali evidenziano i vantaggi dell'approccio proposto rispetto alle RC tradizionali, sia superficiali che profonde.

Robustezza della quantizzazione alle degradazioni dell'input per il rilevamento di oggetti
Quantization Robustness to Input Degradations for Object Detection

Aug 27

ByToghrul Karimov, Hassan Imani, Allan Kazakov

La quantizzazione post-addestramento (PTQ) è cruciale per il dispiegamento di modelli efficienti di rilevamento oggetti, come YOLO, su dispositivi con risorse limitate. Tuttavia, l'impatto della ridotta precisione sulla robustezza del modello rispetto a degradazioni degli input del mondo reale, come rumore, sfocatura e artefatti di compressione, rappresenta una preoccupazione significativa. Questo articolo presenta uno studio empirico completo che valuta la robustezza dei modelli YOLO (dalla scala nano a extra-large) attraverso molteplici formati di precisione: FP32, FP16 (TensorRT), Dynamic UINT8 (ONNX) e Static INT8 (TensorRT). Introduciamo e valutiamo una strategia di calibrazione consapevole della degradazione per la PTQ Static INT8, in cui il processo di calibrazione TensorRT è esposto a un mix di immagini pulite e sinteticamente degradate. I modelli sono stati valutati sul dataset COCO in sette condizioni di degradazione distinte (inclusi vari tipi e livelli di rumore, sfocatura, basso contrasto e compressione JPEG) e uno scenario di degradazione mista. I risultati indicano che, sebbene i motori Static INT8 TensorRT offrano accelerazioni sostanziali (~1.5-3.3x) con una moderata riduzione dell'accuratezza (~3-7% mAP50-95) sui dati puliti, la calibrazione consapevole della degradazione proposta non ha prodotto miglioramenti consistenti e ampi nella robustezza rispetto alla calibrazione standard su dati puliti nella maggior parte dei modelli e delle degradazioni. Un'eccezione notevole è stata osservata per le scale di modello più grandi in condizioni specifiche di rumore, suggerendo che la capacità del modello possa influenzare l'efficacia di questo approccio di calibrazione. Questi risultati evidenziano le sfide nel migliorare la robustezza della PTQ e forniscono spunti per il dispiegamento di rilevatori quantizzati in ambienti non controllati. Tutto il codice e le tabelle di valutazione sono disponibili su https://github.com/AllanK24/QRID.

HERMES: Apprendimento Embodied da Umano a Robot tramite Dati di Movimento Multi-Sorgente per la Manipolazione Mobile e Abile
HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation

Aug 27

ByZhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, Huazhe Xu

Sfruttare i dati del movimento umano per dotare i robot di abilità di manipolazione versatili è emerso come un paradigma promettente nella manipolazione robotica. Tuttavia, tradurre i movimenti multi-sorgente della mano umana in comportamenti robotici fattibili rimane una sfida, specialmente per i robot equipaggiati con mani multi-dita abili caratterizzate da spazi d'azione complessi e ad alta dimensionalità. Inoltre, gli approcci esistenti spesso faticano a produrre politiche in grado di adattarsi a diverse condizioni ambientali. In questo articolo, introduciamo HERMES, un framework di apprendimento da umano a robot per la manipolazione abile bimanuale mobile. In primo luogo, HERMES formula un approccio unificato di apprendimento per rinforzo in grado di trasformare in modo fluido i movimenti eterogenei della mano umana da più sorgenti in comportamenti robotici fisicamente plausibili. Successivamente, per mitigare il gap sim2real, progettiamo un metodo di trasferimento sim2real end-to-end basato su immagini di profondità per migliorare la generalizzazione agli scenari del mondo reale. Inoltre, per consentire un funzionamento autonomo in ambienti vari e non strutturati, potenziamo il modello di base di navigazione con un meccanismo di localizzazione Perspective-n-Point (PnP) a ciclo chiuso, garantendo un allineamento preciso degli obiettivi visivi e colmando efficacemente il divario tra navigazione autonoma e manipolazione abile. I risultati sperimentali estesi dimostrano che HERMES mostra costantemente comportamenti generalizzabili in una varietà di scenari in contesti reali, eseguendo con successo numerosi compiti complessi di manipolazione abile bimanuale mobile. Pagina del progetto: https://gemcollector.github.io/HERMES/.

EduRABSA: Un Dataset di Recensioni Educative per l'Analisi del Sentimento Basata sugli Aspetti
EduRABSA: An Education Review Dataset for Aspect-based Sentiment Analysis Tasks

Aug 23

ByYan Cathy Hua, Paul Denny, Jörg Wicker, Katerina Taskova

Ogni anno, la maggior parte delle istituzioni educative raccoglie e riceve un volume enorme di feedback testuali dagli studenti su corsi, insegnamento ed esperienza complessiva. Tuttavia, trasformare questo feedback grezzo in insight utili è tutt’altro che semplice. È stata una sfida di lunga data adottare soluzioni automatiche di opinion mining per questi dati di recensioni educative a causa della complessità del contenuto e dei requisiti di reporting a bassa granularità. L’Analisi del Sentimento Basata sugli Aspetti (ABSA) offre una soluzione promettente con le sue capacità avanzate di opinion mining a livello sub-frase. Tuttavia, la ricerca e le risorse esistenti sull’ABSA sono fortemente concentrate sul dominio commerciale. Nel campo dell’educazione, sono scarse e difficili da sviluppare a causa della limitata disponibilità di dataset pubblici e delle rigide normative sulla protezione dei dati. Un dataset annotato di alta qualità è urgentemente necessario per far progredire la ricerca in quest’area sottodimensionata. In questo lavoro, presentiamo EduRABSA (Education Review ABSA), il primo dataset pubblico e annotato di recensioni educative per ABSA che copre tre tipi di soggetti di recensione (corso, personale docente, università) in lingua inglese e tutte le principali attività ABSA, inclusa l’estrazione di aspetti impliciti e opinioni implicite, ancora poco esplorate. Condividiamo inoltre ASQE-DPT (Data Processing Tool), uno strumento di annotazione manuale offline, leggero e senza necessità di installazione, che genera dataset etichettati per attività ABSA complete a partire da un’annotazione a singolo compito. Insieme, queste risorse contribuiscono alla comunità ABSA e al dominio educativo rimuovendo la barriera dei dataset, supportando la trasparenza e la riproducibilità della ricerca e consentendo la creazione e la condivisione di ulteriori risorse. Il dataset, lo strumento di annotazione, gli script e le statistiche per l’elaborazione e il campionamento del dataset sono disponibili all’indirizzo https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.

Una rassegna sui grandi modelli linguistici scientifici: dalle fondamenta dei dati alle frontiere degli agenti
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

Aug 28

140