HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

17 papers found

GLM-5V-Turbo: Verso un Modello Base Nativo per Agenti Multimodali
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29

ByV Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Presentiamo GLM-5V-Turbo, un passo verso modelli fondativi nativi per agenti multimodali. Man mano che i modelli fondativi vengono sempre più impiegati in ambienti reali, le capacità agentistiche dipendono non solo dal ragionamento linguistico, ma anche dalla capacità di percepire, interpretare e agire su contesti eterogenei come immagini, video, pagine web, documenti e interfacce utente grafiche (GUI). GLM-5V-Turbo è costruito attorno a questo obiettivo: la percezione multimodale è integrata come componente centrale del ragionamento, della pianificazione, dell'uso di strumenti e dell'esecuzione, piuttosto che come un'interfaccia ausiliaria per un modello linguistico. Questo rapporto riassume i principali miglioramenti alla base di GLM-5V-Turbo nell'ambito della progettazione del modello, dell'addestramento multimodale, dell'apprendimento per rinforzo, dell'espansione della toolchain e dell'integrazione con framework per agenti. Questi sviluppi portano a prestazioni solide nel coding multimodale, nell'uso di strumenti visivi e in compiti agentistici basati su framework, preservando al contempo una competitiva capacità di coding su solo testo. Ancora più importante, il nostro processo di sviluppo offre spunti pratici per la costruzione di agenti multimodali, evidenziando il ruolo centrale della percezione multimodale, dell'ottimizzazione gerarchica e di una verifica end-to-end affidabile.

Esplorazione dei Modelli Linguistici di Grande Dimensione tramite Distillazione Latente
Large Language Models Explore by Latent Distilling

Apr 27

ByYuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

La generazione di risposte diversificate è cruciale per lo scaling al momento del test dei grandi modelli linguistici (LLM), eppure il campionamento stocastico standard produce per lo più variazioni lessicali superficiali, limitando l'esplorazione semantica. In questo articolo, proponiamo l'Exploratory Sampling (ESamp), un approccio di decoding che incoraggia esplicitamente la diversità semantica durante la generazione. ESamp è motivato dalla ben nota osservazione che le reti neurali tendono a fare previsioni con errore minore su input simili a quelli incontrati in precedenza e a commettere un errore di previsione maggiore su input nuovi. Basandoci su questa proprietà, addestriamo un Distiller leggero al momento del test per prevedere le rappresentazioni latenti degli strati profondi dell'LLM a partire dalle sue rappresentazioni degli strati superficiali, modellando così le transizioni delle rappresentazioni lungo la profondità dell'LLM. Durante il decoding, il Distiller si adatta continuamente ai mapping indotti dal contesto di generazione corrente. ESamp utilizza l'errore di previsione come segnale di novità per ripesare le estensioni candidate dei token condizionate al prefisso corrente, orientando così il decoding verso pattern semantici meno esplorati. ESamp è implementato con una pipeline asincrona di addestramento-inferenza, con un overhead nel caso peggiore inferiore al 5% (1.2% nella release ottimizzata). I risultati empirici mostrano che ESamp aumenta significativamente l'efficienza Pass@k dei modelli di ragionamento, mostrando prestazioni superiori o comparabili a baseline stocastiche ed euristiche solide. In particolare, ESamp raggiunge una generalizzazione robusta su benchmark di matematica, scienze e generazione di codice e infrange il compromesso tra diversità e coerenza nella scrittura creativa. Il nostro codice è rilasciato all'indirizzo: https://github.com/LinesHogan/tLLM.

RADIO-ViPE: Fusione Multi-Modale Strettamente Accoppiata in Tempo Reale per SLAM Semantico a Vocabolario Aperto in Ambienti Dinamici
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Apr 28

ByZaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

Presentiamo RADIO-ViPE (Reduce All Domains Into One -- Video Pose Engine), un sistema di SLAM semantico online che abilita l'ancoraggio semantico aperto e consapevole della geometria, associando query in linguaggio naturale arbitrarie a regioni 3D e oggetti localizzati in ambienti dinamici. A differenza degli approcci esistenti che richiedono un input RGB-D calibrato e con pose note, RADIO-ViPE opera direttamente su flussi video RGB monoculari grezzi, senza necessitare di intrinseche della camera, sensori di profondità o inizializzazione della pose. Il sistema accoppia strettamente embedding multimodali — che abbracciano visione e linguaggio — derivati da modelli fondazionali aggregativi (ad esempio, RADIO) con le informazioni geometriche della scena. Questo accoppiamento avviene nell'inizializzazione, nell'ottimizzazione e nelle connessioni del grafo fattoriale per migliorare la coerenza della mappa da molteplici modalità. L'ottimizzazione è avvolta all'interno di kernel robusti adattativi, progettati per gestire sia oggetti in movimento attivo sia elementi della scena spostati dall'agente (ad esempio, mobili riposizionati durante una sessione egocentrica). Gli esperimenti dimostrano che RADIO-ViPE raggiunge risultati allo stato dell'arte sul benchmark dinamico TUM-RGBD, mantenendo al contempo prestazioni competitive rispetto a metodi offline a vocabolario aperto che si basano su dati calibrati e assunzioni di scene statiche. RADIO-ViPE colma un divario critico per il dispiegamento nel mondo reale, abilitando un ancoraggio semantico a vocabolario aperto e robusto per la robotica autonoma e flussi video incondizionati in ambienti non controllati. Pagina del progetto: https://be2rlab.github.io/radio_vipe

ClawGym: Un Framework Scalabile per la Costruzione di Agenti Claw Efficaci
ClawGym: A Scalable Framework for Building Effective Claw Agents

Apr 29

ByFei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao

Gli ambienti di tipo Claw supportano flussi di lavoro multi-step su file locali, strumenti e stati persistenti dell'area di lavoro. Tuttavia, lo sviluppo scalabile attorno a questi ambienti rimane limitato dall'assenza di un framework sistematico, in particolare per la sintesi di dati di addestramento verificabili e la loro integrazione con l'addestramento degli agenti e la valutazione diagnostica. Per affrontare questa sfida, presentiamo ClawGym, un framework scalabile che supporta l'intero ciclo di vita dello sviluppo di agenti personali di tipo Claw. Nello specifico, costruiamo ClawGym-SynData, un dataset diversificato di 13.5K task filtrati sintetizzati a partire da intenti guidati da persona e operazioni ancorate a competenze, abbinati a mock workspace realistici e meccanismi di verifica ibridi. Addestriamo quindi una famiglia di modelli capaci di tipo Claw, denominati ClawGym-Agents, attraverso fine-tuning supervisionato su traiettorie di rollout di tipo black-box, ed esploriamo ulteriormente l'apprendimento per rinforzo mediante una pipeline leggera che parallelizza i rollout su sandbox per-task. Per supportare una valutazione affidabile, costruiamo inoltre ClawGym-Bench, un benchmark di 200 istanze calibrate attraverso filtraggio automatico e revisione umana-LLM. Le risorse relative saranno presto rilasciate su https://github.com/ClawGym.

Rivoluzionare le TIDE: Distillazione Inter-Architetturale per Modelli Linguistici di Diffusione su Larga Scala
Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Apr 29

ByGongbo Zhang, Wen Wang, Ye Tian, Li Yuan

I modelli linguistici di diffusione (dLLM) offrono decodifica parallela e contesto bidirezionale, ma i dLLM all'avanguardia richiedono miliardi di parametri per prestazioni competitive. Sebbene i metodi di distillazione esistenti per dLLM riducano i passi di inferenza all'interno di una singola architettura, nessuno affronta il trasferimento di conoscenza cross-architettura, in cui insegnante e studente differiscono per architettura, meccanismo di attenzione e tokenizer. Presentiamo TIDE, il primo framework per la distillazione cross-architettura di dLLM, composto da tre componenti modulari: (1) TIDAL, che modula congiuntamente l'intensità della distillazione durante l'avanzamento dell'addestramento e il timestep di diffusione per tenere conto dell'affidabilità dipendente dal rumore del teacher; (2) CompDemo, che arricchisce il contesto del teacher tramite suddivisione complementare delle maschere per migliorare le previsioni sotto mascheramento pesante; e (3) Reverse CALM, un obiettivo cross-tokenizer che inverte la corrispondenza di verosimiglianza a livello di chunk, producendo gradienti limitati e filtraggio del rumore dual-end. La distillazione di teacher densi da 8B e MoE da 16B in uno studente da 0.6B tramite due pipeline eterogenee supera la baseline di una media di 1.53 punti su otto benchmark, con guadagni notevoli nella generazione di codice, dove i punteggi HumanEval raggiungono 48.78 rispetto a 32.3 della baseline AR.

Modelli di Diffusione: Un Framework Unificato di Plugin per la Diffusione Controllata
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Apr 27

ByZhongjie Duan, Hong Zhang, Yingda Chen

I metodi di diffusione controllabile hanno notevolmente ampliato l'utilità pratica dei modelli di diffusione, ma sono tipicamente sviluppati come sistemi isolati e specifici per l'architettura di base, con pipeline di addestramento, formati dei parametri e hook di runtime incompatibili. Questa frammentazione rende difficile il riutilizzo dell'infrastruttura tra diversi task, il trasferimento di capacità tra architetture diverse o la composizione di controlli multipli all'interno di una singola pipeline di generazione. Presentiamo Diffusion Templates, un framework unificato e aperto di tipo plugin che disaccoppia l'inferenza del modello base dall'iniezione di capacità controllabili. Il framework è organizzato attorno a tre componenti: Modelli Template che mappano input arbitrari specifici per task a una rappresentazione intermedia delle capacità, una Cache Template che funge da interfaccia standardizzata per l'iniezione delle capacità, e una Pipeline Template che carica, fonde e inietta una o più Cache Template nel runtime di diffusione di base. Poiché l'interfaccia è definita a livello di sistema e non è vincolata a una specifica architettura di controllo, vettori di capacità eterogenei come KV-Cache e LoRA possono essere supportati sotto la stessa astrazione. Sulla base di questo progetto, abbiamo costruito uno zoo di modelli diversificato che comprende controllo strutturale, regolazione della luminosità, regolazione del colore, editing di immagini, super-risoluzione, miglioramento della nitidezza, allineamento estetico, riferimento di contenuto, inpaintng locale e controllo dell'età. Questi casi di studio dimostrano che Diffusion Templates può unificare un'ampia gamma di task di generazione controllabile preservando al contempo modularità, componibilità e estensibilità pratica attraverso architetture di diffusione in rapida evoluzione. Tutte le risorse, inclusi codice, modelli e dataset, saranno rilasciate come open source.

FAMA: Framework Meta-Agente con Consapevolezza degli Errori per LLM Open-Source in Ambienti Interattivi di Utilizzo di Strumenti
FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Apr 28

ByAmir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

I modelli linguistici di grandi dimensioni vengono sempre più impiegati come nucleo decisionale di agenti autonomi in grado di apportare cambiamenti negli ambienti esterni. Tuttavia, nei benchmark conversazionali, che simulano scenari reali di risoluzione di problemi centrati sul cliente, questi agenti falliscono frequentemente a causa degli effetti a cascata di un processo decisionale errato. Queste sfide sono particolarmente evidenti per gli LLM open-source con dimensioni parametriche ridotte, finestre di contesto limitate e budget inferenziali ristretti, che contribuiscono a un aumento dell'accumulo di errori in contesti agentici. Per affrontare queste sfide, presentiamo il framework Failure-Aware Meta-Agentic (FAMA). FAMA opera in due fasi: prima analizza le traiettorie di fallimento degli agenti baseline per identificare gli errori più frequenti; successivamente, impiega un meccanismo di orchestrazione che attiva un sottoinsieme minimo di agenti specializzati, progettati per affrontare questi fallimenti iniettando un contesto mirato per l'agente di uso degli strumenti prima della fase decisionale. Esperimenti condotti su vari LLM open-source dimostrano miglioramenti delle prestazioni fino al 27% nelle diverse modalità di valutazione rispetto ai baseline standard. Questi risultati evidenziano come la cura mirata del contesto tramite agenti specializzati per affrontare errori comuni sia un principio di progettazione valido per costruire agenti LLM affidabili, multi-turno e abilitati all'uso di strumenti, che simulino scenari conversazionali realistici.

Modellazione Unificata delle Azioni nel Mondo 4D da Prior Video con Denoising Asincrono
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Apr 29

ByJun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

Proponiamo X-WAM, un Modello di Mondo 4D Unificato che unifica l'esecuzione di azioni robotiche in tempo reale e la sintesi ad alta fedeltà del mondo 4D (video + ricostruzione 3D) in un unico framework, affrontando le limitazioni critiche dei modelli di mondo unificati precedenti (ad es., UWM) che modellano solo lo spazio dei pixel 2D e non riescono a bilanciare l'efficienza d'azione e la qualità della modellazione del mondo. Per sfruttare i forti prior visivi dei modelli di diffusione video preaddestrati, X-WAM immagina il mondo futuro prevedendo video RGB-D multi-vista e ottiene informazioni spaziali in modo efficiente attraverso un adattamento strutturale leggero: replicando i blocchi finali del Diffusion Transformer preaddestrato in un ramo dedicato alla previsione della profondità per la ricostruzione delle informazioni spaziali future. Inoltre, proponiamo l'Asynchronous Noise Sampling (ANS) per ottimizzare congiuntamente la qualità della generazione e l'efficienza della decodifica delle azioni. ANS applica una pianificazione di denoising asincrona specializzata durante l'inferenza, che decodifica rapidamente le azioni con meno passi per consentire un'esecuzione efficiente in tempo reale, dedicando al contempo l'intera sequenza di passi per generare video ad alta fedeltà. Piuttosto che disaccoppiare completamente i timestep durante l'addestramento, ANS campiona dalla loro distribuzione congiunta per allinearsi alla distribuzione di inferenza. Preatdestrato su oltre 5.800 ore di dati robotici, X-WAM raggiunge un tasso di successo medio del 79.2% e del 90.7% sui benchmark RoboCasa e RoboTwin 2.0, producendo al contempo una ricostruzione e generazione 4D ad alta fedeltà che supera i metodi esistenti sia nelle metriche visive che geometriche.

Accelerazione dei Rollout Post-Addestramento RL tramite Decodifica Speculativa Integrata nel Sistema
Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Apr 29

ByHayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani

L'addestramento RL post-allenamento dei modelli linguistici di frontiera è sempre più limitato dalla generazione autoregressiva dei rollout, rendendo l'accelerazione dei rollout una sfida sistematica centrale. Molti metodi di efficienza esistenti migliorano il throughput modificando il regime di rollout o di ottimizzazione, ad esempio attraverso l'esecuzione off-policy, il replay o la generazione a precisione ridotta. Studiamo lo speculative decoding come primitiva di accelerazione senza perdite per i rollout RL che preserva la distribuzione di output del modello target. Implementiamo lo speculative decoding in NeMo-RL con un backend vLLM, supportando sia pipeline sincrone che asincrone e abilitando la speculazione durante i rollout RL. Questo vantaggio è realizzabile attraverso diversi meccanismi di speculazione, come teste MTP pre-addestrate, piccoli modelli draft esterni o persino tecniche come Eagle3, tradizionalmente applicate dopo la fase RL. Ciò fornisce un percorso di deployment per lo speculative decoding allo stato dell'arte all'interno dell'addestramento RL. In un carico di lavoro di post-allenamento per il ragionamento su scala 8B con RL sincrono, lo speculative decoding migliora il throughput dei rollout di 1.8x. Utilizzando un simulatore di prestazioni ad alta fedeltà, prevediamo che combinare lo speculative decoding con RL asincrono produca un speedup end-to-end dell'addestramento fino a 2.5x su scala 235B.

Controlli a Livello Operativo per Agenti di Modelli Linguistici Onchain Sotto Capitale Reale
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Apr 28

ByT. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

Studiamo l'affidabilità di agenti autonomi basati su modelli linguistici che traducono i mandati degli utenti in azioni strumentali validate in contesti di capitale reale. L'ambito è DX Terminal Pro, un dispiegamento di 21 giorni in cui 3.505 agenti finanziati da utenti hanno negoziato ETH reale in un mercato onchain delimitato. Gli utenti configuravano vault tramite controlli strutturati e strategie in linguaggio naturale, ma solo gli agenti potevano scegliere le normali operazioni di acquisto/vendita. Il sistema ha prodotto 7,5 milioni di invocazioni di agenti, circa 300.000 azioni onchain, un volume di circa 20 milioni di dollari, oltre 5.000 ETH impiegati, circa 70 miliardi di token di inferenza e un tasso di successo della regolazione del 99,9% per le transazioni inviate convalidati dalle policy. Agenti a esecuzione prolungata hanno accumulato migliaia di decisioni sequenziali, inclusi oltre 6.000 cicli prompt-stato-azione per agenti continuativamente attivi, generando una traccia su larga scala dal mandato utente al prompt generato, al ragionamento, alla convalida, allo stato del portafoglio e alla regolazione. L'affidabilità non derivava unicamente dal modello base; emergeva dallo strato operativo attorno al modello: compilazione dei prompt, controlli tipizzati, convalida delle policy, guardie di esecuzione, progettazione della memoria e osservabilità a livello di traccia. I test pre-lancio hanno evidenziato fallimenti che i benchmark puramente testuali raramente misurano, incluse regole di trading fabbricate, paralisi da commissione, ancoraggio numerico, trading a cadenza e errata interpretazione della tokenomics. Modifiche mirate all'harness hanno ridotto le regole di vendita fabbricate dal 57% al 3%, ridotto le osservazioni guidate da commissioni dal 32,5% a meno del 10% e aumentato l'impiego di capitale dal 42,9% al 78,0% in una popolazione di test interessata. Dimostriamo che gli agenti gestori di capitale dovrebbero essere valutati lungo l'intero percorso dal mandato utente al prompt, all'azione convalidata e alla regolazione.

Uno Studio sulla Simulazione di Utenti Conversazionali Basata su LLM
A Survey on LLM-based Conversational User Simulation

Apr 27

ByBo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi

La simulazione degli utenti ha da tempo un ruolo fondamentale nell'informatica grazie al suo potenziale di supportare un'ampia gamma di applicazioni. Il linguaggio, in quanto principale mezzo di comunicazione umana, costituisce il fondamento dell'interazione e del comportamento sociale. Di conseguenza, la simulazione del comportamento conversazionale è diventata un'area di studio chiave. I recenti progressi nei grandi modelli linguistici (LLM) hanno catalizzato significativamente l'avanzamento in questo dominio, permettendo la generazione ad alta fedeltà di conversazioni sintetiche degli utenti. In questo articolo, esaminiamo i recenti progressi nella simulazione conversazionale degli utenti basata su LLM. Introduciamo una nuova tassonomia che copre la granularità dell'utente e gli obiettivi della simulazione. Inoltre, analizziamo sistematicamente le tecniche fondamentali e le metodologie di valutazione. Il nostro obiettivo è mantenere la comunità di ricerca informata sui più recenti avanzamenti nella simulazione conversazionale degli utenti e facilitare ulteriormente la ricerca futura identificando le sfide aperte e organizzando il lavoro esistente all'interno di un quadro unificato.

PSP: un benchmark interpretabile per l'accento per dimensione nel text-to-speech per le lingue indiane
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta

Le misure standard di valutazione della sintesi vocale (TTS) valutano l'intelligibilità (WER, CER) e la naturalezza complessiva (MOS, UTMOS) ma non quantificano l'accento. Un sintetizzatore può ottenere buoni punteggi su tutti e quattro i parametri, pur risultando non-nativo per quanto riguarda tratti che sono fonemici nella lingua target. Per le lingue indiane, questi tratti includono l'articolazione retroflessa, l'aspirazione, la lunghezza vocalica e l'approssimante retroflessa del tamil (lettera zha). Presentiamo il PSP, il Profilo di Sostituzione Fonemica, un benchmark interpretabile e per-dimensione-fonologica per l'accento nei sistemi TTS per lingue indiane. Il PSP scompone l'accento in sei dimensioni complementari: tasso di collasso retroflesso (RR), fedeltà dell'aspirazione (AF), fedeltà della lunghezza vocalica (LF), fedeltà della zha tamil (ZF), Distanza Audio di Fréchet (FAD) e divergenza della firma prosodica (PSD). Le prime quattro sono misurate tramite allineamento forzato più sonde acustiche basate su centroidi di parlanti nativi sugli embedding dello strato 9 di Wav2Vec2-XLS-R; le ultime due sono distanze distributive a livello di corpus. In questa versione 1 valutiamo quattro sistemi commerciali e open-source (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) su set pilota di hindi, telugu e tamil, con un quinto sistema (Praxy Voice) incluso per tutte e tre le lingue, più uno studio di caso R5->R6 sul telugu. Tre risultati: (i) il collasso retroflesso cresce monotonicamente con la difficoltà fonologica hindi < telugu < tamil (~1%, ~40%, ~68%); (ii) l'ordinamento del PSP diverge da quello del WER – i leader commerciali nel WER non sono uniformemente in testa per la fedeltà retroflessa o prosodica; (iii) nessun singolo sistema è Pareto-ottimale su tutte e sei le dimensioni. Rilasciamo i centroidi di riferimento nativi (500 clip per lingua), embedding di 1000 clip per il FAD, matrici di feature prosodiche di 500 clip per il PSD, golden set di 300 espressioni per lingua, codice di valutazione sotto licenza MIT e centroidi sotto licenza CC-BY. La correlazione formale con il MOS è rinviata alla v2; la v1 riporta cinque segnali di coerenza interna più un controllo di verità con audio nativo.

Praxy Voice: Recupero tramite Prompt Vocale + BUPS per TTS Indic di Classe Commerciale da una Base Congelata Non-Indic a Costo Zero di Dati di Addestramento Commerciali
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta

I sistemi TTS commerciali producono audio in lingue indiane di qualità quasi nativa, ma le migliori basi open-source (Chatterbox, Indic Parler-TTS, IndicF5) sono inferiori su dimensioni fonologiche misurate, e la base multilingue più adottata (Chatterbox, 23 lingue) non tokenizza nemmeno telugu o tamil. Ci chiediamo: qual è l'intervento minimo che porta una base di questo tipo, non nativa per le lingue indiane, a produrre output di livello commerciale per telugu, tamil e hindi, senza addestrare un nuovo decoder acustico e senza dati di addestramento TTS commerciali? Combiniamo tre elementi: (1) BUPS, uno Spazio Fonematico Unificato Brahmi che romanizza deterministicamente sette scritture indiane secondo ISO-15919 così che il tokenizer latino di Chatterbox possa processarle; (2) un adattatore LoRA solo sul predictor di token testuali (t3 di Chatterbox), addestrato su ~1.220h di audio indiano licenziato con un language_id proxy per l'hindi; (3) una ricetta di recupero del prompt vocale – un clip di riferimento di 8-11s nella stessa lingua più tre override di campionamento (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") – che recupera un output acustico di livello commerciale senza addestramento del decoder acustico. Per l'hindi, il LoRA regredisce l'accuratezza e usiamo invece Chatterbox vanilla + Config B, ottenendo un deployment a due rami. Valutato su set pilota di 10 espressioni con il benchmark PSP companion, Praxy Voice eguaglia o supera leggermente i baseline commerciali: 26.7% di collasso retroflesso sul telugu (vs Sarvam Bulbul 33.3%), 71% di collasso della zha tamil (vs 86% del trio commerciale), 0.025 LLM-WER sull'hindi (pari merito con Cartesia Sonic-3). Per il code-mix intra-frase aggiungiamo un terzo ramo (IndicF5 + traslitterazione in scrittura nativa) che riduce il LLM-WER del code-mix da 0.80-0.85 a 0.14-0.27 su Hi/Te/Ta. Rilasciamo i pesi LoRA R6 (Apache-2.0), il codice di inference e router (MIT), e una demo Gradio.

FASH-iCNN: Rendere ispezionabile l'identità editoriale della moda attraverso il probing multimodale di CNN
FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Apr 29

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

I sistemi di intelligenza artificiale per la moda codificano abitualmente la logica estetica di case specifiche, editori e momenti storici senza renderla nota. Presentiamo FASH-iCNN, un sistema multimodale addestrato su 87.547 immagini di sfilate di Vogue relative a 15 case di moda dal 1991 al 2024, che rende questa logica culturale ispezionabile. Data una fotografia di un capo d'abbigliamento, il sistema identifica quale casa lo ha prodotto, a quale epoca appartiene e quale tradizione cromatica riflette. Un modello basato esclusivamente sugli abiti identifica la casa di moda con una precisione top-1 del 78,2% su 14 case, il decennio con l'88,6% top-1 e l'anno specifico con il 58,3% top-1 su 34 anni, con un errore medio di soli 2,2 anni. L'analisi di quali canali visivi veicolino questo segnale rivela una netta dissociazione: rimuovere il colore costa solo 10,6 punti percentuali di accuratezza nell'identità della casa, mentre rimuovere la tessitura ne costa 37,6, stabilendo che tessitura e luminanza sono i principali vettori dell'identità editoriale. FASH-iCNN tratta la cultura editoriale come segnale piuttosto che come rumore di fondo, identificando quali case, epoche e tradizioni cromatiche hanno plasmato ogni output, consentendo agli utenti di vedere non solo cosa il sistema predice, ma anche quali case, editori e momenti storici sono codificati in quella previsione.

Analisi della Pianificazione Visiva nei Modelli di Editing di Immagini
Probing Visual Planning in Image Editing Models

Apr 23

ByZhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

La pianificazione visiva rappresenta un aspetto cruciale dell'intelligenza umana, specialmente nei compiti che richiedono ragionamento spaziale e navigazione complessi. Tuttavia, nell'apprendimento automatico, questo problema intrinsecamente visivo viene spesso affrontato attraverso una lente centrata sul verbale. Sebbene ricerche recenti dimostrino la promessa di approcci completamente visivi, questi soffrono di una significativa inefficienza computazionale a causa del paradigma di pianificazione-per-generazione passo-passo. In questo lavoro, presentiamo EAR, un paradigma di editing-come-ragionamento che riformula la pianificazione visiva come una trasformazione dell'immagine in un singolo passo. Per isolare il ragionamento intrinseco dal riconoscimento visivo, utilizziamo enigmi astratti come compiti di indagine e introduciamo AMAZE, un dataset generato proceduralmente che presenta i classici problemi del Labirinto e della Regina, coprendo forme distinte e complementari di pianificazione visiva. La natura astratta di AMAZE facilita anche la valutazione automatica di modelli autoregressivi e basati su diffusione sia in termini di fedeltà pixel-per-pixel che di validità logica. Valutiamo i principali modelli di editing proprietari e open-source. I risultati mostrano che tutti hanno difficoltà in uno scenario zero-shot, mentre il fine-tuning su scale basiche consente una notevole generalizzazione a scale in-dominio più grandi e a scale e geometrie out-of-domain. Tuttavia, il nostro modello migliore, che viene eseguito su hardware di fascia alta, non riesce a eguagliare l'efficienza zero-shot dei risolutori umani, evidenziando un divario persistente nel ragionamento visivo neurale.

Miglioramento della Privacy ed Efficienza della Comunicazione nell'Apprendimento Federato Non-IID con Quantizzazione Adattiva e Privacy Differenziale
Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Apr 25

ByEmre Ardıç, Yakup Genç

L'apprendimento federato (FL) è un metodo di apprendimento automatico distribuito in cui più dispositivi addestrano collaborativamente un modello sotto la gestione di un server centrale senza condividere i dati sottostanti. Una delle principali sfide dell'FL è il collo di bottiglia comunicativo causato dalle variazioni nella velocità di connessione e nella larghezza di banda tra i dispositivi. Pertanto, è essenziale ridurre la dimensione dei dati trasmessi durante l'addestramento. Inoltre, esiste il rischio potenziale di esporre informazioni sensibili attraverso l'analisi del modello o del gradiente durante l'addestramento. Per affrontare sia la privacy che l'efficienza comunicativa, combiniamo metodi di privacy differenziale (DP) e quantizzazione adattiva. Utilizziamo la DP basata su Laplace per preservare la privacy, un approccio relativamente poco esplorato in FL che offre garanzie di privacy più stringenti rispetto alla DP basata su Gaussiana. Proponiamo un semplice ed efficiente schedulatore globale della lunghezza di bit utilizzando l'annealing coseno basato sui round, insieme a uno schedulatore lato client che si adatta dinamicamente in base al contributo del client stimato attraverso l'analisi dell'entropia del dataset. Valutiamo il nostro approccio attraverso esperimenti estesi sui dataset CIFAR10, MNIST e di imaging medico, utilizzando distribuzioni di dati non-IID con numeri variabili di client, scheduler di lunghezza di bit e budget di privacy. I risultati mostrano che i nostri metodi di quantizzazione adattiva riducono i dati comunicati totali fino al 52,64% per MNIST, al 45,06% per CIFAR10 e dal 31% al 37% per i dataset di imaging medico rispetto all'addestramento con float a 32 bit, mantenendo al contempo un'accuratezza competitiva del modello e garantendo una privacy robusta attraverso la privacy differenziale.

Selezione dei Campioni mediante Autoencoder Multitask nell’Apprendimento Federato con Dati Non-IID
Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Apr 28

ByEmre Ardıç, Yakup Genç

L'apprendimento federato è un paradigma di apprendimento automatico in cui più dispositivi addestrano collaborativamente un modello sotto la supervisione di un server centrale, garantendo al contempo la privacy dei dati. Tuttavia, le sue prestazioni sono spesso ostacolate da campioni ridondanti, malevoli o anomali, portando al degrado del modello e a inefficienze. Per superare questi problemi, proponiamo nuovi metodi di selezione dei campioni per la classificazione di immagini, impiegando un autoencoder multi-task per stimare i contributi dei campioni attraverso l'analisi della loss e delle feature. Il nostro approccio incorpora il rilevamento non supervisionato degli outlier, utilizzando metodi come il one-class support vector machine (OCSVM), l'isolation forest (IF) e la soglia di loss adattativa (AT) gestiti da un server centrale per filtrare i campioni rumorosi sui client. Proponiamo inoltre una funzione di loss multi-class deep support vector data description (SVDD) controllata dal server centrale per migliorare la selezione dei campioni basata sulle feature. Validiamo i nostri metodi sui dataset CIFAR10 e MNIST, variando il numero di client, utilizzando distribuzioni non-IID e livelli di rumore fino al 40%. I risultati mostrano significativi miglioramenti di accuratezza con la selezione basata sulla loss, ottenendo guadagni fino al 7,02% su CIFAR10 con OCSVM e all'1,83% su MNIST con AT. Inoltre, la nostra loss SVDD federata migliora ulteriormente la selezione basata sulle feature, producendo guadagni di accuratezza fino allo 0,99% su CIFAR10 con OCSVM. Questi risultati dimostrano l'efficacia dei nostri metodi nel migliorare l'accuratezza del modello in varie condizioni di numero di client e rumore.

PSP: un benchmark interpretabile per l'accento per dimensione nel text-to-speech per le lingue indiane
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta