HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

35 papers found

Tstars-Tryon 1.0: Un Sistema di Virtual Try-On Robusto e Realistico per Articoli di Moda Diversificati
Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Apr 21

ByMengting Chen, Zhengrui Chen, Yongchao Du, Zuan Gao, Taihang Hu, Jinsong Lan, Chao Lin, Yefeng Shen, Xingjian Wang, Zhao Wang, Zhengtao Wu, Xiaoli Xu, Zhengze Xu, Hao Yan, Mingzhou Zhang, Jun Zheng, Qinye Zhou, Xiaoyong Zhu, Bo Zheng

I recenti progressi nella generazione e modifica di immagini hanno aperto nuove opportunità per il virtual try-on. Tuttavia, i metodi esistenti faticano ancora a soddisfare le complesse esigenze del mondo reale. Presentiamo Tstars-Tryon 1.0, un sistema di virtual try-on su scala commerciale che è robusto, realistico, versatile e altamente efficiente. In primo luogo, il nostro sistema mantiene un alto tasso di successo in casi complessi come pose estreme, forti variazioni di illuminazione, motion blur e altre condizioni in-the-wild. In secondo luogo, produce risultati altamente fotorealistici con dettagli granulari, preservando fedelmente la texture dell'indumento, le proprietà del materiale e le caratteristiche strutturali, evitando in larga misura i comuni artefatti generati dall'IA. In terzo luogo, oltre al try-on di abbigliamento, il nostro modello supporta una composizione flessibile multi-immagine (fino a 6 immagini di riferimento) in 8 categorie di moda, con un controllo coordinato sull'identità della persona e sullo sfondo. In quarto luogo, per superare i colli di bottiglia della latenza nella distribuzione commerciale, il nostro sistema è fortemente ottimizzato per la velocità di inferenza, offrendo una generazione quasi in tempo reale per un'esperienza utente senza interruzioni. Queste capacità sono rese possibili da un design di sistema integrato che comprende un'architettura di modello end-to-end, un motore di dati scalabile, un'infrastruttura robusta e un paradigma di addestramento multi-stadio. Valutazioni estensive e una distribuzione di prodotto su larga scala dimostrano che Tstars-Tryon 1.0 raggiunge prestazioni complessive all'avanguardia. Per supportare la ricerca futura, rilasciamo anche un benchmark completo. Il modello è stato distribuito su scala industriale sull'App Taobao, servendo milioni di utenti con decine di milioni di richieste.

CoInteract: Sintesi di Video di Interazione Uomo-Oggetto Fisicamente Coerente tramite Co-Generazione Spazialmente Strutturata
CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Apr 21

ByXiangyang Luo, Xiaozhe Xin, Tao Feng, Xu Guo, Meiguang Jin, Junfeng Ma

La sintesi di video di interazione umano-oggetto (HOI) ha un ampio valore pratico nell'e-commerce, nella pubblicità digitale e nel marketing virtuale. Tuttavia, gli attuali modelli di diffusione, nonostante la loro capacità di rendering fotorealistico, falliscono ancora frequentemente su (i) la stabilità strutturale di regioni sensibili come mani e volti e (ii) il contatto fisicamente plausibile (ad esempio, evitando l'interpenetrazione mano-oggetto). Presentiamo CoInteract, un framework end-to-end per la sintesi di video HOI condizionata da un'immagine di riferimento della persona, un'immagine di riferimento del prodotto, prompt testuali e audio vocale. CoInteract introduce due progetti complementari integrati in un'architettura backbone di Diffusion Transformer (DiT). In primo luogo, proponiamo una Human-Aware Mixture-of-Experts (MoE) che instrada i token verso esperti leggeri e specializzati per regione tramite un routing supervisionato spazialmente, migliorando la fedeltà strutturale fine-grana con un sovraccarico parametrico minimo. In secondo luogo, proponiamo la Co-Generazione Spazialmente Strutturata, un paradigma di training dual-stream che modella congiuntamente uno stream di aspetto RGB e uno stream ausiliario di struttura HOI per iniettare prior geometriche di interazione. Durante l'addestramento, lo stream HOI partecipa ai token RGB e la sua supervisione regolarizza i pesi condivisi del backbone; in fase di inferenza, il ramo HOI viene rimosso per una generazione RGB a sovraccarico zero. I risultati sperimentali dimostrano che CoInteract supera significativamente i metodi esistenti in termini di stabilità strutturale, coerenza logica e realismo dell'interazione.

AgentSPEX: Un Linguaggio per la Specifica ed Esecuzione di Agenti
AgentSPEX: An Agent SPecification and EXecution Language

Apr 14

ByPengcheng Wang, Jerry Huang, Jiarui Yao, Rui Pan, Peizhi Niu, Yaowenqi Liu, Ruida Wang, Renhao Lu, Yuwei Guo, Tong Zhang

I sistemi agenti basati su modelli linguistici si basano comunemente su prompt reattivi, in cui una singola istruzione guida il modello attraverso una sequenza aperta di passaggi di ragionamento e utilizzo di strumenti, lasciando impliciti il flusso di controllo e lo stato intermedio e rendendo il comportamento dell'agente potenzialmente difficile da controllare. Framework di orchestrazione come LangGraph, DSPy e CrewAI impongono una maggiore struttura attraverso definizioni esplicite del flusso di lavoro, ma accoppiano strettamente la logica del flusso di lavoro con Python, rendendo gli agenti difficili da mantenere e modificare. In questo articolo, introduciamo AgentSPEX, un Linguaggio di Specifica ed Esecuzione per Agenti per definire flussi di lavoro di agenti LLM con un flusso di controllo esplicito e una struttura modulare, insieme a un ambiente di esecuzione personalizzabile. AgentSPEX supporta step tipizzati, diramazioni e cicli, esecuzione parallela, sottomoduli riutilizzabili e una gestione esplicita dello stato, e questi flussi di lavoro vengono eseguiti all'interno di un ambiente di esecuzione che fornisce accesso agli strumenti, un ambiente virtuale sandbox e supporto per checkpoint, verifica e registrazione. Inoltre, forniamo un editor visivo con viste sincronizzate di grafo e flusso di lavoro per la creazione e l'ispezione. Includiamo agenti pronti all'uso per la ricerca approfondita e la ricerca scientifica e valutiamo AgentSPEX su 7 benchmark. Infine, dimostriamo attraverso uno studio utente che AgentSPEX fornisce un paradigma di creazione del flusso di lavoro più interpretabile e accessibile rispetto a un popolare framework agente esistente.

AnyRecon: Ricostruzione 3D da Visuali Arbitrarie con Modello di Diffusione Video
AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Apr 21

ByYutian Chen, Shi Guo, Renbiao Jin, Tianshuo Yang, Xin Cai, Yawen Luo, Mingxin Yang, Mulin Yu, Linning Xu, Tianfan Xue

La ricostruzione 3D da viste sparse è essenziale per modellare scene da acquisizioni casuali, ma rimane impegnativa per approcci non generativi. I metodi esistenti basati su diffusione mitigano questo problema sintetizzando nuove viste, ma spesso si condizionano solo su uno o due frame di acquisizione, il che limita la coerenza geometrica e la scalabilità a scene ampie o diversificate. Proponiamo AnyRecon, un framework scalabile per la ricostruzione da input sparsi arbitrari e non ordinati che preserva il controllo geometrico esplicito supportando al contempo una cardinalità di condizionamento flessibile. Per supportare condizionamenti a lungo raggio, il nostro metodo costruisce una memoria di scena globale persistente tramite una cache preposta delle viste di acquisizione ed elimina la compressione temporale per mantenere la corrispondenza a livello di frame sotto ampi cambiamenti di punto di vista. Oltre a un modello generativo migliore, abbiamo riscontrato che l'interazione tra generazione e ricostruzione è cruciale per scene 3D su larga scala. Introduciamo quindi una strategia di condizionamento geometricamente consapevole che accoppia generazione e ricostruzione attraverso una memoria geometrica 3D esplicita e un recupero delle viste di acquisizione guidato dalla geometria. Per garantire l'efficienza, combiniamo la distillazione di diffusione a 4 passi con un'attenzione sparsa a finestra contestuale per ridurre la complessità quadratica. Esperimenti estensivi dimostrano una ricostruzione robusta e scalabile su input irregolari, ampi disallineamenti di viewpoint e traiettorie lunghe.

TEMPO: Scalabilità dell'Addestramento al Momento del Test per Modelli di Ragionamento di Grande Dimensione
TEMPO: Scaling Test-time Training for Large Reasoning Models

Apr 21

ByQingyang Zhang, Xinke Kong, Haitao Wu, Qinghua Hu, Minghao Wu, Baosong Yang, Yu Cheng, Yun Luo, Ganqu Cui, Changqing Zhang

Il test-time training (TTT) adatta i parametri del modello su istanze di test non etichettate durante l'inferenza, estendendo continuamente le capacità oltre i limiti dell'addestramento offline. Nonostante i progressi iniziali, i metodi TTT esistenti per i Large Reasoning Models (LRM) raggiungono rapidamente un plateau e non traggono vantaggio da risorse computazionali aggiuntive durante il test. Senza una calibrazione esterna, il segnale di ricompensa auto-generato tende a divergere progressivamente con l'evoluzione del modello policy, portando sia a plateau prestazionali che a un collasso della diversità. Proponiamo TEMPO, un framework TTT che alterna l'affinamento della policy su domande non etichettate a periodiche ricalibrazioni del critico su un dataset etichettato. Formalizzando questa procedura alternata attraverso l'algoritmo Expectation-Maximization (EM), dimostriamo che i metodi precedenti possono essere interpretati come varianti incomplete che omettono il cruciale passo di ricalibrazione. Reintrodurre questo passo restringe l'evidence lower bound (ELBO) e consente miglioramenti sostenuti. Attraverso diverse famiglie di modelli (Qwen3 e OLMO3) e compiti di ragionamento, TEMPO migliora OLMO3-7B su AIME 2024 dal 33.0% al 51.1% e Qwen3-14B dal 42.3% al 65.8%, mantenendo un'elevata diversità.

PlayCoder: Rendere giocabile il codice GUI generato da LLM
PlayCoder: Making LLM-Generated GUI Code Playable

Apr 21

ByZhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo

I grandi modelli linguistici (LLM) hanno ottenuto risultati solidi nella generazione di codice, ma la loro capacità di generare applicazioni con interfaccia grafica (GUI), in particolare giochi, rimane insufficientemente studiata. I benchmark esistenti valutano principalmente la correttezza attraverso test case, che sono inadeguati per le applicazioni GUI poiché questi sistemi sono interattivi, guidati da eventi e richiedono transizioni di stato corrette attraverso sequenze di azioni utente. La loro valutazione dovrebbe quindi considerare i flussi interattivi e la logica dell'interfaccia utente, piuttosto che solo esiti di superamento/fallimento. Per studiare questo problema, introduciamo PlayEval, un benchmark repository-aware costruito da 43 applicazioni GUI multilingue in Python, TypeScript e JavaScript. A differenza dei precedenti benchmark GUI difficili da adattare agli ambienti desktop, PlayEval copre sei categorie principali di applicazioni GUI e supporta direttamente la valutazione della generazione di codice. Proponiamo inoltre Play@k, una metrica che misura se almeno uno dei *k* candidati generati può essere eseguito dall'inizio alla fine senza errori logici. Per supportare una valutazione affidabile, sviluppiamo PlayTester, un agente basato su LLM che esegue playthrough GUI orientati al compito e rileva automaticamente le violazioni logiche. Esperimenti su 10 code LLM all'avanguardia mostrano che, nonostante alti tassi di compilazione, essi raggiungono uno Play@3 quasi nullo, rivelando gravi carenze nella generazione di applicazioni GUI logicamente corrette. Per affrontare questa limitazione, presentiamo PlayCoder, un framework multi-agente e repository-aware che genera, valuta e ripara iterativamente il codice dell'applicazione GUI in un ciclo chiuso. PlayCoder migliora sostanzialmente sia la correttezza funzionale che l'allineamento semantico per modelli open-source e closed-source, raggiungendo fino al 38,1% di Exec@3 e al 20,3% di Play@3. Casi di studio mostrano inoltre che può individuare bug logici silenti trascurati dalle metriche tradizionali e correggerli tramite modifiche mirate.

ShadowPEFT: Rete Ombra per il Fine-Tuning Efficiente dei Parametri
ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Apr 21

ByXianming Li, Zongxi Li, Tsz-fung Andrew Lee, Jing Li, Haoran Xie, Qing Li

Il fine-tuning efficiente dei parametri (PEFT) riduce il costo addestrativo del fine-tuning completo dei parametri per i grandi modelli linguistici (LLM) addestrando solo un piccolo insieme di parametri specifici per il compito, mantenendo congelato il backbone preaddestrato. Tuttavia, gli approcci esistenti, come Low-Rank Adaptation (LoRA), ottengono l'adattamento inserendo perturbazioni indipendenti a basso rango direttamente sui singoli pesi, risultando in una parametrizzazione locale dell'adattamento. Noi proponiamo ShadowPEFT, un framework PEFT centralizzato che invece esegue un raffinamento a livello di layer attraverso un modulo shadow condiviso in profondità. Ad ogni layer del transformer, ShadowPEFT mantiene uno stato shadow parallelo e lo evolve ripetutamente per ottenere stati nascosti progressivamente più ricchi. Questo progetto sposta l'adattamento da perturbazioni distribuite nello spazio dei pesi a un processo di raffinamento condiviso nello spazio dei layer. Poiché il modulo shadow è disaccoppiato dal backbone, può essere riutilizzato attraverso la profondità, preaddestrato indipendentemente e opzionalmente impiegato in una modalità distaccata, avvantaggiando scenari di edge computing. Esperimenti su benchmark di generazione e comprensione mostrano che ShadowPEFT eguaglia o supera LoRA e DoRA con budget di parametri addestrabili comparabili. Ulteriori analisi sul preaddestramento dello shadow, trasferimento cross-dataset, scalabilità dei parametri, latenza di inferenza e valutazione a livello di sistema suggeriscono che l'adattamento centralizzato nello spazio dei layer è un'alternativa competitiva e flessibile al PEFT a basso rango convenzionale.

Chat2Workflow: Un Benchmark per la Generazione di Flussi di Lavoro Visivi Eseguibili con il Linguaggio Naturale
Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Apr 21

ByYi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang

Attualmente, i flussi di lavoro visuali eseguibili sono emersi come paradigma dominante nelle implementazioni industriali reali, offrendo elevata affidabilità e controllabilità. Tuttavia, nella pratica corrente, tali flussi di lavoro sono quasi interamente costruiti attraverso ingegneria manuale: gli sviluppatori devono progettare accuratamente i workflow, scrivere prompt per ogni fase e revisionare ripetutamente la logica al mutare dei requisiti, rendendo lo sviluppo costoso, dispendioso in termini temporali e soggetto a errori. Per studiare se i grandi modelli linguistici possano automatizzare questo processo interattivo multi-round, introduciamo Chat2Workflow, un benchmark per generare flussi di lavoro visuali eseguibili direttamente dal linguaggio naturale, e proponiamo un framework agente robusto per mitigare errori di esecuzione ricorrenti. Chat2Workflow è costruito a partire da un'ampia raccolta di workflow aziendali reali, con ogni istanza progettata in modo che il flusso generato possa essere trasformato e distribuito direttamente su piattaforme pratiche come Dify e Coze. I risultati sperimentali mostrano che, sebbene i modelli linguistici all'avanguardia possano spesso cogliere l'intento di alto livello, faticano a generare workflow corretti, stabili ed eseguibili, specialmente con requisiti complessi o mutevoli. Sebbene il nostro framework agente produca guadagni fino al 5,34% nel tasso di risoluzione, il gap residuo con scenari reali posiziona Chat2Workflow come base per far progredire l'automazione di grado industriale. Il codice è disponibile su https://github.com/zjunlp/Chat2Workflow.

AJ-Bench: Benchmarking dell'Agente-come-Giudice per la Valutazione Consapevole dell'Ambiente
AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Apr 20

ByWentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi Gu, Hui Su, Xunliang Cai, Xiangnan He

Man mano che l'apprendimento per rinforzo continua a scalare l'addestramento di agenti basati su grandi modelli linguistici, la verifica affidabile dei comportamenti degli agenti in ambienti complessi è diventata sempre più impegnativa. Gli approcci esistenti si basano su verificatori basati su regole o modelli LLM-as-a-Judge, che faticano a generalizzare al di là di domini ristretti. Agent-as-a-Judge affronta questa limitazione interagendo attivamente con ambienti e strumenti per acquisire prove verificabili, sebbene le sue capacità rimangano ancora poco esplorate. Introduciamo un benchmark, AJ-Bench, per valutare sistematicamente Agent-as-a-Judge in tre domini - ricerca, sistemi di dati e interfacce utente grafiche - comprendente 155 task e 516 traiettorie annotate. Il benchmark valuta in modo completo le capacità degli agenti giudice nell'acquisizione di informazioni, nella verifica dello stato e nella verifica del processo. Gli esperimenti dimostrano miglioramenti prestazionali consistenti rispetto ai baseline LLM-as-a-Judge, rivelando al contempo sfide aperte sostanziali nella verifica basata su agenti. I nostri dati e codice sono disponibili su https://aj-bench.github.io/.

Addestramento a Doppia Vista per il Recupero delle Informazioni con Seguito di Istruzioni
Dual-View Training for Instruction-Following Information Retrieval

Apr 20

ByQingcheng Zeng, Puxuan Yu, Aman Mehta, Fuheng Zhao, Rajhans Samdani

La ricerca di informazioni basata su istruzioni (IF-IR) studia sistemi di recupero che non solo devono trovare documenti pertinenti a una query, ma anche obbedire a vincoli utente espliciti come attributi richiesti, esclusioni o preferenze di output. Tuttavia, la maggior parte dei sistemi di retrieval viene addestrata principalmente per la rilevanza semantica e spesso non riesce a distinguere i documenti che corrispondono all'argomento da quelli che soddisfano l'istruzione. Proponiamo una strategia di sintesi dei dati a doppia visuale basata sull'inversione di polarità: data una query, un documento rilevante secondo l'istruzione e un negativo difficile che corrisponde alla query ma viola l'istruzione, sollecitiamo un LLM a generare un'istruzione complementare sotto la quale i due documenti scambiano le etichette di rilevanza. Presentando la stessa coppia di documenti sotto istruzioni complementari che invertono le loro etichette di rilevanza, il segnale di addestramento costringe il sistema di retrieval a riconsiderare lo stesso insieme di candidati attraverso l'istruzione, anziché affidarsi a indizi tematici fissi. Su un encoder da 305 milioni di parametri, il nostro metodo migliora le prestazioni sul benchmark FollowIR del 45%, superando modelli di embedding generici di scala comparabile o maggiore. Attraverso confronti diretti con budget di dati equivalenti, mostriamo ulteriormente che la diversità dei dati e la supervisione delle istruzioni svolgono ruoli complementari: la prima preserva la qualità generale del retrieval, mentre la seconda migliora la sensibilità alle istruzioni. Questi risultati evidenziano il valore della sintesi mirata dei dati per costruire sistemi di retrieval che siano sia ampiamente capaci che consapevoli delle istruzioni.

Recupero di Informazioni con Code-Switching: Benchmark, Analisi e Limiti degli Attuali Sistemi di Retrieval
Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Apr 19

ByQingcheng Zeng, Yuheng Lu, Zeqi Zhou, Heli Qi, Puxuan Yu, Fuheng Zhao, Hitomi Yanaka, Weihao Xuan, Naoto Yokoya

Il code-switching è un fenomeno linguistico pervasivo nella comunicazione globale, eppure i moderni sistemi di information retrieval rimangono prevalentemente progettati e valutati in contesti monolingui. Per colmare questa critica disconnessione, presentiamo uno studio olistico dedicato all'IR con code-switching. Introduciamo CSR-L (Code-Switching Retrieval benchmark-Lite), costruendo un dataset tramite annotazione umana per catturare l'autentica naturalezza di query in linguaggio misto. La nostra valutazione attraverso paradigmi statistici, densi e di late-interaction rivela che il code-switching agisce come un collo di bottiglia fondamentale per le prestazioni, degradando l'efficacia persino di robusti modelli multilingue. Dimostriamo che questo fallimento deriva da una sostanziale divergenza nello spazio d'embedding tra testo puro e testo con code-switching. Scalando questa investigazione, proponiamo CS-MTEB, un benchmark completo che copre 11 task diversificati, dove osserviamo cali prestazionali fino al 27%. Infine, mostriamo che tecniche multilingue standard come l'espansione del vocabolario sono insufficienti per risolvere completamente questi deficit. Questi risultati sottolineano la fragilità dei sistemi attuali e stabiliscono il code-switching come una frontiera cruciale per la futura ottimizzazione dell'IR.

Comprendere e Imporre il Disaccoppiamento dei Pesi nell'Aritmetica dei Compiti
Understanding and Enforcing Weight Disentanglement in Task Arithmetic

Apr 18

ByShangge Liu, Yuehan Yin, Lei Wang, Qi Fan, Yinghuan Shi, Wenbin Li, Yang Gao, Dacheng Tao

L'aritmetica dei task fornisce un modo efficiente e senza addestramento per modificare modelli pre-addestrati, ma manca di una spiegazione teorica fondamentale per il suo successo. Il concetto esistente di "disaccoppiamento dei pesi" descrive il risultato ideale di una composizione di task non interferente, ma non ne rivela la causa sottostante. Crucialmente, quali proprietà intrinseche del modello pre-addestrato (θ₀) o dei vettori di task (τ_t) abilitino questo disaccoppiamento rimane poco esplorato. In questo articolo, introduciamo la Specializzazione Task-Feature (TFS), la capacità di un modello di allocare feature interne distinte a task diversi, come principio fondamentale. Dimostriamo prima che la TFS è una condizione sufficiente per il disaccoppiamento dei pesi. Più importante, troviamo che la TFS dà anche origine a una conseguenza geometrica osservabile: l'ortogonalità dei vettori dei pesi. Questo posiziona la TFS come la causa comune sia del risultato funzionale desiderato (disaccoppiamento) che di una proprietà geometrica misurabile (ortogonalità). Questa relazione fornisce l'intuizione chiave per il nostro metodo: poiché l'astratta proprietà TFS è intrattabile da imporre direttamente, possiamo invece promuovere il disaccoppiamento dei pesi modellando la sua conseguenza geometrica concreta, l'ortogonalità. Pertanto, proponiamo OrthoReg, un metodo di regolarizzazione semplice ed efficace che impone attivamente una struttura ortogonale interna sugli aggiornamenti dei pesi (ΔW) che costituiscono τ_t durante il fine-tuning. E dimostriamo teoricamente che OrthoReg promuove il disaccoppiamento. Esperimenti estesi dimostrano che OrthoReg migliora in modo consistente e significativo le prestazioni di vari metodi di aritmetica dei task. Il codice è disponibile all'indirizzo https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.

CityRAG: Entrare in una Città Attraverso la Generazione di Video Territorialmente Contestualizzati
CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

Apr 21

ByGene Chou, Charles Herrmann, Kyle Genova, Boyang Deng, Songyou Peng, Bharath Hariharan, Jason Y. Zhang, Noah Snavely, Philipp Henzler

Affrontiamo il problema della generazione di un ambiente navigabile, tridimensionalmente coerente e geograficamente ancorato: una simulazione di una località reale. I modelli generativi video esistenti possono produrre una sequenza plausibile e coerente con un prompt testuale (T2V) o di immagine (I2V). Tuttavia, la capacità di ricostruire il mondo reale in condizioni meteorologiche arbitrarie e con configurazioni dinamiche degli oggetti è essenziale per applicazioni downstream, come la guida autonoma e la simulazione robotica. A tal fine, presentiamo CityRAG, un modello generativo video che sfrutta grandi corpora di dati geo-referenziati come contesto per ancorare la generazione alla scena fisica, preservando al contempo i prior appresi per i cambiamenti complessi di movimento e aspetto. CityRAG si basa su dati di addestramento temporalmente non allineati, che insegnano al modello a separare semanticamente la scena sottostante dai suoi attributi transienti. I nostri esperimenti dimostrano che CityRAG è in grado di generare sequenze video coerenti e lunghe diversi minuti, fisicamente ancorate, di mantenere condizioni meteorologiche e di illuminazione per migliaia di fotogrammi, di ottenere una chiusura del ciclo e di navigare traiettorie complesse per ricostruire la geografia del mondo reale.

Decodifica Speculativa per la Generazione Autoregressiva di Video
Speculative Decoding for Autoregressive Video Generation

Apr 19

ByYuezhou Hu, Jintao Zhang

La diffusione video autoregressiva si sta affermando come un paradigma promettente per la sintesi di video in streaming, con la distillazione dei passi che funge da mezzo principale per accelerare l'inferenza. Resta una questione aperta se il decoding speculativo, la strategia di accelerazione dominante per i grandi modelli linguistici, possa essere efficacemente adattato alla generazione video autoregressiva, poiché i blocchi video sono tensori spazio-temporali continui senza una distribuzione a livello di token per un campionamento di rigetto esatto. Introduciamo SDVG, che porta il decoding speculativo alla diffusione video autoregressiva basata su blocchi sostituendo la verifica dei token con un router di qualità dell'immagine. Un modello "drafter" da 1.3B propone blocchi candidati tramite quattro passi di denoising; ogni blocco viene decodificato tramite VAE e valutato da ImageReward utilizzando un'aggregazione del frame peggiore—prendendo la ricompensa minima per frame per catturare artefatti su frame singoli che una media maschererebbe. I blocchi con punteggio superiore a una soglia fissa tau vengono accettati nella KV cache del modello "target" da 14B; gli altri vengono rigenerati dal target. Due scelte progettuali aggiuntive si rivelano cruciali: il primo blocco viene sempre forzatamente rigettato per ancorare la composizione della scena, e tau funge da unico parametro che traccia una frontiera di Pareto qualità-velocità uniforme. Su 1003 prompt di MovieGenVideoBench (832x480), SDVG mantiene il 98.1% della qualità VisionReward del solo target (0.0773 vs. 0.0788) con un accelerazione di 1.59x a tau=-0.7, e raggiunge 2.09x con una ritenzione di qualità del 95.7%—superando costantemente la generazione con il solo drafter di oltre +17%. Il framework non richiede training, non necessita di modifiche architetturali e può essere integrato senza soluzione di continuità nelle pipeline esistenti di generazione video autoregressiva.

Selezione dei Dati di Pre-Addestramento Orientata all'Obiettivo tramite Grafo Attivato dai Neuroni
Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

Apr 17

ByZijun Wang, Haoqin Tu, Weidong Zhou, Yiyang Zhou, Xiaohuan Zhou, Bingni Zhang, Weiguo Feng, Taifeng Wang, Cihang Xie, Fengze Liu

Ogni attività quotidiana possiede un obiettivo, e l'addestramento preliminare (pretraining) dei modelli attorno a questo obiettivo è ciò che li trasforma in esperti. In questo articolo, studiamo il pretraining di modelli linguistici (LM) orientato a un obiettivo introducendo il Ranking basato su Grafo ad Attivazione Neuronale (NAG-based Ranking), un framework interpretabile e che non richiede addestramento per la selezione dei dati di pretraining mirati. Invece di utilizzare rappresentazioni "black-box", il nostro approccio caratterizza direttamente ogni input target mediante un insieme sparso di neuroni ad alto impatto in qualsiasi LLM già disponibile. Nello specifico, quantifichiamo l'impatto dei neuroni e selezioniamo i neuroni più influenti attraverso i layer in un compatto Grafo ad Attivazione Neuronale (NAG), quindi classifichiamo i dati candidati in base alla similarità del NAG con gli esempi target. Abbiamo condotto esperimenti su sei benchmark, dove il nostro Ranking basato su NAG migliora il pretraining orientato all'obiettivo del 4.9% in media rispetto al campionamento casuale, e supera anche i baseline state-of-the-art con un'accuratezza del 5.3% su HellaSwag. Rimane efficace anche in un'impostazione multi-obiettivo più applicabile, dove la nostra configurazione migliore supera due baseline rispettivamente dell'1.1% e del 4.1%. Inoltre, forniamo un'analisi completa sul perché e sul come funziona il nostro NAG; ad esempio, disattivare i neuroni selezionati dal NAG (solo lo 0.12% del totale) causa un crollo delle prestazioni del 23.5%, e limitare il NAG al layer finale comporta un calo medio del 4.1%, indicando che il NAG cattura una "spina dorsale funzionale" sparsa per l'apprendimento delle caratteristiche target. Rilasciamo il codice all'indirizzo https://github.com/asillycat/NAG.

SmartPhotoCrafter: Ragionamento, Generazione e Ottimizzazione Unificati per l'Editing Fotografico Automatico delle Immagini
SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

Apr 21

ByYing Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang

L'editing tradizionale delle immagini fotografiche richiede solitamente che gli utenti possiedano una sufficiente comprensione estetica per fornire indicazioni appropriate sulla regolazione della qualità dell'immagine e dei parametri della fotocamera. Tuttavia, questo paradigma si basa su istruzioni umane esplicite dell'intento estetico, che sono spesso ambigue, incomplete o inaccessibili agli utenti non esperti. In questo lavoro proponiamo SmartPhotoCrafter, un metodo di editing automatico di immagini fotografiche che formula l'editing come un processo strettamente accoppiato di ragionamento-generazione. Il modello proposto esegue prima una comprensione della qualità dell'immagine e identifica le carenze tramite il modulo Image Critic, successivamente il modulo Photographic Artist realizza modifiche mirate per migliorare l'attrattiva dell'immagine, eliminando la necessità di istruzioni umane esplicite. Viene adottata una pipeline di addestramento multi-fase: (i) Pre-addestramento di base per stabilire comprensione estetica e capacità di editing fondamentali, (ii) Adattamento con supervisione multi-modifica guidata dal ragionamento per incorporare una ricca guida semantica, e (iii) Apprendimento per rinforzo coordinato ragionamento-generazione per ottimizzare congiuntamente ragionamento e generazione. Durante l'addestramento, SmartPhotoCrafter enfatizza la generazione di immagini foto-realistiche, supportando sia compiti di restauro che di ritocco dell'immagine con coerenza verso la semantica relativa a colore e tono. Abbiamo anche costruito un dataset specifico per fase, che costruisce progressivamente ragionamento e generazione controllabile, efficace collaborazione cross-modulo e infine un enhancement fotografico di alta qualità. Gli esperimenti dimostrano che SmartPhotoCrafter supera i modelli generativi esistenti nel compito di enhancement fotografico automatico, ottenendo risultati foto-realistici mostrando al contempo una maggiore sensibilità tonale alle istruzioni di ritocco. Pagina del progetto: https://github.com/vivoCameraResearch/SmartPhotoCrafter.

UniMesh: Unificazione della Comprensione e Generazione di Mesh 3D
UniMesh: Unifying 3D Mesh Understanding and Generation

Apr 19

ByPeng Huang, Yifeng Chen, Zeyu Zhang, Hao Tang

I recenti progressi nella visione 3D hanno portato allo sviluppo di modelli specializzati per la comprensione 3D (ad esempio, classificazione di forme, segmentazione, ricostruzione) o per la generazione 3D (ad esempio, sintesi, completamento e modifica). Tuttavia, questi compiti sono spesso affrontati in modo isolato, dando luogo a architetture e rappresentazioni frammentate che ostacolano il trasferimento di conoscenze e la modellazione olistica della scena. Per affrontare queste sfide, proponiamo UniMesh, un framework unificato che apprende congiuntamente la generazione e la comprensione 3D all'interno di un'unica architettura. In primo luogo, introduciamo una nuova Mesh Head che funge da interfaccia cross-model, collegando la generazione di immagini basata su diffusione con decoder di forme implicite. In secondo luogo, sviluppiamo la Catena di Mesh (Chain of Mesh, CoM), un'istanziazione geometrica del ragionamento iterativo che abilita la modifica semantica di mesh guidata dall'utente attraverso un ciclo chiuso di latente, prompting e rigenerazione. In terzo luogo, incorporiamo un meccanismo di autoriflessione basato su una triade Attore-Valutatore-Autoriflessione per diagnosticare e correggere gli errori in compiti di alto livello come la descrizione in linguaggio naturale di scene 3D. I risultati sperimentali dimostrano che UniMesh non solo raggiunge prestazioni competitive su benchmark standard, ma sblocca anche nuove capacità nell'editing iterativo e nel miglioramento reciproco tra generazione e comprensione. Codice: https://github.com/AIGeeksGroup/UniMesh. Sito web: https://aigeeksgroup.github.io/UniMesh.

RDP LoRA: Identificazione Guidata dalla Geometria per l'Adattamento Efficiente nei Parametri dei Modelli Linguistici di Grande Dimensione
RDP LoRA: Geometry-Driven Identification for Parameter-Efficient Adaptation in Large Language Models

Apr 21

ByYusuf Çelebi, Yağız Asker, Özay Ezerceli, Mahmoud ElHussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu

L'ottimizzazione fine (fine-tuning) dei Large Language Model (LLM) rimane strutturalmente incerta nonostante metodi efficienti in termini di parametri come il Low-Rank Adaptation (LoRA), poiché i ruoli specifici per strato delle rappresentazioni interne sono scarsamente compresi, portando a decisioni euristiche su dove dovrebbe essere applicato l'adattamento. Modelliamo l'evoluzione degli stati nascosti come una traiettoria geometrica ad alta dimensione e proponiamo l'uso dell'algoritmo di Ramer-Douglas-Peucker (RDP), un metodo di semplificazione di poligoni privo di parametri e di addestramento che preserva le transizioni strutturali globali eliminando i cambiamenti ridondanti a livello locale, per identificare punti di svolta critici lungo il percorso di rappresentazione. Fondamentalmente, utilizziamo questi perni geometrici non solo per l'analisi, ma come segnale decisionale diretto per determinare quali strati adattare durante l'ottimizzazione fine efficiente in parametri. Integrando questa strategia di selezione degli strati consapevole della geometria nell'ottimizzazione fine LoRA di Qwen3-8B-Base, otteniamo prestazioni superiori su MMLU-Math utilizzando solo 13 strati selezionati con RDP (81,67%), superando significativamente sia l'adattamento completo a 36 strati (79,32%) che la selezione casuale di 13 strati (75,56%), nonché il modello baseline Qwen3-8B-Base (74,25%). Questi risultati dimostrano che sfruttare la geometria intrinseca delle traiettorie di rappresentazione fornisce un segnale robusto, interpretabile e privo di addestramento per ottimizzare la selezione degli strati durante l'adattamento del modello.

MM-JudgeBias: Un Benchmark per la Valutazione dei Pregiudizi Composizionali nei MLLM-come-Giudice
MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Apr 20

BySua Lee, Sanghee Park, Jinbae Im

I modelli linguistici multimodali di grandi dimensioni (MLLM) vengono sempre più utilizzati come valutatori automatici, un paradigma noto come MLLM-as-a-Judge. Tuttavia, la loro affidabilità e le vulnerabilità a bias rimangono poco esplorate. Rileviamo che molti giudici MLLM non riescono a integrare in modo affidabile gli indizi visivi o testuali chiave, producendo valutazioni inaffidabili quando le evidenze sono assenti o non corrispondenti, e mostrando instabilità sotto perturbazioni semanticamente irrilevanti. Per affrontare questo problema, definiamo sistematicamente il Bias Composizionale nei sistemi MLLM-as-a-Judge e introduciamo MM-JudgeBias, un benchmark per valutarlo. MM-JudgeBias introduce perturbazioni controllate su Query, Immagine e Risposta, e valuta il comportamento del modello tramite due metriche complementari: Bias-Deviation (BD) per la sensibilità e Bias-Conformity (BC) per la stabilità. Il nostro dataset di oltre 1.800 campioni multimodali curati e raffinati, provenienti da 29 benchmark sorgente, consente una diagnosi granulare di nove tipi di bias attraverso vari task e domini. Esperimenti su 26 MLLM all'avanguardia rivelano una negligenza modale sistematica e tendenze valutative asimmetriche, sottolineando la necessità di giudici più affidabili.

LoopCTR: Sfruttare la Potenza della Scalabilità a Ciclo per la Previsione del Tasso di Clic
LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

Apr 21

ByJiakai Tang, Runfeng Zhang, Weiqiu Wang, Yifei Liu, Chuan Wang, Xu Chen, Yeqiu Yang, Jian Wu, Yuning Jiang, Bo Zheng

Il ridimensionamento dei modelli Transformer per il click-through rate (CTR) mediante l'aggiunta di parametri comporta crescenti costi computazionali e di archiviazione, creando un divario sempre più ampio tra le ambizioni di scalabilità e i vincoli stringenti del deployment industriale. Proponiamo LoopCTR, che introduce un paradigma di ridimensionamento a loop che aumenta il calcolo in fase di training attraverso il riutilizzo ricorsivo di layer condivisi, disaccoppiando la computazione dalla crescita dei parametri. LoopCTR adotta un'architettura a sandwich potenziata con Residui Iper-Connessi e Mistura di Esperti, e impiega una supervisione del processo a ogni profondità di loop per codificare i vantaggi multi-loop nei parametri condivisi. Ciò consente una strategia "train-multi-loop, infer-zero-loop" in cui un singolo passaggio in avanti senza alcun loop supera già tutte le baseline. Esperimenti su tre benchmark pubblici e un dataset industriale dimostrano prestazioni all'avanguardia. Un'analisi oracolare rivela inoltre un potenziale inespresso di 0.02-0.04 AUC, con modelli addestrati con meno loop che mostrano soffitti oracolari più alti, indicando una frontiera promettente per l'inferenza adattiva.

UDM-GRPO: Ottimizzazione delle Politiche Relative di Gruppo Stabile ed Efficiente per Modelli di Diffusione Discreti Uniformi
UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

Apr 20

ByJiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang

Il Modello di Diffusione Discreta Uniforme (UDM) è recentemente emerso come paradigma promettente per la modellazione generativa discreta; tuttavia, la sua integrazione con l'apprendimento per rinforzo rimane ampiamente inesplorata. Osserviamo che l'applicazione ingenua di GRPO a UDM porta a instabilità nell'addestramento e a miglioramenti marginali delle prestazioni. Per affrontare questo problema, proponiamo \Ours, il primo framework che integra UDM con RL. Il nostro metodo è guidato da due intuizioni chiave: (i) trattare il campione pulito finale come azione fornisce segnali di ottimizzazione più accurati e stabili; e (ii) ricostruire le traiettorie tramite il processo diretto di diffusione allinea meglio i percorsi probabilistici con la distribuzione di pre-addestramento. Inoltre, introduciamo due strategie, Reduced-Step e CFG-Free, per migliorare ulteriormente l'efficienza dell'addestramento. \Ours migliora significativamente le prestazioni del modello base in molteplici attività T2I. In particolare, l'accuratezza di GenEval migliora dal 69% al 96% e il PickScore aumenta da 20,46 a 23,81, raggiungendo prestazioni all'avanguardia sia in contesti continui che discreti. Sul benchmark OCR, l'accuratezza sale dall'8% al 57%, convalidando ulteriormente la capacità di generalizzazione del nostro metodo. Il codice è disponibile all'indirizzo https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.

HP-Edit: Un framework post-addestramento basato sulle preferenze umane per l'editing di immagini
HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Apr 21

ByFan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo

Le comuni attività di modifica delle immagini adottano generalmente potenti modelli di diffusione generativa come paradigma principale per l'editing di contenuti nel mondo reale. Nel frattempo, sebbene i metodi di apprendimento per rinforzo (RL) come Diffusion-DPO e Flow-GRBO abbiano ulteriormente migliorato la qualità della generazione, l'applicazione efficiente del Reinforcement Learning from Human Feedback (RLHF) all'editing basato su modelli di diffusione rimane in gran parte inesplorata, a causa della mancanza di dataset di preferenze umane scalabili e di framework specifici per diverse esigenze di editing. Per colmare questa lacuna, proponiamo HP-Edit, un framework di post-training per l'Editing Allineato alle Preferenze Umane, e introduciamo RealPref-50K, un dataset del mondo reale che copre otto compiti comuni e bilancia l'editing di oggetti comuni. Nello specifico, HP-Edit utilizza una piccola quantità di dati di valutazione delle preferenze umane e un modello linguistico visivo (VLM) preaddestrato per sviluppare HP-Scorer, un valutatore automatico allineato alle preferenze umane. Utilizziamo quindi HP-Scorer sia per costruire efficientemente un dataset di preferenze scalabile, sia come funzione di reward per il post-training del modello di editing. Introduciamo inoltre RealPref-Bench, un benchmark per valutare le prestazioni di editing nel mondo reale. Esperimenti estensivi dimostrano che il nostro approccio migliora significativamente modelli come Qwen-Image-Edit-2509, allineando i loro output più strettamente alle preferenze umane.

Scambio-correlazione accurato e scalabile con l'apprendimento profondo
Accurate and scalable exchange-correlation with deep learning

Apr 21

ByGiulia Luise, Chin-Wei Huang, Thijs Vogels, Derk P. Kooi, Sebastian Ehlert, Stephanie Lanius, Klaas J. H. Giesbertz, Amir Karton, Deniz Gunceler, Stefano Battaglia, Gregor N. C. Simm, P. Bernát Szabó, Megan Stanley, Wessel P. Bruinsma, Lin Huang, Xinran Wei, José Garrido Torres, Abylay Katbashev, Rodrigo Chavez Zavaleta, Bálint Máté, Sékou-Oumar Kaba, Roberto Sordillo, Yingrong Chen, David B. Williams-Young, Christopher M. Bishop, Jan Hermann, Rianne van den Berg, Paola Gori-Giorgi

La Teoria del Funzionale della Densità (DFT) costituisce la base di gran parte della chimica computazionale e della scienza dei materiali moderna. Tuttavia, l'affidabilità delle previsioni derivate dalla DFT su proprietà misurabili sperimentalmente rimane fondamentalmente limitata dalla necessità di approssimare il funzionale sconosciuto di scambio e correlazione (XC). Il paradigma tradizionale per migliorare l'accuratezza si è basato su forme funzionali sempre più elaborate, costruite manualmente. Questo approccio ha portato a un compromesso di lunga data tra efficienza computazionale e accuratezza, che rimane insufficiente per una modellazione predittiva affidabile degli esperimenti di laboratorio. Qui introduciamo Skala, un funzionale XC basato sul deep learning che supera in accuratezza i funzionali ibridi all'avanguardia sull'insieme di benchmark di chimica dei principali gruppi GMTKN55, con un errore di 2.8 kcal/mol, pur mantenendo il costo computazionale inferiore caratteristico della DFT semi-locale. Questo allontanamento dimostrato dal compromesso storico tra accuratezza ed efficienza è reso possibile dall'apprendimento di rappresentazioni non locali della struttura elettronica direttamente dai dati, bypassando la necessità di caratteristiche progettate manualmente e sempre più costose. Sfruttando un volume senza precedenti di dati di riferimento ad alta accuratezza da metodi basati sulla funzione d'onda, stabiliamo che il deep learning moderno consente modelli neurali di scambio e correlazione sistematicamente migliorabili man mano che i dataset di addestramento si espandono, posizionando le simulazioni basate sui primi principi per diventare progressivamente più predittive.

Cosa Rende un LLM un Buon Ottimizzatore? Un'Analisi della Traiettoria della Ricerca Evolutiva Guidata da LLM
What Makes an LLM a Good Optimizer? A Trajectory Analysis of LLM-Guided Evolutionary Search

Apr 21

ByXinhao Zhang, Xi Chen, François Portet, Maxime Peyrard

Recenti studi hanno dimostrato il potenziale dell'orchestrazione di grandi modelli linguistici (LLM) all'interno di sistemi di ottimizzazione evolutiva e agent-based. Tuttavia, i meccanismi alla base di questi miglioramenti nell'ottimizzazione rimangono poco compresi. In questo lavoro, presentiamo uno studio su larga scala della ricerca evolutiva guidata da LLM, raccogliendo le traiettorie di ottimizzazione per 15 modelli diversi attraverso 8 compiti. Sebbene la capacità di risoluzione dei problemi in modalità zero-shot sia correlata con gli esiti finali dell'ottimizzazione, essa spiega solo una parte della varianza: modelli con capacità iniziali simili spesso generano traiettorie di ricerca ed esiti radicalmente diversi. Analizzando queste traiettorie, scopriamo che gli LLM più efficaci si comportano come affinatori locali, producendo frequenti miglioramenti incrementali localizzando progressivamente la ricerca nello spazio semantico. Al contrario, ottimizzatori più deboli mostrano un'ampia deriva semantica, con sporadiche svolte seguite da stagnazione. È interessante notare che varie misure della novità delle soluzioni non predicono le prestazioni finali; la novità è benefica solo quando la ricerca rimane sufficientemente localizzata attorno a regioni ad alte prestazioni dello spazio delle soluzioni. I nostri risultati evidenziano l'importanza dell'analisi delle traiettorie per comprendere e migliorare i sistemi di ottimizzazione basati su LLM e forniscono indicazioni pratiche per la loro progettazione e addestramento.

Attribuzione Contrastiva in Contesti Reali: Un'Analisi di Interpretabilità dei Fallimenti degli LLM su Benchmark Realistici
Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

Apr 20

ByRongyuan Tan, Jue Zhang, Zhuozhao Li, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

Gli strumenti di interpretabilità sono sempre più utilizzati per analizzare i fallimenti dei Large Language Model (LLM), tuttavia i lavori precedenti si concentrano prevalentemente su prompt brevi o contesti semplificati, lasciando inesplorato il loro comportamento sui benchmark comunemente utilizzati. Per colmare questa lacuna, studiamo l'attribuzione contrastiva basata su LRP come strumento pratico per analizzare i fallimenti degli LLM in contesti realistici. Formuliamo l'analisi dei fallimenti come attribuzione contrastiva, attribuendo la differenza di logit tra un token di output errato e un'alternativa corretta ai token di input e agli stati interni del modello, e introduciamo un'estensione efficiente che consente la costruzione di grafi di attribuzione cross-layer per input a contesto lungo. Utilizzando questo framework, conduciamo uno studio empirico sistematico su diversi benchmark, confrontando i pattern di attribuzione tra dataset, dimensioni del modello e checkpoint di addestramento. I nostri risultati mostrano che questa attribuzione contrastiva a livello di token può produrre segnali informativi in alcuni casi di fallimento, ma non è universalmente applicabile, evidenziandone sia l'utilità che i limiti per un'analisi realistica dei fallimenti degli LLM. Il nostro codice è disponibile all'indirizzo: https://aka.ms/Debug-XAI.

Scalabilità Guidata dalla Valutazione per la Scoperta Scientifica
Evaluation-driven Scaling for Scientific Discovery

Apr 21

ByHaotian Ye, Haowei Lin, Jingyi Tang, Yizhen Luo, Caiyin Yang, Chang Su, Rahul Thapa, Rui Yang, Ruihua Liu, Zeyu Li, Chong Gao, Dachao Ding, Guangrong He, Miaolei Zhang, Lina Sun, Wenyang Wang, Yuchen Zhong, Zhuohao Shen, Di He, Jianzhu Ma, Stefano Ermon, Tongyang Li, Xiaowen Chu, James Zou, Yuzhi Xu

I modelli linguistici sono sempre più utilizzati nella scoperta scientifica per generare ipotesi, proporre soluzioni candidate, implementare sistemi e affinarli in modo iterativo. Al centro di questi cicli di prova ed errore si trova la valutazione: il processo di ottenimento di feedback sulle soluzioni candidate tramite verificatori, simulatori o funzioni di punteggio specifiche per il compito. Sebbene lavori precedenti abbiano sottolineato l'importanza della valutazione, non hanno formulato esplicitamente il problema di come i cicli di scoperta guidati dalla valutazione possano essere scalati in modo principiato ed efficace per spingere i confini della scoperta scientifica, un problema che questo articolo intende affrontare. Introduciamo Simple Test-time Evaluation-driven Scaling (SimpleTES), un framework generale che combina strategicamente esplorazione parallela, raffinamento guidato dal feedback e selezione locale, rivelando sostanziali vantaggi sbloccati scalando i cicli di scoperta guidati dalla valutazione lungo le dimensioni appropriate. Attraverso 21 problemi scientifici che abbracciano sei domini, SimpleTES scopre soluzioni all'avanguardia utilizzando modelli GPT open-source, superando costantemente sia baseline di modelli di frontiera che pipeline di ottimizzazione sofisticate. In particolare, abbiamo accelerato l'algoritmo LASSO ampiamente utilizzato di oltre 2 volte, progettato politiche di instradamento per circuiti quantistici che riducono l'overhead dei gate del 24,5% e scoperto nuove costruzioni di Erdős a minima sovrapposizione che superano i risultati migliori conosciuti. Oltre a scoperte innovative, SimpleTES produce cronologie a livello di traiettoria che supervisionano naturalmente l'apprendimento guidato dal feedback. Quando addestrati in post-processing su traiettorie di successo, i modelli non solo migliorano l'efficienza sui problemi già visti, ma generalizzano anche a problemi non visti, scoprendo soluzioni che i modelli di base non riescono a individuare. Nel complesso, i nostri risultati stabiliscono la scalabilità efficace dei cicli guidati dalla valutazione come un asse centrale per far avanzare la scoperta scientifica guidata dai LLM e forniscono un framework semplice ma pratico per realizzare questi vantaggi.

ClawNet: Rete Agente Simbiotica Umana per la Cooperazione Autonoma Trans-Utente
ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation

Apr 21

ByZhiqin Yang, Zhenyuan Zhang, Xianzhang Jia, Jun Song, Wei Xue, Yonggang Zhang, Yike Guo

Gli attuali framework di agenti IA hanno compiuto progressi notevoli nell'automatizzazione di singoli compiti, ma tutti i sistemi esistenti servono un singolo utente. La produttività umana si basa sulle relazioni sociali e organizzative attraverso le quali le persone coordinano, negoziano e delegano. Quando gli agenti evolvono dall'eseguire compiti per una persona al rappresentare quella persona in collaborazione con altri, l'infrastruttura per la collaborazione tra agenti di utenti diversi è completamente assente, per non parlare dei meccanismi di governance necessari a garantirne la sicurezza. Sosteniamo che la prossima frontiera per gli agenti IA non risieda in capacità individuali più potenti, ma nella digitalizzazione delle relazioni collaborative umane. A tal fine, proponiamo un paradigma di agenti in simbiosi umana. Ogni utente possiede un sistema di agenti permanentemente vincolato che collabora per conto del proprietario, formando una rete i cui nodi sono umani piuttosto che agenti. Questo paradigma poggia su tre primitive di governance. Un'architettura identitaria stratificata separa un Agente Manager da molteplici Agenti Identità specifici per contesto; l'Agente Manager detiene conoscenza globale ma è architetturalmente isolato dalla comunicazione esterna. L'autorizzazione delimitata applica controlli di accesso per identità ed escalava le violazioni dei confini al proprietario. La responsabilità a livello di azione registra ogni operazione rispetto all'identità e all'autorizzazione del proprietario, garantendo piena tracciabilità. Istanziamo questo paradigma in ClawNet, un framework di collaborazione tra agenti governato dall'identità che applica il vincolo identitario e la verifica dell'autorizzazione attraverso un orchestratore centrale, consentendo a più utenti di collaborare in sicurezza attraverso i rispettivi agenti.

Mitigazione delle Allucinazioni Multimodali tramite Autoricompensa Fase-dipendente
Mitigating Multimodal Hallucination via Phase-wise Self-reward

Apr 20

ByYu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang

I grandi modelli visione-linguaggio (LVLM) continuano a lottare con il problema dell'allucinazione visiva, dove le risposte generate sono inconsistenti con l'input visivo. I metodi esistenti si basano su dati annotati su larga scala per il fine-tuning, il che comporta un enorme sovraccarico computazionale, oppure impiegano strategie post-hoc statiche che trascurano la natura dinamica dell'emergere delle allucinazioni. Per affrontare questi problemi, introduciamo un nuovo framework di auto-ricompensa (self-rewarding) che abilita una mitigazione dinamica delle allucinazioni al momento dell'inferenza senza supervisione esterna. Sul versante empirico, riveliamo che l'allucinazione visiva presenta pattern dinamici fase-specifici, piccando all'inizio di ogni fase semantica. Basandoci su queste intuizioni, proponiamo il PSRD (Phase-wise **Self-Reward Decoding**) per la correzione online delle allucinazioni guidata da segnali di auto-ricompensa fase-specifici. Per ridurre il costo della ripetuta auto-valutazione durante il decoding, distilliamo il segnale di guida per l'allucinazione dagli LVLM in un modello di ricompensa leggero (lightweight reward model). Questo modello fornisce poi una guida in tempo reale per un intervento mirato durante il processo di decoding, consentendo una soppressione precisa delle allucinazioni. Il PSRD proposto riduce significativamente il tasso di allucinazione di LLaVA-1.5-7B del 50.0% e supera costantemente i metodi post-hoc esistenti su cinque benchmark di valutazione delle allucinazioni per quattro LVLM. Ulteriori analisi confermano che il PSRD mitiga efficacemente la propagazione delle allucinazioni e raggiunge un compromesso altamente controllabile tra prestazioni robuste ed efficienza inferenziale.

I Micro Modelli Linguistici Abilitano Risposte Istantanee
Micro Language Models Enable Instant Responses

Apr 21

ByWen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota

I dispositivi edge come smartwatch e occhiali intelligenti non possono eseguire continuamente nemmeno i più piccoli modelli linguistici da 100M-1B di parametri a causa dei vincoli di potenza e capacità computazionale, mentre l'inferenza cloud introduce latenze di diversi secondi che compromettono l'illusione di un assistente reattivo. Introduciamo i micro modelli linguistici (μLM): modelli ultra-compatti (8M-30M di parametri) che generano istantaneamente le prime 4-8 parole di una risposta contestualmente fondata sul dispositivo, mentre un modello cloud la completa, mascherando così la latenza cloud. Dimostriamo che la generazione linguistica utile sopravvive a questa scala estrema, con i nostri modelli che eguagliano le prestazioni di diversi modelli esistenti della classe 70M-256M. Progettiamo un framework di generazione collaborativa che riformula il modello cloud come un continuatore piuttosto che un risponditore, raggiungendo passaggi di consegna a metà frase senza soluzione di continuità e un recupero strutturato elegante tramite tre metodi di correzione degli errori quando l'apertura locale va male. I risultati empirici mostrano che i μLMs possono avviare risposte che modelli più grandi completano perfettamente, dimostrando che la collaborazione asimmetrica di ordini di grandezza è realizzabile e sbloccando l'IA reattiva per dispositivi estremamente limitati in risorse. Il checkpoint del modello e la demo sono disponibili all'indirizzo https://github.com/Sensente/micro_language_model_swen_project.

Prevedere numeri interi a partire da parametri continui
Predicting integers from continuous parameters

Apr 13

ByBas Maat, Peter Bloem

Studiamo il problema della previsione di etichette numeriche vincolate agli interi o a un sottoinsieme degli interi. Ad esempio, il numero di like su post dei social media, o il numero di biciclette disponibili in una stazione di noleggio pubblico. Sebbene sia possibile modellarli come valori continui e applicare la regressione tradizionale, questo approccio modifica la distribuzione sottostante delle etichette da discreta a continua. Le distribuzioni discrete presentano determinati vantaggi, il che ci porta a chiederci se tali etichette intere possano essere modellate direttamente da una distribuzione discreta, i cui parametri siano previsti a partire dalle caratteristiche di una determinata istanza. Inoltre, ci concentriamo sul caso d'uso delle distribuzioni di output delle reti neurali, il che aggiunge il requisito che i parametri della distribuzione siano continui, in modo che la retropropagazione e la discesa del gradiente possano essere utilizzate per apprendere i pesi della rete. Investigiamo diverse opzioni per tali distribuzioni, alcune esistenti e alcune nuove, e le testiamo su una serie di compiti, inclusi l'apprendimento su dati tabellari, la previsione sequenziale e la generazione di immagini. Rileviamo che, complessivamente, le migliori prestazioni provengono da due distribuzioni: Bitwise, che rappresenta l'intero target in bit e pone una distribuzione di Bernoulli su ciascuno di essi, e un analogo discreto della distribuzione di Laplace, che utilizza una distribuzione con code a decadimento esponenziale attorno a una media continua.

MoVE: Tradurre risate e lacrime tramite Mistura di Esperti di Vocalizzazione nella traduzione parlato-parlato
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

Apr 19

BySzu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee

I recenti sistemi di traduzione parlato-parlato (S2ST) raggiungono un'elevata accuratezza semantica, ma rimuovono sistematicamente le vocalizzazioni non verbali (NV), come risate e pianti che veicolano l'intento pragmatico, limitandone gravemente l'utilità pratica. Affrontiamo questo problema attraverso tre contributi. In primo luogo, proponiamo una pipeline di sintesi per costruire dataset espressivi scalabili al fine di superare la limitazione della scarsità di dati. In secondo luogo, proponiamo MoVE, un'architettura Mixture-of-LoRA-Experts con adattatori specializzati per l'espressività e un router a pesatura soft che combina gli esperti per catturare stati espressivi ibridi. In terzo luogo, dimostriamo che gli AudioLLM preaddestrati consentono una sorprendente efficienza dei dati: bastano 30 minuti di dati curati per ottenere prestazioni solide. Nella traduzione S2ST inglese-cinese, confrontandolo con baseline robuste, MoVE riproduce le NV target nel 76% dei casi e raggiunge la più alta naturalezza e fedeltà emotiva valutata dall'uomo tra tutti i sistemi confrontati, mentre i sistemi S2ST esistenti preservano al massimo il 14% delle NV.

La Penalità Cognitiva: L'Ablazione del Ragionamento Sistema 1 e Sistema 2 nei Modelli Linguistici di Piccole Dimensioni Edge-Native per il Consenso Decentralizzato
The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

Apr 18

BySyed Muhammad Aqdas Rizvi

Le organizzazioni autonome decentralizzate (DAO) mostrano una propensione ad esplorare i Small Language Model (SLM) come firewall costituzionali edge-native per vagliare le proposte e mitigare l'ingegneria sociale semantica. Sebbene il potenziamento della potenza di calcolo in fase di inferenza (Sistema 2) migliori la logica formale, la sua efficacia in ambienti di governance criptoeconomica altamente avversativi rimane poco esplorata. Per affrontare ciò, introduciamo Sentinel-Bench, un framework empirico da 840 inferenze che esegue una rigorosa ablazione intra-modello su Qwen-3.5-9B. Attivando e disattivando il ragionamento latente su pesi congelati, isoliamo l'impatto della potenza di calcolo in inferenza rispetto a un dataset avversativo di Optimism DAO. I nostri risultati rivelano una severa inversione calcolo-accuratezza. La baseline autoregressiva (Sistema 1) ha raggiunto il 100% di robustezza avversativa, il 100% di coerenza giuridica e la finalità di stato in meno di 13 secondi. Al contrario, il ragionamento del Sistema 2 ha introdotto un'instabilità catastrofica, guidata fondamentalmente da un tasso del 26,7% di Non Convergenza del Ragionamento (collasso cognitivo). Questo collasso ha degradato la stabilità del consenso prova-per-prova al 72,6% e ha imposto un sovraccarico di latenza di 17x, introducendo vulnerabilità critiche al Valore Estraibile dalla Governance (GEV) e alla centralizzazione hardware. Sebbene rari (1,5% delle prove avversative), abbiamo catturato empiricamente la "Sicofanzia Indotta dal Ragionamento", dove il modello generava monologhi interni significativamente più lunghi (in media 25.750 caratteri) per razionalizzare il fallimento della trappola avversativa. Concludiamo che per gli SLM edge-native operanti sotto i vincoli della Tolleranza ai Guasti Bizantini (BFT), l'intuizione parametrica del Sistema 1 è strutturalmente ed economicamente superiore alla deliberazione iterativa del Sistema 2 per il consenso decentralizzato. Codice e Dataset: https://github.com/smarizvi110/sentinel-bench

Il Ragionamento a Catena del Pensiero Degrada le Capacità di Ragionamento Spaziale Visivo nei Modelli Multimodali di LLM
Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Apr 17

BySai Srinivas Kancheti, Aditya Sanjiv Kanade, Vineeth N. Balasubramanian, Tanuja Ganu

I modelli di ragionamento multimodale (MRM) che sfruttano il ragionamento a catena del pensiero (CoT) hanno rivoluzionato la risoluzione di problemi matematici e logici. Tuttavia, dimostriamo che questo paradigma incontra difficoltà con l'intelligenza spaziale generalizzata. Eseguiamo una valutazione completa di diciassette modelli su tredici benchmark spaziali e identifichiamo un divario critico: il prompting CoT degrada sistematicamente le prestazioni nel ragionamento spaziale visivo. Inoltre, attraverso una nuova ablazione No-Image++, dimostriamo che gli MRM e i modelli linguistici multimodali (MLM) stimolati con CoT soffrono di un grave apprendimento di scorciatoie e allucinano dettagli visivi partendo da informazioni testuali preliminari, persino quando l'immagine è assente. Questi risultati mettono in discussione l'efficacia del CoT puramente testuale per compiti spaziali e sottolineano la necessità di paradigmi di ragionamento incentrati sulla visione.

Occhio della Mente: Un Benchmark di Astrazione Visiva, Trasformazione e Composizione per Modelli Linguistici Multimodali
Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Apr 17

ByRohit Sinha, Aditya Kanade, Sai Srinivas Kancheti, Vineeth N Balasubramanian, Tanuja Ganu

I modelli linguistici multimodali (MLLM) hanno ottenuto progressi impressionanti nei benchmark di linguaggio visivo, ma la loro capacità di ragionamento visivo-cognitivo e visuospaziale rimane meno compresa. Presentiamo "Mind's Eye", un benchmark a scelta multipla composto da otto compiti visuo-cognitivi ispirati a classici test di intelligenza umana e organizzati secondo una nuova tassonomia "A-R-T": Astrazione, Relazione e Trasformazione. I compiti indagano processi fondamentali dell'intelligenza fluida come l'induzione di pattern, il mapping di relazioni analogiche e la trasformazione mentale. Valutiamo una serie diversificata di MLLM open-source e proprietari e confrontiamo le loro prestazioni con quelle di partecipanti umani. Gli esseri umani raggiungono un'accuratezza dell'80%, mentre i migliori MLLM si attestano sotto il 50%. L'analisi degli errori rivale carenze in: (i) l'allocazione dell'attenzione visiva, (ii) la manipolazione percettiva interna, e (iii) la debole astrazione dei concetti visivi sottostanti. I nostri risultati suggeriscono che gli attuali MLLM mostrano capacità di ragionamento visuospaziale limitate rispetto ai partecipanti umani, evidenziando la necessità di framework di valutazione più ancorati alla cognizione.

SPRITE: Da Mockup Statici a Interfacce di Gioco Pronte per il Motore
SPRITE: From Static Mockups to Engine-Ready Game UI

Mar 18

ByYunshu Bai, RuiHao Li, Hao Zhang, Chien Her Lim, Ming Yan, Mengtian Li

L'implementazione dell'interfaccia utente di un gioco richiede la traduzione di mockup stilizzati in entità interattive all'interno del motore di gioco. Tuttavia, gli attuali strumenti "Screenshot-to-Code" spesso incontrano difficoltà con le geometrie irregolari e le gerarchie visive complesse tipiche delle interfacce di gioco. Per colmare questa lacuna, introduciamo SPRITE, una pipeline che trasforma screenshot statici in asset modificabili per il motore. Integrando modelli visione-linguaggio (VLM) con una rappresentazione intermedia strutturata in YAML, SPRITE cattura esplicitamente le relazioni complesse tra contenitori e i layout non rettangolari. Abbiamo valutato SPRITE rispetto a un benchmark curato di UI per giochi e condotto revisioni esperte con sviluppatori professionisti per valutarne la fedeltà di ricostruzione e l'efficienza nel prototipaggio. I nostri risultati dimostrano che SPRITE semplifica lo sviluppo automatizzando la codifica tediosa e risolvendo l'annidamento complesso degli elementi. Facilitando una rapida iterazione all'interno del motore, SPRITE offusca efficacemente i confini tra design artistico e implementazione tecnica nello sviluppo di giochi. Pagina del progetto: https://baiyunshu.github.io/sprite.github.io/