Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

ScreenCoder: Avanzamento nella Generazione da Visivo a Codice per l'Automazione Front-End tramite Agenti Multimodali Modulari
ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Jul 30, 2025

Yilei Jiang, Yaozhi Zheng, Yuxuan Wan, Jiaming Han, Qunzhong Wang, Michael R. Lyu, Xiangyu Yue

743

L'automazione della trasformazione dei progetti di interfaccia utente (UI) in codice front-end promette di accelerare significativamente lo sviluppo del software e di democratizzare i flussi di lavoro di progettazione. Sebbene i recenti modelli linguistici di grandi dimensioni (LLM) abbiano dimostrato progressi nella generazione di codice a partire da testo, molti approcci esistenti si basano esclusivamente su prompt in linguaggio naturale, limitando la loro efficacia nel catturare il layout spaziale e l'intento di progettazione visiva. Al contrario, lo sviluppo di UI nella pratica è intrinsecamente multimodale, spesso partendo da schizzi visivi o mockup. Per colmare questa lacuna, introduciamo un framework modulare multi-agente che esegue la generazione da UI a codice in tre fasi interpretabili: grounding, pianificazione e generazione. L'agente di grounding utilizza un modello visione-linguaggio per rilevare ed etichettare i componenti dell'interfaccia, l'agente di pianificazione costruisce un layout gerarchico utilizzando conoscenze pregresse di ingegneria front-end, e l'agente di generazione produce codice HTML/CSS tramite sintesi adattiva basata su prompt. Questo design migliora robustezza, interpretabilità e fedeltà rispetto ai metodi end-to-end a scatola chiusa. Inoltre, estendiamo il framework in un motore di dati scalabile che produce automaticamente coppie immagine-codice su larga scala. Utilizzando questi esempi sintetici, ottimizziamo e rafforziamo un modello visione-linguaggio open-source, ottenendo miglioramenti significativi nella comprensione dell'interfaccia e nella qualità del codice. Esperimenti estensivi dimostrano che il nostro approccio raggiunge prestazioni all'avanguardia in termini di accuratezza del layout, coerenza strutturale e correttezza del codice. Il nostro codice è reso disponibile pubblicamente all'indirizzo https://github.com/leigest519/ScreenCoder.

Falcon-H1: Una Famiglia di Modelli Linguistici a Testa Ibrida che Ridefinisce Efficienza e Prestazioni
Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

Jul 30, 2025

Jingwei Zuo, Maksim Velikanov, Ilyas Chahed, Younes Belkada, Dhia Eddine Rhayem, Guillaume Kunsch, Hakim Hacid, Hamza Yous, Brahim Farhat, Ibrahim Khadraoui, Mugariya Farooq, Giulia Campesan, Ruxandra Cojocaru, Yasser Djilali, Shi Hu, Iheb Chaabane, Puneesh Khanna, Mohamed El Amine Seddik, Ngoc Dung Huynh, Phuc Le Khac, Leen AlQadi, Billel Mokeddem, Mohamed Chami, Abdalgader Abubaker, Mikhail Lubinets, Kacper Piskorski, Slim Frikha

575

In questo rapporto, presentiamo Falcon-H1, una nuova serie di modelli linguistici di grandi dimensioni (LLM) caratterizzati da architetture ibride ottimizzate per alte prestazioni ed efficienza in un'ampia gamma di casi d'uso. A differenza dei precedenti modelli Falcon basati esclusivamente su architetture Transformer o Mamba, Falcon-H1 adotta un approccio ibrido parallelo che combina l'attenzione basata su Transformer con i Modelli a Spazio di Stato (SSM), noti per la loro superiore memoria a lungo contesto e l'efficienza computazionale. Abbiamo rivisitato in modo sistematico il design del modello, la strategia dei dati e le dinamiche di addestramento, mettendo in discussione le pratiche convenzionali del settore. Falcon-H1 viene rilasciato in multiple configurazioni, inclusi varianti di base e ottimizzate per istruzioni con 0,5B, 1,5B, 1,5B-deep, 3B, 7B e 34B di parametri. Sono disponibili anche modelli ottimizzati per istruzioni quantizzati, per un totale di oltre 30 checkpoint su Hugging Face Hub. I modelli Falcon-H1 dimostrano prestazioni all'avanguardia e un'eccellente efficienza in termini di parametri e addestramento. Il modello di punta Falcon-H1-34B eguaglia o supera modelli fino a 70B di scala, come Qwen3-32B, Qwen2.5-72B e Llama3.3-70B, utilizzando meno parametri e meno dati. I modelli più piccoli mostrano tendenze simili: Falcon-H1-1.5B-Deep rivaleggia con i migliori modelli attuali da 7B-10B, e Falcon-H1-0.5B si comporta in modo paragonabile ai tipici modelli da 7B del 2024. Questi modelli eccellono in ragionamento, matematica, compiti multilingue, seguimento di istruzioni e conoscenza scientifica. Con il supporto per fino a 256K token di contesto e 18 lingue, Falcon-H1 è adatto a un'ampia gamma di applicazioni. Tutti i modelli sono rilasciati con una licenza open-source permissiva, sottolineando il nostro impegno per una ricerca AI accessibile e di impatto.

BANG: Suddivisione di Asset 3D tramite Dinamiche Esplose Generative
BANG: Dividing 3D Assets via Generative Exploded Dynamics

Jul 29, 2025

Longwen Zhang, Qixuan Zhang, Haoran Jiang, Yinuo Bai, Wei Yang, Lan Xu, Jingyi Yu

543

La creazione 3D è sempre stata una capacità unica dell'essere umano, guidata dalla nostra abilità di scomporre e riassemblare oggetti utilizzando occhi, mente e mani. Tuttavia, gli attuali strumenti di progettazione 3D faticano a replicare questo processo naturale, richiedendo una notevole competenza artistica e lavoro manuale. Questo articolo introduce BANG, un approccio generativo innovativo che collega la generazione 3D e il ragionamento, consentendo una scomposizione intuitiva e flessibile degli oggetti 3D a livello di parti. Al centro di BANG c'è la "Dinamica Generativa Esplosa", che crea una sequenza fluida di stati esplosi per una geometria di input, separando progressivamente le parti preservandone la coerenza geometrica e semantica. BANG utilizza un modello di diffusione latente su larga scala pre-addestrato, ottimizzato per la dinamica esplosa con un adattatore leggero per le viste esplose, consentendo un controllo preciso sul processo di scomposizione. Incorpora inoltre un modulo di attenzione temporale per garantire transizioni fluide e coerenza nel tempo. BANG migliora il controllo con prompt spaziali, come bounding box e regioni superficiali, permettendo agli utenti di specificare quali parti scomporre e come. Questa interazione può essere estesa con modelli multimodali come GPT-4, abilitando manipolazioni da 2D a 3D per flussi di lavoro più intuitivi e creativi. Le capacità di BANG si estendono alla generazione di geometrie dettagliate a livello di parti, all'associazione di parti con descrizioni funzionali e alla facilitazione di flussi di lavoro di creazione e produzione 3D consapevoli dei componenti. Inoltre, BANG offre applicazioni nella stampa 3D, dove parti separabili vengono generate per una facile stampa e riassemblaggio. In sostanza, BANG consente una trasformazione senza soluzione di continuità da concetti immaginativi a risorse 3D dettagliate, offrendo una nuova prospettiva sulla creazione che risuona con l'intuizione umana.

VL-Cogito: Apprendimento per Rinforzo con Curriculum Progressivo per il Ragionamento Multimodale Avanzato
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning

Jul 30, 2025

Ruifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong

363

L'apprendimento per rinforzo ha dimostrato la sua efficacia nel potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni. Recenti sforzi di ricerca hanno progressivamente esteso questo paradigma a compiti di ragionamento multimodale. A causa della complessità intrinseca e della diversità dei compiti multimodali, specialmente nel contenuto semantico e nelle formulazioni dei problemi, i modelli esistenti spesso mostrano prestazioni instabili in vari domini e livelli di difficoltà. Per affrontare queste limitazioni, proponiamo VL-Cogito, un modello avanzato di ragionamento multimodale addestrato tramite un nuovo framework di apprendimento per rinforzo a curriculum progressivo multi-stadio (PCuRL). PCuRL guida sistematicamente il modello attraverso compiti di difficoltà gradualmente crescente, migliorando sostanzialmente le sue capacità di ragionamento in contesti multimodali diversi. Il framework introduce due innovazioni chiave: (1) un meccanismo di ponderazione soft della difficoltà online, che regola dinamicamente la difficoltà di addestramento attraverso le successive fasi di training RL; e (2) un meccanismo di ricompensa dinamica della lunghezza, che incoraggia il modello a regolare adattivamente la lunghezza del suo percorso di ragionamento in base alla complessità del compito, bilanciando così l'efficienza del ragionamento con la correttezza. Le valutazioni sperimentali dimostrano che VL-Cogito eguaglia o supera costantemente i modelli orientati al ragionamento esistenti su benchmark multimodali principali che spaziano dalla matematica, alla scienza, alla logica e alla comprensione generale, validando l'efficacia del nostro approccio.

MetaCLIP 2: Una Ricetta per il Ridimensionamento Globale
MetaCLIP 2: A Worldwide Scaling Recipe

Jul 29, 2025

Yung-Sung Chuang, Yang Li, Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih, Shang-Wen Li, Hu Xu

152

Il Contrastive Language-Image Pretraining (CLIP) è un modello di base molto diffuso, che supporta attività che vanno dalla classificazione zero-shot e il retrieval fino all'uso come encoder per modelli linguistici multimodali di grandi dimensioni (MLLMs). Sebbene CLIP sia stato addestrato con successo su miliardi di coppie immagine-testo provenienti dal mondo anglofono, scalare ulteriormente l'addestramento di CLIP per apprendere da dati provenienti dal web globale rimane una sfida: (1) non è disponibile un metodo di curatela per gestire i dati provenienti da contesti non anglofoni; (2) le prestazioni in inglese delle versioni multilingue esistenti di CLIP sono inferiori rispetto alla controparte esclusivamente in inglese, un fenomeno noto come "maledizione della multilinguità", comune anche nei modelli linguistici di grandi dimensioni (LLMs). Qui presentiamo MetaCLIP 2, la prima metodologia per addestrare CLIP da zero su coppie immagine-testo di scala web globale. Per generalizzare i nostri risultati, conduciamo rigorose ablazioni con modifiche minime necessarie per affrontare le suddette sfide e presentiamo una ricetta che consente benefici reciproci dai dati provenienti sia dal mondo anglofono che da quello non anglofono. Nella classificazione zero-shot su ImageNet, MetaCLIP 2 ViT-H/14 supera la sua controparte esclusivamente in inglese dello 0,8% e mSigLIP dello 0,7%, e sorprendentemente stabilisce nuovi record di stato dell'arte senza fattori confondenti a livello di sistema (ad esempio, traduzione, modifiche architetturali personalizzate) su benchmark multilingue, come CVQA con il 57,4%, Babel-ImageNet con il 50,2% e XM3600 con il 64,3% nel retrieval immagine-testo.

Il Passo 3 è Ampio ma Accessibile: Co-progettazione Modello-Sistema per un Decodificazione Efficace in Termini di Costi
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Jul 25, 2025

StepFun, Bin Wang, Bojun Wang, Changyi Wan, Guanzhe Huang, Hanpeng Hu, Haonan Jia, Hao Nie, Mingliang Li, Nuo Chen, Siyu Chen, Song Yuan, Wuxun Xie, Xiaoniu Song, Xing Chen, Xingping Yang, Xuelin Zhang, Yanbo Yu, Yaoyu Wang, Yibo Zhu, Yimin Jiang, Yu Zhou, Yuanwei Lu, Houyi Li, Jingcheng Hu, Ka Man Lo, Ailin Huang, Binxing Jiao, Bo Li, Boyu Chen, Changxin Miao, Chang Lou, Chen Hu, Chen Xu, Chenfeng Yu, Chengyuan Yao, Daokuan Lv, Dapeng Shi, Deshan Sun, Ding Huang, Dingyuan Hu, Dongqing Pang, Enle Liu, Fajie Zhang, Fanqi Wan, Gulin Yan, Han Zhang, Han Zhou, Hanghao Wu, Hangyu Guo, Hanqi Chen, Hanshan Zhang, Hao Wu, Haocheng Zhang, Haolong Yan, Haoran Lv, Haoran Wei, Hebin Zhou, Heng Wang, Heng Wang, Hongxin Li, Hongyu Zhou, Hongyuan Wang, Huiyong Guo, Jia Wang, Jiahao Gong, Jialing Xie, Jian Zhou, Jianjian Sun, Jiaoren Wu, Jiaran Zhang, Jiayu Liu, Jie Cheng, Jie Luo, Jie Yan, Jie Yang, Jieyi Hou, Jinguang Zhang, Jinlan Cao, Jisheng Yin, Junfeng Liu, Junhao Huang, Junzhe Lin, Kaijun Tan, Kaixiang Li, Kang An, Kangheng Lin, Kenkun Liu, Lei Yang, Liang Zhao, Liangyu Chen, Lieyu Shi, Liguo Tan, Lin Lin, Lin Zhang, Lina Chen, Liwen Huang, Liying Shi, Longlong Gu, Mei Chen, Mengqiang Ren, Ming Li, Mingzhe Chen, Na Wang, Nan Wu, Qi Han, Qian Zhao, Qiang Zhang, Qianni Liu, Qiaohui Chen, Qiling Wu, Qinglin He, Qinyuan Tan, Qiufeng Wang, Qiuping Wu, Qiuyan Liang, Quan Sun, Rui Li, Ruihang Miao, Ruosi Wan, Ruyan Guo, Shangwu Zhong, Shaoliang Pang, Shengjie Fan, Shijie Shang, Shilei Jiang, Shiliang Yang, Shiming Hao, Shuli Gao, Siming Huang, Siqi Liu, Tiancheng Cao, Tianhao Cheng, Tianhao Peng, Wang You, Wei Ji, Wen Sun, Wenjin Deng, Wenqing He, Wenzhen Zheng, Xi Chen, Xiangwen Kong, Xianzhen Luo, Xiaobo Yang, Xiaojia Liu, Xiaoxiao Ren, Xin Han, Xin Li, Xin Wu, Xu Zhao, Yanan Wei, Yang Li, Yangguang Li, Yangshijie Xu, Yanming Xu, Yaqiang Shi, Yeqing Shen, Yi Yang, Yifei Yang, Yifeng Gong, Yihan Chen, Yijing Yang, Yinmin Zhang, Yizhuang Zhou, Yuanhao Ding, Yuantao Fan, Yuanzhen Yang, Yuchu Luo, Yue Peng, Yufan Lu, Yuhang Deng, Yuhe Yin, Yujie Liu, Yukun Chen, Yuling Zhao, Yun Mou, Yunlong Li, Yunzhou Ju, Yusheng Li, Yuxiang Yang, Yuxiang Zhang, Yuyang Chen, Zejia Weng, Zhe Xie, Zheng Ge, Zheng Gong, Zhenyi Lu, Zhewei Huang, Zhichao Chang, Zhiguo Huang, Zhirui Wang, Zidong Yang, Zili Wang, Ziqi Wang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Heung-Yeung Shum, Xiangyu Zhang

152

I grandi modelli linguistici (LLM) affrontano una bassa efficienza hardware durante la decodifica, specialmente per compiti di ragionamento a contesto lungo. Questo articolo introduce Step-3, un modello VLM da 321 miliardi di parametri con una co-progettazione hardware-aware ottimizzata per minimizzare i costi di decodifica. Step-3 innova in due dimensioni chiave: (1) Un nuovo meccanismo di attenzione a fattorizzazione multi-matrice (MFA) che riduce significativamente sia la dimensione della cache KV che il calcolo, mantenendo un'elevata espressività dell'attenzione, e (2) la Disaggregazione Attenzione-FFN (AFD), un sistema di inferenza distribuito che separa i livelli di attenzione e la rete Feed-Forward (FFN) in sottosistemi specializzati. Questa co-progettazione raggiunge un'efficienza di costo senza precedenti: Step-3 riduce significativamente i costi teorici di decodifica rispetto a modelli come DeepSeek-V3 e Qwen3 MoE 235B, con guadagni che aumentano con contesti più lunghi. Step-3 ottiene bassi costi attivando 38 miliardi di parametri per token (più di DeepSeek-V3 e Qwen3 MoE 235B), dimostrando che l'intensità aritmetica dell'attenzione allineata all'hardware, la sparsità MoE e l'AFD sono critici per la convenienza. Eseguiamo un confronto diretto con DeepSeek-V3 nei suoi scenari favorevoli. La nostra implementazione su GPU Hopper raggiunge una velocità di decodifica fino a 4.039 token al secondo per GPU sotto un SLA TPOT di 50ms (contesto 4K, FP8, no MTP). È superiore ai 2.324 di DeepSeek-V3 nella stessa configurazione e stabilisce una nuova frontiera di Pareto per la decodifica LLM.

Adattamento di rilevatori di veicoli per immagini aeree a domini non visti con supervisione debole
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

Jul 28, 2025

Xiao Fang, Minhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre

103

Il rilevamento di veicoli nelle immagini aeree è un compito cruciale con applicazioni nel monitoraggio del traffico, nella pianificazione urbana e nell'intelligence difensiva. I metodi di deep learning hanno fornito risultati all'avanguardia (SOTA) per questa applicazione. Tuttavia, una sfida significativa si presenta quando i modelli addestrati su dati provenienti da una regione geografica non riescono a generalizzare efficacemente ad altre aree. La variabilità di fattori come le condizioni ambientali, la disposizione urbana, le reti stradali, i tipi di veicoli e i parametri di acquisizione delle immagini (ad esempio, risoluzione, illuminazione e angolazione) porta a cambiamenti di dominio che degradano le prestazioni del modello. Questo articolo propone un metodo innovativo che utilizza l'IA generativa per sintetizzare immagini aeree di alta qualità e le relative etichette, migliorando l'addestramento dei rilevatori attraverso l'aumento dei dati. Il nostro contributo chiave è lo sviluppo di un framework di trasferimento di conoscenza multi-stadio e multi-modale che utilizza modelli di diffusione latente (LDMs) ottimizzati per mitigare il divario di distribuzione tra l'ambiente di origine e quello di destinazione. Esperimenti estesi su diversi domini di immagini aeree mostrano miglioramenti consistenti nelle prestazioni in AP50 rispetto all'apprendimento supervisionato sui dati del dominio di origine, ai metodi di adattamento debolmente supervisionati, ai metodi di adattamento di dominio non supervisionati e ai rilevatori di oggetti a insieme aperto, rispettivamente del 4-23%, 6-10%, 7-40% e oltre il 50%. Inoltre, introduciamo due nuovi dataset aerei annotati provenienti dalla Nuova Zelanda e dallo Utah per supportare ulteriori ricerche in questo campo. La pagina del progetto è disponibile all'indirizzo: https://humansensinglab.github.io/AGenDA

MixGRPO: Sbloccare l'efficienza di GRPO basato su flussi con ODE-SDE misto
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Jul 29, 2025

Junzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong

Sebbene GRPO migliori sostanzialmente i modelli di flow matching nell'allineamento delle preferenze umane per la generazione di immagini, metodi come FlowGRPO mostrano ancora inefficienze a causa della necessità di campionare e ottimizzare su tutti i passi di denoising specificati dal Processo Decisionale di Markov (MDP). In questo articolo, proponiamo MixGRPO, un nuovo framework che sfrutta la flessibilità delle strategie di campionamento misto attraverso l'integrazione di equazioni differenziali stocastiche (SDE) e equazioni differenziali ordinarie (ODE). Ciò semplifica il processo di ottimizzazione all'interno dell'MDP per migliorare l'efficienza e aumentare le prestazioni. Nello specifico, MixGRPO introduce un meccanismo a finestra scorrevole, utilizzando il campionamento SDE e l'ottimizzazione guidata da GRPO solo all'interno della finestra, mentre applica il campionamento ODE all'esterno. Questo design confina la casualità del campionamento ai passi temporali all'interno della finestra, riducendo così il sovraccarico di ottimizzazione e consentendo aggiornamenti del gradiente più mirati per accelerare la convergenza. Inoltre, poiché i passi temporali oltre la finestra scorrevole non sono coinvolti nell'ottimizzazione, sono supportati risolutori di ordine superiore per il campionamento. Presentiamo quindi una variante più veloce, denominata MixGRPO-Flash, che migliora ulteriormente l'efficienza dell'addestramento mantenendo prestazioni comparabili. MixGRPO mostra guadagni sostanziali in molteplici dimensioni dell'allineamento delle preferenze umane, superando DanceGRPO sia in efficacia che in efficienza, con un tempo di addestramento ridotto di quasi il 50%. In particolare, MixGRPO-Flash riduce ulteriormente il tempo di addestramento del 71%. Codici e modelli sono disponibili su https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.

Verso Espressioni e Ragionamento OmnimoDali nella Segmentazione Audio-Visiva di Riferimento
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

Jul 30, 2025

Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang

La segmentazione audio-visiva riferita (RAVS) ha recentemente registrato progressi significativi, ma permangono sfide nell'integrazione di informazioni multimodali e nella comprensione e ragionamento approfonditi sui contenuti audiovisivi. Per estendere i confini della RAVS e facilitare la ricerca futura in questo campo, proponiamo Omnimodal Referring Audio-Visual Segmentation (OmniAVS), un nuovo dataset contenente 2.098 video e 59.458 espressioni riferite multimodali. OmniAVS si distingue per tre innovazioni chiave: (1) 8 tipi di espressioni multimodali che combinano in modo flessibile testo, parlato, suono e segnali visivi; (2) un'enfasi sulla comprensione del contenuto audio oltre alla semplice rilevazione della sua presenza; e (3) l'inclusione di ragionamenti complessi e conoscenze del mondo nelle espressioni. Inoltre, introduciamo Omnimodal Instructed Segmentation Assistant (OISA), per affrontare le sfide del ragionamento multimodale e della comprensione fine dei contenuti audiovisivi in OmniAVS. OISA utilizza MLLM per comprendere segnali complessi ed eseguire segmentazioni basate sul ragionamento. Esperimenti estensivi dimostrano che OISA supera i metodi esistenti su OmniAVS e ottiene risultati competitivi su altre attività correlate.

Repair-R1: Testare Meglio Prima di Riparare
Repair-R1: Better Test Before Repair

Jul 30, 2025

Haichuan Hu, Xiaochen Xie, Quanjun Zhang

APR (Automated Program Repair) mira a individuare automaticamente i difetti nei programmi, generare patch e convalidare le riparazioni. Le tecniche esistenti per l'APR sono spesso combinate con LLM (Large Language Models), sfruttando la conoscenza relativa al codice degli LLM per migliorare l'efficacia della riparazione. I metodi attuali di APR basati su LLM utilizzano tipicamente i casi di test solo durante la fase di inferenza, adottando un approccio iterativo che esegue prima la riparazione e la convalida successivamente attraverso l'esecuzione dei test. Questo paradigma convenzionale trascura due aspetti importanti: il potenziale contributo dei casi di test nella fase di addestramento e la possibilità di sfruttare i test prima della riparazione. Per affrontare questo problema, proponiamo Repair-R1, che introduce i casi di test nella fase di addestramento del modello e sposta la generazione dei test prima della riparazione. Il modello è tenuto a generare prima casi di test discriminativi in grado di distinguere i comportamenti difettosi, e poi eseguire la riparazione basandosi su questi test. Ciò consente al modello di individuare meglio i difetti e comprendere le cause sottostanti, migliorando così l'efficacia della riparazione. Implementiamo Repair-R1 con tre diversi modelli di base, utilizzando RL (reinforcement learning) per co-ottimizzare la generazione dei test e la riparazione dei bug. I risultati sperimentali su quattro benchmark ampiamente adottati dimostrano la superiorità di Repair-R1. In particolare, rispetto ai modelli standard, Repair-R1 migliora il tasso di successo della riparazione dal 2,68% al 48,29%, il tasso di successo nella generazione dei test dal 16,38% al 53,28% e la copertura dei test dallo 0,78% al 53,96%. Pubblichiamo il codice e i pesi su https://github.com/Tomsawyerhu/APR-RL e https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.

Fine-Tuning Efficiente con Differenziazione Privata di LLM tramite Apprendimento per Rinforzo
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning

Jul 30, 2025

Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen

La tensione tra privacy dei dati e utilità del modello è diventata il collo di bottiglia determinante per l'implementazione pratica di grandi modelli linguistici (LLM) addestrati su corpora sensibili, inclusi quelli sanitari. La discesa del gradiente stocastica con privacy differenziale (DP-SGD) garantisce una privacy formale, ma lo fa a un costo significativo: i gradienti vengono forzatamente troncati e perturbati con rumore, degradando l'efficienza campionaria e l'accuratezza finale. Sono state proposte numerose varianti per mitigare questo compromesso, ma tutte condividono un limite: i loro parametri di controllo sono predefiniti, globali e indifferenti al panorama di ottimizzazione in evoluzione. Di conseguenza, i professionisti sono costretti a spendere eccessivamente il budget di privacy in cerca di utilità, oppure ad accettare modelli mediocri per rimanere entro i vincoli di privacy. Presentiamo RLDP, il primo framework che trasforma l'ottimizzazione DP stessa in un problema di controllo a ciclo chiuso adatto al moderno apprendimento per rinforzo profondo (RL). RLDP percepisce continuamente statistiche dettagliate delle dinamiche di apprendimento e agisce selezionando soglie di troncamento del gradiente granulari per parametro, nonché l'entità del rumore gaussiano iniettato. Una politica iper-parametrizzata soft actor-critic (SAC) viene addestrata online durante il fine-tuning del modello linguistico; essa impara, da zero, come allocare il budget di privacy dove e quando è necessario. Attraverso più di 1.600 esperimenti di ablazione su GPT2-small, Llama-1B, Llama-3B e Mistral-7B, RLDP ottiene riduzioni della perplessità comprese tra 1,3% e 30,5% (media 5,4%) e un guadagno medio di utilità a valle del 5,6%. RLDP raggiunge l'utilità finale di ciascun baseline dopo solo il 13-43% del budget di aggiornamento del gradiente (accelerazione media del 71%), rispettando lo stesso contratto (epsilon, delta)-DP e mostrando una suscettibilità uguale o inferiore agli attacchi di inferenza di appartenenza e di estrazione di canarini.

DreamScene: Generazione End-to-end di Scene 3D da Testo basata su Gaussiane 3D
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation

Jul 18, 2025

Haoran Li, Yuli Tian, Kun Lan, Yong Liao, Lin Wang, Pan Hui, Peng Yuan Zhou

La generazione di scene 3D a partire da linguaggio naturale rappresenta una promessa significativa per applicazioni nel gaming, nel cinema e nel design. Tuttavia, i metodi esistenti incontrano difficoltà in termini di automazione, coerenza 3D e controllo fine. Presentiamo DreamScene, un framework end-to-end per la generazione di scene 3D di alta qualità e modificabili a partire da testo o dialogo. DreamScene inizia con un modulo di pianificazione della scena, in cui un agente GPT-4 deduce la semantica degli oggetti e i vincoli spaziali per costruire un grafo ibrido. Un algoritmo di posizionamento basato su grafo produce quindi un layout strutturato e privo di collisioni. Basandosi su questo layout, il Campionamento del Modello di Formazione (FPS) genera la geometria degli oggetti utilizzando un campionamento multi-timestep e un'ottimizzazione ricostruttiva, consentendo una sintesi rapida e realistica. Per garantire una coerenza globale, DreamScene impiega una strategia di campionamento progressivo della fotocamera, adattata sia per ambienti interni che esterni. Infine, il sistema supporta modifiche fini della scena, inclusi lo spostamento degli oggetti, i cambiamenti di aspetto e il movimento dinamico 4D. Gli esperimenti dimostrano che DreamScene supera i metodi precedenti in termini di qualità, coerenza e flessibilità, offrendo una soluzione pratica per la creazione di contenuti 3D in domini aperti. Codice e demo sono disponibili all'indirizzo https://jahnsonblack.github.io/DreamScene-Full/.

Il Passo 3 è Ampio ma Accessibile: Co-progettazione Modello-Sistema per un Decodificazione Efficace in Termini di Costi
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Jul 25, 2025

152

Paper Giornalieri

ScreenCoder: Avanzamento nella Generazione da Visivo a Codice per l'Automazione Front-End tramite Agenti Multimodali Modulari
ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Falcon-H1: Una Famiglia di Modelli Linguistici a Testa Ibrida che Ridefinisce Efficienza e Prestazioni
Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

BANG: Suddivisione di Asset 3D tramite Dinamiche Esplose Generative
BANG: Dividing 3D Assets via Generative Exploded Dynamics

VL-Cogito: Apprendimento per Rinforzo con Curriculum Progressivo per il Ragionamento Multimodale Avanzato
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning

MetaCLIP 2: Una Ricetta per il Ridimensionamento Globale
MetaCLIP 2: A Worldwide Scaling Recipe

Il Passo 3 è Ampio ma Accessibile: Co-progettazione Modello-Sistema per un Decodificazione Efficace in Termini di Costi
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Adattamento di rilevatori di veicoli per immagini aeree a domini non visti con supervisione debole
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

MixGRPO: Sbloccare l'efficienza di GRPO basato su flussi con ODE-SDE misto
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Verso Espressioni e Ragionamento OmnimoDali nella Segmentazione Audio-Visiva di Riferimento
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

Repair-R1: Testare Meglio Prima di Riparare
Repair-R1: Better Test Before Repair

Fine-Tuning Efficiente con Differenziazione Privata di LLM tramite Apprendimento per Rinforzo
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning

DreamScene: Generazione End-to-end di Scene 3D da Testo basata su Gaussiane 3D
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation

Support

Support

Paper Giornalieri

ScreenCoder: Avanzamento nella Generazione da Visivo a Codice per l'Automazione Front-End tramite Agenti Multimodali Modulari
ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Falcon-H1: Una Famiglia di Modelli Linguistici a Testa Ibrida che Ridefinisce Efficienza e Prestazioni
Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance

BANG: Suddivisione di Asset 3D tramite Dinamiche Esplose Generative
BANG: Dividing 3D Assets via Generative Exploded Dynamics

VL-Cogito: Apprendimento per Rinforzo con Curriculum Progressivo per il Ragionamento Multimodale Avanzato
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning

MetaCLIP 2: Una Ricetta per il Ridimensionamento Globale
MetaCLIP 2: A Worldwide Scaling Recipe

Il Passo 3 è Ampio ma Accessibile: Co-progettazione Modello-Sistema per un Decodificazione Efficace in Termini di Costi
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Adattamento di rilevatori di veicoli per immagini aeree a domini non visti con supervisione debole
Adapting Vehicle Detectors for Aerial Imagery to Unseen Domains with Weak Supervision

MixGRPO: Sbloccare l'efficienza di GRPO basato su flussi con ODE-SDE misto
MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Verso Espressioni e Ragionamento OmnimoDali nella Segmentazione Audio-Visiva di Riferimento
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

Repair-R1: Testare Meglio Prima di Riparare
Repair-R1: Better Test Before Repair

Fine-Tuning Efficiente con Differenziazione Privata di LLM tramite Apprendimento per Rinforzo
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning

DreamScene: Generazione End-to-end di Scene 3D da Testo basata su Gaussiane 3D
DreamScene: 3D Gaussian-based End-to-end Text-to-3D Scene Generation