Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Mind2Web 2: Valutazione della ricerca agentica con Agente-come-Giudice
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Jun 26, 2025

Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su

451

La ricerca agentiva, come i sistemi Deep Research, in cui i modelli linguistici di grandi dimensioni navigano autonomamente sul web, sintetizzano informazioni e restituiscono risposte complete supportate da citazioni, rappresenta un cambiamento significativo nel modo in cui gli utenti interagiscono con le informazioni su scala web. Sebbene prometta una maggiore efficienza e uno scarico cognitivo, la crescente complessità e apertura della ricerca agentiva ha superato i benchmark e le metodologie di valutazione esistenti, che presuppongono principalmente orizzonti di ricerca brevi e risposte statiche. In questo articolo, introduciamo Mind2Web 2, un benchmark di 130 task realistici, di alta qualità e a lungo termine che richiedono la navigazione web in tempo reale e un'ampia sintesi di informazioni, costruito con oltre 1.000 ore di lavoro umano. Per affrontare la sfida della valutazione di risposte complesse e variabili nel tempo, proponiamo un nuovo framework Agent-as-a-Judge. Il nostro metodo costruisce giudici agenti specifici per task basati su un design di rubriche strutturate ad albero per valutare automaticamente sia la correttezza delle risposte che l'attribuzione delle fonti. Conduciamo una valutazione completa di nove sistemi di ricerca agentiva all'avanguardia e delle prestazioni umane, insieme a un'analisi dettagliata degli errori per trarre spunti per lo sviluppo futuro. Il sistema con le migliori prestazioni, OpenAI Deep Research, può già raggiungere il 50-70% delle prestazioni umane impiegando la metà del tempo, mostrando un grande potenziale. Nel complesso, Mind2Web 2 fornisce una base rigorosa per lo sviluppo e il benchmarking della prossima generazione di sistemi di ricerca agentiva.

FaSTA^: Agente per Percorsi Utensili Veloce-Lento con Estrazione di Sottoprocedure per un'Editing Efficace di Immagini a Più Passaggi
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

Jun 26, 2025

Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou

392

Sviluppiamo un agente neurosimbolico a basso costo per affrontare complesse attività di editing di immagini multi-turn, come "Rileva la panchina nell'immagine e ricolorala di rosa. Inoltre, rimuovi il gatto per una visione più chiara e ricolora il muro di giallo." Questo agente combina la pianificazione rapida e di alto livello dei sottocompiti da parte di modelli linguistici di grandi dimensioni (LLM) con l'uso lento, accurato e mirato di strumenti e la ricerca locale A^* per sottocompito, al fine di trovare un percorso strumentale a basso costo — una sequenza di chiamate a strumenti di intelligenza artificiale. Per ridurre il costo della ricerca A^* su sottocompiti simili, eseguiamo un ragionamento induttivo sui percorsi strumentali precedentemente riusciti tramite LLM, estraendo e perfezionando continuamente subroutine utilizzate frequentemente e riutilizzandole come nuovi strumenti per compiti futuri in una pianificazione adattiva veloce-lenta, in cui le subroutine di livello superiore vengono esplorate per prime, e solo quando falliscono, viene attivata la ricerca A^* di livello inferiore. Le subroutine simboliche riutilizzabili riducono notevolmente il costo di esplorazione per gli stessi tipi di sottocompiti applicati a immagini simili, dando vita a un agente di percorso strumentale veloce-lento "FaSTA^*" simile all'uomo: la pianificazione rapida dei sottocompiti seguita dalla selezione di subroutine basata su regole per sottocompito viene tentata inizialmente dagli LLM, che si prevede coprano la maggior parte dei compiti, mentre la ricerca lenta A^* viene attivata solo per sottocompiti nuovi e complessi. Confrontandoci con recenti approcci di editing di immagini, dimostriamo che FaSTA^* è significativamente più efficiente dal punto di vista computazionale, pur rimanendo competitivo con lo stato dell'arte in termini di tasso di successo.

WorldVLA: Verso un Modello Mondiale Autoregressivo per le Azioni
WorldVLA: Towards Autoregressive Action World Model

Jun 26, 2025

Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen

363

Presentiamo WorldVLA, un modello autoregressivo del mondo delle azioni che unisce la comprensione e la generazione di azioni e immagini. Il nostro WorldVLA integra un modello Vision-Language-Action (VLA) e un modello del mondo in un unico framework. Il modello del mondo prevede immagini future sfruttando sia la comprensione delle azioni che delle immagini, con l'obiettivo di apprendere la fisica sottostante dell'ambiente per migliorare la generazione delle azioni. Nel frattempo, il modello delle azioni genera le azioni successive basandosi sulle osservazioni delle immagini, contribuendo alla comprensione visiva e, a sua volta, aiutando la generazione visiva del modello del mondo. Dimostriamo che WorldVLA supera i modelli di azione e del mondo separati, evidenziando il reciproco potenziamento tra il modello del mondo e il modello delle azioni. Inoltre, osserviamo che le prestazioni del modello delle azioni si deteriorano quando si generano sequenze di azioni in modo autoregressivo. Questo fenomeno può essere attribuito alla limitata capacità di generalizzazione del modello nella previsione delle azioni, che porta alla propagazione degli errori dalle azioni precedenti a quelle successive. Per affrontare questo problema, proponiamo una strategia di mascheramento dell'attenzione che selettivamente maschera le azioni precedenti durante la generazione dell'azione corrente, dimostrando un significativo miglioramento delle prestazioni nel compito di generazione di blocchi di azioni.

MADrive: Modellazione delle Scene di Guida con Memoria Aumentata
MADrive: Memory-Augmented Driving Scene Modeling

Jun 26, 2025

Polina Karpikova, Daniil Selikhanovych, Kirill Struminsky, Ruslan Musaev, Maria Golitsyna, Dmitry Baranchuk

351

I recenti progressi nella ricostruzione di scene hanno spinto verso una modellazione altamente realistica degli ambienti di guida autonoma (AD) utilizzando lo splatting 3D con gaussiane. Tuttavia, le ricostruzioni risultanti rimangono strettamente legate alle osservazioni originali e faticano a supportare la sintesi fotorealistica di scenari di guida significativamente alterati o nuovi. Questo lavoro introduce MADrive, un framework di ricostruzione aumentato dalla memoria progettato per estendere le capacità dei metodi esistenti di ricostruzione di scene, sostituendo i veicoli osservati con asset 3D visivamente simili recuperati da un ampio archivio di memoria esterno. Nello specifico, rilasciamo MAD-Cars, un dataset curato di circa 70.000 video a 360° di automobili catturati in ambienti reali, e presentiamo un modulo di recupero che individua le istanze di auto più simili nell'archivio di memoria, ricostruisce i corrispondenti asset 3D dai video e li integra nella scena target attraverso l'allineamento dell'orientamento e il reilluminamento. Le sostituzioni risultanti forniscono rappresentazioni complete a più viste dei veicoli nella scena, consentendo la sintesi fotorealistica di configurazioni sostanzialmente alterate, come dimostrato nei nostri esperimenti. Pagina del progetto: https://yandex-research.github.io/madrive/

Dove trovare il Grokking nel Pretraining dei Modelli Linguistici? Monitorare la Transizione da Memorizzazione a Generalizzazione senza Test
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Jun 26, 2025

Ziyue Li, Chenrui Fan, Tianyi Zhou

262

Grokking, ovvero il miglioramento continuo delle prestazioni sui test molto tempo dopo la convergenza della loss di addestramento, è stato recentemente osservato nell'addestramento di reti neurali, rendendo misteriosi i meccanismi di generalizzazione e altre capacità emergenti come il ragionamento. Mentre gli studi precedenti addestrano solitamente modelli di piccole dimensioni su pochi compiti giocattolo o altamente specifici per migliaia di epoche, noi conduciamo il primo studio sul grokking utilizzando checkpoint durante il pretraining in un'unica passata di un modello linguistico di grandi dimensioni (LLM) da 7B, ovvero OLMoE. Calcoliamo la loss di addestramento e valutiamo la generalizzazione su una varietà di benchmark, tra cui ragionamento matematico, generazione di codice e compiti di recupero di conoscenza di senso comune o specifica di dominio. Il nostro studio, per la prima volta, verifica che il grokking si verifica ancora durante il pretraining di modelli di fondazione su larga scala, sebbene diversi dati possano entrare nelle fasi di grokking in modo asincrono. Demistifichiamo ulteriormente l'"emergenza della generalizzazione" del grokking investigando le dinamiche interne degli LLM. In particolare, scopriamo che i percorsi dei campioni di addestramento (ovvero, le scelte degli esperti attraverso i livelli) evolvono da casuali e specifici per l'istanza a più strutturati e condivisibili tra i campioni durante il grokking. Inoltre, la complessità del percorso di un campione si riduce nonostante la loss convergente. Questi risultati indicano una conversione da memorizzazione a generalizzazione, fornendo una spiegazione meccanicistica della generalizzazione ritardata. Nello studio, sviluppiamo due nuove metriche per quantificare la distanza dei percorsi e la complessità di un singolo percorso. Dimostriamo la loro capacità di prevedere il miglioramento della generalizzazione su una varietà di compiti downstream. Sono efficienti, semplici da calcolare e dipendono esclusivamente dai dati di addestramento. Pertanto, hanno un valore pratico per il pretraining, permettendoci di monitorare le prestazioni di generalizzazione senza fine-tuning e test. Teoricamente, dimostriamo che percorsi più strutturati riducono la complessità del modello e migliorano il limite di generalizzazione.

Imparare a saltare gli strati intermedi dei Transformer
Learning to Skip the Middle Layers of Transformers

Jun 26, 2025

Tim Lawson, Laurence Aitchison

163

La computazione condizionale è una strategia popolare per rendere i Transformer più efficienti. I metodi esistenti spesso prendono di mira singoli moduli (ad esempio, strati di mixture-of-experts) o saltano strati in modo indipendente l'uno dall'altro. Tuttavia, la ricerca sull'interpretabilità ha dimostrato che gli strati intermedi dei Transformer presentano una maggiore ridondanza e che gli strati iniziali aggregrano informazioni nelle posizioni dei token. Guidati da queste intuizioni, proponiamo una nuova architettura che salta dinamicamente un numero variabile di strati partendo dal centro verso l'esterno. In particolare, un meccanismo di gate appreso determina se bypassare un intervallo simmetrico di blocchi centrali in base all'input, e un meccanismo di attenzione gated impedisce ai token successivi di prestare attenzione alle posizioni dei token saltate. Le norme residue sono controllate con uno schema 'sandwich' o 'perilayernorm' e la sparsità dei gate con una perdita di regolarizzazione adattativa. Avevamo l'obiettivo di ridurre i requisiti computazionali per token 'più semplici' e potenzialmente favorire una gerarchia rappresentativa multi-livello emergente, ma, alle scale investigate, il nostro approccio non raggiunge miglioramenti nel compromesso tra entropia incrociata di validazione e FLOPs stimati rispetto a baseline dense con meno strati. Rilasciamo il nostro codice su https://github.com/tim-lawson/skip-middle.

SAM4D: Segmentazione di Oggetti in Flussi di Dati da Fotocamera e LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

Jun 26, 2025

Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li

141

Presentiamo SAM4D, un modello fondazionale multi-modale e temporale progettato per la segmentazione promptabile su flussi di dati provenienti da telecamere e LiDAR. Introduciamo l'Unified Multi-modal Positional Encoding (UMPE) per allineare le caratteristiche di telecamera e LiDAR in uno spazio 3D condiviso, consentendo un'interazione e un prompting cross-modale senza soluzione di continuità. Inoltre, proponiamo il Motion-aware Cross-modal Memory Attention (MCMA), che sfrutta la compensazione del moto ego per migliorare la coerenza temporale e il recupero di caratteristiche a lungo termine, garantendo una segmentazione robusta in scenari di guida autonoma in continua evoluzione. Per evitare colli di bottiglia nell'annotazione, sviluppiamo un motore di dati automatizzato multi-modale che sinergizza video masklet guidati da VFM, ricostruzione spaziotemporale 4D e fusione cross-modale di masklet. Questo framework genera pseudo-etichette allineate tra telecamera e LiDAR a una velocità di ordini di grandezza superiore rispetto all'annotazione umana, preservando la fedeltà semantica derivata da VFM nelle rappresentazioni di point cloud. Condividiamo esperimenti estesi su Waymo-4DSeg, che dimostrano la potente capacità di segmentazione cross-modale e il grande potenziale nell'annotazione dati di SAM4D.

Previsione Video Egocentrica Condizionata a Corpo Intero
Whole-Body Conditioned Egocentric Video Prediction

Jun 26, 2025

Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik

101

Addestriamo modelli per Prevedere Video Ego-centrici dalle Azioni Umane (PEVA), dati il video passato e un'azione rappresentata dalla posa corporea 3D relativa. Condizionando sulle traiettorie cinematiche della posa, strutturate dalla gerarchia articolare del corpo, il nostro modello impara a simulare come le azioni fisiche umane modellano l'ambiente da un punto di vista in prima persona. Addestriamo un trasformatore diffusivo condizionale auto-regressivo su Nymeria, un dataset su larga scala di video ego-centrici e acquisizione di pose corporee del mondo reale. Progettiamo inoltre un protocollo di valutazione gerarchico con compiti progressivamente più impegnativi, consentendo un'analisi completa delle capacità di previsione e controllo incarnato del modello. Il nostro lavoro rappresenta un primo tentativo di affrontare le sfide della modellazione di ambienti complessi del mondo reale e dei comportamenti degli agenti incarnati con la previsione video dal punto di vista di un essere umano.

PhysRig: Framework Differenziabile per lo Skinning e il Rigging Basato sulla Fisica per la Modellazione Realistica di Oggetti Articolati
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Jun 26, 2025

Hao Zhang, Haolan Xu, Chun Feng, Varun Jampani, Narendra Ahuja

102

Lo skinning e il rigging sono componenti fondamentali nell'animazione, nella ricostruzione di oggetti articolati, nel trasferimento di movimento e nella generazione 4D. Gli approcci esistenti si basano principalmente sul Linear Blend Skinning (LBS), grazie alla sua semplicità e differenziabilità. Tuttavia, il LBS introduce artefatti come la perdita di volume e deformazioni innaturali, e non riesce a modellare materiali elastici come tessuti molli, pelliccia e appendici flessibili (ad esempio, proboscidi di elefanti, orecchie e tessuti adiposi). In questo lavoro, proponiamo PhysRig: un framework differenziabile di skinning e rigging basato sulla fisica che supera queste limitazioni incorporando lo scheletro rigido in una rappresentazione volumetrica (ad esempio, una mesh tetraedrica), che viene simulata come una struttura deformabile di corpo morbido guidata dallo scheletro animato. Il nostro metodo sfrutta la meccanica dei continui e discretizza l'oggetto come particelle incorporate in una griglia di fondo Euleriana per garantire la differenziabilità rispetto sia alle proprietà del materiale che al movimento scheletrico. Inoltre, introduciamo prototipi di materiali, riducendo significativamente lo spazio di apprendimento mantenendo un'elevata espressività. Per valutare il nostro framework, costruiamo un dataset sintetico completo utilizzando mesh da Objaverse, The Amazing Animals Zoo e MixaMo, coprendo diverse categorie di oggetti e pattern di movimento. Il nostro metodo supera costantemente gli approcci tradizionali basati su LBS, generando risultati più realistici e fisicamente plausibili. Inoltre, dimostriamo l'applicabilità del nostro framework nel compito di trasferimento di pose, evidenziando la sua versatilità per la modellazione di oggetti articolati.

Arch-Router: Allineamento del Routing di LLM con le Preferenze Umane
Arch-Router: Aligning LLM Routing with Human Preferences

Jun 19, 2025

Co Tran, Salman Paracha, Adil Hafeez, Shuguang Chen

Con la rapida proliferazione di modelli linguistici di grandi dimensioni (LLM) -- ciascuno ottimizzato per punti di forza, stile o profili di latenza/costo diversi -- il routing è diventato una tecnica essenziale per operazionalizzare l'uso di modelli diversi. Tuttavia, gli approcci esistenti al routing degli LLM presentano due limitazioni chiave: valutano le prestazioni utilizzando benchmark che spesso non riescono a catturare le preferenze umane guidate da criteri di valutazione soggettivi e tipicamente selezionano da un pool limitato di modelli. In questo lavoro, proponiamo un framework di routing allineato alle preferenze che guida la selezione del modello abbinando le query a domini definiti dall'utente (ad esempio, viaggi) o tipi di azione (ad esempio, modifica delle immagini) -- offrendo un meccanismo pratico per codificare le preferenze nelle decisioni di routing. Nello specifico, introduciamo Arch-Router, un modello compatto da 1,5 miliardi di parametri che impara a mappare le query alle preferenze di dominio-azione per le decisioni di routing dei modelli. Il nostro approccio supporta anche l'aggiunta senza soluzione di continuità di nuovi modelli per il routing senza richiedere riaddestramento o modifiche architetturali. Esperimenti su dataset conversazionali dimostrano che il nostro approccio raggiunge risultati all'avanguardia (SOTA) nell'abbinamento delle query con le preferenze umane, superando i migliori modelli proprietari. Il nostro approccio cattura criteri di valutazione soggettivi e rende le decisioni di routing più trasparenti e flessibili. Il nostro modello è disponibile all'indirizzo: https://huggingface.co/katanemo/Arch-Router-1.5B.

FairyGen: Video Cartoon Narrati da un Singolo Personaggio Disegnato da un Bambino
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Jun 26, 2025

Jiayi Zheng, Xiaodong Cun

Proponiamo FairyGen, un sistema automatico per generare video animati guidati da una storia a partire da un singolo disegno di un bambino, preservando fedelmente il suo stile artistico unico. A differenza dei precedenti metodi di narrazione che si concentrano principalmente sulla coerenza dei personaggi e sui movimenti di base, FairyGen separa esplicitamente la modellazione dei personaggi dalla generazione di sfondi stilizzati e incorpora il design cinematografico delle inquadrature per supportare una narrazione espressiva e coerente. Dato un singolo schizzo di un personaggio, utilizziamo prima un MLLM per generare uno storyboard strutturato con descrizioni a livello di inquadratura che specificano ambientazioni, azioni dei personaggi e prospettive della telecamera. Per garantire la coerenza visiva, introduciamo un adattatore di propagazione dello stile che cattura lo stile visivo del personaggio e lo applica allo sfondo, mantenendo fedelmente l'identità visiva completa del personaggio mentre sintetizza scene coerenti con lo stile. Un modulo di design delle inquadrature migliora ulteriormente la diversità visiva e la qualità cinematografica attraverso il ritaglio dei fotogrammi e la sintesi multi-vista basata sullo storyboard. Per animare la storia, ricostruiamo un proxy 3D del personaggio per derivare sequenze di movimento fisicamente plausibili, che vengono poi utilizzate per ottimizzare un modello di diffusione da immagine a video basato su MMDiT. Proponiamo inoltre un adattatore di personalizzazione del movimento a due stadi: il primo stadio apprende le caratteristiche dell'aspetto da fotogrammi temporalmente non ordinati, separando l'identità dal movimento; il secondo stadio modella la dinamica temporale utilizzando una strategia di spostamento del timestep con pesi di identità congelati. Una volta addestrato, FairyGen rende direttamente scene video diverse e coerenti allineate con lo storyboard. Esperimenti estensivi dimostrano che il nostro sistema produce animazioni fedeli allo stile, con movimenti naturali strutturati narrativamente, evidenziando il suo potenziale per l'animazione di storie personalizzate e coinvolgenti. Il codice sarà disponibile all'indirizzo https://github.com/GVCLab/FairyGen.

Un Sistema Agente per la Diagnosi di Malattie Rare con Ragionamento Tracciabile
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Jun 25, 2025

Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie

Le malattie rare colpiscono collettivamente oltre 300 milioni di individui in tutto il mondo, eppure una diagnosi tempestiva e accurata rimane una sfida pervasiva. Ciò è dovuto principalmente alla loro eterogeneità clinica, alla bassa prevalenza individuale e alla limitata familiarità che la maggior parte dei clinici ha con queste condizioni. Qui presentiamo DeepRare, il primo sistema agente per la diagnosi di malattie rare alimentato da un modello linguistico di grandi dimensioni (LLM), in grado di elaborare input clinici eterogenei. Il sistema genera ipotesi diagnostiche classificate per le malattie rare, ciascuna accompagnata da una catena di ragionamento trasparente che collega i passaggi analitici intermedi a evidenze mediche verificabili. DeepRare è composto da tre componenti chiave: un host centrale con un modulo di memoria a lungo termine; server agente specializzati responsabili di compiti analitici specifici per dominio, che integrano oltre 40 strumenti specializzati e fonti di conoscenza medica su scala web e aggiornate, garantendo l'accesso alle informazioni cliniche più recenti. Questo design modulare e scalabile consente un ragionamento diagnostico complesso mantenendo tracciabilità e adattabilità. Valutiamo DeepRare su otto dataset. Il sistema dimostra prestazioni diagnostiche eccezionali tra 2.919 malattie, raggiungendo il 100% di accuratezza per 1.013 malattie. Nelle valutazioni basate su HPO, DeepRare supera significativamente altri 15 metodi, come strumenti diagnostici bioinformatici tradizionali, LLM e altri sistemi agenti, raggiungendo un punteggio medio Recall@1 del 57,18% e superando il secondo miglior metodo (Reasoning LLM) con un margine sostanziale di 23,79 punti percentuali. Per scenari di input multi-modale, DeepRare raggiunge il 70,60% in Recall@1 rispetto al 53,20% di Exomiser in 109 casi. La verifica manuale delle catene di ragionamento da parte di esperti clinici raggiunge un accordo del 95,40%. Inoltre, il sistema DeepRare è stato implementato come un'applicazione web user-friendly all'indirizzo http://raredx.cn/doctor.

Generative Blocks World: Spostare oggetti nelle immagini
Generative Blocks World: Moving Things Around in Pictures

Jun 25, 2025

Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad

Descriviamo Generative Blocks World per interagire con la scena di un'immagine generata manipolando semplici astrazioni geometriche. Il nostro metodo rappresenta le scene come assemblaggi di primitive 3D convesse, e la stessa scena può essere rappresentata da un numero diverso di primitive, consentendo a un editor di spostare sia intere strutture che piccoli dettagli. Una volta modificata la geometria della scena, l'immagine viene generata mediante un metodo basato su flussi (flow-based) condizionato dalla profondità e da un suggerimento di texture. Il nostro suggerimento di texture tiene conto delle primitive 3D modificate, superando la coerenza delle texture fornita dalle tecniche esistenti di memorizzazione chiave-valore (key-value caching). Questi suggerimenti di texture (a) consentono movimenti precisi degli oggetti e della telecamera e (b) preservano in larga misura l'identità degli oggetti rappresentati. Esperimenti quantitativi e qualitativi dimostrano che il nostro approccio supera i lavori precedenti in termini di fedeltà visiva, editabilità e generalizzazione composizionale.

DiLoCoX: Un Framework di Addestramento su Grande Scala a Bassa Comunicazione per Cluster Decentralizzati
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

Jun 26, 2025

Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich

L'addestramento distribuito di modelli di base, in particolare i grandi modelli linguistici (LLM), richiede un elevato livello di comunicazione. Di conseguenza, dipende fortemente da un cluster centralizzato con interconnessioni veloci e affidabili. È possibile condurre l'addestramento su reti lente e sfruttare così il potenziale dei cluster decentralizzati quando si ha a che fare con modelli che superano i 100 miliardi di parametri? In questo articolo, proponiamo DiLoCoX, un framework di addestramento decentralizzato su larga scala a bassa comunicazione. Esso combina il Parallelismo a Pipeline con una Politica di Ottimizzazione Duale, la Sovrapposizione One-Step-Delay della Comunicazione e dell'Addestramento Locale, e uno Schema di Compressione Adattativa dei Gradienti. Questa combinazione migliora significativamente la scala dei parametri e la velocità di pre-addestramento del modello. Giustifichiamo i vantaggi della sovrapposizione one-step-delay della comunicazione e dell'addestramento locale, nonché dello schema di compressione adattativa dei gradienti, attraverso un'analisi teorica della convergenza. Empiricamente, dimostriamo che DiLoCoX è in grado di pre-addestrare un modello di base da 107B su una rete da 1Gbps. Rispetto al semplice AllReduce, DiLoCoX può ottenere un'accelerazione di 357x nell'addestramento distribuito mantenendo una degradazione trascurabile nella convergenza del modello. Per quanto ne sappiamo, questo è il primo framework di addestramento decentralizzato applicato con successo a modelli con oltre 100 miliardi di parametri.

DuaShepherd: Integrazione della Correttezza Graduale e dei Potenziali Premi per il Ragionamento Matematico
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

Jun 21, 2025

Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu

In questo articolo, proponiamo DuaShepherd, un nuovo framework di modellazione delle ricompense che integra due segnali di ricompensa complementari, correttezza e potenziale, per migliorare le capacità di ragionamento matematico dei Large Language Models (LLM). Mentre i segnali basati sulla correttezza enfatizzano l'identificazione degli errori passo-passo, i segnali basati sul potenziale si concentrano sulla probabilità di raggiungere la risposta finale corretta. Abbiamo sviluppato una pipeline automatizzata per la costruzione di un dataset su larga scala per la modellazione delle ricompense con entrambi i segnali. È stata esplorata un'architettura unificata a più teste per addestrare i due modelli di ricompensa in un contesto multi-task, dimostrando i vantaggi derivanti dall'apprendimento parallelo di correttezza e potenziale. Combinando questi due segnali in una probabilità composta, il nostro modello ottiene miglioramenti consistenti delle prestazioni su più benchmark. Le valutazioni empiriche su MATH500 e ProcessBench confermano che questa ricompensa combinata supera significativamente i modelli addestrati su un solo tipo di ricompensa, raggiungendo prestazioni all'avanguardia con vincoli di risorse comparabili.

MuseControlLite: Generazione Musicale Multifunzionale con Condizionatori Leggeri
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

Jun 23, 2025

Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang

Proponiamo MuseControlLite, un meccanismo leggero progettato per ottimizzare i modelli di generazione musica-da-testo attraverso un condizionamento preciso basato su vari attributi musicali variabili nel tempo e segnali audio di riferimento. La scoperta chiave è che gli embedding posizionali, raramente utilizzati dai modelli di generazione musica-da-testo nel condizionatore per le condizioni testuali, sono cruciali quando la condizione di interesse è una funzione del tempo. Utilizzando il controllo della melodia come esempio, i nostri esperimenti dimostrano che l'aggiunta di semplici embedding posizionali rotazionali agli strati di cross-attention disaccoppiati aumenta l'accuratezza del controllo dal 56,6% al 61,1%, richiedendo 6,75 volte meno parametri addestrabili rispetto ai meccanismi di ottimizzazione all'avanguardia, utilizzando lo stesso modello Transformer di diffusione pre-addestrato di Stable Audio Open. Valutiamo varie forme di controllo degli attributi musicali, inpainting audio e outpainting audio, dimostrando una migliore controllabilità rispetto a MusicGen-Large e Stable Audio Open ControlNet a un costo di ottimizzazione significativamente inferiore, con soli 85M parametri addestrabili. Il codice sorgente, i checkpoint del modello e gli esempi demo sono disponibili su: https://musecontrollite.github.io/web/.

HeurAgenix: Sfruttare i Modelli Linguistici di Grande Dimensione per Risolvere Sfide Complesse di Ottimizzazione Combinatoria
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Jun 18, 2025

Xianliang Yang, Ling Zhang, Haolong Qian, Lei Song, Jiang Bian

Gli algoritmi euristici svolgono un ruolo cruciale nella risoluzione di problemi di ottimizzazione combinatoria (CO), tuttavia i progetti tradizionali dipendono fortemente dall'esperienza manuale e faticano a generalizzare su istanze diverse. Presentiamo HeurAgenix, un framework iper-euristico a due fasi alimentato da modelli linguistici di grandi dimensioni (LLM) che prima evolve euristiche e poi le seleziona automaticamente. Nella fase di evoluzione euristica, HeurAgenix utilizza un LLM per confrontare soluzioni euristiche iniziali con soluzioni di qualità superiore ed estrarre strategie di evoluzione riutilizzabili. Durante la risoluzione dei problemi, seleziona dinamicamente l'euristica più promettente per ogni stato del problema, guidato dalla capacità percettiva dell'LLM. Per maggiore flessibilità, questo selettore può essere un LLM all'avanguardia o un modello leggero fine-tuned con costi di inferenza inferiori. Per mitigare la scarsità di supervisione affidabile causata dalla complessità della CO, ottimizziamo il selettore euristico leggero con un meccanismo a doppia ricompensa che sfrutta congiuntamente segnali dalle preferenze di selezione e dalla percezione dello stato, consentendo una selezione robusta anche in presenza di annotazioni rumorose. Esperimenti estesi su benchmark canonici dimostrano che HeurAgenix non solo supera le iper-euristiche basate su LLM esistenti, ma eguaglia o supera anche i risolutori specializzati. Il codice è disponibile all'indirizzo https://github.com/microsoft/HeurAgenix.

Dove trovare il Grokking nel Pretraining dei Modelli Linguistici? Monitorare la Transizione da Memorizzazione a Generalizzazione senza Test
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Jun 26, 2025

Ziyue Li, Chenrui Fan, Tianyi Zhou

262

Paper Giornalieri

Mind2Web 2: Valutazione della ricerca agentica con Agente-come-Giudice
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

FaSTA^: Agente per Percorsi Utensili Veloce-Lento con Estrazione di Sottoprocedure per un'Editing Efficace di Immagini a Più Passaggi
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

WorldVLA: Verso un Modello Mondiale Autoregressivo per le Azioni
WorldVLA: Towards Autoregressive Action World Model

MADrive: Modellazione delle Scene di Guida con Memoria Aumentata
MADrive: Memory-Augmented Driving Scene Modeling

Dove trovare il Grokking nel Pretraining dei Modelli Linguistici? Monitorare la Transizione da Memorizzazione a Generalizzazione senza Test
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Imparare a saltare gli strati intermedi dei Transformer
Learning to Skip the Middle Layers of Transformers

SAM4D: Segmentazione di Oggetti in Flussi di Dati da Fotocamera e LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

Previsione Video Egocentrica Condizionata a Corpo Intero
Whole-Body Conditioned Egocentric Video Prediction

PhysRig: Framework Differenziabile per lo Skinning e il Rigging Basato sulla Fisica per la Modellazione Realistica di Oggetti Articolati
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Arch-Router: Allineamento del Routing di LLM con le Preferenze Umane
Arch-Router: Aligning LLM Routing with Human Preferences

FairyGen: Video Cartoon Narrati da un Singolo Personaggio Disegnato da un Bambino
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Un Sistema Agente per la Diagnosi di Malattie Rare con Ragionamento Tracciabile
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Generative Blocks World: Spostare oggetti nelle immagini
Generative Blocks World: Moving Things Around in Pictures

DiLoCoX: Un Framework di Addestramento su Grande Scala a Bassa Comunicazione per Cluster Decentralizzati
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

DuaShepherd: Integrazione della Correttezza Graduale e dei Potenziali Premi per il Ragionamento Matematico
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

MuseControlLite: Generazione Musicale Multifunzionale con Condizionatori Leggeri
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

HeurAgenix: Sfruttare i Modelli Linguistici di Grande Dimensione per Risolvere Sfide Complesse di Ottimizzazione Combinatoria
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Support

Support

Paper Giornalieri

Mind2Web 2: Valutazione della ricerca agentica con Agente-come-Giudice
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

FaSTA^: Agente per Percorsi Utensili Veloce-Lento con Estrazione di Sottoprocedure per un'Editing Efficace di Immagini a Più Passaggi
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

WorldVLA: Verso un Modello Mondiale Autoregressivo per le Azioni
WorldVLA: Towards Autoregressive Action World Model

MADrive: Modellazione delle Scene di Guida con Memoria Aumentata
MADrive: Memory-Augmented Driving Scene Modeling

Dove trovare il Grokking nel Pretraining dei Modelli Linguistici? Monitorare la Transizione da Memorizzazione a Generalizzazione senza Test
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Imparare a saltare gli strati intermedi dei Transformer
Learning to Skip the Middle Layers of Transformers

SAM4D: Segmentazione di Oggetti in Flussi di Dati da Fotocamera e LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

Previsione Video Egocentrica Condizionata a Corpo Intero
Whole-Body Conditioned Egocentric Video Prediction

PhysRig: Framework Differenziabile per lo Skinning e il Rigging Basato sulla Fisica per la Modellazione Realistica di Oggetti Articolati
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Arch-Router: Allineamento del Routing di LLM con le Preferenze Umane
Arch-Router: Aligning LLM Routing with Human Preferences

FairyGen: Video Cartoon Narrati da un Singolo Personaggio Disegnato da un Bambino
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Un Sistema Agente per la Diagnosi di Malattie Rare con Ragionamento Tracciabile
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Generative Blocks World: Spostare oggetti nelle immagini
Generative Blocks World: Moving Things Around in Pictures

DiLoCoX: Un Framework di Addestramento su Grande Scala a Bassa Comunicazione per Cluster Decentralizzati
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

DuaShepherd: Integrazione della Correttezza Graduale e dei Potenziali Premi per il Ragionamento Matematico
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

MuseControlLite: Generazione Musicale Multifunzionale con Condizionatori Leggeri
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

HeurAgenix: Sfruttare i Modelli Linguistici di Grande Dimensione per Risolvere Sfide Complesse di Ottimizzazione Combinatoria
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges