Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Costruzione di una Base di Conoscenza per Text-to-SQL Potenziato dalla Conoscenza
Knowledge Base Construction for Knowledge-Augmented Text-to-SQL

May 28, 2025

Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya

Text-to-SQL mira a tradurre query in linguaggio naturale in istruzioni SQL, un'operazione pratica che consente a chiunque di recuperare facilmente le informazioni desiderate dai database. Recentemente, molti approcci esistenti affrontano questo problema utilizzando Large Language Models (LLM), sfruttando la loro forte capacità di comprendere le query degli utenti e generare il corrispondente codice SQL. Tuttavia, la conoscenza parametrica degli LLM potrebbe essere limitata nel coprire tutte le query diversificate e specifiche per dominio che richiedono un ancoraggio a vari schemi di database, rendendo spesso meno accurati gli SQL generati. Per risolvere questo problema, proponiamo la costruzione di una base di conoscenza per text-to-SQL, una fonte fondamentale di conoscenza da cui recuperiamo e generiamo le informazioni necessarie per le query specifiche. In particolare, a differenza degli approcci esistenti che annotano manualmente la conoscenza o generano solo poche informazioni per ogni query, la nostra base di conoscenza è completa, costruita sulla combinazione di tutte le domande disponibili e dei relativi schemi di database insieme alle loro conoscenze associate, e può essere riutilizzata per database non visti provenienti da diversi dataset e domini. Validiamo il nostro approccio su più dataset text-to-SQL, considerando sia scenari con database sovrapposti che non sovrapposti, dimostrando prestazioni sostanzialmente superiori rispetto alle baseline rilevanti.

Ottimizzazione Inversa delle Preferenze per il Seguimento di Istruzioni Complesse
Reverse Preference Optimization for Complex Instruction Following

May 28, 2025

Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li

Il seguire le istruzioni (Instruction Following, IF) è una capacità cruciale per i grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, gestire istruzioni complesse con molteplici vincoli rimane una sfida. I metodi precedenti selezionano tipicamente coppie di preferenze basandosi sul numero di vincoli soddisfatti, introducendo rumore laddove gli esempi scelti potrebbero non rispettare alcuni vincoli e gli esempi rifiutati potrebbero eccellere in certi aspetti rispetto a quelli scelti. Per affrontare la sfida dell'allineamento con preferenze multiple, proponiamo un metodo semplice ma efficace chiamato Reverse Preference Optimization (RPO). Questo metodo mitiga il rumore nelle coppie di preferenze invertendo dinamicamente i vincoli all'interno dell'istruzione per garantire che la risposta scelta sia perfetta, alleviando il carico di campionamento e filtraggio estensivo per raccogliere risposte perfette. Inoltre, l'inversione amplia il divario tra le risposte scelte e quelle rifiutate, chiarendo così la direzione di ottimizzazione e rendendola più robusta al rumore. Valutiamo RPO su due benchmark IF multi-turn, Sysbench e Multi-IF, dimostrando miglioramenti medi rispetto alla baseline DPO di 4,6 e 2,5 punti (su Llama-3.1 8B), rispettivamente. Inoltre, RPO scala efficacemente tra diverse dimensioni del modello (da 8B a 70B parametri), con il modello RPO da 70B che supera GPT-4o.

Il Meccanismo di Entropia dell'Apprendimento per Rinforzo nei Modelli Linguistici di Ragionamento
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

May 28, 2025

Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding

1273

Questo articolo mira a superare un ostacolo significativo nel ridimensionamento del RL (Reinforcement Learning) per il ragionamento con LLM (Large Language Models), ovvero il collasso dell'entropia della politica. Tale fenomeno è stato osservato costantemente in numerose esecuzioni di RL senza interventi sull'entropia, dove l'entropia della politica è diminuita drasticamente nella fase iniziale dell'addestramento. Questa ridotta capacità esplorativa è sempre accompagnata dalla saturazione delle prestazioni della politica. Nella pratica, abbiamo stabilito un'equazione di trasformazione R=-a*e^H+b tra l'entropia H e le prestazioni a valle R. Questa legge empirica indica fortemente che le prestazioni della politica sono scambiate con l'entropia della politica, risultando quindi limitate dal suo esaurimento, e il limite massimo è completamente prevedibile: H=0, R=-a+b. La nostra scoperta rende necessaria la gestione dell'entropia per una continua esplorazione verso il ridimensionamento del calcolo nel RL. A tal fine, abbiamo studiato la dinamica dell'entropia sia teoricamente che empiricamente. La nostra derivazione evidenzia che il cambiamento nell'entropia della politica è guidato dalla covarianza tra la probabilità dell'azione e il cambiamento nei logit, che è proporzionale al suo vantaggio quando si utilizzano algoritmi simili al Policy Gradient. Lo studio empirico mostra che i valori del termine di covarianza e le differenze di entropia corrispondono esattamente, supportando la conclusione teorica. Inoltre, il termine di covarianza rimane prevalentemente positivo durante l'addestramento, spiegando ulteriormente perché l'entropia della politica diminuirebbe in modo monotono. Comprendendo il meccanismo alla base della dinamica dell'entropia, siamo motivati a controllare l'entropia limitando l'aggiornamento dei token con alta covarianza. In particolare, proponiamo due tecniche semplici ma efficaci, ovvero Clip-Cov e KL-Cov, che applicano rispettivamente un clipping e una penalità KL ai token con alte covarianze. Gli esperimenti mostrano che questi metodi incoraggiano l'esplorazione, aiutando così la politica a sfuggire al collasso dell'entropia e a ottenere migliori prestazioni a valle.

SWE-rebench: Una Pipeline Automatica per la Raccolta di Task e la Valutazione Decontaminata di Agenti di Ingegneria del Software
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

May 26, 2025

Ibragim Badertdinov, Alexander Golubev, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Andrei Andriushchenko, Maria Trofimova, Daria Litvintseva, Boris Yangel

872

Gli agenti basati su LLM hanno dimostrato capacità promettenti in un numero crescente di attività di ingegneria del software (SWE). Tuttavia, il progresso in questo campo affronta due sfide critiche. Innanzitutto, i dati di addestramento di alta qualità sono scarsi, specialmente quelli che riflettono scenari reali di SWE, in cui gli agenti devono interagire con ambienti di sviluppo, eseguire codice e adattare il comportamento in base ai risultati delle loro azioni. I dataset esistenti sono limitati alla generazione di codice one-shot o comprendono piccole raccolte manualmente curate di attività interattive, mancando sia di scala che di diversità. In secondo luogo, la mancanza di nuove attività interattive di SWE influisce sulla valutazione di modelli in rapido miglioramento, poiché i benchmark statici diventano rapidamente obsoleti a causa di problemi di contaminazione. Per affrontare queste limitazioni, introduciamo una pipeline innovativa, automatizzata e scalabile per estrarre continuamente attività interattive di SWE reali da vari repository GitHub. Utilizzando questa pipeline, costruiamo SWE-rebench, un dataset pubblico che comprende oltre 21.000 attività interattive di SWE basate su Python, adatto per l'apprendimento per rinforzo di agenti SWE su larga scala. Inoltre, utilizziamo un flusso continuo di nuove attività raccolte con la metodologia SWE-rebench per costruire un benchmark privo di contaminazione per l'ingegneria del software agentica. Confrontiamo i risultati di vari LLM su questo benchmark con i risultati su SWE-bench Verified e mostriamo che le prestazioni di alcuni modelli linguistici potrebbero essere sovrastimate a causa di problemi di contaminazione.

R2R: Navigazione Efficiente di Percorsi di Ragionamento Divergenti con l'Instradamento di Token Modello Piccolo-Grande
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

May 27, 2025

Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang

712

I Large Language Models (LLM) raggiungono impressionanti capacità di ragionamento al costo di un sovraccarico computazionale significativo, rappresentando una sfida sostanziale per il loro dispiegamento. Sebbene i Small Language Models (SLM) distillati migliorino notevolmente l'efficienza, le loro prestazioni ne risentono poiché non riescono a seguire i percorsi di ragionamento degli LLM. Fortunatamente, abbiamo scoperto che solo una piccola frazione di token effettivamente diverge i percorsi di ragionamento tra LLM e SLM. La maggior parte dei token generati sono identici o presentano differenze neutre, come variazioni minori nelle abbreviazioni o nelle espressioni. Sfruttando questa intuizione, introduciamo **Roads to Rome (R2R)**, un metodo di routing neurale dei token che utilizza selettivamente gli LLM solo per questi token critici e divergenti, lasciando la maggior parte della generazione dei token allo SLM. Abbiamo anche sviluppato una pipeline automatica di generazione dati che identifica i token divergenti e genera etichette di routing a livello di token per addestrare il router leggero. Applichiamo R2R per combinare i modelli R1-1.5B e R1-32B della famiglia DeepSeek, e valutiamo su benchmark impegnativi di matematica, codifica e QA. Con una dimensione media dei parametri attivati di 5.6B, R2R supera l'accuratezza media di R1-7B di 1.6x, superando persino il modello R1-14B. Rispetto a R1-32B, offre un'accelerazione del tempo di esecuzione di 2.8x con prestazioni comparabili, avanzando la frontiera di Pareto dell'efficienza di scalabilità in fase di test. Il nostro codice è disponibile all'indirizzo https://github.com/thu-nics/R2R.

Rapporto Tecnico di Skywork Open Reasoner 1
Skywork Open Reasoner 1 Technical Report

May 28, 2025

Jujie He, Jiacai Liu, Chris Yuhao Liu, Rui Yan, Chaojie Wang, Peng Cheng, Xiaoyu Zhang, Fuxiang Zhang, Jiacheng Xu, Wei Shen, Siyuan Li, Liang Zeng, Tianwen Wei, Cheng Cheng, Bo An, Yang Liu, Yahui Zhou

556

Il successo di DeepSeek-R1 sottolinea il ruolo significativo dell'apprendimento per rinforzo (RL) nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). In questo lavoro, presentiamo Skywork-OR1, un'implementazione efficace e scalabile di RL per modelli a lunga catena di pensiero (CoT). Basandoci sulla serie di modelli DeepSeek-R1-Distill, il nostro approccio RL raggiunge miglioramenti prestazionali significativi, aumentando l'accuratezza media su AIME24, AIME25 e LiveCodeBench dal 57,8% al 72,8% (+15,0%) per il modello 32B e dal 43,6% al 57,5% (+13,9%) per il modello 7B. Il nostro modello Skywork-OR1-32B supera sia DeepSeek-R1 che Qwen3-32B sui benchmark AIME24 e AIME25, ottenendo risultati comparabili su LiveCodeBench. I modelli Skywork-OR1-7B e Skywork-OR1-Math-7B dimostrano capacità di ragionamento competitive tra i modelli di dimensioni simili. Eseguiamo studi di ablazione completi sui componenti principali della nostra pipeline di addestramento per validarne l'efficacia. Inoltre, indaghiamo approfonditamente il fenomeno del collasso dell'entropia, identifichiamo i fattori chiave che influenzano la dinamica dell'entropia e dimostriamo che mitigare il collasso prematuro dell'entropia è cruciale per migliorare le prestazioni nei test. Per supportare la ricerca della comunità, rendiamo completamente open-source i pesi dei nostri modelli, il codice di addestramento e i dataset di addestramento.

Sherlock: Ragionamento Autocorrettivo nei Modelli Visione-Linguaggio
Sherlock: Self-Correcting Reasoning in Vision-Language Models

May 28, 2025

Yi Ding, Ruqi Zhang

512

I modelli di ragionamento visione-linguaggio (VLMs) hanno dimostrato prestazioni promettenti in compiti multimodali complessi. Tuttavia, affrontano ancora sfide significative: sono altamente sensibili agli errori di ragionamento, richiedono grandi volumi di dati annotati o verificatori accurati e faticano a generalizzare oltre domini specifici. Per affrontare queste limitazioni, esploriamo l'autocorrezione come strategia per migliorare i VLMs di ragionamento. Iniziamo conducendo un'analisi approfondita delle capacità di autocorrezione dei VLMs e identifichiamo le principali lacune. Sulla base delle nostre scoperte, introduciamo Sherlock, un framework di addestramento per l'autocorrezione e il miglioramento autonomo. Sherlock introduce un obiettivo di autocorrezione a livello di traiettoria, un metodo di costruzione dei dati di preferenza basato sulla perturbazione visiva e un beta dinamico per la regolazione delle preferenze. Una volta che il modello acquisisce capacità di autocorrezione utilizzando solo 20k dati annotati campionati casualmente, continua a migliorarsi autonomamente senza supervisione esterna. Basato sul modello Llama3.2-Vision-11B, Sherlock ottiene risultati notevoli su otto benchmark, raggiungendo un'accuratezza media di 64.1 con la generazione diretta e 65.4 dopo l'autocorrezione. Supera LLaVA-CoT (63.2), Mulberry (63.9) e LlamaV-o1 (63.4) utilizzando meno del 20% dei dati annotati.

Chain-of-Zoom: Super-Risoluzione Estrema tramite Autoregressione di Scala e Allineamento delle Preferenze
Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

May 24, 2025

Bryan Sangwoo Kim, Jeongsol Kim, Jong Chul Ye

484

I moderni modelli di super-risoluzione su singola immagine (SISR) forniscono risultati fotorealistici sui fattori di scala su cui sono addestrati, ma collassano quando viene chiesto loro di ingrandire ben oltre tale regime. Affrontiamo questo collo di bottiglia di scalabilità con Chain-of-Zoom (CoZ), un framework indipendente dal modello che scompone la SISR in una catena autoregressiva di stati di scala intermedi con prompt multi-scala. CoZ riutilizza ripetutamente un modello SR di base, scomponendo la probabilità condizionale in sottoproblemi trattabili per raggiungere risoluzioni estreme senza ulteriore addestramento. Poiché gli indizi visivi si riducono ad alti ingrandimenti, arricchiamo ogni passaggio di zoom con prompt testuali multi-scala generati da un modello visione-linguaggio (VLM). L'estrattore di prompt stesso viene messo a punto utilizzando l'ottimizzazione delle politiche di ricompensa generalizzata (GRPO) con un VLM critico, allineando la guida testuale alle preferenze umane. Gli esperimenti dimostrano che un modello standard di super-risoluzione diffusa 4x integrato in CoZ raggiunge ingrandimenti oltre 256x con alta qualità percettiva e fedeltà. Pagina del progetto: https://bryanswkim.github.io/chain-of-zoom/.

SageAttention2++: Un'implementazione più efficiente di SageAttention2
SageAttention2++: A More Efficient Implementation of SageAttention2

May 27, 2025

Jintao Zhang, Xiaoming Xu, Jia Wei, Haofeng Huang, Pengle Zhang, Chendong Xiang, Jun Zhu, Jianfei Chen

473

L'efficienza dell'attenzione è cruciale poiché la sua complessità temporale cresce quadraticamente con la lunghezza della sequenza. SageAttention2 affronta questo problema utilizzando la quantizzazione per accelerare le moltiplicazioni di matrici (Matmul) nell'attenzione. Per accelerare ulteriormente SageAttention2, proponiamo di utilizzare l'istruzione più veloce di Matmul FP8 accumulata in FP16. Questa istruzione è 2 volte più veloce rispetto alla Matmul FP8 utilizzata in SageAttention2. I nostri esperimenti dimostrano che SageAttention2++ raggiunge un'accelerazione di 3,9 volte rispetto a FlashAttention, mantenendo la stessa precisione dell'attenzione di SageAttention2. Ciò significa che SageAttention2++ accelera efficacemente vari modelli, inclusi quelli per la generazione di linguaggio, immagini e video, con una perdita trascurabile nelle metriche end-to-end. Il codice sarà disponibile all'indirizzo https://github.com/thu-ml/SageAttention.

Addestramento Non Supervisionato Post-Allenamento per il Ragionamento Multi-Modale di LLM tramite GRPO
Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

May 28, 2025

Lai Wei, Yuting Li, Chen Wang, Yue Wang, Linghe Kong, Weiran Huang, Lichao Sun

462

Migliorare i Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) nella fase post-addestramento si basa tipicamente sul fine-tuning supervisionato (SFT) o sull'apprendimento per rinforzo (RL). Tuttavia, questi metodi supervisionati richiedono dati multimodali costosi e annotati manualmente, una risorsa alla fine insostenibile. Sebbene recenti sforzi abbiano esplorato il post-addestramento non supervisionato, i loro metodi sono complessi e difficili da iterare. In questo lavoro, siamo i primi a investigare l'uso di GRPO, un algoritmo di RL online stabile e scalabile, per abilitare un miglioramento continuo senza alcuna supervisione esterna. Proponiamo MM-UPT, un framework semplice ma efficace per il post-addestramento non supervisionato di MLLMs. MM-UPT si basa su GRPO, sostituendo i tradizionali segnali di ricompensa con un meccanismo di auto-ricompensa basato sul voto a maggioranza su più risposte campionate. I nostri esperimenti dimostrano che MM-UPT migliora significativamente la capacità di ragionamento di Qwen2.5-VL-7B (ad esempio, dal 66.3% al 72.9% su MathVista, dal 62.9% al 68.7% su We-Math), utilizzando dataset standard senza etichette di verità. MM-UPT supera anche i precedenti baseline non supervisionati e si avvicina persino ai risultati del GRPO supervisionato. Inoltre, mostriamo che l'incorporazione di domande sintetiche, generate esclusivamente dall'MLLM stesso, può aumentare ulteriormente le prestazioni, evidenziando un approccio promettente per il miglioramento scalabile. Nel complesso, MM-UPT offre un nuovo paradigma per il miglioramento continuo e autonomo degli MLLMs in assenza di supervisione esterna. Il nostro codice è disponibile su https://github.com/waltonfuture/MM-UPT.

Avanzamento del Ragionamento Multimodale tramite Apprendimento per Rinforzo con Avvio a Freddo
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start

May 28, 2025

Lai Wei, Yuting Li, Kaipeng Zheng, Chen Wang, Yue Wang, Linghe Kong, Lichao Sun, Weiran Huang

372

I recenti progressi nei grandi modelli linguistici (LLM) hanno dimostrato impressionanti capacità di ragionamento a catena di pensiero, con l'apprendimento per rinforzo (RL) che svolge un ruolo cruciale in questo avanzamento. Sebbene i modelli "aha moment" – in cui i modelli mostrano auto-correzione attraverso la riflessione – siano spesso attribuiti a proprietà emergenti dell'RL, dimostriamo innanzitutto che questi modelli esistono nei modelli linguistici multimodali (MLLM) prima dell'addestramento RL, ma non necessariamente si correlano con un miglioramento delle prestazioni di ragionamento. Basandoci su queste intuizioni, presentiamo uno studio completo sul potenziamento del ragionamento multimodale attraverso un approccio in due fasi: (1) fine-tuning supervisionato (SFT) come avvio a freddo con schemi strutturati di ragionamento a catena di pensiero, seguito da (2) apprendimento per rinforzo tramite GRPO per affinare ulteriormente queste capacità. I nostri esperimenti estesi dimostrano che questo approccio combinato supera costantemente sia i metodi basati esclusivamente su SFT che quelli basati esclusivamente su RL in benchmark impegnativi di ragionamento multimodale. I modelli risultanti raggiungono prestazioni all'avanguardia tra gli MLLM open-source sia su scala 3B che 7B, con il nostro modello 7B che mostra miglioramenti sostanziali rispetto ai modelli base (ad esempio, 66.3 %rightarrow73.4 % su MathVista, 62.9 %rightarrow70.4 % su We-Math) e il nostro modello 3B che raggiunge prestazioni competitive con diversi modelli 7B. Nel complesso, questo lavoro fornisce indicazioni pratiche per la costruzione di modelli avanzati di ragionamento multimodale. Il nostro codice è disponibile all'indirizzo https://github.com/waltonfuture/RL-with-Cold-Start.

RenderFormer: Rendering Neurale Basato su Transformer di Mesh Triangolari con Illuminazione Globale
RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination

May 28, 2025

Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu, Xin Tong

363

Presentiamo RenderFormer, una pipeline di rendering neurale che genera direttamente un'immagine da una rappresentazione basata su triangoli di una scena, con effetti completi di illuminazione globale e senza richiedere addestramento o fine-tuning specifico per ogni scena. Invece di adottare un approccio centrato sulla fisica per il rendering, formuliamo il rendering come una trasformazione sequenza-a-sequenza in cui una sequenza di token che rappresentano triangoli con proprietà di riflettanza viene convertita in una sequenza di token di output che rappresentano piccole porzioni di pixel. RenderFormer segue una pipeline a due stadi: uno stadio indipendente dalla vista che modella il trasporto della luce tra triangoli, e uno stadio dipendente dalla vista che trasforma un token rappresentante un fascio di raggi nei corrispondenti valori di pixel, guidato dalla sequenza di triangoli proveniente dallo stadio indipendente dalla vista. Entrambi gli stadi si basano sull'architettura transformer e vengono appresi con vincoli a priori minimi. Dimostriamo e valutiamo RenderFormer su scene con complessità variabile nella forma e nel trasporto della luce.

Promuovere il Ragionamento Video attraverso la Predizione del Prossimo Evento
Fostering Video Reasoning via Next-Event Prediction

May 28, 2025

Haonan Wang, Hongfu Liu, Xiangyan Liu, Chao Du, Kenji Kawaguchi, Ye Wang, Tianyu Pang

292

La previsione del token successivo costituisce il compito di apprendimento fondamentale che abilita il ragionamento nei LLM. Ma quale dovrebbe essere il compito di apprendimento quando si mira a dotare i MLLM di capacità di ragionamento temporale su input video? Compiti esistenti come il question answering su video spesso si basano su annotazioni umane o su MLLM molto più potenti, mentre la descrizione video tende a intrecciare il ragionamento temporale con le informazioni spaziali. Per colmare questa lacuna, proponiamo la previsione del prossimo evento (NEP), un compito di apprendimento che sfrutta i segmenti video futuri come segnale auto-supervisionato ricco per favorire il ragionamento temporale. Segmentiamo ogni video in fotogrammi passati e futuri: il MLLM prende in input i fotogrammi passati e prevede un riassunto degli eventi derivati dai fotogrammi futuri, incoraggiando così il modello a ragionare temporalmente per completare il compito. Per supportare questo compito, abbiamo curato V1-33K, un dataset composto da 33.000 segmenti video estratti automaticamente che coprono una vasta gamma di scenari del mondo reale. Esploriamo inoltre una serie di strategie di instruction-tuning su video per studiarne gli effetti sul ragionamento temporale. Per valutare i progressi, introduciamo FutureBench per valutare la coerenza nella previsione di eventi futuri non visti. Gli esperimenti convalidano che NEP offre un paradigma di formazione scalabile ed efficace per favorire il ragionamento temporale nei MLLM.

DeepResearchGym: Un Ambiente di Valutazione Gratuito, Trasparente e Riproducibile per la Ricerca Profonda
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research

May 25, 2025

João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong

292

I sistemi di ricerca approfondita rappresentano una nuova classe di metodi di recupero delle informazioni agentivi che generano report completi e ben supportati per query complesse. Tuttavia, la maggior parte dei framework esistenti si basa su API di ricerca commerciali dinamiche, che presentano sfide di riproducibilità e trasparenza oltre ai loro costi. Per affrontare queste limitazioni, introduciamo DeepResearchGym, un sandbox open-source che combina un'API di ricerca riproducibile con un protocollo di valutazione rigoroso per il benchmarking dei sistemi di ricerca approfondita. L'API indicizza corpora web pubblici su larga scala, in particolare ClueWeb22 e FineWeb, utilizzando un recuperatore denso all'avanguardia e una ricerca approssimata del vicino più prossimo tramite DiskANN. Raggiunge una latenza inferiore rispetto alle popolari API commerciali garantendo al contempo classifiche di documenti stabili tra le esecuzioni, ed è liberamente disponibile per uso di ricerca. Per valutare gli output dei sistemi di ricerca approfondita, estendiamo il benchmark Researchy Questions con metriche automatiche attraverso valutazioni LLM-as-a-judge per misurare l'allineamento con le esigenze informative degli utenti, la fedeltà del recupero e la qualità del report. I risultati sperimentali mostrano che i sistemi integrati con DeepResearchGym raggiungono prestazioni comparabili a quelli che utilizzano API commerciali, con classifiche di prestazioni che rimangono coerenti tra le metriche di valutazione. Uno studio di valutazione umana conferma ulteriormente che il nostro protocollo automatico è allineato con le preferenze umane, validando la capacità del framework di supportare una valutazione controllata dei sistemi di ricerca approfondita. Il nostro codice e la documentazione dell'API sono disponibili su https://www.deepresearchgym.ai.

Estrazione di Hard Negative per il Recupero di Informazioni Specifiche del Dominio nei Sistemi Aziendali
Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems

May 23, 2025

Hansa Meghwani, Amit Agarwal, Priyaranjan Pattnayak, Hitesh Laxmichand Patel, Srikant Panda

252

I sistemi di ricerca aziendali spesso incontrano difficoltà nel recuperare informazioni accurate e specifiche del dominio a causa di disallineamenti semantici e terminologie sovrapposte. Questi problemi possono compromettere le prestazioni delle applicazioni downstream, come la gestione della conoscenza, il supporto clienti e gli agenti di generazione aumentata dal recupero. Per affrontare questa sfida, proponiamo un framework scalabile per il mining di negativi difficili, specificamente progettato per dati aziendali di dominio specifico. Il nostro approccio seleziona dinamicamente documenti semanticamente complessi ma contestualmente irrilevanti per migliorare i modelli di riordinamento implementati. Il nostro metodo integra modelli di embedding diversificati, esegue la riduzione della dimensionalità e seleziona in modo univoco i negativi difficili, garantendo efficienza computazionale e precisione semantica. La valutazione sul nostro corpus aziendale proprietario (dominio dei servizi cloud) dimostra miglioramenti sostanziali del 15\% in MRR@3 e del 19\% in MRR@10 rispetto ai benchmark di stato dell'arte e ad altre tecniche di campionamento negativo. Un'ulteriore validazione su dataset pubblici specifici del dominio (FiQA, Climate Fever, TechQA) conferma la generalizzabilità del nostro metodo e la sua prontezza per applicazioni nel mondo reale.

WebDancer: Verso un'agenzia autonoma per la ricerca di informazioni
WebDancer: Towards Autonomous Information Seeking Agency

May 28, 2025

Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

245

Affrontare problemi complessi del mondo reale richiede una ricerca approfondita delle informazioni e un ragionamento a più fasi. I recenti progressi nei sistemi agentici, esemplificati da Deep Research, sottolineano il potenziale per una ricerca autonoma a più fasi. In questo lavoro, presentiamo un paradigma coerente per costruire agenti di ricerca delle informazioni end-to-end da una prospettiva centrata sui dati e sulle fasi di addestramento. Il nostro approccio consiste in quattro fasi chiave: (1) costruzione dei dati di navigazione, (2) campionamento delle traiettorie, (3) fine-tuning supervisionato per un avvio efficace a freddo, e (4) apprendimento per rinforzo per una migliore generalizzazione. Istanziamo questo framework in un agente web basato su ReAct, WebDancer. Le valutazioni empiriche sui benchmark impegnativi di ricerca delle informazioni, GAIA e WebWalkerQA, dimostrano le prestazioni solide di WebDancer, ottenendo risultati considerevoli e evidenziando l'efficacia del nostro paradigma di addestramento. Un'ulteriore analisi dell'addestramento degli agenti fornisce intuizioni preziose e percorsi sistematici e praticabili per sviluppare modelli agentici più capaci. I codici e la demo saranno rilasciati su https://github.com/Alibaba-NLP/WebAgent.

FS-DAG: Reti Grafiche per l'Adattamento a Dominio con Pochi Esempi nella Comprensione di Documenti Visivamente Ricchi
FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding

May 22, 2025

Amit Agarwal, Srikant Panda, Kulbhushan Pachauri

222

In questo lavoro, proponiamo Few Shot Domain Adapting Graph (FS-DAG), un'architettura di modello scalabile ed efficiente per la comprensione di documenti visivamente ricchi (VRDU) in contesti few-shot. FS-DAG sfrutta backbone specifici per dominio e per linguaggio/visione all'interno di un framework modulare per adattarsi a diversi tipi di documenti con dati minimi. Il modello è robusto rispetto a sfide pratiche come la gestione di errori OCR, refusi e cambiamenti di dominio, aspetti critici nelle implementazioni reali. FS-DAG è altamente performante con meno di 90 milioni di parametri, rendendolo adatto a complesse applicazioni reali per attività di estrazione di informazioni (IE) in contesti con risorse computazionali limitate. Dimostriamo le capacità di FS-DAG attraverso esperimenti estesi per il compito di estrazione di informazioni, mostrando miglioramenti significativi nella velocità di convergenza e nelle prestazioni rispetto ai metodi all'avanguardia. Inoltre, questo lavoro evidenzia i progressi continui nello sviluppo di modelli più piccoli ed efficienti che non compromettono le prestazioni. Codice: https://github.com/oracle-samples/fs-dag

Universal Reasoner: Un Motore di Ragionamento Unico, Componibile e Plug-and-Play per LLM Congelati
Universal Reasoner: A Single, Composable Plug-and-Play Reasoner for Frozen LLMs

May 25, 2025

Jaemin Kim, Hangeol Chang, Hyunmin Hwang, Choonghan Kim, Jong Chul Ye

212

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità generali notevoli, ma il potenziamento di abilità come il ragionamento spesso richiede risorse computazionali sostanziali e può compromettere la loro generalizzazione. Sebbene i metodi di fine-tuning efficiente in termini di parametri (PEFT) offrano un'alternativa più attenta alle risorse, generalmente richiedono un riaddestramento per ogni architettura di LLM a causa delle dipendenze architetturali. Per affrontare queste sfide, qui proponiamo Universal Reasoner (UniR) - un modulo di ragionamento singolo, leggero, componibile e plug-and-play che può essere utilizzato con qualsiasi LLM congelato per dotarlo di capacità di ragionamento specializzate. Nello specifico, UniR scompone la ricompensa in un modulo di ragionamento autonomo che viene addestrato indipendentemente utilizzando ricompense predefinite, traducendo efficacemente segnali a livello di traiettoria in guida a livello di token. Una volta addestrato, UniR può essere combinato con qualsiasi LLM congelato al momento dell'inferenza semplicemente sommando i suoi logit a quelli dell'architettura LLM. Questa struttura additiva consente naturalmente una composizione modulare: più moduli UniR addestrati per diversi compiti possono essere applicati congiuntamente sommando i loro logit, abilitando un ragionamento complesso tramite composizione. I risultati sperimentali su compiti di ragionamento matematico e traduzione automatica mostrano che UniR supera significativamente i metodi di fine-tuning esistenti utilizzando il modello Llama3.2. Inoltre, UniR dimostra una forte generalizzazione da debole a forte: i moduli di ragionamento addestrati su modelli più piccoli guidano efficacemente LLM molto più grandi. Questo rende UniR una soluzione efficiente in termini di costi, adattabile e robusta per potenziare il ragionamento negli LLM senza comprometterne le capacità fondamentali. Il codice è open-source all'indirizzo https://github.com/hangeol/UniR.

Prevediamo frase per frase
Let's Predict Sentence by Sentence

May 28, 2025

Hyeonbin Hwang, Byeongguk Jeon, Seungone Kim, Jiyeon Kim, Hoyeon Chang, Sohee Yang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo

192

I modelli linguistici autoregressivi (LM) generano un token alla volta, mentre il ragionamento umano opera su astrazioni di livello superiore - frasi, proposizioni e concetti. Questo contrasto solleva una domanda centrale: i LM possono imparare a ragionare su unità semantiche strutturate piuttosto che su sequenze grezze di token? In questo lavoro, indaghiamo se i LM preaddestrati possano essere elevati a tali spazi di ragionamento astratto basandosi sulle loro rappresentazioni apprese. Presentiamo un framework che adatta un LM preaddestrato a livello di token per operare nello spazio delle frasi, prevedendo autoregressivamente gli embedding continui delle frasi successive. Esploriamo due paradigmi di embedding ispirati dall'apprendimento di rappresentazioni classico: 1) embedding semantici, appresi tramite auto-codifica per preservare il significato superficiale; e 2) embedding contestuali, addestrati tramite la previsione della frase successiva per codificare la struttura anticipatoria. Valutiamo entrambi sotto due regimi di inferenza: Discretizzato, che decodifica ogni embedding previsto in testo prima di ricodificarlo; e Continuo, che ragiona interamente nello spazio degli embedding per una maggiore efficienza. In quattro domini - matematica, logica, senso comune e pianificazione - gli embedding contestuali sotto inferenza continua mostrano prestazioni competitive con il Chain-of-Thought (CoT) riducendo in media i FLOP al momento dell'inferenza della metà. Presentiamo anche i primi segni di scalabilità e adattamento modulare. Infine, per visualizzare le traiettorie latenti, introduciamo SentenceLens, uno strumento diagnostico che decodifica gli stati intermedi del modello in frasi interpretabili. Insieme, i nostri risultati indicano che i LM preaddestrati possono effettivamente transitare verso un ragionamento astratto e strutturato all'interno di spazi di embedding latenti.

Valutare la Qualità tra le Lingue: Un Approccio Multilingue al Filtraggio dei Dati di Pretraining con Modelli Linguistici
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models

May 28, 2025

Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, Felix Stollenwerk, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting

182

Dati di addestramento multilingue di alta qualità sono essenziali per il pre-addestramento efficace di grandi modelli linguistici (LLM). Tuttavia, la disponibilità di dataset multilingue open-source adeguati rimane limitata. Gli attuali dataset all'avanguardia si basano principalmente su metodi di filtraggio euristico, limitando sia la loro trasferibilità cross-linguale che la scalabilità. Qui presentiamo JQL, un approccio sistematico che cura in modo efficiente dati multilingue diversificati e di alta qualità su larga scala, riducendo significativamente le richieste computazionali. JQL distilla le capacità di annotazione degli LLM in annotatori leggeri basati su embedding multilingue pre-addestrati. Questi modelli dimostrano prestazioni robuste multilingue e cross-linguale, anche per lingue e script non visti durante l'addestramento. Valutato empiricamente su 35 lingue, la pipeline di annotazione risultante supera sostanzialmente i metodi di filtraggio euristico attuali come Fineweb2. JQL migliora notevolmente la qualità dell'addestramento dei modelli downstream e aumenta i tassi di ritenzione dei dati. La nostra ricerca fornisce intuizioni pratiche e risorse preziose per la cura di dati multilingue, elevando gli standard di sviluppo dei dataset multilingue.

Cosa Serve per la Generazione di Testo in Panorami a 360 Gradi con Stable Diffusion?
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?

May 28, 2025

Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang

152

La recente prosperità dei modelli di diffusione testo-immagine, come Stable Diffusion, ha stimolato la ricerca per adattarli alla generazione di panorami a 360 gradi. Studi precedenti hanno dimostrato la fattibilità di utilizzare tecniche convenzionali di adattamento a basso rango su modelli di diffusione pre-addestrati per generare immagini panoramiche. Tuttavia, il notevole divario di dominio tra immagini prospettiche e panoramiche solleva interrogativi sui meccanismi sottostanti che consentono questo successo empirico. Ipotesi e analisi suggeriscono che le controparti addestrabili mostrano comportamenti distinti quando vengono perfezionate su dati panoramici, e tale adattamento nasconde alcuni meccanismi intrinseci per sfruttare la conoscenza pregressa all'interno dei modelli di diffusione pre-addestrati. La nostra analisi rivela quanto segue: 1) le matrici di query e chiave nei moduli di attenzione sono responsabili di informazioni comuni che possono essere condivise tra i domini panoramico e prospettico, risultando quindi meno rilevanti per la generazione di panorami; e 2) le matrici di valore e di peso dell'output si specializzano nell'adattare la conoscenza pre-addestrata al dominio panoramico, svolgendo un ruolo più critico durante il perfezionamento per la generazione di panorami. Verifichiamo empiricamente queste intuizioni introducendo un semplice framework chiamato UniPano, con l'obiettivo di stabilire una linea di base elegante per la ricerca futura. UniPano non solo supera i metodi esistenti, ma riduce significativamente l'uso della memoria e il tempo di addestramento rispetto agli approcci a doppio ramo precedenti, rendendolo scalabile per la generazione end-to-end di panorami con risoluzione più elevata. Il codice verrà rilasciato.

CHIMERA: Una Base di Conoscenza sulla Ricombinazione di Idee nella Letteratura Scientifica
CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature

May 27, 2025

Noy Sternlicht, Tom Hope

153

Un tratto distintivo dell'innovazione umana è il processo di ricombinazione: la creazione di idee originali integrando elementi di meccanismi e concetti esistenti. In questo lavoro, analizziamo automaticamente la letteratura scientifica e costruiamo CHIMERA: una knowledge base (KB) su larga scala di esempi di ricombinazione. CHIMERA può essere utilizzata per esplorare empiricamente, su vasta scala, come gli scienziati ricombinano concetti e traggono ispirazione da aree diverse, o per addestrare modelli di machine learning supervisionati che imparano a prevedere nuove direzioni creative interdominio. Per costruire questa KB, presentiamo un nuovo task di estrazione delle informazioni volto a identificare la ricombinazione negli abstract di articoli scientifici, raccogliamo un corpus di alta qualità composto da centinaia di abstract annotati manualmente e lo utilizziamo per addestrare un modello di estrazione basato su LLM. Il modello viene applicato a un ampio corpus di articoli nel dominio dell'IA, producendo una KB con oltre 28K esempi di ricombinazione. Analizziamo CHIMERA per esplorare le proprietà della ricombinazione in diverse sottoaree dell'IA. Infine, addestriamo un modello di generazione di ipotesi scientifiche utilizzando la KB, che prevede nuove direzioni di ricombinazione che i ricercatori del mondo reale trovano stimolanti. I nostri dati e il codice sono disponibili all'indirizzo https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.

Verso una Teoria della Mente Dinamica: Valutazione dell'Adattamento dei Modelli Linguistici all'Evoluzione Temporale degli Stati Umani
Towards Dynamic Theory of Mind: Evaluating LLM Adaptation to Temporal Evolution of Human States

May 23, 2025

Yang Xiao, Jiashuo Wang, Qiancheng Xu, Changhe Song, Chunpu Xu, Yi Cheng, Wenjie Li, Pengfei Liu

152

Man mano che i modelli linguistici di grandi dimensioni (LLM) partecipano sempre più alle interazioni uomo-IA, diventa cruciale valutare le loro capacità di Teoria della Mente (ToM) - in particolare la loro abilità di tracciare stati mentali dinamici. Sebbene i benchmark esistenti valutino le abilità di base della ToM, si concentrano prevalentemente su istantanee statiche degli stati mentali, trascurando l'evoluzione temporale che caratterizza le interazioni sociali nel mondo reale. Presentiamo DynToM, un nuovo benchmark specificamente progettato per valutare la capacità degli LLM di comprendere e tracciare la progressione temporale degli stati mentali attraverso scenari interconnessi. Attraverso un framework sistematico in quattro fasi, generiamo 1.100 contesti sociali che comprendono 5.500 scenari e 78.100 domande, ciascuno validato per realismo e qualità. La nostra valutazione completa di dieci LLM all'avanguardia rivela che la loro prestazione media è inferiore del 44,7% rispetto a quella umana, con un significativo deterioramento delle prestazioni quando si tratta di tracciare e ragionare sul cambiamento degli stati mentali. Questo divario di prestazione evidenzia limitazioni fondamentali nella capacità degli attuali LLM di modellare la natura dinamica degli stati mentali umani.

Pensare con Immagini Generate
Thinking with Generated Images

May 28, 2025

Ethan Chern, Zhulin Hu, Steffi Chern, Siqi Kou, Jiadi Su, Yan Ma, Zhijie Deng, Pengfei Liu

143

Presentiamo "Pensare con Immagini Generate", un paradigma innovativo che trasforma radicalmente il modo in cui i modelli multimodali di grandi dimensioni (LMM) interagiscono con il ragionamento visivo, consentendo loro di pensare in modo nativo attraverso le modalità di testo e visione mediante la generazione spontanea di passaggi intermedi di pensiero visivo. Attualmente, il ragionamento visivo con gli LMM è limitato all'elaborazione di immagini fisse fornite dall'utente o al ragionamento esclusivamente basato su catene di pensiero (CoT) testuali. "Pensare con Immagini Generate" sblocca una nuova dimensione di capacità cognitiva in cui i modelli possono costruire attivamente pensieri visivi intermedi, criticare le proprie ipotesi visive e affinarle come componenti integrali del loro processo di ragionamento. Dimostriamo l'efficacia del nostro approccio attraverso due meccanismi complementari: (1) generazione visiva con sotto-obiettivi visivi intermedi, in cui i modelli scompongono compiti visivi complessi in componenti gestibili che vengono generate e integrate progressivamente, e (2) generazione visiva con auto-critica, in cui i modelli generano un'ipotesi visiva iniziale, ne analizzano i limiti attraverso il ragionamento testuale e producono output raffinati basati sulle proprie critiche. I nostri esperimenti sui benchmark di generazione visiva mostrano miglioramenti sostanziali rispetto agli approcci di base, con i nostri modelli che raggiungono un miglioramento relativo fino al 50% (da 38% a 57%) nella gestione di scenari complessi con più oggetti. Dai biochimici che esplorano nuove strutture proteiche, agli architetti che iterano su progetti spaziali, dagli analisti forensi che ricostruiscono scene del crimine, ai giocatori di basket che immaginano strategie di gioco, il nostro approccio consente ai modelli di intelligenza artificiale di impegnarsi nel tipo di immaginazione visiva e affinamento iterativo che caratterizza il pensiero creativo, analitico e strategico umano. Rilasciamo la nostra suite open-source all'indirizzo https://github.com/GAIR-NLP/thinking-with-generated-images.

SVRPBench: Un Benchmark Realistico per il Problema Stocastico di Routing dei Veicoli
SVRPBench: A Realistic Benchmark for Stochastic Vehicle Routing Problem

May 28, 2025

Ahmed Heakl, Yahia Salaheldin Shaaban, Martin Takac, Salem Lahlou, Zangir Iklassov

142

Il routing robusto in condizioni di incertezza è fondamentale per la logistica nel mondo reale, tuttavia la maggior parte dei benchmark presuppone scenari statici e idealizzati. Presentiamo SVRPBench, il primo benchmark aperto che cattura dinamiche stocastiche ad alta fedeltà nel routing di veicoli su scala urbana. Comprendendo oltre 500 istanze con fino a 1000 clienti, simula condizioni di consegna realistiche: congestione dipendente dal tempo, ritardi log-normali, incidenti probabilistici e finestre temporali basate su dati empirici per clienti residenziali e commerciali. La nostra pipeline genera scenari diversificati e ricchi di vincoli, inclusi setup multi-deposito e multi-veicolo. Il benchmarking rivela che i solutori RL all'avanguardia come POMO e AM peggiorano di oltre il 20% in caso di cambiamento distributivo, mentre i metodi classici e meta-euristici rimangono robusti. Per consentire una ricerca riproducibile, rilasciamo il dataset e la suite di valutazione. SVRPBench sfida la comunità a progettare solutori che generalizzino oltre le ipotesi sintetiche e si adattino all'incertezza del mondo reale.

Sicurezza Personalizzata nei LLM: Un Benchmark e un Approccio Basato su Agenti di Pianificazione
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach

May 24, 2025

Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang

142

I grandi modelli linguistici (LLM) generano tipicamente risposte identiche o simili per tutti gli utenti a fronte dello stesso prompt, rappresentando un serio rischio per la sicurezza in applicazioni ad alto rischio dove le vulnerabilità degli utenti variano ampiamente. Le valutazioni di sicurezza esistenti si basano principalmente su metriche indipendenti dal contesto, come l'accuratezza fattuale, i pregiudizi o la tossicità, trascurando il fatto che la stessa risposta può comportare rischi divergenti a seconda del background o della condizione dell'utente. Introduciamo la sicurezza personalizzata per colmare questa lacuna e presentiamo PENGUIN, un benchmark che comprende 14.000 scenari in sette domini sensibili con varianti sia ricche di contesto che prive di contesto. Valutando sei principali LLM, dimostriamo che le informazioni personalizzate sull'utente migliorano significativamente i punteggi di sicurezza del 43,2%, confermando l'efficacia della personalizzazione nell'allineamento della sicurezza. Tuttavia, non tutti gli attributi del contesto contribuiscono in egual modo al miglioramento della sicurezza. Per affrontare questo problema, sviluppiamo RAISE, un framework agente a due fasi senza addestramento che acquisisce strategicamente il background specifico dell'utente. RAISE migliora i punteggi di sicurezza fino al 31,6% rispetto a sei LLM standard, mantenendo un basso costo di interazione di appena 2,7 query utente in media. I nostri risultati evidenziano l'importanza della raccolta selettiva di informazioni nei domini critici per la sicurezza e offrono una soluzione pratica per personalizzare le risposte degli LLM senza dover riaddestrare il modello. Questo lavoro getta le basi per la ricerca sulla sicurezza che si adatta ai contesti individuali degli utenti piuttosto che assumere uno standard universale di danno.

La riduzione dei token dovrebbe andare oltre l'efficienza nei modelli generativi -- Dalla visione, al linguaggio, alla multimodalità
Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality

May 23, 2025

Zhenglun Kong, Yize Li, Fanhu Zeng, Lei Xin, Shvat Messica, Xue Lin, Pu Zhao, Manolis Kellis, Hao Tang, Marinka Zitnik

143

Nelle architetture Transformer, i token\textemdash unità discrete derivate dai dati grezzi\textemdash vengono formati segmentando gli input in blocchi di lunghezza fissa. Ogni token viene poi mappato in un embedding, consentendo calcoli di attenzione paralleli preservando le informazioni essenziali dell'input. A causa della complessità computazionale quadratica dei meccanismi di self-attention dei transformer, la riduzione dei token è stata principalmente utilizzata come strategia di efficienza. Ciò è particolarmente vero nei domini di visione e linguaggio singoli, dove aiuta a bilanciare i costi computazionali, l'uso della memoria e la latenza di inferenza. Nonostante questi progressi, questo articolo sostiene che la riduzione dei token dovrebbe trascendere il suo ruolo tradizionale orientato all'efficienza nell'era dei grandi modelli generativi. Invece, la posizioniamo come un principio fondamentale nella modellazione generativa, influenzando criticamente sia l'architettura del modello che le applicazioni più ampie. Nello specifico, sosteniamo che, nei sistemi di visione, linguaggio e multimodali, la riduzione dei token può: (i) facilitare un'integrazione e un allineamento multimodale più profondo, (ii) mitigare il "sovrapensiero" e le allucinazioni, (iii) mantenere la coerenza su input lunghi e (iv) migliorare la stabilità dell'addestramento, tra gli altri. Riformuliamo la riduzione dei token come più di una misura di efficienza. In tal modo, delineiamo promettenti direzioni future, tra cui la progettazione di algoritmi, la riduzione dei token guidata dal reinforcement learning, l'ottimizzazione dei token per l'apprendimento in contesto e i domini più ampi dell'apprendimento automatico e scientifico. Ne evidenziamo il potenziale di guidare nuove architetture di modelli e strategie di apprendimento che migliorano la robustezza, aumentano l'interpretabilità e si allineano meglio agli obiettivi della modellazione generativa.

Rafforzare il Ragionamento Multi-Turn negli Agenti LLM tramite Assegnazione di Credito a Livello di Turno
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment

May 17, 2025

Siliang Zeng, Quan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi Hong

142

Questo articolo indaga approcci per potenziare le capacità di ragionamento degli agenti basati su Large Language Model (LLM) utilizzando il Reinforcement Learning (RL). In particolare, ci concentriamo su scenari di utilizzo di strumenti multi-turn, che possono essere naturalmente modellati come Processi di Decisione Markoviani (MDP). Mentre gli approcci esistenti spesso addestrano agenti LLM multi-turn con stime del vantaggio a livello di traiettoria in contesti di bandit, essi incontrano difficoltà nell'assegnazione del credito a livello di turno attraverso più passaggi decisionali, limitando le loro prestazioni nei compiti di ragionamento multi-turn. Per affrontare questo problema, introduciamo una strategia di stima del vantaggio a livello di turno più granulare, che consente un'assegnazione del credito più precisa nelle interazioni multi-turn degli agenti. La strategia è generale e può essere incorporata in vari algoritmi RL, come l'Optimization delle Preferenze Relative di Gruppo (GRPO). La nostra valutazione sperimentale su compiti di ragionamento multi-turn e di utilizzo di strumenti basati su ricerca con implementazioni GRPO evidenzia l'efficacia del framework MDP e dell'assegnazione del credito a livello di turno nel migliorare le capacità di ragionamento multi-turn degli agenti LLM in contesti decisionali complessi. Il nostro metodo raggiunge il 100% di successo nell'esecuzione degli strumenti e il 50% di accuratezza nella corrispondenza esatta delle risposte, superando significativamente i baseline, che non riescono a invocare gli strumenti e raggiungono solo un'accuratezza di corrispondenza esatta del 20-30%.

LIMOPro: Affinamento del Ragionamento per un Ridimensionamento Efficiente ed Efficace in Fase di Test
LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling

May 25, 2025

Yang Xiao, Jiashuo Wang, Ruifeng Yuan, Chunpu Xu, Kaishuai Xu, Wenjie Li, Pengfei Liu

133

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli attraverso approcci di scalabilità al momento del test, in particolare quando vengono perfezionati con dati di catena di pensiero (CoT) distillati da modelli di ragionamento di grandi dimensioni (LRM) più potenti. Tuttavia, queste catene di ragionamento spesso contengono elementi verbosi che rispecchiano la risoluzione dei problemi umana, classificati come ragionamento progressivo (il percorso essenziale di sviluppo della soluzione) ed elementi funzionali (processi di verifica, approcci alternativi alla soluzione e correzioni degli errori). Sebbene il ragionamento progressivo sia cruciale, gli elementi funzionali aumentano significativamente le richieste computazionali durante l'inferenza al momento del test. Introduciamo PIR (Perplexity-based Importance Refinement), un framework principiato che valuta quantitativamente l'importanza di ogni passo di ragionamento in base al suo impatto sulla fiducia nella previsione della risposta. PIR identifica sistematicamente e pota selettivamente solo i passi funzionali di bassa importanza, preservando i componenti del ragionamento progressivo, creando dati di addestramento ottimizzati che mantengono l'integrità del percorso di soluzione principale riducendo la verbosità. I modelli perfezionati sui dati ottimizzati da PIR mostrano proprietà di scalabilità al momento del test superiori, generando catene di ragionamento più concise e ottenendo una precisione migliorata (+0,9\% a +6,6\%) con un utilizzo significativamente ridotto dei token (-3\% a -41\%) su benchmark di ragionamento impegnativi (AIME, AMC e GPQA Diamond). Il nostro approccio dimostra una forte generalizzabilità su diverse dimensioni del modello, fonti di dati e budget di token, offrendo una soluzione pratica per il dispiegamento di LLM capaci di ragionamento in scenari in cui la scalabilità efficiente al momento del test, il tempo di risposta e l'efficienza computazionale sono vincoli preziosi.

VRAG-RL: Potenziamento del RAG basato sulla percezione visiva per la comprensione di informazioni visivamente ricche attraverso ragionamento iterativo con apprendimento per rinforzo
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

May 28, 2025

Qiuchen Wang, Ruixue Ding, Yu Zeng, Zehui Chen, Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao

113

Recuperare, ragionare e comprendere efficacemente informazioni visivamente ricche rimane una sfida per i metodi RAG. I tradizionali approcci basati su testo non sono in grado di gestire informazioni legate al contesto visivo. D'altra parte, gli attuali approcci RAG basati sulla visione sono spesso limitati da pipeline rigide e faticano a ragionare efficacemente a causa dell'attivazione insufficiente delle capacità fondamentali dei modelli. Poiché l'RL (Reinforcement Learning) si è dimostrato vantaggioso per il ragionamento dei modelli, introduciamo VRAG-RL, un nuovo framework RL progettato per il ragionamento complesso su informazioni visivamente ricche. Con questo framework, i VLMs (Vision-Language Models) interagiscono con i motori di ricerca, campionando autonomamente traiettorie di ragionamento a turno singolo o multiplo con l'aiuto di token di percezione visiva e sottoponendosi a un'ottimizzazione continua basata su questi campioni. Il nostro approccio evidenzia due limitazioni chiave dell'RL nei domini RAG: (i) I precedenti approcci RAG multimodali tendono a incorporare semplicemente le immagini nel contesto, portando a un'allocazione insufficiente dei token di ragionamento e trascurando la percezione specifica del contesto visivo; e (ii) Quando i modelli interagiscono con i motori di ricerca, le loro query spesso non riescono a recuperare informazioni rilevanti a causa dell'incapacità di articolare i requisiti, portando così a prestazioni subottimali. Per affrontare queste sfide, definiamo uno spazio di azioni progettato per input visivamente ricchi, con azioni che includono ritaglio e ridimensionamento, consentendo al modello di raccogliere informazioni da una prospettiva grossolana a fine. Inoltre, per colmare il divario tra le richieste originali degli utenti e il sistema di recupero, utilizziamo una ricompensa semplice ma efficace che integra la riscrittura delle query e le prestazioni di recupero con una ricompensa basata sul modello. Il nostro VRAG-RL ottimizza i VLMs per i task RAG utilizzando strategie RL appositamente progettate, allineando il modello con applicazioni del mondo reale. Il codice è disponibile all'indirizzo https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.

EPiC: Apprendimento Efficiente del Controllo della Videocamera con Guida Precisa Anchor-Video
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance

May 28, 2025

Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal

I recenti approcci sul controllo della telecamera 3D nei modelli di diffusione video (VDM) spesso creano video di ancoraggio per guidare i modelli di diffusione come un priore strutturato, renderizzando da nuvole di punti stimate seguendo traiettorie della telecamera annotate. Tuttavia, gli errori intrinseci nella stima delle nuvole di punti spesso portano a video di ancoraggio imprecisi. Inoltre, la necessità di ampie annotazioni delle traiettorie della telecamera aumenta ulteriormente le richieste di risorse. Per affrontare queste limitazioni, introduciamo EPiC, un framework di apprendimento per il controllo della telecamera efficiente e preciso che costruisce automaticamente video di ancoraggio di alta qualità senza costose annotazioni delle traiettorie della telecamera. Nello specifico, creiamo video di ancoraggio altamente precisi per l'addestramento mascherando i video sorgente in base alla visibilità del primo fotogramma. Questo approccio garantisce un elevato allineamento, elimina la necessità di annotazioni delle traiettorie della telecamera e può quindi essere facilmente applicato a qualsiasi video in-the-wild per generare coppie di addestramento immagine-video (I2V). Inoltre, introduciamo Anchor-ControlNet, un modulo di condizionamento leggero che integra la guida del video di ancoraggio nelle regioni visibili ai VDM pre-addestrati, con meno dell'1% dei parametri del modello principale. Combinando i dati del video di ancoraggio proposti e il modulo ControlNet, EPiC raggiunge un addestramento efficiente con un numero sostanzialmente inferiore di parametri, passi di addestramento e meno dati, senza richiedere modifiche al modello di diffusione principale tipicamente necessarie per mitigare i disallineamenti di rendering. Sebbene sia addestrato su video di ancoraggio basati su mascheratura, il nostro metodo si generalizza robustamente a video di ancoraggio creati con nuvole di punti durante l'inferenza, consentendo un controllo preciso della telecamera informato in 3D. EPiC raggiunge prestazioni all'avanguardia su RealEstate10K e MiraData per il compito di controllo della telecamera I2V, dimostrando un'abilità di controllo della telecamera precisa e robusta sia quantitativamente che qualitativamente. In particolare, EPiC mostra anche una forte generalizzazione zero-shot agli scenari video-to-video.

Innesto di Encoder Visivi Zero-Shot tramite Surrogati di LLM
Zero-Shot Vision Encoder Grafting via LLM Surrogates

May 28, 2025

Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein

I modelli linguistici visivi (VLMs) tipicamente accoppiano un encoder visivo di dimensioni modeste con un grande modello linguistico (LLM), ad esempio Llama-70B, rendendo il decoder il principale onere computazionale durante l'addestramento. Per ridurre i costi, una strategia potenzialmente promettente consiste nel addestrare prima l'encoder visivo utilizzando un piccolo modello linguistico prima di trasferirlo a quello più grande. Costruiamo piccoli "modelli surrogati" che condividono lo stesso spazio di embedding e linguaggio di rappresentazione del grande LLM target ereditandone direttamente gli strati superficiali. Gli encoder visivi addestrati sul surrogato possono quindi essere trasferiti direttamente al modello più grande, un processo che chiamiamo innesto zero-shot: quando collegati direttamente al LLM target a grandezza naturale, la coppia innestata supera la coppia encoder-surrogato e, in alcuni benchmark, performa addirittura alla pari con l'addestramento completo del decoder con il LLM target. Inoltre, il nostro approccio di addestramento surrogato riduce i costi complessivi di addestramento dei VLM di circa il 45% quando si utilizza Llama-70B come decoder.

RICO: Miglioramento della Precisione e Completezza nel Ricaptionamento di Immagini tramite Ricostruzione Visiva
RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction

May 28, 2025

Yuchi Wang, Yishuo Cai, Shuhuai Ren, Sihan Yang, Linli Yao, Yuanxin Liu, Yuanxing Zhang, Pengfei Wan, Xu Sun

Il ricaptioning delle immagini è ampiamente utilizzato per generare dataset di addestramento di qualità superiore per varie attività multimodali. I metodi di ricaptioning esistenti si basano tipicamente su potenti modelli linguistici multimodali di grandi dimensioni (MLLM) per migliorare le descrizioni testuali, ma spesso soffrono di imprecisioni dovute a allucinazioni e incompletezza causate dalla mancanza di dettagli granulari. Per affrontare queste limitazioni, proponiamo RICO, un nuovo framework che perfeziona le didascalie attraverso la ricostruzione visiva. Nello specifico, sfruttiamo un modello text-to-image per ricostruire una didascalia in un'immagine di riferimento e sollecitiamo un MLLM a identificare le discrepanze tra l'immagine originale e quella ricostruita per affinare la didascalia. Questo processo viene eseguito in modo iterativo, promuovendo ulteriormente la generazione di descrizioni più fedeli e complete. Per mitigare il costo computazionale aggiuntivo indotto dal processo iterativo, introduciamo RICO-Flash, che impara a generare didascalie come RICO utilizzando DPO. Esperimenti estensivi dimostrano che il nostro approccio migliora significativamente l'accuratezza e la completezza delle didascalie, superando la maggior parte dei benchmark di circa il 10% sia su CapsBench che su CompreCap. Il codice è disponibile all'indirizzo https://github.com/wangyuchi369/RICO.

PrismLayers: Dati Aperti per Modelli Generativi di Immagini Trasparenti Multistrato di Alta Qualità
PrismLayers: Open Data for High-Quality Multi-Layer Transparent Image Generative Models

May 28, 2025

Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan

La generazione di immagini trasparenti multistrato di alta qualità a partire da prompt testuali può sbloccare un nuovo livello di controllo creativo, consentendo agli utenti di modificare ogni strato con la stessa facilità con cui si modificano gli output testuali dei modelli linguistici di grandi dimensioni (LLM). Tuttavia, lo sviluppo di modelli generativi multistrato è in ritardo rispetto ai modelli convenzionali di testo-immagine, a causa della mancanza di un ampio corpus di dati trasparenti multistrato di alta qualità. In questo articolo, affrontiamo questa sfida fondamentale: (i) rilasciando il primo dataset aperto e ad altissima fedeltà PrismLayers (PrismLayersPro) composto da 200K (20K) immagini trasparenti multistrato con alpha matte accurati, (ii) introducendo una pipeline di sintesi senza addestramento che genera tali dati su richiesta utilizzando modelli di diffusione disponibili sul mercato, e (iii) fornendo un modello generativo multistrato open-source robusto, ART+, che eguaglia l'estetica dei moderni modelli di generazione testo-immagine. I contributi tecnici chiave includono: LayerFLUX, che eccelle nella generazione di singoli strati trasparenti di alta qualità con alpha matte accurati, e MultiLayerFLUX, che compone più output di LayerFLUX in immagini complete, guidato da un layout semantico annotato manualmente. Per garantire una qualità superiore, applichiamo una fase di filtraggio rigorosa per rimuovere artefatti e incongruenze semantiche, seguita da una selezione manuale. Il fine-tuning del modello ART all'avanguardia sul nostro dataset sintetico PrismLayersPro produce ART+, che supera l'originale ART nel 60% dei confronti in uno studio utente diretto e addirittura eguaglia la qualità visiva delle immagini generate dal modello FLUX.1-[dev]. Prevediamo che il nostro lavoro stabilirà una solida base di dati per il compito di generazione di immagini trasparenti multistrato, abilitando ricerche e applicazioni che richiedono immagini stratificate precise, modificabili e visivamente accattivanti.

Text2Grad: Apprendimento per Rinforzo da Feedback in Linguaggio Naturale
Text2Grad: Reinforcement Learning from Natural Language Feedback

May 28, 2025

Hanyang Wang, Lu Wang, Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

Il tradizionale RLHF ottimizza i modelli linguistici con ricompense scalari grossolane che mascherano le ragioni dettagliate dietro il successo o il fallimento, portando a un apprendimento lento e opaco. Recenti lavori hanno arricchito il RL con critiche testuali attraverso prompt o riflessioni, migliorando l'interpretabilità ma lasciando inalterati i parametri del modello. Introduciamo Text2Grad, un paradigma di apprendimento per rinforzo che trasforma il feedback testuale in gradienti a livello di span. Dato un feedback umano (o programmatico), Text2Grad allinea ogni frase di critica con gli span di token rilevanti, converte questi allineamenti in segnali di ricompensa differenziabili ed esegue aggiornamenti di gradiente che affinano direttamente le porzioni problematiche della politica del modello. Ciò produce aggiustamenti precisi e condizionati dal feedback, anziché modifiche globali. Text2Grad è realizzato attraverso tre componenti: (1) una pipeline di annotazione di feedback di alta qualità che associa le critiche agli span di token; (2) un modello di ricompensa fine che predice la ricompensa a livello di span sulle risposte mentre genera critiche esplicative; e (3) un ottimizzatore di politica a livello di span che propaga all'indietro i gradienti in linguaggio naturale. In ambiti come la sintesi, la generazione di codice e la risposta alle domande, Text2Grad supera costantemente il RL con ricompense scalari e i baseline basati solo su prompt, fornendo sia metriche di task più elevate che una maggiore interpretabilità. I nostri risultati dimostrano che il feedback in linguaggio naturale, quando convertito in gradienti, è un segnale potente per l'ottimizzazione fine della politica. Il codice del nostro metodo è disponibile all'indirizzo https://github.com/microsoft/Text2Grad.

Insidie dei Verificatori Basati su Regole e Modelli - Uno Studio di Caso sul Ragionamento Matematico
Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning

May 28, 2025

Yuzhen Huang, Weihao Zeng, Xingshan Zeng, Qi Zhu, Junxian He

Verificatori affidabili sono essenziali per il successo del reinforcement learning con ricompensa verificabile (RLVR), che rappresenta la metodologia centrale dietro vari modelli di ragionamento su larga scala come DeepSeek-R1. In domini complessi come il ragionamento matematico, verificatori basati su regole sono stati ampiamente adottati in lavori precedenti per addestrare modelli di ragionamento robusti. Tuttavia, l'affidabilità di questi verificatori e il loro impatto sul processo di addestramento RL rimangono poco compresi. In questo lavoro, prendiamo il ragionamento matematico come caso di studio e conduciamo un'analisi completa di vari verificatori sia in scenari di valutazione statica che di addestramento RL. In primo luogo, scopriamo che gli attuali verificatori open-source basati su regole spesso non riescono a riconoscere risposte equivalenti presentate in formati diversi su più dataset matematici comunemente utilizzati, risultando in tassi di falsi negativi non trascurabili. Questa limitazione influisce negativamente sulle prestazioni dell'addestramento RL e diventa più evidente man mano che il modello di policy diventa più forte. Successivamente, investigiamo i verificatori basati su modelli come una potenziale soluzione per affrontare queste limitazioni. Sebbene la valutazione statica mostri che i verificatori basati su modelli raggiungono un'accuratezza di verifica significativamente più elevata, ulteriori analisi e risultati dell'addestramento RL suggeriscono che sono altamente suscettibili a manipolazioni, in cui classificano erroneamente determinati pattern nelle risposte come corretti (cioè falsi positivi). Questa vulnerabilità viene sfruttata durante l'ottimizzazione del modello di policy, portando a ricompense artificialmente gonfiate. Le nostre scoperte evidenziano i rischi unici intrinseci sia ai verificatori basati su regole che su modelli, con l'obiettivo di offrire spunti preziosi per sviluppare sistemi di ricompensa più robusti nel reinforcement learning.

Prot2Token: Un Framework Unificato per la Modellazione Proteica tramite Predizione del Token Successivo
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction

May 26, 2025

Mahdi Pourmirzaei, Farzaneh Esmaili, Salhuldin Alqarghuli, Mohammadreza Pourmirzaei, Ye Han, Kai Chen, Mohsen Rezaei, Duolin Wang, Dong Xu

La natura diversificata dei compiti di previsione proteica ha tradizionalmente richiesto modelli specializzati, ostacolando lo sviluppo di Modelli Linguistici Proteici (PLM) ampiamente applicabili e computazionalmente efficienti. In questo lavoro, introduciamo Prot2Token, un framework unificato che supera queste sfide convertendo un'ampia gamma di previsioni relative alle proteine, dalle proprietà a livello di sequenza e attributi specifici dei residui alle complesse interazioni inter-proteiche, in un formato standardizzato di previsione del token successivo. Al suo nucleo, Prot2Token utilizza un decoder autoregressivo, condizionato su embedding da encoder proteici pre-addestrati e guidato da token di compito apprendibili, per eseguire previsioni diversificate. Questa architettura facilita in modo unico l'apprendimento multi-task, consentendo a un singolo modello di padroneggiare numerosi compiti con una maggiore efficienza. Presentiamo una vasta validazione sperimentale su una varietà di benchmark, dimostrando la forte capacità predittiva di Prot2Token in diversi tipi di compiti di previsione proteica. I risultati chiave includono significativi miglioramenti in termini di velocità (ad esempio, quasi 1000x rispetto ad AlphaFold2 con MSA) e prestazioni che spesso eguagliano o superano approcci specializzati. Oltre a ciò, introduciamo un approccio ausiliario di pre-addestramento self-supervised del decoder per migliorare le prestazioni nei compiti sensibili alla spazialità. Prot2Token rappresenta quindi un passo significativo verso un paradigma versatile e ad alto rendimento per la modellazione proteica, promettendo di accelerare la scoperta biologica e lo sviluppo di nuove terapie. Il codice è disponibile all'indirizzo https://github.com/mahdip72/prot2token.

MangaVQA e MangaLMM: Un Benchmark e un Modello Specializzato per la Comprensione Multimodale dei Manga
MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding

May 26, 2025

Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa

Il manga, o fumetto giapponese, è una forma narrativa fortemente multimodale che combina immagini e testo in modi complessi. Insegnare ai grandi modelli multimodali (LMM) a comprendere tali narrazioni a un livello simile a quello umano potrebbe aiutare i creatori di manga a riflettere e affinare le loro storie. A tal fine, introduciamo due benchmark per la comprensione multimodale dei manga: MangaOCR, che si concentra sul riconoscimento del testo all'interno delle pagine, e MangaVQA, un nuovo benchmark progettato per valutare la comprensione contestuale attraverso il visual question answering. MangaVQA è composto da 526 coppie domanda-risposta di alta qualità, costruite manualmente, che consentono una valutazione affidabile in diversi scenari narrativi e visivi. Basandoci su questi benchmark, sviluppiamo MangaLMM, un modello specializzato per i manga, ottimizzato a partire dal modello open-source LMM Qwen2.5-VL per gestire entrambe le attività. Attraverso esperimenti estensivi, inclusi confronti con modelli proprietari come GPT-4o e Gemini 2.5, valutiamo quanto bene i LMM comprendono i manga. Il nostro benchmark e il modello forniscono una base completa per valutare e avanzare i LMM nel ricco dominio narrativo dei manga.

Biglietto di sola andata: Encoder unificato indipendente dal tempo per la distillazione di modelli di diffusione testo-immagine
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models

May 28, 2025

Senmao Li, Lei Wang, Kai Wang, Tao Liu, Jiehang Xie, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang

I modelli di diffusione Text-to-Image (T2I) hanno compiuto progressi significativi nella modellazione generativa; tuttavia, devono affrontare un compromesso tra velocità di inferenza e qualità dell'immagine, ponendo sfide per un dispiegamento efficiente. I modelli T2I distillati esistenti possono generare immagini ad alta fedeltà con un numero ridotto di passaggi di campionamento, ma spesso incontrano difficoltà nella diversità e nella qualità, specialmente nei modelli a un solo passaggio. Dalla nostra analisi, osserviamo calcoli ridondanti negli encoder UNet. I nostri risultati suggeriscono che, per i modelli di diffusione T2I, i decoder sono più abili nel catturare informazioni semantiche più ricche ed esplicite, mentre gli encoder possono essere efficacemente condivisi tra decoder provenienti da diversi passaggi temporali. Sulla base di queste osservazioni, introduciamo il primo Time-independent Unified Encoder (TiUE) per l'architettura UNet del modello studente, che rappresenta un approccio alla generazione di immagini senza loop per la distillazione dei modelli di diffusione T2I. Utilizzando uno schema a passaggio unico, TiUE condivide le caratteristiche dell'encoder tra più passaggi temporali del decoder, consentendo un campionamento parallelo e riducendo significativamente la complessità temporale dell'inferenza. Inoltre, incorporiamo un termine di divergenza KL per regolarizzare la previsione del rumore, migliorando il realismo percettivo e la diversità delle immagini generate. I risultati sperimentali dimostrano che TiUE supera i metodi all'avanguardia, inclusi LCM, SD-Turbo e SwiftBrushv2, producendo risultati più diversificati e realistici mantenendo al contempo l'efficienza computazionale.

Proprio come gli esseri umani hanno bisogno di vaccini, lo stesso vale per i modelli: l'immunizzazione dei modelli per contrastare le falsità.
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods

May 23, 2025

Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis

I modelli di intelligenza artificiale generativa spesso apprendono e riproducono informazioni false presenti nei loro corpora di addestramento. Questo position paper sostiene che, analogamente all'immunizzazione biologica, in cui l'esposizione controllata a un patogeno indebolito sviluppa l'immunità, i modelli di IA dovrebbero essere ottimizzati su piccoli set di falsità esplicitamente etichettate e messe in quarantena, come un "vaccino" contro la disinformazione. Questi esempi falsi curati vengono periodicamente iniettati durante l'ottimizzazione, rafforzando la capacità del modello di riconoscere e respingere affermazioni fuorvianti, preservando al contempo l'accuratezza sugli input veritieri. Uno studio di caso illustrativo dimostra che i modelli immunizzati generano sostanzialmente meno disinformazione rispetto ai modelli di base. Per quanto ne sappiamo, questo è il primo framework di addestramento che tratta le falsità verificate come un vaccino supervisionato, piuttosto che affidarsi a perturbazioni degli input o a segnali generici di feedback umano, per rafforzare i modelli contro la disinformazione futura. Delineiamo inoltre salvaguardie etiche e controlli di governance per garantire l'uso sicuro di dati falsi. L'immunizzazione dei modelli offre un paradigma proattivo per allineare i sistemi di IA alla veridicità.

Safe-Sora: Generazione Sicura di Video da Testo tramite Filigrana Grafica
Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

May 19, 2025

Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu

La crescita esplosiva dei modelli generativi di video ha amplificato la richiesta di una tutela affidabile del copyright per i contenuti generati dall'IA. Nonostante la sua popolarità nella sintesi di immagini, il watermarking generativo invisibile rimane ampiamente inesplorato nella generazione di video. Per colmare questa lacuna, proponiamo Safe-Sora, il primo framework per incorporare watermark grafici direttamente nel processo di generazione video. Motivati dall'osservazione che le prestazioni del watermarking sono strettamente legate alla somiglianza visiva tra il watermark e il contenuto di copertina, introduciamo un meccanismo di adattamento gerarchico dal generale al dettaglio. Nello specifico, l'immagine del watermark viene suddivisa in patch, ciascuna assegnata al fotogramma video visivamente più simile, e ulteriormente localizzata nella regione spaziale ottimale per un'incorporazione senza soluzione di continuità. Per abilitare la fusione spazio-temporale delle patch di watermark tra i fotogrammi video, sviluppiamo un'architettura Mappa potenziata da trasformata wavelet 3D con una nuova strategia di scansione locale spazio-temporale, modellando efficacemente le dipendenze a lungo raggio durante l'incorporazione e il recupero del watermark. Per quanto ne sappiamo, questo è il primo tentativo di applicare modelli a stati spazio al watermarking, aprendo nuove strade per una protezione efficiente e robusta dei watermark. Esperimenti estensivi dimostrano che Safe-Sora raggiunge prestazioni all'avanguardia in termini di qualità video, fedeltà del watermark e robustezza, attribuibili in gran parte alle nostre proposte. Rilasceremo il nostro codice alla pubblicazione.

Styl3R: Ricostruzione 3D Stilizzata Istantanea per Scene e Stili Arbitrari
Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles

May 27, 2025

Peng Wang, Xiang Liu, Peidong Liu

La stilizzazione istantanea di scene 3D mantenendo la coerenza multi-vista e rispecchiando fedelmente un'immagine di stile rimane una sfida significativa. I metodi attuali all'avanguardia per la stilizzazione 3D comportano tipicamente un'ottimizzazione computazionalmente intensa al momento del test per trasferire caratteristiche artistiche in una rappresentazione 3D pre-addestrata, spesso richiedendo immagini di input dense e posate. Al contrario, sfruttando i recenti progressi nei modelli di ricostruzione feed-forward, dimostriamo un approccio innovativo per ottenere una stilizzazione 3D diretta in meno di un secondo utilizzando immagini di scene sparse e non posate e un'immagine di stile arbitraria. Per affrontare il disaccoppiamento intrinseco tra ricostruzione e stilizzazione, introduciamo un'architettura ramificata che separa la modellazione della struttura e l'ombreggiatura dell'aspetto, prevenendo efficacemente la distorsione della struttura sottostante della scena 3D durante il trasferimento stilistico. Inoltre, adattiamo una perdita di identità per facilitare il pre-addestramento del nostro modello di stilizzazione attraverso il compito di sintesi di nuove viste. Questa strategia consente anche al nostro modello di mantenere le sue capacità originali di ricostruzione mentre viene perfezionato per la stilizzazione. Valutazioni complete, utilizzando sia dataset in dominio che fuori dominio, dimostrano che il nostro approccio produce contenuti 3D stilizzati di alta qualità che raggiungono una miscela superiore di stile e aspetto della scena, superando anche i metodi esistenti in termini di coerenza multi-vista ed efficienza.

Selezione Efficiente dei Dati su Larga Scala tramite Distillazione dell'Influenza
Efficient Data Selection at Scale via Influence Distillation

May 25, 2025

Mahdi Nikdan, Vincent Cohen-Addad, Dan Alistarh, Vahab Mirrokni

La selezione efficace dei dati è fondamentale per l'addestramento efficiente dei moderni Large Language Models (LLM). Questo articolo introduce Influence Distillation, un nuovo framework matematicamente giustificato per la selezione dei dati che utilizza informazioni di secondo ordine per ponderare in modo ottimale i campioni di addestramento. Distillando l'influenza di ciascun campione su una distribuzione target, il nostro metodo assegna pesi specifici per il modello che vengono utilizzati per selezionare i dati di addestramento per il fine-tuning degli LLM, guidandoli verso prestazioni solide nel dominio target. Deriviamo questi pesi ottimali sia per l'ottimizzatore Gradient Descent che per Adam. Per garantire scalabilità e ridurre i costi computazionali, proponiamo un'approssimazione basata su landmark: l'influenza viene calcolata con precisione per un piccolo sottoinsieme di campioni "landmark" e poi propagata efficientemente a tutti gli altri campioni per determinarne i pesi. Validiamo Influence Distillation applicandolo al tuning delle istruzioni sul dataset Tulu V2, mirando a una gamma di task tra cui GSM8k, SQuAD e MMLU, su diversi modelli delle famiglie Llama e Qwen. Gli esperimenti dimostrano che Influence Distillation eguaglia o supera le prestazioni state-of-the-art, raggiungendo una selezione fino a 3,5 volte più veloce.

GRE Suite: Inferenza di Geo-localizzazione tramite Modelli Visione-Linguaggio Fine-Tunati e Catene di Ragionamento Potenziate
GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains

May 24, 2025

Chun Wang, Xiaoran Pan, Zihao Pan, Haofan Wang, Yiren Song

I recenti progressi nei Modelli di Linguaggio Visivo (VLMs) hanno dimostrato prestazioni eccezionali nei compiti di ragionamento visivo. Tuttavia, la geo-localizzazione presenta sfide uniche, richiedendo l'estrazione di indizi visivi multigranulari dalle immagini e la loro integrazione con conoscenze esterne del mondo per un ragionamento sistematico. Gli approcci attuali ai compiti di geo-localizzazione spesso mancano di meccanismi di ragionamento robusti e di spiegabilità, limitandone l'efficacia. Per affrontare queste limitazioni, proponiamo la Geo Reason Enhancement (GRE) Suite, un nuovo framework che potenzia i VLMs con catene di ragionamento strutturate per un'inferenza di localizzazione accurata e interpretabile. La GRE Suite è sviluppata sistematicamente lungo tre dimensioni chiave: dataset, modello e benchmark. In primo luogo, introduciamo GRE30K, un dataset di ragionamento per geo-localizzazione di alta qualità progettato per facilitare l'analisi visiva e contestuale fine. Successivamente, presentiamo il modello GRE, che impiega una strategia di ragionamento multi-stadio per inferire progressivamente attributi della scena, dettagli locali e caratteristiche semantiche, restringendo così le potenziali regioni geografiche con precisione migliorata. Infine, costruiamo il Geo Reason Evaluation Benchmark (GREval-Bench), un framework di valutazione completo che valuta i VLMs in diverse scene urbane, naturali e di landmark per misurare le prestazioni di localizzazione sia a livello granulare grossolano (ad esempio, paese, continente) che fine (ad esempio, città, strada). I risultati sperimentali dimostrano che GRE supera significativamente i metodi esistenti in tutti i livelli di granularità dei compiti di geo-localizzazione, sottolineando l'efficacia dei VLMs potenziati dal ragionamento nell'inferenza geografica complessa. Codice e dati saranno rilasciati su https://github.com/Thorin215/GRE.

FastTD3: Apprendimento per Rinforzo Semplice, Veloce ed Efficace per il Controllo di Umanoidi
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

May 28, 2025

Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel

L'apprendimento per rinforzo (Reinforcement Learning, RL) ha guidato progressi significativi nel campo della robotica, ma la sua complessità e i lunghi tempi di addestramento rimangono ostacoli principali. In questo rapporto, presentiamo FastTD3, un algoritmo RL semplice, veloce e performante che accelera notevolmente l'addestramento per robot umanoidi in suite popolari come HumanoidBench, IsaacLab e MuJoCo Playground. La nostra ricetta è sorprendentemente semplice: addestriamo un agente TD3 off-policy con diverse modifiche — simulazione parallela, aggiornamenti con batch di grandi dimensioni, un critico distribuzionale e iperparametri attentamente ottimizzati. FastTD3 risolve una serie di task di HumanoidBench in meno di 3 ore su una singola GPU A100, mantenendo la stabilità durante l'addestramento. Forniamo inoltre un'implementazione leggera e facile da usare di FastTD3 per accelerare la ricerca RL nella robotica.

Diritto verso l'alto? Disentangling la comprensione dell'orientamento nei MLLM con compiti di percezione multi-assiale a grana fine
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

May 27, 2025

Keanu Nichols, Nazia Tasnim, Yan Yuting, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan Plummer

La comprensione dell'orientamento degli oggetti rappresenta una sfida fondamentale nella percezione visiva, cruciale per applicazioni come la manipolazione robotica e la realtà aumentata. Gli attuali benchmark di visione e linguaggio non riescono a isolare questa capacità, spesso confondendola con relazioni posizionali e comprensione generale della scena. Introduciamo DORI (Discriminative Orientation Reasoning Intelligence), un benchmark completo che stabilisce la percezione dell'orientamento degli oggetti come obiettivo primario di valutazione. DORI valuta quattro dimensioni della comprensione dell'orientamento: allineamento frontale, trasformazioni rotazionali, relazioni direzionali relative e comprensione dell'orientamento canonico. Attraverso compiti accuratamente selezionati da 11 dataset che coprono 67 categorie di oggetti in scenari sia sintetici che reali, DORI fornisce approfondimenti su come i sistemi multimodali comprendono l'orientamento degli oggetti. La nostra valutazione di 15 modelli all'avanguardia di visione e linguaggio rivela limitazioni critiche: anche i migliori modelli raggiungono solo il 54,2% di accuratezza su compiti grossolani e il 33,0% su giudizi di orientamento granulari, con prestazioni che peggiorano per compiti che richiedono cambiamenti di frame di riferimento o rotazioni composte. Questi risultati dimostrano la necessità di meccanismi dedicati per la rappresentazione dell'orientamento, poiché i modelli mostrano un'incapacità sistematica di eseguire stime angolari precise, tracciare cambiamenti di orientamento tra punti di vista e comprendere rotazioni composte, suggerendo limitazioni nelle loro rappresentazioni spaziali 3D interne. Come primo framework diagnostico progettato specificamente per la consapevolezza dell'orientamento nei sistemi multimodali, DORI offre implicazioni per migliorare il controllo robotico, la ricostruzione di scene 3D e l'interazione uomo-IA in ambienti fisici. Dati DORI: https://huggingface.co/datasets/appledora/DORI-Benchmark

Svelare Neuroni e Esperti Specifici per le Istruzioni: Un Framework Analitico per le Capacità di Seguire le Istruzioni nei Modelli Linguistici di Grande Dimensione
Unveiling Instruction-Specific Neurons & Experts: An Analytical Framework for LLM's Instruction-Following Capabilities

May 27, 2025

Junyan Zhang, Yubo Gao, Yibo Yan, Jungang Li, Zhaorui Hou, Sicheng Tao, Shuliang Liu, Song Dai, Yonghua Hei, Junzhuo Li, Xuming Hu

Il fine-tuning dei Large Language Models (LLMs) ha significativamente migliorato le loro capacità di seguire istruzioni, tuttavia i meccanismi computazionali sottostanti che guidano questi miglioramenti rimangono poco compresi. Questo studio esamina sistematicamente come il fine-tuning riconfigura i calcoli degli LLMs isolando e analizzando componenti sparsi specifici per le istruzioni, ovvero neuroni nei modelli densi e sia neuroni che esperti nelle architetture Mixture-of-Experts (MoE). In particolare, introduciamo HexaInst, un dataset di istruzioni accuratamente curato e bilanciato che copre sei categorie distinte, e proponiamo SPARCOM, un nuovo framework analitico che comprende tre contributi chiave: (1) un metodo per identificare questi componenti sparsi, (2) una valutazione della loro generalità funzionale e unicità, e (3) un confronto sistematico delle loro alterazioni. Attraverso esperimenti, dimostriamo la generalità funzionale, l'unicità e il ruolo cruciale di questi componenti nell'esecuzione delle istruzioni. Chiarendo la relazione tra gli adattamenti indotti dal fine-tuning e i substrati computazionali sparsi, questo lavoro fornisce approfondimenti su come gli LLMs interiorizzano il comportamento di seguire le istruzioni per la comunità degli LLMs affidabili.

AITEE - Tutor Agente per l'Ingegneria Elettrica
AITEE -- Agentic Tutor for Electrical Engineering

May 27, 2025

Christopher Knievel, Alexander Bernhardt, Christian Bernhardt

I sistemi di tutoraggio intelligenti combinati con modelli linguistici di grandi dimensioni offrono un approccio promettente per soddisfare le esigenze diversificate degli studenti e promuovere un apprendimento autoefficace. Sebbene i modelli linguistici di grandi dimensioni possiedano una buona conoscenza di base dell'ingegneria elettrica, rimangono insufficientemente capaci di rispondere a domande specifiche sui circuiti elettrici. In questo articolo, presentiamo AITEE, un sistema di tutoraggio basato su agenti per l'ingegneria elettrica progettato per accompagnare gli studenti durante il loro processo di apprendimento, offrire supporto individualizzato e promuovere l'apprendimento autonomo. AITEE supporta sia circuiti disegnati a mano che digitali attraverso un processo di ricostruzione del circuito adattato, consentendo un'interazione naturale con gli studenti. La nostra nuova misura di similarità basata su grafo identifica il contesto rilevante dai materiali delle lezioni attraverso un approccio di generazione aumentata dal recupero, mentre la simulazione Spice parallela migliora ulteriormente l'accuratezza nell'applicazione delle metodologie di soluzione. Il sistema implementa un dialogo socratico per favorire l'autonomia dell'apprendimento attraverso domande guidate. Le valutazioni sperimentali dimostrano che AITEE supera significativamente gli approcci di base nell'applicazione di conoscenze specifiche del dominio, con modelli LLM di medie dimensioni che mostrano prestazioni accettabili. I nostri risultati evidenziano il potenziale dei tutor agentici di fornire ambienti di apprendimento scalabili, personalizzati ed efficaci per l'educazione in ingegneria elettrica.

HoPE: Ibridazione degli Embedding Posizionali per la Generalizzazione della Lunghezza nei Modelli Visione-Linguaggio
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models

May 26, 2025

Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu

I modelli visione-linguaggio (VLMs) hanno compiuto progressi significativi nei compiti multimodali. Tuttavia, le loro prestazioni spesso si deteriorano in scenari a contesto lungo, in particolare nei video lunghi. Sebbene il Rotary Position Embedding (RoPE) sia stato ampiamente adottato per la generalizzazione della lunghezza nei Large Language Models (LLMs), estendere il RoPE standard per catturare le complesse dipendenze spazio-temporali nei video rimane una sfida irrisolta. I metodi esistenti tipicamente assegnano diverse frequenze all'interno del RoPE per codificare informazioni posizionali 3D. Tuttavia, queste strategie di allocazione si basano principalmente su euristiche, mancando di un'analisi teorica approfondita. In questo articolo, studiamo per la prima volta come diverse strategie di allocazione influenzino le capacità a contesto lungo dei VLMs. La nostra analisi rivela che gli attuali RoPE multimodali non riescono a catturare in modo affidabile le similarità semantiche su contesti estesi. Per affrontare questo problema, proponiamo HoPE, un Hybrid of Position Embedding progettato per migliorare le capacità a contesto lungo dei VLMs. HoPE introduce una strategia di allocazione delle frequenze ibrida per una modellazione semantica affidabile su contesti arbitrariamente lunghi, e un meccanismo di scaling temporale dinamico per facilitare un apprendimento robusto e un'inferenza flessibile su diverse lunghezze di contesto. Esperimenti estesi su quattro benchmark video per compiti di comprensione e recupero di video lunghi dimostrano che HoPE supera costantemente i metodi esistenti, confermandone l'efficacia. Il codice è disponibile all'indirizzo https://github.com/hrlics/HoPE.

Valutazione Comparativa di Raccomandazione, Classificazione e Tracciamento Basata sulla Knowledge Graph di Hugging Face
Benchmarking Recommendation, Classification, and Tracing Based on Hugging Face Knowledge Graph

May 23, 2025

Qiaosheng Chen, Kaijia Huang, Xiao Zhou, Weiqing Luo, Yuanning Cui, Gong Cheng

La rapida crescita delle risorse open source per il machine learning (ML), come modelli e dataset, ha accelerato la ricerca nel campo dell'Information Retrieval (IR). Tuttavia, piattaforme esistenti come Hugging Face non utilizzano esplicitamente rappresentazioni strutturate, limitando query e analisi avanzate come il tracciamento dell'evoluzione dei modelli e la raccomandazione di dataset rilevanti. Per colmare questa lacuna, abbiamo costruito HuggingKG, il primo knowledge graph su larga scala derivato dalla comunità di Hugging Face per la gestione delle risorse di ML. Con 2,6 milioni di nodi e 6,2 milioni di relazioni, HuggingKG cattura relazioni specifiche del dominio e attributi testuali ricchi. Ciò ci ha permesso di presentare ulteriormente HuggingBench, un benchmark multi-task con tre nuove collezioni di test per attività di IR, tra cui la raccomandazione di risorse, la classificazione e il tracciamento. I nostri esperimenti rivelano caratteristiche uniche di HuggingKG e dei task derivati. Entrambe le risorse sono pubblicamente disponibili e si prevede che possano avanzare la ricerca nella condivisione e gestione delle risorse open source.

Meta-Apprendimento di un Modello Transformer In-Context della Corteccia Visiva Superiore Umana
Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex

May 21, 2025

Muquan Yu, Mu Nan, Hossein Adeli, Jacob S. Prince, John A. Pyles, Leila Wehbe, Margaret M. Henderson, Michael J. Tarr, Andrew F. Luo

Comprendere le rappresentazioni funzionali all'interno della corteccia visiva superiore è una questione fondamentale nelle neuroscienze computazionali. Sebbene le reti neurali artificiali pre-addestrate su dataset su larga scala mostrino un allineamento rappresentativo sorprendente con le risposte neurali umane, l'apprendimento di modelli computazionali dell'immagine della corteccia visiva si basa su dataset fMRI su larga scala a livello individuale. La necessità di acquisizione di dati costosa, dispendiosa in termini di tempo e spesso impraticabile limita la generalizzabilità degli encoder a nuovi soggetti e stimoli. BraInCoRL utilizza l'apprendimento in contesto per prevedere le risposte neurali a livello di voxel da esempi few-shot senza alcuna ulteriore messa a punto per nuovi soggetti e stimoli. Sfruttiamo un'architettura transformer che può condizionarsi flessibilmente su un numero variabile di stimoli immagine in contesto, apprendendo un bias induttivo su più soggetti. Durante l'addestramento, ottimizziamo esplicitamente il modello per l'apprendimento in contesto. Condizionando congiuntamente sulle caratteristiche dell'immagine e sulle attivazioni dei voxel, il nostro modello impara a generare direttamente modelli voxelwise più performanti della corteccia visiva superiore. Dimostriamo che BraInCoRL supera costantemente i progetti esistenti di encoder voxelwise in un regime di bassi dati quando valutato su immagini completamente nuove, mostrando anche un forte comportamento di scalabilità al momento del test. Il modello si generalizza inoltre a un nuovo dataset fMRI visivo, che utilizza soggetti diversi e parametri di acquisizione dati fMRI differenti. Inoltre, BraInCoRL facilita una migliore interpretabilità dei segnali neurali nella corteccia visiva superiore prestando attenzione agli stimoli semanticamente rilevanti. Infine, mostriamo che il nostro framework consente mappature interpretabili da query in linguaggio naturale alla selettività dei voxel.

Caratterizzazione del Bias: Benchmarking dei Modelli Linguistici di Grande Scala in Cinese Semplificato rispetto a quello Tradizionale
Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese

May 28, 2025

Hanjia Lyu, Jiebo Luo, Jian Kang, Allison Koenecke

Sebbene le capacità dei Large Language Models (LLM) siano state studiate sia in cinese semplificato che tradizionale, non è ancora chiaro se gli LLM mostrino prestazioni differenziate quando sollecitati in queste due varianti di cinese scritto. Questa comprensione è fondamentale, poiché le disparità nella qualità delle risposte degli LLM possono perpetuare danni rappresentativi ignorando i diversi contesti culturali sottostanti al cinese semplificato rispetto a quello tradizionale, e possono esacerbare danni a valle nei processi decisionali facilitati dagli LLM in domini come l'istruzione o l'assunzione di personale. Per indagare potenziali disparità nelle prestazioni degli LLM, progettiamo due task di benchmark che riflettono scenari reali: la scelta di termini regionali (sollecitando l'LLM a nominare un oggetto descritto che viene indicato diversamente in Cina continentale e Taiwan) e la scelta di nomi regionali (sollecitando l'LLM a scegliere chi assumere da un elenco di nomi sia in cinese semplificato che tradizionale). Per entrambi i task, analizziamo le prestazioni di 11 principali servizi LLM commerciali e modelli open-source, che spaziano da quelli addestrati principalmente in inglese, cinese semplificato o tradizionale. Le nostre analisi indicano che i bias nelle risposte degli LLM dipendono sia dal task che dalla lingua di sollecitazione: mentre la maggior parte degli LLM ha favorito in modo sproporzionato risposte in cinese semplificato nel task di scelta dei termini regionali, ha sorprendentemente favorito nomi in cinese tradizionale nel task di scelta dei nomi regionali. Troviamo che queste disparità possono derivare da differenze nella rappresentazione dei dati di addestramento, nelle preferenze dei caratteri scritti e nella tokenizzazione del cinese semplificato e tradizionale. Questi risultati evidenziano la necessità di ulteriori analisi sui bias degli LLM; pertanto, forniamo un dataset di benchmark open-source per favorire valutazioni riproducibili del comportamento futuro degli LLM tra le varianti della lingua cinese (https://github.com/brucelyu17/SC-TC-Bench).

MUSEG: Rafforzamento della Comprensione Temporale nei Video tramite l'Ancoraggio Multi-Segmento con Consapevolezza dei Timestamp
MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding

May 27, 2025

Fuwen Luo, Shengfeng Lou, Chi Chen, Ziyue Wang, Chenliang Li, Weizhou Shen, Jiyue Guo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu

La comprensione temporale nei video è cruciale per i modelli linguistici multimodali di grandi dimensioni (MLLMs) per ragionare sugli eventi nei video. Nonostante i recenti progressi nella comprensione generale dei video, gli attuali MLLM continuano a lottare con il ragionamento temporale fine. Sebbene il reinforcement learning (RL) sia stato recentemente esplorato per affrontare questo problema, gli approcci RL esistenti rimangono limitati in termini di efficacia. In questo lavoro, proponiamo MUSEG, un metodo innovativo basato su RL che migliora la comprensione temporale introducendo il grounding multi-segmento con consapevolezza dei timestamp. MUSEG consente agli MLLM di allineare le query con più segmenti video rilevanti, promuovendo un ragionamento temporale più completo. Per facilitare un apprendimento efficace, progettiamo una ricetta di addestramento RL personalizzata con ricompense progressive che guidano gradualmente il modello verso un ragionamento temporalmente fondato. Esperimenti estesi su compiti di grounding temporale e QA video sensibili al tempo dimostrano che MUSEG supera significativamente i metodi esistenti e si generalizza bene in diversi scenari di comprensione temporale. Visualizza il nostro progetto all'indirizzo https://github.com/THUNLP-MT/MUSEG.

Cancellazione Precisa dei Concetti nei Parametri dei Modelli Linguistici di Grandi Dimensioni
Precise In-Parameter Concept Erasure in Large Language Models

May 28, 2025

Yoav Gur-Arieh, Clara Suslik, Yihuai Hong, Fazl Barez, Mor Geva

I modelli linguistici di grandi dimensioni (LLM) spesso acquisiscono durante il pretraining conoscenze indesiderate nei successivi utilizzi, come informazioni sensibili o contenuti protetti da copyright. Gli approcci esistenti per rimuovere tali conoscenze si basano su fine-tuning, addestramento di adattatori a basso rango o modifica a livello di fatti, ma questi sono troppo approssimativi, superficiali o inefficaci. In questo lavoro, proponiamo PISCES (Precise In-parameter Suppression for Concept EraSure), un nuovo framework per cancellare con precisione interi concetti dai parametri del modello modificando direttamente le direzioni che li codificano nello spazio dei parametri. PISCES utilizza un modello di disaccoppiamento per scomporre i vettori MLP in caratteristiche interpretabili, identifica quelle associate a un concetto target utilizzando tecniche di interpretabilità automatizzata e le rimuove dai parametri del modello. Esperimenti su Gemma 2 e Llama 3.1 su vari concetti mostrano che PISCES ottiene modesti miglioramenti in efficacia rispetto ai principali metodi di cancellazione, riducendo l'accuratezza sul concetto target fino al 7,7%, migliorando drasticamente la specificità della cancellazione (fino al 31%) e la robustezza (fino al 38%). Nel complesso, questi risultati dimostrano che la modifica in-parametro basata su caratteristiche consente un approccio più preciso e affidabile per rimuovere conoscenze concettuali nei modelli linguistici.

Verso un Pre-addestramento Scalabile Linguaggio-Immagine per l'Imaging Medico 3D
Towards Scalable Language-Image Pre-training for 3D Medical Imaging

May 28, 2025

Chenhui Zhao, Yiwei Lyu, Asadur Chowdury, Edward Harake, Akhil Kondepudi, Akshay Rao, Xinhai Hou, Honglak Lee, Todd Hollon

Il pre-addestramento linguaggio-immagine ha dimostrato prestazioni solide nell'imaging medico 2D, ma il suo successo nelle modalità 3D come TC e RM rimane limitato a causa delle elevate esigenze computazionali dei dati volumetrici, che rappresentano una barriera significativa all'addestramento su studi clinici su larga scala e non curati. In questo studio, introduciamo l'attenzione gerarchica per il pre-addestramento linguaggio-immagine (HLIP), un framework scalabile per il pre-addestramento nell'imaging medico 3D. HLIP adotta un meccanismo di attenzione gerarchica leggero ispirato dalla gerarchia naturale dei dati radiologici: fetta, scansione e studio. Questo meccanismo mostra una forte generalizzabilità, ad esempio, +4,3% di macro AUC sul benchmark Rad-ChestCT quando pre-addestrato su CT-RATE. Inoltre, l'efficienza computazionale di HLIP consente l'addestramento diretto su dataset non curati. Addestrato su 220K pazienti con 3,13 milioni di scansioni per RM cerebrale e 240K pazienti con 1,44 milioni di scansioni per TC cranica, HLIP raggiunge prestazioni all'avanguardia, ad esempio, +32,4% di accuratezza bilanciata sul benchmark pubblicamente disponibile Pub-Brain-5 per RM cerebrale; +1,4% e +6,9% di macro AUC sui benchmark TC cranica RSNA e CQ500, rispettivamente. Questi risultati dimostrano che, con HLIP, il pre-addestramento diretto su dataset clinici non curati è una direzione scalabile ed efficace per il pre-addestramento linguaggio-immagine nell'imaging medico 3D. Il codice è disponibile all'indirizzo https://github.com/Zch0414/hlip.

I Modelli Linguistici di Grandi Dimensioni Possono Dedurre Relazioni Causali da Testi del Mondo Reale?
Can Large Language Models Infer Causal Relationships from Real-World Text?

May 25, 2025

Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah

Comprendere e inferire relazioni causali dai testi è un aspetto fondamentale della cognizione umana ed è essenziale per far progredire i grandi modelli linguistici (LLM) verso l'intelligenza artificiale generale. Il lavoro esistente si concentra principalmente su testi generati sinteticamente che coinvolgono semplici relazioni causali esplicitamente menzionate nel testo. Ciò non riflette la complessità delle attività del mondo reale. In questo articolo, indaghiamo se gli LLM siano in grado di inferire relazioni causali da testi del mondo reale. Sviluppiamo un benchmark tratto dalla letteratura accademica del mondo reale che include testi diversificati per lunghezza, complessità delle relazioni (diversi livelli di esplicitezza, numero di eventi e relazioni causali) e domini e sottodomini. Per quanto ne sappiamo, il nostro benchmark è il primo dataset del mondo reale per questo compito. I nostri esperimenti sugli LLM all'avanguardia, valutati sul benchmark proposto, dimostrano sfide significative, con il modello con le migliori prestazioni che raggiunge un punteggio F1 medio di soli 0,477. L'analisi rivela errori comuni: difficoltà con le informazioni implicitamente dichiarate, nel distinguere i fattori causali rilevanti dai dettagli contestuali circostanti e nel connettere informazioni causalmente rilevanti distribuite su passaggi testuali lunghi. Caratterizzando sistematicamente queste carenze, il nostro benchmark offre approfondimenti mirati per ulteriori ricerche sul miglioramento del ragionamento causale degli LLM.

First Finish Search: Scalabilità Efficiente durante il Test nei Modelli Linguistici di Grandi Dimensioni
First Finish Search: Efficient Test-Time Scaling in Large Language Models

May 23, 2025

Aradhye Agarwal, Ayan Sengupta, Tanmoy Chakraborty

Il ridimensionamento al momento del test (Test-Time Scaling, TTS), che prevede l'allocazione dinamica delle risorse di calcolo durante l'inferenza, offre un approccio promettente per migliorare il ragionamento nei grandi modelli linguistici. Sebbene i metodi TTS esistenti funzionino bene, spesso si basano su percorsi di decodifica lunghi o richiedono la generazione di un gran numero di campioni, aumentando l'uso di token e la latenza dell'inferenza. Osserviamo il fatto sorprendente che, per i compiti di ragionamento, le tracce più brevi hanno una probabilità molto maggiore di essere corrette rispetto a quelle più lunghe. Motivati da ciò, introduciamo il First Finish Search (FFS), una strategia di decodifica parallela senza addestramento che lancia n campioni indipendenti e restituisce il risultato non appena uno di essi viene completato. Valutiamo FFS insieme a decodifica semplice, beam search, voto a maggioranza e budget forcing su quattro modelli di ragionamento (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B e Phi-4-Reasoning-Plus) e su quattro dataset (AIME24, AIME25-I, AIME25-II e GPQA Diamond). Con DeepSeek-R1, FFS raggiunge un'accuratezza dell'82,23% sui dataset AIME, un miglioramento del 15% rispetto all'accuratezza autonoma di DeepSeek-R1, avvicinandosi quasi alle prestazioni di OpenAI o4-mini. La nostra analisi teorica spiega perché fermarsi alla traccia più breve è probabile che produca una risposta corretta e identifica le condizioni in cui l'arresto anticipato potrebbe essere subottimale. L'eleganza e la semplicità di FFS dimostrano che strategie TTS dirette possono funzionare in modo eccezionale, rivelando il potenziale inesplorato degli approcci semplici al momento dell'inferenza.

IQBench: Quanto sono "intelligenti" i modelli visione-linguaggio? Uno studio con test del QI umano
IQBench: How "Smart'' Are Vision-Language Models? A Study with Human IQ Tests

May 17, 2025

Tan-Hanh Pham, Phu-Vinh Nguyen, Dang The Hung, Bui Trong Duong, Vu Nguyen Thanh, Chris Ngo, Tri Quang Truong, Truong-Son Hy

Sebbene i grandi modelli visione-linguaggio (VLMs) abbiano dimostrato prestazioni notevoli in un'ampia gamma di attività multimodali, le loro vere capacità di ragionamento nei test di QI umani rimangono poco esplorate. Per avanzare la ricerca sull'intelligenza fluida dei VLMs, introduciamo **IQBench**, un nuovo benchmark progettato per valutare i VLMs su test visivi standardizzati di QI. Ci concentriamo sulla valutazione delle capacità di ragionamento dei VLMs, che riteniamo siano più importanti dell'accuratezza della previsione finale. **Il nostro benchmark è visivamente centrico, minimizzando la dipendenza da contenuti testuali non necessari**, incoraggiando così i modelli a derivare le risposte principalmente dalle informazioni basate sulle immagini piuttosto che dalle conoscenze testuali apprese. A tal fine, abbiamo raccolto e annotato manualmente 500 domande visive di QI per **prevenire la fuoriuscita involontaria di dati durante l'addestramento**. A differenza dei lavori precedenti che si concentrano principalmente sull'accuratezza della risposta finale, valutiamo la capacità di ragionamento dei modelli analizzando le loro spiegazioni e i modelli utilizzati per risolvere ogni problema, insieme all'accuratezza della previsione finale e alla valutazione umana. I nostri esperimenti mostrano che ci sono disparità significative nelle prestazioni tra i compiti, con modelli come `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` che raggiungono le medie di accuratezza più alte rispettivamente di 0,615, 0,578 e 0,548. Tuttavia, tutti i modelli hanno difficoltà con i compiti di ragionamento spaziale 3D e anagrammi, evidenziando limitazioni significative nelle capacità di ragionamento generale degli attuali VLMs. In termini di punteggi di ragionamento, `o4-mini`, `gemini-2.5-flash` e `claude-3.7-sonnet` hanno raggiunto le medie più alte rispettivamente di 0,696, 0,586 e 0,516. Questi risultati evidenziano incongruenze tra i processi di ragionamento dei modelli e le loro risposte finali, sottolineando l'importanza di valutare l'accuratezza del ragionamento oltre alle previsioni finali.