HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

43 papers found

F-GRPO: Non Permettere alla Tua Politica di Apprendere l'Ovvio e Dimenticare il Raro
F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

Feb 6

ByDaniil Plyusov, Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov

L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) si basa comunemente sul campionamento di gruppo per stimare i vantaggi e stabilizzare gli aggiornamenti della politica. In pratica, dimensioni di gruppo elevate non sono fattibili a causa dei limiti computazionali, il che distorce l'apprendimento verso traiettorie già probabili. Gruppi più piccoli spesso perdono traiettorie corrette rare pur contenendo ancora ricompense miste, concentrando la probabilità su soluzioni comuni. Deriviamo la probabilità che gli aggiornamenti perdano modi corretti rari in funzione della dimensione del gruppo, mostrando un comportamento non monotono, e caratterizziamo come gli aggiornamenti ridistribuiscono la massa all'interno dell'insieme corretto, rivelando che la massa corretta non campionata può ridursi anche mentre la massa corretta totale cresce. Motivati da questa analisi, proponiamo un coefficiente di scalatura del vantaggio consapevole della difficoltà, ispirato alla Focal loss, che riduce il peso degli aggiornamenti sugli prompt ad alto successo. Questa modifica leggera può essere integrata direttamente in qualsiasi algoritmo RLVR relativo al gruppo come GRPO, DAPO e CISPO. Su Qwen2.5-7B su benchmark in-dominio e out-of-dominio, il nostro metodo migliora il pass@256 da 64.1 → 70.3 (GRPO), 69.3 → 72.5 (DAPO) e 73.2 → 76.8 (CISPO), preservando o migliorando al contempo il pass@1, senza aumentare la dimensione del gruppo o il costo computazionale.

AudioSAE: Verso la comprensione dei modelli di elaborazione audio con Autoencoder Sparse
AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

Feb 4

ByGeorgii Aparin, Tasnima Sadekova, Alexey Rukhovich, Assel Yermekova, Laida Kushnareva, Vadim Popov, Kristian Kuznetsov, Irina Piontkovskaya

Gli Autoencoder Sparse (SAE) sono strumenti potenti per interpretare le rappresentazioni neurali, ma il loro utilizzo nell'audio rimane poco esplorato. Addestriamo SAE su tutti i livelli encoder di Whisper e HuBERT, forniamo una valutazione approfondita della loro stabilità e interpretabilità, e ne dimostriamo l'utilità pratica. Oltre il 50% delle feature rimane coerente tra diversi seed casuali, preservando la qualità della ricostruzione. Le feature SAE catturano informazioni acustiche e semantiche generali, nonché eventi specifici, inclusi rumori ambientali e suoni paralinguistici (ad esempio risate, sussurri), e li separano efficacemente, richiedendo la rimozione di solo il 19-27% delle feature per cancellare un concetto. Lo steering delle feature riduce del 70% le false rilevazioni di parlato di Whisper con un aumento trascurabile del WER, dimostrando un'applicabilità nel mondo reale. Infine, troviamo che le feature SAE sono correlate con l'attività EEG umana durante la percezione del parlato, indicando un allineamento con l'elaborazione neurale umana. Il codice e i checkpoint sono disponibili all'indirizzo https://github.com/audiosae/audiosae_demo.

Baichuan-M3: Modellazione dell'Indagine Clinica per un Processo Decisionale Medico Affidabile
Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making

Feb 6

ByBaichuan-M3 Team, Chengfeng Dou, Fan Yang, Fei Li, Jiyuan Jia, Qiang Ju, Shuai Wang, Tianpeng Li, Xiangrong Zeng, Yijie Zhou, Hongda Zhang, Jinyang Tai, Linzhuang Sun, Peidong Guo, Yichuan Mo, Xiaochuan Wang, Hengfu Cui, Zhishou Zhang

Presentiamo Baichuan-M3, un modello linguistico di grandi dimensioni potenziato per il settore medico, progettato per spostare il paradigma dal semplice rispondere a domande a un supporto decisionale attivo di livello clinico. Affrontando i limiti dei sistemi esistenti nelle consultazioni a domanda aperta, Baichuan-M3 utilizza una pipeline di addestramento specializzata per modellare il flusso di lavoro sistematico di un medico. Le capacità chiave includono: (i) l'acquisizione proattiva di informazioni per risolvere ambiguità; (ii) un ragionamento a lungo termine che unisce evidenze sparse in diagnosi coerenti; e (iii) una soppressione adattiva delle allucinazioni per garantire l'affidabilità fattuale. Valutazioni empiriche dimostrano che Baichuan-M3 raggiunge risultati all'avanguardia su HealthBench, sul nuovo HealthBench-Hallu e su ScanBench, superando significativamente GPT-5.2 nelle aree di indagine clinica, consulenza e sicurezza. I modelli sono pubblicamente disponibili all'indirizzo https://huggingface.co/collections/baichuan-inc/baichuan-m3.

OdysseyArena: Valutazione dei Modelli Linguistici di Grandi Dimensioni per Interazioni a Lungo Orizzonte, Attive e Induttive
OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Feb 5

ByFangzhi Xu, Hang Yan, Qiushi Sun, Jinyang Wu, Zixian Huang, Muye Huang, Jingyang Gong, Zichen Ding, Kanzhi Cheng, Yian Wang, Xinyu Che, Zeyi Sun, Jian Zhang, Zhangyue Yin, Haoran Luo, Xuanjing Huang, Ben Kao, Jun Liu, Qika Lin

I rapidi progressi dei Modelli Linguistici di Grande Dimensione (LLM) hanno catalizzato lo sviluppo di agenti autonomi in grado di navigare in ambienti complessi. Tuttavia, le valutazioni esistenti adottano principalmente un paradigma deduttivo, in cui gli agenti eseguono compiti basandosi su regole esplicitamente fornite e obiettivi statici, spesso entro orizzonti di pianificazione limitati. In modo cruciale, questo approccio trascura la necessità induttiva per gli agenti di scoprire autonomamente leggi di transizione latenti dall'esperienza, che è la pietra angolare per abilitare la previsione agentica e sostenere la coerenza strategica. Per colmare questa lacuna, introduciamo OdysseyArena, che ri-centra la valutazione degli agenti su interazioni a lungo termine, attive e induttive. Formalizziamo e istanziamo quattro primitive, traducendo dinamiche di transizione astratte in ambienti interattivi concreti. Sulla base di ciò, stabiliamo OdysseyArena-Lite per benchmarking standardizzato, fornendo un set di 120 compiti per misurare l'efficienza induttiva e la scoperta a lungo termine di un agente. Spingendoci oltre, introduciamo OdysseyArena-Challenge per testare la stabilità degli agenti in condizioni di stress attraverso orizzonti interattivi estremi (ad esempio, > 200 passi). Esperimenti estesi su oltre 15 LLM all'avanguardia rivelano che anche i modelli più avanzati presentano carenze negli scenari induttivi, identificando un collo di bottiglia critico nel perseguimento della scoperta autonoma in ambienti complessi. Il nostro codice e i nostri dati sono disponibili all'indirizzo https://github.com/xufangzhi/Odyssey-Arena.

Sulle Dinamiche dell'Entropia nel Fine-Tuning Rinforzato dei Grandi Modelli Linguistici
On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Feb 3

ByShumin Wang, Yuexiang Xie, Wenhao Zhang, Yuchang Sun, Yanxi Chen, Yaliang Li, Yanyong Zhang

L'entropia funge da metrica cruciale per misurare la diversità degli output generati dai grandi modelli linguistici (LLM), fornendo spunti preziosi sulle loro capacità di esplorazione. Sebbene studi recenti si concentrino sempre più sul monitoraggio e sulla regolazione dell'entropia per bilanciare meglio esplorazione e sfruttamento durante la messa a punto con rinforzo (RFT), una comprensione principiata delle dinamiche entropiche durante questo processo deve ancora essere approfondita. In questo articolo, stabiliamo un quadro teorico per analizzare le dinamiche dell'entropia durante il processo RFT, partendo da un'espressione discriminante che quantifica la variazione entropica sotto un singolo aggiornamento dei logit. Questa base consente la derivazione di un'espressione del primo ordine per la variazione di entropia, che può essere ulteriormente estesa alla formula di aggiornamento dell'ottimizzazione della politica relativa di gruppo (GRPO). I corollari e le intuizioni tratte dall'analisi teorica ispirano la progettazione di metodi per il controllo dell'entropia e offrono anche una lente unificata per interpretare vari metodi basati sull'entropia presenti nella letteratura esistente. Forniamo evidenze empiriche a supporto delle principali conclusioni della nostra analisi e dimostriamo l'efficacia dei metodi derivati di clipping del discriminatore entropico. Questo studio fornisce nuove intuizioni sulle dinamiche di addestramento RFT, offrendo supporto teorico e strategie pratiche per ottimizzare il bilancio esplorazione-sfruttamento durante la messa a punto degli LLM.

DreamDojo: Un Modello Mondiale Generalista per Robot da Video Umani su Larga Scala
DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Feb 6

ByShenyuan Gao, William Liang, Kaiyuan Zheng, Ayaan Malik, Seonghyeon Ye, Sihyun Yu, Wei-Cheng Tseng, Yuzhu Dong, Kaichun Mo, Chen-Hsuan Lin, Qianli Ma, Seungjun Nah, Loic Magne, Jiannan Xiang, Yuqi Xie, Ruijie Zheng, Dantong Niu, You Liang Tan, K. R. Zentner, George Kurian, Suneel Indupuru, Pooya Jannaty, Jinwei Gu, Jun Zhang, Jitendra Malik, Pieter Abbeel, Ming-Yu Liu, Yuke Zhu, Joel Jang, Linxi "Jim" Fan

La capacità di simulare i risultati delle azioni in ambienti variabili rivoluzionerà lo sviluppo di agenti generalisti su larga scala. Tuttavia, modellare queste dinamiche mondiali, specialmente per compiti di robotica destra, presenta sfide significative a causa della copertura dati limitata e della scarsità di etichette azionali. Come tentativo in questa direzione, presentiamo DreamDojo, un modello mondiale fondazionale che apprende interazioni diversificate e controlli destri da 44mila ore di video egocentrici umani. La nostra miscela di dati rappresenta il più ampio dataset video finora disponibile per il pre-addestramento di modelli mondiali, coprendo un'ampia gamma di scenari quotidiani con oggetti e abilità diversificati. Per affrontare la carenza di etichette azionali, introduciamo azioni latenti continue come azioni proxy unificate, migliorando il trasferimento di conoscenze interazionali da video non etichettati. Dopo l'addestramento supplementare su dati robotici target su piccola scala, DreamDojo dimostra una solida comprensione della fisica e una precisa controllabilità azionale. Abbiamo inoltre ideato una pipeline di distillazione che accelera DreamDojo a una velocità in tempo reale di 10,81 FPS e migliora ulteriormente la coerenza contestuale. Il nostro lavoro abilita diverse applicazioni importanti basate su modelli mondiali generativi, inclusi teleoperazione in tempo reale, valutazione delle politiche e pianificazione basata su modelli. La valutazione sistematica su molteplici benchmark impegnativi fuori distribuzione (OOD) verifica il significato del nostro metodo per simulare compiti aperti al mondo e ricchi di contatti, aprendo la strada a modelli mondiali robotici per scopi generali.

Pisets: un sistema robusto di riconoscimento vocale per lezioni e interviste
Pisets: A Robust Speech Recognition System for Lectures and Interviews

Jan 26

ByIvan Bondarenko, Daniil Grebenkin, Oleg Sedukhin, Mikhail Klementev, Roman Derunets, Lyudmila Budneva

Questo lavoro presenta un sistema di riconoscimento vocale "Pisets", destinato a scienziati e giornalisti, basato su un'architettura a tre componenti finalizzata a migliorare l'accuratezza della trascrizione riducendo al minimo gli errori e le allucinazioni associate al modello Whisper. L'architettura comprende una riconoscimento primario tramite Wav2Vec2, un filtraggio dei falsi positivi tramite l'Audio Spectrogram Transformer (AST) e una riconoscimento vocale finale attraverso Whisper. L'implementazione di metodi di curriculum learning e l'utilizzo di svariati corpora vocali in lingua russa hanno migliorato significativamente l'efficacia del sistema. Inoltre, sono state introdotte tecniche avanzate di modellazione dell'incertezza, che hanno contribuito a ulteriori miglioramenti nella qualità della trascrizione. Gli approcci proposti garantiscono una trascrizione robusta di audio di lunga durata in varie condizioni acustiche, rispetto a WhisperX e al normale modello Whisper. Il codice sorgente del sistema "Pisets" è pubblicamente disponibile su GitHub: https://github.com/bond005/pisets.

MSign: Un Ottimizzatore che Previene l'Instabilità dell'Addestramento nei Grandi Modelli Linguistici tramite il Ripristino del Rango Stabile
MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

Feb 2

ByLianhai Ren, Yucheng Ding, Xiao Liu, Qianxiao Li, Peng Cheng, Yeyun Gong

L'instabilità dell'addestramento rimane una sfida critica nella pre-addestramento dei grandi modelli linguistici (LLM), manifestandosi spesso come improvvisi picchi del gradiente che sprecano risorse computazionali significative. Studiamo i fallimenti dell'addestramento in un modello NanoGPT da 5 milioni di parametri scalato tramite μP, identificando due fenomeni chiave che precedono il collasso: (1) un rapido declino del rango stabile della matrice dei pesi (rapporto tra la norma di Frobenius al quadrato e la norma spettrale al quadrato), e (2) un crescente allineamento tra gli Jacobiani di strati adiacenti. Dimostriamo teoricamente che queste due condizioni causano congiuntamente una crescita esponenziale della norma del gradiente con la profondità della rete. Per interrompere questo meccanismo di instabilità, proponiamo MSign, un nuovo ottimizzatore che applica periodicamente operazioni di segno matriciale per ripristinare il rango stabile. Esperimenti su modelli da 5 milioni a 3 miliardi di parametri dimostrano che MSign previene efficacemente i fallimenti dell'addestramento con un sovraccarico computazionale inferiore al 7,0%.

Modellazione del Mondo Auto-Migliorante con Azioni Latenti
Self-Improving World Modelling with Latent Actions

Feb 5

ByYifu Qiu, Zheng Zhao, Waylon Li, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti

La modellazione interna del mondo – prevedere le transizioni tra stati precedenti X e stati successivi Y in base ad azioni Z – è essenziale per il ragionamento e la pianificazione nei LLM e nei VLM. L'apprendimento di tali modelli richiede tipicamente traiettorie costose etichettate con le azioni. Proponiamo SWIRL, un framework di auto-miglioramento che apprende da sequenze di soli stati trattando le azioni come una variabile latente e alternando tra la Modellazione del Mondo in Avanti (FWM) P_θ(Y|X,Z) e una Modellazione della Dinamica Inversa (IDM) Q_φ(Z|X,Y). SWIRL itera due fasi: (1) Massimizzazione dell'Informazione Variazionale, che aggiorna la FWM per generare stati successivi che massimizzano l'informazione mutua condizionata con le azioni latenti dato gli stati precedenti, incoraggiando una consistenza identificabile; e (2) Massimizzazione dell'ELBO, che aggiorna l'IDM per spiegare le transizioni osservate, effettuando di fatto una ascesa coordinata. Entrambi i modelli sono addestrati con apprendimento per rinforzo (nello specifico, GRPO) utilizzando la log-probabilità del modello opposto congelato come segnale di reward. Forniamo garanzie teoriche di apprendibilità per entrambi gli aggiornamenti e valutiamo SWIRL su LLM e VLM in diversi ambienti: dinamiche visive in mondo aperto a turno singolo e multi-turno, e ambienti testuali sintetici per fisica, web e tool calling. SWIRL ottiene miglioramenti del 16% su AURORABench, del 28% su ByteMorph, del 16% su WorldPredictionBench e del 14% su StableToolBench.

Giudicare ciò che non possiamo risolvere: un approccio basato sulle conseguenze per la valutazione senza oracolo della matematica di livello avanzato
Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

Feb 6

ByGuijin Son, Donghun Yang, Hitesh Laxmichand Patel, Hyunwoo Ko, Amit Agarwal, Sunghee Ahn, Kyong-Ha Lee, Youngjae Yu

I recenti progressi nei modelli di ragionamento suggeriscono che la generazione di tentativi plausibili per la matematica a livello di ricerca potrebbe essere alla portata, ma la verifica rimane un collo di bottiglia, che consuma il tempo limitato degli esperti. Ipotesizziamo che una soluzione significativa debba contenere sufficienti informazioni a livello metodologico tali che, se applicate a un insieme di domande correlate, producano prestazioni migliori rispetto a soluzioni errate. Sviluppando questa idea, proponiamo l'Utilità Basata sulle Conseguenze, un valutatore senza oracolo che assegna un punteggio a ciascun candidato testandone il valore come esempio in-context nella risoluzione di domande correlate ma verificabili. Il nostro approccio è valutato su un set originale di problemi matematici di livello ricerca, ciascuno abbinato a una soluzione scritta da esperti e nove soluzioni generate da LLM. Significativamente, l'Utilità Basata sulle Conseguenze supera costantemente i modelli di reward, i modelli di reward generativi e i giudici LLM nella qualità del ranking. In particolare, per GPT-OSS-120B, migliora l'Acc@1 da 67,2 a 76,3 e l'AUC da 71,4 a 79,6, con guadagni AUC similmente ampi su GPT-OSS-20B (da 69,0 a 79,2). Inoltre, rispetto ai Giudici-LLM, mostra anche un divario risolutore-valutatore più ampio, mantenendo una separazione corretto-errato più marcata anche sugli casi in cui il risolutore sottostante spesso fallisce nella risoluzione.

通过翻译与推理集成训练实现自我改进的多语言长链推理
Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Feb 5

ByJunxiao Liu, Zhijun Wang, Yixiao Li, Zhejian Lai, Liqian Huang, Xin Huang, Xue Han, Junlan Feng, Shujian Huang

I modelli di ragionamento complesso spesso incontrano difficoltà in contesti multilingue: tendono a ragionare in inglese anche per domande non inglesi; quando vincolati a ragionare nella lingua della domanda, la precisione diminuisce sostanzialmente. Questa difficoltà è causata dalle capacità limitate sia nella comprensione multilingue delle domande che nel ragionamento multilingue. Per affrontare entrambi i problemi, proponiamo TRIT (Translation-Reasoning Integrated Training), un framework di auto-miglioramento che integra l'addestramento alla traduzione nel ragionamento multilingue. Senza feedback esterni o dati multilingue aggiuntivi, il nostro metodo migliora congiuntamente la comprensione multilingue delle domande e la generazione delle risposte. Su MMATH, il nostro metodo supera molteplici baseline di una media di 7 punti percentuali, migliorando sia la correttezza delle risposte che la coerenza linguistica. Un'analisi più approfondita rivela che l'integrazione dell'addestramento alla traduzione migliora l'allineamento cross-lingue delle domande di oltre 10 punti percentuali e potenzia la qualità della traduzione sia per le domande matematiche che per il testo di dominio generale, con guadagni fino a 8,4 punti COMET su FLORES-200.

POINTS-GUI-G: Viaggio di GUI-Grounding
POINTS-GUI-G: GUI-Grounding Journey

Feb 6

ByZhongyin Zhao, Yuan Liu, Yikun Liu, Haicheng Wang, Le Tian, Xiao Zhou, Yangxiu You, Zilin Yu, Yang Yu, Jie Zhou

Il rapido progresso dei modelli visione-linguaggio ha catalizzato l'emergere di agenti GUI, che possiedono un immenso potenziale per automatizzare compiti complessi, dallo shopping online alla prenotazione di voli, alleviando così il carico dei flussi di lavoro digitali ripetitivi. Come capacità fondamentale, il grounding dell'interfaccia grafica è tipicamente stabilito come prerequisito per l'esecuzione end-to-end dei compiti. Consente ai modelli di localizzare con precisione gli elementi dell'interfaccia, come testo e icone, per eseguire operazioni accurate come clic e digitazioni. A differenza di lavori precedenti che perfezionano modelli già dotati di una forte consapevolezza spaziale (ad esempio, Qwen3-VL), il nostro obiettivo è padroneggiare l'intera pipeline tecnica partendo da un modello base con capacità di grounding minime, come POINTS-1.5. Presentiamo POINTS-GUI-G-8B, che raggiunge prestazioni all'avanguardia con punteggi di 59,9 su ScreenSpot-Pro, 66,0 su OSWorld-G, 95,7 su ScreenSpot-v2 e 49,9 su UI-Vision. Il successo del nostro modello è guidato da tre fattori chiave: (1) Ingegneria dei dati raffinata, che coinvolge l'unificazione del formato di diversi dataset open-source insieme a strategie sofisticate per l'aumento, il filtraggio e la classificazione per difficoltà; (2) Strategie di addestramento migliorate, incluso il fine-tuning continuo dell'encoder visivo per potenziare l'accuratezza percettiva e il mantenimento della coerenza della risoluzione tra addestramento e inferenza; e (3) Apprendimento per Rinforzo (RL) con Ricompense Verificabili. Sebbene l'RL sia tradizionalmente utilizzato per potenziare il ragionamento, dimostriamo che migliora significativamente la precisione nel compito di grounding GUI, intensivo a livello percettivo. Inoltre, il grounding GUI fornisce un vantaggio naturale per l'RL, poiché le ricompense sono facilmente verificabili e altamente accurate.

Canzona: un Framework Unificato, Asincrono e a Bilanciamento del Carico per Ottimizzatori Distribuiti Basati su Matrici
Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers

Feb 4

ByLiangyu Wang, Siqi Zhang, Junjie Wang, Yiming Dong, Bo Zheng, Zihan Qiu, Shengkun Tang, Di Wang, Rui Men, Dayiheng Liu

Il ridimensionamento dei Large Language Model (LLM) stimola l'interesse per ottimizzatori basati su matrici (ad es. Shampoo, Muon, SOAP) per la loro efficienza di convergenza; tuttavia, la loro necessità di aggiornamenti olistici entra in conflitto con la frammentazione dei tensori nei framework distribuiti come Megatron. Le soluzioni esistenti sono subottimali: gli approcci sincroni soffrono di ridondanza computazionale, mentre il partizionamento per layer non riesce a conciliare questo conflitto senza violare i vincoli geometrici delle primitive di comunicazione efficiente. Per colmare questa lacuna, proponiamo Canzona, un framework Unificato, Asincrono e Bilanciato nel Carico che disaccoppia l'assegnazione logica dell'ottimizzatore dalla distribuzione fisica dei parametri. Per il Parallelismo dei Dati, introduciamo una strategia di Partizionamento Statico Bilanciato-alfa che rispetta l'atomicità neutralizzando al contempo lo squilibrio di carico. Per il Parallelismo dei Tensori, progettiamo una pipeline di Calcolo Asincrono che utilizza lo Scheduling a Micro-Gruppi per raggruppare gli aggiornamenti frammentati e mascherare l'overhead di ricostruzione. Valutazioni estese sulla famiglia di modelli Qwen3 (fino a 32 miliardi di parametri) su 256 GPU dimostrano che il nostro approccio preserva l'efficienza delle architetture parallele consolidate, ottenendo un miglioramento di 1,57x nel tempo di iterazione end-to-end e riducendo la latenza del passo di ottimizzazione di 5,8x rispetto al baseline.

Ritorno alle Basi: Rivalutazione dell'Esplorazione nel Reinforcement Learning per il Ragionamento degli LLM Tramite Probabilità Generative
Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

Feb 5

ByPengyi Li, Elizaveta Goncharova, Andrey Kuznetsov, Ivan Oseledets

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un paradigma indispensabile per potenziare il ragionamento nei Large Language Model (LLM). Tuttavia, i metodi di ottimizzazione delle policy standard, come il Group Relative Policy Optimization (GRPO), convergono spesso verso policy a bassa entropia, portando a un severo collasso modale e a una limitata diversità degli output. Analizziamo questo problema dalla prospettiva della dinamica delle probabilità di campionamento, identificando come la funzione obiettivo standard rinforzi in modo sproporzionato i percorsi a massima verosimiglianza, sopprimendo così catene di ragionamento alternative valide. Per affrontare questa criticità, proponiamo un nuovo meccanismo di Advantage Re-weighting (ARM) progettato per equilibrare i livelli di confidenza tra tutte le risposte corrette. Incorporando la Perplessità del Prompt e la Confidenza della Risposta nella stima del vantaggio, il nostro metodo ricalibrà dinamicamente il segnale di ricompensa per attenuare gli aggiornamenti del gradiente dei percorsi di ragionamento iper-confidenti, ridistribuendo al contempo la massa di probabilità verso le soluzioni corrette sotto-esplorate. I risultati empirici dimostrano che il nostro approccio migliora significativamente la diversità generativa e l'entropia delle risposte, mantenendo un'accuratezza competitiva e raggiungendo efficacemente un compromesso superiore tra esplorazione e sfruttamento nei compiti di ragionamento. I risultati sperimentali sui modelli Qwen2.5 e DeepSeek in benchmark matematici e di coding mostrano che ProGRPO mitiga significativamente il collasso dell'entropia. In particolare, su Qwen2.5-7B, il nostro metodo supera il GRPO del 5.7% in Pass@1 e, in modo significativo, del 13.9% in Pass@32, evidenziando la sua superiore capacità di generare percorsi di ragionamento corretti e diversificati.

InftyThink+: Ragionamento Efficace ed Efficiente su Orizzonte Infinito tramite Apprendimento per Rinforzo
InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Feb 6

ByYuchen Yan, Liang Jiang, Jin Jiang, Shuaicheng Li, Zujie Wen, Zhiqiang Zhang, Jun Zhou, Jian Shao, Yueting Zhuang, Yongliang Shen

I grandi modelli di ragionamento ottengono prestazioni elevate grazie al ridimensionamento della chain-of-thought al momento dell'inferenza, ma questo paradigma soffre di costi quadratici, limiti di lunghezza del contesto e di un ragionamento degradato a causa degli effetti "lost-in-the-middle". Il ragionamento iterativo mitiga questi problemi riassumendo periodicamente i pensieri intermedi, tuttavia i metodi esistenti si basano su apprendimento supervisionato o euristiche fisse e non ottimizzano quando riassumere, cosa preservare e come riprendere il ragionamento. Proponiamo InftyThink+, un framework di reinforcement learning end-to-end che ottimizza l'intera traiettoria di ragionamento iterativo, basandosi su limiti di iterazione controllati dal modello e sulla summarizzazione esplicita. InftyThink+ adotta uno schema di addestramento in due fasi con un cold-start supervisionato seguito da reinforcement learning a livello di traiettoria, consentendo al modello di apprendere decisioni strategiche di summarizzazione e continuazione. Esperimenti su DeepSeek-R1-Distill-Qwen-1.5B mostrano che InftyThink+ migliora l'accuratezza del 21% su AIME24 e supera di netto il tradizionale reinforcement learning su lunghe chain-of-thought, generalizzando anche meglio su benchmark out-of-distribution. Inoltre, InftyThink+ riduce significativamente la latenza di inferenza e accelera l'addestramento con reinforcement learning, dimostrando un'efficienza di ragionamento migliorata insieme a prestazioni più solide.

MemGUI-Bench: Benchmarking della Memoria degli Agenti GUI Mobili in Ambienti Dinamici
MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

Feb 3

ByGuangyi Liu, Pengxiang Zhao, Yaozhen Liang, Qinyi Luo, Shunye Tang, Yuxiang Chai, Weifeng Lin, Han Xiao, WenHao Wang, Siheng Chen, Zhengxi Lu, Gao Wu, Hao Wang, Liang Liu, Yong Liu

Gli attuali benchmark per agenti GUI mobili falliscono sistematicamente nel valutare le capacità di memoria, presentando solo il 5,2-11,8% di compiti legati alla memoria e nessuna valutazione dell'apprendimento cross-sessione. Introduciamo MemGUI-Bench, un benchmark completo incentrato sulla memoria con valutazione pass@k e LLM-as-judge a stadi. I nostri contributi includono: (1) una tassonomia sistematica della memoria che analizza 11 agenti su 5 architetture; (2) 128 compiti su 26 applicazioni dove l'89,8% mette alla prova la memoria attraverso la ritenzione cross-temporale e cross-spaziale; (3) MemGUI-Eval, una pipeline automatizzata con Scrutinio Progressivo e 7 metriche gerarchiche; e (4) una valutazione basata su RQ di 11 agenti all'avanguardia. I nostri esperimenti rivelano significativi deficit di memoria in tutti i sistemi valutati, identificano 5 modalità di fallimento distinte e sintetizzano 5 implicazioni progettuali attuabili. Tutte le risorse, inclusi codice, benchmark e risultati di valutazione, saranno \textit{completamente open-source e mantenute continuativamente} su https://lgy0404.github.io/MemGUI-Bench/.

EgoAVU: Comprensione Audio-Visiva Egocentrica
EgoAVU: Egocentric Audio-Visual Understanding

Feb 5

ByAshish Seth, Xinhao Mei, Changsheng Zhao, Varun Nagaraja, Ernie Chang, Gregory P. Meyer, Gael Le Lan, Yunyang Xiong, Vikas Chandra, Yangyang Shi, Dinesh Manocha, Zhipeng Cai

La comprensione di video egocentrici riveste un ruolo fondamentale per l'intelligenza incarnata. I recenti modelli linguistici multimodali di grandi dimensioni (MLLM) sono in grado di accettare input sia visivi che audio. Tuttavia, a causa della difficoltà di ottenere etichette testuali con informazioni coerenti di modalità congiunta, la capacità degli MLLM di comprendere congiuntamente entrambe le modalità nei video egocentrici rimane poco esplorata. Per affrontare questo problema, introduciamo EgoAVU, un motore di dati scalabile per generare automaticamente narrazioni, domande e risposte audiovisive egocentriche. EgoAVU arricchisce le narrazioni umane con contesto multimodale e genera narrazioni audiovisive attraverso la modellazione delle correlazioni cross-modali. La filtrazione dei video basata su token e una curatela modulare basata su grafi garantiscono sia la diversità che la qualità dei dati. Sfruttando EgoAVU, costruiamo EgoAVU-Instruct, un ampio dataset di addestramento di 3 milioni di campioni, ed EgoAVU-Bench, una suddivisione valutativa verificata manualmente che copre diverse attività. EgoAVU-Bench rivela chiaramente i limiti degli MLLM esistenti: mostrano una forte propensione per i segnali visivi, trascurando spesso gli indizi audio o non riuscendo a correlare l'audio con la fonte visiva. Il fine-tuning degli MLLM su EgoAVU-Instruct affronta efficacemente questo problema, consentendo un miglioramento delle prestazioni fino al 113% su EgoAVU-Bench. Tali benefici si trasferiscono anche ad altri benchmark come EgoTempo ed EgoIllusion, raggiungendo un guadagno prestazionale relativo fino al 28%. Il codice verrà rilasciato alla comunità.

L'accuratezza del risultato non basta: allineare il processo di ragionamento dei modelli di ricompensa
Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

Feb 4

ByBinghai Wang, Yantao Liu, Yuxuan Liu, Tianyi Tang, Shenzhi Wang, Chang Gao, Chujie Zheng, Yichang Zhang, Le Yu, Shixuan Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Bowen Yu, Fei Huang, Junyang Lin

I Modelli di Ricompensa Generativi (GenRM) e l'approccio LLM-as-a-Judge mostrano un allineamento ingannevole producendo giudizi corretti per ragioni errate, poiché sono addestrati e valutati per privilegiare l'Accuratezza del Risultato, il che mina la loro capacità di generalizzare durante il RLHF. Introduciamo la Coerenza della Razionalità, una metrica granulare che quantifica l'allineamento tra il processo di ragionamento del modello e il giudizio umano. La nostra valutazione dei modelli di frontiera rivela che la coerenza della razionalità discrimina efficacemente tra i modelli all'avanguardia e rileva l'allineamento ingannevole, mentre l'accuratezza del risultato è carente in entrambi gli aspetti. Per colmare questa lacuna, introduciamo un segnale ibrido che combina la coerenza della razionalità con l'accuratezza del risultato per l'addestramento dei GenRM. Il nostro metodo di addestramento raggiunge prestazioni all'avanguardia su RM-Bench (87.1%) e JudgeBench (82%), superando le baseline basate solo sul risultato in media del 5%. Utilizzando il RM durante il RLHF, il nostro metodo migliora efficacemente le prestazioni come dimostrato su Arena Hard v2, con un notevole miglioramento del 7% nei compiti di scrittura creativa. Un'analisi più approfondita conferma che il nostro metodo evade la trappola dell'allineamento ingannevole, invertendo efficacemente il declino della coerenza della razionalità osservato nell'addestramento basato solo sul risultato.

OmniMoE: Un MoE Efficiente attraverso l'Orchestrazione di Esperti Atomici su Larga Scala
OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Feb 5

ByJingze Shi, Zhangyang Peng, Yizhang Zhu, Yifan Wu, Guang Liu, Yuyu Luo

Le architetture Mixture-of-Experts (MoE) si stanno evolvendo verso una granularità più fine per migliorare l'efficienza dei parametri. Tuttavia, i progetti MoE esistenti affrontano un compromesso intrinseco tra la granularità della specializzazione degli esperti e l'efficienza di esecuzione hardware. Proponiamo OmniMoE, un framework co-progettato a livello di sistema e algoritmo che spinge la granularità degli esperti al suo estremo logico. OmniMoE introduce Atomic Experts a livello vettoriale, consentendo un instradamento e un'esecuzione scalabili all'interno di un singolo layer MoE, mantenendo al contempo un ramo MLP denso condiviso per l'elaborazione generica. Sebbene questo design atomico massimizzi la capacità, pone serie sfide per la complessità di instradamento e l'accesso alla memoria. Per affrontare queste problematiche, OmniMoE adotta una co-progettazione sistema-algoritmo: (i) un Cartesian Product Router che scompone lo spazio massiccio degli indici per ridurre la complessità di instradamento da O(N) a O(√N); e (ii) un Expert-Centric Scheduling che inverte l'ordine di esecuzione per trasformare ricerche sparse e vincolate dalla memoria in efficienti operazioni dense su matrici. Validato su sette benchmark, OmniMoE (con 1.7B di parametri attivi) raggiunge un'accuratezza zero-shot del 50.9% su sette benchmark, superando i baseline a granularità grossolana (es. DeepSeekMoE) e fine (es. PEER). Fondamentalmente, OmniMoE riduce la latenza di inferenza da 73ms a 6.7ms (un'accelerazione di 10.9 volte) rispetto a PEER, dimostrando che un MoE su larga scala a granularità fine può essere veloce e accurato. Il nostro codice è open-source all'indirizzo https://github.com/flash-algo/omni-moe.

OmniVideo-R1: Rafforzare il ragionamento audiovisivo con l'intenzione di query e l'attenzione alla modalità
OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Feb 5

ByZhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang

Mentre gli esseri umani percezionano il mondo attraverso modalità diverse che operano sinergicamente per supportare una comprensione olistica dell'ambiente circostante, i modelli omnivideo esistenti affrontano ancora sfide sostanziali nelle attività di comprensione audiovisiva. In questo articolo, proponiamo OmniVideo-R1, un innovativo framework rinforzato che migliora il ragionamento multimodale. OmniVideo-R1 potenzia i modelli permettendo loro di "pensare con segnali omnimali" attraverso due strategie chiave: (1) grounding intensivo di query basato su paradigmi di apprendimento auto-supervisionato; e (2) fusione modale-attentiva costruita su paradigmi di apprendimento contrastivo. Esperimenti estesi su molteplici benchmark dimostrano che OmniVideo-R1 supera costantemente baseline solide, evidenziandone l'efficacia e le robuste capacità di generalizzazione.

Fallimenti nel Ragionamento dei Grandi Modelli Linguistici
Large Language Model Reasoning Failures

Feb 5

ByPeiyang Song, Pengrui Han, Noah Goodman

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità di ragionamento notevoli, ottenendo risultati impressionanti in un'ampia gamma di compiti. Nonostante questi progressi, persistono significativi fallimenti di ragionamento, che si verificano anche in scenari apparentemente semplici. Per comprendere e affrontare sistematicamente queste carenze, presentiamo la prima rassegna completa dedicata ai fallimenti del ragionamento negli LLM. Introduciamo un nuovo quadro di categorizzazione che distingue il ragionamento in tipi incarnato e non incarnato, con quest'ultimo ulteriormente suddiviso in ragionamento informale (intuitivo) e formale (logico). Parallelamente, classifichiamo i fallimenti di ragionamento lungo un asse complementare in tre tipi: fallimenti fondamentali intrinseci alle architetture degli LLM che influenzano ampiamente i task a valle; limitazioni specifiche dell'applicazione che si manifestano in domini particolari; e problemi di robustezza caratterizzati da prestazioni incoerenti tra piccole variazioni. Per ogni fallimento di ragionamento, forniamo una definizione chiara, analizziamo gli studi esistenti, esploriamo le cause profonde e presentiamo strategie di mitigazione. Unificando gli sforzi di ricerca frammentati, la nostra rassegna fornisce una prospettiva strutturata sulle debolezze sistemiche del ragionamento degli LLM, offrendo spunti preziosi e guidando la ricerca futura verso la costruzione di capacità di ragionamento più solide, affidabili e robuste. Rilasciamo inoltre una raccolta completa di lavori di ricerca sui fallimenti del ragionamento degli LLM, come repository GitHub all'indirizzo https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, per fornire un punto di ingresso facile a quest'area.

Agenti a Evoluzione Collettiva: Auto-miglioramento Continuo tramite Condivisione dell'Esperienza
Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing

Feb 4

ByZhaotian Weng, Antonis Antoniades, Deepak Nathani, Zhen Zhang, Xiao Pu, Xin Eric Wang

Gli agenti auto-miglioranti a ciclo aperto possono modificare autonomamente i propri progetti strutturali per potenziare le capacità e superare i limiti delle architetture predefinite, riducendo così la dipendenza dall'intervento umano. Introduciamo gli Agenti a Evoluzione di Gruppo (GEA), un nuovo paradigma per l'auto-miglioramento a ciclo aperto che considera un gruppo di agenti come unità evolutiva fondamentale, consentendo la condivisione e il riutilizzo esplicito dell'esperienza all'interno del gruppo durante l'evoluzione. A differenza dei paradigmi esistenti di auto-evoluzione a ciclo aperto che adottano un'evoluzione ad albero, GEA supera la limitazione dello sfruttamento inefficiente della diversità esplorativa causata dai rami evolutivi isolati. Valutiamo GEA su benchmark di codifica complessi, dove supera significativamente i metodi di auto-evoluzione all'avanguardia (71,0% contro 56,7% su SWE-bench Verified, 88,3% contro 68,3% su Polyglot) e raggiunge o supera i migliori framework di agenti progettati da umani (rispettivamente 71,8% e 52,0% su due benchmark). L'analisi rivela che GEA converte più efficacemente la diversità esplorativa iniziale in progressi sostenuti a lungo termine, ottenendo prestazioni superiori a parità di numero di agenti evoluti. Inoltre, GEA mostra una trasferibilità coerente tra diversi modelli di codifica e una maggiore robustezza, correggendo bug a livello di framework in 1,4 iterazioni in media, contro le 5 dei metodi di auto-evoluzione.

QuantLRM: Quantificazione dei Modelli di Ragionamento di Grande Dimensione mediante Segnali di Fine-Tuning
QuantLRM: Quantization of Large Reasoning Models via Fine-Tuning Signals

Jan 31

ByNan Zhang, Eugene Kwek, Yusen Zhang, Muyu Pan, Suhang Wang, Prasenjit Mitra, Rui Zhang

La quantizzazione basata esclusivamente sui pesi è fondamentale per comprimere i Large Language Model (LLM). Ispirati dallo spirito della classica pruning per magnitudine, studiamo se l'entità degli aggiornamenti dei pesi durante il fine-tuning orientato al ragionamento possa fornire segnali utili per quantizzare i Large Reasoning Model (LRM). Ipotesizziamo che gli aggiornamenti di peso più piccoli e più grandi durante il fine-tuning siano più importanti di quelli di magnitudine intermedia, un fenomeno che definiamo "protezione di entrambi gli estremi". Dopo la validazione dell'ipotesi, introduciamo QuantLRM, che indica la quantizzazione dei pesi degli LRM tramite segnali di fine-tuning. Adattiamo semplici funzioni quadratiche ristrette sugli aggiornamenti dei pesi per proteggere entrambi gli estremi. Moltiplicando i valori quadratici medi con il conteggio degli aggiornamenti di peso nulli dei canali, calcoliamo l'importanza del canale, che risulta più efficace rispetto all'uso di informazioni di attivazione o del second'ordine. Eseguiamo QuantLRM per quantizzare vari modelli sottoposti a fine-tuning (incluso fine-tuning supervisionato, di ottimizzazione delle preferenze dirette e di apprendimento per rinforzo) su quattro benchmark di ragionamento (AIME-120, FOLIO, sequenze temporali e GPQA-Diamond) e riscontriamo empiricamente che QuantLRM fornisce un miglioramento consistente per la quantizzazione degli LRM, con un miglioramento medio del 6,55% su un modello con fine-tuning ad apprendimento per rinforzo. Supportando anche LRM non sottoposti a fine-tuning, QuantLRM raccoglie segnali efficaci tramite pseudo-fine-tuning, migliorandone notevolmente l'applicabilità.

RaBiT: Addestramento di Binarizzazione Consapevole del Residuo per LLM Precisi ed Efficienti
RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

Feb 5

ByYoungcheon You, Banseok Lee, Minseop Choi, Seonyoung Kim, Hyochan Chong, Changdong Kim, Youngmin Kim, Dongkyu Kim

La distribuzione efficiente di grandi modelli linguistici (LLM) richiede una quantizzazione estrema, imponendo un compromesso critico tra efficienza a basso bit e prestazioni. La binarizzazione residua consente inferenza matmul-free e compatibile con l'hardware impilando strati binari (pm1), ma è afflitta da una patologica co-adattamento delle feature. Identifichiamo una modalità di fallimento chiave, che definiamo adattamento inter-percorso: durante l'addestramento con consapevolezza della quantizzazione (QAT), i percorsi binari residui paralleli apprendono feature ridondanti, degradando la struttura di compensazione dell'errore e limitando la capacità espressiva del modello. Mentre i lavori precedenti si affidano a soluzioni euristiche (ad esempio, il blocco dei percorsi) che vincolano lo spazio delle soluzioni, noi proponiamo RaBiT, un nuovo framework di quantizzazione che risolve il co-adattamento imponendo algoritmicamente una gerarchia residua. Il suo meccanismo centrale deriva sequenzialmente ogni percorso binario da un singolo peso in piena precisione condiviso, garantendo che ogni percorso corregga l'errore di quello precedente. Questo processo è stabilizzato da un'inizializzazione robusta che privilegia la preservazione funzionale rispetto alla mera approssimazione dei pesi. RaBiT ridefinisce la frontiera accuratezza-efficienza a 2 bit: raggiunge prestazioni all'avanguardia, rivaleggia persino con i metodi hardware-intensive di Quantizzazione Vettoriale (VQ) e garantisce un'accelerazione dell'inferenza di 4,49 volte rispetto ai modelli in piena precisione su una RTX 4090.

IA: L'Arena LLM del Governo francese per raccogliere prompt umani e dati di preferenza in lingua francese
compar:IA: The French Government's LLM arena to collect French-language human prompts and preference data

Feb 6

ByLucie Termignon, Simonas Zilinskas, Hadrien Pélissier, Aurélien Barrot, Nicolas Chesnais, Elie Gavoty

I modelli linguistici di grandi dimensioni (LLM) mostrano spesso prestazioni ridotte, un allineamento culturale e una robustezza della sicurezza inferiori nelle lingue diverse dall'inglese, in parte perché l'inglese domina sia i dati di pre-addestramento che i dataset di allineamento delle preferenze umane. Metodi di addestramento come l'Apprendimento per Rinforzo da Feedback Umano (RLHF) e l'Ottimizzazione Diretta delle Preferenze (DPO) richiedono dati sulle preferenze umane, che rimangono scarsi e in gran parte non pubblici per molte lingue oltre all'inglese. Per colmare questa lacuna, presentiamo compar:IA, un servizio pubblico digitale open-source sviluppato all'interno del governo francese e progettato per raccogliere dati su larga scala sulle preferenze umane da un pubblico generale prevalentemente francofono. La piattaforma utilizza un'interfaccia di confronto a coppie in cieco per catturare prompt non vincolati e realistici, nonché i giudizi degli utenti su una varietà di modelli linguistici, mantenendo al contempo un basso attrito di partecipazione e un filtraggio automatico che preserva la privacy. Al 07-02-2026, compar:IA ha raccolto oltre 600.000 prompt a forma libera e 250.000 voti di preferenza, con circa l'89% dei dati in francese. Rilasciamo tre dataset complementari – conversazioni, voti e reazioni – con licenze open e presentiamo analisi iniziali, inclusa una classifica di modelli in lingua francese e i modelli di interazione degli utenti. Oltre al contesto francese, compar:IA si sta evolvendo verso un bene pubblico digitale internazionale, offrendo un'infrastruttura riutilizzabile per l'addestramento multilingue di modelli, la valutazione e lo studio dell'interazione uomo-IA.

Svelare l'Interferenza Trans-Obbiettivo nell'Allineamento Multi-Obbiettivo
Uncovering Cross-Objective Interference in Multi-Objective Alignment

Feb 6

ByYining Lu, Meng Jiang

Studiamo una modalità di fallimento persistente nell'allineamento multi-obiettivo per i grandi modelli linguistici (LLM): l'addestramento migliora le prestazioni solo su un sottoinsieme di obiettivi, causando al contempo il deterioramento di altri. Formalizziamo questo fenomeno come interferenza cross-obiettivo e conduiamo il primo studio sistematico attraverso gli algoritmi classici di scalarizzazione, dimostrando che l'interferenza è pervasiva e mostra una forte dipendenza dal modello. Per spiegare questo fenomeno, deriviamo una legge di covarianza locale che mostra come un obiettivo migliori al primo ordine quando la sua ricompensa presenta una covarianza positiva con il punteggio scalarizzato. Estendiamo questa analisi alle funzioni obiettivo surrogate troncate utilizzate nell'allineamento moderno, dimostrando che la legge di covarianza rimane valida in condizioni non restrittive nonostante il troncamento. Basandoci su questa analisi, proponiamo l'Adattamento Ponderato Mirato alla Covarianza (Covariance Targeted Weight Adaptation - CTWA), un metodo plug-and-play che mantiene una covarianza positiva tra le ricompense degli obiettivi e il segnale di addestramento per mitigare efficacemente l'interferenza cross-obiettivo. Infine, integriamo queste condizioni di miglioramento locale con un'analisi di convergenza globale sotto la condizione di Polyak–Łojasiewicz, stabilendo quando l'ottimizzazione scalarizzata non convessa raggiunge la convergenza globale e come l'interferenza cross-obiettivo dipenda da specifiche proprietà geometriche del modello.

SEMA: Apprendimento Semplice ma Efficace per Attacchi Jailbreak a Turni Multipli
SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

Feb 6

ByMingqian Feng, Xiaodong Liu, Weiwei Yang, Jialin Song, Xuekai Zhu, Chenliang Xu, Jianfeng Gao

I jailbreak multi-turn catturano il vero modello di minaccia per i chatbot allineati alla sicurezza, dove gli attacchi a turno singolo sono solo un caso speciale. Tuttavia, gli approcci esistenti falliscono a causa della complessità esplorativa e della deriva dell'intento. Proponiamo SEMA, un framework semplice ma efficace che addestra un attaccante multi-turn senza fare affidamento su strategie esistenti o dati esterni. SEMA comprende due fasi. L'autoregolazione del prefilling abilita rollout utilizzabili mediante fine-tuning su prompt avversariali multi-turn autogenerati, non rifiutanti e ben strutturati, partendo da un prefisso minimo, stabilizzando così l'apprendimento successivo. L'apprendimento per rinforzo con ricompensa consapevole della deriva dell'intento addestra l'attaccante a elicitare prompt avversariali multi-turn validi mantenendo lo stesso obiettivo dannoso. Ancoriamo l'intento dannoso nei jailbreak multi-turn tramite una ricompensa consapevole della deriva che combina allineamento dell'intento, rischio di compliance e livello di dettaglio. Il nostro regime di attacco ad anello aperto evita la dipendenza dal feedback della vittima, unifica le impostazioni a turno singolo e multi-turn e riduce la complessità esplorativa. Su più dataset, modelli vittima e giudici di jailbreak, il nostro metodo raggiunge tassi di successo d'attacco (ASR) allo stato dell'arte (SOTA), superando tutte le baseline a turno singolo, le baseline multi-turn scriptate manualmente e guidate da template, nonché le nostre varianti SFT (Supervised Fine-Tuning) e DPO (Direct Preference Optimization). Ad esempio, SEMA ottiene una media dell'80,1% ASR@1 su tre modelli vittima closed-source e open-source su AdvBench, superando lo SOTA del 33,9%. L'approccio è compatto, riproducibile e trasferibile tra target, fornendo uno stress test più forte e realistico per la sicurezza dei grandi modelli linguistici (LLM) e abilitando redteaming automatico per esporre e localizzare le modalità di fallimento. Il nostro codice è disponibile all'indirizzo: https://github.com/fmmarkmq/SEMA.

SeeUPO: Agente RL a Livello di Sequenza con Garanzie di Convergenza
SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees

Feb 6

ByTianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding

L'apprendimento per rinforzo (RL) è emerso come il paradigma predominante per l'addestramento di agenti IA basati su grandi modelli linguistici (LLM). Tuttavia, gli attuali algoritmi RL di base mancano di garanzie di convergenza verificate in scenari agentici, specialmente in contesti multi-turno, il che può portare a instabilità durante l'addestramento e a fallimenti nel convergere verso politiche ottimali. In questo articolo, analizziamo sistematicamente come diverse combinazioni di meccanismi di aggiornamento della politica e metodi di stima del vantaggio influenzino le proprietà di convergenza in scenari a turno singolo/multiplo. Scopriamo che REINFORCE con Group Relative Advantage Estimation (GRAE) può convergere all'ottimo globale in condizioni non scontate, ma la combinazione di PPO e GRAE infrange la proprietà di miglioramento monotono originale del PPO. Inoltre, dimostriamo che i principali algoritmi RL di base non possono ottenere simultaneamente sia l'assenza di un critico che garanzie di convergenza in scenari multi-turno. Per affrontare questo problema, proponiamo SeeUPO (Sequence-level Sequential Update Policy Optimization), un approccio senza critico con garanzie di convergenza per interazioni multi-turno. SeeUPO modella l'interazione multi-turno come una sequenza di problemi bandit multi-agente eseguiti in sequenza. Attraverso aggiornamenti sequenziali della politica turno per turno in ordine di esecuzione inverso, garantisce un miglioramento monotono e la convergenza alla soluzione ottimale globale mediante induzione all'indietro. Gli esperimenti su AppWorld e BFCL v4 dimostrano i sostanziali miglioramenti di SeeUPO rispetto agli algoritmi di base esistenti: guadagni relativi del 43,3%-54,6% su Qwen3-14B e del 24,1%-41,9% su Qwen2.5-14B (mediati sui benchmark), unitamente a una stabilità di addestramento superiore.

ReMiT: Addestramento Intermedio Guidato da RL per l'Evoluzione Iterativa dei LLM
ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

Feb 3

ByJunjie Huang, Jiarui Qin, Di Yin, Weiwen Liu, Yong Yu, Xing Sun, Weinan Zhang

Le pipeline standard di addestramento per i grandi modelli linguistici (LLM) sono tipicamente unidirezionali, procedendo dalla pre-training alla post-training. Tuttavia, il potenziale di un processo bidirezionale – in cui le intuizioni della post-training migliorino retroattivamente il fondamento pre-addestrato – rimane inesplorato. Il nostro obiettivo è stabilire un volano auto-rinforzante: un ciclo in cui un modello ottimizzato con apprendimento per rinforzo (RL) potenzia il modello base, che a sua volta migliora le prestazioni della post-training successiva, senza richiedere insegnanti o modelli di riferimento appositamente addestrati. Per realizzare ciò, analizziamo le dinamiche di addestramento e identifichiamo la fase di mid-training (ricottura) come un punto di svolta critico per le capacità del modello. Questa fase si verifica tipicamente alla fine del pre-training, utilizzando corpora di alta qualità con un tasso di apprendimento in rapida decadenza. Basandoci su questa intuizione, introduciamo ReMiT (Reinforcement Learning-Guided Mid-Training). Nello specifico, ReMiT sfrutta i prior di ragionamento dei modelli ottimizzati con RL per ricalibrare dinamicamente i pesi dei token durante la fase di mid-training, privilegiando quelli cruciali per il ragionamento. Empiricamente, ReMiT raggiunge un miglioramento medio del 3% su 10 benchmark di pre-training, che coprono matematica, codice e ragionamento generale, e mantiene questi guadagni per oltre il 2% lungo l'intera pipeline di post-training. Questi risultati convalidano un ciclo di feedback iterativo, abilitando un'evoluzione continua e auto-rinforzante degli LLM.

PlanViz: Valutazione della Generazione e Modifica di Immagini Orientate alla Pianificazione per Attività di Utilizzo del Computer
PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

Feb 6

ByJunxian Li, Kai Liu, Leyang Chen, Weida Wang, Zhixin Wang, Jiaqi Xu, Fan Li, Renjing Pei, Linghe Kong, Yulun Zhang

I modelli multimodali unificati (UMM) hanno dimostrato capacità impressionanti nella generazione di immagini naturali e nel supportare il ragionamento multimodale. Tuttavia, il loro potenziale nel supportare compiti di pianificazione dell'uso del computer, che sono strettamente correlati alla nostra vita quotidiana, rimane inesplorato. La generazione e la modifica di immagini in compiti di uso del computer richiedono capacità come il ragionamento spaziale e la comprensione procedurale, e non è ancora noto se gli UMM possiedano queste capacità per portare a termine tali compiti. Pertanto, proponiamo PlanViz, un nuovo benchmark progettato per valutare la generazione e la modifica di immagini per compiti di uso del computer. Per raggiungere l'obiettivo della nostra valutazione, ci concentriamo su sotto-compiti che coinvolgono frequentemente la vita quotidiana e richiedono passaggi di pianificazione. Nello specifico, sono stati progettati tre nuovi sotto-compiti: pianificazione di percorsi, diagrammazione del lavoro e visualizzazione di interfacce web e utente (UI). Affrontiamo le sfide relative alla garanzia della qualità dei dati attraverso la cura di domande annotate da umani e immagini di riferimento, e un processo di controllo qualità. Per le sfide di una valutazione completa ed esatta, viene proposto un punteggio adattivo al compito, il PlanScore. Il punteggio aiuta a comprendere la correttezza, la qualità visiva e l'efficienza delle immagini generate. Attraverso esperimenti, evidenziamo le principali limitazioni e opportunità per la ricerca futura su questo argomento.

I Transformer Vision traggono vantaggio da componenti non lisci durante il fine-tuning
Vision Transformer Finetuning Benefits from Non-Smooth Components

Feb 6

ByAmbroise Odonnat, Laetitia Chapel, Romain Tavenard, Ievgen Redko

La levigatezza dell'architettura transformer è stata ampiamente studiata nel contesto della generalizzazione, della stabilità dell'addestramento e della robustezza adversarial. Tuttavia, il suo ruolo nel transfer learning rimane poco compreso. In questo articolo, analizziamo la capacità dei componenti del vision transformer di adattare i propri output ai cambiamenti negli input, o, in altre parole, la loro plasticità. Definita come un tasso medio di cambiamento, essa cattura la sensibilità alle perturbazioni degli input; in particolare, un'alta plasticità implica una bassa levigatezza. Dimostriamo attraverso l'analisi teorica e esperimenti completi che questa prospettiva fornisce una guida principiata nella scelta dei componenti da privilegiare durante l'adattamento. Un punto chiave per i praticanti è che l'alta plasticità dei moduli di attenzione e degli strati feedforward porta costantemente a migliori prestazioni di fine-tuning. I nostri risultati si discostano dall'assunzione prevalente che la levigatezza sia desiderabile, offrendo una prospettiva innovativa sulle proprietà funzionali dei transformer. Il codice è disponibile all'indirizzo https://github.com/ambroiseodt/vit-plasticity.

Riconsiderare la Convenzione Strutturale dei Modelli Linguistici Trasformatori
Revisiting the Shape Convention of Transformer Language Models

Feb 6

ByFeng-Ting Liao, Meng-Hsi Chen, Guan-Ting Yi, Da-shan Shiu

I modelli linguistici Transformer densi hanno largamente aderito a una forma architetturale coerente: ogni strato è composto da un modulo di attenzione seguito da una rete feed-forward (FFN) con un MLP di tipo stretto-ampio-stretto, che assegna la maggior parte dei parametri all'MLP con rapporti di espansione compresi tra 2 e 4. Sulla scia di risultati recenti che dimostrano come MLP residui di tipo ampio-stretto-ampio (a clessidra) offrano capacità di approssimazione di funzioni superiori, rivediamo la convenzione di lunga data sulla forma dell'MLP nei Transformer, mettendo in discussione la necessità del progetto stretto-ampio-stretto. Per studiare ciò, sviluppiamo una variante di Transformer che sostituisce la FFN convenzionale con una FFN più profonda a forma di clessidra, composta da una pila di sub-MLP a clessidra connessi da percorsi residui. Postuliamo che una FFN a clessidra più profonda ma più leggera possa rappresentare un'alternativa competitiva alla FFN convenzionale e che i parametri risparmiati utilizzando una FFN a clessidra più leggera possano essere utilizzati in modo più efficace, ad esempio ingrandendo le dimensioni nascoste del modello a parità di budget. Confermiamo ciò attraverso validazioni empiriche su diverse scale di modelli: le FFN a clessidra superano le FFN convenzionali fino a 400M di parametri e raggiungono prestazioni comparabili su scale maggiori fino a 1B di parametri; le varianti di FFN a clessidra con FFN ridotta e parametri di attenzione aumentati mostrano miglioramenti costanti rispetto alle configurazioni convenzionali a budget equivalente. Nel complesso, questi risultati gettano nuova luce sul lavoro recente e sollecitano una riconsiderazione della convenzione dell'MLP stretto-ampio-stretto e dell'equilibrio tra attenzione e FFN verso modelli linguistici moderni efficienti ed espressivi.

AtlasPatch: Uno Strumento Efficiente e Scalabile per la Pre-elaborazione di Immagini a Tutto Vetrino in Patologia Computazionale
AtlasPatch: An Efficient and Scalable Tool for Whole Slide Image Preprocessing in Computational Pathology

Feb 3

ByAhmed Alagha, Christopher Leclerc, Yousef Kotp, Omar Metwally, Calvin Moras, Peter Rentopoulos, Ghodsiyeh Rostami, Bich Ngoc Nguyen, Jumanah Baig, Abdelhakim Khellaf, Vincent Quoc-Huy Trinh, Rabeb Mizouni, Hadi Otrok, Jamal Bentahar, Mahdi S. Hosseini

La preelaborazione delle immagini a intero vetrino (WSI), che tipicamente comprende la rilevazione dei tessuti seguita dall'estrazione di patch, è fondamentale per i flussi di lavoro di patologia computazionale guidata dall'IA. Questa fase rimane un collo di bottiglia computazionale significativo, poiché gli strumenti esistenti si basano su sogliatura euristica imprecisa per la rilevazione dei tessuti, oppure adottano approcci basati su IA addestrati su dati con diversità limitata che operano a livello di patch, comportando una notevole complessità computazionale. Presentiamo AtlasPatch, un framework efficiente e scalabile per la preelaborazione di vetrini, progettato per una rilevazione accurata dei tessuti e un'estrazione ad alto rendimento di patch con un overhead computazionale minimo. Il modulo di rilevazione tissutale di AtlasPatch è stato addestrato su un dataset eterogeneo e semi-annotato manualmente di circa 30.000 miniature WSI, utilizzando un efficiente fine-tuning del modello Segment-Anything. Lo strumento estrapola le maschere dei tessuti dalle miniature ai vetrini a piena risoluzione per estrarre le coordinate delle patch alle ingrandimenti specificati dall'utente, con opzioni per flussare direttamente le patch in encoder di immagini comuni per l'embedding o per memorizzare le immagini delle patch, il tutto parallelizzato efficientemente su CPU e GPU. Valutiamo AtlasPatch in termini di precisione di segmentazione, complessità computazionale e apprendimento multi-istanza a valle, ottenendo prestazioni allo stato dell'arte operando a una frazione del loro costo computazionale. AtlasPatch è open-source e disponibile all'indirizzo https://github.com/AtlasAnalyticsLab/AtlasPatch.

SEAD: Agente Auto-Evolvente per Dialoghi di Servizio Multi-Turn
SEAD: Self-Evolving Agent for Multi-Turn Service Dialogue

Feb 3

ByYuqin Dai, Ning Gao, Wei Zhang, Jie Wang, Zichen Luo, Jinpeng Wang, Yujie Wang, Ruiyuan Wu, Chaozheng Wang

I Large Language Model hanno dimostrato capacità notevoli nei dialogi a dominio aperto. Tuttavia, i metodi attuali mostrano prestazioni subottimali nei dialogi di servizio, poiché si basano su dati di conversazione umana rumorosi e di bassa qualità. Questa limitazione deriva dalla scarsità di dati e dalla difficoltà di simulare comportamenti utente autentici e orientati a uno scopo. Per affrontare questi problemi, proponiamo SEAD (Self-Evolving Agent for Service Dialogue), un framework che consente agli agenti di apprendere strategie efficaci senza l'uso di annotazioni umane su larga scala. SEAD scompone la modellazione dell'utente in due componenti: un Profile Controller che genera stati utente diversificati per gestire il curriculum di addestramento, e un User Role-play Model che si concentra sul role-playing realistico. Questo design garantisce che l'ambiente fornisca scenari di addestramento adattivi invece di agire come un avversario sleale. Gli esperimenti dimostrano che SEAD supera significativamente i Modelli Base Open-source e i Modelli Commerciali Closed-source, migliorando il tasso di completamento del task del 17.6% e l'efficienza del dialogo dell'11.1%. Il codice è disponibile all'indirizzo: https://github.com/Da1yuqin/SEAD.

SPARC: Separazione dei Circuiti di Percezione e Ragionamento per il Ridimensionamento al Momento del Test dei VLM
SPARC: Separating Perception And Reasoning Circuits for Test-time Scaling of VLMs

Feb 6

ByNiccolo Avogaro, Nayanika Debnath, Li Mi, Thomas Frick, Junling Wang, Zexue He, Hang Hua, Konrad Schindler, Mattia Rigotti

Nonostante i recenti successi, lo scaling al momento del test - ovvero l'espansione dinamica del budget di token durante l'inferenza secondo necessità - rimane un approccio fragile per i modelli visione-linguaggio (VLM): catene di ragionamento non strutturate sulle immagini intrecciano percezione e ragionamento, portando a contesti lunghi e disorganizzati in cui piccoli errori percettivi possono propagarsi fino a generare risposte completamente errate. Inoltre, per ottenere buone prestazioni è necessario un costoso apprendimento per rinforzo con ricompense definite manualmente. Qui introduciamo SPARC (Separating Perception And Reasoning Circuits), un framework modulare che disaccoppia esplicitamente la percezione visiva dal ragionamento. Ispirandosi all'elaborazione sequenziale sensoriale-cognitiva nel cervello, SPARC implementa una pipeline a due stadi in cui il modello esegue prima una ricerca visiva esplicita per localizzare le regioni rilevanti per la domanda, per poi condizionare il proprio ragionamento su tali regioni per produrre la risposta finale. Questa separazione consente uno scaling al test indipendente con allocazione asimmetrica della potenza di calcolo (ad esempio, privilegiando l'elaborazione percettiva in caso di distribuzione shift), supporta un'ottimizzazione selettiva (ad esempio, migliorando solo lo stadio percettivo quando è il collo di bottiglia per le prestazioni end-to-end) e si adatta a contesti compressi eseguendo la ricerca globale a risoluzioni immagine inferiori e allocando l'elaborazione ad alta risoluzione solo alle regioni selezionate, riducendo così il numero totale di token visivi e il calcolo richiesto. Su benchmark impegnativi di ragionamento visivo, SPARC supera le baseline monolitiche e forti approcci di visual-grounding. Ad esempio, SPARC migliora l'accuratezza di Qwen3VL-4B sul benchmark V^* VQA di 6,7 punti percentuali e supera il "pensare con le immagini" di 4,6 punti su un compito OOD impegnativo, nonostante richieda un budget di token 200 volte inferiore.

Apprendimento di un Meta-Modello Generativo delle Attivazioni dei LLM
Learning a Generative Meta-Model of LLM Activations

Feb 6

ByGrace Luo, Jiahai Feng, Trevor Darrell, Alec Radford, Jacob Steinhardt

Gli approcci esistenti per analizzare le attivazioni delle reti neurali, come PCA e autoencoder sparsi, si basano su forti assunzioni strutturali. I modelli generativi offrono un'alternativa: possono scoprire strutture senza tali assunzioni e agire come prior che migliorano la fedeltà degli interventi. Esploriamo questa direzione addestrando modelli di diffusione su un miliardo di attivazioni del flusso residuo, creando "meta-modelli" che apprendono la distribuzione degli stati interni di una rete. Troviamo che la loss di diffusione diminuisce in modo regolare con il calcolo e predice in modo affidabile l'utilità a valle. In particolare, applicando il prior appreso dal meta-modello agli interventi di steering si migliora la fluidità, con guadagni maggiori al diminuire della loss. Inoltre, i neuroni del meta-modello isolano progressivamente i concetti in unità individuali, con punteggi di probing sparsi che scalano al diminuire della loss. Questi risultati suggeriscono che i meta-modelli generativi offrono un percorso scalabile verso l'interpretabilità senza assunzioni strutturali restrittive. Pagina del progetto: https://generative-latent-prior.github.io.

Tabella-come-Ricerca: Modellare la Ricerca di Informazioni Agente a Lungo Orizzonte come Completamento di Tabelle
Table-as-Search: Formulate Long-Horizon Agentic Information Seeking as Table Completion

Feb 6

ByTian Lan, Felix Henry, Bin Zhu, Qianghuai Jia, Junyang Ren, Qihang Pu, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo

Gli agenti attuali di ricerca di informazioni (InfoSeeking) faticano a mantenere focus e coerenza durante esplorazioni a lungo termine, poiché il monitoraggio degli stati di ricerca, inclusi la procedura di pianificazione e i massicci risultati, all'interno di un unico contesto in testo semplice è intrinsecamente fragile. Per risolvere questo problema, introduciamo Table-as-Search (TaS), un framework di pianificazione strutturato che riformula il compito di InfoSeeking come un'attività di Completamento Tabellare. TaS mappa ogni query in uno schema di tabella strutturato mantenuto in un database esterno, dove le righe rappresentano i candidati di ricerca e le colonne denotano vincoli o informazioni richieste. Questa tabella gestisce in modo preciso gli stati di ricerca: le celle compilate registrano rigorosamente la cronologia e i risultati della ricerca, mentre le celle vuote fungono da piano di ricerca esplicito. Crucialmente, TaS unifica tre distinti compiti di InfoSeeking: Ricerca Profonda, Ricerca Ampia e la sfidante Ricerca Profonda e Ampia. Esperimenti estensivi dimostrano che TaS supera significamente numerosi baseline allo stato dell'arte su tre tipi di benchmark, inclusi framework multi-agente e sistemi commerciali. Inoltre, la nostra analisi convalida la robustezza superiore di TaS nelle ricerche di informazioni a lungo termine, insieme alla sua efficienza, scalabilità e flessibilità. Il codice e i dataset sono rilasciati pubblicamente su https://github.com/AIDC-AI/Marco-Search-Agent.

Seg-ReSearch: Segmentazione con Ragionamento Intervallato e Ricerca Esterna
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search

Feb 4

ByTianming Liang, Qirui Du, Jian-Fang Hu, Haichao Jiang, Zicheng Lin, Wei-Shi Zheng

La segmentazione basata sul linguaggio è stata un tema popolare nella computer vision. Sebbene i recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) abbiano dotato i sistemi di segmentazione di capacità di ragionamento, questi sforzi rimangono confinati dalla conoscenza interna congelata degli MLLM, il che ne limita il potenziale per scenari reali che coinvolgono informazioni aggiornate o concetti specifici di dominio. In questo lavoro, proponiamo Seg-ReSearch, un nuovo paradigma di segmentazione che supera il collo di bottiglia della conoscenza degli approcci esistenti. Abilitando un ragionamento intercalato e una ricerca esterna, Seg-ReSearch potenzia i sistemi di segmentazione per gestire query dinamiche e di mondo aperto che si estendono oltre la conoscenza congelata degli MLLM. Per addestrare efficacemente questa capacità, introduciamo un design di ricompensa gerarchico che armonizza la guida iniziale con incentivi progressivi, mitigando il dilemma tra segnali di risultato sparsi e una supervisione rigida passo-passo. Per la valutazione, costruiamo OK-VOS, un benchmark impegnativo che richiede esplicitamente conoscenze esterne per la segmentazione di oggetti in video. Esperimenti su OK-VOS e due benchmark esistenti per la segmentazione con ragionamento dimostrano che il nostro Seg-ReSearch migliora gli approcci all'avanguardia con un margine sostanziale. Codice e dati saranno rilasciati su https://github.com/iSEE-Laboratory/Seg-ReSearch.

Esplorazione della Purificazione della Conoscenza nella Distillazione della Conoscenza Multi-Docente per i Modelli Linguistici di Grande Dimensione
Exploring Knowledge Purification in Multi-Teacher Knowledge Distillation for LLMs

Feb 1

ByRuihan Jin, Pengpeng Shao, Zhengqi Wen, Jinyang Wu, Mingkuan Feng, Shuo Yang, Chu Yuan Zhang, Jianhua Tao

La distillazione della conoscenza è emersa come tecnica fondamentale per trasferire il sapere da modelli linguistici di grandi dimensioni (LLM) più potenti a modelli più piccoli ed efficienti. Tuttavia, gli approcci tradizionali di distillazione affrontano sfide legate a conflitti di conoscenza ed elevate richieste di risorse, specialmente quando si utilizzano più modelli insegnanti. In questo articolo, introduciamo il concetto di Purificazione della Conoscenza, che consolida le ragioni fondamentali di più LLM insegnanti in un'unica ragione, mitigando così i conflitti e migliorando l'efficienza. Per indagare l'efficacia della purificazione della conoscenza, proponiamo ulteriormente cinque metodi di purificazione da diverse prospettive. I nostri esperimenti dimostrano che questi metodi non solo migliorano le prestazioni del modello distillato, ma alleviano efficacemente i conflitti di conoscenza. Inoltre, i metodi basati su router mostrano capacità di generalizzazione robuste, sottolineando il potenziale delle tecniche di purificazione innovative nell'ottimizzare la distillazione multi-insegnante e nel facilitare la distribuzione pratica di modelli potenti ma leggeri.

SE-Bench: Benchmark delle Auto-Evoluzioni con Internalizzazione della Conoscenza
SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Feb 4

ByJiarui Yuan, Tailin Jin, Weize Chen, Zeyuan Liu, Zhiyuan Liu, Maosong Sun

Una vera auto-evoluzione richiede che gli agenti agiscano come apprendisti permanenti che interiorizzano nuove esperienze per risolvere problemi futuri. Tuttavia, la misurazione rigorosa di questa capacità fondamentale è ostacolata da due problemi: l’interferenza della conoscenza pregressa, per cui una conoscenza "nuova" potrebbe già essere presente nei dati di pre-addestramento, e l’interferenza della complessità del ragionamento, per cui gli errori potrebbero derivare dalla difficoltà del problema piuttosto che dall’incapacità di richiamare conoscenze apprese. Introduciamo SE-Bench, un ambiente diagnostico che offusca la libreria NumPy e la sua documentazione API in un pacchetto pseudo-nuovo con identificatori randomizzati. Gli agenti vengono addestrati a interiorizzare questo pacchetto e valutati su semplici task di programmazione senza accesso alla documentazione, creando un ambiente controllato in cui i compiti sono banali con la nuova documentazione API ma impossibili per i modelli base senza di essa. La nostra indagine rivela tre intuizioni: (1) il Paradosso del Libro Aperto, per cui l'addestramento con documentazione di riferimento inibisce la ritenzione, richiedendo un "Addestramento a Libro Chiuso" per forzare la compressione della conoscenza nei pesi; (2) il Divario dell’Apprendimento per Rinforzo (RL), dove l'RL standard non riesce a interiorizzare completamente nuove conoscenze a causa del clipping PPO e dei gradienti negativi; e (3) la fattibilità dello Self-Play per l'interiorizzazione, dimostrando che i modelli possono apprendere da task auto-generati e rumorosi se abbinati all’SFT, ma non all’RL. In sintesi, SE-Bench stabilisce una piattaforma diagnostica rigorosa per l'auto-evoluzione con interiorizzazione della conoscenza. Il nostro codice e dataset sono disponibili su https://github.com/thunlp/SE-Bench.

Evitare il Collasso Prematuro: Riscaldamento Adattivo per l'Inferenza Strutturale con Regolarizzazione Entropica
Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference

Jan 30

ByYizhi Liu

Gli strati di matching differenziabili e i paradigmi di connessione residua, spesso implementati tramite Trasporto Ottimale (OT) regolarizzato con entropia, fungono da meccanismi critici nella predizione strutturale e nel ridimensionamento architetturale. Tuttavia, il recupero di permutazioni discrete o il mantenimento di mappature d'identità mediante l'annichilimento di ε a 0 è notoriamente instabile. In questo lavoro, identifichiamo un meccanismo fondamentale alla base di questo fallimento: il Collasso Prematuro dei Modi. Analizzando la dinamica non normale della mappa a punto fisso di Sinkhorn, riveliamo un limite teorico di velocità termodinamica: il raffreddamento esponenziale standard supera il tasso di contrazione dell'operatore di inferenza, che si degrada come O(1/ε). Per affrontare questo problema, proponiamo il Controllo Adattivo della Stabilità Ibrido a Tratti Efficiente (EPH-ASC), un algoritmo di schedulazione adattiva che monitora la stabilità del processo inferenziale. Dimostriamo che EPH-ASC è essenziale per stabilizzare le Connessioni Iper-Controllate su Varietà (mHC) durante l'addestramento su larga scala sul dataset FineWeb-Edu, prevenendo efficacemente esplosioni del gradiente nelle fasi finali mediante l'imposizione di una legge di stabilità lineare.

Modelli Fondazionali Spazio-Temporali Urbani per l'Abitazione Resiliente al Clima: Scalabilità dei Diffusion Transformer per la Previsione del Rischio Catastrofale
Urban Spatio-Temporal Foundation Models for Climate-Resilient Housing: Scaling Diffusion Transformers for Disaster Risk Prediction

Feb 5

ByOlaf Yunus Laitinen Imanov, Derya Umut Kulali, Taner Yilmaz

I pericoli climatici perturbano sempre più le operazioni di trasporto urbano e di risposta alle emergenze, danneggiando il patrimonio abitativo, degradando le infrastrutture e riducendo l'accessibilità della rete. Questo articolo presenta Skjold-DiT, un framework diffusion-transformer che integra dati urbani spaziotemporali eterogenei per prevedere indicatori di rischio climatico a livello di edificio, incorporando esplicitamente la struttura della rete di trasporto e segnali di accessibilità rilevanti per i veicoli intelligenti (ad esempio, raggiungibilità di emergenza e vincoli sulle rotte di evacuazione). Nello specifico, Skjold-DiT abilita vincoli di routing condizionati al pericolo producendo layer di accessibilità calibrati e consapevoli dell'incertezza (raggiungibilità, incremento dei tempi di percorrenza e ridondanza dei percorsi) che possono essere utilizzati da sistemi di routing per veicoli intelligenti e di invio di emergenze. Skjold-DiT combina: (1) Fjell-Prompt, un'interfaccia di condizionamento basata su prompt progettata per supportare il trasferimento inter-cittadino; (2) Norrland-Fusion, un meccanismo di attenzione cross-modale che unisce mappe/immagini dei pericoli, attributi degli edifici, dati demografici e infrastrutture di trasporto in una rappresentazione latente condivisa; e (3) Valkyrie-Forecast, un simulatore controfattuale per generare traiettorie di rischio probabilistiche sotto l'input di prompt di intervento. Introduciamo il dataset Baltic-Caspian Urban Resilience (BCUR) con 847.392 osservazioni a livello di edificio in sei città, incluse annotazioni multi-pericolo (ad esempio, indicatori di alluvione e calore) e caratteristiche di accessibilità dei trasporti. Gli esperimenti valutano la qualità predittiva, la generalizzazione inter-cittadina, la calibrazione e gli outcome rilevanti per i trasporti a valle, inclusi la raggiungibilità e i tempi di percorrenza condizionati al pericolo sotto interventi controfattuali.

L'Incertezza Guida i Cambiamenti del Pregiudizio Sociale nei Modelli Linguistici di Grande Dimensione Quantizzati
Uncertainty Drives Social Bias Changes in Quantized Large Language Models

Feb 5

ByStanley Z. Hua, Sanae Lotfi, Irene Y. Chen

La quantizzazione post-addestramento riduce il costo computazionale dei grandi modelli linguistici, ma altera fondamentalmente i loro pregiudizi sociali in modi che le metriche aggregate non riescono a cogliere. Presentiamo il primo studio su larga scala di 50 modelli quantizzati valutati su PostTrainingBiasBench, un benchmark unificato di 13 dataset di bias a risposta chiusa e aperta. Identifichiamo un fenomeno che definiamo inversione mascherata del bias indotta dalla quantizzazione, in cui fino al 21% delle risposte inverte il proprio stato tra bias e assenza di bias dopo la quantizzazione, nonostante non mostri alcun cambiamento nei punteggi aggregati di bias. Queste inversioni sono fortemente guidate dall'incertezza del modello, in cui le risposte con alta incertezza hanno una probabilità di cambiare da 3 a 11 volte superiore rispetto a quelle confidenti. L'intensità della quantizzazione amplifica questo effetto, con modelli quantizzati a 4 bit che mostrano da 4 a 6 volte più cambiamenti comportamentali rispetto ai modelli quantizzati a 8 bit. Criticamente, questi cambiamenti creano impatti asimmetrici tra i gruppi demografici, dove il bias può peggiorare fino al 18,6% per alcuni gruppi mentre migliora fino al 14,1% per altri, producendo risultati aggregate ingannevolmente neutri. I modelli più grandi non mostrano un vantaggio di robustezza consistente, e gli spostamenti specifici per gruppo variano in modo imprevedibile tra le famiglie di modelli. I nostri risultati dimostrano che la compressione altera fondamentalmente i modelli di bias, richiedendo una cruciale valutazione e interventi post-quantizzazione per garantire l'affidabilità nella pratica.