HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

41 papers found

PaperBanana: Automatizzazione dell'Illustrazione Accademica per Scienziati dell'IA
PaperBanana: Automating Academic Illustration for AI Scientists

Jan 30

ByDawei Zhu, Rui Meng, Yale Song, Xiyu Wei, Sujian Li, Tomas Pfister, Jinsung Yoon

201

Nonostante i rapidi progressi degli scienziati IA autonomi basati su modelli linguistici, la generazione di illustrazioni pronte per la pubblicazione rimane un collo di bottiglia ad alta intensità di lavoro nel flusso di ricerca. Per alleviare questo onere, presentiamo PaperBanana, un framework agentivo per la generazione automatizzata di illustrazioni accademiche pronte per la pubblicazione. Basandosi su modelli visivo-linguistici (VLM) e modelli di generazione di immagini all'avanguardia, PaperBanana orchestra agenti specializzati per recuperare riferimenti, pianificare contenuti e stile, renderizzare immagini e perfezionare iterativamente tramite auto-critica. Per valutare rigorosamente il nostro framework, introduciamo PaperBananaBench, comprendente 292 casi di test per diagrammi metodologici selezionati da pubblicazioni NeurIPS 2025, che coprono diversi domini di ricerca e stili illustrativi. Esperimenti completi dimostrano che PaperBanana supera costantemente i principali baseline in termini di fedeltà, concisione, leggibilità ed estetica. Mostriamo inoltre che il nostro metodo si estende efficacemente alla generazione di grafici statistici di alta qualità. Nel complesso, PaperBanana apre la strada alla generazione automatizzata di illustrazioni pronte per la pubblicazione.

Golden Goose: un semplice stratagemma per sintetizzare illimitate attività RLVR da testi Internet non verificabili
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

Jan 30

ByXiming Lu, David Acuna, Jaehun Jung, Jian Hu, Di Zhang, Shizhe Diao, Yunheng Zou, Shaokun Zhang, Brandon Cui, Mingjie Liu, Hyunwoo Kim, Prithviraj Ammanabrolu, Jan Kautz, Yi Dong, Yejin Choi

105

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è diventato un pilastro fondamentale per sbloccare il ragionamento complesso nei Large Language Model (LLM). Tuttavia, la scalabilità del RL è limitata dalla scarsità di dati verificabili esistenti, dove i miglioramenti tendono a saturarsi progressivamente durante un addestramento prolungato. Per superare questo problema, proponiamo Golden Goose, un semplice espediente per sintetizzare un numero illimitato di task RLVR a partire da testo internet non verificabile, costruendo una versione a scelta multipla del task di riempimento del testo (fill-in-the-middle). Dato un testo sorgente, sollecitiamo un LLM a identificare e mascherare i passaggi chiave del ragionamento, per poi generare un insieme di distrattori plausibili e diversificati. Ciò ci permette di sfruttare corpora ricchi di ragionamento ma non verificabili, tipicamente esclusi dalla costruzione di dati RLVR precedente (ad es. libri di testo scientifici), per sintetizzare GooseReason-0.7M, un dataset RLVR su larga scala con oltre 0.7 milioni di task che spaziano dalla matematica alla programmazione e a domini scientifici generali. Empiricamente, GooseReason rivitalizza efficacemente i modelli saturati sui dati RLVR esistenti, producendo guadagni robusti e sostenuti sotto RL continuo e raggiungendo nuovi risultati state-of-the-art per modelli 1.5B e 4B-Instruct su 15 benchmark diversi. Infine, implementiamo Golden Goose in un contesto reale, sintetizzando task RLVR da scrape grezzi di FineWeb per il dominio della cybersecurity, dove non esistevano precedentemente dati RLVR. L'addestramento di Qwen3-4B-Instruct sui dati risultanti, GooseReason-Cyber, stabilisce un nuovo state-of-the-art nella cybersecurity, superando un modello specializzato nel dominio da 7B che aveva beneficiato di un esteso pre-addestramento e post-addestramento specifico. Ciò evidenzia il potenziale di scalare automaticamente i dati RLVR sfruttando l'abbondante testo internet, ricco di ragionamento ma non verificabile.

ASTRA: Sintesi Automatica di Traiettorie Agenti e Aree di Rinforzo
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Jan 29

ByXiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu

I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come agenti potenziati da strumenti per processi decisionali multi-step, ma l'addestramento di agenti robusti nell'uso di strumenti rimane una sfida. I metodi esistenti richiedono ancora interventi manuali, dipendono da ambienti simulati non verificabili, si basano esclusivamente su fine-tuning supervisionato (SFT) o apprendimento per rinforzo (RL), e incontrano difficoltà nell'apprendimento stabile di orizzonti temporali lunghi e interazioni multi-turn. Per affrontare queste problematiche, introduciamo ASTRA, un framework end-to-end completamente automatizzato per l'addestramento di agenti basati su modelli linguistici potenziati da strumenti, attraverso sintesi scalabile di dati e apprendimento per rinforzo verificabile. ASTRA integra due componenti complementari. In primo luogo, una pipeline che sfrutta la topologia statica dei grafi di chiamate di strumenti sintetizza traiettorie diversificate e strutturalmente fondate, instillando una competenza ampia e trasferibile nell'uso degli strumenti. In secondo luogo, un framework di sintesi ambientale che cattura la ricca topologia compositiva del ragionamento semantico umano converte tracce domanda-risposta scomposte in ambienti indipendenti, eseguibili come codice e verificabili tramite regole, abilitando un RL multi-turn deterministico. Basandoci su questo metodo, sviluppiamo una metodologia di addestramento unificata che integra SFT con RL online utilizzando ricompense a livello di traiettoria per bilanciare il completamento del compito e l'efficienza interattiva. Esperimenti su molteplici benchmark per l'uso agentico di strumenti dimostrano che i modelli addestrati con ASTRA raggiungono prestazioni allo stato dell'arte a scale comparabili, avvicinandosi a sistemi closed-source preservando al contempo le capacità di ragionamento fondamentali. Rilasciamo le pipeline complete, gli ambienti e i modelli addestrati su https://github.com/LianjiaTech/astra.

Quartetto II: Pre-Addestramento Preciso di LLM in NVFP4 tramite Stima Migliorata del Gradiente Non Distorto
Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation

Jan 30

ByAndrei Panferov, Erik Schultheis, Soroush Tabesh, Dan Alistarh

Il formato a bassa precisione NVFP4, supportato a livello hardware dalle GPU NVIDIA Blackwell, promette di consentire per la prima volta il pre-addestramento end-to-end completamente quantizzato di modelli massivi come gli LLM. Tuttavia, i metodi di addestramento quantizzato esistenti sacrificano ancora parte della capacità di rappresentazione di questo formato a favore di una stima del gradiente quantizzato non distorto e più accurata mediante arrotondamento stocastico (SR), perdendo un'accuratezza significativa rispetto all'addestramento standard con FP16 e FP8. In questo articolo, miglioriamo lo stato dell'arte per l'addestramento quantizzato in NVFP4 tramite una nuova routine di quantizzazione non distorta per formati a micro-scala, denominata MS-EDEN, che presenta un errore di quantizzazione più di 2 volte inferiore rispetto all'SR. La integriamo in un nuovo schema di quantizzazione completamente in NVFP4 per i layer lineari, chiamato Quartet II. Dimostriamo analiticamente che Quartet II ottiene una stima del gradiente costantemente migliore in tutte le principali moltiplicazioni di matrici, sia nelle passate in avanti che in quelle all'indietro. Inoltre, la nostra proposta si integra bene con i recenti miglioramenti dell'addestramento mirati specificamente a NVFP4. Convalidiamo ulteriormente Quartet II su addestramenti LLM end-to-end con fino a 1,9 miliardi di parametri su 38 miliardi di token. Forniamo kernel per l'esecuzione su GPU NVIDIA Blackwell con un speedup fino a 4,2x rispetto a BF16. Il nostro codice è disponibile all'indirizzo https://github.com/IST-DASLab/Quartet-II.

THINKSAFE: Allineamento alla Sicurezza Auto-Generato per Modelli di Ragionamento
THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

Jan 30

BySeanie Lee, Sangwoo Park, Yumin Choi, Gyeongman Kim, Minki Kang, Jihun Yun, Dongmin Park, Jongho Park, Sung Ju Hwang

I grandi modelli di ragionamento (LRM) ottengono prestazioni notevoli sfruttando l'apprendimento per rinforzo (RL) su compiti di ragionamento per generare lunghe catene di ragionamento (CoT). Tuttavia, questa sovra-ottimizzazione spesso privilegia la compiacenza, rendendo i modelli vulnerabili a prompt dannosi. Per mitigare questo degrado della sicurezza, gli approcci recenti si basano sulla distillazione da insegnanti esterni, ma ciò introduce una discrepanza distributiva che degrada il ragionamento nativo. Proponiamo ThinkSafe, un framework di allineamento auto-generato che ripristina l'allineamento di sicurezza senza insegnanti esterni. La nostra intuizione chiave è che, sebbene la compiacenza sopprima i meccanismi di sicurezza, i modelli spesso conservano conoscenze latenti per identificare il danno. ThinkSafe sblocca questo tramite uno steering di rifiuto leggero, guidando il modello a generare tracce di ragionamento sulla sicurezza in-distribuzione. Il fine-tuning su queste risposte auto-generate riallinea efficacemente il modello minimizzando lo shift distributivo. Esperimenti su DeepSeek-R1-Distill e Qwen3 mostrano che ThinkSafe migliora significativamente la sicurezza preservando la competenza di ragionamento. In particolare, raggiunge una sicurezza superiore e un ragionamento comparabile a GRPO, con un costo computazionale significativamente ridotto. Codice, modelli e dataset sono disponibili su https://github.com/seanie12/ThinkSafe.git.

ReGuLaR: Ragionamento Latente Variazionale Guidato da Catene di Pensiero Renderizzate
ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Jan 30

ByFanmeng Wang, Haotian Liu, Guojiang Zhao, Hongteng Xu, Zhifeng Gao

Mentre il ragionamento a catena (Chain-of-Thought, CoT) migliora significativamente le prestazioni dei Large Language Model (LLM), le catene di ragionamento esplicite introducono una sostanziale ridondanza computazionale. I recenti metodi di ragionamento latente tentano di mitigare questo problema comprimendo i processi inferenziali nello spazio latente, ma spesso soffrono di una grave degradazione delle prestazioni a causa della mancanza di un'adeguata guida alla compressione. In questo studio, proponiamo il Rendered CoT-Guided variational Latent Reasoning (ReGuLaR), un paradigma di apprendimento latente semplice ma innovativo che risolve questo problema. Fondamentalmente, formuliamo il ragionamento latente all'interno del framework di Variational Auto-Encoding (VAE), campionando lo stato di ragionamento latente corrente dalla distribuzione a posteriori condizionata a quelli precedenti. Nello specifico, durante l'apprendimento di questo modello di ragionamento latente variazionale, rendiamo le catene di ragionamento esplicite come immagini, dalle quali estraiamo rappresentazioni visivo-semantiche dense per regolarizzare la distribuzione a posteriori, ottenendo così una compressione efficiente con una perdita di informazioni minima. Esperimenti estensivi dimostrano che ReGuLaR supera significativamente i metodi di ragionamento latente esistenti sia in termini di efficienza computazionale che di efficacia inferenziale, e supera persino il CoT attraverso il ragionamento multimodale, fornendo una soluzione nuova e approfondita al ragionamento latente. Codice: https://github.com/FanmengWang/ReGuLaR.

TTCS: Sintesi del Curriculum a Tempo di Test per l'Auto-Evoluzione
TTCS: Test-Time Curriculum Synthesis for Self-Evolving

Jan 30

ByChengyi Yang, Zhishang Xiang, Yunbo Tang, Zongpei Teng, Chengsong Huang, Fei Long, Yuhan Liu, Jinsong Su

Il Test-Time Training offre un approccio promettente per migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM) adattando il modello utilizzando esclusivamente le domande di test. Tuttavia, i metodi esistenti incontrano difficoltà con problemi di ragionamento complessi per due ragioni principali: le domande di test grezze sono spesso troppo difficili per produrre pseudo-etichette di alta qualità, e la dimensione limitata degli insiemi di test rende gli aggiornamenti online continui soggetti a instabilità. Per superare queste limitazioni, proponiamo TTCS, un framework di test-time training a co-evoluzione. Nello specifico, TTCS inizializza due politiche a partire dallo stesso modello preaddestrato: un sintetizzatore di domande e un risolutore di ragionamenti. Queste politiche evolvono attraverso un'ottimizzazione iterativa: il sintetizzatore genera varianti di domande progressivamente più complesse condizionate dalle domande di test, creando un curriculum strutturato su misura per le capacità attuali del risolutore, mentre il risolutore si aggiorna utilizzando ricompense di auto-consistenza calcolate da risposte campionate multiple su domande di test originali e sintetiche. Fondamentalmente, il feedback del risolutore guida il sintetizzatore a generare domande allineate con le capacità attuali del modello, e le varianti di domande generate a loro volta stabilizzano l'addestramento del risolutore durante il test. Gli esperimenti dimostrano che TTCS potenzia consistentemente le capacità di ragionamento su benchmark matematici complessi e si trasferisce a compiti di dominio generale attraverso diversi backbone di LLM, evidenziando un percorso scalabile verso la costruzione dinamica di curriculum di test-time per l'auto-evoluzione. Il nostro codice e i dettagli implementativi sono disponibili su https://github.com/XMUDeepLIT/TTCS.

Modellazione Causale del Mondo per il Controllo Robotico
Causal World Modeling for Robot Control

Jan 29

ByLin Li, Qihang Zhang, Yiming Luo, Shuai Yang, Ruilin Wang, Fei Han, Mingrui Yu, Zelin Gao, Nan Xue, Xing Zhu, Yujun Shen, Yinghao Xu

Questo lavoro evidenzia come la modellazione video del mondo, unita al pre-addestramento visione-linguaggio, costituisca una base nuova e indipendente per l'apprendimento robotico. Intuitivamente, i modelli video del mondo forniscono la capacità di immaginare il futuro prossimo comprendendo la causalità tra azioni e dinamiche visive. Ispirati da questo, introduciamo LingBot-VA, un framework di diffusione autoregressiva che apprende simultaneamente la previsione di frame e l'esecuzione di policy. Il nostro modello presenta tre design accuratamente studiati: (1) uno spazio latente condiviso, che integra token visivi e d'azione, guidato da un'architettura Mixture-of-Transformers (MoT), (2) un meccanismo di rollout a circuito chiuso, che consente l'acquisizione continua di feedback ambientali con osservazioni ground-truth, (3) una pipeline di inferenza asincrona, che parallelizza la previsione delle azioni e l'esecuzione motoria per supportare un controllo efficiente. Valutiamo il nostro modello su benchmark di simulazione e scenari reali, dove dimostra notevole potenziale nella manipolazione a lungo orizzonte, nell'efficienza dei dati post-addestramento e in una forte generalizzabilità a configurazioni non viste. Il codice e il modello sono resi pubblicamente disponibili per favorire la comunità.

MemOCR: Memoria Visiva Consapevole del Layout per un Ragionamento Efficiente a Lungo Termine
MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Jan 29

ByYaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang

Il ragionamento agente a lungo termine richiede una compressione efficace delle storie d'interazione crescenti in una finestra di contesto limitata. La maggior parte dei sistemi di memoria esistenti serializza la cronologia come testo, dove il costo a livello di token è uniforme e scala linearmente con la lunghezza, spendendo spesso il budget limitato su dettagli di scarso valore. A tal fine, introduciamo MemOCR, un agente di memoria multimodale che migliora il ragionamento a lungo termine con budget di contesto ristretti allocando lo spazio di memoria con densità informativa adattiva attraverso layout visivo. Nello specifico, MemOCR mantiene una memoria strutturata in rich-text (ad es. intestazioni, evidenziazioni) e la renderizza in un'immagine che l'agente consulta per l'accesso alla memoria, dando priorità visiva alle evidenze cruciale comprimendo aggressivamente i dettagli ausiliari. Per garantire robustezza con budget di memoria variabili, addestriamo MemOCR con apprendimento per rinforzo sotto obiettivi budget-aware che espongono l'agente a diversi livelli di compressione. Su benchmark di question-answering multi-hop e single-hop a contesto lungo, MemOCR supera solidi baseline testuali e raggiunge un utilizzo del contesto più efficace sotto budget estremi.

I Modelli di Ragionamento Migliorano i Modelli di Embedding?
Do Reasoning Models Enhance Embedding Models?

Jan 29

ByWun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song

I modelli di embedding all'avanguardia sono sempre più derivati da architetture LLM (Large Language Model) di tipo decoder-only adattate mediante apprendimento contrastivo. Data l'emergere di modelli di ragionamento addestrati tramite Reinforcement Learning con Ricompense Verificabili (RLVR), sorge spontanea una domanda: le capacità di ragionamento potenziate si traducono in rappresentazioni semantiche superiori quando questi modelli fungono da inizializzazioni per gli embedding? Contrariamente alle aspettative, la nostra valutazione su MTEB e BRIGHT rivela un **effetto nullo**: i modelli di embedding inizializzati da architetture sintonizzate con RLVR non mostrano alcun vantaggio prestazionale consistente rispetto alle loro controparti base quando sottoposti alle stesse procedure di addestramento. Per analizzare questo paradosso, introduciamo l'**A**nalisi della **S**imiglianza **R**appresentazionale **I**erarchica (HRSA), un framework che scompone la similitudine a livello rappresentazionale, geometrico e funzionale. L'HRSA rivela che mentre RLVR induce una riorganizzazione locale irreversibile della geometria del manifold latente e una deriva reversibile della base delle coordinate, esso preserva la geometria globale del manifold e la lettura lineare. Di conseguenza, il successivo apprendimento contrastivo guida un forte allineamento tra i modelli inizializzati dalla base e quelli ottimizzati per il ragionamento, un fenomeno che definiamo **Riallineamento del Manifold**. Empiricamente, i nostri risultati suggeriscono che, a differenza del Supervised Fine-Tuning (SFT), RLVR ottimizza le traiettorie all'interno di un panorama semantico esistente piuttosto che ristrutturarne fondamentalmente il panorama stesso.

Stima Statistica del Rischio Avversariale nei Grandi Modelli Linguistici sotto Campionamento Best-of-N
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

Jan 30

ByMingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao

I modelli linguistici di grandi dimensioni (LLM) vengono generalmente valutati per la sicurezza mediante prompt avversari one-shot o a basso budget, il che sottostima il rischio nel mondo reale. Nella pratica, gli attaccanti possono sfruttare il campionamento parallelo su larga scala per sondare ripetutamente un modello finché non viene prodotta una risposta dannosa. Sebbene lavori recenti mostrino che il successo degli attacchi aumenta con il campionamento ripetuto, i metodi basati su principi per prevedere il rischio avversario su larga scala rimangono limitati. Proponiamo una stima del rischio Best-of-N consapevole del scaling, denominata SABER, per modellare la vulnerabilità al jailbreak sotto campionamento Best-of-N. Modelliamo le probabilità di successo a livello di campione utilizzando una distribuzione Beta, il priore coniugato della distribuzione di Bernoulli, e deriviamo una legge di scaling analitica che consente l'estrapolazione affidabile dei tassi di successo di attacco per N elevati a partire da misurazioni a basso budget. Utilizzando solo n=100 campioni, il nostro stimatore ancorato predice ASR@1000 con un errore assoluto medio di 1,66, rispetto a 12,04 del baseline, che corrisponde a una riduzione del 86,2% nell'errore di stima. I nostri risultati rivelano profili di scaling del rischio eterogenei e mostrano che modelli che appaiono robusti sotto valutazioni standard possono sperimentare una rapida amplificazione non lineare del rischio sotto pressione avversaria parallela. Questo lavoro fornisce una metodologia a basso costo e scalabile per una valutazione realistica della sicurezza degli LLM. Rilasceremo il nostro codice e gli script di valutazione alla pubblicazione per la ricerca futura.

FourierSampler: Sbloccare il Potenziale Non Autoregressivo nei Modelli Linguistici di Diffusione tramite Generazione Guidata dalla Frequenza
FourierSampler: Unlocking Non-Autoregressive Potential in Diffusion Language Models via Frequency-Guided Generation

Jan 30

BySiyang He, Qiqi Wang, Xiaoran Liu, Hongnan Ma, Yiwei Shi, Yuerong Song, Ying Zhu, Tianyi Liang, Zengfeng Huang, Ziwei He, Xipeng Qiu

Nonostante il potenziale non autoregressivo dei modelli linguistici diffusivi (dLLM), le strategie di decodifica esistenti mostrano un bias posizionale, non riuscendo a sfruttare appieno il potenziale di generazione arbitraria. In questo lavoro, approfondiamo le caratteristiche spettrali intrinseche dei dLLM e presentiamo la prima analisi nel dominio della frequenza, dimostrando che le componenti a bassa frequenza negli stati nascosti codificano principalmente informazioni strutturali globali e dipendenze a lungo raggio, mentre le componenti ad alta frequenza sono responsabili della caratterizzazione dei dettagli locali. Sulla base di questa osservazione, proponiamo FourierSampler, che sfrutta un meccanismo a finestra scorrevole nel dominio della frequenza per guidare dinamicamente il modello verso una generazione "dalla struttura al dettaglio". FourierSampler supera altre strategie di miglioramento dell'inferenza su LLADA e SDAR, ottenendo miglioramenti relativi del 20,4% su LLaDA1.5-8B e del 16,0% su LLaDA-8B-Instruct. Notevolmente, supera modelli autoregressivi di dimensioni simili come Llama3.1-8B-Instruct.

PaddleOCR-VL-1.5: Verso un Modello Linguistico Visivo da 0.9B per Compiti Multipli nell'Analisi Robusta di Documenti in Ambienti Non Controllati
PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

Jan 29

ByCheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Yi Liu, Dianhai Yu, Yanjun Ma

Presentiamo PaddleOCR-VL-1.5, un modello potenziato che raggiunge una nuova accuratezza state-of-the-art (SOTA) del 94,5% su OmniDocBench v1.5. Per valutare rigorosamente la robustezza contro le distorsioni fisiche del mondo reale, incluse scansione, inclinazione, deformazione, fotografia da schermo e illuminazione, proponiamo il benchmark Real5-OmniDocBench. I risultati sperimentali dimostrano che questo modello migliorato raggiunge prestazioni SOTA sul nuovo benchmark curato. Inoltre, estendiamo le capacità del modello incorporando compiti di riconoscimento di timbri e text spotting, mantenendo al contempo un'architettura ultra-compatta da 0,9B parametri e un'elevata efficienza. Codice: https://github.com/PaddlePaddle/PaddleOCR

DenseGRPO: Da ricompense sparse a dense per l'allineamento dei modelli di flusso
DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

Jan 28

ByHaoyou Deng, Keyu Yan, Chaojie Mao, Xiang Wang, Yu Liu, Changxin Gao, Nong Sang

Gli approcci recenti basati su GRPO costruiti su modelli di flow matching hanno mostrato notevoli miglioramenti nell'allineamento alle preferenze umane per la generazione di immagini da testo. Tuttavia, essi soffrono ancora del problema della ricompensa sparsa: la ricompensa terminale dell'intera traiettoria di denoising viene applicata a tutti i passi intermedi, risultando in una discrepanza tra i segnali di feedback globale e i contributi esatti e granulari ai passi intermedi del denoising. Per affrontare questo problema, introduciamo DenseGRPO, un framework innovativo che allinea le preferenze umane con ricompense dense, valutando il contributo granulare di ogni passo di denoising. Nello specifico, il nostro approccio include due componenti chiave: (1) proponiamo di predire il guadagno di ricompensa passo-passo come ricompensa densa per ogni passo di denoising, applicando un modello di ricompensa sulle immagini pulite intermedie tramite un approccio basato su ODE. Questa modalità garantisce un allineamento tra i segnali di feedback e i contributi dei singoli passi, facilitando un addestramento efficace; e (2) sulla base delle ricompense dense stimate, viene evidenziato uno svantaggio da disallineamento tra l'impostazione di esplorazione uniforme e l'intensità di rumore variabile nel tempo nei metodi esistenti basati su GRPO, portando a uno spazio di esplorazione inappropriato. Pertanto, proponiamo uno schema reward-aware per calibrare lo spazio di esplorazione regolando adattivamente un'iniezione di stochasticità specifica per il timestep nel campionatore SDE, garantendo uno spazio di esplorazione adeguato in tutti i timestep. Esperimenti estesi su molteplici benchmark standard dimostrano l'efficacia del DenseGRPO proposto e evidenziano il ruolo cruciale delle ricompense dense valide nell'allineamento del modello di flow matching.

DINO-SAE: Autoencoder Sferico DINO per la Ricostruzione e Generazione di Immagini ad Alta Fedeltà
DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation

Jan 30

ByHun Chang, Byunghee Cha, Jong Chul Ye

Studi recenti hanno esplorato l'utilizzo di Vision Foundation Models (VFM) preaddestrati come DINO per autoencoder generativi, dimostrando prestazioni generative robuste. Sfortunatamente, gli approcci esistenti spesso presentano una fedeltà di ricostruzione limitata a causa della perdita di dettagli ad alta frequenza. In questo lavoro, presentiamo il DINO Spherical Autoencoder (DINO-SAE), un framework che colma il divario tra rappresentazione semantica e ricostruzione a livello di pixel. La nostra intuizione chiave è che l'informazione semantica nelle rappresentazioni contrastive è codificata principalmente nella direzione dei vettori di feature, mentre forzare una corrispondenza rigorosa della magnitudine può impedire all'encoder di preservare i dettagli più fini. Per affrontare ciò, introduciamo un modulo di Hierarchical Convolutional Patch Embedding che migliora la preservazione di strutture locali e trame, e un obiettivo di Cosine Similarity Alignment che impone la consistenza semantica consentendo al contempo magnitudini delle feature flessibili per la ritenzione dei dettagli. Inoltre, sfruttando l'osservazione che le rappresentazioni dei foundation model basati su SSL giacciono intrinsecamente su un'ipersfera, utilizziamo il Riemannian Flow Matching per addestrare un Diffusion Transformer (DiT) direttamente su questa varietà latente sferica. Esperimenti su ImageNet-1K dimostrano che il nostro approccio raggiunge una qualità di ricostruzione allo stato dell'arte, con 0.37 rFID e 26.2 dB PSNR, mantenendo al contempo un forte allineamento semantico con il VFM preaddestrato. In modo significativo, il nostro DiT basato su Riemannian Flow Matching mostra una convergenza efficiente, raggiungendo un gFID di 3.47 a 80 epoche.

DreamActor-M2: Animazione Universale di Immagini di Personaggi tramite Apprendimento In-Contesto Spazio-Temporale
DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning

Jan 29

ByMingshuang Luo, Shuang Liang, Zhengkun Rong, Yuxuan Luo, Tianshu Hu, Ruibing Hou, Hong Chang, Yong Li, Yuan Zhang, Mingyuan Gao

L'animazione di immagini di personaggi mira a sintetizzare video ad alta fedeltà trasferendo il movimento da una sequenza guida a un'immagine di riferimento statica. Nonostante i recenti progressi, i metodi esistenti presentano due sfide fondamentali: (1) strategie di iniezione del movimento subottimali che portano a un compromesso tra conservazione dell'identità e coerenza del movimento, manifestandosi come un "altalena", e (2) un'eccessiva dipendenza da priori di posa espliciti (ad esempio, scheletri), che catturano in modo inadeguato le dinamiche intricate e ostacolano la generalizzazione a personaggi arbitrari e non umanoidi. Per affrontare queste sfide, presentiamo DreamActor-M2, un framework di animazione universale che re-immagina il condizionamento del movimento come un problema di apprendimento in contesto. Il nostro approccio segue un paradigma a due stadi. In primo luogo, colmiamo il divario di modalità di input fondendo l'aspetto di riferimento e i segnali di movimento in uno spazio latente unificato, consentendo al modello di ragionare congiuntamente sull'identità spaziale e le dinamiche temporali sfruttando il priori generativo dei modelli fondazionali. In secondo luogo, introduciamo una pipeline di sintesi dei dati auto-avviata che seleziona coppie di addestramento pseudo cross-identità, facilitando una transizione senza soluzione di continuità dal controllo dipendente dalla posa all'animazione RGB diretta e end-to-end. Questa strategia migliora significativamente la generalizzazione attraverso diversi personaggi e scenari di movimento. Per facilitare una valutazione completa, introduciamo inoltre AW Bench, un benchmark versatile che comprende un'ampia gamma di tipi di personaggi e scenari di movimento. Esperimenti estensivi dimostrano che DreamActor-M2 raggiunge prestazioni all'avanguardia, offrendo una fedeltà visiva superiore e una robusta generalizzazione cross-dominio. Pagina del progetto: https://grisoon.github.io/DreamActor-M2/

Modello di Ricompensa Allineato in Tempo Reale oltre la Semantica
Real-Time Aligned Reward Model beyond Semantics

Jan 30

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

L'Apprendimento per Rinforzo con Feedback Umano (RLHF) è una tecnica fondamentale per allineare i grandi modelli linguistici (LLM) alle preferenze umane, ma è suscettibile all'ottimizzazione eccessiva della ricompensa, in cui i modelli policy sovradattano il modello di ricompensa, sfruttando pattern spurdi anziché cogliere fedelmente l'intento umano. Le mitigazioni precedenti si basano principalmente su informazioni semantiche superficiali e non riescono ad affrontare efficientemente il disallineamento tra il modello di ricompensa (RM) e il modello policy causato dai continui spostamenti della distribuzione policy. Ciò porta inevitabilmente a una crescente discrepanza nelle ricompense, aggravando l'overoptimization. Per superare questi limiti, introduciamo R2M (Real-Time Aligned Reward Model), un nuovo framework RLHF leggero. R2M va oltre i modelli di ricompensa standard che dipendono esclusivamente dalle rappresentazioni semantiche di un LLM preaddestrato. Utilizza invece gli stati nascosti evolutivi della policy (definiti feedback della policy) per allinearsi allo spostamento distributivo in tempo reale della policy durante il processo RL. Questo lavoro indica una nuova direzione promettente per migliorare le prestazioni dei modelli di ricompensa attraverso l'utilizzo in tempo reale del feedback dei modelli policy.

SSL: Apprendimento a Punto Ottimale per una Guida Differenziata nell'Ottimizzazione Agente
SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Jan 30

ByJinyang Wu, Changpeng Yang, Yuhao Shen, Fangzhi Xu, Bolin Ni, Chonghua Liao, Yuchen Liu, Hongzhen Wang, Shuai Nie, Shuai Zhang, Haoran Luo, Jiaming Xu

L'apprendimento per rinforzo con ricompense verificabili è emerso come un potente paradigma per l'addestramento di agenti intelligenti. Tuttavia, i metodi esistenti impiegano tipicamente ricompense binarie che non riescono a cogliere le differenze qualitative tra le traiettorie che raggiungono risultati identici, trascurando così la potenziale diversità all'interno dello spazio delle soluzioni. Ispirati dal concetto del "punto centrale" (sweet spot) nel tennis – la regione centrale della racchetta che produce effetti di colpo ottimali – introduciamo lo Sweet Spot Learning (SSL), un nuovo framework che fornisce una guida differenziata per l'ottimizzazione dell'agente. SSL segue un principio semplice ma efficace: ricompande progressive, amplificate e graduate guidano le politiche verso la regione del punto centrale dello spazio delle soluzioni. Questo principio si adatta naturalmente a diverse tipologie di compiti: i compiti di percezione visiva sfruttano una modellazione a livelli basata sulla distanza per premiare la prossimità, mentre i compiti di ragionamento complesso premiano i progressi incrementali verso soluzioni promettenti. Dimostriamo teoricamente che SSL preserva l'ordinamento delle soluzioni ottimali e migliora il rapporto segnale-rumore del gradiente, favorendo così un'ottimizzazione più diretta. Esperimenti estesi su compiti di percezione GUI, pianificazione a breve/lungo termine e ragionamento complesso mostrano miglioramenti consistenti rispetto a baseline solide su 12 benchmark, raggiungendo fino a 2,5 volte l'efficienza campionaria e un'efficace trasferibilità cross-task. Il nostro lavoro stabilisce SSL come un principio generale per l'addestramento di agenti capaci e robusti.

DIFFA-2: Un modello linguistico di grandi dimensioni basato su diffusione per la comprensione audio generale
DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding

Jan 30

ByJiaming Zhou, Xuxin Cheng, Shiwan Zhao, Yuhang Jia, Cao Liu, Ke Zeng, Xunliang Cai, Yong Qin

I modelli linguistici audio autoregressivi (AR) di grandi dimensioni (LALM) come Qwen-2.5-Omni hanno ottenuto prestazioni elevate nella comprensione e interazione audio, ma il loro scaling rimane costoso in termini di dati e calcolo, e la decodifica strettamente sequenziale limita l'efficienza inferenziale. I modelli linguistici di grandi dimensioni basati su diffusione (dLLM) hanno recentemente dimostrato di saper utilizzare efficacemente dati di addestramento limitati, e lavori precedenti su DIFFA indicano che sostituire un'architettura AR con una controparte a diffusione può migliorare sostanzialmente la comprensione audio in condizioni equivalenti, sebbene a scala proof-of-concept senza large-scale instruction tuning, allineamento delle preferenze o schemi di decodifica pratici. Presentiamo DIFFA-2, un LALM pratico basato su diffusione per la comprensione audio generale. DIFFA-2 aggiorna l'encoder vocale, impiega adattatori duali semantici e acustici, ed è addestrato con un curriculum in quattro fasi che combina allineamento semantico e acustico, fine-tuning supervisionato su larga scala e ottimizzazione delle preferenze a varianza ridotta, utilizzando esclusivamente corpora completamente open-source. Esperimenti su MMSU, MMAU e MMAR mostrano che DIFFA-2 migliora costantemente rispetto a DIFFA ed è competitivo con forti LALM AR con budget di addestramento pratici, supportando l'idea che la modellazione basata su diffusione sia un'architettura valida per la comprensione audio su larga scala. Il nostro codice è disponibile all'indirizzo https://github.com/NKU-HLT/DIFFA.git.

Spingendo i Confini del Ragionamento Naturale: Beneficio Intervallato dalla Verifica Logico-Formale
Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification

Jan 30

ByChuxue Cao, Jinluan Yang, Haoran Li, Kunhao Pan, Zijian Zhao, Zhengyu Chen, Yuchen Tian, Lijun Wu, Conghui He, Sirui Han, Yike Guo

I modelli linguistici di grandi dimensioni (LLM) mostrano capacità notevoli, ma la loro predizione stocastica token-per-token genera incoerenze logiche e fenomeni di reward hacking che i sistemi simbolici formali evitano. Per colmare questa lacuna, introduciamo un framework guidato dalla verifica logica formale che intercala dinamicamente la verifica simbolica formale con il processo di generazione del linguaggio naturale, fornendo un feedback in tempo reale per rilevare e correggere gli errori man mano che si verificano. A differenza dei precedenti metodi neuro-simbolici limitati da una validazione passiva a posteriori, il nostro approccio penalizza attivamente le fallacie intermedie durante la catena di ragionamento. Implementiamo questo framework attraverso una innovativa pipeline di addestramento in due fasi che sinergizza un fine-tuning supervisionato guidato dalla verifica logica formale e un'ottimizzazione tramite policy. Una valutazione estesa su sei benchmark che coprono il ragionamento matematico, logico e generico dimostra che i nostri modelli da 7B e 14B superano i baseline all'avanguardia con margini medi rispettivamente del 10,4% e del 14,2%. Questi risultati convalidano che la verifica formale può fungere da meccanismo scalabile per spingere significativamente i limiti prestazionali del ragionamento avanzato degli LLM.

NativeTok: Tokenizzazione Visiva Nativa per un Miglioramento della Generazione di Immagini
NativeTok: Native Visual Tokenization for Improved Image Generation

Jan 30

ByBin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao

La generazione di immagini basata su VQ segue tipicamente una pipeline a due stadi: un tokenizer codifica le immagini in token discreti, e un modello generativo apprende le loro dipendenze per la ricostruzione. Tuttavia, un tokenizzazione migliorata nel primo stadio non necessariamente potenzia la generazione nel secondo stadio, poiché i metodi esistenti non riescono a vincolare le dipendenze tra i token. Questo disallineamento costringe il modello generativo ad apprendere da distribuzioni non ordinate, portando a bias e scarsa coerenza. Per risolvere ciò, proponiamo una tokenizzazione visiva nativa, che applica dipendenze causali durante la tokenizzazione. Sviluppando questa idea, introduciamo NativeTok, un framework che ottiene una ricostruzione efficiente incorporando vincoli relazionali all'interno delle sequenze di token. NativeTok è composto da: (1) un Meta Image Transformer (MIT) per la modellazione di immagini latenti, e (2) un Mixture of Causal Expert Transformer (MoCET), in cui ogni blocco esperto leggero genera un singolo token condizionato dai token precedenti e dalle caratteristiche latenti. Progettiamo inoltre una strategia di Addestramento Nativo Gerarchico che aggiorna solo i nuovi blocchi esperti, garantendo efficienza nell'addestramento. Esperimenti estesi dimostrano l'efficacia di NativeTok.

Utilizzo Robusto degli Strumenti tramite Fission-GRPO: Imparare a Recuperare dagli Errori di Esecuzione
Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors

Jan 22

ByZhiwei Zhang, Fei Zhao, Rui Wang, Zezhong Wang, Bin Liang, Jiakang Wang, Yao Hu, Shaosheng Cao, Kam-Fai Wong

I grandi modelli linguistici (LLM) sono in grado di richiamare strumenti in modo efficace, ma rimangono fragili nell'esecuzione multi-turn: dopo un errore di chiamata di uno strumento, i modelli più piccoli spesso degenerano in reinvocazioni ripetitive e non valide, non riuscendo a interpretare il feedback di errore e ad autocorreggersi. Questa fragilità ostacola un deployment affidabile nel mondo reale, dove gli errori di esecuzione sono intrinsecamente inevitabili durante le procedure di interazione con gli strumenti. Identifichiamo una limitazione chiave degli approcci attuali: il reinforcement learning (RL) standard tratta gli errori come ricompense negative sparse, senza fornire indicazioni su come recuperare, mentre i dataset sintetici di correzione degli errori pre-raccolti soffrono di uno scostamento distributivo rispetto alle modalità di errore on-policy del modello. Per colmare questa lacuna, proponiamo Fission-GRPO, un framework che converte gli errori di esecuzione in supervisione correttiva all'interno del ciclo di addestramento RL. Il nostro meccanismo centrale scinde (fissions) ogni traiettoria fallita in una nuova istanza di addestramento arricchendola con un feedback diagnostico da un Simulatore di Errori messo a punto (finetuned), per poi ricampionare rollout di recupero on-policy. Ciò consente al modello di apprendere dagli errori specifici che commette durante l'esplorazione, anziché da casi di errore statici e pre-raccolti. Sul benchmark BFCL v4 Multi-Turn, Fission-GRPO migliora il tasso di recupero degli errori di Qwen3-8B del 5.7% in valore assoluto e, aspetto cruciale, produce un guadagno complessivo di accuratezza del 4% (dal 42.75% al 46.75%) rispetto al GRPO, superando anche agenti specializzati nell'uso di strumenti.

TAM-Eval: Valutazione di LLM per la Manutenzione Automatica dei Test Unitari
TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

Jan 26

ByElena Bruches, Vadim Alperovich, Dari Baturova, Roman Derunets, Daniil Grebenkin, Georgy Mkrtchyan, Oleg Sedukhin, Mikhail Klementev, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev

Sebbene i Large Language Model (LLM) abbiano mostrato potenziale nell'ingegneria del software, la loro applicazione ai test unitari rimane largamente confinata alla generazione isolata di test o alla predizione di oracoli, trascurando la sfida più ampia della manutenzione delle suite di test. Introduciamo TAM-Eval (Test Automated Maintenance Evaluation), un framework e benchmark progettato per valutare le prestazioni dei modelli in tre scenari chiave di manutenzione dei test: creazione, riparazione e aggiornamento delle suite di test. A differenza dei lavori precedenti limitati a compiti a livello di funzione, TAM-Eval opera a livello di file di test, mantenendo al contempo l'accesso al contesto completo del repository durante la valutazione isolata, riflettendo meglio i flussi di lavoro di manutenzione reali. Il nostro benchmark comprende 1.539 scenari estratti e convalidati automaticamente da progetti Python, Java e Go. TAM-Eval supporta una valutazione system-agnostic sia per LLM puri che per workflow agentivi, utilizzando un protocollo reference-free basato sul tasso di superamento dei test, sulla code coverage e sul mutation testing. I risultati empirici indicano che gli LLM allo stato dell'arte hanno capacità limitate nei processi realistici di manutenzione dei test e producono solo miglioramenti marginali nell'efficacia dei test. Rilasciamo TAM-Eval come framework open-source per supportare la ricerca futura nel testing software automatizzato. I nostri dati e codice sono pubblicamente disponibili su https://github.com/trndcenter/TAM-Eval.

RM-RF: Modello di Ricompensa per la Valutazione di Test di Unità Run-Free
RM -RF: Reward Model for Run-Free Unit Test Evaluation

Jan 19

ByElena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev

Presentiamo RM-RF, un modello di reward leggero per la valutazione senza esecuzione di test unitari generati automaticamente. Invece di compilare ed eseguire ripetutamente i test candidati, RM-RF predice - unicamente dal codice sorgente e di test - tre segnali derivati dall'esecuzione: (1) se la suite di test potenziata compila e viene eseguita con successo, (2) se i casi di test generati aumentano la code coverage, e (3) se i casi di test generati migliorano il mutation kill rate. Per addestrare e valutare RM-RF, abbiamo assemblato un dataset multilingue (Java, Python, Go) di file focali, file di test e aggiunte candidate di test etichettate da una pipeline basata sull'esecuzione, e rendiamo pubblico un dataset e una metodologia associati per la valutazione comparativa. Abbiamo testato diverse famiglie di modelli e regimi di tuning (zero-shot, fine-tuning completo e PEFT tramite LoRA), raggiungendo una F1 media di 0,69 sui tre obiettivi. Rispetto agli strumenti convenzionali di compilazione ed esecuzione, RM-RF offre una latenza e un costo infrastrutturale sostanzialmente inferiori, fornendo al contempo una fedeltà predittiva competitiva, abilitando un feedback rapido e scalabile per la generazione di test su larga scala e l'ottimizzazione del codice basata su RL.

Scalabilità di Sistemi Multiagente con Ricompense di Processo
Scaling Multiagent Systems with Process Rewards

Jan 30

ByEd Li, Junyu Ren, Cat Yan

Sebbene i sistemi multiagente abbiano mostrato potenziale nell'affrontare compiti complessi tramite specializzazione, l'ottimizzazione fine simultanea di più agenti incontra due sfide principali: (1) l'assegnazione del merito tra gli agenti e (2) l'efficienza campionaria dei costosi rollout multiagente. In questo lavoro, proponiamo l'ottimizzazione fine di sistemi multiagente con ricompense di processo per azione da feedback di IA (MAPPA) per affrontare entrambi i problemi. Assegnando il merito alle singole azioni degli agenti anziché solo al completamento del compito, MAPPA consente una supervisione granulare senza etichette di verità fondamentale, estraendo al contempo il segnale di addestramento massimo da ogni rollout. Dimostriamo il nostro approccio su problemi di matematica competitiva e su compiti di analisi dati con strumenti. Su problemi matematici non visti, MAPPA raggiunge un miglioramento di +5,0-17,5 pp su AIME e di +7,8-17,2 pp su AMC. Per i compiti di analisi dati, il nostro metodo migliora il tasso di successo del +12,5 pp mentre le metriche di qualità migliorano fino al 30%, convalidando il fatto che una supervisione per azione può portare a miglioramenti in diversi sistemi multiagente su vari domini. Affrontando queste sfide, il nostro lavoro compie un primo passo verso il ridimensionamento dei sistemi multiagente per compiti complessi e a lungo orizzonte con una supervisione umana minima.

Ricerca Approfondita con Monitoraggio Meta-Cognitivo Gerarchico Ispirato alla Neuroscienza Cognitiva
Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

Jan 30

ByZhongxiang Sun, Qipeng Wang, Weijie Yu, Jingxuan Yang, Haolang Lu, Jun Xu

Gli agenti di ricerca approfondita alimentati da grandi modelli linguistici hanno dimostrato notevoli capacità nella ricerca multi-step, nel ragionamento e nell'esecuzione di compiti a lungo termine. Tuttavia, i loro fallimenti pratici spesso originano dalla mancanza di meccanismi per monitorare e regolare gli stati di ragionamento e recupero delle informazioni man mano che i compiti evolvono in condizioni di incertezza. Le intuizioni dalla neuroscienza cognitiva suggeriscono che la metacognizione umana è organizzata gerarchicamente, integrando un rilevamento rapido delle anomalie con una riflessione guidata dall'esperienza e attivata in modo selettivo. In questo lavoro, proponiamo la Ricerca Approfondita con Monitoraggio Meta-Cognitivo (DS-MCM), un framework di deep search potenziato da un esplicito meccanismo gerarchico di monitoraggio metacognitivo. DS-MCM integra un Monitor di Coerenza Rapida, che esegue controlli leggeri sull'allineamento tra evidenze esterne e fiducia nel ragionamento interno, e un Monitor Lento Guidato dall'Esperienza, che viene attivato selettivamente per guidare interventi correttivi basati sulla memoria esperienziale ricavata dalle traiettorie storiche dell'agente. Incorporando il monitoraggio direttamente nel ciclo di ragionamento-recupero, DS-MCM determina sia quando un intervento è giustificato, sia come le azioni correttive debbano essere informate dall'esperienza pregressa. Esperimenti condotti su molteplici benchmark di deep search e modelli di base dimostrano che DS-MCM migliora costantemente prestazioni e robustezza.

RAPTOR: Sonde Logistiche ad Adattamento di Cresta
RAPTOR: Ridge-Adaptive Logistic Probes

Jan 29

ByZiqi Gao, Yaotian Zhu, Qingcheng Zeng, Xu Zhao, Ziqing Wang, Feng Ruan, Kaize Ding

Gli studi di probing analizzano quali informazioni sono codificate nelle rappresentazioni stratificate di un LLM congelato, addestrando un predittore leggero su di esse. Oltre all'analisi, le probe sono spesso utilizzate operativamente nelle pipeline di tipo "probe-then-steer": un vettore concettuale appreso viene estratto da una probe e iniettato tramite steering additivo delle attivazioni, aggiungendolo a una rappresentazione stratificata durante il forward pass. L'efficacia di questa pipeline dipende dalla stima di vettori concettuali che siano accurati, directionalmente stabili sotto ablazione e economici da ottenere. Motivati da questi requisiti, proponiamo RAPTOR (Ridge-Adaptive Logistic Probe), una semplice probe logistica con regolarizzazione L2 la cui forza di ridge ottimizzata su validation produce vettori concettuali dai pesi normalizzati. In un'ampia serie di esperimenti su LLM addestrati per seguire istruzioni e dataset concettuali scritti da umani, RAPTOR eguaglia o supera baseline robuste in accuratezza, raggiungendo al contempo una stabilità direzionale competitiva e un costo di addestramento sostanzialmente inferiore; questi risultati quantitativi sono supportati da dimostrazioni qualitative di steering a valle. Infine, utilizzando il Teorema del Min-max Gaussiano Convesso (CGMT), forniamo una caratterizzazione meccanicistica della regressione logistica ridge in un modello ideale Gaussiano insegnante-studente nel regime ad alta dimensionalità e pochi esempi, spiegando come la forza della penalizzazione media l'accuratezza della probe e la stabilità del vettore concettuale, e producendo previsioni strutturali che si allineano qualitativamente con le tendenze osservate sugli embedding reali di LLM.

Catena di Pensiero Latente come Pianificazione: Disaccoppiare il Ragionamento dalla Verbalizzazione
Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Jan 29

ByJiecong Wang, Hao Peng, Chunyang Liu

Chain-of-Thought (CoT) consente ai Large Language Model (LLM) di affrontare problemi complessi, ma rimane limitato dal costo computazionale e dal collasso del percorso di ragionamento quando ancorato a spazi di token discreti. I recenti approcci di ragionamento latente tentano di ottimizzare l'efficienza eseguendo il ragionamento all'interno di stati nascosti continui. Tuttavia, questi metodi operano tipicamente come mappature opache end-to-end da passaggi di ragionamento espliciti a stati latenti e spesso richiedono un numero predefinito di passi latenti durante l'inferenza. In questo lavoro, introduciamo PLaT (Planning with Latent Thoughts), un framework che riformula il ragionamento latente come pianificazione, disaccoppiando fondamentalmente il ragionamento dalla verbalizzazione. Modelliamo il ragionamento come una traiettoria deterministica di stati di pianificazione latente, mentre un Decoder separato ancorà questi pensieri al testo quando necessario. Questo disaccoppiamento consente al modello di determinare dinamicamente quando terminare il ragionamento, piuttosto che affidarsi a iperparametri fissi. I risultati empirici su benchmark matematici rivelano un chiaro trade-off: sebbene PLaT raggiunga una minore accuratezza greedy rispetto ai baseline, dimostra una scalabilità superiore in termini di diversità di ragionamento. Ciò indica che PLaT apprende uno spazio di soluzioni più robusto e ampio, offrendo una base trasparente e scalabile per la ricerca al momento dell'inferenza.

Agenti GUI Continui
Continual GUI Agents

Jan 28

ByZiwei Liu, Borui Kang, Hangjie Yuan, Zixiang Zhao, Wei Li, Yifan Zhu, Tao Feng

Poiché gli ambienti digitali (distribuzione dei dati) sono in continua evoluzione, con nuovi dati GUI che arrivano nel tempo - introducendo nuovi domini o risoluzioni - gli agenti addestrati su ambienti statici vedono un deterioramento delle prestazioni. In questo lavoro, introduciamo gli Agenti GUI Continui, un nuovo compito che richiede agli agenti GUI di effettuare apprendimento continuo sotto domini e risoluzioni variabili. Rileviamo che i metodi esistenti non riescono a mantenere un ancoraggio stabile man mano che le distribuzioni GUI cambiano nel tempo, a causa della diversità dei punti e delle regioni di interazione dell'interfaccia utente negli scenari fluttuanti. Per affrontare questo problema, introduciamo GUI-Anchoring in Flux (GUI-AiF), un nuovo framework di fine-tuning per rinforzo che stabilizza l'apprendimento continuo attraverso due nuove ricompense: Anchoring Point Reward in Flux (APR-iF) e Anchoring Region Reward in Flux (ARR-iF). Queste ricompense guidano gli agenti ad allinearsi con i punti e le regioni di interazione in cambiamento, mitigando la tendenza delle strategie di ricompensa esistenti a iperadattarsi a segnali di ancoraggio statici (ad es., coordinate fisse o scale degli elementi). Esperimenti estensivi mostrano che GUI-AiF supera i baseline state-of-the-art. Il nostro lavoro stabilisce il primo framework di apprendimento continuo per agenti GUI, rivelando il potenziale inesplorato del fine-tuning per rinforzo per gli Agenti GUI Continui.

Riconsiderare le Previsioni dei Modelli di Diffusione Attraverso la Dimensionalità
Revisiting Diffusion Model Predictions Through Dimensionality

Jan 29

ByQing Jin, Chaoyang Wang

I recenti progressi nei modelli di diffusione e di flusso hanno evidenziato un cambiamento nell'obiettivo di predizione preferito, passando dalla predizione del rumore (ε) e della velocità (v) alla predizione diretta dei dati (x), specialmente in contesti ad alta dimensionalità. Tuttavia, una spiegazione formale del motivo per cui l'obiettivo ottimale dipenda dalle proprietà specifiche dei dati rimane elusiva. In questo lavoro, forniamo un quadro teorico basato su una formulazione di predizione generalizzata che accoglie obiettivi di output arbitrari, di cui ε-predizione, v-predizione e x-predizione sono casi particolari. Deriviamo la relazione analitica tra la geometria dei dati e l'obiettivo di predizione ottimale, offrendo una giustificazione rigorosa del motivo per cui la x-predizione diventa superiore quando la dimensione ambientale supera significativamente la dimensione intrinseca dei dati. Inoltre, sebbene la nostra teoria identifichi la dimensionalità come il fattore determinante per l'obiettivo di predizione ottimale, la dimensione intrinseca di dati vincolati a una varietà è tipicamente intrattabile da stimare nella pratica. Per colmare questa lacuna, proponiamo k-Diff, un framework che impiega un approccio guidato dai dati per apprendere direttamente dai dati il parametro di predizione ottimale k, bypassando la necessità di una stima esplicita della dimensione. Esperimenti estesi nella generazione di immagini sia in spazi latenti che in spazi di pixel dimostrano che k-Diff supera costantemente i baseline a obiettivo fisso su varie architetture e scale di dati, fornendo un approccio principiato e automatizzato per migliorare le prestazioni generative.

LMK > CLS: Landmark Pooling per gli Embedding Densi
LMK > CLS: Landmark Pooling for Dense Embeddings

Jan 29

ByMeet Doshi, Aashka Trivedi, Vishwajeet Kumar, Parul Awasthy, Yulong Li, Jaydeep Sen, Radu Florian, Sachindra Joshi

L'apprendimento di rappresentazioni è centrale per numerosi task downstream come la ricerca, il clustering, la classificazione e il riordinamento dei risultati. Gli encoder di sequenza allo stato dell'arte tipicamente collassano una sequenza di token di lunghezza variabile in un singolo vettore utilizzando un operatore di pooling, più comunemente uno speciale token [CLS] o il mean pooling sugli embedding dei token. In questo articolo, identifichiamo delle debolezze sistemiche di queste strategie di pooling: il token [CLS] tende a concentrare l'informazione verso le posizioni iniziali della sequenza e può sottorappresentare evidenze distribuite, mentre il mean pooling può diluire segnali locali salienti, portando talvolta a prestazioni peggiori in contesti brevi. Per affrontare questi problemi, introduciamo il Landmark (LMK) pooling, che suddivide una sequenza in segmenti, inserisce token landmark tra di essi, e forma la rappresentazione finale effettuando il mean pooling sugli embedding dei token landmark. Questo semplice meccanismo migliora l'estrapolazione a contesti lunghi senza sacrificare le caratteristiche salienti locali, al costo di introdurre un piccolo numero di token speciali. Dimostriamo empiricamente che il LMK pooling eguaglia i metodi esistenti sui task di retrieval a contesto breve e produce miglioramenti sostanziali sui task a contesto lungo, rendendolo un'alternativa pratica e scalabile ai metodi di pooling esistenti.

Dinamiche della Memorizzazione nella Distillazione della Conoscenza per Modelli Linguistici
Memorization Dynamics in Knowledge Distillation for Language Models

Jan 21

ByJaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano

La distillazione della conoscenza (KD) viene sempre più adottata per trasferire le capacità da modelli linguistici di grandi dimensioni a modelli più piccoli, offrendo miglioramenti significativi in termini di efficienza e utilità, superando spesso la messa a punto standard. Oltre alle prestazioni, la KD è anche esplorata come meccanismo per la preservazione della privacy per mitigare il rischio di perdita dei dati di addestramento. Sebbene la memorizzazione dei dati di addestramento sia stata ampiamente studiata negli scenari standard di pre-addestramento e messa a punto, le sue dinamiche in un contesto di distillazione della conoscenza rimangono poco comprese. In questo lavoro, studiamo la memorizzazione nell'intera pipeline della KD utilizzando tre famiglie di grandi modelli linguistici (Pythia, OLMo-2, Qwen-3) e tre dataset (FineWeb, Wikitext, Nemotron-CC-v2). Scopriamo che: (1) i modelli distillati memorizzano significativamente meno dati di addestramento rispetto alla messa a punto standard (riducendo la memorizzazione di oltre il 50%); (2) alcuni esempi sono intrinsecamente più facili da memorizzare e rappresentano una grande frazione della memorizzazione durante la distillazione (oltre il ~95%); (3) la memorizzazione dello studente è prevedibile prima della distillazione utilizzando caratteristiche basate su entropia zlib, divergenza KL e perplessità; e (4) sebbene la distillazione soft e hard abbiano tassi complessivi di memorizzazione simili, la distillazione hard presenta un rischio maggiore: eredita 2,7 volte più esempi specifici del docente rispetto alla distillazione soft. Nel complesso, dimostriamo che la distillazione può fornire sia una generalizzazione migliorata che rischi ridotti di memorizzazione rispetto alla messa a punto standard.

ExpAlign: Allineamento Visione-Linguaggio Guidato dalle Aspettative per il Grounding a Vocabolario Aperto
ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding

Jan 30

ByJunyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang

Il grounding open-vocabulary richiede un allineamento accurato tra visione e linguaggio con supervisione debole. Tuttavia, i metodi esistenti si basano su embedding di frase globali che mancano di espressività fine, oppure introducono un allineamento a livello di token con supervisione esplicita o progetti di cross-attention complessi. Proponiamo ExpAlign, un framework di allineamento visione-linguaggio teoricamente fondato, basato su una formulazione principled del multiple instance learning. ExpAlign introduce una Testa di Allineamento per Aspettativa (Expectation Alignment Head) che esegue un pooling MIL soft basato su attention sulle similarità token-regione, abilitando una selezione implicita di token e istanze senza annotazioni aggiuntive. Per stabilizzare ulteriormente l'apprendimento dell'allineamento, sviluppiamo uno schema di regolarizzazione della consistenza multi-scala basato sull'energia, includendo un obiettivo contrastivo multi-positivo Top-K e un Obiettivo di Consistenza Consapevole della Geometria, derivato da una minimizzazione dell'energia libera con vincolo lagrangiano. Esperimenti estensivi mostrano che ExpAlign migliora consistentemente il rilevamento open-vocabulary e la segmentazione di istanze zero-shot, particolarmente per categorie a coda lunga. Notevolmente, raggiunge 36.2 AP_r sulla suddivisione LVIS minival, superando altri metodi state-of-the-art con modelli di scala comparabile, rimanendo al contempo leggero ed efficiente nell'inferenza.

Drive-JEPA: Video JEPA incontra la distillazione di traiettorie multimodali per la guida end-to-end
Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving

Jan 29

ByLinhan Wang, Zichong Yang, Chen Bai, Guoxiang Zhang, Xiaotong Liu, Xiaoyin Zheng, Xiao-Xiao Long, Chang-Tien Lu, Cheng Lu

La guida autonoma end-to-end utilizza sempre più il pre-addestramento video auto-supervisionato per apprendere rappresentazioni pianificabili trasferibili. Tuttavia, il pre-addestramento di modelli video del mondo per la comprensione della scena ha finora portato solo miglioramenti limitati. Questa limitazione è aggravata dall'ambiguità intrinseca della guida: ogni scena fornisce tipicamente una sola traiettoria umana, rendendo difficile l'apprendimento di comportamenti multimodali. In questo lavoro, proponiamo Drive-JEPA, un framework che integra la Video Joint-Embedding Predictive Architecture (V-JEPA) con la distillazione di traiettorie multimodali per la guida end-to-end. In primo luogo, adattiamo V-JEPA per la guida end-to-end, pre-addestrando un codificatore ViT su video di guida su larga scala per produrre rappresentazioni predittive allineate con la pianificazione della traiettoria. In secondo luogo, introduciamo un pianificatore centrato sulle proposte che distilla traiettorie generate dal simulatore insieme a traiettorie umane, con un meccanismo di selezione momentum-aware per promuovere comportamenti stabili e sicuri. Quando valutato su NAVSIM, la rappresentazione V-JEPA combinata con un semplice decoder basato su transformer supera i metodi precedenti di 3 PDMS nell'impostazione priva di percezione. Il framework completo Drive-JEPA raggiunge 93.3 PDMS su v1 e 87.8 EPDMS su v2, stabilendo un nuovo stato dell'arte.

Indirizzamento della Lotteria: Sottomodelli Adattivi per Dati Eterogenei
Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data

Jan 29

ByGrzegorz Stefanski, Alberto Presta, Michal Byra

Nell'ambito del pruning, l'Ipotesi del Biglietto Vincente (Lottery Ticket Hypothesis) postula che le reti neurali di grandi dimensioni contengano sottoreti sparse, o "biglietti vincenti", che possono essere addestrate in isolamento per eguagliare le prestazioni delle loro controparti dense. Tuttavia, la maggior parte degli approcci esistenti presuppone l'esistenza di un unico biglietto vincente universale condiviso tra tutti gli input, ignorando l'intrinseca eterogeneità dei dati del mondo reale. In questo lavoro, proponiamo "Routing the Lottery" (RTL), un framework di pruning adattivo che scopre multiple sottoreti specializzate, denominate "biglietti adattivi", ciascuna ottimizzata per una classe, un cluster semantico o una condizione ambientale specifica. Attraverso diversi dataset e task, RTL supera costantemente i baseline a modello singolo e multi-modello in termini di accuratezza bilanciata e recall, utilizzando fino a 10 volte meno parametri rispetto a modelli indipendenti e mostrando un allineamento semantico. Inoltre, identifichiamo il "collasso della sottorete", un calo delle prestazioni sotto un pruning aggressivo, e introduciamo un punteggio di similarità tra sottoreti che consente una diagnosi dell'eccessiva sparsificazione senza l'uso di etichette. Nel complesso, i nostri risultati reinterpretano il pruning come un meccanismo per allineare la struttura del modello con l'eterogeneità dei dati, aprendo la strada a un deep learning più modulare e consapevole del contesto.

SONIC-O1: Un Benchmark del Mondo Reale per la Valutazione di Modelli Linguistici Multimodali sulla Comprensione Audio-Video
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

Jan 29

ByAhmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza

I modelli linguistici multimodali di grandi dimensioni (MLLM) sono un ambito di primario interesse nella recente ricerca sull'intelligenza artificiale. Tuttavia, la maggior parte del lavoro precedente si concentra sulla comprensione di immagini statiche, mentre la loro capacità di elaborare dati audio-video sequenziali rimane poco esplorata. Questa lacuna evidenzia la necessità di un benchmark di alta qualità per valutare sistematicamente le prestazioni degli MLLM in un contesto reale. Presentiamo SONIC-O1, un benchmark completo e interamente verificato da esseri umani, che copre 13 domini conversazionali del mondo reale con 4.958 annotazioni e metadati demografici. SONIC-O1 valuta gli MLLM su compiti chiave, tra cui la rielaborazione aperta (summarization), la risposta a domande a scelta multipla e la localizzazione temporale con relative motivazioni (ragionamento). Esperimenti condotti su modelli proprietari e open-source ne rivelano le limitazioni. Sebbene il divario prestazionale nell'accuratezza delle domande a scelta multipla tra due famiglie di modelli sia relativamente piccolo, osserviamo una differenza sostanziale del 22,6% nella localizzazione temporale tra il miglior modello proprietario e il miglior modello open-source. Le prestazioni si degradano ulteriormente tra i diversi gruppi demografici, indicando disparità persistenti nel comportamento dei modelli. Nel complesso, SONIC-O1 fornisce una suite di valutazione aperta per una comprensione multimodale temporalmente fondata e socialmente robusta. Rilasciamo SONIC-O1 per favorire la riproducibilità e la ricerca: Pagina del progetto: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard

KAPSO: un framework basato sulla conoscenza per la sintesi e l'ottimizzazione autonoma di programmi
KAPSO: A Knowledge-grounded framework for Autonomous Program Synthesis and Optimization

Jan 29

ByAlireza Nadaf, Alireza Mohammadshahi, Majid Yazdani

Introduciamo KAPSO, un framework modulare per la sintesi e l'ottimizzazione autonoma di programmi. Dato un obiettivo in linguaggio naturale e un metodo di valutazione, KAPSO esegue iterativamente le fasi di ideazione, sintesi e modifica del codice, esecuzione, valutazione e apprendimento per migliorare un artefatto eseguibile verso obiettivi misurabili. Piuttosto che trattare la sintesi come punto di arrivo, KAPSO utilizza la sintesi come un operatore all'interno di un ciclo di ottimizzazione a lungo termine, dove il progresso è definito dagli esiti del valutatore. KAPSO affronta i fallimenti a lungo termine comuni negli agenti di programmazione, inclusi la perdita dello stato sperimentale, il debugging fragile e il riutilizzo debole dell'expertise di dominio, integrando tre componenti strettamente accoppiati. Primo, un motore di sperimentazione nativo git isola ogni tentativo come un branch, producendo artefatti riproducibili e preservando la provenienza attraverso le iterazioni. Secondo, un sistema di conoscenza assimila fonti eterogenee, inclusi repository, playbook interni e risorse esterne curate come documentazione, articoli scientifici e risultati di ricerche web, e le organizza in una rappresentazione strutturata che supporta il retrieval su workflow, implementazioni e vincoli ambientali. Terzo, un livello di memoria cognitiva coordina il retrieval e mantiene un archivio episodico di lezioni riutilizzabili estratte dalle tracce degli esperimenti (log di esecuzione, diff e feedback del valutatore), riducendo le modalità di errore ripetute e accelerando la convergenza. Abbiamo valutato KAPSO su MLE-Bench (competizioni ML in stile Kaggle) e ALE-Bench (ottimizzazione euristica AtCoder) e riportiamo le prestazioni end-to-end. Codice disponibile su: https://github.com/Leeroo-AI/kapso

Perché Esistono i Modelli di Attenzione: Un'Analisi Unificante dalla Prospettiva Temporale
Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

Jan 29

ByQingyue Yang, Jie Wang, Xing Li, Yinqi Bai, Xialiang Tong, Huiling Zhen, Jianye Hao, Mingxuan Yuan, Bin Li

I modelli di attenzione svolgono un ruolo cruciale sia nell'addestramento che nell'inferenza dei grandi modelli linguistici (LLM). Studi precedenti hanno identificato modelli individuali come le teste di recupero, le teste sink e le tracce diagonali, ma queste osservazioni rimangono frammentate e prive di una spiegazione unificante. Per colmare questa lacuna, introduciamo la Temporal Attention Pattern Predictability Analysis (TAPPA), un quadro unificante che spiega i diversi modelli di attenzione analizzando le loro formulazioni matematiche sottostanti da una prospettiva temporalmente continua. TAPPA approfondisce sia la comprensione del comportamento dell'attenzione che guida gli approcci di accelerazione dell'inferenza. Nello specifico, TAPPA caratterizza i modelli di attenzione come modelli prevedibili con chiare regolarità e modelli imprevedibili che appaiono effettivamente casuali. La nostra analisi rivela inoltre che questa distinzione può essere spiegata dal grado di auto-similarità delle query lungo la dimensione temporale. Concentrandoci sui modelli prevedibili, forniamo un'analisi matematica dettagliata di tre casi rappresentativi attraverso l'effetto congiunto di query, chiavi e Rotary Positional Embeddings (RoPE). Convalidiamo TAPPA applicando le sue intuizioni a compiti di compressione della cache KV e di pruning degli LLM. In questi compiti, una semplice metrica motivata da TAPPA migliora costantemente le prestazioni rispetto ai metodi baseline. Il codice è disponibile all'indirizzo https://github.com/MIRALab-USTC/LLM-TAPPA.

Test di Turing sulla Personalizzazione Visiva
Visual Personalization Turing Test

Jan 30

ByRameen Abdal, James Burgess, Sergey Tulyakov, Kuan-Chieh Jackson Wang

Introduciamo il Visual Personalization Turing Test (VPTT), un nuovo paradigma per valutare la personalizzazione visiva contestuale basato sull'indistinguibilità percettiva, piuttosto che sulla replica dell'identità. Un modello supera il VPTT se il suo output (immagine, video, risorsa 3D, ecc.) è indistinguibile, per un giudice umano o per un VLM calibrato, da contenuti che una determinata persona potrebbe plausibilmente creare o condividere. Per rendere operativo il VPTT, presentiamo il VPTT Framework, che integra un benchmark con 10.000 persona (VPTT-Bench), un generatore aumentato con retrieval visivo (VPRAG) e il VPTT Score, una metrica basata solo su testo calibrata sui giudizi umani e dei VLM. Mostriamo un'elevata correlazione tra le valutazioni umane, dei VLM e del VPTT, convalidando il VPTT Score come un affidabile proxy percettivo. Gli esperimenti dimostrano che VPRAG raggiunge il miglior bilanciamento tra fedeltà e originalità, offrendo una base scalabile e sicura per la privacy per l'IA generativa personalizzata.

Apprendimento Automatico per la Programmazione Consapevole di Energia e Prestazioni
Machine Learning for Energy-Performance-aware Scheduling

Jan 30

ByZheyuan Hu, Yifei Shi

Nell'era post-Dennard, l'ottimizzazione dei sistemi embedded richiede di bilanciare complessi compromessi tra efficienza energetica e latenza. La tradizionale ottimizzazione euristica si rivela spesso inefficiente in questi paesaggi di ricerca ad alta dimensionalità e non lisci. In questo lavoro, proponiamo un framework di Ottimizzazione Bayesiana che utilizza Processi Gaussiani per automatizzare la ricerca delle configurazioni ottimali di scheduling su architetture eterogenee multi-core. Affrontiamo esplicitamente la natura multi-obiettivo del problema approssimando la Fronteira di Pareto tra energia e tempo. Inoltre, incorporando l'Analisi di Sensibilità (fANOVA) e confrontando diversi kernel di covarianza (ad es. Matérn vs. RBF), conferiamo interpretabilità fisica al modello black-box, rivelando i parametri hardware dominanti che guidano le prestazioni del sistema.

Pre-Addestramento Basato sul Valore con Feedback a Valle
Value-Based Pre-Training with Downstream Feedback

Jan 29

ByShuqi Ke, Giulia Fanti

È possibile che una piccola quantità di informazioni verificate sugli obiettivi guidi il costoso pre-addestramento auto-supervisionato dei modelli di base? Il pre-addestramento standard ottimizza un obiettivo proxy fisso (ad esempio, la previsione del token successivo), che può allocare in modo errato le risorse computazionali lontano dalle capacità downstream di interesse. Introduciamo il V-Pretraining: un metodo value-based e modality-agnostic per un pre-addestramento continuo controllato, in cui un progettista di compiti leggero rimodella il compito di pre-addestramento per massimizzare il valore di ogni passo del gradiente. Ad esempio, si consideri l'apprendimento auto-supervisionato (SSL) con l'aumento dei dati. Il progettista di compiti del V-Pretraining seleziona i compiti di pre-addestramento (ad esempio, le tecniche di aumento) per i quali il gradiente della loss di pre-addestramento è allineato con un gradiente calcolato su un compito downstream (ad esempio, la segmentazione delle immagini). Questo aiuta a indirizzare il pre-addestramento verso le capacità downstream rilevanti. È importante notare che il modello pre-addestrato non viene mai aggiornato con le etichette del compito downstream; queste vengono utilizzate solo per modellare il compito di pre-addestramento. Con budget di aggiornamento del learner equivalenti, il V-Pretraining applicato a modelli linguistici da 0,5 a 7 miliardi di parametri migliora il ragionamento (GSM8K test Pass@1) fino al 18% in termini relativi rispetto alla standard previsione del token successivo, utilizzando solo il 12% degli esempi di addestramento GSM8K come feedback. Nell'SSL per la visione, miglioriamo i risultati state-of-the-art su ADE20K fino a 1,07 mIoU e riduciamo il RMSE su NYUv2, migliorando allo stesso tempo l'accuratezza lineare su ImageNet, e forniamo evidenze preliminari di una migliore efficienza dei token nel pre-addestramento continuo.