HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

18 papers found

VESPO: Ottimizzazione della Politica Morbida a Livello di Sequenza Variazionale per un Addestramento Stabile di LLM Off-Policy
VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Feb 11

ByGuobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

158

La stabilità dell'addestramento rimane una sfida centrale nell'apprendimento per rinforzo (RL) per i grandi modelli linguistici (LLM). L'obsolescenza della politica, l'addestramento asincrono e le discrepanze tra i motori di addestramento e inferenza causano tutti una divergenza della politica comportamentale dalla politica corrente, rischiando il collasso dell'addestramento. Il campionamento per importanza fornisce una correzione principiata per questo spostamento di distribuzione, ma soffre di un'elevata varianza; i rimedi esistenti, come il clipping a livello di token e la normalizzazione a livello di sequenza, mancano di una base teorica unificata. Proponiamo l'Ottimizzazione della Politica Soft a Livello di Sequenza Variazionale (VESPO). Incorporando la riduzione della varianza in una formulazione variazionale sulle distribuzioni proposta, VESPO deriva un kernel di rimodellamento in forma chiusa che opera direttamente sui pesi di importanza a livello di sequenza senza normalizzazione della lunghezza. Esperimenti su benchmark di ragionamento matematico mostrano che VESPO mantiene un addestramento stabile con rapporti di obsolescenza fino a 64x ed esecuzione completamente asincrona, e fornisce miglioramenti consistenti sia per modelli densi che per modelli Mixture-of-Experts. Il codice è disponibile all'indirizzo https://github.com/FloyedShen/VESPO.

Il tuo modello di ragionamento sa implicitamente quando smettere di pensare?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Feb 9

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

I recenti progressi nei modelli di ragionamento su larga scala (LRM) hanno notevolmente migliorato le loro capacità nei compiti di ragionamento complesso attraverso le lunghe Catene di Pensiero (CoT). Tuttavia, questo approccio spesso si traduce in una sostanziale ridondanza, compromettendo l'efficienza computazionale e causando ritardi significativi nelle applicazioni in tempo reale. Studi recenti dimostrano che catene di ragionamento più lunghe sono spesso non correlate con la correttezza e possono persino essere dannose per l'accuratezza. In un'analisi più approfondita di questo fenomeno, scopriamo sorprendentemente e verifichiamo empiricamente che gli LRM sanno implicitamente quando è il momento opportuno di smettere di pensare, sebbene questa capacità sia oscurata dagli attuali paradigmi di campionamento. Motivati da ciò, introduciamo SAGE (Ragionamento Efficiente Guidato Auto-Consapevole), un nuovo paradigma di campionamento che libera questo potenziale di ragionamento efficiente. Inoltre, l'integrazione di SAGE come campionamento misto nel reinforcement learning basato su gruppi (SAGE-RL) consente a SAGE-RL di incorporare efficacemente gli schemi di ragionamento efficiente scoperti da SAGE nell'inferenza standard pass@1, migliorando notevolmente sia l'accuratezza che l'efficienza del ragionamento degli LRM su molteplici benchmark matematici complessi.

Realtà Generata: Simulazione del Mondo Centrata sull'Uomo mediante Generazione Video Interattiva con Controllo Manuale e della Fotocamera
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Feb 20

ByLinxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

La realtà estesa (XR) richiede modelli generativi che rispondano al movimento nel mondo reale tracciato degli utenti, ma gli attuali modelli video del mondo accettano solo segnali di controllo grossolani come input testuali o da tastiera, limitando la loro utilità per l'interazione incarnata. Introduciamo un modello video del mondo incentrato sull'uomo che è condizionato sia dalla posa della testa tracciata che dalle pose delle mani a livello articolare. A tal fine, valutiamo le strategie esistenti di condizionamento per transformer diffusion e proponiamo un meccanismo efficace per il controllo 3D di testa e mani, abilitando interazioni manuali-oggetto complesse. Addestriamo un insegnante di modelli di diffusione video bidirezionale utilizzando questa strategia e lo distilliamo in un sistema causale e interattivo che genera ambienti virtuali in prima persona. Valutiamo questo sistema di realtà generata con soggetti umani e dimostriamo un miglioramento delle prestazioni nel compito, nonché un livello significativamente più alto di percezione di controllo sulle azioni eseguite rispetto ai baseline rilevanti.

Attraversare lo Spazio dell'Analogia Visiva con una Base Ponderata di LoRA
Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Feb 17

ByHila Manor, Rinon Gal, Haggai Maron, Tomer Michaeli, Gal Chechik

L'apprendimento per analogia visiva consente la manipolazione di immagini attraverso dimostrazioni piuttosto che descrizioni testuali, permettendo agli utenti di specificare trasformazioni complesse difficili da articolare a parole. Dato un tripletto {a, a', b}, l'obiettivo è generare b' tale che a : a' :: b : b'. I metodi recenti adattano modelli text-to-image a questo compito utilizzando un singolo modulo di Low-Rank Adaptation (LoRA), ma incontrano una limitazione fondamentale: il tentativo di catturare lo spazio diversificato delle trasformazioni visive all'interno di un modulo di adattamento fisso ne limita le capacità di generalizzazione. Ispirati da lavori recenti che mostrano come i LoRA in domini vincolati generino spazi semantici significativi e interpolabili, proponiamo LoRWeB, un approccio innovativo che specializza il modello per ogni compito analogico al momento dell'inferenza attraverso la composizione dinamica di primitive di trasformazione apprese, informalmente, scegliendo un punto in uno "spazio di LoRA". Introduciamo due componenti chiave: (1) una base apprendibile di moduli LoRA, per generare lo spazio delle diverse trasformazioni visive, e (2) un encoder leggero che seleziona e pondera dinamicamente questi LoRA di base in base alla coppia analogica di input. Valutazioni complete dimostrano che il nostro approccio raggiunge prestazioni all'avanguardia e migliora significativamente la generalizzazione a trasformazioni visive non viste. I nostri risultati suggeriscono che le scomposizioni in base di LoRA sono una direzione promettente per la manipolazione visiva flessibile. Codice e dati sono disponibili su https://research.nvidia.com/labs/par/lorweb

Decodifica come Ottimizzazione sul Simplesso delle Probabilità: Dai Campionatori Top-K a Top-P (Nucleo) fino ai Campionatori Best-of-K
Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Feb 20

ByXiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar

La decodifica si colloca tra un modello linguistico e tutto ciò che facciamo con esso, eppure viene ancora trattata come un esercizio euristico di regolazione di parametri. Sosteniamo che la decodifica dovrebbe essere compresa come un livello di ottimizzazione principiato: ad ogni token, risolviamo un problema regolarizzato sul simplesso delle probabilità che bilancia il punteggio del modello con preferenze e vincoli strutturali. Questo singolo schema ricava come casi particolari la decodifica greedy, il campionamento Softmax, Top-K, Top-P e la sparsità in stile Sparsemax, e ne spiega la struttura comune attraverso condizioni di ottimalità. Ancora più importante, il framework rende facile inventare nuovi decoder senza ricorrere a conoscenze empiriche. Lo dimostriamo progettando Best-of-K (BoK), un obiettivo di copertura ancorato alla KL divergence mirato a pipeline multi-campione (auto-consistenza, reranking, selezione del verificatore). BoK mira alla probabilità di coprire buone alternative entro un budget fisso di K campioni e migliora le prestazioni empiriche. Mostriamo che tali campioni possono migliorare l'accuratezza, ad esempio, del +18,6% per Qwen2.5-Math-7B su MATH500 ad alte temperature di campionamento.

EgoPush: Apprendimento End-to-End per il Riordinamento EgoCentrico di Oggetti Multipli in Robot Mobili
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Feb 20

ByBoyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng

Gli esseri umani possono riorganizzare oggetti in ambienti affollati utilizzando una percezione egocentrica, navigando tra le occlusioni senza coordinate globali. Ispirati da questa capacità, studiamo il riarrangiamento non prensile multi-oggetto a lungo orizzonte per robot mobili utilizzando una singola camera egocentrica. Introduciamo EgoPush, un framework per l'apprendimento di policy che abilita un riarrangiamento egocentrico e guidato dalla percezione senza fare affidamento su una stima esplicita dello stato globale, che spesso fallisce in scene dinamiche. EgoPush progetta uno spazio latente centrato sugli oggetti per codificare le relazioni spaziali relative tra gli oggetti, piuttosto che le pose assolute. Questo design consente a un insegnante di apprendimento per rinforzo (RL) privilegiato di apprendere congiuntamente stati latenti e azioni di movimento da keypoint sparsi, che vengono poi distillati in una policy studente puramente visiva. Per ridurre il divario di supervisione tra l'insegnante onnisciente e lo studente parzialmente osservato, limitiamo le osservazioni dell'insegnante a segnali visivamente accessibili. Ciò induce comportamenti di percezione attiva che sono recuperabili dal punto di vista dello studente. Per affrontare l'assegnazione del credito a lungo orizzonte, scomponiamo il riarrangiamento in sottoproblemi a livello di stadio utilizzando ricompense di completamento locali allo stadio e decadute temporalmente. Esperimenti simulativi estensivi dimostrano che EgoPush supera significativamente le baseline RL end-to-end nel tasso di successo, con studi di ablazione che convalidano ogni scelta progettuale. Dimostriamo inoltre un trasferimento zero-shot da simulazione a realtà su una piattaforma mobile nel mondo reale. Il codice e i video sono disponibili su https://ai4ce.github.io/EgoPush/.

SARAH: Agenti Umani Spazialmente Consapevoli in Tempo Reale
SARAH: Spatially Aware Real-time Agentic Humans

Feb 20

ByEvonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard

Man mano che gli agenti incorporati diventano centrali nelle applicazioni di realtà virtuale, telepresenza e umani digitali, il loro movimento deve andare oltre i gesti allineati al parlato: gli agenti dovrebbero girarsi verso gli utenti, rispondere ai loro movimenti e mantenere uno sguardo naturale. I metodi attuali mancano di questa consapevolezza spaziale. Colmiamo questa lacuna con il primo metodo in tempo reale e completamente causale per il movimento conversazionale spazialmente consapevole, distribuibile su un visore VR in streaming. Dati la posizione di un utente e l'audio diadico, il nostro approccio produce un movimento corporeo completo che allinea i gesti al parlato orientando contemporaneamente l'agente in base all'utente. La nostra architettura combina un VAE basato su transformer causale con token latenti intercalati per l'inferenza in streaming e un modello di flusso condizionato sulla traiettoria dell'utente e sull'audio. Per supportare diverse preferenze di sguardo, introduciamo un meccanismo di punteggio dello sguardo con guida senza classificatore per disaccoppiare l'apprendimento dal controllo: il modello cattura l'allineamento spaziale naturale dai dati, mentre gli utenti possono regolare l'intensità del contatto visivo durante l'inferenza. Sul dataset Embody 3D, il nostro metodo raggiunge una qualità del movimento allo stato dell'arte a oltre 300 FPS — 3 volte più veloce dei baseline non causali — catturando le sottili dinamiche spaziali della conversazione naturale. Convalidiamo il nostro approccio su un sistema VR live, portando agenti conversazionali spazialmente consapevoli alla distribuzione in tempo reale. Per maggiori dettagli, consultare https://evonneng.github.io/sarah/.

Avey-B
Avey-B

Feb 17

ByDevang Acharya, Mohammad Hammoud

I codificatori bidirezionali preaddestrati compatti rimangono la spina dorsale dell'NLP industriale in presenza di budget ristretti di calcolo e memoria. La loro efficacia deriva dalla capacità dell'auto-attenzione di fornire una contestualizzazione bidirezionale di alta qualità con parallelismo a livello di sequenza, come reso popolare dalle architetture in stile BERT. Recentemente, Avey è stato introdotto come alternativa autoregressiva e priva di attenzione che ammette naturalmente un adattamento a soli encoder. In questo articolo, riformuliamo Avey per il paradigma a soli encoder e proponiamo diverse innovazioni alla sua architettura, tra cui parametrizzazioni statiche e dinamiche disaccoppiate, normalizzazione orientata alla stabilità e compressione neurale. I risultati mostrano che questa architettura riformulata si confronta favorevolmente con quattro codificatori basati su Transformer ampiamente utilizzati, superandoli costantemente su benchmark standard di classificazione di token e recupero delle informazioni, scalando inoltre in modo più efficiente verso contesti lunghi.

DeepVision-103K: un dataset matematico visivamente diversificato, ad ampia copertura e verificabile per il ragionamento multimodale
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Feb 18

ByHaoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) si è dimostrato efficace nel potenziare le capacità di riflessione visiva e ragionamento dei Modelli Multimodali di Grande Dimensione (LMM). Tuttavia, i dataset esistenti derivano prevalentemente da costruzioni manuali su piccola scala o dalla ricombinazione di risorse pregresse, il che limita la diversità e la copertura dei dati, vincolando così ulteriori miglioramenti nelle prestazioni del modello. A tal fine, presentiamo DeepVision-103K, un dataset completo per l'addestramento RLVR che copre svariati argomenti matematici del percorso scolastico K12, ampie conoscenze disciplinari e ricchi elementi visivi. I modelli addestrati su DeepVision raggiungono prestazioni solide su benchmark matematici multimodali e generalizzano efficacemente a compiti di ragionamento multimodale generici. Ulteriori analisi rivelano capacità potenziate di percezione visiva, riflessione e ragionamento nei modelli addestrati, convalidando l'efficacia di DeepVision per l'avanzamento del ragionamento multimodale. Dati: https://huggingface.co/datasets/skylenage/DeepVision-103K.

VidEoMT: Il tuo ViT è segretamente anche un modello di segmentazione video
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Feb 19

ByNarges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

I modelli esistenti per la segmentazione di video online tipicamente combinano un segmentatore per fotogramma con moduli di tracking specializzati e complessi. Sebbene efficaci, questi moduli introducono una significativa complessità architetturale e un sovraccarico computazionale. Studi recenti suggeriscono che encoder basati su Vision Transformer (ViT) standard, quando scalati con sufficiente capacità e pre-addestramento su larga scala, possono condurre una segmentazione accurata delle immagini senza richiedere moduli specializzati. Motivati da questa osservazione, proponiamo il Video Encoder-only Mask Transformer (VidEoMT), un semplice modello di segmentazione video basato sul solo encoder che elimina la necessità di moduli di tracking dedicati. Per abilitare la modellazione temporale in un ViT a solo encoder, VidEoMT introduce un meccanismo di propagazione delle query leggero che trasporta informazioni tra i fotogrammi riutilizzando le query del fotogramma precedente. Per bilanciare ciò con l'adattabilità ai nuovi contenuti, impiega una strategia di fusione delle query che combina le query propagate con un insieme di query apprese temporalmente agnostiche. Di conseguenza, VidEoMT ottiene i vantaggi di un tracker senza complessità aggiuntive, raggiungendo un'accuratezza competitiva pur essendo da 5 a 10 volte più veloce, operando fino a 160 FPS con un backbone ViT-L. Codice: https://www.tue-mps.org/videomt/

4RC: Ricostruzione 4D tramite Interrogazione Condizionata in Qualsiasi Momento e Luogo
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Feb 10

ByYihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy

Presentiamo 4RC, un framework feed-forward unificato per la ricostruzione 4D a partire da video monoculari. A differenza degli approcci esistenti, che tipicamente disaccoppiano il movimento dalla geometria o producono attributi 4D limitati come traiettorie sparse o flusso scenico tra due viste, 4RC apprende una rappresentazione 4D olistica che cattura congiuntamente la geometria densa della scena e le dinamiche del moto. Il nucleo di 4RC introduce un nuovo paradigma "codifica una volta, interroga ovunque e in qualsiasi momento": un backbone basato su transformer codifica l'intero video in uno spazio latente spazio-temporale compatto, dal quale un decoder condizionato può interrogare efficientemente la geometria 3D e il moto per qualsiasi frame di query in qualsiasi timestamp target. Per facilitare l'apprendimento, rappresentiamo gli attributi 4D per vista in una forma minimamente fattorizzata, scomponendoli in geometria di base e moto relativo dipendente dal tempo. Esperimenti estensivi dimostrano che 4RC supera i metodi precedenti e contemporanei in un'ampia gamma di compiti di ricostruzione 4D.

Apprendimento di Politiche Lineari Temporalmente Variabili e Lisce con una Penalità dello Jacobiano dell'Azione
Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Feb 20

ByZhaoming Xie, Kevin Karol, Jessica Hodgins

L'apprendimento per rinforzo fornisce un quadro per l'apprendimento di politiche di controllo in grado di riprodurre movimenti diversificati per personaggi simulati. Tuttavia, tali politiche spesso sfruttano segnali ad alta frequenza innaturali, irrealizzabili per esseri umani o robot fisici, rendendole scarse rappresentazioni di comportamenti del mondo reale. I lavori esistenti affrontano questo problema aggiungendo un termine di ricompensa che penalizza ampie variazioni nelle azioni nel tempo. Questo termine richiede spesso notevoli sforzi di ottimizzazione. Proponiamo di utilizzare la penalità dello Jacobiano dell'azione, che penalizza direttamente le variazioni dell'azione rispetto alle variazioni dello stato simulato attraverso la differenziazione automatica. Ciò elimina efficacemente i segnali di controllo irrealistici ad alta frequenza senza necessità di ottimizzazione specifica per il compito. Sebbene efficace, la penalità dello Jacobiano dell'azione introduce un significativo sovraccarico computazionale quando utilizzata con le tradizionali architetture di reti neurali fully connected. Per mitigare ciò, introduciamo una nuova architettura chiamata Linear Policy Net (LPN) che riduce significativamente l'onere computazionale per il calcolo della penalità dello Jacobiano dell'azione durante l'addestramento. Inoltre, una LPN non richiede ottimizzazione dei parametri, mostra una convergenza dell'apprendimento più rapida rispetto ai metodi baseline e può essere interrogata in modo più efficiente durante l'inferenza rispetto a una rete neurale fully connected. Dimostriamo che una Linear Policy Net, combinata con la penalità dello Jacobiano dell'azione, è in grado di apprendere politiche che generano segnali fluidi risolvendo numerosi compiti di imitazione del movimento con caratteristiche diverse, inclusi movimenti dinamici come un backflip e varie abilità di parkour impegnative. Infine, applichiamo questo approccio per creare politiche per movimenti dinamici su un robot quadrupede fisico dotato di un braccio.

Potatura Consapevole dello Sinking per Modelli Linguistici di Diffusione
Sink-Aware Pruning for Diffusion Language Models

Feb 19

ByAidar Myrzakhan, Tianyi Li, Bowei Guo, Shengkun Tang, Zhiqiang Shen

I modelli linguistici di diffusione (DLM) comportano un elevato costo inferenziale a causa del processo iterativo di denoising, il che motiva la ricerca di tecniche efficienti di pruning. Le euristiche di pruning esistenti, ereditate in larga misura dai modelli linguistici autoregressivi (AR), preservano tipicamente i token "attention sink" poiché negli AR questi sink fungono da ancore globali stabili. Dimostriamo che questo assunto non è valido per i DLM: la posizione del sink dell'attenzione presenta una varianza sostanzialmente più elevata lungo l'intera traiettoria di generazione (misurata in base a come le posizioni dominanti dei sink cambiano attraverso i timestep), indicando che i sink sono spesso transitori e strutturalmente meno essenziali rispetto ai modelli AR. Sulla base di questa osservazione, proponiamo il **Pruning Consapevole dei Sink**, che identifica automaticamente e elimina i sink instabili nei DLM (mentre studi precedenti tendono a preservarli per i LLM AR). Senza riaddestramento, il nostro metodo raggiunge un miglior compromesso qualità-efficienza e supera solidi baseline di pruning precedenti a parità di risorse computazionali. Il nostro codice è disponibile all'indirizzo https://github.com/VILA-Lab/Sink-Aware-Pruning.

Addestramento Selettivo per Grandi Modelli Linguistici Visivi tramite Guadagno di Informazione Visiva
Selective Training for Large Vision Language Models via Visual Information Gain

Feb 19

BySeulbi Lee, Sangheum Hwang

I modelli linguistici di grandi dimensioni con capacità visive (LVLM) hanno conseguito progressi notevoli, ma spesso soffrono di distorsione linguistica, producendo risposte senza fare affidamento sull'evidenza visiva. Sebbene i lavori precedenti tentino di mitigare questo problema attraverso strategie di decodifica, modifiche architetturali o dati di istruzione selezionati, tipicamente mancano di una misura quantitativa di quanto i singoli campioni di addestramento o token traggano effettivo beneficio dall'immagine. In questo lavoro, introduciamo il Guadagno di Informazione Visiva (VIG), una metrica basata sulla perplessità che misura la riduzione dell'incertezza predittiva fornita dall'input visivo. Il VIG consente un'analisi granulare sia a livello di campione che di token, evidenziando efficacemente elementi visivamente fondati come colori, relazioni spaziali e attributi. Sfruttando ciò, proponiamo uno schema di addestramento selettivo guidato dal VIG che dà priorità a campioni e token ad alto VIG. Questo approccio migliora il grounding visivo e mitiga la distorsione linguistica, raggiungendo prestazioni superiori con una supervisione significativamente ridotta, concentrandosi esclusivamente su campioni e token visivamente informativi.

ReIn: Ripristino Conversazionale degli Errori tramite Ragionamento Iniziale
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür

Gli agenti conversazionali alimentati da grandi modelli linguistici (LLM) con integrazione di strumenti raggiungono prestazioni elevate su dataset di dialogo orientati al compito di tipo fisso, ma rimangono vulnerabili a errori imprevisti indotti dall'utente. Piuttosto che concentrarsi sulla prevenzione degli errori, questo lavoro si focalizza sul ripristino dopo un errore, che richiede la diagnosi accurata di contesti dialogici errati e l'esecuzione di piani di recupero appropriati. In presenza di vincoli realistici che impediscono il fine-tuning del modello o la modifica dei prompt a causa di requisiti significativi di costo e tempo, esploriamo se gli agenti possono riprendersi da interazioni contestualmente imperfette e come il loro comportamento possa essere adattato senza alterare i parametri del modello e i prompt. A tal fine, proponiamo Reasoning Inception (ReIn), un metodo di intervento in fase di test che innesta un ragionamento iniziale nel processo decisionale dell'agente. Nello specifico, un modulo di inception esterno identifica errori predefiniti nel contesto del dialogo e genera piani di recupero, che vengono successivamente integrati nel processo di ragionamento interno dell'agente per guidare azioni correttive, senza modificarne i parametri o i prompt di sistema. Valutiamo ReIn simulando sistematicamente scenari di fallimento conversazionale che ostacolano direttamente il completamento con successo degli obiettivi dell'utente: richieste ambigue e non supportate dell'utente. Attraverso diverse combinazioni di modelli di agente e moduli di inception, ReIn migliora sostanzialmente il successo del compito e generalizza a tipi di errore non visti. Inoltre, supera costantemente gli approcci basati sulla modifica esplicita dei prompt, sottolineandone l'utilità come metodo efficiente e in tempo reale. Un'analisi approfondita del suo meccanismo operativo, in particolare in relazione alla gerarchia delle istruzioni, indica che la definizione congiunta di strumenti di recupero con ReIn può rappresentare una strategia sicura ed efficace per migliorare la resilienza degli agenti conversazionali senza modificare i modelli backbone o i prompt di sistema.

Adam Migliora Muon: Stima Adattiva dei Momenti con Momento Ortogonalizzato
Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Feb 19

ByMinxin Zhang, Yuxuan Liu, Hayden Scheaffer

L'ottimizzazione stocastica efficiente integra tipicamente una direzione di aggiornamento che performa bene in regime deterministico con un meccanismo di adattamento alle perturbazioni stocastiche. Mentre Adam utilizza stime adattative dei momenti per promuovere la stabilità, Muon sfrutta la struttura matriciale degli strati di pesi attraverso un momento ortogonalizzato, dimostrando prestazioni superiori nell'addestramento di grandi modelli linguistici. Proponiamo un nuovo ottimizzatore e una sua estensione diagonale, NAMO e NAMO-D, che forniscono la prima integrazione principiata del momento ortogonalizzato con l'adattamento al rumore di tipo Adam basato sulla norma. NAMO scala il momento ortogonalizzato utilizzando un singolo passo di apprendimento adattativo, preservando l'ortogonalità mentre migliora le prestazioni di Muon a un costo aggiuntivo trascurabile. NAMO-D, invece, moltiplica a destra il momento ortogonalizzato per una matrice diagonale con elementi clampati. Questo design consente un adattamento al rumore a livello di neurone e si allinea con la comune struttura quasi a blocchi diagonali dell'Hessiano. Sotto ipotesi standard, stabiliamo tassi di convergenza ottimali per entrambi gli algoritmi in ambito deterministico e dimostriamo che, in ambito stocastico, le loro garanzie di convergenza si adattano al livello di rumore dei gradienti stocastici. Esperimenti sul pre-addestramento di modelli GPT-2 dimostrano prestazioni migliorate sia di NAMO che di NAMO-D rispetto ai baseline AdamW e Muon, con NAMO-D che ottiene ulteriori vantaggi rispetto a NAMO attraverso un iperparametro di clamping aggiuntivo che bilancia gli obiettivi contrastanti di mantenere una direzione di aggiornamento ben condizionata e sfruttare un adattamento al rumore a grana fine.

Rubriche come Superficie di Attacco: Deriva Inosservata delle Preferenze nei Giudici LLM
Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Feb 14

ByRuomeng Ding, Yifei Pang, He Sun, Yizhong Wang, Zhiwei Steven Wu, Zhun Deng

Le pipeline di valutazione e allineamento per i grandi modelli linguistici si affidano sempre più a giudici basati su LLM, il cui comportamento è guidato da rubriche in linguaggio naturale e convalidato su benchmark. Identifichiamo una vulnerabilità precedentemente sottovalutata in questo flusso di lavoro, che denominiamo Deriva delle Preferenze Indotta dalla Rubrica (RIPD). Anche quando le modifiche alle rubriche superano la convalida del benchmark, possono comunque produrre cambiamenti sistematici e direzionali nelle preferenze di un giudice sui domini target. Poiché le rubriche fungono da interfaccia decisionale di alto livello, tale deriva può emergere da modifiche apparentemente naturali e conservative dei criteri, rimanendo difficile da rilevare tramite metriche aggregate di benchmark o controlli spot limitati. Dimostriamo inoltre che questa vulnerabilità può essere sfruttata attraverso attacchi alle preferenze basati su rubriche, in cui modifiche conformi al benchmark orientano i giudizi lontano da un riferimento umano fisso o attendibile sui domini target, inducendo sistematicamente la RIPD e riducendo l'accuratezza sul dominio target fino al 9,5% (utilità) e al 27,9% (innocuità). Quando questi giudizi vengono utilizzati per generare etichette di preferenza per l'addestramento a valle, il bias indotto si propaga attraverso le pipeline di allineamento e viene internalizzato nelle politiche addestrate. Ciò porta a una deriva persistente e sistematica nel comportamento del modello. In sintesi, i nostri risultati evidenziano le rubriche di valutazione come un'interfaccia di controllo sensibile e manipolabile, rivelando un rischio di allineamento a livello sistemico che va oltre l'affidabilità del singolo valutatore. Il codice è disponibile all'indirizzo: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Avvertenza: alcune sezioni potrebbero contenere contenuti potenzialmente dannosi che potrebbero non essere adatti a tutti i lettori.

Chi Interrogare per Cosa: Elicitazione Adattiva di Gruppo tramite Interazioni Multi-Turn con LLM
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions

Feb 15

ByRuomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel, Zhun Deng

L'acquisizione di informazioni per ridurre l'incertezza su proprietà latenti a livello di gruppo da sondaggi e altre valutazioni collettive richiede l'allocazione di uno sforzo di interrogazione limitato, considerando costi reali e dati mancanti. Sebbene i grandi modelli linguistici consentano interazioni adattive e multi-turn in linguaggio naturale, la maggior parte dei metodi di elicitation esistenti ottimizza *cosa* chiedere a un pool di rispondenti fisso, senza adattare la *selezione* dei rispondenti né sfruttare la struttura della popolazione quando le risposte sono parziali o incomplete. Per colmare questa lacuna, studiamo l'*adaptive group elicitation*, un contesto a più round in cui un agente seleziona adattivamente sia le domande che i rispondenti sotto vincoli espliciti di budget per le query e la partecipazione. Proponiamo un quadro teorico solido che combina (i) un obiettivo di guadagno informativo atteso basato su LLM per valutare le domande candidate con (ii) una propagazione eterogenea tramite graph neural network che aggrega le risposte osservate e gli attributi dei partecipanti per imputare le risposte mancanti e guidare la selezione dei rispondenti in ogni round. Questa procedura a ciclo chiuso interroga un piccolo sottoinsieme informativo di individui mentre inferisce le risposte a livello di popolazione attraverso similarità strutturata. Su tre dataset reali di opinioni, il nostro metodo migliora costantemente la previsione delle risposte a livello di popolazione con budget vincolati, incluso un guadagno relativo >12% sul CES con un budget del 10% dei rispondenti.

ReIn: Ripristino Conversazionale degli Errori tramite Ragionamento Iniziale
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür