HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

36 papers found

Apriel-1.5-15b-Pensatore
Apriel-1.5-15b-Thinker

Oct 1

ByShruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, Masoud Hashemi, Rishabh Maheshwary, Shiva Krishna Reddy Malay, Jash Mehta, Pulkit Pattnaik, Saloni Mittal, Khalil Slimi, Kelechi Ogueji, Akintunde Oladipo, Soham Parikh, Oluwanifemi Bamgbose, Toby Liang, Ahmed Masry, Khyati Mahajan, Sai Rajeswar Mudumba, Vikas Yadav, Sathwik Tejaswi Madhusudhan, Torsten Scholak, Sagar Davasam, Srinivas Sunkara, Nicholas Chapados

110

Presentiamo Apriel-1.5-15B-Thinker, un modello open-weights di ragionamento multimodale da 15 miliardi di parametri che raggiunge prestazioni di livello avanzato attraverso un design di addestramento mirato piuttosto che la semplice scala. Partendo da Pixtral-12B, applichiamo una metodologia progressiva in tre fasi: (1) upscaling della profondità per espandere la capacità di ragionamento senza pretraining da zero, (2) pre-training continuo a fasi che sviluppa prima una comprensione di base del testo e della visione, poi potenzia il ragionamento visivo attraverso la generazione mirata di dati sintetici che affrontano la struttura spaziale, la comprensione compositiva e la percezione fine, e (3) fine-tuning supervisionato di alta qualità su coppie istruzione-risposta curate con tracce di ragionamento esplicite che coprono matematica, programmazione, scienza e uso di strumenti. È degno di nota che il nostro modello raggiunga risultati competitivi senza apprendimento per rinforzo o ottimizzazione delle preferenze, isolando così il contributo del nostro approccio centrato sui dati nel pre-training continuo. Sull'Artificial Analysis Intelligence Index, Apriel-1.5-15B-Thinker ottiene un punteggio di 52, eguagliando DeepSeek-R1-0528 nonostante richieda risorse computazionali significativamente inferiori. Su dieci benchmark di immagini, le sue prestazioni sono in media entro cinque punti da Gemini-2.5-Flash e Claude Sonnet-3.7, un risultato chiave per un modello che opera con i vincoli di deployment su singola GPU. I nostri risultati dimostrano che un design attento a metà addestramento può colmare sostanziali lacune di capacità senza ricorrere a una scala massiccia, rendendo il ragionamento multimodale di livello avanzato accessibile a organizzazioni con infrastrutture limitate. Rilasciamo il checkpoint del modello, tutte le ricette di addestramento e i protocolli di valutazione sotto licenza MIT per promuovere la ricerca open-source.

I Grandi Modelli di Ragionamento Apprendono un Miglior Allineamento dal Pensiero Imperfetto
Large Reasoning Models Learn Better Alignment from Flawed Thinking

Oct 1

ByShengYun Peng, Eric Smith, Ivan Evtimov, Song Jiang, Pin-Yu Chen, Hongyuan Zhan, Haozhu Wang, Duen Horng Chau, Mahesh Pasupuleti, Jianfeng Chi

I grandi modelli di ragionamento (LRM) "pensano" generando catene di pensiero strutturate (CoT) prima di produrre una risposta finale, ma mancano ancora della capacità di ragionare criticamente sull'allineamento alla sicurezza e sono facilmente influenzati da preconcetti errati inseriti nel loro processo di pensiero. Proponiamo RECAP (Robust Safety Alignment via Counter-Aligned Prefilling), un metodo di apprendimento per rinforzo (RL) post-addestramento che insegna esplicitamente ai modelli di sovrascrivere traiettorie di ragionamento errate e di reindirizzarsi verso risposte sicure e utili. RECAP si addestra su una miscela di prefills CoT contro-allineati generati sinteticamente e prompt standard, non richiede costi aggiuntivi di addestramento o modifiche oltre al classico apprendimento per rinforzo con feedback umano (RLHF), e migliora significativamente la sicurezza e la robustezza contro jailbreak, riduce il rifiuto eccessivo e preserva le capacità di ragionamento di base, tutto mantenendo il budget di token di inferenza. Un'analisi approfondita mostra che i modelli addestrati con RECAP si impegnano in un'autoriflessione più frequente e rimangono robusti sotto attacchi adattativi, preservando la sicurezza anche dopo ripetuti tentativi di sovrascrivere il loro ragionamento.

Modelli Linguistici Multimodali Efficienti tramite Distillazione Progressiva della Coerenza
Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

Oct 1

ByZichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang

I token visivi consumano risorse computazionali significative nei modelli multi-modali di grandi dimensioni (MLLMs), compromettendo notevolmente la loro efficienza. Recenti lavori hanno tentato di migliorare l'efficienza comprimendo i token visivi durante l'addestramento, sia attraverso modifiche ai componenti del modello che introducendo parametri aggiuntivi. Tuttavia, spesso trascurano la maggiore difficoltà di apprendimento causata da tale compressione, poiché lo spazio dei parametri del modello fatica ad adattarsi rapidamente alle sostanziali perturbazioni nello spazio delle feature indotte dalla compressione dei token. In questo lavoro, proponiamo di sviluppare MLLMs efficienti tramite Distillazione Progressiva della Coerenza (EPIC), un framework di apprendimento progressivo. Nello specifico, scomponendo le perturbazioni dello spazio delle feature introdotte dalla compressione dei token lungo le dimensioni token-wise e layer-wise, introduciamo rispettivamente la distillazione della coerenza dei token e la distillazione della coerenza dei layer, con l'obiettivo di ridurre la difficoltà di addestramento sfruttando la guida di un modello insegnante e seguendo una traiettoria di apprendimento progressiva. Esperimenti estesi dimostrano la superiorità in termini di efficacia, robustezza e capacità di generalizzazione del nostro framework proposto.

CoDA: Sistemi Agenti per la Visualizzazione Collaborativa dei Dati
CoDA: Agentic Systems for Collaborative Data Visualization

Oct 3

ByZichen Chen, Jiefeng Chen, Sercan Ö. Arik, Misha Sra, Tomas Pfister, Jinsung Yoon

La ricerca avanzata ha rivoluzionato l'analisi dei dati, eppure gli scienziati dei dati dedicano ancora un tempo considerevole alla creazione manuale di visualizzazioni, evidenziando la necessità di una robusta automazione a partire da query in linguaggio naturale. Tuttavia, i sistemi attuali faticano a gestire dataset complessi contenenti più file e raffinamenti iterativi. Gli approcci esistenti, inclusi semplici sistemi mono- o multi-agente, spesso semplificano eccessivamente il compito, concentrandosi sull'analisi iniziale della query mentre non riescono a gestire in modo robusto la complessità dei dati, gli errori nel codice o la qualità finale della visualizzazione. In questo articolo, riformuliamo questa sfida come un problema collaborativo multi-agente. Introduciamo CoDA, un sistema multi-agente che utilizza agenti LLM specializzati per l'analisi dei metadati, la pianificazione delle attività, la generazione del codice e l'autoriflessione. Formalizziamo questa pipeline, dimostrando come un'analisi focalizzata sui metadati superi i limiti di token e come un raffinamento guidato dalla qualità garantisca robustezza. Valutazioni estensive mostrano che CoDA ottiene miglioramenti significativi nel punteggio complessivo, superando i benchmark competitivi fino al 41,5%. Questo lavoro dimostra che il futuro dell'automazione delle visualizzazioni non risiede nella generazione isolata di codice, ma in flussi di lavoro integrati e collaborativi basati su agenti.

Game-Time: Valutazione delle Dinamiche Temporali nei Modelli di Linguaggio Parlato
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models

Sep 30

ByKai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass

I modelli di linguaggio parlato conversazionale (SLM) stanno emergendo come un paradigma promettente per l'interazione vocale in tempo reale. Tuttavia, la loro capacità di gestire le dinamiche temporali, inclusa la gestione del tempismo, del ritmo e della conversazione simultanea, rimane una sfida critica e non ancora valutata per la fluidità conversazionale. Per colmare questa lacuna, introduciamo il Game-Time Benchmark, un framework per valutare sistematicamente queste capacità temporali. Ispirato da come gli esseri umani apprendono una lingua attraverso attività linguistiche, Game-Time consiste in compiti di base di esecuzione di istruzioni e compiti avanzati con vincoli temporali, come l'aderenza al ritmo e le risposte sincronizzate. La nostra valutazione di diverse architetture SLM rivela una chiara disparità di prestazioni: mentre i modelli all'avanguardia gestiscono bene i compiti di base, molti sistemi contemporanei faticano ancora con l'esecuzione fondamentale delle istruzioni. Ancora più critico, quasi tutti i modelli si degradano sostanzialmente sotto vincoli temporali, evidenziando debolezze persistenti nella consapevolezza del tempo e nell'interazione full-duplex. Il Game-Time Benchmark fornisce una base per guidare la ricerca futura verso un'IA conversazionale più consapevole del tempo. Demo e dataset sono disponibili sul nostro sito web del progetto https://ga642381.github.io/Game-Time.

Colmare il Divario tra Promessa e Prestazioni per la Quantizzazione Microscaling FP4
Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Sep 27

ByVage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh

I recenti formati a virgola mobile a 4 bit con accelerazione hardware, come MXFP4 e NVFP4, supportati su GPU NVIDIA e AMD, promettono di rivoluzionare l'inferenza dei grandi modelli linguistici (LLM). Tuttavia, i loro benefici pratici rimangono ancora da dimostrare. Presentiamo il primo studio completo su MXFP4 e NVFP4 per la quantizzazione post-addestramento, rivelando discrepanze tra le loro promesse e le prestazioni nel mondo reale. La nostra analisi mostra che i metodi all'avanguardia faticano a gestire FP4, a causa di due problemi chiave: (1) la dimensione ridotta del gruppo di NVFP4 neutralizza tecniche tradizionali di mitigazione degli outlier; (2) la quantizzazione su scala potenza di due di MXFP4 degrada gravemente l'accuratezza a causa dell'elevato errore indotto. Per colmare questa lacuna, introduciamo Micro-Rotated-GPTQ (MR-GPTQ), una variante del classico algoritmo di quantizzazione GPTQ che adatta il processo di quantizzazione alle proprietà uniche di FP4, utilizzando trasformate di Hadamard a blocchi e ottimizzazioni specifiche per il formato. Supportiamo la nostra proposta con un set di kernel GPU ad alte prestazioni che abilitano il formato MR-GPTQ con un overhead trascurabile, grazie alla fusione della rotazione nei pesi e al calcolo rapido online delle attivazioni. Ciò porta a velocizzazioni rispetto a FP16 fino a 3,6x a livello di layer e 2,2x end-to-end su NVIDIA B200, e fino a 6x a livello di layer e 4x end-to-end su RTX5090. La nostra ampia valutazione empirica dimostra che MR-GPTQ eguaglia o supera l'accuratezza all'avanguardia, migliorando significativamente MXFP4 fino a farlo avvicinare a quella di NVFP4. Concludiamo che, sebbene FP4 non sia un aggiornamento automatico rispetto a INT4, metodi specializzati per il formato come MR-GPTQ possono aprire una nuova frontiera nei compromessi tra accuratezza e prestazioni.

Componi le tue politiche! Migliorare le politiche robotiche basate su diffusione o flusso attraverso la composizione a livello di distribuzione durante il test
Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Oct 1

ByJiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. Luo

I modelli basati sulla diffusione per il controllo robotico, incluse le politiche visione-linguaggio-azione (VLA) e visione-azione (VA), hanno dimostrato capacità significative. Tuttavia, il loro progresso è limitato dall'elevato costo di acquisizione di dataset di interazione su larga scala. Questo lavoro introduce un paradigma alternativo per migliorare le prestazioni delle politiche senza ulteriore addestramento del modello. Sorprendentemente, dimostriamo che le politiche composte possono superare le prestazioni di ciascuna politica genitore. Il nostro contributo è triplice. In primo luogo, stabiliamo una base teorica mostrando che la composizione convessa dei punteggi distribuzionali di più modelli di diffusione può produrre un obiettivo funzionale a un passo superiore rispetto a qualsiasi punteggio individuale. Un limite di tipo Gr\"onwall viene quindi utilizzato per dimostrare che questo miglioramento a un singolo passo si propaga attraverso intere traiettorie di generazione, portando a guadagni sistemici nelle prestazioni. In secondo luogo, motivati da questi risultati, proponiamo la Composizione Generale delle Politiche (GPC), un metodo senza addestramento che migliora le prestazioni combinando i punteggi distribuzionali di più politiche pre-addestrate attraverso una combinazione convessa e una ricerca al momento del test. GPC è versatile, consentendo la composizione plug-and-play di politiche eterogenee, inclusi modelli VA e VLA, nonché quelli basati su diffusione o flow-matching, indipendentemente dalle loro modalità visive di input. In terzo luogo, forniamo una validazione empirica estesa. Esperimenti sui benchmark Robomimic, PushT e RoboTwin, insieme a valutazioni robotiche nel mondo reale, confermano che GPC migliora costantemente le prestazioni e l'adattabilità in un'ampia gamma di compiti. Un'ulteriore analisi degli operatori di composizione alternativi e delle strategie di ponderazione offre approfondimenti sui meccanismi alla base del successo di GPC. Questi risultati stabiliscono GPC come un metodo semplice ma efficace per migliorare le prestazioni di controllo sfruttando le politiche esistenti.

Auto-miglioramento nei Modelli Linguistici Multimodali di Grandi Dimensioni: Una Rassegna
Self-Improvement in Multimodal Large Language Models: A Survey

Oct 3

ByShijian Deng, Kai Wang, Tianyu Yang, Harsh Singh, Yapeng Tian

I recenti progressi nell'auto-miglioramento dei Large Language Models (LLM) hanno migliorato in modo efficiente le capacità dei modelli senza aumentare significativamente i costi, in particolare in termini di sforzo umano. Sebbene questo ambito sia ancora relativamente giovane, la sua estensione al dominio multimodale offre un potenziale enorme per sfruttare fonti di dati diversificate e sviluppare modelli auto-miglioranti più generali. Questa rassegna è la prima a fornire una panoramica completa dell'auto-miglioramento nei Multimodal LLM (MLLM). Offriamo una visione strutturata della letteratura attuale e discutiamo i metodi da tre prospettive: 1) raccolta dei dati, 2) organizzazione dei dati e 3) ottimizzazione del modello, per facilitare ulteriori sviluppi nell'auto-miglioramento degli MLLM. Includiamo inoltre valutazioni comunemente utilizzate e applicazioni downstream. Concludiamo infine delineando le sfide aperte e le future direzioni di ricerca.

OrtSAE: Autoencoder Sparse Ortogonali Rivelano Caratteristiche Atomiche
OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

Sep 26

ByAnton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets

Gli autoencoder sparsi (SAE) sono una tecnica per la decomposizione sparsa delle attivazioni delle reti neurali in feature interpretabili dall'uomo. Tuttavia, gli attuali SAE soffrono di assorbimento delle feature, dove feature specializzate catturano istanze di feature generali creando lacune nella rappresentazione, e di composizione delle feature, dove feature indipendenti si fondono in rappresentazioni composite. In questo lavoro, introduciamo l'OrtSAE (Orthogonal SAE), un nuovo approccio mirato a mitigare questi problemi imponendo l'ortogonalità tra le feature apprese. Implementando una nuova procedura di addestramento che penalizza un'elevata similarità coseno a coppie tra le feature SAE, l'OrtSAE promuove lo sviluppo di feature disaccoppiate, scalando linearmente con la dimensione del SAE ed evitando un significativo sovraccarico computazionale. Addestriamo l'OrtSAE su diversi modelli e livelli e lo confrontiamo con altri metodi. Rileviamo che l'OrtSAE scopre il 9% in più di feature distinte, riduce l'assorbimento delle feature (del 65%) e la composizione (del 15%), migliora le prestazioni nella rimozione di correlazioni spurie (+6%) e ottiene prestazioni comparabili per altre attività downstream rispetto ai SAE tradizionali.

OpenTSLM: Modelli Linguistici per Serie Temporali per il Ragionamento su Dati Medici Multivariati di Testo e Serie Temporali
OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data

Oct 2

ByPatrick Langer, Thomas Kaar, Max Rosenblattl, Maxwell A. Xu, Winnie Chow, Martin Maritsch, Aradhana Verma, Brian Han, Daniel Seung Kim, Henry Chubb, Scott Ceresnak, Aydin Zahedivash, Alexander Tarlochan Singh Sandhu, Fatima Rodriguez, Daniel McDuff, Elgar Fleisch, Oliver Aalami, Filipe Barata, Paul Schmiedmayer

I LLM sono emersi come strumenti potenti per l'interpretazione di dati multimodali. In medicina, offrono un potenziale particolare per sintetizzare grandi volumi di informazioni cliniche in insight azionabili e applicazioni di salute digitale. Tuttavia, una limitazione significativa rimane la loro incapacità di gestire serie temporali. Per superare questa lacuna, presentiamo OpenTSLM, una famiglia di Time Series Language Models (TSLM) creati integrando le serie temporali come modalità nativa in LLM pre-addestrati, consentendo il ragionamento su più serie temporali di qualsiasi lunghezza. Esploriamo due architetture per OpenTSLM. La prima, OpenTSLM-SoftPrompt, modella le serie temporali implicitamente concatenando token di serie temporali apprendibili con token di testo tramite soft prompting. Sebbene efficiente in termini di parametri, ipotizziamo che la modellazione esplicita delle serie temporali si adatti meglio e superi gli approcci impliciti. Introduciamo quindi OpenTSLM-Flamingo, che integra le serie temporali con il testo tramite cross-attention. Confrontiamo entrambe le varianti con baseline che trattano le serie temporali come token di testo o grafici, attraverso una serie di task di ragionamento Chain-of-Thought (CoT) testo-serie temporali. Introduciamo tre dataset: HAR-CoT, Sleep-CoT e ECG-QA-CoT. In tutti, i modelli OpenTSLM superano le baseline, raggiungendo 69.9 F1 nella stadiazione del sonno e 65.4 in HAR, rispetto a 9.05 e 52.2 per modelli testuali fine-tuned. Notabilmente, anche modelli OpenTSLM da 1B parametri superano GPT-4o (15.47 e 2.95). OpenTSLM-Flamingo eguaglia OpenTSLM-SoftPrompt in prestazioni e supera su sequenze più lunghe, mantenendo requisiti di memoria stabili. Al contrario, SoftPrompt cresce esponenzialmente in memoria con la lunghezza della sequenza, richiedendo circa 110 GB rispetto a 40 GB di VRAM durante l'addestramento su ECG-QA con LLaMA-3B. Le revisioni esperte da parte di clinici evidenziano forti capacità di ragionamento esibite da OpenTSLM su ECG-QA. Per facilitare ulteriori ricerche, forniamo tutto il codice, i dataset e i modelli open-source.

Il Tuo Agente Potrebbe Evolvere Male: Rischi Emergenti negli Agenti LLM Auto-evolutivi
Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Sep 30

ByShuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao

I progressi nei Large Language Models (LLM) hanno reso possibile una nuova classe di agenti auto-evolutivi che migliorano autonomamente attraverso l'interazione con l'ambiente, dimostrando capacità notevoli. Tuttavia, l'auto-evoluzione introduce anche nuovi rischi trascurati dalla ricerca attuale sulla sicurezza. In questo lavoro, studiamo il caso in cui l'auto-evoluzione di un agente devia in modi non intenzionali, portando a risultati indesiderati o addirittura dannosi. Ci riferiamo a questo fenomeno come Misevoluzione. Per fornire un'indagine sistematica, valutiamo la misevoluzione lungo quattro percorsi evolutivi chiave: modello, memoria, strumento e flusso di lavoro. I nostri risultati empirici rivelano che la misevoluzione è un rischio diffuso, che colpisce anche agenti costruiti su LLM di alto livello (ad esempio, Gemini-2.5-Pro). Nel processo di auto-evoluzione si osservano diversi rischi emergenti, come il degrado dell'allineamento alla sicurezza dopo l'accumulo di memoria o l'introduzione involontaria di vulnerabilità nella creazione e nel riutilizzo degli strumenti. A nostra conoscenza, questo è il primo studio a concettualizzare sistematicamente la misevoluzione e a fornire prove empiriche della sua occorrenza, evidenziando l'urgente necessità di nuovi paradigmi di sicurezza per gli agenti auto-evolutivi. Infine, discutiamo potenziali strategie di mitigazione per ispirare ulteriori ricerche sulla costruzione di agenti auto-evolutivi più sicuri e affidabili. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/ShaoShuai0605/Misevolution. Avvertenza: questo articolo include esempi che potrebbero essere offensivi o dannosi.

Allineamento "Free Lunch" dei Modelli di Diffusione Testo-Immagine senza Coppie di Immagini Preferite
Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

Sep 30

ByJia Jun Cheng Xian, Muchen Li, Haotian Yang, Xin Tao, Pengfei Wan, Leonid Sigal, Renjie Liao

I recenti progressi nei modelli di diffusione per la generazione di immagini da testo (text-to-image, T2I) hanno portato a un notevole successo nella creazione di immagini di alta qualità a partire da prompt testuali. Tuttavia, garantire un allineamento accurato tra il testo e l'immagine generata rimane una sfida significativa per i modelli di diffusione all'avanguardia. Per affrontare questo problema, gli studi esistenti utilizzano l'apprendimento per rinforzo con feedback umano (RLHF) per allineare gli output T2I alle preferenze umane. Questi metodi, tuttavia, si basano direttamente su dati di preferenza di immagini accoppiate o richiedono una funzione di ricompensa appresa, entrambi fortemente dipendenti da annotazioni umane costose e di alta qualità, e quindi affrontano limitazioni di scalabilità. In questo lavoro, introduciamo l'ottimizzazione delle preferenze testuali (Text Preference Optimization, TPO), un framework che consente l'allineamento "a costo zero" dei modelli T2I, raggiungendo l'allineamento senza la necessità di dati di preferenza di immagini accoppiate. TPO funziona addestrando il modello a preferire prompt corrispondenti rispetto a prompt non corrispondenti, che vengono costruiti perturbando le descrizioni originali utilizzando un modello linguistico di grandi dimensioni. Il nostro framework è generale e compatibile con gli algoritmi esistenti basati sulle preferenze. Estendiamo sia DPO che KTO al nostro contesto, ottenendo TDPO e TKTO. Valutazioni quantitative e qualitative su più benchmark dimostrano che i nostri metodi superano costantemente le loro controparti originali, fornendo punteggi di preferenza umana migliori e un migliore allineamento testo-immagine. Il nostro codice open-source è disponibile all'indirizzo https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.

Scalabilità Efficiente al Momento del Test per Piccoli Modelli Visione-Linguaggio
Efficient Test-Time Scaling for Small Vision-Language Models

Oct 3

ByMehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos

I piccoli modelli visione-linguaggio (VLMs) offrono un'alternativa computazionalmente efficiente rispetto ai modelli più grandi, al costo di capacità di generalizzazione e prestazioni su task downstream inferiori. Queste carenze potrebbero essere affrontate con tecniche di scaling al momento del test, ma i metodi esistenti sono tipicamente dispendiosi in termini di risorse, contraddicendo gli obiettivi di progettazione efficiente dei piccoli modelli. Per superare queste limitazioni, proponiamo due nuove strategie di scaling al momento del test che sfruttano le caratteristiche interne del modello anziché supervisione esterna: (i) Test-Time Augmentation (TTAug), che genera input aumentati multipli e aggrega gli output a livello di token senza aggiornamenti dei parametri, e (ii) Test-Time Adaptation (TTAdapt), che adatta i parametri del modello durante l'inferenza utilizzando pseudolabel basati su consenso provenienti da TTAug. Attraverso esperimenti estesi su nove benchmark, dimostriamo miglioramenti prestazionali consistenti mantenendo un'efficienza computazionale adatta ad ambienti con risorse limitate. La generalità del nostro approccio è dimostrata sia all'interno di modelli di scale diverse che tra diversi VLMs senza ulteriori ottimizzazioni.

Triangle Splatting+: Rendering Differenziabile con Triangoli Opachi
Triangle Splatting+: Differentiable Rendering with Opaque Triangles

Sep 29

ByJan Held, Renaud Vandeghen, Sanghyun Son, Daniel Rebain, Matheus Gadelha, Yi Zhou, Ming C. Lin, Marc Van Droogenbroeck, Andrea Tagliasacchi

La ricostruzione di scene 3D e la sintesi di nuove prospettive hanno registrato rapidi progressi negli ultimi anni. I Neural Radiance Fields hanno dimostrato che i campi di radianza volumetrici continui possono ottenere una sintesi di immagini di alta qualità, ma i lunghi tempi di addestramento e rendering ne limitano l'uso pratico. Il 3D Gaussian Splatting (3DGS) ha affrontato questi problemi rappresentando le scene con milioni di Gaussiane, consentendo il rendering in tempo reale e un'ottimizzazione rapida. Tuttavia, le primitive gaussiane non sono nativamente compatibili con le pipeline basate su mesh utilizzate nei visori VR e nelle applicazioni grafiche in tempo reale. Le soluzioni esistenti tentano di convertire le Gaussiane in mesh attraverso post-elaborazione o pipeline a due stadi, il che aumenta la complessità e riduce la qualità visiva. In questo lavoro, introduciamo Triangle Splatting+, che ottimizza direttamente i triangoli, la primitiva fondamentale della computer grafica, all'interno di un framework di splatting differenziabile. Formuliamo la parametrizzazione dei triangoli per abilitare la connettività attraverso vertici condivisi e progettiamo una strategia di addestramento che impone triangoli opachi. L'output finale è immediatamente utilizzabile nei motori grafici standard senza post-elaborazione. Gli esperimenti sui dataset Mip-NeRF360 e Tanks & Temples mostrano che Triangle Splatting+ raggiunge prestazioni all'avanguardia nella sintesi di nuove prospettive basate su mesh. Il nostro metodo supera gli approcci di splatting precedenti in fedeltà visiva, rimanendo efficiente e veloce da addestrare. Inoltre, le mesh semi-connesse risultanti supportano applicazioni downstream come la simulazione basata sulla fisica o i tour interattivi. La pagina del progetto è https://trianglesplatting2.github.io/trianglesplatting2/.

REPAIR: Modifica Robusta tramite Intervento Progressivo Adattivo e Reintegrazione
REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration

Oct 2

ByYisu Wang, Ming Wang, Haoyuan Song, Wenjie Huang, Chaozheng Wang, Yi Xie, Xuming Ran

Il post-training per i grandi modelli linguistici (LLM) è limitato dall'elevato costo di acquisizione di nuove conoscenze o di correzione degli errori e dagli effetti collaterali indesiderati che spesso derivano dal retraining. Per affrontare questi problemi, introduciamo REPAIR (Robust Editing via Progressive Adaptive Intervention and Reintegration), un framework di editing continuo progettato per supportare aggiornamenti precisi e a basso costo del modello, preservando al contempo le conoscenze non target. REPAIR mitiga l'instabilità e i conflitti degli editing sequenziali su larga scala attraverso un meccanismo di feedback a ciclo chiuso accoppiato a una gestione dinamica della memoria. Inoltre, incorporando una frequente fusione delle conoscenze e applicando forti protezioni di località, REPAIR affronta efficacemente le carenze degli approcci tradizionali agnostici alla distribuzione, che spesso trascurano gli effetti a catena indesiderati. I nostri esperimenti dimostrano che REPAIR aumenta l'accuratezza degli editing del 10%-30% su diverse famiglie di modelli e riduce significativamente la perdita di conoscenza. Questo lavoro introduce un framework robusto per sviluppare LLM affidabili, scalabili e in continua evoluzione.

FocusAgent: Metodi Semplici ma Efficaci per Ridurre il Contesto Esteso degli Agenti Web
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents

Oct 3

ByImene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Léo Boisvert, Massimo Caccia, Jérémy Espinas, Alexandre Aussem, Véronique Eglin, Alexandre Lacoste

Gli agenti web alimentati da grandi modelli linguistici (LLM) devono elaborare osservazioni di pagine web estese per completare gli obiettivi dell'utente; queste pagine spesso superano decine di migliaia di token. Ciò satura i limiti del contesto e aumenta i costi computazionali di elaborazione; inoltre, elaborare pagine complete espone gli agenti a rischi di sicurezza come l'iniezione di prompt. Le strategie di potatura esistenti scartano contenuti rilevanti o conservano contesti irrilevanti, portando a previsioni di azione subottimali. Introduciamo FocusAgent, un approccio semplice ma efficace che sfrutta un retriever LLM leggero per estrarre le righe più pertinenti dalle osservazioni dell'albero di accessibilità (AxTree), guidato dagli obiettivi del compito. Potando contenuti rumorosi e irrilevanti, FocusAgent consente un ragionamento efficiente riducendo la vulnerabilità agli attacchi di iniezione. Esperimenti sui benchmark WorkArena e WebArena dimostrano che FocusAgent eguaglia le prestazioni di baseline robusti, riducendo le dimensioni delle osservazioni di oltre il 50%. Inoltre, una variante di FocusAgent riduce significativamente il tasso di successo degli attacchi di iniezione di prompt, inclusi attacchi banner e pop-up, mantenendo le prestazioni di successo del compito in ambienti privi di attacchi. I nostri risultati evidenziano che il recupero mirato basato su LLM è una strategia pratica e robusta per costruire agenti web efficienti, efficaci e sicuri.

SurveyBench: Quanto Sono Efficaci i Modelli Linguistici (e i loro Agenti) nella Scrittura di Survey Accademiche?
SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?

Oct 3

ByZhaojun Sun, Xuzhou Zhu, Xuanhe Zhou, Xin Tong, Shuo Wang, Jie Fu, Guoliang Li, Zhiyuan Liu, Fan Wu

La scrittura di survey accademiche, che condensa una vasta letteratura in una narrazione coerente e approfondita, rimane un compito laborioso e intellettualmente impegnativo. Sebbene approcci recenti, come agenti di DeepResearch generali e metodi specializzati per le survey, possano generare survey automaticamente (noti come LLM4Survey), i loro output spesso non raggiungono gli standard umani e manca un benchmark rigoroso e allineato alle esigenze dei lettori per rivelare approfonditamente le loro carenze. Per colmare questa lacuna, proponiamo un framework di valutazione dettagliato e guidato da quiz, SurveyBench, che include (1) argomenti tipici di survey estratti da 11.343 articoli recenti di arXiv e corrispondenti 4.947 survey di alta qualità; (2) una gerarchia di metriche multifattoriali che valuta la qualità della struttura (ad esempio, ampiezza della copertura, coerenza logica), la qualità del contenuto (ad esempio, granularità della sintesi, chiarezza delle intuizioni) e la ricchezza non testuale; e (3) un protocollo di valutazione a doppia modalità che include test di rispondibilità basati sul contenuto e su quiz, esplicitamente allineati con le esigenze informative dei lettori. I risultati mostrano che SurveyBench mette efficacemente alla prova gli approcci LLM4Survey esistenti (ad esempio, in media il 21% in meno rispetto agli umani nella valutazione basata sul contenuto).

Pre-addestramento con memorie gerarchiche: separazione della conoscenza a coda lunga e comune
Pretraining with hierarchical memories: separating long-tail and common knowledge

Sep 29

ByHadi Pouransari, David Grangier, C Thomas, Michael Kirchhof, Oncel Tuzel

I notevoli miglioramenti nelle prestazioni dei moderni modelli linguistici attualmente si basano sulla scalabilità dei parametri: modelli più grandi memorizzano più conoscenza del mondo e ragionano meglio. Tuttavia, comprimere tutta la conoscenza del mondo nei parametri è inutile, poiché solo una frazione viene utilizzata per ogni prompt, e impraticabile per dispositivi edge con memoria e capacità di calcolo limitate durante l'inferenza. Affrontiamo questa limitazione con un'architettura aumentata dalla memoria e una strategia di pre-addestramento allineata con i paradigmi hardware esistenti. Introduciamo piccoli modelli linguistici che accedono a grandi banche di memoria parametrica gerarchica che codificano la conoscenza del mondo. Durante il pre-addestramento e l'inferenza, recuperiamo un piccolo blocco di memoria dipendente dal contesto e lo aggiungiamo al modello. Il nostro pre-addestramento impara a memorizzare la conoscenza del mondo a coda lunga nei parametri della memoria, mentre il piccolo modello linguistico funge da ancoraggio che cattura la conoscenza comune e le capacità di ragionamento generale. Attraverso esperimenti su scala trilioni di token, dimostriamo significativi miglioramenti: un modello da 160M di parametri aumentato con una memoria da 18M di parametri recuperata da una banca di memoria da 4.6B ottiene prestazioni comparabili a un modello regolare con più del doppio dei parametri. Attraverso esperimenti estensivi, studiamo il tipo e la dimensione ottimali delle memorie parametriche nei transformer, scalandole fino a oltre 21B di parametri. Troviamo che le nostre memorie gerarchiche feed-forward proposte funzionano in modo robusto tra le architetture transformer, sia aggiunte durante il pre-addestramento che in seguito.

Modello di Diffusione Discreta Continuamente Aumentata per la Modellazione Generativa Categorica
Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling

Oct 1

ByHuangjie Zheng, Shansan Gong, Ruixiang Zhang, Tianrong Chen, Jiatao Gu, Mingyuan Zhou, Navdeep Jaitly, Yizhe Zhang

I modelli di diffusione discreta standard trattano tutti gli stati non osservati in modo identico, mappandoli su un token assorbente [MASK]. Ciò crea un "vuoto informativo" in cui le informazioni semantiche che potrebbero essere dedotte dai token non mascherati vengono perse tra i passaggi di denoising. Introduciamo Continuously Augmented Discrete Diffusion (CADD), un framework che arricchisce lo spazio degli stati discreti con una diffusione accoppiata in uno spazio latente continuo. Ciò produce stati graduali e progressivamente corrotti in cui i token mascherati sono rappresentati da vettori latenti rumorosi ma informativi, anziché da "vuoti informativi" collassati. Ad ogni passo inverso, CADD può sfruttare il latente continuo come suggerimento semantico per guidare il denoising discreto. Il design è pulito e compatibile con l'addestramento esistente della diffusione discreta. Durante il campionamento, la forza e la scelta dello stimatore per il vettore latente continuo consentono un compromesso controllato tra comportamenti di copertura dei modi (generazione di output diversificati) e ricerca dei modi (generazione di output contestualmente precisi). Empiricamente, dimostriamo che CADD migliora la qualità generativa rispetto alla diffusione basata su maschere in generazione di testo, sintesi di immagini e modellazione di codice, con guadagni consistenti su metriche sia qualitative che quantitative rispetto a baseline discrete solide.

Guida Pratica per l'Apprendimento per Rinforzo Agente a Turni Multipli
A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

Oct 1

ByRuiyi Wang, Prithviraj Ammanabrolu

Studiamo ciò che effettivamente funziona e ciò che non funziona per l'addestramento di grandi modelli linguistici come agenti tramite apprendimento per rinforzo multi-turn. Nonostante i rapidi progressi, i framework e le definizioni esistenti sono frammentati, e manca una formulazione o analisi sistematica di quali scelte progettuali siano rilevanti tra i vari task. Colmiamo questa lacuna suddividendo inizialmente lo spazio di progettazione in tre pilastri interconnessi — ambiente, ricompensa e politica — e derivando empiricamente una ricetta per l'addestramento di agenti basati su LLM in domini testuali situati. In particolare, testiamo TextWorld e ALFWorld, domini popolari per valutare il ragionamento situato ed embodied, nonché SWE-Gym per task più orientati all'ingegneria del software. (i) Per l'ambiente, analizziamo l'impatto della complessità del task in termini di dimensioni degli spazi di stato e azione, nonché della lunghezza della soluzione ottimale, osservando che anche ambienti semplici all'interno di un dominio possono fornire indicazioni su quanto bene un agente possa generalizzare a task più complessi. (ii) Per la ricompensa, studiamo la relativa sparsità della ricompensa, notando che, sebbene ricompense dense a livello di turno accelerino l'addestramento, le prestazioni e la stabilità dipendono fortemente dalla scelta dell'algoritmo di RL. (iii) Per la politica dell'agente, esploriamo l'interazione tra sparsità della ricompensa e metodi di gradiente della politica con bias (PPO, GRPO) e senza bias (RLOO), oltre a mostrare come trovare il rapporto ottimale tra Fine-tuning Supervisionato (SFT) e addestramento RL dato un budget fisso. Sintetizziamo questi risultati in una ricetta di addestramento che guida la co-progettazione tra i tre pilastri, facilitando la ricerca e gli sforzi pratici nell'apprendimento per rinforzo multi-turn per agenti. Codice: https://github.com/pearls-lab/meow-tea-taro

TalkPlay-Tools: Raccomandazione Musicale Conversazionale con Chiamata di Strumenti LLM
TalkPlay-Tools: Conversational Music Recommendation with LLM Tool Calling

Oct 2

BySeungheon Doh, Keunwoo Choi, Juhan Nam

Mentre i recenti sviluppi nei modelli linguistici di grandi dimensioni (LLM) hanno abilitato con successo sistemi di raccomandazione generativi con interazioni in linguaggio naturale, il loro comportamento di raccomandazione è limitato, lasciando altri componenti più semplici ma cruciali come il filtraggio dei metadati o degli attributi sottoutilizzati nel sistema. Proponiamo un sistema di raccomandazione musicale basato su LLM con chiamata di strumenti per fungere da pipeline unificata di recupero e riordinamento. Il nostro sistema posiziona un LLM come sistema di raccomandazione end-to-end che interpreta l'intento dell'utente, pianifica le invocazioni degli strumenti e orchestra componenti specializzati: filtri booleani (SQL), recupero sparso (BM25), recupero denso (similarità di embedding) e recupero generativo (ID semantici). Attraverso la pianificazione degli strumenti, il sistema prevede quali tipi di strumenti utilizzare, il loro ordine di esecuzione e gli argomenti necessari per trovare musica corrispondente alle preferenze dell'utente, supportando diverse modalità integrando in modo fluido più metodi di filtraggio del database. Dimostriamo che questo framework unificato di chiamata degli strumenti raggiunge prestazioni competitive in diversi scenari di raccomandazione, impiegando selettivamente metodi di recupero appropriati in base alle query degli utenti, immaginando un nuovo paradigma per i sistemi di raccomandazione musicale conversazionali.

SpineBench: Un Benchmark Clinicamente Rilevante e Livello-Consapevole Alimentato dal Corpus SpineMed-450k
SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Oct 3

ByMing Zhao, Wenhui Dong, Yang Zhang, Xiang Zheng, Zhonghao Zhang, Zian Zhou, Yunzhi Guan, Liukun Xu, Wei Peng, Zhaoyang Gong, Zhicheng Zhang, Dachuan Li, Xiaosheng Ma, Yuli Ma, Jianing Ni, Changjiang Jiang, Lixia Tian, Qixin Chen, Kaishun Xia, Pingping Liu, Tongshun Zhang, Zhiqiang Liu, Zhongan Bi, Chenyang Si, Tiansheng Sun, Caifeng Shan

I disturbi della colonna vertebrale colpiscono 619 milioni di persone a livello globale e rappresentano una delle principali cause di disabilità, tuttavia la diagnosi assistita dall'IA rimane limitata dalla mancanza di dataset multimodali consapevoli del livello vertebrale. Il processo decisionale clinico per i disturbi della colonna vertebrale richiede un ragionamento sofisticato attraverso immagini radiografiche, TC e risonanza magnetica a specifici livelli vertebrali. Tuttavia, i progressi sono stati ostacolati dall'assenza di dati di istruzione tracciabili e clinicamente fondati, nonché da benchmark standardizzati specifici per la colonna vertebrale. Per affrontare questa problematica, presentiamo SpineMed, un ecosistema co-progettato con chirurghi della colonna vertebrale in attività. Esso include SpineMed-450k, il primo dataset su larga scala progettato esplicitamente per il ragionamento a livello vertebrale attraverso diverse modalità di imaging, con oltre 450.000 istanze di istruzione, e SpineBench, un framework di valutazione clinicamente fondato. SpineMed-450k è stato curato da fonti diverse, tra cui libri di testo, linee guida, dataset aperti e circa 1.000 casi ospedalieri anonimizzati, utilizzando una pipeline con un clinico in loop e un metodo di generazione a due fasi con LLM (bozza e revisione) per garantire dati di alta qualità e tracciabili per risposte a domande, consultazioni multi-turn e generazione di referti. SpineBench valuta i modelli su assi clinicamente rilevanti, tra cui l'identificazione del livello, la valutazione della patologia e la pianificazione chirurgica. La nostra valutazione completa di diversi modelli avanzati di visione e linguaggio (LVLM) su SpineBench rivela debolezze sistematiche nel ragionamento fine e specifico per livello. Al contrario, il nostro modello addestrato su SpineMed-450k dimostra miglioramenti consistenti e significativi in tutte le attività. Le valutazioni dei clinici confermano la chiarezza diagnostica e l'utilità pratica degli output del nostro modello.

Ragionamento Personalizzato: Personalizzazione Just-In-Time e Perché i Modelli Linguistici di Grandi Dimensioni Falliscono
Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It

Sep 30

ByShuyue Stella Li, Avinandan Bose, Faeze Brahman, Simon Shaolei Du, Pang Wei Koh, Maryam Fazel, Yulia Tsvetkov

Lo sviluppo attuale dei grandi modelli linguistici (LLM) affronta la risoluzione di compiti e l'allineamento alle preferenze come sfide separate, ottimizzando prima per la correttezza oggettiva e poi per l'allineamento alle preferenze umane aggregate. Questo paradigma fallisce nelle applicazioni rivolte agli esseri umani, dove risolvere un problema correttamente è insufficiente se la risposta non corrisponde alle esigenze dell'utente. Questa sfida si intensifica negli scenari just-in-time, dove non esiste una storia di interazioni precedenti a causa di condizioni di cold-start o vincoli di privacy. Gli LLM devono identificare ciò che non sanno sulle preferenze dell'utente, sollecitare strategicamente i valori delle preferenze attraverso domande, e quindi adattare i loro processi di ragionamento e le risposte di conseguenza — una complessa catena di processi cognitivi che definiamo ragionamento personalizzato. Introduciamo PREFDISCO, una metodologia di valutazione che trasforma benchmark statici in compiti di personalizzazione interattivi utilizzando personaggi psicologicamente fondati con preferenze sparse. Il nostro framework crea scenari in cui domande identiche richiedono catene di ragionamento diverse a seconda del contesto dell'utente, poiché gli approcci ottimali di spiegazione variano in base all'esperienza e alle preferenze individuali, pur mantenendo l'accuratezza fattuale. La valutazione di 21 modelli all'avanguardia su 10 compiti rivela che il 29,0% dei tentativi ingenui di personalizzazione produce un allineamento alle preferenze peggiore rispetto alle risposte generiche, ma anche che le risposte generiche non soddisfano efficacemente le esigenze individuali degli utenti. Questi risultati suggeriscono che il ragionamento personalizzato richiede uno sviluppo dedicato piuttosto che emergere naturalmente. PREFDISCO stabilisce il ragionamento personalizzato come una frontiera di ricerca misurabile e rivela limitazioni fondamentali nelle capacità interattive degli attuali LLM, fornendo una base per lo sviluppo di sistemi in grado di adattarsi agli utenti individuali in ambiti come l'istruzione, la sanità e i domini tecnici, dove la personalizzazione è cruciale.

LSPO: Campionamento Dinamico Basato sulla Lunghezza per l'Ottimizzazione delle Politiche nel Ragionamento con LLM
LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

Oct 1

ByWeizhe Chen, Sven Koenig, Bistra Dilkina

Dal rilascio di Deepseek-R1, il reinforcement learning con ricompense verificabili (RLVR) è diventato un approccio centrale per l'addestramento di grandi modelli linguistici (LLM) su compiti di ragionamento. Il lavoro recente si è concentrato principalmente sulla modifica delle funzioni di perdita per rendere l'RLVR più efficiente ed efficace. In questo articolo, motivati da studi sull'overthinking nei LLM, proponiamo il Length-aware Sampling for Policy Optimization (LSPO), un nuovo algoritmo meta-RLVR che seleziona dinamicamente i dati di addestramento ad ogni passo in base alla lunghezza media della risposta. Valutiamo LSPO su più modelli di base e dataset, dimostrando che migliora costantemente l'efficacia dell'apprendimento. Inoltre, conduciamo uno studio di ablazione dettagliato per esaminare modalità alternative di incorporare i segnali di lunghezza nel campionamento dinamico, offrendo ulteriori approfondimenti e evidenziando direzioni promettenti per la ricerca futura.

Migliorare il grounding delle GUI con mappatura esplicita da posizione a coordinate
Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

Oct 3

BySuyuchen Wang, Tianyu Zhang, Ahmed Masry, Christopher Pal, Spandana Gella, Bang Liu, Perouz Taslakian

Il grounding delle GUI, il compito di mappare istruzioni in linguaggio naturale a coordinate di pixel, è cruciale per agenti autonomi, ma rimane difficile per gli attuali VLMs. Il collo di bottiglia principale è la mappatura affidabile da patch a pixel, che si interrompe quando si estrapola a display ad alta risoluzione non visti durante l'addestramento. Gli approcci attuali generano coordinate come token di testo direttamente dalle caratteristiche visive, costringendo il modello a inferire implicitamente complesse mappature da posizione a pixel; di conseguenza, l'accuratezza si riduce e i fallimenti si moltiplicano su nuove risoluzioni. Affrontiamo questo problema con due innovazioni complementari. Innanzitutto, i token RULER fungono da marcatori espliciti di coordinate, permettendo al modello di fare riferimento a posizioni simili a linee di griglia su una mappa e di aggiustare piuttosto che generare coordinate da zero. In secondo luogo, l'Interleaved MRoPE (I-MRoPE) migliora la codifica spaziale assicurando che le dimensioni di larghezza e altezza siano rappresentate in modo equo, affrontando l'asimmetria degli schemi posizionali standard. Esperimenti su ScreenSpot, ScreenSpot-V2 e ScreenSpot-Pro mostrano guadagni consistenti nell'accuratezza del grounding, con i miglioramenti più significativi su interfacce ad alta risoluzione. Fornendo una guida spaziale esplicita piuttosto che affidarsi all'apprendimento implicito, il nostro approccio consente un'automazione delle GUI più affidabile su diverse risoluzioni e piattaforme.

WAInjectBench: Benchmark per il Rilevamento di Iniezioni di Prompt per Agenti Web
WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents

Oct 1

ByYinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong

Sono stati proposti diversi attacchi di prompt injection contro gli agenti web. Allo stesso tempo, sono stati sviluppati vari metodi per rilevare gli attacchi di prompt injection in generale, ma nessuno è stato valutato sistematicamente per gli agenti web. In questo lavoro, colmiamo questa lacuna presentando il primo studio di benchmark completo sul rilevamento degli attacchi di prompt injection mirati agli agenti web. Iniziamo introducendo una categorizzazione dettagliata di tali attacchi basata sul modello di minaccia. Successivamente, costruiamo dataset contenenti sia campioni malevoli che benigni: segmenti di testo malevoli generati da diversi attacchi, segmenti di testo benigni di quattro categorie, immagini malevole prodotte da attacchi e immagini benignhe di due categorie. Poi, sistematizziamo sia i metodi di rilevamento basati su testo che quelli basati su immagini. Infine, ne valutiamo le prestazioni in diversi scenari. I nostri risultati principali mostrano che, sebbene alcuni rilevatori possano identificare attacchi che si basano su istruzioni testuali esplicite o perturbazioni visibili nelle immagini con una precisione da moderata a elevata, falliscono in gran parte contro attacchi che omettono istruzioni espliciti o utilizzano perturbazioni impercettibili. I nostri dataset e il codice sono rilasciati all'indirizzo: https://github.com/Norrrrrrr-lyn/WAInjectBench.

Allinea la tua Tangente: Addestrare Modelli di Consistenza Migliori tramite Tangenti Allineate alla Varietà
Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

Oct 1

ByBeomsu Kim, Byunghee Cha, Jong Chul Ye

Con i modelli di diffusione e di flusso che raggiungono prestazioni di generazione all'avanguardia, l'interesse della comunità si è ora rivolto alla riduzione del tempo di inferenza senza compromettere la qualità dei campioni. I Modelli di Consistenza (CMs), che sono addestrati per essere consistenti sulle traiettorie delle equazioni differenziali ordinarie del flusso di probabilità (PF-ODE), consentono un campionamento del flusso o della diffusione in uno o due passi. Tuttavia, i CMs richiedono tipicamente un addestramento prolungato con dimensioni di batch elevate per ottenere una qualità competitiva dei campioni. In questo articolo, esaminiamo le dinamiche di addestramento dei CMs vicino alla convergenza e scopriamo che le tangenti dei CM -- le direzioni di aggiornamento dell'output dei CM -- sono piuttosto oscillatorie, nel senso che si muovono parallelamente alla varietà dei dati, non verso la varietà. Per mitigare le tangenti oscillatorie, proponiamo una nuova funzione di perdita, chiamata distanza delle caratteristiche della varietà (MFD), che fornisce tangenti allineate alla varietà che puntano verso la varietà dei dati. Di conseguenza, il nostro metodo -- denominato Allinea la Tua Tangente (AYT) -- può accelerare l'addestramento dei CM di ordini di grandezza e persino superare la metrica di similarità percettiva delle patch di immagine appresa (LPIPS). Inoltre, scopriamo che la nostra funzione di perdita consente l'addestramento con dimensioni di batch estremamente piccole senza compromettere la qualità dei campioni. Codice: https://github.com/1202kbs/AYT

SoundReactor: Generazione audio da video online a livello di frame
SoundReactor: Frame-level Online Video-to-Audio Generation

Oct 2

ByKoichi Saito, Julian Tanke, Christian Simon, Masato Ishii, Kazuki Shimada, Zachary Novack, Zhi Zhong, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji

I modelli prevalenti di generazione Video-to-Audio (V2A) operano offline, presupponendo che un'intera sequenza video o blocchi di frame siano disponibili in anticipo. Ciò limita fortemente il loro utilizzo in applicazioni interattive come la creazione di contenuti in tempo reale e i modelli generativi emergenti di mondi virtuali. Per colmare questa lacuna, introduciamo il nuovo compito della generazione online V2A a livello di frame, in cui un modello genera audio dal video in modo autoregressivo senza accesso ai frame video futuri. Inoltre, proponiamo SoundReactor, che, per quanto ne sappiamo, è il primo framework semplice ma efficace specificamente progettato per questo compito. Il nostro design impone la causalità end-to-end e mira a una bassa latenza per frame con sincronizzazione audio-visiva. La struttura portante del nostro modello è un trasformatore causale decoder-only su latenti audio continui. Per il condizionamento visivo, sfrutta le feature a griglia (patch) estratte dalla variante più piccola dell'encoder visivo DINOv2, che vengono aggregate in un singolo token per frame per mantenere la causalità end-to-end e l'efficienza. Il modello viene addestrato attraverso un pre-training di diffusione seguito da un fine-tuning di consistenza per accelerare la decodifica della testa di diffusione. Su un benchmark di video di gameplay diversi provenienti da titoli AAA, il nostro modello genera con successo audio stereo a banda completa di alta qualità, semanticamente e temporalmente allineato, validato sia da valutazioni oggettive che umane. Inoltre, il nostro modello raggiunge una bassa latenza a livello di waveform per frame (26.3ms con la testa NFE=1, 31.5ms con NFE=4) su video a 30FPS e 480p utilizzando una singola H100. Campioni dimostrativi sono disponibili su https://koichi-saito-sony.github.io/soundreactor/.

Dale incontra Langevin: Un modello di diffusione del rumore moltiplicativo
Dale meets Langevin: A Multiplicative Denoising Diffusion Model

Oct 3

ByNishanth Shetty, Madhava Prasath, Chandra Sekhar Seelamantula

La discesa del gradiente si è dimostrata una tecnica potente ed efficace per l'ottimizzazione in numerose applicazioni di apprendimento automatico. Recenti progressi nelle neuroscienze computazionali hanno dimostrato che l'apprendimento nella formulazione standard dell'ottimizzazione a discesa del gradiente non è coerente con l'apprendimento nei sistemi biologici. Ciò ha aperto interessanti prospettive per lo sviluppo di tecniche di apprendimento ispirate alla biologia. Un approccio di questo tipo è ispirato alla legge di Dale, che afferma che le sinapsi inibitorie ed eccitatorie non scambiano i loro ruoli durante il processo di apprendimento. Lo schema di ottimizzazione a discesa del gradiente esponenziale risultante porta a pesi sinaptici distribuiti in modo log-normale. Curiosamente, la densità che soddisfa l'equazione di Fokker-Planck corrispondente all'equazione differenziale stocastica (SDE) con moto browniano geometrico (GBM) è la densità log-normale. Sfruttando questa connessione, partiamo dall'SDE che governa il moto browniano geometrico e mostriamo che la discretizzazione della corrispondente SDE a tempo inverso produce una regola di aggiornamento moltiplicativa, che, sorprendentemente, coincide con l'equivalente campionario dell'aggiornamento a discesa del gradiente esponenziale basato sulla legge di Dale. Inoltre, proponiamo un nuovo formalismo per il matching del punteggio di denoising moltiplicativo, che include la funzione di perdita proposta da Hyvaerinen per dati non negativi. Infatti, i dati distribuiti in modo log-normale sono positivi e il formalismo di matching del punteggio proposto si rivela una scelta naturale. Ciò consente l'addestramento di modelli basati sul punteggio per dati immagine e porta a un nuovo schema di aggiornamento moltiplicativo per la generazione di campioni partendo da una densità log-normale. I risultati sperimentali sui dataset MNIST, Fashion MNIST e Kuzushiji dimostrano la capacità generativa del nuovo schema. Per quanto ne sappiamo, questa è la prima istanza di un modello generativo ispirato alla biologia che utilizza aggiornamenti moltiplicativi, fondati sul moto browniano geometrico.

Consolidamento dell'Apprendimento per Rinforzo nei Modelli di Diffusione Discreta Multimodale
Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models

Oct 3

ByTianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye

Ottimizzare i modelli di diffusione discreta (DDM) con ricompense rimane una sfida: il paradigma non autoregressivo rende il campionamento di importanza intrattabile e il rollout complesso, confondendo i metodi di apprendimento per rinforzo come l'ottimizzazione relativa delle politiche di gruppo (GRPO). In questo studio, introduciamo MaskGRPO, il primo approccio praticabile per abilitare un apprendimento per rinforzo multimodale scalabile nella diffusione discreta con un efficace campionamento di importanza e adattamenti specifici per modalità. A tal fine, chiariamo innanzitutto le basi teoriche per i DDM, che facilitano la costruzione di uno stimatore di importanza in grado di catturare fluttuazioni di token significative per gli aggiornamenti del gradiente. Successivamente, abbiamo adattato con cura il metodo di rollout per sequenze visive, ottenendo completamenti diversificati e gradienti di ottimizzazione affidabili. Su benchmark di ragionamento matematico, codifica e generazione visiva, MaskGRPO offre aggiornamenti più stabili ed efficienti, portando a prestazioni di ragionamento più solide e a una migliore qualità di generazione. Questo studio stabilisce MaskGRPO come un approccio sistematico di ottimizzazione delle politiche e il primo metodo pratico per la diffusione visiva discretizzata.

Quanto sono sicuri i modelli video? Dotare i modelli video della capacità di esprimere la loro incertezza
How Confident are Video Models? Empowering Video Models to Express their Uncertainty

Oct 2

ByZhiting Mei, Ola Shorinwa, Anirudha Majumdar

I modelli generativi di video dimostrano impressionanti capacità di conversione da testo a video, stimolando un'adozione diffusa in molte applicazioni del mondo reale. Tuttavia, come i grandi modelli linguistici (LLM), anche i modelli di generazione video tendono a produrre allucinazioni, generando video plausibili anche quando sono fattualmente errati. Sebbene la quantificazione dell'incertezza (UQ) degli LLM sia stata ampiamente studiata in precedenti lavori, non esiste alcun metodo UQ per i modelli video, sollevando preoccupazioni critiche per la sicurezza. A nostra conoscenza, questo articolo rappresenta il primo lavoro verso la quantificazione dell'incertezza dei modelli video. Presentiamo un framework per la quantificazione dell'incertezza dei modelli generativi di video, composto da: (i) una metrica per valutare la calibrazione dei modelli video basata sulla stima robusta della correlazione di rango senza stringenti assunzioni di modellazione; (ii) un metodo UQ a scatola nera per i modelli video (denominato S-QUBED), che sfrutta la modellazione latente per scomporre rigorosamente l'incertezza predittiva nelle sue componenti aleatorie ed epistemiche; e (iii) un dataset UQ per facilitare il benchmarking della calibrazione nei modelli video. Condizionando il compito di generazione nello spazio latente, separiamo l'incertezza derivante da specifiche di compito vaghe da quella derivante dalla mancanza di conoscenza. Attraverso esperimenti estesi su dataset video di riferimento, dimostriamo che S-QUBED calcola stime calibrate dell'incertezza totale che sono negativamente correlate con l'accuratezza del compito e calcola efficacemente le componenti aleatorie ed epistemiche.

Meno LLM, Più Documenti: Alla Ricerca di un RAG Migliorato
Less LLM, More Documents: Searching for Improved RAG

Oct 3

ByJingjie Ning, Yibo Kong, Yunfan Long, Jamie Callan

La Generazione Aumentata con Recupero (RAG) combina il recupero di documenti con modelli linguistici di grandi dimensioni (LLM). Sebbene il ridimensionamento dei generatori migliori l'accuratezza, aumenta anche i costi e limita la possibilità di implementazione. Esploriamo un asse ortogonale: ampliare il corpus del sistema di recupero per ridurre la dipendenza da grandi LLM. I risultati sperimentali mostrano che il ridimensionamento del corpus rafforza costantemente RAG e può spesso servire come sostituto all'aumento delle dimensioni del modello, sebbene con rendimenti decrescenti su scale più ampie. Generatori di piccole e medie dimensioni abbinati a corpora più grandi spesso rivaleggiano con modelli molto più grandi dotati di corpora più piccoli; i modelli di medie dimensioni tendono a trarre il massimo vantaggio, mentre i modelli molto piccoli e molto grandi beneficiano meno. La nostra analisi mostra che i miglioramenti derivano principalmente da una maggiore copertura di passaggi contenenti risposte, mentre l'efficienza di utilizzo rimane sostanzialmente invariata. Questi risultati stabiliscono un compromesso principio tra corpus e generatore: investire in corpora più grandi offre un percorso efficace per ottenere una RAG più potente, spesso paragonabile all'ampliamento dell'LLM stesso.

LEAML: Adattamento Efficiente in Termini di Etichette a Compiti Visivi Fuori Distribuzione per Modelli Linguistici Multimodali di Grandi Dimensioni
LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

Oct 3

ByCi-Siang Lin, Min-Hung Chen, Yu-Yang Sheng, Yu-Chiang Frank Wang

I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno ottenuto prestazioni solide su benchmark visivi generali, ma incontrano difficoltà con compiti fuori distribuzione (OOD) in domini specializzati come l'imaging medico, dove i dati etichettati sono limitati e costosi. Introduciamo LEAML, un framework di adattamento efficiente nell'uso delle etichette che sfrutta sia i rari campioni etichettati di VQA (Visual Question Answering) sia le abbondanti immagini non etichettate. Il nostro approccio genera coppie pseudo domanda-risposta rilevanti per il dominio per i dati non etichettati utilizzando un generatore di QA regolarizzato dalla distillazione di didascalie. In modo cruciale, aggiorniamo selettivamente solo quei neuroni più rilevanti per il question-answering, consentendo al Generatore di QA di acquisire in modo efficiente conoscenze specifiche del dominio durante la distillazione. Esperimenti su VQA di endoscopia gastrointestinale e sport dimostrano che LEAML supera costantemente il fine-tuning standard con supervisione minima, evidenziando l'efficacia del nostro framework LEAML proposto.

DiffTester: Accelerazione della Generazione di Test Unitari per Modelli Linguistici di Diffusione tramite Pattern Ripetitivi
DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern

Sep 29

ByLekang Yang, Yuetong Liu, Yitong Zhang, Jia Li

Lo sviluppo del software si basa fortemente su un'estesa fase di test unitari, rendendo particolarmente importante l'efficienza della Generazione Automatica di Test Unitari (UTG). Tuttavia, la maggior parte degli LLM esistenti genera casi di test un token alla volta in ogni passaggio in avanti, portando a una UTG inefficiente. Recentemente, sono emersi i diffusion LLM (dLLM), che offrono promettenti capacità di generazione parallela e mostrano un forte potenziale per una UTG efficiente. Nonostante questo vantaggio, la loro applicazione alla UTG è ancora limitata da un chiaro compromesso tra efficienza e qualità dei test, poiché aumentare il numero di token generati in ogni passaggio spesso causa un drastico calo nella qualità dei casi di test. Per superare questa limitazione, presentiamo DiffTester, un framework di accelerazione specificamente progettato per i dLLM nella UTG. L'idea chiave di DiffTester è che i test unitari che mirano allo stesso metodo focale spesso condividono schemi strutturali ripetitivi. Identificando dinamicamente questi schemi comuni attraverso l'analisi dell'albero sintattico astratto durante la generazione, DiffTester aumenta adattivamente il numero di token prodotti in ogni passaggio senza compromettere la qualità dell'output. Per consentire una valutazione completa, estendiamo il benchmark originale TestEval, limitato a Python, introducendo ulteriori linguaggi di programmazione tra cui Java e C++. Esperimenti estesi su tre benchmark con due modelli rappresentativi dimostrano che DiffTester offre una significativa accelerazione mantenendo la copertura dei test. Inoltre, DiffTester si generalizza bene su diversi dLLM e linguaggi di programmazione, fornendo una soluzione pratica e scalabile per una UTG efficiente nello sviluppo del software. Codice e dati sono pubblicamente disponibili all'indirizzo https://github.com/wellbeingyang/DLM4UTG-open.

Valutazione Scalabile della Conformità alle Politiche nei Modelli Linguistici con Tracciati di Ragionamento sulle Politiche
Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces

Sep 27

ByJoseph Marvin Imperial, Harish Tayyar Madabushi

La valutazione della conformità alle politiche è un compito fondamentale che consiste nel determinare se un caso specifico rispetti rigorosamente un insieme di regole definite da esseri umani, comunemente note come politiche. Nella pratica, gli esperti umani seguono un processo sistematico e graduale per identificare eventuali violazioni rispetto alle disposizioni specifiche delineate nella politica. Tuttavia, la documentazione di processi di ragionamento di livello esperto, considerati come standard di riferimento, è costosa da ottenere. In questo articolo, introduciamo le Tracciatura di Ragionamento sulle Politiche (Policy Reasoning Traces, PRT), una forma specializzata di catene di ragionamento generate che fungono da ponte per migliorare le capacità di valutazione della conformità alle politiche di un modello linguistico (LLM). Le nostre valutazioni empiriche dimostrano che l'utilizzo delle PRT sia in scenari di inferenza che di addestramento migliora significativamente le prestazioni di modelli open-weight e commerciali, stabilendo un nuovo stato dell'arte per le politiche HIPAA e GDPR. Oltre ai miglioramenti in termini di accuratezza, evidenziamo anche come le PRT possano potenziare la capacità di un LLM di citare correttamente le clausole delle politiche, nonché influenzare le decisioni di conformità grazie al loro elevato utilizzo nelle catene di pensiero grezze.

NuRisk: Un Dataset di Visual Question Answering per la Valutazione del Rischio a Livello di Agente nella Guida Autonoma
NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

Sep 30

ByYuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz

Comprendere il rischio nella guida autonoma richiede non solo percezione e previsione, ma anche un ragionamento di alto livello sul comportamento degli agenti e sul contesto. I metodi attuali basati su Vision Language Models (VLMs) si concentrano principalmente su agenti in immagini statiche e forniscono giudizi qualitativi, mancando del ragionamento spazio-temporale necessario per catturare come i rischi si evolvono nel tempo. Per colmare questa lacuna, proponiamo NuRisk, un dataset completo di Visual Question Answering (VQA) che comprende 2.900 scenari e 1,1 milioni di campioni a livello di agente, costruito su dati reali provenienti da nuScenes e Waymo, integrati con scenari critici per la sicurezza dal simulatore CommonRoad. Il dataset fornisce immagini sequenziali basate su Bird-Eye-View (BEV) con annotazioni quantitative del rischio a livello di agente, abilitando il ragionamento spazio-temporale. Abbiamo testato VLMs noti utilizzando diverse tecniche di prompting e abbiamo riscontrato che non riescono a eseguire un ragionamento spazio-temporale esplicito, ottenendo un'accuratezza massima del 33% con un'elevata latenza. Per affrontare queste carenze, il nostro agente VLM da 7B, fine-tuned, migliora l'accuratezza al 41% e riduce la latenza del 75%, dimostrando capacità di ragionamento spazio-temporale esplicito che i modelli proprietari non possedevano. Sebbene questo rappresenti un significativo passo avanti, la modesta accuratezza sottolinea la profonda sfida del compito, stabilendo NuRisk come un benchmark critico per avanzare il ragionamento spazio-temporale nella guida autonoma.