HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

34 papers found

Dalle Competenze al Talento: Organizzare Agenti Eterogenei come un'Azienda del Mondo Reale
From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company

Apr 24

ByZhengxu Yu, Yu Fu, Zhiyuan He, Yuxuan Huang, Lee Ka Yiu, Meng Fang, Weilin Luo, Jun Wang

Le capacità dei singoli agenti sono progredite rapidamente grazie a competenze modulari e integrazioni di strumenti, tuttavia i sistemi multi-agente rimangono limitati da strutture di team fissi, logiche di coordinamento strettamente accoppiate e apprendimento vincolato alla sessione. Sosteniamo che ciò rifletta un'assenza più profonda: un livello organizzativo principiato che governa come una forza lavoro di agenti viene assemblata, governata e migliorata nel tempo, disaccoppiata da ciò che i singoli agenti conoscono. Per colmare questa lacuna, introduciamo OneManCompany (OMC), un framework che eleva i sistemi multi-agente al livello organizzativo. OMC incapsula competenze, strumenti e configurazioni di runtime in identità agenti portabili chiamate Talent, orchestrate attraverso interfacce organizzative tipate che astraggono da backend eterogenei. Un Talent Market guidato dalla comunità abilita un reclutamento on-demand, consentendo all'organizzazione di colmare lacune di capacità e riconfigurarsi dinamicamente durante l'esecuzione. La decisione organizzativa è operazionalizzata attraverso una ricerca ad albero Esplora-Esegui-Rivedi (E²R), che unifica pianificazione, esecuzione e valutazione in un unico ciclo gerarchico: i compiti sono scomposti top-down in unità responsabili e i risultati dell'esecuzione sono aggregati bottom-up per guidare una revisione e un affinamento sistematici. Questo ciclo fornisce garanzie formali su terminazione e libertà da deadlock, rispecchiando al contempo i meccanismi di feedback delle imprese umane. Insieme, questi contributi trasformano i sistemi multi-agente da pipeline statiche e preconfigurate in organizzazioni di IA auto-organizzanti e auto-miglioranti, in grado di adattarsi a compiti aperti in diversi domini. La valutazione empirica su PRDBench mostra che OMC raggiunge un tasso di successo dell'84,67%, superando lo stato dell'arte di 15,48 punti percentuali, con studi di caso cross-dominio che ne dimostrano ulteriormente la generalità.

World-R1: Rafforzamento dei Vincoli 3D per la Generazione Video da Testo
World-R1: Reinforcing 3D Constraints for Text-to-Video Generation

Apr 27

ByWeijie Wang, Xiaoxuan He, Youping Gu, Yifan Yang, Zeyu Zhang, Yefei He, Yanbo Ding, Xirui Hu, Donny Y. Chen, Zhiyuan He, Yuqing Yang, Bohan Zhuang

I recenti modelli video foundation mostrano un'impressionante sintesi visiva ma soffrono frequentemente di incoerenze geometriche. Sebbene i metodi esistenti tentino di iniettare prior 3D tramite modifiche architetturali, questi spesso comportano elevati costi computazionali e limitano la scalabilità. Proponiamo World-R1, un framework che allinea la generazione video con vincoli 3D attraverso l'apprendimento per rinforzo. Per facilitare questo allineamento, introduciamo un dataset testuale specializzato e mirato per la simulazione del mondo. Utilizzando Flow-GRBO, ottimizziamo il modello sfruttando feedback da modelli foundation 3D pre-addestrati e modelli visione-linguaggio per imporre coerenza strutturale senza alterare l'architettura sottostante. Impieghiamo inoltre una strategia di addestramento periodico disaccoppiato per bilanciare la rigida coerenza geometrica con la fluidità dinamica della scena. Valutazioni estensive rivelano che il nostro approccio migliora significativamente la consistenza 3D preservando la qualità visiva originale del modello foundation, colmando efficacemente il divario tra generazione video e simulazione del mondo scalabile.

ReVSI: Ricostruzione della Valutazione dell'Intelligenza Spaziale Visiva per una Valutazione Precisa del Ragionamento 3D nei VLM
ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Apr 27

ByYiming Zhang, Jiacheng Chen, Jiaqi Tan, Yongsen Mao, Wenhu Chen, Angel X. Chang

Le valutazioni attuali dell'intelligenza spaziale possono essere sistematicamente non valide nel contesto dei moderni modelli visione-linguaggio (VLM). In primo luogo, molti benchmark derivano coppie domanda-risposta (QA) da annotazioni 3D basate su nuvole di punti originariamente create per la percezione 3D tradizionale. Quando queste annotazioni sono trattate come verità assoluta per valutazioni basate su video, gli artefatti di ricostruzione e annotazione possono omettere oggetti chiaramente visibili nel video, etichettare erroneamente le identità degli oggetti o corrompere risposte dipendenti dalla geometria (ad esempio, le dimensioni), producendo coppie QA errate o ambigue. In secondo luogo, le valutazioni spesso presuppongono l'accesso all'intera scena, mentre molti VLM operano su frame campionati in modo sparso (ad esempio, 16-64), rendendo molte domande di fatto impossibili da rispondere con gli input effettivi del modello. Miglioriamo la validità della valutazione introducendo ReVSI, un benchmark e protocollo che garantisce che ogni coppia QA sia rispondibile e corretta in base agli input effettivi del modello. A tal fine, riannotiamo oggetti e geometria in 381 scene provenienti da 5 dataset per migliorare la qualità dei dati, e rigeneriamo tutte le coppie QA con una rigorosa mitigazione dei bias e verifica umana utilizzando strumenti professionali di annotazione 3D. Aumentiamo ulteriormente la controllabilità della valutazione fornendo varianti per diversi budget di frame (16/32/64/tutti) e metadati granulari sulla visibilità degli oggetti, consentendo analisi diagnostiche controllate. Le valutazioni di VLM generali e specialistici su ReVSI rivelano modalità di fallimento sistematiche che erano oscurate dai benchmark precedenti, fornendo una valutazione dell'intelligenza spaziale più affidabile e diagnostica.

Tuna-2: Gli Embedding di Pixel Superano gli Encoder Visivi per la Comprensione e Generazione Multimodale
Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Apr 27

ByZhiheng Liu, Weiming Ren, Xiaoke Huang, Shoufa Chen, Tianhong Li, Mengzhao Chen, Yatai Ji, Sen He, Jonas Schult, Belinda Zeng, Tao Xiang, Wenhu Chen, Ping Luo, Luke Zettlemoyer, Yuren Cong

I modelli multimodali unificati si basano tipicamente su encoder visivi preaddestrati e utilizzano rappresentazioni visive separate per la comprensione e la generazione, creando un disallineamento tra i due compiti e impedendo un'ottimizzazione completamente end-to-end a partire dai pixel grezzi. Introduciamo Tuna-2, un modello multimodale unificato nativo che esegue comprensione e generazione visiva direttamente basandosi sugli embedding di pixel. Tuna-2 semplifica drasticamente l'architettura del modello impiegando semplici livelli di embedding di patch per codificare l'input visivo, scartando completamente i design modulari degli encoder visivi come il VAE o l'encoder di rappresentazione. Gli esperimenti mostrano che Tuna-2 raggiunge prestazioni allo stato dell'arte nei benchmark multimodali, dimostrando che la modellazione unificata nello spazio dei pixel può competere pienamente con gli approcci nello spazio latente per la generazione di immagini di alta qualità. Inoltre, mentre la variante basata su encoder converge più velocemente nella prima fase di preaddestramento, il design privo di encoder di Tuna-2 raggiunge una comprensione multimodale più solida su larga scala, specialmente nei compiti che richiedono una percezione visiva fine. Questi risultati dimostrano che gli encoder visivi preaddestrati non sono necessari per la modellazione multimodale e che l'apprendimento end-to-end nello spazio dei pixel offre un percorso scalabile verso rappresentazioni visive più robuste sia per la generazione che per la percezione.

Sicurezza Visione-Linguaggio-Azione: Minacce, Sfide, Valutazioni e Meccanismi
Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms

Apr 26

ByQi Li, Bo Yin, Weiqi Huang, Ruhao Liu, Bojun Zou, Runpeng Yu, Jingwen Ye, Weihao Yu, Xinchao Wang

I modelli Vision-Language-Action (VLA) si stanno affermando come un substrato unificato per l'intelligenza incarnata. Questo cambiamento solleva una nuova classe di sfide per la sicurezza, derivanti dalla natura incarnata dei sistemi VLA, che includono conseguenze fisiche irreversibili, una superficie di attacco multimodale che coinvolge visione, linguaggio e stato, vincoli di latenza in tempo reale per la difesa, propagazione degli errori su traiettorie a lungo orizzonte e vulnerabilità nella catena di approvvigionamento dei dati. Tuttavia, la letteratura rimane frammentata tra apprendimento robotico, apprendimento automatico adversarial, allineamento dell'IA e sicurezza dei sistemi autonomi. Questa rassegna fornisce una panoramica unificata e aggiornata della sicurezza nei modelli Vision-Language-Action. Organizziamo il campo lungo due assi temporali paralleli: tempistica dell'attacco (tempo di addestramento vs. tempo di inferenza) e tempistica della difesa (tempo di addestramento vs. tempo di inferenza), collegando ogni classe di minaccia alla fase in cui può essere mitigata. Definiamo innanzitutto l'ambito della sicurezza VLA, distinguendola dalla sicurezza dei modelli linguistici di grandi dimensioni (LLM) basati solo su testo e dalla sicurezza robotica classica, e rivediamo le fondamenta dei modelli VLA, incluse architetture, paradigmi di addestramento e meccanismi di inferenza. Esaminiamo quindi la letteratura attraverso quattro lenti: Attacchi, Difese, Valutazione e Implementazione. Analizziamo le minacce al tempo di addestramento come l'avvelenamento dei dati e i backdoor, nonché gli attacchi al tempo di inferenza che includono patch adversarial, perturbazioni cross-modali, jailbreak semantici e attacchi di freezing. Rivediamo le difese al tempo di addestramento e in tempo reale, analizziamo i benchmark e le metriche esistenti e discutiamo le sfide di sicurezza in sei domini di implementazione. Infine, evidenziamo i principali problemi aperti, tra cui la robustezza certificata per le traiettorie incarnate, difese fisicamente realizzabili, addestramento consapevole della sicurezza, architetture di sicurezza in tempo reale unificate e valutazione standardizzata.

ClawMark: Un Benchmark del Mondo Reale per Agenti Collaborativi Multimodali, Multi-Turn e Multi-Giorno
ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Apr 26

ByFanqing Meng, Lingxiao Du, Zijian Wu, Guanzheng Chen, Xiangyan Liu, Jiaqi Liao, Chonghe Jiang, Zhenglin Wan, Jiawei Gu, Pengfei Zhou, Rui Huang, Ziqi Zhao, Shengyuan Ding, Ailing Yu, Bo Peng, Bowei Xia, Hao Sun, Haotian Liang, Ji Xie, Jiajun Chen, Jiajun Song, Liu Yang, Ming Xu, Qionglin Qiu, Runhao Fu, Shengfang Zhai, Shijian Wang, Tengfei Ma, Tianyi Wu, Weiyang Jin, Yan Wang, Yang Dai, Yao Lai, Youwei Shu, Yue Liu, Yunzhuo Hao, Yuwei Niu, Jinkai Huang, Jiayuan Zhuo, Zhennan Shen, Linyu Wu, Cihang Xie, Yuyin Zhou, Jiaheng Zhang, Zeyu Zheng, Mengkang Hu, Michael Qizhe Shieh

Gli agenti basati su modelli linguistici sono sempre più utilizzati come colleghi persistenti che assistono gli utenti nell'arco di più giornate lavorative. In tali flussi di lavoro, l'ambiente circostante può cambiare indipendentemente dall'agente: arrivano nuove email, gli impegni in calendario si modificano, i record della knowledge base vengono aggiornati e nuove evidenze compaiono tra immagini, PDF scannerizzati, audio, video e fogli di calcolo. I benchmark esistenti non valutano adeguatamente questo scenario, poiché tipicamente vengono eseguiti in un singolo episodio statico e rimangono largamente incentrati sul testo. Introduciamo , un benchmark per agenti colleghi costruito attorno a task multi-turn e multi-giorno, un ambiente di servizio sandbox con stato che evolve tra un turno e l'altro, e una verifica basata su regole. L'attuale release contiene 100 task across 13 scenari professionali, eseguiti contro cinque servizi sandbox con stato (file system, email, calendario, knowledge base, foglio di calcolo) e valutati da 1537 checker deterministici in Python sullo stato del servizio post-esecuzione; non viene utilizzato alcun LLM come giudice durante la valutazione. Analizziamo sette sistemi agenti all'avanguardia. Il modello più performante raggiunge un punteggio ponderato del 75,8%, ma il miglior Task Success rigoroso è solo del 20,0%, indicando che i progressi parziali sono comuni mentre il completamento end-to-end completo del flusso di lavoro rimane raro. L'analisi a livello di turno mostra che le prestazioni calano dopo il primo aggiornamento esogeno dell'ambiente, evidenziando l'adattamento allo stato che cambia come una sfida aperta chiave. Rilasciamo il benchmark, l'harness di valutazione e la pipeline di costruzione per supportare una valutazione riproducibile degli agenti colleghi.

SketchVLM: I modelli linguistici visivi possono annotare immagini per spiegare i ragionamenti e guidare gli utenti
SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Apr 23

ByBrandon Collins, Logan Bolton, Hung Huy Nguyen, Mohammad Reza Taesiri, Trung Bui, Anh Totti Nguyen

Quando rispondono a domande sulle immagini, gli esseri umani indicano, etichettano e disegnano naturalmente per spiegare il loro ragionamento. Al contrario, i moderni modelli visione-linguaggio (VLM) come Gemini-3-Pro e GPT-5 rispondono solo con testo, rendendo difficile per gli utenti verificarne la correttezza. Presentiamo SketchVLM, un framework agnostico rispetto al modello e che non richiede addestramento, che permette ai VLM di produrre sovrapposizioni SVG non distruttive e modificabili sull'immagine di input per spiegare visivamente le loro risposte. Attraverso sette benchmark che spaziano dal ragionamento visivo (navigazione in labirinti, previsione di traiettorie di caduta e conteggio di oggetti) al disegno (etichettatura di parti, unire i punti e disegnare forme attorno agli oggetti), SketchVLM migliora l'accuratezza nelle attività di ragionamento visivo fino a +28,5 punti percentuali e la qualità delle annotazioni fino a 1,48x rispetto ai baseline di modifica delle immagini e di disegno fine-tunati, producendo anche annotazioni più fedeli alla risposta dichiarata del modello. Rileviamo che la generazione a turno singolo raggiunge già una forte accuratezza e qualità delle annotazioni, mentre la generazione a turni multipli apre ulteriori opportunità per la collaborazione uomo-IA. Una demo interattiva e il codice sono disponibili su https://sketchvlm.github.io/.

Premiare il Processo Scientifico: Modellazione delle Ricompense a Livello di Processo per l'Analisi Dati Agente-Centrica
Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis

Apr 27

ByZhisong Qiu, Shuofei Qiao, Kewei Xu, Yuqi Zhu, Lun Du, Ningyu Zhang, Huajun Chen

I modelli di ricompensa basati sul processo (PRM) hanno ottenuto un notevole successo nel potenziare le capacità di ragionamento dei Large Language Model (LLM) in domini statici come la matematica. Tuttavia, il loro potenziale in compiti di analisi dati dinamici rimane poco esplorato. In questo lavoro, presentiamo innanzitutto uno studio empirico che rivela come i PRM di dominio generale abbiano difficoltà a supervisionare agenti di analisi dati. Nello specifico, questi modelli non riescono a rilevare errori silenti, ovvero difetti logici che producono risultati errati senza innescare eccezioni dell'interprete, e penalizzano erroneamente azioni esplorative, scambiando necessari tentativi ed errori per fallimenti di grounding. Per colmare questa lacuna, introduciamo DataPRM, un innovativo modello generativo di ricompensa basato sul processo e consapevole dell'ambiente, che (1) può fungere da verificatore attivo, interagendo autonomamente con l'ambiente per sondare gli stati di esecuzione intermedi e scoprire errori silenti, e (2) impiega una strategia di ricompensa ternaria reflection-aware che distingue tra errori di grounding correggibili ed errori irrimediabili. Progettiamo una pipeline scalabile per costruire oltre 8.000 istanze di addestramento di alta qualità per DataPRM tramite una generazione di traiettorie guidata dalla diversità e un'annotazione a livello di passo arricchita dalla conoscenza. I risultati sperimentali dimostrano che DataPRM migliora le prestazioni dei LLM policy downstream del 7,21% su ScienceAgentBench e dell'11,28% su DABStep utilizzando l'inferenza Best-of-N. Notevolmente, con soli 4 miliardi di parametri, DataPRM supera baseline robuste ed esibisce una solida generalizzabilità attraverso diverse strategie di Test-Time Scaling. Inoltre, l'integrazione di DataPRM nel Reinforcement Learning produce guadagni sostanziali rispetto alle baseline di ricompensa basata sul risultato, raggiungendo il 78,73% su DABench e il 64,84% su TableBench, convalidando l'efficacia della supervisione della ricompensa basata sul processo. Il codice è disponibile all'indirizzo https://github.com/zjunlp/DataMind.

For-Value: Una Valutazione Efficiente e Unidirezionale dei Dati per il Fine-Tuning di LLM e VLM
For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

Apr 25

ByWenlong Deng, Qi Zeng, Jiaming Zhang, Minghui Chen, Zixin Ding, Christos Thrampoulidis, Boying Gong, Xiaoxiao Li

La valutazione dei dati è fondamentale per migliorare la trasparenza e la responsabilità dei grandi modelli linguistici (LLM) e dei modelli visione-linguaggio (VLM). Tuttavia, i metodi esistenti si basano tipicamente sul calcolo dei gradienti, rendendoli computazionalmente proibitivi per modelli con miliardi di parametri e impedendo la parallelizzazione in batch. In questo lavoro, introduciamo For-Value, un framework di valutazione dati basato esclusivamente sul forward pass che consente una stima efficiente e scalabile del valore mantenendo l'efficacia. Sfruttando il potere espressivo di LLM/VLM preaddestrati, dimostriamo teoricamente che la valutazione dei dati può essere catturata dall'allineamento tra le rappresentazioni nascoste finali e gli errori di predizione all'ultimo layer. Alla luce di questa intuizione, For-Value calcola il valore dei dati utilizzando una semplice espressione in forma chiusa con un singolo forward pass, eliminando la necessità di costose backpropagation e consentendo calcoli efficienti in batch su larga scala. Esperimenti estensivi mostrano che For-Value eguaglia o supera i baseline basati sui gradienti nell'individuare dati influenti ed etichettati erroneamente, raggiungendo al contempo significativi miglioramenti di efficienza.

Domare l'Asimmetria Attore-Osservatore negli Agenti tramite Allineamento Dialettico
Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

Apr 21

ByBobo Li, Rui Wu, Zibo Ji, Meishan Zhang, Hao Fei, Min Zhang, Mong-Li Lee, Wynne Hsu

I modelli linguistici di grandi dimensioni (LLM) hanno rapidamente evoluto da generatori di testo statici a sistemi dinamici in grado di eseguire flussi di lavoro autonomi complessi. Per aumentare l'affidabilità, si adottano sempre più spesso framework multi-agente che assegnano ruoli specializzati per consentire l'autoriflessione e la verifica reciproca. Sebbene tale suddivisione in ruoli sfrutti efficacemente la conoscenza di esperti di dominio, abbiamo riscontrato che induce simultaneamente un bias cognitivo simile a quello umano noto come Asimmetria Attore-Osservatore (AOA). Nello specifico, un agente che agisce come attore (durante l'autoriflessione) tende ad attribuire i fallimenti a fattori esterni, mentre un osservatore (durante la verifica reciproca) attribuisce gli stessi errori a colpe interne. Quantifichiamo questo fenomeno utilizzando il nostro nuovo Benchmark dei Fallimenti Ambiguì, che rivela che il semplice scambio di prospettive innesca l'effetto AOA in oltre il 20% dei casi per la maggior parte dei modelli. Per domare questo bias, introduciamo ReTAS (Ragionamento tramite Tesi-Antitesi-Sintesi), un modello addestrato tramite allineamento dialettico per imporre un ragionamento invariante rispetto alla prospettiva. Integrando una catena di pensiero dialettica con l'Ottimizzazione della Politica Relativa di Gruppo, ReTAS guida gli agenti a sintetizzare punti di vista conflittuali in un consenso oggettivo. Gli esperimenti dimostrano che ReTAS mitiga efficacemente l'inconsistenza nell'attribuzione e migliora significativamente i tassi di risoluzione dei guasti in scenari ambigui.

Valutazione Efficiente degli Agenti tramite Simulazione Utente Guidata dalla Diversità
Efficient Agent Evaluation via Diversity-Guided User Simulation

Apr 23

ByItay Nakash, George Kour, Ateret Anaby-Tavor

I modelli linguistici di grandi dimensioni (LLM) vengono sempre più spesso impiegati come agenti a diretto contatto con i clienti, eppure la valutazione della loro affidabilità rimane complessa a causa delle interazioni stocastiche e multi-turno. I protocolli di valutazione attuali si basano su rollout Monte Carlo lineari di conversazioni complete tra agente e utente per stimare il successo. Tuttavia, questo approccio è computazionalmente inefficiente, poiché rigenera ripetutamente i medesimi prefissi iniziali, e spesso non riesce a scoprire modalità di fallimento profonde che emergono da comportamenti utente rari. Introduciamo DIVERT (Diversity-Induced Evaluation via Branching of Trajectories), un framework efficiente, basato su snapshot e guidato dalla copertura, per la simulazione sistematica delle interazioni agente-utente. DIVERT cattura lo stato completo agente-ambiente in punti decisionali critici e riprende l'esecuzione da questi snapshot, consentendo il riutilizzo di prefissi conversazionali condivisi e riducendo il calcolo ridondante. Da ogni giunzione, il framework dirama l'esplorazione utilizzando risposte utente mirate e induttrici di diversità, permettendo l'esplorazione diretta di percorsi interattivi alternativi. Concentrando la valutazione su traiettorie semanticamente diverse e poco esplorate, DIVERT migliora sia l'efficienza che la copertura. I risultati empirici dimostrano che, rispetto ai protocolli standard di rollout lineare, esso scopre più fallimenti per token, ampliando al contempo l'insieme di compiti in cui i fallimenti vengono identificati.

OmniShotCut: Rilevamento Olistico Relazionale dei Confini degli Shot con Shot-Query Transformer
OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer

Apr 27

ByBoyang Wang, Guangyi Xu, Zhipeng Tang, Jiahui Zhang, Zezhou Cheng

La rilevazione automatica dei cambi di inquadratura (Shot Boundary Detection - SBD) mira a identificare automaticamente i cambi di scena e a suddividere un video in sequenze coerenti. Sebbene la SBD sia stata ampiamente studiata in letteratura, i metodi allo stato dell'arte spesso producono delimitazioni non interpretabili sulle transizioni, tralasciano discontinuità sottili ma dannose e si basano su annotazioni rumorose, a bassa diversità e su benchmark obsoleti. Per mitigare queste limitazioni, proponiamo OmniShotCut, che formula la SBD come una previsione relazionale strutturata, stimando congiuntamente gli intervalli delle inquadrature con relazioni intra-shot e inter-shot, mediante un Transformer video denso basato su query di scena. Per evitare un'etichettatura manuale imprecisa, adottiamo una pipeline di sintesi delle transizioni completamente sintetica che riproduce automaticamente le principali famiglie di transizioni con delimitazioni precise e varianti parametriche. Introduciamo inoltre OmniShotCutBench, un benchmark moderno e ad ampio dominio che consente una valutazione olistica e diagnostica.

Perché il Fine-Tuning Incoraggia le Allucinazioni e Come Risolvere il Problema
Why Fine-Tuning Encourages Hallucinations and How to Fix It

Apr 16

ByGuy Kaplan, Zorik Gekhman, Zhen Zhu, Lotem Rozner, Yuval Reif, Swabha Swayamdipta, Derek Hoiem, Roy Schwartz

I grandi modelli linguistici tendono a generare affermazioni fattualmente errate (allucinazioni). Una fonte chiave di questi errori è l'esposizione a nuove informazioni fattuali attraverso il fine-tuning supervisionato (SFT), che può aumentare le allucinazioni relative alla conoscenza acquisita durante la pre-addestramento. In questo lavoro, esploriamo se le allucinazioni indotte da SFT possano essere mitigate utilizzando strumenti consolidati dalla letteratura sul continual learning, poiché esse sorgono come sottoprodotto del degrado della conoscenza durante l'addestramento. Proponiamo un metodo SFT basato sull'auto-distillazione che facilita un apprendimento fattuale efficace minimizzando al contempo le allucinazioni relative alla conoscenza preesistente, regolarizzando la deriva della distribuzione di output. Mostriamo inoltre che, in contesti in cui l'acquisizione di nuova conoscenza non è necessaria, sopprimere la plasticità fattuale congelando gruppi di parametri può preservare le prestazioni del compito riducendo le allucinazioni. Infine, investigiamo il meccanismo alla base delle allucinazioni indotte da SFT attraverso tre ipotesi: limitazioni di capacità, clonazione del comportamento e interferenza localizzata. I nostri esperimenti mostrano che un fattore principale è l'interferenza tra rappresentazioni semantiche sovrapposte, e che l'auto-distillazione ha successo mitigando tale interferenza.

Sapiens2
Sapiens2

Apr 23

ByRawal Khirodkar, He Wen, Julieta Martinez, Yuan Dong, Su Zhaoen, Shunsuke Saito

Presentiamo Sapiens2, una famiglia di modelli transformer ad alta risoluzione per la visione incentrata sull'umano, focalizzata su generalizzazione, versatilità e output ad alta fedeltà. Le dimensioni dei nostri modelli variano da 0,4 a 5 miliardi di parametri, con risoluzione nativa 1K e varianti gerarchiche che supportano il 4K. Sapiens2 migliora sostanzialmente il suo predecessore sia nel pre-training che nel post-training. In primo luogo, per apprendere feature che catturino dettagli di basso livello (per la predizione densa) e semantica di alto livello (per impostazioni zero-shot o few-label), combiniamo la ricostruzione di immagini mascherate con obiettivi contrastivi auto-distillati. Le nostre valutazioni mostrano che questo obiettivo di pre-training unificato è più adatto a un'ampia gamma di task downstream. In secondo luogo, lungo l'asse dei dati, effettuiamo il pre-training su un dataset curato di 1 miliardo di immagini umane di alta qualità e miglioriamo la qualità e la quantità delle annotazioni per i task. In terzo luogo, a livello architetturale, incorporiamo progressi da modelli all'avanguardia che consentono cicli di training più lunghi con stabilità migliorata. I nostri modelli 4K adottano l'attenzione a finestra per ragionare su contesti spaziali più lunghi e sono pre-addestrati con risoluzione di output 2K. Sapiens2 stabilisce un nuovo stato dell'arte e migliora rispetto alla prima generazione sulla posa (+4 mAP), sulla segmentazione delle parti del corpo (+24,3 mIoU), sulla stima della normale (45,6% di errore angolare in meno) e si estende a nuovi task come la stima della pointmap e dell'albedo. Codice: https://github.com/facebookresearch/sapiens2

UniGeo: Unificazione della Guida Geometrica per la Modifica delle Immagini Controllabile da Camera tramite Modelli Video
UniGeo: Unifying Geometric Guidance for Camera-Controllable Image Editing via Video Models

Apr 19

ByHong Jiang, Wensong Song, Zongxing Yang, Ruijie Quan, Yi Yang

L'editing di immagini controllabile tramite fotocamera mira a sintetizzare nuove visuali di una data scena sotto diverse pose della fotocamera, preservando rigorosamente la consistenza geometrica tra le viste. Tuttavia, i metodi esistenti si basano tipicamente su una guida geometrica frammentata, come iniettare solo nuvole di punti a livello di rappresentazione nonostante i modelli contengano più livelli, e sono principalmente basati su modelli di diffusione di immagini che operano su mappature di vista discrete. Queste due limitazioni portano congiuntamente a deriva geometrica e degrado strutturale sotto moto continuo della fotocamera. Osserviamo che, sebbene l'utilizzo di modelli video fornisca prior continui del punto di vista per l'editing controllabile, essi faticano comunque a formare una comprensione geometrica stabile se la guida geometrica rimane frammentata. Per affrontare sistematicamente questo problema, iniettiamo una guida geometrica unificata attraverso tre livelli che determinano congiuntamente l'output generativo: rappresentazione, architettura e funzione di perdita. A tal fine, proponiamo UniGeo, un nuovo framework di editing controllabile dalla fotocamera. Nello specifico, a livello di rappresentazione, UniGeo incorpora un meccanismo di iniezione di riferimento geometrico disaccoppiato dal frame per fornire un contesto geometrico robusto tra le viste. A livello architetturale, introduce un'attenzione di ancoraggio geometrico per allineare le caratteristiche multi-vista. A livello della funzione di perdita, propone una strategia di supervisione geometrica endpoint della traiettoria per rafforzare esplicitamente la fedeltà strutturale delle viste target. Esperimenti completi su molteplici benchmark pubblici, che coprono sia impostazioni di moto della fotocamera esteso che limitato, dimostrano che UniGeo supera significativamente i metodi esistenti sia nella qualità visiva che nella consistenza geometrica.

TexOCR: Avanzamento dei modelli OCR per documenti nella ricostruzione compilabile da pagina a LaTeX
TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction

Apr 24

ByChengye Wang, Lin Fu, Zexi Kuang, Yilun Zhao

L'OCR per documenti esistenti si concentra prevalentemente su testo semplice o Markdown, tralasciando le proprietà strutturali ed eseguibili che rendono LaTeX essenziale per la pubblicazione scientifica. Studiamo la ricostruzione a livello di pagina di PDF scientifici in LaTeX compilabile e introduciamo TexOCR-Bench, un benchmark, e TexOCR-Train, un corpus di addestramento su larga scala, per questo compito. TexOCR-Bench presenta una suite di valutazione multidimensionale che valuta congiuntamente la fedeltà della trascrizione, la correttezza strutturale e la compilabilità end-to-end. Sfruttando TexOCR-Train, addestriamo un modello da 2 miliardi di parametri, TexOCR, utilizzando fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) con ricompense verificabili derivate da test unitari LaTeX che impongono direttamente la compilabilità e l'integrità referenziale. Esperimenti condotti su 21 modelli all'avanguardia utilizzando TexOCR-Bench dimostrano che i sistemi esistenti violano frequentemente invarianti documentali chiave, inclusa la coerenza della struttura delle sezioni, il corretto posizionamento dei float e i collegamenti validi tra etichette e riferimenti, il che mina l'affidabilità della compilazione e l'usabilità downstream. La nostra analisi rivela inoltre che l'RL con ricompense verificabili produce miglioramenti consistenti rispetto al solo SFT, in particolare sulle metriche strutturali e di compilazione.

Quanto Vale una Ricorrenza? Leggi di Scala a Iso-Profondità per Modelli Linguistici ad Anello
How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models

Apr 27

ByKristian Schwethelm, Daniel Rueckert, Georgios Kaissis

Misuriamo il valore di una ricorrenza aggiuntiva per un modello linguistico con loop (a ricorrenza di profondità), espresso in parametri unici equivalenti. Da un'analisi iso-depth di 116 esecuzioni di pre-addestramento su conteggi di ricorrenza r in {1, 2, 4, 8} che coprono {sim}50 volte il costo computazionale di training, adattiamo una legge di scaling congiunta L = E + A,(N_once + r^φ N_rec)^{-α} + B,D^{-β} e ricaviamo un nuovo esponente di equivalenza di ricorrenza φ= 0.46. Intuitivamente, φ indica se eseguire il loop di un blocco r volte è equivalente in termini di loss di validazione a r blocchi unici di un modello senza loop (equivalenza completa, φ{=}1) o a un singolo blocco eseguito ripetutamente senza guadagno di capacità (φ{=}0). Il nostro φ= 0.46 si colloca a metà strada, quindi ogni ricorrenza aggiuntiva aumenta prevedibilmente la loss di validazione a parità di costo computazionale di training. Ad esempio, a r{=}4, un modello con loop da 410M performa in modo simile a un modello senza loop da 580M, ma sostiene il costo di training di un modello senza loop da 1B. Dimostriamo l'utilità di φ come strumento di misurazione con due probe. La backpropagation troncata abbassa φ a 0.38, indicando che il meccanismo di loop è addestrato in modo insufficiente sotto troncamento, nonostante la loss di validazione diminuisca. Viceversa, le iperconnessioni aumentano φ a 0.65, un reale guadagno di capacità. Il nostro metodo si applica a qualsiasi LM con loop e separa i veri miglioramenti del loop dai guadagni del budget dei token.

Stabilizzazione del Ragionamento Efficiente con la Selezione di Vantaggio a Livello di Passo
Stabilizing Efficient Reasoning with Step-Level Advantage Selection

Apr 27

ByHan Wang, Xiaodong Yu, Jialian Wu, Jiang Liu, Ximeng Sun, Mohit Bansal, Zicheng Liu

I grandi modelli linguistici (LLM) ottengono solide prestazioni di ragionamento allocando una sostanziale quantità di calcolo al momento dell'inferenza, generando spesso tracce di ragionamento lunghe e verbose. Sebbene i recenti lavori sul ragionamento efficiente riducano questo sovraccarico attraverso ricompense basate sulla lunghezza o potature, molti approcci vengono addestrati in post-addestramento con una finestra contestuale molto più corta rispetto all'addestramento del modello base, un fattore il cui effetto non è stato isolato sistematicamente. Mostriamo innanzitutto che il solo post-addestramento a contesto breve, utilizzando il GRPO standard senza alcun obiettivo legato alla lunghezza, induce già di per sé una sostanziale compressione del ragionamento, ma al prezzo di dinamiche di addestramento sempre più instabili e di un degrado dell'accuratezza. Per affrontare questo problema, proponiamo la Selezione del Vantaggio a Livello di Passaggio (Step-level Advantage Selection, SAS), che opera a livello del singolo passo di ragionamento e assegna un vantaggio pari a zero ai passaggi a bassa confidenza in rollout corretti e ai passaggi ad alta confidenza in rollout falliti dal verificatore, dove i fallimenti spesso derivano da troncamenti o problemi del verificatore piuttosto che da un ragionamento errato. Su vari benchmark di ragionamento matematico e generale, SAS migliora l'accuratezza media Pass@1 di 0,86 punti rispetto al baseline più forte con consapevolezza della lunghezza, riducendo al contempo la lunghezza media del ragionamento del 16,3%, producendo un miglior compromesso tra accuratezza ed efficienza.

PageGuide: Estensione del browser per aiutare gli utenti a navigare una pagina web e individuare le informazioni.
PageGuide: Browser extension to assist users in navigating a webpage and locating information

Apr 26

ByTin Nguyen, Thang T. Truong, Runtao Zhou, Trung Bui, Chirag Agarwal, Anh Totti Nguyen

Gli utenti che navigano quotidianamente sul web faticano a individuare rapidamente informazioni rilevanti in pagine disordinate, a completare attività complesse e poco familiari e a mantenere la concentrazione tra contenuti distraenti. I moderni assistenti IA (ad es. ChatGPT, Gemini, Claude) e agenti browser (ad es. OpenAI Operator, Browser Use) possono rispondere a domande e automatizzare azioni, ma restituiscono risultati senza mostrare l'origine delle informazioni sulla pagina, costringendo gli utenti a verificare manualmente i risultati e a fidarsi ciecamente di ogni passaggio automatizzato. Presentiamo PageGuide, un'estensione browser che ancora le risposte degli LLM direttamente nel DOM HTML tramite overlay visivi, affrontando tre esigenze fondamentali: (a) Trovare - individuare ed evidenziare evidenze contestuali in modo che gli utenti possano verificare istantaneamente le risposte; (b) Guidare - mostrare istruzioni passo-passo (es. come cambiare password) una alla volta per consentire agli utenti di eseguire autonomamente le azioni; (c) Nascondere - offrire la possibilità di oscurare contenuti distraenti, lasciando all'utente la scelta finale. In uno studio utenti (N=94), PageGuide ha superato la navigazione non assistita in tutte le modalità: l'accuratezza in Nascondere è migliorata di 26 punti percentuali (+86,7%) con un calo del 70% nei tempi di completamento; la percentuale di successo in Guidare è aumentata di 30 punti; Trovare ha ridotto lo sforzo di ricerca manuale, con un utilizzo di Ctrl+F diminuito dell'80% e tempi di attività ridotti del 19%. Codice e demo su: pageguide.github.io.

Imparare a Identificare Oggetti Fuori Distribuzione per la Segmentazione di Anomalie nella LiDAR 3D
Learning to Identify Out-of-Distribution Objects for 3D LiDAR Anomaly Segmentation

Apr 26

BySimone Mosco, Daniel Fusaro, Alberto Pretto

La comprensione dell'ambiente circostante è fondamentale per la guida autonoma e la percezione robotica. Distinguere tra classi note e oggetti mai visti in precedenza è cruciale in ambienti del mondo reale, come avviene nell'Anomaly Segmentation. Tuttavia, la ricerca nel campo 3D rimane limitata, con la maggior parte degli approcci esistenti che applicano tecniche di post-elaborazione derivate dalla visione 2D. Per colmare questa lacuna, proponiamo un nuovo approccio efficiente che opera direttamente nello spazio delle feature, modellando la distribuzione delle feature delle classi inlier per vincolare i campioni anomali. Inoltre, l'unico dataset pubblico disponibile per l'anomaly segmentation con LiDAR 3D contiene scenari semplici, con poche istanze anomale, e presenta un grave divario di dominio a causa della risoluzione del suo sensore. Per colmare questo divario, introduciamo una serie di dataset misti reali-sintetici per l'anomaly segmentation con LiDAR 3D, basati su benchmark consolidati di segmentazione semantica, con molteplici oggetti out-of-distribution e ambienti diversificati e complessi. Esperimenti estensivi dimostrano che il nostro approccio ottiene risultati all'avanguardia e competitivi rispettivamente sul dataset reale esistente e sui nuovi dataset misti introdotti, convalidando l'efficacia del nostro metodo e l'utilità dei dataset proposti. Il codice e i dataset sono disponibili all'indirizzo https://simom0.github.io/lido-page/.

ProEval: Scoperta Proattiva dei Fallimenti e Stima Efficiente delle Prestazioni per la Valutazione dell'Intelligenza Artificiale Generativa
ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Apr 25

ByYizheng Huang, Wenjun Zeng, Aditi Kumaresan, Zi Wang

La valutazione dei modelli di intelligenza artificiale generativa sta diventando sempre più onerosa in termini di risorse, a causa dell'inferenza lenta, dei costi elevati per i valutatori umani e del panorama in rapida crescita di modelli e benchmark. Proponiamo ProEval, un framework di valutazione proattiva che sfrutta il transfer learning per stimare efficientemente le prestazioni e identificare i casi di fallimento. ProEval utilizza Processi Gaussiani (GP) pre-addestrati come surrogate per la funzione del punteggio di performance, mappando gli input del modello a metriche come la gravità degli errori o delle violazioni della sicurezza. Inquadrando la stima delle prestazioni come quadratura bayesiana (BQ) e la scoperta dei fallimenti come campionamento di insiemi di livello superiore, sviluppiamo strategie decisionali aware dell'incertezza che selezionano o sintetizzano attivamente input altamente informativi per i test. Da un punto di vista teorico, dimostriamo che il nostro stimatore BQ basato su GP pre-addestrato è non distorto e limitato. Empiricamente, esperimenti estesi su benchmark di ragionamento, allineamento alla sicurezza e classificazione dimostrano che ProEval è significativamente più efficiente rispetto ai baseline competitivi. Richiede da 8 a 65 volte in meno di campioni per ottenere stime entro l'1% del ground truth, rivelando simultaneamente casi di fallimento più diversificati con un budget di valutazione più restrittivo.

ATTN-FIQA: Valutazione Interpretabile della Qualità delle Immagini Facciali basata su Meccanismi di Attenzione con Vision Transformers
ATTN-FIQA: Interpretable Attention-based Face Image Quality Assessment with Vision Transformers

Apr 21

ByGuray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Marco Huber, Andrea Atzori, Naser Damer, Fadi Boutros

La valutazione della qualità delle immagini facciali (FIQA) mira a valutare l'utilità per il riconoscimento dei campioni di volti ed è essenziale per sistemi di riconoscimento facciale (FR) affidabili. Gli approcci esistenti richiedono procedure computazionalmente costose come passaggi in avanti multipli, backpropagation o training aggiuntivo, e solo recentemente il lavoro si è concentrato sull'uso dei Vision Transformer. Studi recenti hanno evidenziato che queste architetture funzionano intrinsecamente come rilevatori di salienza, con pattern di attenzione che codificano naturalmente l'importanza spaziale. Questo lavoro propone ATTN-FIQA, un innovativo approccio senza training che investiga se i punteggi di attenzione pre-softmax da modelli FR pre-addestrati basati su Vision Transformer possano servire come indicatori di qualità. Ipotesizziamo che le magnitudini di attenzione codifichino intrinsecamente la qualità: immagini di alta qualità con caratteristiche facciali discriminative consentono forti allineamenti query-chiave producendo pattern di attenzione focalizzati e ad alta magnitudine, mentre immagini degradate generano pattern diffusi e a bassa magnitudine. ATTN-FIQA estrae le matrici di attenzione pre-softmax dall'ultimo blocco del transformer, aggrega le informazioni di multi-head attention tra tutti i patch e calcola punteggi di qualità a livello di immagine attraverso una semplice media, richiedendo solo un singolo passaggio in avanti attraverso modelli pre-addestrati senza modifiche architetturali, backpropagation o training aggiuntivo. Attraverso una valutazione completa su otto dataset di benchmark e quattro modelli FR, questo lavoro dimostra che i punteggi di qualità basati sull'attenzione correlano efficacemente con la qualità dell'immagine facciale e forniscono interpretabilità spaziale, rivelando quali regioni facciali contribuiscono maggiormente alla determinazione della qualità.

Apprendimento Robotico Disambiguato tramite Pretraining Separato delle Dinamiche Dirette e Inverse
Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

Mar 27

ByWenyao Zhang, Bozhou Zhang, Zekun Qi, Wenjun Zeng, Xin Jin, Li Zhang

I modelli visione-linguaggio-azione (VLA) hanno mostrato un grande potenziale nella costruzione di robot generalisti, ma devono ancora affrontare un dilemma: il disallineamento tra la previsione di immagini 2D e la predizione di azioni 3D. Inoltre, questo approccio di addestramento intrecciato tra visione e azione limita l'apprendimento del modello da dati video web su larga scala privi di annotazioni azionali. Per affrontare questi problemi, proponiamo DeFI, un nuovo framework che *Decopula* il precaricamento delle dinamiche visive *Forward* e *Inverse* per sfruttare le rispettive fonti di dati, in cui la generazione video e la predizione di azioni sono disaccoppiate. Introduciamo il General Forward Dynamics Model (GFDM), precaricato su video eterogenei di umani e robot per la previsione futura, e il General Inverse Dynamics Model (GIDM), addestrato tramite apprendimento auto-supervisionato per inferire azioni latenti da transizioni video non etichettate. Questi modelli vengono poi integrati in un'architettura unificata per un fine-tuning end-to-end su task downstream. In questo modo, GFDM e GIDM brillano prima separatamente e poi cooperano per un beneficio reciproco. Esperimenti estensivi su CALVIN ABC-D e SimplerEnv dimostrano prestazioni allo stato dell'arte, con DeFI che raggiunge una lunghezza media del task di 4.51 per CALVIN, un tasso di successo del 51.2% sul benchmark SimplerEnv-Fractal e un tasso di successo dell'81.3% in scenari reali, superando significativamente i metodi precedenti.

IndustryAssetEQA: Un Sistema di Intelligenza Operativa Neurosimbolica per il Rispondere a Domande Embodied nella Manutenzione di Asset Industriali
IndustryAssetEQA: A Neurosymbolic Operational Intelligence System for Embodied Question Answering in Industrial Asset Maintenance

Apr 25

ByChathurangi Shyalika, Dhaval Patel, Amit Sheth

Gli ambienti di manutenzione industriale si affidano sempre più a sistemi di intelligenza artificiale per assistere gli operatori nella comprensione del comportamento dei beni, nella diagnosi dei guasti e nella valutazione degli interventi. Sebbene i grandi modelli linguistici (LLM) consentano un'interazione fluida in linguaggio naturale, gli assistenti alla manutenzione implementati producono sistematicamente spiegazioni generiche scarsamente ancorate alla telemetria, omettono la tracciabilità verificabile e non forniscono supporto verificabile per ragionamenti controfattuali o orientati all'azione, minando la fiducia in contesti critici per la sicurezza. Presentiamo IndustryAssetEQA, un sistema di intelligenza operativa neurosimbolica che combina rappresentazioni telemetriche episodiche con una Knowledge Graph per l'Analisi dei Modi di Guasto e dei loro Effetti (FMEA-KG) per abilitare l'Embodied Question Answering (EQA) sui beni industriali. Valutiamo il sistema su quattro dataset che coprono quattro tipologie di beni industriali, inclusi macchinari rotanti, motori turbofan, sistemi idraulici e sistemi di produzione ciberfisici. Rispetto ai baseline basati esclusivamente su LLM, IndustryAssetEQA migliora la validità strutturale fino a 0,51, l'accuratezza controfattuale fino a 0,47 e l'implicazione esplicativa di 0,64, riducendo al contempo le affermazioni eccessive gravi valutate da esperti dal 28% al 2% (riduzione approssimativa del 93%). Codice, dataset e FMEA-KG sono disponibili all'indirizzo https://github.com/IBM/AssetOpsBench/tree/IndustryAssetEQA/IndustryAssetEQA.

Miglioramento della Robustezza del Recupero Tabellare tramite Stabilità Rappresentazionale
Improving Robustness of Tabular Retrieval via Representational Stability

Apr 27

ByKushal Raj Bhandari, Adarsh Singh, Jianxi Gao, Soham Dan, Vivek Gupta

I sistemi di recupero di tabelle basati su Transformer appiattiscono le tabelle strutturate in sequenze di token, rendendo il recupero sensibile alla scelta della serializzazione anche quando la semantica della tabella rimane invariata. Dimostriamo che serializzazioni semanticamente equivalenti, come csv, tsv, html, markdown e ddl, possono produrre embedding e risultati di recupero sostanzialmente diversi su più benchmark e famiglie di retriever. Per affrontare questa instabilità, trattiamo l'embedding della serializzazione come viste rumorose di un segnale semantico condiviso e utilizziamo il suo centroide come rappresentazione target canonica. Mostriamo che la media del centroide sopprime la variazione specifica del formato e può recuperare il contenuto semantico comune a diverse serializzazioni quando gli spostamenti indotti dal formato differiscono tra le tabelle. Empiricamente, le rappresentazioni centroidi superano i singoli formati nei confronti a coppie aggregati su MPNet, BGE-M3, ReasonIR e SPLADE. Introduciamo inoltre un adattatore bottleneck residuale leggero sopra un encoder congelato che mappa gli embedding a singola serializzazione verso i target centroidi, preservando la varianza e applicando una regolarizzazione della covarianza. L'adattatore migliora la robustezza per diversi retriever densi, sebbene i guadagni siano dipendenti dal modello e più deboli per il recupero lessicale sparso. Questi risultati identificano la sensibilità alla serializzazione come una fonte principale di varianza nel recupero e mostrano la promessa della correzione geometrica post hoc per il recupero di tabelle invariante alla serializzazione. Il nostro codice, dataset e modelli sono disponibili all'indirizzo https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval.

Miglioramento dei Modelli Linguaggio-Visione mediante Modelli di Ricompensa di Processo Centrati sulla Percezione
Improving Vision-language Models with Perception-centric Process Reward Models

Apr 27

ByYingqian Min, Kun Zhou, Yifan Li, Yuhuan Wu, Han Peng, Yifan Du, Wayne Xin Zhao, Min Yang, Ji-Rong Wen

I recenti progressi nel reinforcement learning con ricompense verificabili (RLVR) hanno migliorato significativamente la capacità di ragionamento complesso dei modelli visione-linguaggio (VLM). Tuttavia, la supervisione a livello di risultato è troppo approssimativa per diagnosticare e correggere gli errori all'interno della catena di ragionamento. A tal fine, proponiamo Perceval, un modello di ricompensa di processo (PRM) che consente la localizzazione degli errori a livello di token, in grado di estrarre asserzioni relative all'immagine dalla risposta e confrontarle una per una con l'evidenza visiva nell'immagine, restituendo infine le asserzioni che contengono errori percettivi. Perceval è addestrato con dati di addestramento supervisionati incentrati sulla percezione. Successivamente, integriamo Perceval nel processo di addestramento RL per addestrare i modelli policy. Nello specifico, rispetto al tradizionale GRPO che applica vantaggi a livello di sequenza, noi applichiamo vantaggi a livello di token mirando a penalizzare le porzioni allucinate identificate da Perceval, abilitando così segnali di supervisione a grana fine. Oltre a potenziare il processo di addestramento, Perceval può anche assistere i VLM durante la fase di inferenza. Utilizzando Perceval, possiamo troncare le porzioni errate della risposta del modello, per poi far rigenerare direttamente la risposta al modello o indurlo a riflettere sul suo output precedente. Questo processo può essere ripetuto più volte per ottenere un scaling a runtime. Gli esperimenti mostrano miglioramenti significativi su benchmark di vari domini per diversi VLM di ragionamento addestrati con RL, evidenziando le potenzialità della supervisione incentrata sulla percezione come strategia generica. Per lo scaling a runtime, si dimostrano anche guadagni di prestazioni consistenti rispetto ad altre strategie, come il voto di maggioranza. Il nostro codice e i nostri dati saranno rilasciati pubblicamente all'indirizzo https://github.com/RUCAIBox/Perceval.

RaV-IDP: Un framework di ricostruzione come validazione per un'elaborazione intelligente dei documenti fedele
RaV-IDP: A Reconstruction-as-Validation Framework for Faithful Intelligent Document Processing

Apr 26

ByPritesh Jha

Le pipeline di elaborazione intelligente dei documenti estraggono entità strutturate (tabelle, immagini e testo) dai documenti per l'utilizzo in sistemi a valle come basi di conoscenza, generazione aumentata dal recupero e analisi. Una limitazione persistente delle pipeline esistenti è che l'output di estrazione viene prodotto senza un meccanismo intrinseco per verificare se rappresenta fedelmente la fonte. I punteggi di confidenza interni al modello misurano la certezza dell'inferenza, non la corrispondenza con il documento, e gli errori di estrazione passano silenziosamente ai consumatori a valle. Presentiamo Reconstruction as Validation (RaV-IDP), una pipeline di elaborazione documentale che introduce la ricostruzione come componente architetturale di prima classe. Dopo che ogni entità viene estratta, un ricostruttore dedicato riproduce la rappresentazione estratta in una forma confrontabile con la regione originale del documento, e un comparatore assegna un punteggio di fedeltà tra la ricostruzione e il ritaglio della fonte non modificato. Questo punteggio di fedeltà è un segnale di qualità ancorato alla realtà e privo di etichette. Quando la fedeltà scende al di sotto di una soglia specifica per tipo di entità, viene attivato un fallback strutturato con visione GPT-4.1 e il ciclo di validazione si ripete. Applichiamo un vincolo di bootstrap: il comparatore si ancorà sempre alla regione originale del documento, mai all'estrazione, prevenendo così che la validazione diventi circolare. Proponiamo inoltre un framework di valutazione per fase che abbina ogni componente della pipeline a un benchmark appropriato. La pipeline di codice è pubblicamente disponibile all'indirizzo https://github.com/pritesh-2711/RaV-IDP per sperimentazione e utilizzo.

EX-FIQA: Sfruttamento delle Rappresentazioni Intermedie delle Uscite Anticipate dai Vision Transformer per la Valutazione della Qualità delle Immagini Facciali
EX-FIQA: Leveraging Intermediate Early eXit Representations from Vision Transformers for Face Image Quality Assessment

Apr 21

ByGuray Ozgur, Tahar Chettaoui, Eduarda Caldeira, Jan Niklas Kolf, Andrea Atzori, Fadi Boutros, Naser Damer

La valutazione della qualità delle immagini facciali è fondamentale per sistemi affidabili di riconoscimento facciale, tuttavia gli approcci esistenti basati su Vision Transformer si basano esclusivamente su rappresentazioni dell'ultimo livello, ignorando le informazioni rilevanti per la qualità catturate a profondità intermedie della rete. Questo articolo presenta la prima investigazione completa di come le rappresentazioni intermedie all'interno dei ViT contribuiscano alla valutazione della qualità facciale attraverso meccanismi di early exit e strategie di fusione dei punteggi. Analizziamo sistematicamente tutti e dodici i blocchi transformer delle architetture ViT-FIQA, dimostrando che diverse profondità catturano informazioni distinte e complementari relative alla qualità, come evidenziato dai diversi pattern di attenzione e caratteristiche prestazionali attraverso i livelli della rete. Proponiamo un framework di fusione dei punteggi che combina le previsioni di qualità di più blocchi transformer senza modifiche architetturali o training aggiuntivo. La nostra analisi degli early exit rivela compromessi ottimali tra prestazioni ed efficienza, consentendo significativi risparmi computazionali mantenendo prestazioni competitive. Attraverso una valutazione estesa su otto dataset di benchmark utilizzando quattro modelli di riconoscimento facciale, dimostriamo che la nostra strategia di fusione migliora gli approcci a singola uscita. Il nostro approccio proposto di fusione della qualità impiega una media ponderata per profondità che assegna un'importanza progressivamente maggiore ai blocchi transformer più profondi, raggiungendo le migliori prestazioni di valutazione della qualità sfruttando efficacemente la natura gerarchica dell'apprendimento delle feature nei ViT. Il nostro lavoro mette in discussione la convinzione convenzionale che solo le feature profonde siano importanti per l'analisi facciale, rivelando che le rappresentazioni intermedie contengono informazioni preziose per la valutazione della qualità. Il framework proposto offre vantaggi pratici per i sistemi biometrici reali consentendo calcoli adattivi basati sui vincoli delle risorse mantenendo capacità competitive di valutazione della qualità.

KV Routing Stocastico: Abilitazione della Condivisione Adattiva della Cache in Profondità
Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Apr 3

ByAnastasiia Filippova, David Grangier, Marco Cuturi, João Monteiro

La gestione di modelli linguistici transformer ad alta produttività richiede la memorizzazione nella cache di chiavi e valori (KV) per evitare calcoli ridondanti durante la generazione autoregressiva. L'ingombro di memoria della cache KV è significativo e influisce pesantemente sui costi di servizio. Questo lavoro si propone di ridurre questi requisiti di memoria. Mentre i recenti studi hanno affrontato la riduzione della cache KV principalmente attraverso la compressione e l'evizione lungo l'asse temporale, noi sosteniamo che la dimensione della profondità offre un percorso di ottimizzazione ortogonale e robusto. Sebbene ricerche precedenti suggeriscano che una cache completa per ogni livello sia ridondante, l'implementazione della condivisione della cache tra livelli rimane una sfida pratica; i metodi esistenti soffrono tipicamente di una ridotta produttività o di un aumento del tempo per il primo token. In questo articolo, dimostriamo che l'eliminazione della cache di un livello offre un'ottimizzazione efficiente senza perdita di informazioni. Proponiamo un semplice approccio di addestramento: l'attenzione casuale tra livelli. Durante l'addestramento, i livelli scelgono casualmente di attendere sia ai propri stati KV che a quelli di un livello precedente. Questo processo stocastico adatta il modello per essere robusto a varie strategie di condivisione della cache lungo la profondità, garantendo flessibilità per vincoli hardware sconosciuti al momento del deployment. Le nostre valutazioni mostrano che l'applicazione di questo schema durante il pre-addestramento o il fine-tuning abilita la condivisione della cache lungo la profondità per varie famiglie di modelli. Inoltre, per modelli più grandi in contesti con dati limitati, questo approccio suggerisce un effetto simile alla regolarizzazione, preservando o migliorando frequentemente le prestazioni mentre riduce significativamente l'ingombro di memoria della cache.

Scoprire Specifiche di Sicurezza Agenti da Segnali di Pericolo a 1 Bit
Discovering Agentic Safety Specifications from 1-Bit Danger Signals

Apr 25

ByVíctor Gallego

I modelli linguistici di grandi dimensioni possono scoprire autonomamente obiettivi di sicurezza nascosti solo attraverso l'esperienza? Presentiamo EPO-Safe (Ottimizzazione Esperienziale dei Prompt per Agenti Sicuri), un framework in cui un LLM genera iterativamente piani d'azione, riceve avvisi di pericolo binari e sparsi, ed evolve una specifica comportamentale in linguaggio naturale attraverso la riflessione. A differenza dei metodi standard di riflessione per LLM che si basano su feedback testuali ricchi (ad esempio, errori del compilatore o risposte dettagliate dell'ambiente), EPO-Safe dimostra che gli LLM possono eseguire ragionamenti sulla sicurezza partendo da un segnale rigorosamente impoverito in ambienti strutturati e a bassa dimensionalità: l'agente non osserva mai la funzione di performance nascosta R*, ma solo un singolo bit per passo temporale che indica se un'azione era non sicura. Valutiamo il framework su cinque AI Safety Gridworlds (Leike et al., 2017) e cinque scenari testuali analoghi in cui la ricompensa visibile R può divergere da R*. EPO-Safe scopre comportamenti sicuri entro 1-2 round (5-15 episodi), producendo specifiche leggibili dall'uomo con ipotesi esplicative corrette sui pericoli (ad esempio, "Le celle X sono pericolose in modo direzionale: entrare da nord è rischioso"). In modo cruciale, dimostriamo che la riflessione standard guidata dalla ricompensa degrada attivamente la sicurezza: agenti che riflettono solo sulla ricompensa utilizzano il ciclo per giustificare e accelerare il reward hacking, provando che la riflessione deve essere abbinata a un canale dedicato alla sicurezza per scoprire vincoli nascosti. Valutiamo inoltre la robustezza a oracoli rumorosi: anche quando il 50% dei passi non pericolosi produce avvisi spurii, la performance media di sicurezza si degrada in media solo del 15%, sebbene la sensibilità dipenda dall'ambiente, poiché la riflessione cross-episodio filtra naturalmente i segnali inconsistenti. Ogni specifica evoluta funziona come un insieme verificabile di regole comportamentali radicate, scoperte autonomamente attraverso l'interazione, anziché essere scritte da umani come nell'Intelligenza Artificiale Costituzionale (Bai et al., 2022).

Zero-to-CAD: Sintesi Agente di Programmi CAD Interpretabili su Scala Milionaria Senza Dati Reali
Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

Apr 27

ByMohammadmehdi Ataei, Farzaneh Askari, Kamal Rahimi Malekshan, Pradeep Kumar Jayaraman

I modelli di progettazione assistita da computer (CAD) sono definiti dalla loro cronologia di costruzione: una ricetta parametrica che codifica l'intento progettuale. Tuttavia, i dataset 3D su larga scala esistenti sono composti prevalentemente da rappresentazioni di confine (B-Rep) o mesh, privandoli di queste fondamentali informazioni procedurali. Per affrontare questa carenza, introduciamo Zero-to-CAD, un framework scalabile per la sintesi di sequenze di costruzione CAD eseguibili. Inquadriamo la sintesi come un problema di ricerca agentica: integrando un grande modello linguistico (LLM) in un ambiente CAD guidato dal feedback, il nostro sistema genera, esegue e convalida iterativamente del codice, utilizzando strumenti e ricerche nella documentazione per promuovere la validità geometrica e la diversità delle operazioni. Questo approccio agentico consente la sintesi di circa un milione di sequenze CAD eseguibili, leggibili e modificabili, che coprono un ricco vocabolario di operazioni che vanno oltre i flussi di lavoro basati su schizzo ed estrusione. Rilasciamo anche un subset curato di 100.000 modelli di alta qualità selezionati per la loro diversità geometrica. Per dimostrare l'utilità del dataset, addestriamo un modello visione-linguaggio sui nostri dati sintetici per ricostruire programmi CAD modificabili a partire da immagini multi-vista, superando baseline solide, incluso GPT-5.2, e avviando efficacemente le capacità di generazione di sequenze senza dati di addestramento reali sulla cronologia di costruzione. Zero-to-CAD colma il divario tra scala geometrica e interpretabilità parametrica, offrendo una risorsa vitale per la prossima generazione di intelligenza artificiale per il CAD.

Vantaggio del Kernel Quantistico rispetto al Collasso Classico negli Embedding di Modelli Medici Fondamentali
Quantum Kernel Advantage over Classical Collapse in Medical Foundation Model Embeddings

Apr 27

BySebastian Cajas Ordóñez, Felipe Ocampo Osorio, Dax Enshan Koh, Rafi Al Attrach, Aldo Marzullo, Ariel Guerra-Adames, J. Alejandro Andrade, Siong Thye Goh, Chi-Yu Chen, Rahul Gorijavolu, Xue Yang, Noah Dane Hebdon, Leo Anthony Celi

Forniamo evidenza di un vantaggio del kernel quantistico in simulazioni prive di rumore nella classificazione binaria di assicurazioni su radiografie toraciche MIMIC-CXR, utilizzando macchine a vettori di supporto quantistiche (QSVM) con embedding congelati provenienti da tre modelli fondazionali medici (MedSigLIP-448, RAD-DINO, ViT-patch32). Proponiamo un framework di confronto equo a due livelli in cui entrambi i classificatori ricevono le stesse caratteristiche PCA-q. Al Livello 1 (QSVM non ottimizzata vs. SVM lineare non ottimizzata, C = 1 per entrambe), la QSVM vince sull'F1 della classe minoritaria in tutte le 18 configurazioni testate (17 con p < 0.001, 1 con p < 0.01). Il kernel lineare classico collassa sulla predizione della classe maggioritaria sul 90-100% dei seed per ogni numero di qubit, mentre la QSVM mantiene un recall non banale. A q = 11 (centro del plateau per MedSigLIP-448), la QSVM raggiunge un F1 medio = 0.343 contro un F1 classico = 0.050 (guadagno di F1 = +0.293, p < 0.001) senza ottimizzazione degli iperparametri. Sotto il Livello 2 (QSVM non ottimizzata vs. SVM RBF con C ottimizzato), la QSVM vince in tutte le sette configurazioni testate (guadagno medio +0.068, max +0.112). L'analisi dello spettro degli autovalori rivela che il rango effettivo del kernel quantistico raggiunge 69.80 a q = 11, superando di gran lunga il rango del kernel lineare, mentre il collasso classico rimane invariante rispetto a C. Una scansione completa dei qubit rivela un inizio di concentrazione dipendente dall'architettura tra i modelli. Codice: https://github.com/sebasmos/qml-medimage

Modelli a Collo di Bottiglia Concettuale Credal per la Scomposizione dell'Incertezza Epistemica-Aleatoria
Credal Concept Bottleneck Models for Epistemic-Aleatoric Uncertainty Decomposition

Apr 27

ByTanmoy Mukherjee, Thomas Bailleux, Pierre Marquis, Zied Bouraoui

I Modelli a Collo di Bottiglia Concettuale (CBM) prevedono attraverso concetti interpretabili dall'uomo, ma tipicamente restituiscono probabilità puntuali dei concetti che confondono l'incertezza epistemica (sotto-specificazione del modello riducibile) con l'incertezza aleatoria (ambiguità dell'input irriducibile). Ciò rende l'incertezza a livello concettuale difficile da interpretare e, cosa più importante, difficile su cui agire. Introduciamo CREDENCE (Credal Ensemble Concept Estimation), un framework CBM che scompone l'incertezza concettuale per costruzione. CREDENCE rappresenta ogni concetto come una previsione credale (un intervallo di probabilità), deriva l'incertezza epistemica dal disaccordo tra diverse "teste concettuali" (concept heads) e stima l'incertezza aleatoria attraverso un output dedicato all'ambiguità, addestrato per corrispondere al disaccordo tra annotatori quando disponibile. I segnali risultanti supportano decisioni prescrittive: automatizzare i casi a bassa incertezza, dare priorità alla raccolta di dati per i casi ad alta incertezza epistemica, indirizzare i casi ad alta incertezza aleatoria alla revisione umana e astenersi quando entrambe sono elevate. In diverse attività, mostriamo che l'incertezza epistemica è positivamente associata agli errori di previsione, mentre l'incertezza aleatoria segue da vicino il disaccordo tra annotatori, fornendo una guida che va oltre la correlazione con l'errore. La nostra implementazione è disponibile al seguente link: https://github.com/Tankiit/Credal_Sets/tree/ensemble-credal-cbm

La personalità modella il pregiudizio di genere nelle narrazioni di LLM condizionate da persona in inglese e hindi: un'indagine empirica
Personality Shapes Gender Bias in Persona-Conditioned LLM Narratives Across English and Hindi: An Empirical Investigation

Apr 26

ByTanay Kumar, Shreya Gautam, Aman Chadha, Vinija Jain, Francesco Pierri

I Large Language Model (LLM) vengono sempre più impiegati in applicazioni basate su personaggi, come l'istruzione, l'assistenza clienti e le piattaforme sociali, dove i modelli vengono istruiti per adottare personaggi specifici durante l'interazione con gli utenti. Sebbene il condizionamento del personaggio possa migliorare l'esperienza e il coinvolgimento dell'utente, solleva anche preoccupazioni su come gli indizi di personalità possano interagire con i pregiudizi e gli stereotipi di genere. In questo lavoro, presentiamo uno studio controllato sulla generazione di storie condizionate da un personaggio in inglese e hindi, in cui ogni storia ritrae un professionista che lavora in India e produce artefatti specifici del contesto (ad esempio, piani di lezione, rapporti, lettere) variando sistematicamente il genere del personaggio, il ruolo professionale e i tratti della personalità dei framework HEXACO e Triade Oscura. Attraverso l'analisi di 23.400 storie generate da sei LLM all'avanguardia, scopriamo che i tratti della personalità sono significativamente associati sia all'entità che alla direzione del pregiudizio di genere. In particolare, i tratti della personalità della Triade Oscura sono costantemente associati a rappresentazioni di genere più stereotipate rispetto ai tratti socialmente desiderabili dell'HEXACO, sebbene queste associazioni varino tra modelli e lingue. I nostri risultati dimostrano che il pregiudizio di genere negli LLM non è statico ma dipendente dal contesto. Ciò suggerisce che i sistemi condizionati da personaggi utilizzati nelle applicazioni del mondo reale possano introdurre danni rappresentativi non uniformi, rafforzando gli stereotipi di genere nei contenuti educativi, professionali o sociali generati.