HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

37 papers found

HopChain: Sintesi di Dati Multi-Hop per il Ragionamento Visione-Linguaggio Generalizzabile
HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Mar 17

ByShenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin

I VLMs mostrano forti capacità multimodali, ma continuano a lottare con il ragionamento visione-linguaggio di tipo fine-grained. Rileviamo che il ragionamento a catena di pensiero (CoT) lungo espone diverse modalità di fallimento, inclusi errori di percezione, ragionamento, conoscenza e allucinazione, che possono accumularsi attraverso i passaggi intermedi. Tuttavia, la maggior parte dei dati visione-linguaggio esistenti utilizzati per il RLVR non coinvolge catene di ragionamento complesse che si basano su evidenze visive in tutto il processo, lasciando queste debolezze in gran parte inesplorate. Proponiamo quindi HopChain, un framework scalabile per sintetizzare dati di ragionamento visione-linguaggio multi-hop specificamente per l'addestramento RLVR dei VLMs. Ogni query multi-hop sintetizzata forma una catena logicamente dipendente di hop ancorati a istanze, in cui gli hop iniziali stabiliscono le istanze, gli insiemi o le condizioni necessarie per gli hop successivi, mentre la risposta finale rimane un numero specifico e non ambiguo, adatto per ricompense verificabili. Aggiungiamo i dati multi-hop sintetizzati da HopChain ai dati RLVR originali utilizzati per addestrare Qwen3.5-35B-A3B e Qwen3.5-397B-A17B, e confrontiamo i risultati con il RLVR sui soli dati RLVR originali su 24 benchmark che coprono STEM e Puzzle, VQA Generale, Riconoscimento del Testo e Comprensione di Documenti, e Comprensione Video. Sebbene questi dati multi-hop non siano sintetizzati per targettizzare benchmark specifici, la loro aggiunta migliora 20 su 24 benchmark su entrambi i modelli, indicando guadagni ampi e generalizzabili. Per dimostrare l'importanza delle query a catena completa, le sostituiamo con varianti half-multi-hop o single-hop, riducendo rispettivamente l'accuratezza media sui 24 benchmark di 5.3 e 7.0 punti. L'addestramento multi-hop rafforza anche il ragionamento visione-linguaggio a CoT lungo, con guadagni che raggiungono picchi di oltre 50 punti di accuratezza nel regime ultra-lungo CoT. Questi esperimenti stabiliscono HopChain come un framework efficace e scalabile per sintetizzare dati multi-hop che migliorano il ragionamento visione-linguaggio generalizzabile.

Astrolabe: Orientare l'Apprendimento per Rinforzo a Processo Diretto per Modelli Video Autoregressivi Distillati
Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Mar 17

BySongchun Zhang, Zeyue Xue, Siming Fu, Jie Huang, Xianghao Kong, Y Ma, Haoyang Huang, Nan Duan, Anyi Rao

I modelli video autoregressivi (AR) distillati consentono una generazione efficiente in streaming, ma spesso risultano disallineati rispetto alle preferenze visive umane. I framework di apprendimento per rinforzo (RL) esistenti non si adattano naturalmente a queste architetture, richiedendo tipicamente una costosa ri-distillazione o un'ottimizzazione del processo inverso accoppiata a un solver che introduce un notevole sovraccarico computazionale e di memoria. Presentiamo Astrolabe, un framework RL online efficiente progettato specificamente per modelli AR distillati. Per superare i colli di bottiglia esistenti, introduciamo una formulazione RL basata sul processo diretto e su una messa a punto *negative-aware*. Contrastando campioni positivi e negativi direttamente agli endpoint di inferenza, questo approccio stabilisce una direzione di miglioramento della politica implicita senza richiedere lo svolgimento del processo inverso. Per scalare questo allineamento a video lunghi, proponiamo uno schema di addestramento in streaming che genera sequenze progressivamente tramite un *rolling KV-cache*, applicando aggiornamenti RL esclusivamente a finestre di clip locali mentre si condiziona sul contesto precedente per garantire coerenza a lungo raggio. Infine, per mitigare il *reward hacking*, integriamo un obiettivo multi-ricompensa stabilizzato da una regolarizzazione selettiva *uncertainty-aware* e aggiornamenti dinamici del riferimento. Esperimenti estensivi dimostrano che il nostro metodo migliora costantemente la qualità della generazione su molteplici modelli video AR distillati, rappresentando una soluzione di allineamento robusta e scalabile.

TerraScope: Ragionamento Visivo Ancorato ai Pixel per l'Osservazione della Terra
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Mar 19

ByYan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota

I modelli visione-linguaggio (VLM) hanno mostrato potenzialità nel campo dell'osservazione terrestre (EO), ma incontrano difficoltà con compiti che richiedono l'ancoraggio di ragionamenti spaziali complessi a rappresentazioni visive precise a livello di pixel. Per affrontare questo problema, introduciamo TerraScope, un VLM unificato che fornisce ragionamenti geospaziali ancorati ai pixel con due capacità chiave: (1) ragionamento modale-flessibile: gestisce input a modalità singola (ottica o SAR) e fonde adattivamente diverse modalità nel processo di ragionamento quando entrambe sono disponibili; (2) ragionamento multi-temporale: integra sequenze temporali per l'analisi dei cambiamenti su più punti temporali. Inoltre, abbiamo curato Terra-CoT, un dataset su larga scala contenente 1 milione di campioni con maschere a livello di pixel incorporate in catene di ragionamento provenienti da molteplici fonti. Proponiamo anche TerraScope-Bench, il primo benchmark per il ragionamento geospaziale ancorato ai pixel con sei sotto-compiti che valuta sia l'accuratezza delle risposte che la qualità delle maschere per garantire un ragionamento autenticamente ancorato ai pixel. Gli esperimenti mostrano che TerraScope supera significativamente i VLM esistenti nel ragionamento geospaziale ancorato ai pixel, fornendo al contempo evidenze visive interpretabili.

ProactiveBench: Valutazione della Proattività nei Modelli Linguistici Multimodali di Grande Dimensione
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Mar 19

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

Una collaborazione efficace inizia sapendo quando chiedere aiuto. Ad esempio, quando si cerca di identificare un oggetto occluso, un essere umano chiederebbe a qualcuno di rimuovere l'ostruzione. I Modelli Linguistici Multimodali (MLLM) possono mostrare un comportamento "proattivo" simile, richiedendo semplici interventi dell'utente? Per indagare ciò, introduciamo ProactiveBench, un benchmark creato a partire da sette dataset riconvertiti che testa la proattività in diversi compiti, come il riconoscimento di oggetti occlusi, il miglioramento della qualità dell'immagine e l'interpretazione di schizzi approssimativi. Valutiamo 22 MLLM su ProactiveBench, dimostrando che (i) generalmente mancano di proattività; (ii) la proattività non correla con la capacità del modello; (iii) "suggerire" la proattività produce solo guadagni marginali. Sorprendentemente, abbiamo scoperto che le cronologie delle conversazioni e l'apprendimento in-context introducono bias negativi, ostacolando le prestazioni. Infine, esploriamo una semplice strategia di fine-tuning basata sull'apprendimento per rinforzo: i suoi risultati suggeriscono che la proattività può essere appresa, generalizzando persino a scenari non visti. Rilasciamo pubblicamente ProactiveBench come primo passo verso la costruzione di modelli multimodali proattivi.

FlowScene: Generazione di Scene Interne con Stile Coerente tramite Flusso Rettificato Grafico Multimodale
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Mar 20

ByZhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang

La generazione di scene ha ampie applicazioni industriali, richiedendo sia un alto realismo che un controllo preciso su geometria e aspetto. I metodi di retrieval basati sul linguaggio compongono scene plausibili da un ampio database di oggetti, ma trascurano il controllo a livello di oggetto e spesso non riescono a garantire la coerenza stilistica a livello di scena. Le formulazioni basate su grafi offrono una maggiore controllabilità sugli oggetti e garantiscono una coerenza olistica modellando esplicitamente le relazioni, tuttavia i metodi esistenti faticano a produrre risultati testurizzati ad alta fedeltà, limitandone così l'utilità pratica. Presentiamo FlowScene, un modello generativo di scene a tre rami condizionato da grafi multimodali che genera collaborativamente layout di scene, forme degli oggetti e texture degli oggetti. Il suo nucleo è costituito da un modello di flusso rettificato strettamente accoppiato che scambia informazioni sugli oggetti durante la generazione, abilitando un ragionamento collaborativo attraverso il grafo. Ciò consente un controllo granulare delle forme, delle texture e delle relazioni degli oggetti, imponendo al contempo una coerenza stilistica a livello di scena attraverso struttura e aspetto. Esperimenti estensivi mostrano che FlowScene supera le baseline condizionate sia linguisticamente che tramite grafo in termini di realismo della generazione, coerenza stilistica e allineamento con le preferenze umane.

Lo Y-Combinator per gli LLM: Risolvere il decadimento del contesto lungo con il λ-Calcolo
The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

Mar 20

ByAmartya Roy, Rasul Tutunov, Xiaotong Ji, Matthieu Zimmer, Haitham Bou-Ammar

I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come ragionatori generici, ma gli input lunghi rimangono limitati da una finestra di contesto fissa. I Modelli Linguistici Ricorsivi (RLM) affrontano questo problema esternalizzando il prompt e risolvendo ricorsivamente i sottoproblemi. Tuttavia, gli RLM esistenti dipendono da un ciclo read-eval-print loop (REPL) aperto in cui il modello genera codice di controllo arbitrario, rendendo l'esecuzione difficile da verificare, prevedere e analizzare. Introduciamo λ-RLM, un framework per il ragionamento a contesto lungo che sostituisce la generazione di codice ricorsivo libero con un runtime funzionale tipato basato sul λ-calcolo. Questo framework esegue una libreria compatta di combinatori pre-verificati e utilizza l'inferenza neurale solo su sottoproblemi foglia delimitati, trasformando il ragionamento ricorsivo in un programma funzionale strutturato con un flusso di controllo esplicito. Dimostriamo che λ-RLM ammette garanzie formali assenti negli RLM standard, inclusi la terminazione, limiti di costo in forma chiusa, un controllo della precisione in scala con la profondità della ricorsione e una regola di partizione ottimale sotto un semplice modello di costo. Empiricamente, in quattro compiti di ragionamento a contesto lungo e nove modelli base, λ-RLM supera l'RLM standard in 29 su 36 confronti modello-compito, migliora la precisione media fino a +21,9 punti attraverso i diversi livelli di modello e riduce la latenza fino a 4,1 volte. Questi risultati mostrano che il controllo simbolico tipato fornisce una base più affidabile ed efficiente per il ragionamento a contesto lungo rispetto alla generazione di codice ricorsivo aperta. L'implementazione completa di λ-RLM è open-source e disponibile per la comunità all'indirizzo: https://github.com/lambda-calculus-LLM/lambda-RLM.

Iperagenti
Hyperagents

Mar 19

ByJenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina

I sistemi di IA auto-miglioranti mirano a ridurre la dipendenza dall'ingegneria umana imparando a migliorare i propri processi di apprendimento e problem-solving. Gli approcci esistenti all'auto-miglioramento si basano su meccanismi meta-livello fissi e artigianali, limitando fondamentalmente la velocità con cui tali sistemi possono migliorare. La Darwin Gödel Machine (DGM) dimostra un auto-miglioramento aperto nella codifica generando e valutando ripetutamente varianti auto-modificate. Poiché sia la valutazione che l'auto-modifica sono compiti di codifica, i progressi nelle capacità di codifica possono tradursi in progressi nella capacità di auto-miglioramento. Tuttavia, questo allineamento generalmente non vale al di fuori dei domini di codifica. Introduciamo gli iperagenti, agenti autoreferenziali che integrano un agente compito (che risolve il compito target) e un meta-agente (che modifica sé stesso e l'agente compito) in un unico programma modificabile. Fondamentalmente, la procedura di modifica a meta-livello è essa stessa modificabile, consentendo l'auto-modifica metacognitiva, migliorando non solo il comportamento di risoluzione dei compiti, ma anche il meccanismo che genera i miglioramenti futuri. Istanziamo questo framework estendendo la DGM per creare DGM-Hyperagents (DGM-H), eliminando l'assunzione di un allineamento dominio-specifico tra prestazione del compito e abilità di auto-modifica per supportare potenzialmente progressi auto-acceleranti su qualsiasi compito computabile. In vari domini, il DGM-H migliora le prestazioni nel tempo e supera i baseline senza auto-miglioramento o esplorazione aperta, così come i precedenti sistemi auto-miglioranti. Inoltre, il DGM-H migliora il processo con cui genera nuovi agenti (ad esempio, memoria persistente, monitoraggio delle prestazioni), e questi miglioramenti a meta-livello si trasferiscono tra domini e si accumulano tra le esecuzioni. Gli DGM-Hyperagents offrono uno sguardo su sistemi di IA aperti che non si limitano a cercare soluzioni migliori, ma migliorano continuamente la loro ricerca su come migliorare.

LumosX: Collegare Identità e Attributi per la Generazione di Video Personalizzati
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Mar 20

ByJiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu

I recenti progressi nei modelli di diffusione hanno migliorato significativamente la generazione video da testo, consentendo la creazione di contenuti personalizzati con un controllo granulare sia sugli elementi in primo piano che sullo sfondo. Tuttavia, l'allineamento preciso degli attributi facciali tra diversi soggetti rimane una sfida, poiché i metodi esistenti mancano di meccanismi espliciti per garantire la coerenza intra-gruppo. Colmare questa lacuna richiede sia strategie di modellazione esplicite che risorse dati consapevoli degli attributi facciali. Proponiamo quindi LumosX, un framework che avanza sia la progettazione dei dati che quella del modello. Sul fronte dati, una pipeline di raccolta personalizzata orchestra didascalie e segnali visivi da video indipendenti, mentre i modelli linguistici multimodali di grandi dimensioni (MLLM) inferiscono e assegnano dipendenze specifiche per soggetto. Questi priori relazionali estratti impongono una struttura più granulare che amplifica il controllo espressivo della generazione video personalizzata e consente la costruzione di un benchmark completo. Sul lato modellistico, l'Attenzione Relazionale di Sé (Relational Self-Attention) e l'Attenzione Incrociata Relazionale (Relational Cross-Attention) intrecciano incorporamenti posizionali con dinamiche di attenzione raffinate per inscrivere dipendenze esplicite soggetto-attributo, imponendo una disciplinata coesione intra-gruppo e amplificando la separazione tra distinti cluster di soggetti. Valutazioni complete sul nostro benchmark dimostrano che LumosX raggiunge prestazioni all'avanguardia nella generazione video multi-soggetto personalizzata, granulare, coerente nell'identità e allineata semanticamente. Codice e modelli sono disponibili all'indirizzo https://jiazheng-xing.github.io/lumosx-home/.

Ragionamento come Compressione: Unificare il Forzamento di Budget tramite il Collo di Bottiglia dell'Informazione Condizionale
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Mar 9

ByFabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi

Il prompting a Catena di Pensiero (CoT) migliora l'accuratezza dei LLM su compiti complessi, ma spesso aumenta l'utilizzo di token e i costi di inferenza. I metodi esistenti di "Budget Forcing", che riducono i costi tramite fine-tuning con penalità euristiche sulla lunghezza, sopprimono sia il ragionamento essenziale che i riempitivi ridondanti. Noi riformuliamo il ragionamento efficiente come un problema di compressione con perdita secondo il principio del Collo di Bottiglia Informativo (IB) e identifichiamo un'importante lacuna teorica nell'applicazione dell'IB ingenuo ai transformer: l'attenzione viola la proprietà di Markov tra prompt, traccia di ragionamento e risposta. Per risolvere questo problema, modelliamo la generazione CoT sotto il principio del Collo di Bottiglia Informativo Condizionato (CIB), dove la traccia di ragionamento Z funge da ponte computazionale che contiene solo le informazioni sulla risposta Y non direttamente accessibili dal prompt X. Ciò produce un obiettivo generale di Apprendimento per Rinforzo: massimizzare la ricompensa del compito comprimendo i completamenti sotto una prior sulle tracce di ragionamento, ricomprendendo le euristiche comuni (ad es., penalità di lunghezza) come casi speciali (ad es., prior uniformi). In contrasto con gli approcci ingenui basati sul conteggio dei token, introduciamo una prior semantica che misura il costo dei token tramite la sorpresa (surprisal) sotto una prior di modello linguistico. Empiricamente, il nostro obiettivo CIB elimina il gonfiore cognitivo preservando fluidità e logica, migliorando l'accuratezza a compressione moderata e permettendo una compressione aggressiva con un calo minimo di accuratezza.

Un Framework Guidato da Sottobiettivi per Migliorare gli Agenti LLM a Lungo Orizzonte
A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Mar 20

ByTaiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette

Gli agenti basati su grandi modelli linguistici (LLM) sono emersi come potenti controllori autonomi per ambienti digitali, incluse interfacce mobili, sistemi operativi e browser web. La navigazione web, ad esempio, richiede la gestione di contenuti dinamici e lunghe sequenze di azioni, rendendola particolarmente impegnativa. Gli agenti esistenti basati su LLM incontrano difficoltà nella pianificazione a lungo termine principalmente in due modi. Durante l'esecuzione online, perdono spesso la traiettoria con l'arrivo di nuove informazioni, mancando di un percorso chiaro e adattivo verso l'obiettivo finale. Questo problema è ulteriormente esacerbato durante la messa a punto tramite apprendimento per rinforzo (RL), dove ricompense sparse e ritardate rendono difficile per gli agenti identificare quali azioni portano al successo, impedendo loro di mantenere un ragionamento coerente su compiti estesi. Per affrontare queste sfide, proponiamo due contributi. In primo luogo, introduciamo un framework per agenti che sfrutta modelli proprietari per la pianificazione online attraverso la scomposizione in sottobiettivi. In secondo luogo, presentiamo MiRA (Milestoning your Reinforcement Learning Enhanced Agent), un framework di addestramento RL che utilizza segnali di ricompensa densi e basati su milestone. Il meccanismo di pianificazione in tempo reale migliora modelli proprietari come Gemini di circa un aumento assoluto del 10% nel tasso di successo (SR) sul benchmark WebArena-Lite. Nel frattempo, applicare MiRA al modello open Gemma3-12B aumenta il suo tasso di successo dal 6,4% al 43,0%. Questa prestazione supera sistemi proprietari come GPT-4-Turbo (17,6%) e GPT-4o (13,9%), nonché il precedente stato dell'arte per modelli open, WebRL (38,4%). Nel complesso, i nostri risultati dimostrano che combinare una pianificazione esplicita al momento dell'inferenza con ricompense basate su milestone migliora significativamente le capacità a lungo termine di un agente, spianando la strada a sistemi autonomi più robusti e generici.

Modifica Versatile di Contenuti, Azioni e Dinamiche Video senza Addestramento
Versatile Editing of Video Content, Actions, and Dynamics without Training

Mar 18

ByVladimir Kulikov, Roni Paiss, Andrey Voynov, Inbar Mosseri, Tali Dekel, Tomer Michaeli

La generazione controllata di video ha registrato miglioramenti drastici negli ultimi anni. Tuttavia, modificare azioni ed eventi dinamici, o inserire contenuti che dovrebbero influenzare il comportamento di altri oggetti in video del mondo reale, rimane una sfida importante. I modelli esistenti addestrati faticano con modifiche complesse, probabilmente a causa della difficoltà di raccogliere dati di addestramento pertinenti. Allo stesso modo, i metodi esistenti *training-free* sono intrinsecamente limitati a modifiche che preservano struttura e movimento e non supportano la modifica del moto o delle interazioni. Qui presentiamo DynaEdit, un metodo di editing *training-free* che sblocca capacità versatili di modifica video con modelli di flusso *text-to-video* preaddestrati. Il nostro metodo si basa sull'approccio *inversion-free* recentemente introdotto, che non interviene sugli aspetti interni del modello ed è quindi *model-agnostic*. Dimostriamo che tentare ingenuamente di adattare questo approccio a un editing generale e senza vincoli si traduce in un grave disallineamento a basse frequenze e un *jitter* ad alte frequenze. Spieghiamo le fonti di questi fenomeni e introduciamo nuovi meccanismi per superarli. Attraverso esperimenti estesi, mostriamo che DynaEdit ottiene risultati allo stato dell'arte su compiti complessi di editing video basato su testo, inclusi la modifica di azioni, l'inserimento di oggetti che interagiscono con la scena e l'introduzione di effetti globali.

Ricerca Profonda sui Dati Tabulari tramite Esecuzione Continua Guidata dall'Esperienza
Deep Tabular Research via Continual Experience-Driven Execution

Mar 10

ByJunnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Qiufeng Wang, Yinghui Li, Siyu An, Di Yin, Xing Sun, Feiyue Huang

I modelli linguistici di grandi dimensioni spesso faticano con compiti analitici complessi a lungo termine su tabelle non strutturate, che tipicamente presentano intestazioni gerarchiche e bidirezionali e layout non canonici. Formalizziamo questa sfida come Ricerca Tabellare Profonda (DTR), che richiede un ragionamento a più fasi su regioni tabellari interdipendenti. Per affrontare la DTR, proponiamo una nuova framework agenziale che tratta il ragionamento tabellare come un processo decisionale a ciclo chiuso. Progettiamo accuratamente una comprensione accoppiata di query e tabella per il processo decisionale del percorso e l'esecuzione operativa. Nello specifico, (i) la DTR costruisce prima un meta-grafo gerarchico per catturare la semantica bidirezionale, mappando le query in linguaggio naturale in uno spazio di ricerca a livello operativo; (ii) Per navigare in questo spazio, introduciamo una politica di selezione expectation-aware che prioritizza i percorsi di esecuzione ad alta utilità; (iii) Fondamentalmente, i risultati delle esecuzioni passate vengono sintetizzati in una memoria strutturata siamese, ovvero aggiornamenti parametrici e testi astratti, consentendo un affinamento continuo. Esperimenti estesi su benchmark tabellari non strutturati e impegnativi verificano l'efficacia e evidenziano la necessità di separare la pianificazione strategica dall'esecuzione a basso livello per il ragionamento tabellare a lungo termine.

WorldAgents: I modelli di immagini foundation possono essere agenti per modelli di mondo 3D?
WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

Mar 20

ByZiya Erkoç, Angela Dai, Matthias Nießner

Data la straordinaria capacità dei modelli fondazionali di immagini 2D di generare output ad alta fedeltà, ci poniamo una domanda fondamentale: i modelli fondazionali di immagini 2D possiedono intrinsecamente capacità di modellazione del mondo 3D? Per rispondere, valutiamo sistematicamente molteplici modelli all'avanguardia per la generazione di immagini e Modelli Visione-Linguaggio (VLM) sul compito di sintesi del mondo 3D. Per sfruttare e misurare il loro potenziale capability 3D implicito, proponiamo un approccio agentivo per facilitare la generazione del mondo 3D. Il nostro metodo impiega un'architettura multi-agente: un direttore basato su VLM che formula prompt per guidare la sintesi delle immagini, un generatore che sintetizza nuove viste immagine e un verificatore a due fasi supportato da VLM che valuta e seleziona in modo curato i fotogrammi generati sia dallo spazio dell'immagine 2D che dalla ricostruzione 3D. In modo cruciale, dimostriamo che il nostro approccio agentivo fornisce una ricostruzione 3D coerente e robusta, producendo scene di output che possono essere esplorate tramite il rendering di nuove viste. Attraverso esperimenti estesi su vari modelli fondazionali, dimostriamo che i modelli 2D racchiudono effettivamente una comprensione dei mondi 3D. Sfruttando questa comprensione, il nostro metodo sintetizza con successo mondi espansivi, realistici e 3D-consistenti.

BEAVER: Un metodo di compressione gerarchico dei prompt senza addestramento basato sulla selezione di pagine consapevole della struttura
BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Mar 20

ByZhengpei Hu, Kai Li, Dapeng Fu, Chang Zeng, Yue Li, Yuanhao Tang, Jianqiang Huang

L'espansione esponenziale delle finestre contestuali negli LLM ha sbloccato capacità di comprensione di documenti lunghi, ma ha introdotto severi colli di bottiglia nella latenza di inferenza e nell'utilizzo delle informazioni. I metodi di compressione esistenti spesso soffrono di elevati costi di addestramento o di frammentazione semantica a causa di una potatura aggressiva dei token. In questo articolo, proponiamo BEAVER, un nuovo framework senza addestramento che sposta la compressione dalla rimozione lineare dei token a una selezione gerarchica consapevole della struttura. BEAVER massimizza il parallelismo hardware mappando contesti a lunghezza variabile in tensori densi a livello di pagina tramite pooling a doppio percorso e preserva l'integrità del discorso attraverso un pianificatore ibrido che combina una selezione a doppio ramo semantico e lessicale con un livellamento delle frasi. Valutazioni estese su quattro benchmark a contesto lungo dimostrano che BEAVER raggiunge prestazioni comparabili a metodi all'avanguardia (SOTA) come LongLLMLingua. In particolare, sul benchmark RULER, BEAVER mantiene un'alta fedeltà nel recupero multi-ago, dove i metodi baseline si deteriorano. In termini di efficienza, BEAVER riduce la latenza di 26,4 volte su contesti di 128k, offrendo una soluzione scalabile per applicazioni ad alto throughput. Il nostro codice è disponibile all'indirizzo https://cslikai.cn/BEAVER/.

HiMu: Selezione Gerarchica Multimodale dei Frame per il Question-Answering su Video Lunghi
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Mar 19

ByDan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin

L'answer reasoning su video di lunga durata richiede un ragionamento su contesti temporali estesi, rendendo la selezione dei frame critica per i grandi modelli visione-linguaggio (LVLM) vincolati da finestre di contesto finite. I metodi esistenti affrontano un netto compromesso: i selettori basati su similarità sono veloci ma comprimono query compositive in un singolo vettore denso, perdendo l'ordinamento dei sotto-eventi e i legami cross-modali; i metodi agent-based recuperano questa struttura attraverso inferenze LVLM iterative, ma a costi proibitivi. Introduciamo HiMu, un framework senza training che colma questa lacuna. Una singola chiamata a un LLM esclusivamente testuale scompone la query in un albero logico gerarchico le cui foglie sono predicati atomici, ciascuno indirizzato a un esperto leggero che copre visione (CLIP, rilevamento open-vocabulary, OCR) e audio (ASR, CLAP). I segnali risultanti vengono normalizzati, temporalmente levigati per allineare le diverse modalità, e composti bottom-up attraverso operatori di fuzzy-logic che impongono sequenzialità e adiacenza temporale, producendo una curva di soddisfacimento continua. Le valutazioni su Video-MME, LongVideoBench e HERBench-Lite mostrano che HiMu avanza il fronte di Pareto efficienza-accuratezza: a 16 frame con Qwen3-VL 8B supera tutti i selettori concorrenti, e con GPT-4o supera i sistemi agentistici operanti a 32-512 frame richiedendo circa 10 volte meno FLOP.

Quanto si Generalizza la Raccomandazione Generativa?
How Well Does Generative Recommendation Generalize?

Mar 20

ByYijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou

Un'ipotesi ampiamente condivisa sul motivo per cui i modelli di recommendation generativi (GR) superano i modelli convenzionali basati sugli ID degli item è la loro maggiore capacità di generalizzazione. Tuttavia, esistono pochi metodi sistematici per verificare questa ipotesi al di là di un confronto superficiale delle prestazioni complessive. Per colmare questa lacuna, classifichiamo ogni istanza di dati in base alla capacità specifica richiesta per una predizione corretta: memorizzazione (riutilizzo di pattern di transizione tra item osservati durante l'addestramento) o generalizzazione (combinazione di pattern noti per predire transizioni tra item non viste). Esperimenti estesi mostrano che i modelli GR performano meglio sulle istanze che richiedono generalizzazione, mentre i modelli basati su ID degli item sono superiori quando la memorizzazione è più importante. Per spiegare questa divergenza, spostiamo l'analisi dal livello dell'item al livello del token e dimostriamo che ciò che appare come generalizzazione a livello di item spesso si riduce a memorizzazione a livello di token per i modelli GR. Infine, mostriamo che i due paradigmi sono complementari. Proponiamo un semplice indicatore consapevole della memorizzazione che li combina in modo adattivo su base per-istanza, portando a un miglioramento delle prestazioni complessive di recommendation.

LoopRPT: Pre-Addestramento con Rinforzo per Modelli Linguistici ad Anello
LoopRPT: Reinforcement Pre-Training for Looped Language Models

Mar 20

ByGuo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin

I modelli linguistici ad anello (LoopLM) eseguono calcoli latenti iterativi per affinare le rappresentazioni interne, offrendo un'alternativa promettente al ragionamento esplicito a catena del pensiero (CoT). Tuttavia, i paradigmi di apprendimento per rinforzo (RL) esistenti prendono di mira principalmente i token di output, creando una mancata corrispondenza strutturale con le architetture ad anello il cui ragionamento si svolge in modo implicito. In questo lavoro, proponiamo LoopRPT, un framework di pre-addestramento per rinforzo specifico per i LoopLM. Riformulando la previsione del token successivo come un compito di ragionamento sul token successivo, LoopRPT assegna i segnali di rinforzo direttamente ai passi latenti utilizzando un riferimento di un teacher EMA e rollout latenti rumorosi. Questa formulazione consente all'RL di modellare direttamente le rappresentazioni intermedie, comprimendo il ragionamento efficace in un numero minore di iterazioni. Istanziamo LoopRPT sull'architettura Ouro su più scale di modelli. I risultati dimostrano che LoopRPT migliora costantemente la qualità della rappresentazione per passo, raggiungendo una dominanza di Pareto nei compromessi precisione-calcolo. In particolare, i significativi guadagni sui token difficili indicano che LoopRPT potenzia il ragionamento nelle fasi iniziali piuttosto che limitarsi a incoraggiare uscite premature. Le nostre scoperte evidenziano il pre-addestramento per rinforzo come un paradigma principiato per apprendere un ragionamento latente efficiente nei LoopLM.

Superare il Limite delle Capacità dei LLM nel Post-Addestramento Reintroducendo gli Stati di Markov
Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Mar 20

ByYurun Yuan, Tengyang Xie

L'apprendimento per rinforzo (RL) è diventato un paradigma standard per il post-addestramento e l'allineamento dei Large Language Model (LLM), eppure recenti evidenze suggeriscono che esso affronti un persistente "limite di capacità": a differenza dei sistemi RL classici che scoprono strategie innovative, il RL per gli LLM agisce spesso come un mero raffinatore di pattern già latenti nei pesi pre-addestrati. In questo lavoro, identifichiamo un collo di bottiglia strutturale fondamentale: mentre il RL classico si basa su stati di Markov compatti e informativi, le attuali formulazioni di post-addestramento per LLM sono vincolate a una storia di azioni in continua espansione. Revisitiamo un principio classico, a lungo centrale nel RL ma assente nel post-addestramento degli LLM: gli stati di Markov espliciti. Teoricamente, forniamo garanzie rigorose che dimostrano come lo sfruttamento di stati di Markov stimati possa ridurre significativamente la complessità campionaria. Empiricamente, mostriamo che l'introduzione di stati di Markov supera costantemente i limiti prestazionali del post-addestramento RL standard in una serie di complessi rompicapi logici. I nostri risultati suggeriscono che andare oltre la modellazione "della storia come stato" a favore di rappresentazioni markoviane strutturate è essenziale per sbloccare una scoperta aperta e capacità di ragionamento genuinamente nuove nell'IA generativa.

Oltre i Token Singoli: Distillazione di Modelli di Diffusione Discreti tramite MMD Discreto
Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

Mar 20

ByEmiel Hoogeboom, David Ruhe, Jonathan Heek, Thomas Mensink, Tim Salimans

Attualmente è difficile effettuare il distillation di modelli di diffusione discreti. Al contrario, la letteratura sulla diffusione continua dispone di numerosi metodi di distillation che possono ridurre i passaggi di campionamento a una manciata. Il nostro metodo, Discrete Moment Matching Distillation (D-MMD), sfrutta idee che hanno avuto grande successo nel dominio continuo. Mentre i precedenti metodi di distillation discreta collassano, il D-MMD mantiene un'elevata qualità e diversità (dato un numero sufficiente di passaggi di campionamento). Ciò è dimostrato sia su dataset testuali che di immagini. Inoltre, i generatori appena distillati possono superare le prestazioni dei loro modelli insegnanti.

EgoForge: Simulatore Egocentrico del Mondo Orientato agli Obiettivi
EgoForge: Goal-Directed Egocentric World Simulator

Mar 20

ByYifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou

I modelli generativi di mondi hanno mostrato potenzialità nella simulazione di ambienti dinamici, ma i video egocentrici rimangono una sfida a causa dei rapidi cambiamenti del punto di vista, delle frequenti interazioni mano-oggetto e delle procedure finalizzate la cui evoluzione dipende dall'intento umano latente. Gli approcci esistenti si concentrano sulla sintesi istruzionale centrata sulla mano con un'evoluzione della scena limitata, eseguono una traduzione di vista statica senza modellare la dinamica delle azioni, o si basano su supervisione densa, come traiettorie della telecamera, prefissi video lunghi, acquisizione multicamera sincronizzata, ecc. In questo lavoro, introduciamo EgoForge, un simulatore di mondo egocentrico finalizzato che genera rollout video in prima persona coerenti a partire da input statici minimi: una singola immagine egocentrica, un'istruzione di alto livello e una vista esocentrica ausiliaria opzionale. Per migliorare l'allineamento all'intento e la coerenza temporale, proponiamo VideoDiffusionNFT, un perfezionamento guidato da ricompensa a livello di traiettoria che ottimizza il completamento dell'obiettivo, la causalità temporale, la coerenza della scena e la fedeltà percettiva durante il campionamento per diffusione. Esperimenti estensivi mostrano che EgoForge ottiene guadagni consistenti nell'allineamento semantico, nella stabilità geometrica e nella fedeltà del movimento rispetto a baseline solide, e prestazioni robuste in esperimenti con occhiali intelligenti nel mondo reale.

Insegnare a un Agente a Disegnare una Parte alla Volta
Teaching an Agent to Sketch One Part at a Time

Mar 19

ByXiaodan Du, Ruize Xu, David Yunis, Yael Vinker, Greg Shakhnarovich

Sviluppiamo un metodo per produrre schizzi vettoriali una parte alla volta. A tal fine, addestriamo un agente basato su un modello linguistico multimodale utilizzando un innovativo processo di reinforcement learning multi-turn con ricompensa basata sul processo, successivo ad una messa a punto supervisionata. Il nostro approccio è reso possibile da un nuovo dataset che chiamiamo ControlSketch-Part, contenente ricche annotazioni a livello di parte per gli schizzi, ottenute tramite una nuova e generica pipeline di annotazione automatica che segmenta gli schizzi vettoriali in parti semantiche e assegna i tracciati alle parti con un processo di etichettatura strutturato e multi-stadio. I nostri risultati indicano che l'incorporazione di dati strutturati a livello di parte e la fornitura di feedback visivo all'agente durante il processo abilitano una generazione di schizzi vettoriali da testo interpretabile, controllabile e localmente modificabile.

DROID-SLAM in Natura Selvaggia
DROID-SLAM in the Wild

Mar 19

ByMoyang Li, Zihan Zhu, Marc Pollefeys, Daniel Barath

Presentiamo un sistema SLAM RGB robusto e in tempo reale che gestisce ambienti dinamici sfruttando un Bundle Adjustment differenziabile e consapevole dell'incertezza. I metodi SLAM tradizionali assumono tipicamente scene statiche, portando a fallimenti nel tracking in presenza di movimento. I recenti approcci SLAM dinamici tentano di affrontare questa sfida utilizzando prior dinamici predefiniti o mappature consapevoli dell'incertezza, ma rimangono limitati quando confrontati con oggetti dinamici sconosciuti o scene altamente disordinate dove la mappatura geometrica diventa inaffidabile. Al contrario, il nostro metodo stima l'incertezza per pixel sfruttando l'inconsistenza delle caratteristiche visive multi-vista, consentendo un tracking e una ricostruzione robusti anche in ambienti reali. Il sistema proposto raggiunge pose della camera e geometrie della scene allo stato dell'arte in scenari dinamici e disordinati, funzionando in tempo reale a circa 10 FPS. Il codice e i dataset sono disponibili all'indirizzo https://github.com/MoyangLi00/DROID-W.git.

Rapporto Tecnico AgentDS: Valutazione Comparativa del Futuro della Collaborazione Uomo-IA nell'Data Science Settoriale
AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Mar 19

ByAn Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

La scienza dei dati svolge un ruolo cruciale nel trasformare dati complessi in insight azionabili in numerosi domini. I recenti sviluppi nei grandi modelli linguistici (LLM) e negli agenti di intelligenza artificiale (IA) hanno automatizzato significativamente il flusso di lavoro della scienza dei dati. Tuttavia, rimane poco chiaro in che misura gli agenti di IA possano eguagliare le prestazioni di esperti umani in compiti di data science specifici per dominio, e in quali aspetti l'esperienza umana continui a fornire vantaggi. Presentiamo AgentDS, un benchmark e una competizione progettati per valutare le prestazioni sia degli agenti di IA che della collaborazione uomo-IA nella scienza dei dati domain-specific. AgentDS consiste in 17 sfide relative a sei industrie: commercio, produzione alimentare, sanità, assicurazioni, manifatturiero e banche al dettaglio. Abbiamo condotto una competizione aperta che ha coinvolto 29 team e 80 partecipanti, consentendo un confronto sistematico tra approcci di collaborazione uomo-IA e baseline esclusivamente basate sull'IA. I nostri risultati mostrano che gli attuali agenti di IA faticano nel ragionamento domain-specific. Le baseline esclusivamente IA performano vicino o al di sotto della mediana dei partecipanti alla competizione, mentre le soluzioni più robuste emergono dalla collaborazione uomo-IA. Questi risultati sfidano la narrativa dell'automazione completa da parte dell'IA e sottolineano l'importanza duratura dell'esperienza umana nella scienza dei dati, illuminando al contempo le direzioni per la prossima generazione di IA. Visita il sito web di AgentDS qui: https://agentds.org/ e i dataset open source qui: https://huggingface.co/datasets/lainmn/AgentDS.

Cooperazione e Sfruttamento nella Sintesi di Politiche per LLM nei Dilemmi Sociali Sequenziali
Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Mar 19

ByVíctor Gallego

Studiamo la sintesi di politiche tramite LLM: l'utilizzo di un grande modello linguistico per generare iterativamente politiche agente programmatiche per ambienti multi-agente. Invece di addestrare politiche neurali tramite apprendimento per rinforzo, il nostro framework sollecita un LLM a produrre funzioni di politica in Python, le valuta in self-play e le affina utilizzando il feedback sulle prestazioni attraverso le iterazioni. Investigiamo l'ingegneria del feedback (la progettazione di quali informazioni valutative vengono mostrate all'LLM durante l'affinamento) confrontando il feedback sparso (solo ricompensa scalare) con il feedback denso (ricompensa più metriche sociali: efficienza, equità, sostenibilità, pace). In due Dilemmi Sociali Sequenziali canonici (Gathering e Cleanup) e due LLM all'avanguardia (Claude Sonnet 4.6, Gemini 3.1 Pro), il feedback denso eguaglia o supera costantemente quello sparso su tutte le metriche. Il vantaggio è maggiore nel gioco dei beni pubblici Cleanup, dove fornire metriche sociali aiuta l'LLM a calibrare il costoso tradeoff tra pulizia e raccolta. Piuttosto che innescare un'over-ottimizzazione dell'equità, le metriche sociali fungono da segnale di coordinamento che guida l'LLM verso strategie cooperative più efficaci, inclusa la suddivisione del territorio, l'assegnazione adattiva dei ruoli e l'evitamento di aggressioni dispendiose. Eseguiamo inoltre un esperimento avversario per determinare se gli LLM possono manipolare le ricompense in questi ambienti. Caratterizziamo cinque classi di attacco e discutiamo le mitigazioni, evidenziando una tensione intrinseca nella sintesi di politiche tramite LLM tra espressività e sicurezza. Codice disponibile su https://github.com/vicgalle/llm-policies-social-dilemmas.

I modelli linguistici visivi hanno bisogno dei Vision Transformer? Valutazione dei modelli a spazio di stati come encoder visivi
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Mar 19

ByShang-Jui Ray Kuo, Paola Cascante-Bonilla

I grandi modelli visione-linguaggio (VLM) utilizzano spesso un backbone visivo congelato, le cui caratteristiche immagine vengono mappate in un grande modello linguistico attraverso un connettore leggero. Sebbene gli encoder basati su transformer siano il backbone visivo standard, ci chiediamo se i backbone visivi basati su modelli a spazio di stati (SSM) possano rappresentare una valida alternativa. Valutiamo sistematicamente i backbone visivi SSM per i VLM in un contesto controllato. In condizioni di inizializzazione ImageNet-1K comparabile, il backbone SSM raggiunge le prestazioni complessive più solide sia nel VQA che nella grounding/localizzazione. Adattiamo ulteriormente sia i backbone SSM che quelli della famiglia ViT con training di detection o segmentazione e scopriamo che la messa a punto per task densi generalmente migliora le prestazioni tra le famiglie; dopo questo adattamento, il backbone SSM rimane competitivo pur operando a una scala di modello sostanzialmente inferiore. Osserviamo inoltre che (i) una maggiore accuratezza su ImageNet o backbone più grandi non si traducono in modo affidabile in prestazioni VLM migliori, e (ii) alcuni backbone visivi sono instabili nella localizzazione. Sulla base di questi risultati, proponiamo strategie di stabilizzazione che migliorano la robustezza per entrambe le famiglie di backbone e evidenziamo i backbone SSM come una valida alternativa agli encoder visivi basati su transformer nei VLM.

Lingua su Richiesta, Conoscenza al Centro: Comporre LLM con Modelli di Traduzione Encoder-Decoder per una Multilinguità Estensibile
Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Mar 18

ByMengyu Bu, Yang Feng

I grandi modelli linguistici (LLM) mostrano una forte intelligenza generale, ma le loro prestazioni multilingue rimangono fortemente squilibrate. Sebbene gli LLM codifichino una sostanziale conoscenza cross-linguale in uno spazio semantico unificato, spesso faticano a interfacciare in modo affidabile questa conoscenza con lingue a risorse limitate o non viste. Fortunatamente, i modelli di traduzione preaddestrati di tipo encoder-decoder possiedono già capacità multilingue bilanciate, suggerendo un complemento naturale per gli LLM. In questo lavoro, proponiamo XBridge, un'architettura composita encoder-LLM-decoder che delega la comprensione e la generazione multilingue a modelli di traduzione preaddestrati esterni, preservando al contempo l'LLM come nucleo incentrato sull'inglese per l'elaborazione della conoscenza generale. Per affrontare il conseguente disallineamento delle rappresentazioni tra i modelli, introduciamo strati di mappatura cross-modello leggeri e un obiettivo di allineamento basato sul trasporto ottimo, consentendo una consistenza semantica granulare per la generazione multilingue. Esperimenti su quattro LLM in compiti di comprensione, ragionamento, riassunto e generazione multilingue indicano che XBridge supera baseline robuste, specialmente su lingue a risorse limitate e precedentemente non viste, senza riaddestrare l'LLM.

Sinergia Uomo-IA nella Revisione del Codice Agente
Human-AI Synergy in Agentic Code Review

Mar 16

BySuzhen Zhong, Shayan Noei, Ying Zou, Bram Adams

La revisione del codice è una pratica fondamentale nell'ingegneria del software, in cui gli sviluppatori esaminano le modifiche al codice prima dell'integrazione per garantirne la qualità, individuare i difetti e migliorarne la manutenibilità. Negli ultimi anni, agenti di IA in grado di comprendere il contesto del codice, pianificare azioni di revisione e interagire con gli ambienti di sviluppo sono stati integrati sempre più nel processo di code review. Tuttavia, esistono ancora poche evidenze empiriche che confrontino l'efficacia degli agenti di IA e dei revisori umani in flussi di lavoro collaborativi. Per colmare questa lacuna, abbiamo condotto un'analisi empirica su larga scala di 278.790 conversazioni di code review relative a 300 progetti open-source su GitHub. Nel nostro studio, ci proponiamo di confrontare le differenze nel feedback fornito dai revisori umani e dagli agenti di IA. Investigiamo i modelli di collaborazione uomo-IA nelle conversazioni di revisione per comprendere come l'interazione influisca sugli esiti della revisione. Inoltre, analizziamo l'adozione nel codice base dei suggerimenti forniti sia dai revisori umani che dagli agenti di IA, e come i suggerimenti adottati modifichino la qualità del codice. I nostri risultati indicano che i revisori umani forniscono un feedback aggiuntivo rispetto agli agenti di IA, includendo la comprensione, i test e il trasferimento di conoscenze. I revisori umani scambiano l'11,8% in più di interazioni quando revisionano codice generato da IA rispetto a codice scritto da umani. Inoltre, i suggerimenti di codice proposti dagli agenti di IA vengono adottati nel codice base con una frequenza significativamente inferiore rispetto a quelli proposti dai revisori umani. Oltre la metà dei suggerimenti non adottati provenienti da agenti di IA sono risultati o incorretti o affrontati tramite correzioni alternative dagli sviluppatori. Quando adottati, i suggerimenti forniti dagli agenti di IA producono aumenti significativamente maggiori nella complessità e nelle dimensioni del codice rispetto a quelli forniti dai revisori umani. Le nostre scoperte suggeriscono che, sebbene gli agenti di IA possano scalare lo screening dei difetti, la supervisione umana rimane fondamentale per garantire la qualità dei suggerimenti e fornire quel feedback contestuale di cui gli agenti di IA sono carenti.

TAPESTRY: Dalla Geometria all'Aspetto Visivo tramite Video a Rotazione Continua
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

Mar 18

ByYan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu

La generazione automatica di aspetti fotorealistici e autocoerenti per modelli 3D non texturizzati è una sfida cruciale nella creazione di contenuti digitali. I progressi nei modelli di generazione video su larga scala offrono un approccio naturale: la sintesi diretta di video a girotondo (TTV) a 360 gradi, che possono fungere non solo da anteprime dinamiche di alta qualità, ma anche da rappresentazione intermedia per guidare la sintesi delle texture e il rendering neurale. Tuttavia, gli attuali modelli di diffusione video generici faticano a mantenere una rigorosa coerenza geometrica e stabilità dell'aspetto attraverso l'intera gamma di visuali, rendendo i loro output inadatti per una ricostruzione 3D di alta qualità. A tal fine, presentiamo TAPESTRY, un framework per generare TTV ad alta fedeltà condizionati da geometria 3D esplicita. Riformuliamo il compito della generazione dell'aspetto 3D come un problema di diffusione video condizionato dalla geometria: dato una mesh 3D, prima renderizziamo e codifichiamo caratteristiche geometriche multimodali per vincolare il processo di generazione video con precisione a livello di pixel, permettendo così la creazione di TTV di alta qualità e coerenti. Sulla base di ciò, progettiamo anche un metodo per i compiti di ricostruzione a valle a partire dall'input TTV, che presenta una pipeline multi-stadio con Inpainting Consapevole del 3D. Ruotando il modello ed eseguendo una generazione secondaria context-aware, questa pipeline completa efficacemente le regioni auto-occluse per ottenere una copertura completa della superficie. I video generati da TAPESTRY non sono solo anteprime dinamiche di alta qualità, ma fungono anche da rappresentazione intermedia affidabile e consapevole del 3D, che può essere retroproiettata senza soluzione di continuità in texture UV o utilizzata per supervisionare metodi di rendering neurale come il 3DGS. Ciò consente la creazione automatizzata di asset 3D completi e pronti per la produzione a partire da mesh non texturizzate. I risultati sperimentali dimostrano che il nostro metodo supera gli approcci esistenti sia nella coerenza video che nella qualità della ricostruzione finale.

ReLi3D: Ricostruzione 3D multi-vista riluminabile con illuminazione disaccoppiata
ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Mar 20

ByJan-Niklas Dihlmann, Mark Boss, Simon Donne, Andreas Engelhardt, Hendrik P. A. Lensch, Varun Jampani

La ricostruzione di asset 3D a partire da immagini ha a lungo richiesto pipeline separate per la ricostruzione geometrica, la stima dei materiali e il recupero dell'illuminazione, ciascuna con limitazioni distinte e un elevato costo computazionale. Presentiamo ReLi3D, la prima pipeline unificata end-to-end che ricostruisce simultaneamente la geometria 3D completa, materiali fisicamente basati a variazione spaziale e l'illuminazione ambientale da immagini multi-vista sparse in meno di un secondo. La nostra intuizione chiave è che i vincoli multi-vista possono migliorare drasticamente la separazione di materiali e illuminazione, un problema che rimane fondamentalmente mal posto per i metodi basati su singola immagine. Elemento cruciale del nostro approccio è la fusione dell'input multi-vista tramite un'architettura transformer a condizionamento incrociato, seguita da una nuova strategia di previsione unificata a due percorsi. Il primo percorso prevede la struttura e l'aspetto dell'oggetto, mentre il secondo prevede l'illuminazione ambientale dallo sfondo dell'immagine o dai riflessi sull'oggetto. Questo, combinato con un renderer differenziabile per l'importance sampling Monte Carlo multiplo, crea una pipeline di addestramento ottimale per la separazione dell'illuminazione. Inoltre, con il nostro protocollo di addestramento in dominio misto, che combina dataset sintetici PBR con acquisizioni RGB del mondo reale, otteniamo risultati generalizzabili in termini di geometria, accuratezza dei materiali e qualità dell'illuminazione. Unificando compiti di ricostruzione precedentemente separati in un unico passaggio in avanti, permettiamo la generazione quasi istantanea di asset 3D completi e riluminabili. Pagina del progetto: https://reli3d.jdihlmann.com/

CurveStream: Miglioramento della Comprensione di Video in Streaming nei MLLM tramite Gestione Gerarchica della Memoria Visiva Consapevole della Curvatura
CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Mar 20

ByChao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen

I modelli linguistici multimodali di grandi dimensioni hanno ottenuto un successo significativo nella comprensione video offline, ma la loro applicazione a video in streaming è fortemente limitata dall'esplosione lineare di token visivi, che spesso porta a errori di memoria insufficiente (OOM) o a oblio catastrofico. I metodi esistenti di ritenzione visiva e gestione della memoria si basano tipicamente su campionamento uniforme, metriche fisiche di basso livello o espulsione passiva dalla cache. Tuttavia, queste strategie spesso mancano di una consapevolezza semantica intrinseca, rischiando di interrompere la coerenza contestuale e di offuscare transizioni semantiche transitorie ma critiche. Per affrontare queste limitazioni, proponiamo CurveStream, un framework di gestione della memoria visiva gerarchica, consapevole della curvatura e che non richiede addestramento. Il nostro approccio è motivato dall'osservazione chiave che le regioni ad alta curvatura lungo le traiettorie continue delle feature si allineano strettamente con transizioni semantiche globali critiche. Basandoci su questa intuizione geometrica, CurveStream valuta l'intensità semantica in tempo reale tramite un Punteggio di Curvatura e integra una soglia dinamica online K-Sigma per instradare in modo adattivo i fotogrammi verso stati di memoria chiari e fuzzy sotto un rigoroso budget di token. Le valutazioni su diverse scale temporali confermano che questo framework leggero, CurveStream, produce costantemente guadagni assoluti di prestazioni superiori al 10% (ad esempio, il 10,69% su StreamingBench e il 13,58% su OVOBench) rispetto alle rispettive baseline, stabilendo nuovi risultati all'avanguardia per la percezione di video in streaming. Il codice sarà rilasciato su https://github.com/streamingvideos/CurveStream.

Analisi dei Segnali Culturali nei Modelli Linguistici di Grandi Dimensioni tramite il Profiling degli Autori
Probing Cultural Signals in Large Language Models through Author Profiling

Mar 17

ByValentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys, Elouan Vuichard, Jean-Michel Loubes

I modelli linguistici di grandi dimensioni (LLM) sono sempre più impiegati in applicazioni con impatto sociale, sollevando preoccupazioni riguardo ai pregiudizi culturali che codificano. Indaghiamo queste rappresentazioni valutando se gli LLM siano in grado di eseguire la profilazione degli autori a partire dai testi delle canzoni in uno scenario zero-shot, inferendo il genere e l'etnia dei cantanti senza una messa a punto specifica per il compito. Valutando diversi modelli open-source su oltre 10.000 testi, riscontriamo che gli LLM raggiungono prestazioni di profilazione non banali ma dimostrano un allineamento culturale sistematico: la maggior parte dei modelli tende a prediligere l'etnia nordamericana, mentre DeepSeek-1.5B si allinea più fortemente con l'etnia asiatica. Questa scoperta emerge sia dalle distribuzioni predittive dei modelli che da un'analisi delle loro ragioni generate. Per quantificare queste disparità, introduciamo due metriche di equità, la Divergenza di Accuratezza Modale (MAD) e la Divergenza di Richiamo (RD), e dimostriamo che Ministral-8B presenta il pregiudizio etnico più marcato tra i modelli valutati, mentre Gemma-12B mostra il comportamento più equilibrato. Il nostro codice è disponibile su GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

Perturbazione Adattiva a Strati: Unificazione delle Correzioni Off-Policy per il RL di LLM
Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Mar 19

ByChenlu Ye, Xuanchang Zhang, Yifan Hao, Zhou Yu, Ziji Zhang, Abhinav Gullapalli, Hao Chen, Jing Huang, Tong Zhang

Problemi di tipo off-policy come l'obsolescenza della policy e la discrepanza tra addestramento e inferenza sono diventati un collo di bottiglia principale per la stabilità dell'addestramento e l'ulteriore esplorazione nell'RL per LLM. Per migliorare l'efficienza inferenziale, il divario distributivo tra la policy di inferenza e quella aggiornata si amplia, portando a rapporti di importanza dalla coda pesante. Questi rapporti si manifestano quando la policy è localmente ripida, il che amplifica ulteriormente gradienti accentuati e può spingere gli aggiornamenti al di fuori della regione di fiducia. Per affrontare ciò, proponiamo Perturbazione Adattiva Strato per Strato (ALP), iniettando piccole perturbazioni apprendibili negli stati nascosti di input di ogni strato durante gli aggiornamenti, che vengono utilizzate come numeratore del rapporto di importanza rispetto alla policy di inferenza invariata nell'obiettivo. Intuitivamente, aggiungendo rumore controllato alle rappresentazioni intermedie, ALP impedisce alla policy aggiornata di discostarsi troppo bruscamente da quella di inferenza e amplia la famiglia di policy per coprire quella di inferenza con rumori di disallineamento. Pertanto, la distribuzione appiattita può naturalmente ridurre il divario tra policy aggiornata e di inferenza e attenuare la coda dei rapporti di importanza, mantenendo così la stabilità dell'addestramento. Ciò è ulteriormente validato empiricamente. Esperimenti su compiti di ragionamento matematico a turno singolo e di ragionamento con integrazione di strumenti a turni multipli mostrano che ALP non solo migliora le prestazioni finali, ma evita anche l'esplosione della coda del rapporto di importanza e i picchi di KL durante l'addestramento iterativo, insieme a un'esplorazione potenziata. Studi di ablazione dimostrano che le perturbazioni a livello di rappresentazione su tutti gli strati sono le più efficaci, superando sostanzialmente le varianti a strati parziali e solo logit.

s2n-bignum-bench: Un benchmark pratico per la valutazione del ragionamento sul codice di basso livello dei LLM
s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

Mar 15

ByBalaji Rao, John Harrison, Soonho Kong, Juneyoung Lee, Carlo Lipizzi

Gli approcci neurosimbolici che sfruttano i Large Language Model (LLM) insieme a metodi formali hanno recentemente ottenuto risultati significativi su benchmark di dimostrazione di teoremi orientati alla matematica. Tuttavia, il successo in matematica di tipo competitivo non dimostra di per sé la capacità di costruire dimostrazioni su implementazioni del mondo reale. Colmiamo questa lacuna con un benchmark derivato da una libreria crittografica industriale le cui routine in assembly sono già verificate in HOL Light. s2n-bignum è una libreria utilizzata in AWS per fornire routine assembly veloci per la crittografia, e la sua correttezza è stabilita dalla verifica formale. Il compito di verificare formalmente questa libreria è stato un risultato significativo per l'Automated Reasoning Group. Esso ha coinvolto due compiti: (1) specificare precisamente il comportamento corretto di un programma come una proposizione matematica, e (2) dimostrare che la proposizione è corretta. Nel caso di s2n-bignum, entrambi i compiti sono stati eseguiti da esperti umani. In s2n-bignum-bench, forniamo la specifica formale e chiediamo all'LLM di generare uno script di dimostrazione che sia accettato da HOL Light entro un timeout fisso per il controllo delle dimostrazioni. A nostra conoscenza, s2n-bignum-bench è il primo benchmark pubblico focalizzato sulla sintesi di dimostrazioni verificabili automaticamente per routine crittografiche industriali di basso livello in assembly in HOL Light. Questo benchmark fornisce un banco di prova impegnativo e praticamente rilevante per valutare la dimostrazione automatica di teoremi basata su LLM al di là della matematica competitiva. Il codice per configurare e utilizzare il benchmark è disponibile qui: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.

Dalle maschere ai pixel e al significato: una nuova tassonomia, benchmark e metriche per la manipolazione di immagini nei VLM
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Mar 20

ByXinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen

I benchmark esistenti per il rilevamento di manipolazioni si basano in larga misura su maschere di oggetti, le quali risultano fortemente disallineate rispetto al vero segnale di modifica: molti pixel all'interno di una maschera rimangono inalterati o sono modificati solo in modo trascurabile, mentre modifiche sottili ma significative al di fuori della maschera vengono trattate come naturali. Noi riformuliamo il problema del rilevamento di manipolazioni nelle immagini per VLM (Vision-Language Models), passando da etichette di regioni approssimative a un compito ancorato a livello di pixel, consapevole del significato e del linguaggio. In primo luogo, introduciamo una tassonomia che spazia dai primitivi di modifica (sostituire/rimuovere/inserire/inpaint/attribuire/colorizzare, ecc.) alla classe semantica dell'oggetto manipolato, collegando così i cambiamenti di basso livello a una comprensione di alto livello. In secondo luogo, rilasciamo un nuovo benchmark con mappe di manipolazione per pixel e supervisione di categoria abbinata, per valutare il rilevamento e la classificazione all'interno di un protocollo unificato. In terzo luogo, proponiamo un framework di addestramento e metriche di valutazione che quantificano la correttezza a livello di pixel con localizzazione, per valutare la confidenza o la previsione sulla reale intensità della modifica, e misurano ulteriormente la comprensione del significato della manipolazione attraverso una classificazione consapevole della semantica e descrizioni in linguaggio naturale per le regioni predette. Rivalutiamo inoltre le solide baseline esistenti di segmentazione/localizzazione sui recenti e potenti rilevatori di manipolazioni, rivelando una sostanziale sovra- e sotto-valutazione quando si utilizzano metriche basate solo sulle maschere, ed esponendo le modalità di fallimento su micro-modifiche e cambiamenti al di fuori della maschera. Il nostro framework avanza il campo dalle maschere ai pixel, ai significati e alle descrizioni linguistiche, stabilendo uno standard rigoroso per la localizzazione delle manipolazioni, la classificazione semantica e la descrizione. Il codice e i dati del benchmark sono disponibili all'indirizzo https://github.com/VILA-Lab/PIXAR.

Rilevamento automatico di testi generati da intelligenza artificiale: un quadro comparativo di modelli neurali
Automatic detection of Gen-AI texts: A comparative framework of neural models

Mar 19

ByCristian Buttaro, Irene Amerini

La rapida proliferazione dei Large Language Model ha aumentato significativamente la difficoltà di distinguere tra testi scritti da esseri umani e testi generati dall'IA, sollevando questioni critiche in ambito accademico, editoriale e sociale. Questo articolo indaga il problema della rilevazione del testo generato dall'IA attraverso la progettazione, l'implementazione e la valutazione comparata di più rilevatori basati sul machine learning. Vengono sviluppate e analizzate quattro architetture neurali: un Perceptron Multistrato, una rete neurale convoluzionale monodimensionale, una CNN basata su MobileNet e un modello Transformer. I modelli proposti vengono confrontati con rilevatori online ampiamente utilizzati, tra cui ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase e Writer. Gli esperimenti sono condotti sul COLING Multilingual Dataset, considerando sia le configurazioni in lingua inglese che italiana, nonché su un dataset tematico originale incentrato su Arte e Salute Mentale. I risultati mostrano che i rilevatori supervisionati raggiungono prestazioni più stabili e robuste rispetto agli strumenti commerciali in diverse lingue e domini, evidenziando i punti di forza e le limitazioni principali delle attuali strategie di rilevamento.

Interruttore Multiscala per Apprendimento Semi-Supervisionato e Contrastivo nella Segmentazione di Immagini Mediche Ecografiche
Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation

Mar 19

ByJingguo Qu, Xinyang Han, Yao Pu, Man-Lik Chui, Simon Takadiyi Gunda, Ziman Chen, Jing Qin, Ann Dorothy King, Winnie Chiu-Wing Chu, Jing Cai, Michael Tin-Cheung Ying

La segmentazione delle immagini ecografiche mediche affronta sfide significative a causa della limitata disponibilità di dati etichettati e dei caratteristici artefatti di imaging, tra cui il rumore speckle e i bordi a basso contrasto. Sebbene gli approcci di apprendimento semi-supervisionato (SSL) siano emersi per affrontare la scarsità di dati, i metodi esistenti soffrono di un utilizzo subottimale dei dati non etichettati e della mancanza di meccanismi robusti di rappresentazione delle feature. In questo articolo, proponiamo Switch, un nuovo framework SSL con due innovazioni chiave: (1) la strategia Multiscale Switch (MSS) che impiega un mixing gerarchico di patch per ottenere una copertura spaziale uniforme; (2) il Frequency Domain Switch (FDS) con apprendimento contrastivo che esegue lo switching di ampiezza nello spazio di Fourier per rappresentazioni di feature robuste. Il nostro framework integra questi componenti all'interno di un'architettura teacher-student per sfruttare efficacemente sia i dati etichettati che quelli non etichettati. Una valutazione completa su sei diversi dataset ecografici (linfonodi, lesioni mammarie, noduli tiroidei e prostata) dimostra una superiorità consistente rispetto ai metodi allo stato dell'arte. Con un rapporto di etichettatura del 5%, Switch raggiunge miglioramenti notevoli: 80,04% di Dice su LN-INT, 85,52% di Dice su DDTI e 83,48% di Dice sui dataset della prostata, con il nostro approccio semi-supervisionato che supera persine i baseline fully supervised. Il metodo mantiene l'efficienza dei parametri (1,8M di parametri) fornendo al contempo prestazioni superiori, convalidando la sua efficacia per le applicazioni di imaging medico con risorse limitate. Il codice sorgente è pubblicamente disponibile all'indirizzo https://github.com/jinggqu/Switch.

ReLMXEL: Controllore di Memoria Adattivo Basato su RL con Ottimizzazione Spiegabile di Energia e Latenza
ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Mar 18

ByPanuganti Chirag Sai, Gandholi Sarat, R. Raghunatha Sarma, Venkata Kalyan Tavva, Naveen M

La riduzione della latenza e del consumo energetico è fondamentale per migliorare l'efficienza dei sistemi di memoria nell'informatica moderna. Questo lavoro introduce ReLMXEL (Reinforcement Learning for Memory Controller with Explainable Energy and Latency Optimization), un framework spiegabile di apprendimento per rinforzo multi-agente online che ottimizza dinamicamente i parametri del controller di memoria utilizzando la scomposizione della ricompensa. ReLMXEL opera all'interno del controller di memoria, sfruttando metriche dettagliate del comportamento della memoria per guidare il processo decisionale. Le valutazioni sperimentali su diversi carichi di lavoro dimostrano miglioramenti prestazionali costanti rispetto alle configurazioni baseline, con perfezionamenti guidati dal comportamento specifico degli accessi alla memoria. Incorporando la spiegabilità nel processo di apprendimento, ReLMXEL non solo migliora le prestazioni ma aumenta anche la trasparenza delle decisioni di controllo, aprendo la strada a progetti di sistemi di memoria più responsivi e adattativi.