Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Sekai: Un Dataset Video per l'Esplorazione del Mondo
Sekai: A Video Dataset towards World Exploration

Jun 18, 2025

Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang

612

Le tecniche di generazione video hanno compiuto progressi notevoli, promettendo di diventare il fondamento per l'esplorazione interattiva del mondo. Tuttavia, i dataset esistenti per la generazione video non sono adatti per l'addestramento all'esplorazione del mondo, poiché presentano alcune limitazioni: località limitate, durata breve, scene statiche e una mancanza di annotazioni relative all'esplorazione e al mondo. In questo articolo, introduciamo Sekai (che significa "mondo" in giapponese), un dataset video di alta qualità in prima persona a livello mondiale, con annotazioni ricche per l'esplorazione del mondo. Esso consiste in oltre 5.000 ore di video a piedi o con vista da drone (FPV e UVA) provenienti da oltre 100 paesi e regioni in 750 città. Abbiamo sviluppato un toolbox efficiente ed efficace per raccogliere, pre-elaborare e annotare i video con informazioni sulla posizione, la scena, il meteo, la densità della folla, le didascalie e le traiettorie della telecamera. Gli esperimenti dimostrano la qualità del dataset. Inoltre, utilizziamo un sottoinsieme per addestrare un modello interattivo di esplorazione video del mondo, chiamato YUME (che significa "sogno" in giapponese). Crediamo che Sekai porterà benefici al campo della generazione video e dell'esplorazione del mondo, e stimolerà applicazioni di valore.

GenRecal: Generazione dopo la Ricalibrazione da Modelli Linguistico-Visuali di Grande a Piccola Scala
GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Jun 18, 2025

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

362

I recenti progressi nei modelli visione-linguaggio (VLMs) hanno sfruttato i grandi modelli linguistici (LLMs) per raggiungere prestazioni paragonabili a sistemi proprietari come GPT-4V. Tuttavia, il dispiegamento di questi modelli in scenari reali, specialmente su dispositivi con risorse limitate, rimane una sfida a causa delle loro sostanziali esigenze computazionali. Ciò ha stimolato l'interesse nel distillare la conoscenza da grandi VLMs in controparti più piccole ed efficienti. Una sfida chiave emerge qui dalla diversità delle architetture VLM, che sono costruite su diversi LLMs e impiegano tipi di token variabili, differendo per dimensione del vocabolario, suddivisione dei token e ordinamento degli indici dei token. Per affrontare questa sfida legata alla limitazione a un tipo specifico di VLM, presentiamo Generation after Recalibration (GenRecal), un nuovo framework di distillazione generico per VLMs. GenRecal incorpora un Recalibratore che allinea e adatta le rappresentazioni delle feature tra VLMs eterogenei, consentendo un trasferimento efficace della conoscenza tra diversi tipi di VLMs. Attraverso esperimenti estesi su molteplici benchmark impegnativi, dimostriamo che GenRecal migliora significativamente le prestazioni di base, superando alla fine VLMs open-source e proprietari su larga scala.

Non Tutto è Perduto: Recupero di LLM senza Checkpoint
All is Not Lost: LLM Recovery without Checkpoints

Jun 18, 2025

Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

362

L'addestramento di LLM su nodi di calcolo decentralizzati e poco potenti, ad esempio, più istanze locali, riduce i costi di addestramento e favorisce la democratizzazione del modello. La sfida inevitabile in questo contesto è il turnover dei nodi a causa di guasti e delle politiche di pianificazione dell'operatore, che porta alla perdita di uno stage, ovvero una parte del modello. Gli approcci convenzionali per il recupero dai guasti consistono nell'utilizzo del checkpointing, dove periodicamente una copia dell'intero modello viene inviata a una memoria aggiuntiva, o nel calcolo ridondante. Questi approcci comportano un significativo sovraccarico di comunicazione e/o calcolo anche in assenza di guasti e non scalano bene in contesti con modelli di grandi dimensioni. In questo articolo, proponiamo CheckFree, un metodo di recupero efficiente in cui uno stage guasto viene sostituito da una media ponderata degli stage vicini più prossimi. A differenza dello stato dell'arte, CheckFree non richiede calcoli o archiviazione aggiuntivi. Tuttavia, a causa della natura della media degli stage vicini, può recuperare solo i guasti degli stage intermedi. Estendiamo ulteriormente il nostro metodo a CheckFree+ con l'esecuzione fuori ordine della pipeline per tollerare i crash del primo e dell'ultimo stage. Grazie al pipelining fuori ordine, il comportamento di questi stage viene imitato dai loro vicini, il che consente a CheckFree+ di recuperarli semplicemente copiando i pesi dal vicino immediato. Per poter recuperare i livelli di (de)embedding, CheckFree+ copia questi livelli negli stage vicini, il che richiede un sovraccarico di archiviazione relativamente piccolo. Valutiamo ampiamente il nostro metodo su modelli LLaMa con dimensioni che vanno da 124M a 1.5B con frequenze di guasto variabili. Nel caso di tassi di guasto bassi e medi (5-10%), CheckFree e CheckFree+ superano sia il checkpointing che il calcolo ridondante in termini di convergenza nel tempo reale di oltre il 12%. Entrambe le nostre proposte possono essere eseguite tramite il nostro codice disponibile all'indirizzo: https://github.com/gensyn-ai/CheckFree.

ProtoReasoning: Prototipi come Fondamento per il Ragionamento Generalizzabile nei Modelli Linguistici di Grande Dimensione
ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs

Jun 18, 2025

Feng He, Zijun Chen, Xinnian Liang, Tingting Ma, Yunqi Qiu, Shuangzhi Wu, Junchi Yan

343

I recenti progressi nei Modelli di Ragionamento su Grande Scala (LRMs) addestrati con il Ragionamento a Lunga Catena di Pensiero (Long CoT) hanno dimostrato notevoli capacità di generalizzazione cross-dominio. Tuttavia, i meccanismi sottostanti che supportano tale trasferimento rimangono poco compresi. Ipotesizziamo che la generalizzazione cross-dominio derivi da prototipi di ragionamento astratti condivisi — modelli di ragionamento fondamentali che catturano l'essenza dei problemi attraverso i domini. Questi prototipi minimizzano le sfumature della rappresentazione, rivelando che compiti apparentemente diversi sono radicati in strutture di ragionamento condivise. Basandoci su questa ipotesi, proponiamo ProtoReasoning, un framework che migliora la capacità di ragionamento dei LLM sfruttando rappresentazioni prototipiche scalabili e verificabili (Prolog per il ragionamento logico, PDDL per la pianificazione). ProtoReasoning include: (1) una pipeline automatizzata per la costruzione di prototipi che trasforma i problemi in corrispondenti rappresentazioni prototipiche; (2) un sistema di verifica completo che fornisce feedback affidabile attraverso interpreti Prolog/PDDL; (3) la scalabilità per sintetizzare problemi arbitrariamente all'interno dello spazio dei prototipi garantendone la correttezza. Esperimenti estensivi mostrano che ProtoReasoning ottiene un miglioramento del 4,7% rispetto ai modelli di base nel ragionamento logico (Enigmata-Eval), del 6,3% nei compiti di pianificazione, del 4,0% nel ragionamento generale (MMLU) e dell'1,0% in matematica (AIME24). Significativamente, i nostri studi di ablazione confermano che l'apprendimento nello spazio dei prototipi dimostra anche una maggiore generalizzazione a problemi strutturalmente simili rispetto all'addestramento esclusivo su rappresentazioni in linguaggio naturale, validando la nostra ipotesi che i prototipi di ragionamento servano come fondamento per un ragionamento generalizzabile nei grandi modelli linguistici.

Agenti Web Incorporati: Colmare i Regni Fisico-Digitali per un'Intelligenza Agente Integrata
Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence

Jun 18, 2025

Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang

232

Gli agenti AI odierni sono per lo più isolati: o recuperano e ragionano su vaste quantità di informazioni e conoscenze digitali ottenute online, oppure interagiscono con il mondo fisico attraverso percezione, pianificazione e azione incarnata, ma raramente entrambe. Questa separazione limita la loro capacità di risolvere compiti che richiedono un'intelligenza integrata fisica e digitale, come cucinare seguendo ricette online, navigare utilizzando dati cartografici dinamici o interpretare punti di riferimento del mondo reale sfruttando conoscenze web. Introduciamo gli Embodied Web Agents, un nuovo paradigma per gli agenti AI che collega fluidamente l'incarnazione e il ragionamento su scala web. Per rendere operativo questo concetto, sviluppiamo innanzitutto gli ambienti di task degli Embodied Web Agents, una piattaforma di simulazione unificata che integra strettamente ambienti 3D realistici, sia interni che esterni, con interfacce web funzionali. Basandoci su questa piattaforma, costruiamo e rilasciamo il Benchmark degli Embodied Web Agents, che comprende una serie diversificata di compiti tra cui cucinare, navigare, fare acquisti, turismo e geolocalizzazione, tutti richiedenti un ragionamento coordinato tra i domini fisico e digitale per una valutazione sistematica dell'intelligenza cross-domain. I risultati sperimentali rivelano significativi divari di prestazione tra i sistemi AI all'avanguardia e le capacità umane, delineando sia sfide che opportunità all'intersezione tra cognizione incarnata e accesso a conoscenze su scala web. Tutti i dataset, i codici e i siti web sono disponibili pubblicamente alla pagina del nostro progetto https://embodied-web-agent.github.io/.

Sistema BUT per la MLC-SLM Challenge
BUT System for the MLC-SLM Challenge

Jun 16, 2025

Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget

154

Presentiamo un sistema di riconoscimento automatico del parlato (ASR) per due parlanti che combina DiCoW -- una variante di Whisper condizionata alla diarizzazione -- con DiariZen, una pipeline di diarizzazione costruita su Pyannote. Valutiamo inizialmente entrambi i sistemi in scenari multilingue out-of-domain (OOD) senza alcun fine-tuning. In questo contesto, DiariZen supera costantemente il modello di diarizzazione Pyannote di riferimento, dimostrando una forte capacità di generalizzazione. Nonostante sia stato sottoposto a fine-tuning su dati esclusivamente in inglese per l'ASR del parlante target, DiCoW mantiene solide prestazioni multilingue, indicando che le modifiche all'encoder preservano le capacità multilingue di Whisper. Successivamente, sottoponiamo a fine-tuning sia DiCoW che DiariZen sui dati della challenge MLC-SLM. DiariZen fine-tuned continua a superare il baseline Pyannote fine-tuned, mentre DiCoW ottiene ulteriori miglioramenti grazie all'adattamento al dominio. Il nostro sistema finale raggiunge un tcpWER/CER micro-medio del 16,75% e si classifica al secondo posto nel Task 2 della challenge MLC-SLM. Infine, identifichiamo diverse incoerenze di etichettatura nei dati di training -- come segmenti vocali mancanti e annotazioni di silenzio errate -- che possono ostacolare il fine-tuning della diarizzazione. Proponiamo semplici strategie di mitigazione per affrontare questi problemi e migliorare la robustezza del sistema.

Ricompense Semanticamente Consapevoli per l'Addestramento Open-Ended R1 nella Generazione Libera
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

Jun 18, 2025

Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

132

Valutare la generazione aperta e di lunga durata è complesso poiché è difficile definire cosa separi chiaramente gli output buoni da quelli scadenti. I metodi esistenti spesso trascurano aspetti chiave come coerenza, stile o pertinenza, o sono influenzati dai dati di pre-addestramento, rendendo la valutazione della generazione aperta e di lunga durata un problema poco esplorato. Per colmare questa lacuna, proponiamo PrefBERT, un modello di punteggio per valutare la generazione aperta e di lunga durata in GRPO e guidarne l'addestramento con ricompense distinte per output buoni e scadenti. Addestrato su due dataset di valutazione delle risposte con stili di lunga durata vari e qualità valutata su scala Likert, PrefBERT supporta efficacemente GRPO fornendo un feedback di ricompensa semantica migliore rispetto alle metriche tradizionali ROUGE-L e BERTScore. Attraverso valutazioni complete, tra cui LLM-as-a-judge, valutazioni umane e analisi qualitative, dimostriamo che PrefBERT, addestrato su risposte di lunghezza multi-frase e paragrafo, rimane affidabile su passaggi lunghi vari e si allinea bene con le ricompense verificabili di cui GRPO ha bisogno. Le valutazioni umane confermano che l'uso di PrefBERT come segnale di ricompensa per addestrare i modelli di policy produce risposte più allineate con le preferenze umane rispetto a quelle addestrate con metriche tradizionali. Il nostro codice è disponibile all'indirizzo https://github.com/zli12321/long_form_rl.

SwarmAgentic: Verso la Generazione Completamente Automatica di Sistemi Agenti tramite Intelligenza dello Sciame
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence

Jun 18, 2025

Yao Zhang, Chenyang Lin, Shijie Tang, Haokun Chen, Shijie Zhou, Yunpu Ma, Volker Tresp

122

Il rapido progresso dei Modelli Linguistici di Grande Scala ha fatto avanzare i sistemi agentici nel processo decisionale, nel coordinamento e nell'esecuzione di compiti. Tuttavia, i framework esistenti per la generazione di sistemi agentici mancano di piena autonomia, non includendo la generazione di agenti da zero, l'ottimizzazione autonoma delle funzionalità degli agenti e la collaborazione, limitando così l'adattabilità e la scalabilità. Proponiamo SwarmAgentic, un framework per la generazione completamente automatizzata di sistemi agentici che costruisce sistemi agentici da zero e ottimizza congiuntamente le funzionalità degli agenti e la collaborazione come componenti interdipendenti attraverso un'esplorazione guidata dal linguaggio. Per consentire una ricerca efficiente sulle strutture a livello di sistema, SwarmAgentic mantiene una popolazione di sistemi candidati e li evolve tramite aggiornamenti guidati dal feedback, traendo ispirazione dall'Ottimizzazione a Sciame di Particelle (PSO). Valutiamo il nostro metodo su sei compiti reali, aperti ed esplorativi che coinvolgono pianificazione di alto livello, coordinamento a livello di sistema e ragionamento creativo. Dati solo una descrizione del compito e una funzione obiettivo, SwarmAgentic supera tutti i benchmark, ottenendo un miglioramento relativo del +261,8% rispetto ad ADAS nel benchmark TravelPlanner, evidenziando l'efficacia della piena automazione in compiti strutturalmente non vincolati. Questo framework rappresenta un passo significativo verso la progettazione scalabile e autonoma di sistemi agentici, unendo l'intelligenza a sciame con la generazione completamente automatizzata di sistemi multi-agente. Il nostro codice è pubblicamente disponibile all'indirizzo https://yaoz720.github.io/SwarmAgentic/.

SciVer: Valutazione di Modelli di Base per la Verifica Multimodale di Affermazioni Scientifiche
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Jun 18, 2025

Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao

112

Presentiamo SciVer, il primo benchmark specificamente progettato per valutare la capacità dei modelli di base di verificare affermazioni in un contesto scientifico multimodale. SciVer è composto da 3.000 esempi annotati da esperti su 1.113 articoli scientifici, coprendo quattro sottoinsiemi, ciascuno dei quali rappresenta un tipo comune di ragionamento nella verifica di affermazioni scientifiche multimodali. Per consentire una valutazione dettagliata, ogni esempio include prove di supporto annotate da esperti. Valutiamo le prestazioni di 21 modelli di base multimodali all'avanguardia, tra cui o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision e Qwen2.5-VL. Il nostro esperimento rivela un divario significativo nelle prestazioni tra questi modelli e gli esperti umani su SciVer. Attraverso un'analisi approfondita della generazione aumentata dal recupero (RAG) e delle valutazioni degli errori condotte da umani, identifichiamo limitazioni critiche nei modelli open-source attuali, offrendo intuizioni chiave per avanzare la comprensione e il ragionamento dei modelli nei compiti legati alla letteratura scientifica multimodale.

Ottimizzazione Prossimale della Politica Troncata
Truncated Proximal Policy Optimization

Jun 18, 2025

Tiantian Fan, Lingjun Liu, Yu Yue, Jiaze Chen, Chengyi Wang, Qiying Yu, Chi Zhang, Zhiqi Lin, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Bole Ma, Mofan Zhang, Gaohong Liu, Ru Zhang, Haotian Zhou, Cong Xie, Ruidong Zhu, Zhi Zhang, Xin Liu, Mingxuan Wang, Lin Yan, Yonghui Wu

102

Recentemente, i modelli di linguaggio di grandi dimensioni (LLMs) con scalatura al momento del test hanno dimostrato capacità di ragionamento eccezionali in compiti scientifici e professionali generando lunghe catene di pensiero (CoT). Come componente cruciale per lo sviluppo di questi modelli di ragionamento, l'apprendimento per rinforzo (RL), esemplificato dall'ottimizzazione delle politiche prossimali (PPO) e dalle sue varianti, consente ai modelli di apprendere attraverso tentativi ed errori. Tuttavia, PPO può essere dispendioso in termini di tempo a causa della sua natura intrinsecamente on-policy, che è ulteriormente aggravata dall'aumento della lunghezza delle risposte. In questo lavoro, proponiamo l'ottimizzazione delle politiche prossimali troncate (T-PPO), una nuova estensione di PPO che migliora l'efficienza dell'addestramento semplificando l'aggiornamento della politica e la generazione di risposte con lunghezza limitata. T-PPO mitiga il problema della bassa utilizzazione dell'hardware, un inconveniente intrinseco delle procedure di generazione lunga completamente sincronizzate, in cui le risorse spesso rimangono inattive durante i periodi di attesa per il completamento dei rollouts. I nostri contributi sono duplici. In primo luogo, proponiamo la stima del vantaggio generalizzata estesa (EGAE) per la stima del vantaggio derivata da risposte incomplete, mantenendo l'integrità dell'apprendimento della politica. In secondo luogo, abbiamo ideato un meccanismo ottimizzato dal punto di vista computazionale che consente l'ottimizzazione indipendente dei modelli di politica e di valore. Filtrando selettivamente i token dei prompt e quelli troncati, questo meccanismo riduce i calcoli ridondanti e accelera il processo di addestramento senza sacrificare le prestazioni di convergenza. Dimostriamo l'efficacia e l'efficienza di T-PPO su AIME 2024 con un modello base da 32B. I risultati sperimentali mostrano che T-PPO migliora l'efficienza dell'addestramento degli LLMs di ragionamento fino a 2,5 volte e supera i suoi concorrenti esistenti.

ImmerseGen: Generazione di Mondi Immersivi Guidata da Agenti con Proxy a Texture Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jun 17, 2025

Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma

102

La creazione automatica di scene 3D per una presenza immersiva nella realtà virtuale (VR) è stata un importante focus di ricerca per decenni. Tuttavia, i metodi esistenti si basano spesso sulla modellazione di mesh ad alta poligonosità con una successiva semplificazione o su massicci Gaussiani 3D, risultando in una pipeline complessa o in un realismo visivo limitato. In questo articolo, dimostriamo che una modellazione così esaustiva non è necessaria per ottenere un'esperienza immersiva convincente. Introduciamo ImmerseGen, un nuovo framework guidato da agenti per la modellazione di mondi compatti e fotorealistici. ImmerseGen rappresenta le scene come composizioni gerarchiche di proxy geometrici leggeri, ovvero terreni semplificati e mesh a billboard, e genera un aspetto fotorealistico sintetizzando texture RGBA su questi proxy. Nello specifico, proponiamo la texture condizionata dal terreno per la sintesi di un mondo di base centrato sull'utente e la texture RGBA per gli asset dello scenario in primo piano e intermedio. Questa riformulazione offre diversi vantaggi: (i) semplifica la modellazione consentendo agli agenti di guidare i modelli generativi nella produzione di texture coerenti che si integrano perfettamente con la scena; (ii) evita la creazione e la decimazione di geometrie complesse sintetizzando direttamente texture fotorealistiche sui proxy, preservando la qualità visiva senza degradazione; (iii) consente rappresentazioni compatte adatte al rendering in tempo reale su visori VR mobili. Per automatizzare la creazione di scene da prompt testuali, introduciamo agenti di modellazione basati su VLM (Vision-Language Models) potenziati con analisi semantica basata su griglia per un ragionamento spaziale migliorato e un posizionamento accurato degli asset. ImmerseGen arricchisce ulteriormente le scene con effetti dinamici e audio ambientale per supportare un'immersione multisensoriale. Esperimenti sulla generazione di scene e dimostrazioni live in VR mostrano che ImmerseGen raggiunge un fotorealismo superiore, coerenza spaziale ed efficienza di rendering rispetto ai metodi precedenti. Pagina web del progetto: https://immersegen.github.io.

GMT: Monitoraggio Generale del Movimento per il Controllo Corporeo Totale degli Umanoidi
GMT: General Motion Tracking for Humanoid Whole-Body Control

Jun 17, 2025

Zixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, Xiaolong Wang

La capacità di tracciare movimenti generali del corpo intero nel mondo reale rappresenta un approccio utile per costruire robot umanoidi a scopo generale. Tuttavia, raggiungere questo obiettivo può essere impegnativo a causa della diversità temporale e cinematica dei movimenti, delle capacità della politica di controllo e della difficoltà di coordinazione tra la parte superiore e inferiore del corpo. Per affrontare queste problematiche, proponiamo GMT, un framework scalabile e generale per il tracciamento dei movimenti, che addestra una singola politica unificata per consentire ai robot umanoidi di seguire una vasta gamma di movimenti nel mondo reale. GMT si basa su due componenti principali: una strategia di Campionamento Adattivo e un'architettura Motion Mixture-of-Experts (MoE). Il Campionamento Adattivo bilancia automaticamente movimenti semplici e complessi durante l'addestramento. La MoE garantisce una migliore specializzazione delle diverse regioni del manifold dei movimenti. Attraverso esperimenti estesi sia in simulazione che nel mondo reale, dimostriamo l'efficacia di GMT, raggiungendo prestazioni all'avanguardia su un ampio spettro di movimenti utilizzando una politica generale unificata. Video e ulteriori informazioni sono disponibili al seguente link: https://gmt-humanoid.github.io.

MoTE: Miscela di Esperti Ternari per Modelli Multimodali di Grande Scala Efficienti in Memoria
MoTE: Mixture of Ternary Experts for Memory-efficient Large Multimodal Models

Jun 17, 2025

Hongyu Wang, Jiayu Xu, Ruiping Wang, Yan Feng, Yitao Zhai, Peng Pei, Xunliang Cai, Xilin Chen

I grandi modelli multimodali Mixture-of-Experts (MoE) scalano efficacemente le dimensioni del modello per migliorare le prestazioni mantenendo fissi i parametri attivi. Tuttavia, i lavori precedenti hanno principalmente utilizzato esperti a precisione completa durante il riciclo sparso. Nonostante mostrino prestazioni superiori nei task finali, il gran numero di esperti introduce un maggiore utilizzo di memoria, il che pone sfide significative per il deployment su dispositivi edge. In questo lavoro, proponiamo MoTE, un approccio scalabile ed efficiente in termini di memoria per addestrare modelli Mixture-of-Ternary-Experts partendo da checkpoint densi. Invece di addestrare un numero inferiore di esperti ad alta precisione, proponiamo di addestrare un numero maggiore di esperti a bassa precisione durante il riciclo. Nello specifico, utilizziamo il FFN pre-addestrato come esperto condiviso e addestriamo esperti instradati ternari con parametri in {-1, 0, 1}. Esperimenti estensivi dimostrano che il nostro approccio presenta una promettente tendenza di scalabilità rispetto alle dimensioni del modello. MoTE raggiunge prestazioni comparabili al baseline MoE-LLaVA a precisione completa, offrendo al contempo un minore utilizzo di memoria. Inoltre, il nostro approccio è compatibile con i metodi di quantizzazione post-addestramento e il vantaggio si amplifica ulteriormente quando i vincoli di memoria si riducono. Con lo stesso utilizzo di memoria degli esperti pari a 3,4 GB e combinato con la quantizzazione post-addestramento, MoTE supera MoE-LLaVA con un guadagno medio di accuratezza del 4,3% sui task finali, dimostrando la sua efficacia e potenziale per dispositivi con vincoli di memoria.

CoMemo: I LVLM necessitano di contesto visivo con memoria delle immagini
CoMemo: LVLMs Need Image Context with Image Memory

Jun 6, 2025

Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai

I recenti progressi nei Modelli Linguistici di Grande Scala con Integrazione Visiva, costruiti sui Modelli Linguistici di Grande Scala, hanno stabilito l'allineamento delle caratteristiche visive con le rappresentazioni dei LLM come paradigma dominante. Tuttavia, i progetti architetturali ereditati dai LLM introducono caratteristiche subottimali per l'elaborazione multimodale. In primo luogo, i LVLM mostrano una distribuzione bimodale nell'allocazione dell'attenzione, portando alla progressiva trascuratezza del contenuto visivo intermedio man mano che il contesto si espande. In secondo luogo, i convenzionali schemi di codifica posizionale non riescono a preservare le vitali relazioni strutturali 2D durante l'elaborazione di immagini ad alta risoluzione dinamica. Per affrontare queste limitazioni, proponiamo CoMemo - un'architettura a doppio percorso che combina un percorso di immagine contestuale con un percorso di memoria visiva per l'elaborazione visiva, allevando efficacemente la trascuratezza delle informazioni visive. Inoltre, introduciamo RoPE-DHR, un nuovo meccanismo di codifica posizionale che utilizza l'aggregazione posizionale basata su miniature per mantenere la consapevolezza spaziale 2D mitigando il decadimento remoto in sequenze estese. Le valutazioni su sette benchmark, inclusi la comprensione a lungo contesto, il ragionamento su più immagini e la risposta a domande visive, dimostrano la prestazione superiore di CoMemo rispetto alle architetture LVLM convenzionali. La pagina del progetto è disponibile all'indirizzo https://lalbj.github.io/projects/CoMemo/.

PictSure: L'Addestramento Preliminare degli Embedding è Cruciale per i Classificatori di Immagini con Apprendimento In-Contesto
PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers

Jun 16, 2025

Lukas Schiesser, Cornelius Wolff, Sophie Haas, Simon Pukrop

La costruzione di modelli di classificazione delle immagini rimane complessa in domini con scarsità di dati, dove la raccolta di grandi dataset etichettati risulta impraticabile. L'apprendimento in contesto (In-Context Learning, ICL) è emerso come un paradigma promettente per la classificazione di immagini con pochi esempi (Few-Shot Image Classification, FSIC), consentendo ai modelli di generalizzare tra domini senza adattamento basato su gradienti. Tuttavia, i lavori precedenti hanno largamente trascurato un componente critico delle pipeline FSIC basate su ICL: il ruolo degli embedding di immagini. In questo lavoro, presentiamo PictSure, un framework ICL che pone il modello di embedding — la sua architettura, il pretraining e le dinamiche di addestramento — al centro dell'analisi. Esaminiamo sistematicamente gli effetti di diversi tipi di encoder visivi, obiettivi di pretraining e strategie di fine-tuning sulle prestazioni FSIC a valle. I nostri esperimenti dimostrano che il successo dell'addestramento e le prestazioni fuori dominio dipendono fortemente da come i modelli di embedding sono stati preaddestrati. Di conseguenza, PictSure riesce a superare i modelli FSIC basati su ICL esistenti su benchmark fuori dominio che differiscono significativamente dalla distribuzione di addestramento, mantenendo risultati comparabili su task in dominio. Il codice è disponibile all'indirizzo https://github.com/PictSure/pictsure-library.

FedNano: Verso un'ottimizzazione federata leggera per modelli linguistici multimodali preaddestrati di grandi dimensioni
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models

Jun 12, 2025

Yao Zhang, Hewei Gao, Haokun Chen, Weiguo Li, Yunpu Ma, Volker Tresp

I Modelli Linguistici Multimodali di Grande Scala (MLLMs) eccellono in compiti come il ragionamento multimodale e il recupero cross-modale, ma affrontano sfide di implementazione in scenari reali a causa della distribuzione dei dati multimodali e dei rigorosi requisiti di privacy. Il Federated Learning (FL) offre una soluzione consentendo l'addestramento collaborativo dei modelli senza centralizzare i dati. Tuttavia, realizzare il FL per gli MLLMs presenta sfide significative, tra cui elevate esigenze computazionali, capacità limitata dei client, costi di comunicazione sostanziali e dati eterogenei dei client. I metodi FL esistenti presuppongono la distribuzione lato client di modelli completi, un presupposto che non regge per gli MLLMs di grande scala a causa delle loro dimensioni massicce e delle esigenze di comunicazione. Per affrontare queste limitazioni, proponiamo FedNano, il primo framework FL che centralizza il LLM sul server introducendo NanoEdge, un modulo leggero per l'adattamento specifico del client. NanoEdge utilizza encoder specifici per modalità, connettori e NanoAdattatori addestrabili con adattamento a basso rango. Questo design elimina la necessità di distribuire il LLM sui client, riducendo lo storage lato client del 95% e limitando l'overhead di comunicazione a solo lo 0,01% dei parametri del modello. Trasmettendo solo aggiornamenti compatti dei NanoAdattatori, FedNano gestisce dati eterogenei dei client e vincoli di risorse preservando la privacy. Gli esperimenti dimostrano che FedNano supera i precedenti baseline FL, colmando il divario tra la scala degli MLLMs e la fattibilità del FL, e abilitando sistemi di AI multimodale scalabili e decentralizzati.

Caching evolutivo per accelerare il tuo modello di diffusione preconfigurato
Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Jun 18, 2025

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam

I modelli di generazione di immagini basati su diffusione eccellono nella produzione di contenuti sintetici di alta qualità, ma soffrono di un'inferenza lenta e computazionalmente costosa. Ricerche precedenti hanno tentato di mitigare questo problema memorizzando e riutilizzando le caratteristiche all'interno dei transformer di diffusione tra i passi di inferenza. Tuttavia, questi metodi spesso si basano su euristiche rigide che risultano in un'accelerazione limitata o in una scarsa generalizzazione tra le architetture. Proponiamo Evolutionary Caching to Accelerate Diffusion models (ECAD), un algoritmo genetico che apprende efficienti pianificazioni di memorizzazione specifiche per modello, formando una frontiera di Pareto, utilizzando solo un piccolo insieme di prompt di calibrazione. ECAD non richiede modifiche ai parametri della rete o alle immagini di riferimento. Offre significativi miglioramenti nella velocità di inferenza, consente un controllo fine sulla compensazione qualità-latenza e si adatta senza soluzione di continuità a diversi modelli di diffusione. In particolare, le pianificazioni apprese da ECAD possono generalizzare efficacemente a risoluzioni e varianti di modello non viste durante la calibrazione. Valutiamo ECAD su PixArt-alpha, PixArt-Sigma e FLUX-1.dev utilizzando molteplici metriche (FID, CLIP, Image Reward) su diversi benchmark (COCO, MJHQ-30k, PartiPrompts), dimostrando miglioramenti consistenti rispetto agli approcci precedenti. Su PixArt-alpha, ECAD identifica una pianificazione che supera il precedente metodo state-of-the-art di 4.47 COCO FID, aumentando l'accelerazione dell'inferenza da 2.35x a 2.58x. I nostri risultati stabiliscono ECAD come un approccio scalabile e generalizzabile per accelerare l'inferenza di diffusione. Il nostro sito web del progetto è disponibile all'indirizzo https://aniaggarwal.github.io/ecad e il nostro codice è disponibile all'indirizzo https://github.com/aniaggarwal/ecad.

AssertBench: Un Benchmark per Valutare l'Auto-Asserzione nei Modelli Linguistici di Grandi Dimensioni
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models

Jun 8, 2025

Jaeho Lee, Atharv Chowdhary

Recenti benchmark hanno esaminato la coerenza fattuale e la robustezza retorica nei Modelli Linguistici di Grande Dimensione (LLM). Tuttavia, esiste una lacuna di conoscenza riguardo a come l'inquadramento direzionale di affermazioni fattualmente vere influenzi l'accordo del modello, uno scenario comune per gli utenti di LLM. AssertBench affronta questo problema campionando fatti supportati da evidenze da FEVEROUS, un dataset di verifica fattuale. Per ogni fatto (supportato da evidenze), costruiamo due prompt di inquadramento: uno in cui l'utente afferma che l'affermazione è corretta dal punto di vista fattuale, e un altro in cui l'utente afferma che è errata. Registriamo quindi l'accordo e il ragionamento del modello. L'esito desiderato è che il modello si affermi, mantenendo una valutazione coerente della verità in entrambi gli inquadramenti, piuttosto che cambiare la sua valutazione per concordare con l'utente. AssertBench isola la variabilità indotta dall'inquadramento dalla conoscenza fattuale sottostante del modello stratificando i risultati in base all'accuratezza del modello sulle stesse affermazioni quando presentate in modo neutro. In questo modo, questo benchmark mira a misurare la capacità di un LLM di "mantenere le proprie posizioni" quando viene presentato con affermazioni contraddittorie dell'utente riguardo allo stesso fatto. Il codice sorgente completo è disponibile all'indirizzo https://github.com/achowd32/assert-bench.

OS-Harm: Un Benchmark per la Misurazione della Sicurezza degli Agenti di Utilizzo del Computer
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents

Jun 17, 2025

Thomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko

Gli agenti di utilizzo del computer sono agenti basati su LLM in grado di interagire direttamente con un'interfaccia utente grafica, elaborando screenshot o alberi di accessibilità. Sebbene questi sistemi stiano guadagnando popolarità, la loro sicurezza è stata ampiamente trascurata, nonostante sia essenziale valutare e comprendere il loro potenziale di comportamenti dannosi per una diffusione su larga scala. Per colmare questa lacuna, introduciamo OS-Harm, un nuovo benchmark per misurare la sicurezza degli agenti di utilizzo del computer. OS-Harm è costruito sull'ambiente OSWorld e mira a testare i modelli in tre categorie di danni: uso improprio deliberato da parte dell'utente, attacchi di prompt injection e comportamenti errati del modello. Per coprire questi casi, abbiamo creato 150 attività che abbracciano diversi tipi di violazioni della sicurezza (molestie, violazione del copyright, disinformazione, esfiltrazione di dati, ecc.) e richiedono all'agente di interagire con una varietà di applicazioni del sistema operativo (client di posta elettronica, editor di codice, browser, ecc.). Inoltre, proponiamo un giudice automatizzato per valutare sia l'accuratezza che la sicurezza degli agenti, che raggiunge un elevato accordo con le annotazioni umane (punteggio F1 di 0,76 e 0,79). Valutiamo gli agenti di utilizzo del computer basandoci su una gamma di modelli all'avanguardia - come o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro - e forniamo approfondimenti sulla loro sicurezza. In particolare, tutti i modelli tendono a conformarsi direttamente a molte richieste di uso improprio deliberato, sono relativamente vulnerabili agli attacchi di prompt injection statici e occasionalmente eseguono azioni non sicure. Il benchmark OS-Harm è disponibile all'indirizzo https://github.com/tml-epfl/os-harm.

ImmerseGen: Generazione di Mondi Immersivi Guidata da Agenti con Proxy a Texture Alfa
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Jun 17, 2025

Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma

102