HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

21 papers found

Seed Diffusion: Un Modello Linguistico di Diffusione su Larga Scala con Inferenza ad Alta Velocità
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Aug 4

ByYuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou

130

Presentiamo Seed Diffusion Preview, un modello linguistico su larga scala basato sulla diffusione a stati discreti, che offre una velocità di inferenza straordinariamente elevata. Grazie alla generazione parallela e non sequenziale, i modelli di diffusione discreta garantiscono un notevole aumento di velocità per mitigare la latenza intrinseca della decodifica token per token, come dimostrato di recente (ad esempio, Mercury Coder, Gemini Diffusion). Seed Diffusion Preview raggiunge una velocità di inferenza di 2.146 token/s su GPU H20, mantenendo prestazioni competitive su una gamma di benchmark standard per la valutazione del codice, risultando significativamente più veloce rispetto ai contemporanei Mercury e Gemini Diffusion, stabilendo così un nuovo stato dell'arte sul fronte Pareto velocità-qualità per i modelli di codice.

Skywork UniPic: Modellazione Autoregressiva Unificata per la Comprensione e Generazione Visiva
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Aug 5

ByPeiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou

Presentiamo Skywork UniPic, un modello autoregressivo da 1,5 miliardi di parametri che unisce la comprensione delle immagini, la generazione di immagini da testo e la modifica delle immagini all'interno di un'unica architettura, eliminando la necessità di adattatori specifici per task o connettori inter-modulari, e dimostriamo che sistemi multimodali compatti possono raggiungere prestazioni all'avanguardia su hardware di consumo. Skywork UniPic ottiene un punteggio GenEval di 0,86, superando la maggior parte dei modelli unificati esistenti; stabilisce un nuovo record di generazione complessa su DPG-Bench con 85,5; raggiunge 5,83 su GEditBench-EN e 3,49 su ImgEdit-Bench per la modifica delle immagini; e genera immagini 1024 x 1024 con meno di 15 GB di memoria GPU (ad esempio, RTX 4090). (1) una strategia di codifica disaccoppiata che sfrutta un encoder autoregressivo mascherato per la sintesi e un encoder SigLIP2 per la comprensione, tutti alimentando un decoder autoregressivo condiviso; (2) un programma di addestramento progressivo e consapevole della risoluzione, che scala da 256 x 256 a 1024 x 1024 mentre sblocca dinamicamente i parametri per bilanciare capacità e stabilità; e (3) dataset accuratamente curati, su scala di 100 milioni, arricchiti con modelli di ricompensa specifici per task per affinare gli obiettivi di generazione e modifica. Dimostrando che un'integrazione multimodale ad alta fedeltà non deve comportare richieste di risorse proibitive, Skywork UniPic stabilisce un paradigma pratico per l'IA multimodale ad alta fedeltà e distribuibile. Codice e pesi sono disponibili pubblicamente su https://huggingface.co/Skywork/Skywork-UniPic-1.5B.

LongVie: Generazione Controllabile di Video Ultra-Lunghi con Guida Multimodale
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

Aug 5

ByJianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

La generazione controllata di video ultra-lunghi è un compito fondamentale ma impegnativo. Sebbene i metodi esistenti siano efficaci per clip brevi, faticano a scalare a causa di problemi come l'inconsistenza temporale e il degrado visivo. In questo articolo, inizialmente indaghiamo e identifichiamo tre fattori chiave: l'inizializzazione separata del rumore, la normalizzazione indipendente dei segnali di controllo e le limitazioni della guida a singola modalità. Per affrontare questi problemi, proponiamo LongVie, un framework autoregressivo end-to-end per la generazione controllata di video lunghi. LongVie introduce due design principali per garantire la consistenza temporale: 1) una strategia unificata di inizializzazione del rumore che mantiene una generazione coerente tra i clip, e 2) una normalizzazione globale dei segnali di controllo che impone l'allineamento nello spazio di controllo per l'intero video. Per mitigare il degrado visivo, LongVie utilizza 3) un framework di controllo multi-modale che integra sia segnali di controllo densi (ad esempio, mappe di profondità) che sparsi (ad esempio, punti chiave), completato da 4) una strategia di training consapevole del degrado che bilancia adattivamente i contributi delle modalità nel tempo per preservare la qualità visiva. Introduciamo inoltre LongVGenBench, un benchmark completo composto da 100 video ad alta risoluzione che coprono diversi ambienti reali e sintetici, ciascuno della durata di oltre un minuto. Esperimenti estensivi dimostrano che LongVie raggiunge prestazioni all'avanguardia in termini di controllabilità a lungo raggio, consistenza e qualità.

CompassVerifier: Un Verificatore Unificato e Robusto per la Valutazione e la Ricompensa dei Risultati nei Modelli Linguistici di Grande Dimensione
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

Aug 5

ByShudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

La verifica delle risposte è cruciale non solo per valutare i grandi modelli linguistici (LLM) confrontando i loro output non strutturati con risposte standard, ma funge anche da modello di ricompensa per guidare l'ottimizzazione dei LLM. La maggior parte dei framework di valutazione si basa su corrispondenze regolarizzate o utilizza LLM generici per la verifica delle risposte, il che richiede un'ampia e ripetitiva personalizzazione delle regole regex o dei prompt di valutazione. Due limitazioni fondamentali persistono nelle metodologie attuali: 1) l'assenza di benchmark completi che valutino sistematicamente le capacità di verifica tra diversi LLM; e 2) lo stadio iniziale dello sviluppo dei verificatori, in cui gli approcci esistenti mancano sia della robustezza necessaria per gestire casi limite complessi sia della generalizzabilità attraverso diversi domini. In questo lavoro, sviluppiamo CompassVerifier, un modello verificatore leggero, accurato e robusto per la valutazione e la ricompensa degli esiti. Dimostra competenza multi-dominio che abbraccia matematica, conoscenza e vari compiti di ragionamento, con la capacità di elaborare diversi tipi di risposte, inclusi problemi con più sotto-problemi, formule e sequenze di risposte, identificando efficacemente risposte anormali/invalide. Introduciamo il benchmark VerifierBench, composto da output di modelli raccolti da molteplici fonti di dati, arricchito attraverso l'analisi manuale di pattern di meta-errori per migliorare CompassVerifier. Ci aspettiamo che CompassVerifier e VerifierBench facilitino la verifica delle risposte, i protocolli di valutazione e la ricerca sul reinforcement learning. Codice e dataset sono disponibili su https://github.com/open-compass/CompassVerifier.

Apprendimento per Rinforzo Integrato negli Strumenti per la Ricerca Approfondita nei Repository
Tool-integrated Reinforcement Learning for Repo Deep Search

Aug 5

ByZexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

La localizzazione dei problemi, il processo di identificazione delle posizioni del codice che necessitano di modifiche per risolvere i problemi software, è un compito cruciale ma impegnativo nello sviluppo del software. Il divario semantico tra le descrizioni dei problemi in linguaggio naturale e il codice difettoso richiede un ragionamento complesso a più passaggi attraverso le dipendenze del codice. Gli agenti basati su LLM esistenti cercano di affrontare questo problema integrando strumenti di recupero del repository. Tuttavia, ciò trasforma la localizzazione dei problemi in un compito impegnativo che chiamiamo Repo Deep Search, che richiede all'LLM di utilizzare efficacemente vari strumenti di recupero del repository durante un processo di ragionamento e navigazione a più passaggi. Per affrontare questa sfida, presentiamo ToolTrain, un framework di formazione integrato con strumenti in due fasi che combina il fine-tuning supervisionato con campionamento di rifiuto e l'apprendimento per rinforzo integrato con strumenti per migliorare la capacità degli LLM di utilizzare strumenti di recupero per la localizzazione dei problemi. I risultati sperimentali mostrano che i modelli addestrati con ToolTrain raggiungono prestazioni all'avanguardia, con il nostro modello da 32B che supera persino Claude-3.7 nella localizzazione a livello di funzione. I risultati mostrano anche che un miglioramento delle prestazioni di localizzazione si traduce in una migliore risoluzione end-to-end dei problemi. Ciò dimostra ulteriormente che la formazione per la localizzazione dei problemi è una strategia valida ed efficace per migliorare lo sviluppo software automatizzato.

LiveMCPBench: Gli Agenti Possono Navigare in un Oceano di Strumenti MCP?
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

Aug 3

ByGuozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun

Con il rapido sviluppo del Model Context Protocol (MCP), il numero di server MCP ha superato i 10.000. Tuttavia, i benchmark MCP esistenti sono limitati a configurazioni a singolo server con pochi strumenti, ostacolando una valutazione efficace delle capacità degli agenti in scenari reali su larga scala. Per affrontare questa limitazione, presentiamo LiveMCPBench, il primo benchmark completo che comprende 95 task reali basati sull'ecosistema MCP, progettato per valutare gli agenti LLM su larga scala su server diversi. Per supportare una pipeline di valutazione scalabile e riproducibile in ambienti MCP su larga scala, abbiamo curato LiveMCPTool, una raccolta diversificata e pronta all'uso di 70 server MCP e 527 strumenti. Inoltre, introduciamo LiveMCPEval, un framework LLM-as-a-Judge che consente una valutazione automatizzata e adattativa in ambienti di task dinamici e variabili nel tempo, raggiungendo un accordo dell'81% con i revisori umani. Infine, proponiamo il MCP Copilot Agent, un agente multi-step che instrada gli strumenti per la pianificazione dinamica ed esegue strumenti per l'interazione API su tutta la suite LiveMCPTool. La nostra valutazione copre 10 modelli leader, con il modello migliore (Claude-Sonnet-4) che raggiunge un tasso di successo del 78,95%. Tuttavia, osserviamo una grande variazione delle prestazioni tra i modelli, e diversi modelli ampiamente utilizzati si comportano male negli ambienti complessi e ricchi di strumenti di LiveMCPBench. Nel complesso, LiveMCPBench offre il primo framework unificato per il benchmarking degli agenti LLM in ambienti MCP realistici, ricchi di strumenti e dinamici, gettando una solida base per una ricerca scalabile e riproducibile sulle capacità degli agenti. Il nostro codice e i dati saranno pubblicamente disponibili all'indirizzo https://icip-cas.github.io/LiveMCPBench.

Spostamento della Rappresentazione: Unificare la Compressione dei Token con FlashAttention
Representation Shift: Unifying Token Compression with FlashAttention

Aug 1

ByJoonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim

I Transformer hanno dimostrato un successo straordinario nei campi della visione, del linguaggio e del video. Tuttavia, l'aumento della complessità dei compiti ha portato a modelli più grandi e a un maggior numero di token, incrementando il costo quadratico dell'auto-attenzione e l'overhead dell'accesso alla memoria GPU. Per ridurre il costo computazionale dell'auto-attenzione, lavori precedenti hanno proposto tecniche di compressione dei token che eliminano quelli ridondanti o meno informativi. Nel frattempo, kernel di attenzione fusi come FlashAttention sono stati sviluppati per alleviare l'overhead della memoria evitando la costruzione delle mappe di attenzione e il relativo I/O verso la HBM. Questo, tuttavia, li rende incompatibili con la maggior parte dei metodi di compressione dei token senza addestramento, che si basano sulle mappe di attenzione per determinare l'importanza dei token. Qui, proponiamo Representation Shift, una metrica senza addestramento e indipendente dal modello che misura il grado di cambiamento nella rappresentazione di ciascun token. Questo integra perfettamente la compressione dei token con FlashAttention, senza bisogno di mappe di attenzione o riaddestramento. Il nostro metodo si generalizza ulteriormente oltre i Transformer ai CNN e ai modelli a spazio di stati. Esperimenti estesi dimostrano che Representation Shift consente una compressione efficace dei token compatibile con FlashAttention, ottenendo accelerazioni significative fino al 5,5% e al 4,4% nel recupero video-testo e nelle domande e risposte sui video, rispettivamente. Il codice è disponibile all'indirizzo https://github.com/mlvlab/Representation-Shift.

CRINN: Apprendimento per Rinforzo Contrastivo per la Ricerca dei Vicini Più Vicini Approssimati
CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

Aug 4

ByXiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Gli algoritmi di ricerca approssimata del vicino più prossimo (ANNS) sono diventati sempre più cruciali per le recenti applicazioni di intelligenza artificiale, in particolare nella generazione aumentata da recupero (RAG) e nelle applicazioni di LLM basate su agenti. In questo articolo presentiamo CRINN, un nuovo paradigma per gli algoritmi ANNS. CRINN tratta l'ottimizzazione ANNS come un problema di apprendimento per rinforzo, dove la velocità di esecuzione funge da segnale di ricompensa. Questo approccio consente la generazione automatica di implementazioni ANNS progressivamente più veloci, mantenendo i vincoli di accuratezza. La nostra valutazione sperimentale dimostra l'efficacia di CRINN su sei ampiamente utilizzati dataset di benchmark NNS. Rispetto agli algoritmi ANNS open-source all'avanguardia, CRINN ottiene le migliori prestazioni su tre di essi (GIST-960-Euclidean, MNIST-784-Euclidean e GloVe-25-angular), e si piazza a pari merito al primo posto su due di essi (SIFT-128-Euclidean e GloVe-25-angular). Le implicazioni del successo di CRINN vanno ben oltre l'ottimizzazione ANNS: convalida che gli LLM potenziati dall'apprendimento per rinforzo possono funzionare come uno strumento efficace per automatizzare sofisticate ottimizzazioni algoritmiche che richiedono conoscenze specializzate e affinamenti manuali laboriosi. Il codice è disponibile all'indirizzo https://github.com/deepreinforce-ai/CRINN.

La Promessa del RL per l'Editing Autoregressivo di Immagini
The Promise of RL for Autoregressive Image Editing

Aug 1

BySaba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal

Esploriamo tre strategie per migliorare le prestazioni su un'ampia gamma di attività di editing di immagini: fine-tuning supervisionato (SFT), apprendimento per rinforzo (RL) e ragionamento a catena di pensiero (CoT). Per studiare tutti questi componenti in un unico framework coerente, adottiamo un modello multimodale autoregressivo che elabora token testuali e visivi in modo unificato. Troviamo che l'RL combinato con un verificatore LLM multimodale di grandi dimensioni sia la strategia più efficace. Di conseguenza, rilasciamo EARL: Editing with Autoregression and RL, un robusto modello di editing di immagini basato su RL che si comporta in modo competitivo su una vasta gamma di modifiche rispetto a baseline solide, nonostante utilizzi molti meno dati di addestramento. Pertanto, EARL spinge avanti le frontiere dei modelli multimodali autoregressivi nell'editing di immagini. Rilasciamo il nostro codice, i dati di addestramento e i modelli addestrati su https://github.com/mair-lab/EARL.

Goedel-Prover-V2: Scalabilità del Teorema Formale con Sintesi di Dati Scaffoldati e Autocorrezione
Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

Aug 5

ByYong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

Presentiamo Goedel-Prover-V2, una serie di modelli linguistici open-source che stabiliscono un nuovo stato dell'arte nel campo del teorema automatico. Basato sulla pipeline standard di iterazione esperta e apprendimento per rinforzo, il nostro approccio incorpora tre innovazioni chiave: (1) Sintesi di dati strutturata: generiamo compiti sintetici di difficoltà crescente per addestrare il modello a padroneggiare teoremi sempre più complessi; (2) Autocorrezione guidata da verificatore: consentiamo al modello di rivedere iterativamente le sue dimostrazioni sfruttando il feedback del compilatore Lean; (3) Mediazione dei modelli: uniamo i checkpoint dei modelli per mitigare la riduzione della diversità degli output nelle fasi avanzate dell'addestramento. Il nostro modello più piccolo, Goedel-Prover-V2-8B, raggiunge l'84,6% di pass@32 su MiniF2F e supera DeepSeek-Prover-V2-671B con la stessa metrica, nonostante sia 80 volte più piccolo. Il nostro modello principale, Goedel-Prover-V2-32B, ottiene l'88,1% su MiniF2F a pass@32 in modalità standard e il 90,4% in modalità di autocorrezione, superando di gran lunga i precedenti SOTA. Inoltre, il nostro modello principale risolve 86 problemi su PutnamBench a pass@184, conquistando il primo posto tra i modelli open-source nella classifica, superando il record di DeepSeek-Prover-V2-671B di 47 problemi risolti a pass@1024, con dimensioni del modello e budget computazionale significativamente inferiori. Al momento del rilascio (luglio-agosto 2025), Goedel-Prover-V2 raggiunge le migliori prestazioni complessive tra tutti i dimostratori di teoremi open-source. Si colloca anche tra i modelli più performanti—inclusi i sistemi closed-source con prestazioni pubblicamente riportate—sotto un budget computazionale limitato durante il test. I nostri modelli, codice e dati sono disponibili su https://github.com/Goedel-LM/Goedel-Prover-V2.

Dataset di Conversazione Interattiva Multi-Umana
Multi-human Interactive Talking Dataset

Aug 5

ByZeyu Zhu, Weijia Wu, Mike Zheng Shou

Gli studi esistenti sulla generazione di video parlanti si sono concentrati prevalentemente su monologhi di singole persone o su animazioni facciali isolate, limitando la loro applicabilità a interazioni realistiche tra più individui. Per colmare questa lacuna, introduciamo MIT, un dataset su larga scala specificamente progettato per la generazione di video parlanti con più persone. A tal fine, abbiamo sviluppato una pipeline automatica che raccoglie e annota video di conversazioni tra più persone. Il dataset risultante comprende 12 ore di filmati ad alta risoluzione, ciascuno dei quali presenta da due a quattro parlanti, con annotazioni dettagliate delle pose del corpo e delle interazioni verbali. Cattura le dinamiche naturali delle conversazioni in scenari con più parlanti, offrendo una risorsa preziosa per lo studio dei comportamenti visivi interattivi. Per dimostrare il potenziale di MIT, proponiamo ulteriormente CovOG, un modello di base per questo nuovo compito. Esso integra un Multi-Human Pose Encoder (MPE) per gestire un numero variabile di parlanti aggregando gli embedding delle pose individuali, e un Interactive Audio Driver (IAD) per modulare le dinamiche della testa in base alle caratteristiche audio specifiche di ciascun parlante. Insieme, questi componenti dimostrano la fattibilità e le sfide della generazione di video parlanti realistici con più persone, stabilendo MIT come un punto di riferimento prezioso per la ricerca futura. Il codice è disponibile all'indirizzo: https://github.com/showlab/Multi-human-Talking-Video-Dataset.

LAMIC: Composizione Multi-Immagine Consapevole del Layout tramite Scalabilità del Trasformatore di Diffusione Multimodale
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

Aug 1

ByYuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang

Nella sintesi controllata di immagini, generare immagini coerenti e consistenti da più riferimenti con consapevolezza del layout spaziale rimane una sfida aperta. Presentiamo LAMIC, un framework di composizione multi-immagine con consapevolezza del layout che, per la prima volta, estende i modelli di diffusione a singolo riferimento a scenari multi-riferimento in modo privo di addestramento. Basato sul modello MMDiT, LAMIC introduce due meccanismi di attenzione plug-and-play: 1) Group Isolation Attention (GIA) per migliorare la separazione delle entità; e 2) Region-Modulated Attention (RMA) per abilitare la generazione con consapevolezza del layout. Per valutare in modo completo le capacità del modello, introduciamo ulteriormente tre metriche: 1) Inclusion Ratio (IN-R) e Fill Ratio (FI-R) per valutare il controllo del layout; e 2) Background Similarity (BG-S) per misurare la consistenza dello sfondo. Esperimenti estesi dimostrano che LAMIC raggiunge prestazioni all'avanguardia nella maggior parte delle metriche principali: supera costantemente le baseline multi-riferimento esistenti nei punteggi ID-S, BG-S, IN-R e AVG in tutte le configurazioni, e ottiene il miglior DPG nei compiti di composizione complessi. Questi risultati dimostrano le superiori capacità di LAMIC nel mantenimento dell'identità, nella conservazione dello sfondo, nel controllo del layout e nel seguire i prompt, tutto ottenuto senza alcun addestramento o fine-tuning, mostrando una forte capacità di generalizzazione zero-shot. Ereditando i punti di forza dei modelli avanzati a singolo riferimento e abilitando un'estensione senza soluzione di continuità a scenari multi-immagine, LAMIC stabilisce un nuovo paradigma privo di addestramento per la composizione controllata di più immagini. Man mano che i modelli di base continuano a evolversi, ci si aspetta che le prestazioni di LAMIC si adeguino di conseguenza. La nostra implementazione è disponibile all'indirizzo: https://github.com/Suchenl/LAMIC.

ChartCap: Mitigazione dell'allucinazione nella generazione di didascalie per grafici densi
ChartCap: Mitigating Hallucination of Dense Chart Captioning

Aug 5

ByJunyoung Lim, Jaewoo Ahn, Gunhee Kim

Generare didascalie accurate, informative e prive di allucinazioni per i grafici rimane una sfida per i modelli linguistici visivi, principalmente a causa della mancanza di dataset su larga scala e di alta qualità relativi a grafici del mondo reale. Tuttavia, i dataset esistenti di grafici reali presentano problemi come l'inclusione di informazioni estranee che non possono essere dedotte dal grafico e la mancata cattura sufficiente degli elementi strutturali e delle intuizioni chiave. Pertanto, introduciamo ChartCap, un dataset su larga scala composto da 565K immagini di grafici reali accoppiate a didascalie dense specifiche per tipo, che escludono informazioni estranee e mettono in evidenza sia gli elementi strutturali che le intuizioni chiave in dettaglio. Per costruire ChartCap, abbiamo progettato una pipeline in quattro fasi che genera didascalie utilizzando solo i dati discernibili dal grafico e abbiamo impiegato una verifica umana basata sulla coerenza ciclica, che accelera il controllo di qualità senza sacrificare l'accuratezza. Inoltre, proponiamo una nuova metrica, il Visual Consistency Score, che valuta la qualità delle didascalie misurando la somiglianza tra il grafico rigenerato da una didascalia e il grafico originale, indipendentemente dalle didascalie di riferimento. Esperimenti estensivi confermano che i modelli addestrati su ChartCap generano costantemente didascalie più accurate e informative con ridotte allucinazioni, superando sia i modelli open-source che quelli proprietari e persino le didascalie annotate manualmente.

HyCodePolicy: Controllori Linguistici Ibridi per il Monitoraggio Multimodale e la Decisione negli Agenti Embodied
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

Aug 4

ByYibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno consentito un ancoraggio percettivo più ricco per la generazione di politiche di codice negli agenti incarnati. Tuttavia, la maggior parte dei sistemi esistenti manca di meccanismi efficaci per monitorare in modo adattivo l'esecuzione delle politiche e riparare i codici durante il completamento dei compiti. In questo lavoro, introduciamo HyCodePolicy, un framework di controllo ibrido basato sul linguaggio che integra sistematicamente la sintesi del codice, l'ancoraggio geometrico, il monitoraggio percettivo e la riparazione iterativa in un ciclo di programmazione a circuito chiuso per agenti incarnati. Tecnicamente, data un'istruzione in linguaggio naturale, il nostro sistema la scompone prima in sottobiettivi e genera un programma eseguibile iniziale ancorato a primitive geometriche centrate sugli oggetti. Il programma viene quindi eseguito in simulazione, mentre un modello visione-linguaggio (VLM) osserva checkpoint selezionati per rilevare e localizzare fallimenti di esecuzione e inferire le ragioni dei fallimenti. Fondendo tracce di esecuzione strutturate che catturano eventi a livello di programma con feedback percettivi basati su VLM, HyCodePolicy inferisce le cause dei fallimenti e ripara i programmi. Questo meccanismo di feedback duale ibrido consente la sintesi di programmi auto-correttivi con una supervisione umana minima. I nostri risultati dimostrano che HyCodePolicy migliora significativamente la robustezza e l'efficienza campionaria delle politiche di manipolazione robotica, offrendo una strategia scalabile per integrare il ragionamento multimodale nelle pipeline di decision-making autonomo.

UniEgoMotion: Un Modello Unificato per la Ricostruzione, Previsione e Generazione del Movimento Egocentrico
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation

Aug 2

ByChaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli

La generazione e la previsione del movimento umano egocentrico con contesto scenico è cruciale per migliorare le esperienze di realtà aumentata/virtuale, ottimizzare l'interazione uomo-robot, avanzare le tecnologie assistive e abilitare soluzioni sanitarie adattive, prevedendo e simulando accuratamente il movimento da una prospettiva in prima persona. Tuttavia, i metodi esistenti si concentrano principalmente sulla sintesi del movimento in terza persona con contesti scenici 3D strutturati, limitando la loro efficacia in contesti egocentrici reali, dove il campo visivo ridotto, le frequenti occlusioni e le telecamere dinamiche ostacolano la percezione della scena. Per colmare questa lacuna, introduciamo la Generazione del Movimento Egocentrico e la Previsione del Movimento Egocentrico, due nuovi compiti che utilizzano immagini in prima persona per la sintesi del movimento consapevole della scena senza fare affidamento su una rappresentazione 3D esplicita. Proponiamo UniEgoMotion, un modello di diffusione condizionale del movimento unificato con una nuova rappresentazione del movimento centrata sulla testa, progettata per dispositivi egocentrici. Il design semplice ma efficace di UniEgoMotion supporta la ricostruzione, la previsione e la generazione del movimento egocentrico da input visivi in prima persona in un framework unificato. A differenza dei lavori precedenti che trascurano la semantica della scena, il nostro modello estrae efficacemente il contesto scenico basato su immagini per inferire un movimento 3D plausibile. Per facilitare l'addestramento, introduciamo EE4D-Motion, un dataset su larga scala derivato da EgoExo4D, arricchito con annotazioni pseudo-ground-truth del movimento 3D. UniEgoMotion raggiunge prestazioni all'avanguardia nella ricostruzione del movimento egocentrico ed è il primo a generare movimento da una singola immagine egocentrica. Valutazioni estensive dimostrano l'efficacia del nostro framework unificato, stabilendo un nuovo benchmark per la modellazione del movimento egocentrico e aprendo nuove possibilità per applicazioni egocentriche.

Cosa Sta Acquistando il Tuo Agente AI? Valutazione, Implicazioni e Domande Emergenti per l'E-Commerce Agente
What Is Your AI Agent Buying? Evaluation, Implications and Emerging Questions for Agentic E-Commerce

Aug 4

ByAmine Allouah, Omar Besbes, Josué D Figueroa, Yash Kanoria, Akshit Kumar

I marketplace online saranno trasformati da agenti AI autonomi che agiscono a nome dei consumatori. Invece di avere esseri umani che navigano e cliccano, agenti basati su modelli visione-linguaggio (VLM) possono analizzare pagine web, valutare prodotti e effettuare transazioni. Ciò solleva una domanda fondamentale: cosa comprano gli agenti AI e perché? Sviluppiamo ACES, un ambiente sandbox che abbina un agente VLM indipendente dalla piattaforma a un marketplace simulato completamente programmabile per studiare questa questione. Iniziamo eseguendo controlli di razionalità di base nel contesto di compiti semplici, e poi, randomizzando posizioni dei prodotti, prezzi, valutazioni, recensioni, tag sponsorizzati e approvazioni della piattaforma, otteniamo stime causali di come i VLM di frontiera effettivamente acquistano. I modelli mostrano forti ma eterogenei effetti di posizione: tutti favoriscono la riga superiore, ma modelli diversi preferiscono colonne diverse, minando l'assunzione di un rango "superiore" universale. Penalizzano i tag sponsorizzati e premiano le approvazioni. Le sensibilità a prezzo, valutazioni e recensioni sono direzionalmente simili a quelle umane, ma variano fortemente in magnitudine tra i modelli. Motivati da scenari in cui i venditori utilizzano agenti AI per ottimizzare le inserzioni di prodotti, dimostriamo che un agente lato venditore che apporta piccole modifiche alle descrizioni dei prodotti, mirando alle preferenze degli acquirenti AI, può ottenere sostanziali guadagni di quota di mercato se lo shopping mediato da AI domina. Troviamo anche che le scelte modali di prodotti possono differire tra i modelli e, in alcuni casi, la domanda può concentrarsi su pochi prodotti selezionati, sollevando questioni di concorrenza. Insieme, i nostri risultati illuminano come gli agenti AI potrebbero comportarsi negli ambienti di e-commerce e mettono in luce concrete strategie dei venditori, design della piattaforma e questioni normative in un ecosistema mediato da AI.

Stima Bidirezionale della Verosimiglianza con Modelli Linguistici Multimodali di Grande Scala per il Recupero Testo-Video
Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval

Jul 31

ByDohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim

Il Text-Video Retrieval mira a trovare il candidato testuale (o video) più rilevante dato un query video (o testuale) da grandi database online. Recenti lavori sfruttano modelli linguistici multimodali di grandi dimensioni (MLLMs) per migliorare il recupero, specialmente per coppie query-candidato lunghe o complesse. Tuttavia, osserviamo che l'applicazione ingenua degli MLLMs, ovvero il recupero basato sulla probabilità del candidato, introduce un bias del prior del candidato, favorendo candidati con prior intrinsecamente più alti rispetto a quelli più rilevanti per la query. A tal fine, proponiamo un nuovo framework di recupero, Bidirectional Likelihood Estimation with MLLM (BLiM), che sfrutta sia le probabilità della query che del candidato addestrando il modello a generare testo da un video dato e caratteristiche video da un testo dato. Inoltre, introduciamo Candidate Prior Normalization (CPN), un modulo di calibrazione del punteggio semplice ma efficace progettato per mitigare il bias del prior del candidato nella probabilità del candidato. Su quattro benchmark di Text-Video Retrieval, il nostro BLiM equipaggiato con CPN supera i precedenti modelli state-of-the-art di 6.4 R@1 in media, allevando efficacemente il bias del prior del candidato e enfatizzando la rilevanza query-candidato. La nostra analisi approfondita su varie attività multimodali oltre il recupero evidenzia l'ampia applicabilità di CPN che migliora la comprensione visiva riducendo la dipendenza dai prior testuali. Il codice è disponibile su https://github.com/mlvlab/BLiM.

TreeRanker: Sistema Rapido e Modello-Agnostico per il Ranking di Suggerimenti di Codice negli IDE
TreeRanker: Fast and Model-agnostic Ranking System for Code Suggestions in IDEs

Aug 4

ByDaniele Cipollone, Egor Bogomolov, Arie van Deursen, Maliheh Izadi

Il completamento del codice a livello di token è una delle funzionalità più cruciali nei moderni Ambienti di Sviluppo Integrati (IDE). Assiste gli sviluppatori suggerendo identificatori e API rilevanti durante la scrittura del codice. Sebbene i completamenti siano tipicamente derivati da analisi statiche, la loro utilità dipende fortemente da come vengono classificati, poiché le previsioni corrette sepolte in fondo alla lista raramente vengono notate dagli utenti. La maggior parte dei sistemi attuali si basa su euristiche manuali o modelli di machine learning leggeri addestrati sui log degli utenti, che possono essere ulteriormente migliorati per catturare informazioni contestuali e generalizzare tra progetti e stili di codifica. In questo lavoro, proponiamo un nuovo approccio di punteggio per classificare i completamenti statici utilizzando modelli linguistici in modo leggero e indipendente dal modello. Il nostro metodo organizza tutti i completamenti validi in un albero prefisso ed esegue un singolo passaggio di decodifica greedy per raccogliere i punteggi a livello di token lungo l'albero. Ciò consente una classificazione precisa e consapevole dei token senza la necessità di beam search, prompt engineering o adattamenti del modello. L'approccio è veloce, indipendente dall'architettura e compatibile con i modelli già implementati per il completamento del codice. Questi risultati evidenziano un percorso pratico ed efficace per integrare modelli linguistici negli strumenti già esistenti all'interno degli IDE, fornendo infine un'assistenza agli sviluppatori più intelligente e reattiva.

AttnTrace: Tracciamento del Contesto Basato sull'Attenzione per Modelli Linguistici a Lungo Contesto
AttnTrace: Attention-based Context Traceback for Long-Context LLMs

Aug 5

ByYanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

I modelli linguistici di grandi dimensioni con contesto esteso (LLM), come Gemini-2.5-Pro e Claude-Sonnet-4, sono sempre più utilizzati per potenziare sistemi di intelligenza artificiale avanzati, inclusi pipeline di generazione aumentata da recupero (RAG) e agenti autonomi. In questi sistemi, un LLM riceve un'istruzione insieme a un contesto—spesso composto da testi recuperati da un database di conoscenza o memoria—e genera una risposta contestualmente fondata seguendo l'istruzione. Studi recenti hanno progettato soluzioni per risalire a un sottoinsieme di testi nel contesto che contribuiscono maggiormente alla risposta generata dall'LLM. Queste soluzioni hanno numerose applicazioni nel mondo reale, inclusa l'esecuzione di analisi forensi post-attacco e il miglioramento dell'interpretabilità e dell'affidabilità degli output degli LLM. Nonostante gli sforzi significativi, soluzioni all'avanguardia come TracLLM spesso comportano un elevato costo computazionale, ad esempio, TracLLM impiega centinaia di secondi per eseguire il traceback per una singola coppia risposta-contesto. In questo lavoro, proponiamo AttnTrace, un nuovo metodo di traceback del contesto basato sui pesi di attenzione prodotti da un LLM per un prompt. Per utilizzare efficacemente i pesi di attenzione, introduciamo due tecniche progettate per migliorare l'efficacia di AttnTrace e forniamo approfondimenti teorici per la nostra scelta progettuale. Eseguiamo inoltre una valutazione sistematica di AttnTrace. I risultati dimostrano che AttnTrace è più accurato ed efficiente rispetto ai metodi di traceback del contesto esistenti all'avanguardia. Mostriamo anche che AttnTrace può migliorare i metodi all'avanguardia nel rilevare l'iniezione di prompt in contesti lunghi attraverso il paradigma di attribuzione-prima-del-rilevamento. Come applicazione nel mondo reale, dimostriamo che AttnTrace può individuare efficacemente istruzioni iniettate in un documento progettato per manipolare recensioni generate da LLM. Il codice è disponibile su https://github.com/Wang-Yanting/AttnTrace.

AlignGuard-LoRA: Ottimizzazione Fine Preservante l'Allineamento tramite Decomposizione Guidata da Fisher e Regolarizzazione delle Collisioni Geodetiche Riemanniane
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

Aug 4

ByAmitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha

L'adattamento a basso rango (LoRA) è diventato uno strumento standard per il fine-tuning efficiente di grandi modelli linguistici (LLM). Tuttavia, anche aggiornamenti minori di LoRA possono indurre una deriva dell'allineamento, indebolendo i vincoli di sicurezza e comportamentali attraverso cambiamenti intrecciati dei parametri. Per affrontare questo problema, proponiamo AlignGuard-LoRA (AGL), un framework strutturato per preservare l'allineamento durante il fine-tuning. AGL introduce diversi componenti chiave: una funzione di perdita primaria per la supervisione, una regolarizzazione basata sulla Matrice di Informazione di Fisher per limitare gli aggiornamenti nei sottospazi sensibili all'allineamento, e una regolarizzazione specifica per il compito per stabilizzare l'integrazione di nuove conoscenze. Introduciamo inoltre una regolarizzazione consapevole delle collisioni, che combina l'overlap riemanniano -- che penalizza l'interferenza coordinata -- e la separazione geodetica -- che incoraggia una geometria di aggiornamento disgiunta. Abbiamo curato DriftCaps, un benchmark diagnostico mirato di prompt sicuri e non sicuri progettato per quantificare la deriva dell'allineamento e il degrado della sicurezza. Le valutazioni empiriche dimostrano che AGL mitiga la deriva dell'allineamento fino al 50% su benchmark critici per la sicurezza senza compromettere le prestazioni delle attività downstream. Un'ablazione completa conferma che ogni componente contribuisce in modo distinto alla preservazione dei comportamenti di sicurezza latenti. Infine, deriviamo e validiamo una legge di scala per la dimenticanza catastrofica, rivelando che AGL appiattisce l'escalation della perdita post-fine-tuning preservando le dinamiche di adattamento. AGL è un perfezionamento strutturalmente fondato di LoRA, che garantisce la preservazione dell'allineamento con compromessi minimi. Per incoraggiare ulteriori esplorazioni e sviluppi, rendiamo disponibile il nostro codice in open-source.

TRACEALIGN -- Tracciare la deriva: Attribuzione degli errori di allineamento alle fonti di credenza durante l'addestramento nei modelli linguistici di grandi dimensioni
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

Aug 4

ByAmitava Das, Vinija Jain, Aman Chadha

I modelli linguistici di grandi dimensioni (LLM) ottimizzati per allinearsi ai valori umani spesso mostrano una deriva dell'allineamento, producendo completamenti non sicuri o in violazione delle politiche quando esposti a prompt avversari, perturbazioni di decodifica o jailbreak parafrasati. Mentre il lavoro precedente ha caratterizzato comportamentalmente il fallimento dell'allineamento, si sa poco sulle fonti di credenza durante l'addestramento che sottendono a questi fallimenti. Introduciamo TraceAlign, un framework unificato per tracciare i completamenti non sicuri fino alle loro cause profonde nel corpus di addestramento del modello. Centrale al nostro approccio è l'Indice di Conflitto di Credenza (BCI), che quantifica l'inconsistenza semantica tra gli span generati e le politiche allineate, basandosi su documenti di addestramento recuperati utilizzando il matching con array di suffissi. Proponiamo tre interventi complementari: (i) TraceShield, un filtro di sicurezza in fase di inferenza che rifiuta i completamenti con span ad alto BCI, (ii) Contrastive Belief Deconfliction Loss, un obiettivo di fine-tuning contrastivo che penalizza le continuazioni ad alto BCI durante il DPO, e (iii) Prov-Decode, una strategia di decodifica consapevole della provenienza che vieta le espansioni del beam previste per produrre span ad alto BCI. Insieme, queste difese riducono la deriva dell'allineamento fino all'85% sul nostro Alignment Drift Benchmark (ADB) curato, preservando l'utilità sui task standard, con un delta inferiore a 0,2 e una qualità di rifiuto migliorata. Deriviamo inoltre un limite superiore teorico sulla probabilità di deriva attraverso le statistiche degli span degli array di suffissi, collegando la frequenza e la lunghezza della memorizzazione al rischio di riattivazione avversaria. TraceAlign fornisce così il primo toolkit scalabile, tracciabile e fondato per comprendere e mitigare i fallimenti dell'allineamento alla fonte. Per incoraggiare ulteriori esplorazioni e sviluppi, rendiamo open-source la nostra implementazione all'indirizzo: https://anonymous.4open.science/r/tracealign-2DA7