Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

Multi-SWE-bench: Un Benchmark Multilingue per la Risoluzione di Problemi
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

Apr 3, 2025

Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang

483

Il compito di risoluzione dei problemi consiste nel modificare una base di codice per generare una patch che affronti un determinato problema. Tuttavia, i benchmark esistenti, come SWE-bench, si concentrano quasi esclusivamente su Python, rendendoli insufficienti per valutare i Large Language Model (LLM) in ecosistemi software diversificati. Per affrontare questa limitazione, introduciamo un benchmark multilingue per la risoluzione di problemi, chiamato Multi-SWE-bench, che copre Java, TypeScript, JavaScript, Go, Rust, C e C++. Esso include un totale di 1.632 istanze di alta qualità, accuratamente annotate da 68 esperti annotatori partendo da 2.456 candidati, garantendo che il benchmark possa fornire una valutazione accurata e affidabile. Basandoci su Multi-SWE-bench, valutiamo una serie di modelli all'avanguardia utilizzando tre metodi rappresentativi (Agentless, SWE-agent e OpenHands) e presentiamo un'analisi completa con intuizioni empiriche chiave. Inoltre, lanciamo una comunità open-source Multi-SWE-RL, con l'obiettivo di costruire dataset di addestramento su larga scala per il reinforcement learning (RL) applicato ai compiti di risoluzione dei problemi. Come contributo iniziale, rilasciamo un set di 4.723 istanze ben strutturate che coprono sette linguaggi di programmazione, gettando una solida base per la ricerca in RL in questo ambito. Ancora più importante, rendiamo open-source l'intera pipeline di produzione dei dati, insieme a tutorial dettagliati, incoraggiando la comunità open-source a contribuire continuamente e ad espandere il dataset. Immaginiamo che il nostro Multi-SWE-bench e la comunità Multi-SWE-RL in continua crescita possano fungere da catalizzatori per far progredire il RL verso il suo pieno potenziale, avvicinandoci ulteriormente all'alba dell'AGI.

MegaMath: Spingere i Limiti dei Corpora Matematici Aperti
MegaMath: Pushing the Limits of Open Math Corpora

Apr 3, 2025

Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing

312

Il ragionamento matematico è un pilastro dell'intelligenza umana e un parametro di riferimento cruciale per le capacità avanzate nei grandi modelli linguistici (LLM). Tuttavia, la comunità di ricerca manca ancora di un corpus aperto, su larga scala e di alta qualità, specificamente progettato per le esigenze del pre-training di LLM incentrati sulla matematica. Presentiamo MegaMath, un dataset aperto curato da fonti diverse e focalizzate sulla matematica, seguendo queste pratiche: (1) Rivalutazione dei dati web: abbiamo riesaminato documenti matematici da Common Crawl con ottimizzazioni HTML orientate alla matematica, filtraggio basato su fasttext e deduplicazione, tutto finalizzato a ottenere dati di qualità superiore da Internet. (2) Recupero di dati di codice legati alla matematica: abbiamo identificato codice di alta qualità relativo alla matematica da un ampio corpus di addestramento di codice, Stack-V2, migliorando ulteriormente la diversità dei dati. (3) Esplorazione di dati sintetici: abbiamo sintetizzato testo in formato domanda-risposta, codice legato alla matematica e blocchi intercalati di testo e codice a partire da dati web o di codice. Integrando queste strategie e validandone l'efficacia attraverso ampie ablazioni, MegaMath offre 371 miliardi di token, rappresentando la quantità più ampia e la qualità più elevata tra i dataset aperti esistenti per il pre-training matematico.

Autocoscienza Agente e Conoscitiva
Agentic Knowledgeable Self-awareness

Apr 4, 2025

Shuofei Qiao, Zhisong Qiu, Baochang Ren, Xiaobin Wang, Xiangyuan Ru, Ningyu Zhang, Xiang Chen, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

282

I Large Language Model (LLM) hanno ottenuto prestazioni considerevoli in vari compiti di pianificazione agentica. Tuttavia, gli approcci tradizionali alla pianificazione degli agenti adottano una metodologia di "irrigazione a pioggia" che inietta indiscriminatamente traiettorie ottimali, feedback esterni e conoscenze di dominio nei modelli degli agenti. Questa pratica trascura il principio cognitivo umano fondamentale della consapevolezza situazionale durante il processo decisionale: la capacità di valutare dinamicamente le esigenze situazionali e di impiegare strategicamente le risorse durante la presa di decisioni. Proponiamo la consapevolezza situazionale agentica per colmare questa lacuna, un nuovo paradigma che consente agli agenti basati su LLM di regolare autonomamente l'utilizzo della conoscenza. Nello specifico, proponiamo KnowSelf, un approccio incentrato sui dati che applica agli agenti una consapevolezza situazionale simile a quella umana. In concreto, abbiamo ideato un criterio euristico di giudizio situazionale per contrassegnare token speciali sulle traiettorie auto-esplorate dall'agente, al fine di raccogliere dati di addestramento. Attraverso un processo di addestramento in due fasi, il modello dell'agente può passare da una situazione all'altra generando specifici token speciali, ottenendo effetti di pianificazione ottimali con costi minimi. I nostri esperimenti dimostrano che KnowSelf può superare vari benchmark robusti su diversi compiti e modelli con un uso minimo di conoscenza esterna. Il codice è disponibile all'indirizzo https://github.com/zjunlp/KnowSelf.

VARGPT-v1.1: Miglioramento del Modello Unificato Autoregressivo Visivo di Grande Scala attraverso Sintonizzazione Iterativa delle Istruzioni e Apprendimento per Rinforzo
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

Apr 3, 2025

Xianwei Zhuang, Yuxin Xie, Yufan Deng, Dongchao Yang, Liming Liang, Jinghan Ru, Yuguo Yin, Yuexian Zou

212

In questo lavoro presentiamo VARGPT-v1.1, un modello autoregressivo visivo unificato e avanzato che si basa sul nostro precedente framework VARGPT. Il modello preserva il paradigma duale di previsione del token successivo per la comprensione visiva e generazione alla scala successiva per la sintesi di immagini. Nello specifico, VARGPT-v1.1 integra: (1) una nuova strategia di addestramento che combina l'ottimizzazione iterativa delle istruzioni visive con l'apprendimento per rinforzo tramite Direct Preference Optimization (DPO), (2) un corpus di addestramento ampliato contenente 8,3 milioni di coppie di istruzioni visivo-generative, (3) un backbone di modello linguistico aggiornato basato su Qwen2, (4) una risoluzione migliorata nella generazione di immagini e (5) capacità emergenti di editing delle immagini senza modifiche architetturali. Questi progressi consentono a VARGPT-v1.1 di raggiungere prestazioni all'avanguardia nelle attività di comprensione multimodale e di esecuzione di istruzioni testo-immagine, dimostrando miglioramenti significativi sia nelle metriche di comprensione che di generazione. In particolare, attraverso l'ottimizzazione delle istruzioni visive, il modello acquisisce funzionalità di editing delle immagini mantenendo la coerenza architetturale con il suo predecessore, rivelando il potenziale per una comprensione, generazione e editing visivo unificati. I nostri risultati suggeriscono che modelli autoregressivi visivi unificati ben progettati possono adottare efficacemente strategie di addestramento flessibili dai grandi modelli linguistici (LLM), mostrando una promettente scalabilità. Il codice e i pesi del modello sono disponibili pubblicamente all'indirizzo https://github.com/VARGPT-family/VARGPT-v1.1.

TransMamba: Passaggio flessibile tra Transformer e Mamba
TransMamba: Flexibly Switching between Transformer and Mamba

Mar 31, 2025

Yixing Li, Ruobing Xie, Zhen Yang, Xingwu Sun, Shuaipeng Li, Weidong Han, Zhanhui Kang, Yu Cheng, Chengzhong Xu, Di Wang, Jie Jiang

212

I Transformer sono il fondamento dei moderni modelli linguistici su larga scala, ma la loro complessità computazionale quadratica limita l'efficienza nell'elaborazione di sequenze lunghe. I recenti progressi in Mamba, un modello a spazio di stati (SSM) con complessità lineare, offrono promettenti guadagni in termini di efficienza, ma soffrono di un apprendimento contestuale instabile e di una generalizzazione multitask. Questo articolo propone TransMamba, un nuovo framework che unisce Transformer e Mamba attraverso matrici di parametri condivise (ad esempio, QKV e CBx), consentendo così di passare dinamicamente tra meccanismi di attenzione e SSM a diverse lunghezze di token e livelli. Progettiamo il Memory converter per collegare Transformer e Mamba convertendo gli output di attenzione in stati compatibili con SSM, garantendo un flusso di informazioni senza soluzione di continuità nei TransPoint dove avviene la trasformazione. Viene inoltre esplorata a fondo la pianificazione dei TransPoint per ulteriori miglioramenti. Abbiamo condotto esperimenti estensivi dimostrando che TransMamba raggiunge un'efficienza di addestramento e prestazioni superiori rispetto ai baseline, e abbiamo validato una più profonda coerenza tra i paradigmi di Transformer e Mamba, offrendo una soluzione scalabile per la modellazione di sequenze di prossima generazione.

SynWorld: Sintesi di Scenari Virtuali per l'Affinamento della Conoscenza delle Azioni Agenti
SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

Apr 4, 2025

Runnan Fang, Xiaobin Wang, Yuan Liang, Shuofei Qiao, Jialong Wu, Zekun Xi, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

182

Nell'interazione tra agenti e i loro ambienti, gli agenti espandono le proprie capacità pianificando ed eseguendo azioni. Tuttavia, gli agenti basati su LLM affrontano sfide significative quando vengono impiegati in ambienti nuovi o quando devono navigare in spazi d'azione non convenzionali. Per consentire agli agenti di esplorare autonomamente gli ambienti, ottimizzare i flussi di lavoro e migliorare la loro comprensione delle azioni, proponiamo SynWorld, un framework che permette agli agenti di sintetizzare possibili scenari con invocazione di azioni multi-step all'interno dello spazio d'azione e di eseguire un'esplorazione tramite Monte Carlo Tree Search (MCTS) per affinare efficacemente la loro conoscenza delle azioni nell'ambiente corrente. I nostri esperimenti dimostrano che SynWorld è un approccio efficace e generale per apprendere la conoscenza delle azioni in nuovi ambienti. Il codice è disponibile all'indirizzo https://github.com/zjunlp/SynWorld.

ShieldAgent: Protezione degli Agenti tramite Ragionamento Verificabile sulle Politiche di Sicurezza
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

Mar 26, 2025

Zhaorun Chen, Mintong Kang, Bo Li

172

Gli agenti autonomi alimentati da modelli di fondazione hanno visto un'ampia adozione in varie applicazioni del mondo reale. Tuttavia, rimangono altamente vulnerabili a istruzioni e attacchi malevoli, che possono portare a gravi conseguenze come violazioni della privacy e perdite finanziarie. Ancora più critico è il fatto che le attuali misure di sicurezza per i modelli linguistici di grandi dimensioni (LLM) non siano applicabili a causa della natura complessa e dinamica degli agenti. Per affrontare queste sfide, proponiamo ShieldAgent, il primo agente di sicurezza progettato per far rispettare il rispetto esplicito delle politiche di sicurezza per la traiettoria d'azione di altri agenti protetti attraverso il ragionamento logico. Nello specifico, ShieldAgent costruisce prima un modello di politica di sicurezza estraendo regole verificabili dai documenti delle politiche e strutturandole in un insieme di circuiti di regole probabilistiche basate sull'azione. Data la traiettoria d'azione dell'agente protetto, ShieldAgent recupera i circuiti di regole rilevanti e genera un piano di schermatura, sfruttando la sua ampia libreria di strumenti e il codice eseguibile per la verifica formale. Inoltre, data la mancanza di benchmark di sicurezza per gli agenti, introduciamo ShieldAgent-Bench, un dataset con 3K coppie di istruzioni e traiettorie d'azione relative alla sicurezza, raccolte tramite attacchi all'avanguardia in 6 ambienti web e 7 categorie di rischio. Gli esperimenti mostrano che ShieldAgent raggiunge lo stato dell'arte su ShieldAgent-Bench e tre benchmark esistenti, superando i metodi precedenti in media dell'11,3% con un alto richiamo del 90,1%. Inoltre, ShieldAgent riduce le query API del 64,7% e il tempo di inferenza del 58,2%, dimostrando la sua alta precisione ed efficienza nella protezione degli agenti.

APIGen-MT: Pipeline Agente per la Generazione di Dati Multi-Turn tramite Simulazione di Interazione Agente-Umano
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

Apr 4, 2025

Akshara Prabhakar, Zuxin Liu, Weiran Yao, Jianguo Zhang, Ming Zhu, Shiyu Wang, Zhiwei Liu, Tulika Awalgaonkar, Haolin Chen, Thai Hoang, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Silvio Savarese, Caiming Xiong

164

L'addestramento di agenti AI efficaci per interazioni multi-turn richiede dati di alta qualità che catturino dinamiche realistiche tra umani e agenti, tuttavia tali dati sono scarsi e costosi da raccogliere manualmente. Introduciamo APIGen-MT, un framework a due fasi che genera dati multi-turn verificabili e diversificati per agenti. Nella prima fase, la nostra pipeline agentica produce progetti dettagliati di attività con azioni di riferimento, sfruttando un comitato di revisori LLM e cicli di feedback iterativi. Questi progetti vengono poi trasformati in traiettorie di interazione complete attraverso una simulazione di interazione umano-agente. Addestriamo una famiglia di modelli -- la serie xLAM-2-fc-r con dimensioni che vanno da 1B a 70B parametri. I nostri modelli superano modelli all'avanguardia come GPT-4o e Claude 3.5 sui benchmark tau-bench e BFCL, con i modelli più piccoli che superano le loro controparti più grandi, specialmente in contesti multi-turn, mantenendo una superiore coerenza attraverso più prove. Esperimenti completi dimostrano che il nostro approccio verificato da progetto a dettagli produce dati di addestramento di alta qualità, consentendo lo sviluppo di agenti più affidabili, efficienti e capaci. Rendiamo open-source sia i dati sintetici raccolti che i modelli xLAM-2-fc-r addestrati per avanzare la ricerca sugli agenti AI. I modelli sono disponibili su HuggingFace all'indirizzo https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 e il sito web del progetto è https://apigen-mt.github.io.

MME-Unify: Un Benchmark Completo per Modelli Unificati di Comprensione e Generazione Multimodale
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

Apr 4, 2025

Wulin Xie, Yi-Fan Zhang, Chaoyou Fu, Yang Shi, Bingyan Nie, Hongkai Chen, Zhang Zhang, Liang Wang, Tieniu Tan

144

I benchmark esistenti per i MLLM (Multimodal Large Language Models) affrontano sfide significative nella valutazione dei MLLM Unificati (U-MLLM) a causa di: 1) la mancanza di benchmark standardizzati per i compiti tradizionali, che porta a confronti inconsistenti; 2) l'assenza di benchmark per la generazione multimodale mista, che non riesce a valutare le capacità di ragionamento multimodale. Presentiamo un framework di valutazione completo progettato per valutare sistematicamente gli U-MLLM. Il nostro benchmark include: 1. Valutazione Standardizzata dei Compiti Tradizionali. Campioniamo da 12 dataset, coprendo 10 compiti con 30 sottocompiti, garantendo confronti coerenti e equi tra gli studi. 2. Valutazione Unificata dei Compiti. Introduciamo cinque nuovi compiti che testano il ragionamento multimodale, tra cui l'editing di immagini, il question-answering di senso comune con generazione di immagini e il ragionamento geometrico. 3. Benchmark Completo dei Modelli. Valutiamo 12 U-MLLM leader, come Janus-Pro, EMU3, VILA-U e Gemini2-flash, insieme a modelli specializzati nella comprensione (ad esempio, Claude-3.5-Sonnet) e nella generazione (ad esempio, DALL-E-3). I nostri risultati rivelano significative lacune nelle prestazioni degli U-MLLM esistenti, evidenziando la necessità di modelli più robusti in grado di gestire efficacemente compiti multimodali misti. Il codice e i dati di valutazione sono disponibili su https://mme-unify.github.io/.

HumanDreamer-X: Ricostruzione di Avatar Umani Fotorealistici da Singola Immagine tramite Restauro Gaussiano
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

Apr 4, 2025

Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang

132

La ricostruzione umana da singola immagine è fondamentale per le applicazioni di modellazione digitale umana, ma rimane un compito estremamente impegnativo. Gli approcci attuali si basano su modelli generativi per sintetizzare immagini multi-vista per la successiva ricostruzione 3D e animazione. Tuttavia, la generazione diretta di più viste da una singola immagine umana soffre di inconsistenze geometriche, portando a problemi come arti frammentati o sfocati nei modelli ricostruiti. Per affrontare queste limitazioni, introduciamo HumanDreamer-X, un nuovo framework che integra la generazione e la ricostruzione multi-vista umana in una pipeline unificata, migliorando significativamente la consistenza geometrica e la fedeltà visiva dei modelli 3D ricostruiti. In questo framework, il 3D Gaussian Splatting funge da rappresentazione 3D esplicita per fornire una priorità geometrica e di aspetto iniziale. Su questa base, HumanFixer viene addestrato per ripristinare le renderizzazioni 3DGS, garantendo risultati fotorealistici. Inoltre, approfondiamo le sfide intrinseche associate ai meccanismi di attenzione nella generazione multi-vista umana e proponiamo una strategia di modulazione dell'attenzione che migliora efficacemente i dettagli geometrici e la consistenza dell'identità attraverso le multi-viste. I risultati sperimentali dimostrano che il nostro approccio migliora notevolmente le metriche di qualità PSNR della generazione e della ricostruzione rispettivamente del 16,45% e del 12,65%, raggiungendo un PSNR fino a 25,62 dB, mostrando anche capacità di generalizzazione su dati in-the-wild e applicabilità a vari modelli di ricostruzione umana di base.

Illuminazione Completa: Illuminazione e Armonizzazione Monoscopica Umana Generalizzabile e Coerente
Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

Apr 3, 2025

Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon

112

Questo articolo introduce Comprehensive Relighting, il primo approccio completo in grado di controllare e armonizzare l'illuminazione da un'immagine o un video di esseri umani con parti del corpo arbitrarie provenienti da qualsiasi scena. Costruire un modello così generalizzabile è estremamente impegnativo a causa della mancanza di dataset, che limita i modelli esistenti di relighting basati su immagini a scenari specifici (ad esempio, volto o esseri umani statici). Per affrontare questa sfida, riutilizziamo un modello di diffusione pre-addestrato come prior generale per l'immagine e modelliamo congiuntamente il relighting umano e l'armonizzazione dello sfondo in un framework coarse-to-fine. Per migliorare ulteriormente la coerenza temporale del relighting, introduciamo un modello di illuminazione temporale non supervisionato che apprende la coerenza del ciclo di illuminazione da molti video del mondo reale senza alcuna verità di riferimento. Durante l'inferenza, il modulo di illuminazione temporale è combinato con i modelli di diffusione attraverso algoritmi di fusione di caratteristiche spazio-temporali senza ulteriore addestramento; e applichiamo una nuova raffinazione guidata come post-elaborazione per preservare i dettagli ad alta frequenza dell'immagine di input. Negli esperimenti, Comprehensive Relighting dimostra una forte generalizzabilità e coerenza temporale dell'illuminazione, superando i metodi esistenti di relighting e armonizzazione umana basati su immagini.

MedSAM2: Segmentazione di Oggetti in Immagini e Video Medici 3D
MedSAM2: Segment Anything in 3D Medical Images and Videos

Apr 4, 2025

Jun Ma, Zongxin Yang, Sumin Kim, Bihui Chen, Mohammed Baharoon, Adibvafa Fallahpour, Reza Asakereh, Hongwei Lyu, Bo Wang

La segmentazione di immagini e video medici è un compito cruciale per la medicina di precisione, che ha visto notevoli progressi nello sviluppo di modelli specifici per compiti o modalità e modelli generalisti per immagini 2D. Tuttavia, ci sono stati studi limitati sulla creazione di modelli generici per immagini 3D e video con studi utente completi. Qui presentiamo MedSAM2, un modello di segmentazione foundation promptable per la segmentazione di immagini 3D e video. Il modello è stato sviluppato ottimizzando il Segment Anything Model 2 su un ampio dataset medico con oltre 455.000 coppie di immagini-maschere 3D e 76.000 frame, superando i modelli precedenti su una vasta gamma di organi, lesioni e modalità di imaging. Inoltre, implementiamo una pipeline human-in-the-loop per facilitare la creazione di dataset su larga scala, risultando, a nostra conoscenza, nello studio utente più esteso fino ad oggi, che include l'annotazione di 5.000 lesioni TC, 3.984 lesioni epatiche MRI e 251.550 frame di video ecocardiografici, dimostrando che MedSAM2 può ridurre i costi manuali di oltre l'85%. MedSAM2 è anche integrato in piattaforme ampiamente utilizzate con interfacce user-friendly per il deployment locale e su cloud, rendendolo uno strumento pratico per supportare una segmentazione efficiente, scalabile e di alta qualità sia in ambienti di ricerca che sanitari.

Architettura Slow-Fast per Modelli Linguistici Multimodali su Video
Slow-Fast Architecture for Video Multi-Modal Large Language Models

Apr 2, 2025

Min Shi, Shihao Wang, Chieh-Yun Chen, Jitesh Jain, Kai Wang, Junjun Xiong, Guilin Liu, Zhiding Yu, Humphrey Shi

Bilanciare la risoluzione temporale e il dettaglio spaziale con un budget computazionale limitato rimane una sfida chiave per i modelli linguistici multimodali (MLLM) basati su video. I metodi esistenti tipicamente comprimono le rappresentazioni video utilizzando regole predefinite prima di alimentarle nel LLM, causando una perdita irreversibile di informazioni e spesso ignorando le istruzioni di input. Per affrontare questo problema, proponiamo una nuova architettura slow-fast che aggira naturalmente questo compromesso, consentendo l'uso di più frame di input preservando i dettagli spaziali. Ispirati da come gli esseri umani dapprima scorrono un video prima di concentrarsi sulle parti rilevanti, il nostro design slow-fast impiega una strategia a doppio token: 1) token visivi "fast" — un insieme compatto di caratteristiche video compresse — vengono alimentati nel LLM insieme agli embedding di testo per fornire una rapida panoramica; 2) token visivi "slow" — caratteristiche video non compresse — vengono cross-attesi dagli embedding di testo attraverso strati di decodificatore ibridi appositamente progettati, consentendo l'estrazione consapevole delle istruzioni di dettagli visivi rilevanti con complessità lineare. Condividiamo un'esplorazione sistematica per ottimizzare sia l'architettura complessiva che i componenti chiave. Gli esperimenti dimostrano che il nostro modello supera significativamente i baseline basati esclusivamente su self-attention, estendendo la capacità di input da 16 a 128 frame con un aumento di solo il 3% nel calcolo e ottenendo un miglioramento medio delle prestazioni del 16% su cinque benchmark di comprensione video. Il nostro modello da 7B raggiunge prestazioni all'avanguardia tra i modelli di dimensioni simili. Inoltre, la nostra architettura slow-fast è un design plug-and-play che può essere integrato in altri MLLM video per migliorare l'efficienza e la scalabilità.

BEATS: Suite di Valutazione e Analisi del Bias per Modelli Linguistici di Grande Dimensione
BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models

Mar 31, 2025

Alok Abhishek, Lisa Erickson, Tushar Bandopadhyay

In questa ricerca, introduciamo BEATS, un nuovo framework per valutare Pregiudizio, Etica, Equità e Fattualità nei Modelli Linguistici di Grande Scala (LLM). Basandoci sul framework BEATS, presentiamo un benchmark di pregiudizio per gli LLM che misura le prestazioni attraverso 29 metriche distinte. Queste metriche coprono un'ampia gamma di caratteristiche, inclusi pregiudizi demografici, cognitivi e sociali, nonché misure di ragionamento etico, equità di gruppo e rischio di disinformazione legato alla fattualità. Queste metriche consentono una valutazione quantitativa della misura in cui le risposte generate dagli LLM possano perpetuare pregiudizi sociali che rafforzano o ampliano le disuguaglianze sistemiche. Per ottenere un punteggio elevato in questo benchmark, un LLM deve dimostrare un comportamento molto equo nelle sue risposte, rendendolo uno standard rigoroso per la valutazione dell'IA responsabile. I risultati empirici basati sui dati del nostro esperimento mostrano che il 37,65% degli output generati dai modelli leader del settore conteneva una qualche forma di pregiudizio, evidenziando un rischio sostanziale nell'uso di questi modelli nei sistemi decisionali critici. Il framework e il benchmark BEATS offrono una metodologia scalabile e statisticamente rigorosa per valutare gli LLM, diagnosticare i fattori che guidano i pregiudizi e sviluppare strategie di mitigazione. Con il framework BEATS, il nostro obiettivo è contribuire allo sviluppo di modelli di IA più socialmente responsabili e allineati eticamente.

EvMic: Recupero del suono senza contatto basato su eventi attraverso una modellizzazione spazio-temporale efficace
EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling

Apr 3, 2025

Hao Yin, Shi Guo, Xu Jia, Xudong XU, Lu Zhang, Si Liu, Dong Wang, Huchuan Lu, Tianfan Xue

Quando le onde sonore colpiscono un oggetto, inducono vibrazioni che producono cambiamenti visivi ad alta frequenza e sottili, che possono essere utilizzati per recuperare il suono. Gli studi iniziali si scontrano sempre con compromessi legati alla frequenza di campionamento, alla larghezza di banda, al campo visivo e alla semplicità del percorso ottico. I recenti progressi nell'hardware delle telecamere a eventi mostrano un buon potenziale per la loro applicazione nel recupero del suono visivo, grazie alla loro superiore capacità di catturare segnali ad alta frequenza. Tuttavia, i metodi esistenti basati su eventi per il recupero delle vibrazioni sono ancora subottimali per il recupero del suono. In questo lavoro, proponiamo una nuova pipeline per il recupero del suono senza contatto, sfruttando appieno le informazioni spazio-temporali dal flusso di eventi. Inizialmente, generiamo un ampio set di addestramento utilizzando una nuova pipeline di simulazione. Successivamente, abbiamo progettato una rete che sfrutta la sparsità degli eventi per catturare informazioni spaziali e utilizza Mamba per modellare le informazioni temporali a lungo termine. Infine, addestriamo un blocco di aggregazione spaziale per aggregare le informazioni provenienti da diverse posizioni, migliorando ulteriormente la qualità del segnale. Per catturare i segnali degli eventi causati dalle onde sonore, abbiamo anche progettato un sistema di imaging utilizzando una matrice laser per migliorare il gradiente e abbiamo raccolto più sequenze di dati per i test. I risultati sperimentali su dati sintetici e del mondo reale dimostrano l'efficacia del nostro metodo.

Real-is-Sim: Colmare il Divario Sim-to-Real con un Gemello Digitale Dinamico per la Valutazione delle Politiche Robotiche nel Mondo Reale
Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation

Apr 4, 2025

Jad Abou-Chakra, Lingfeng Sun, Krishan Rana, Brandon May, Karl Schmeckpeper, Maria Vittoria Minniti, Laura Herlant

I recenti progressi nel campo del clonaggio comportamentale hanno permesso ai robot di eseguire compiti di manipolazione complessi. Tuttavia, valutare con precisione le prestazioni durante l'addestramento rimane una sfida, specialmente per applicazioni nel mondo reale, poiché le perdite nel clonaggio comportamentale spesso si correlano scarsamente con il successo effettivo del compito. Di conseguenza, i ricercatori ricorrono a metriche basate sul tasso di successo derivate da valutazioni nel mondo reale costose e dispendiose in termini di tempo, rendendo impraticabile l'identificazione di politiche ottimali e il rilevamento di overfitting o underfitting. Per affrontare questi problemi, proponiamo real-is-sim, un nuovo framework di clonaggio comportamentale che incorpora un gemello digitale dinamico (basato su Gaussiane Embodied) lungo l'intera pipeline di sviluppo della politica: raccolta dei dati, addestramento e implementazione. Allineando continuamente il mondo simulato con quello fisico, è possibile raccogliere dimostrazioni nel mondo reale con stati estratti dal simulatore. Il simulatore consente rappresentazioni flessibili degli stati, rendendo input di immagini da qualsiasi punto di vista o estraendo informazioni di stato di basso livello dagli oggetti incorporati nella scena. Durante l'addestramento, le politiche possono essere valutate direttamente all'interno del simulatore in modo offline e altamente parallelizzabile. Infine, durante l'implementazione, le politiche vengono eseguite all'interno del simulatore, dove il robot reale traccia direttamente le articolazioni del robot simulato, disaccoppiando efficacemente l'esecuzione della politica dall'hardware reale e mitigando le tradizionali sfide di trasferimento di dominio. Validiamo real-is-sim sul compito di manipolazione PushT, dimostrando una forte correlazione tra i tassi di successo ottenuti nel simulatore e le valutazioni nel mondo reale. I video del nostro sistema sono disponibili su https://realissim.rai-inst.com.

Delineare Qualsiasi Cosa: Delimitazione Agnosticamente alla Risoluzione dei Confini dei Campi su Immagini Satellitari
Delineate Anything: Resolution-Agnostic Field Boundary Delineation on Satellite Imagery

Apr 3, 2025

Mykola Lavreniuk, Nataliia Kussul, Andrii Shelestov, Bohdan Yailymov, Yevhenii Salii, Volodymyr Kuzin, Zoltan Szantoi

La precisa delineazione dei confini dei campi agricoli dalle immagini satellitari è fondamentale per la gestione del territorio e il monitoraggio delle colture. Tuttavia, i metodi attuali affrontano sfide dovute alle dimensioni limitate dei dataset, alle discrepanze di risoluzione e alle diverse condizioni ambientali. Affrontiamo questo problema riformulando il compito come segmentazione di istanze e introducendo il dataset Field Boundary Instance Segmentation - 22M (FBIS-22M), un dataset su larga scala e multi-risoluzione che comprende 672.909 patch di immagini satellitari ad alta risoluzione (che vanno da 0,25 m a 10 m) e 22.926.427 maschere di istanze di singoli campi, riducendo significativamente il divario tra i dataset agricoli e quelli di altri domini della visione artificiale. Proponiamo inoltre Delineate Anything, un modello di segmentazione di istanze addestrato sul nostro nuovo dataset FBIS-22M. Il nostro modello proposto stabilisce un nuovo stato dell'arte, ottenendo un miglioramento sostanziale dell'88,5% in [email protected] e del 103% in [email protected]:0.95 rispetto ai metodi esistenti, dimostrando anche un'inferenza significativamente più veloce e una forte generalizzazione zero-shot su diverse risoluzioni di immagini e regioni geografiche non viste. Codice, modelli pre-addestrati e il dataset FBIS-22M sono disponibili su https://lavreniuk.github.io/Delineate-Anything.

SPF-Portrait: Verso una Personalizzazione Pura del Ritratto con Fine-tuning Libero da Inquinamento Semantico
SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning

Apr 1, 2025

Xiaole Xian, Zhichao Liao, Qingyu Li, Wenyu Qin, Pengfei Wan, Weicheng Xie, Long Zeng, Linlin Shen, Pingfa Feng

Il fine-tuning di un modello pre-addestrato Text-to-Image (T2I) su un dataset di ritratti personalizzato è il metodo principale per la personalizzazione guidata da testo degli attributi dei ritratti. A causa dell'inquinamento semantico durante il fine-tuning, i metodi esistenti faticano a mantenere il comportamento originale del modello e a raggiungere un apprendimento incrementale durante la personalizzazione degli attributi target. Per affrontare questo problema, proponiamo SPF-Portrait, un lavoro pionieristico per comprendere puramente la semantica personalizzata eliminando l'inquinamento semantico nella personalizzazione dei ritratti guidata da testo. Nel nostro SPF-Portrait, proponiamo una pipeline a doppio percorso che introduce il modello originale come riferimento per il percorso convenzionale di fine-tuning. Attraverso l'apprendimento contrastivo, garantiamo l'adattamento agli attributi target e allineiamo intenzionalmente altri attributi non correlati con il ritratto originale. Introduciamo una nuova Mappa di Controllo Fine Semantica, che rappresenta le regioni di risposta precise della semantica target, per guidare spazialmente il processo di allineamento tra i percorsi contrastivi. Questo processo di allineamento non solo preserva efficacemente le prestazioni del modello originale, ma evita anche un eccessivo allineamento. Inoltre, proponiamo un nuovo meccanismo di potenziamento della risposta per rafforzare le prestazioni degli attributi target, mitigando al contempo la discrepanza di rappresentazione intrinseca nella supervisione cross-modale diretta. Esperimenti estensivi dimostrano che SPF-Portrait raggiunge prestazioni all'avanguardia. Pagina web del progetto: https://spf-portrait.github.io/SPF-Portrait/

Real-is-Sim: Colmare il Divario Sim-to-Real con un Gemello Digitale Dinamico per la Valutazione delle Politiche Robotiche nel Mondo Reale
Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation

Apr 4, 2025

Jad Abou-Chakra, Lingfeng Sun, Krishan Rana, Brandon May, Karl Schmeckpeper, Maria Vittoria Minniti, Laura Herlant

Paper Giornalieri

Multi-SWE-bench: Un Benchmark Multilingue per la Risoluzione di Problemi
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

MegaMath: Spingere i Limiti dei Corpora Matematici Aperti
MegaMath: Pushing the Limits of Open Math Corpora

Autocoscienza Agente e Conoscitiva
Agentic Knowledgeable Self-awareness

VARGPT-v1.1: Miglioramento del Modello Unificato Autoregressivo Visivo di Grande Scala attraverso Sintonizzazione Iterativa delle Istruzioni e Apprendimento per Rinforzo
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

TransMamba: Passaggio flessibile tra Transformer e Mamba
TransMamba: Flexibly Switching between Transformer and Mamba

SynWorld: Sintesi di Scenari Virtuali per l'Affinamento della Conoscenza delle Azioni Agenti
SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

ShieldAgent: Protezione degli Agenti tramite Ragionamento Verificabile sulle Politiche di Sicurezza
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

APIGen-MT: Pipeline Agente per la Generazione di Dati Multi-Turn tramite Simulazione di Interazione Agente-Umano
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

MME-Unify: Un Benchmark Completo per Modelli Unificati di Comprensione e Generazione Multimodale
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

HumanDreamer-X: Ricostruzione di Avatar Umani Fotorealistici da Singola Immagine tramite Restauro Gaussiano
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

Illuminazione Completa: Illuminazione e Armonizzazione Monoscopica Umana Generalizzabile e Coerente
Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

MedSAM2: Segmentazione di Oggetti in Immagini e Video Medici 3D
MedSAM2: Segment Anything in 3D Medical Images and Videos

Architettura Slow-Fast per Modelli Linguistici Multimodali su Video
Slow-Fast Architecture for Video Multi-Modal Large Language Models

BEATS: Suite di Valutazione e Analisi del Bias per Modelli Linguistici di Grande Dimensione
BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models

EvMic: Recupero del suono senza contatto basato su eventi attraverso una modellizzazione spazio-temporale efficace
EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling

Real-is-Sim: Colmare il Divario Sim-to-Real con un Gemello Digitale Dinamico per la Valutazione delle Politiche Robotiche nel Mondo Reale
Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation

Delineare Qualsiasi Cosa: Delimitazione Agnosticamente alla Risoluzione dei Confini dei Campi su Immagini Satellitari
Delineate Anything: Resolution-Agnostic Field Boundary Delineation on Satellite Imagery

SPF-Portrait: Verso una Personalizzazione Pura del Ritratto con Fine-tuning Libero da Inquinamento Semantico
SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning

Support

Support

Paper Giornalieri

Multi-SWE-bench: Un Benchmark Multilingue per la Risoluzione di Problemi
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

MegaMath: Spingere i Limiti dei Corpora Matematici Aperti
MegaMath: Pushing the Limits of Open Math Corpora

Autocoscienza Agente e Conoscitiva
Agentic Knowledgeable Self-awareness

VARGPT-v1.1: Miglioramento del Modello Unificato Autoregressivo Visivo di Grande Scala attraverso Sintonizzazione Iterativa delle Istruzioni e Apprendimento per Rinforzo
VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

TransMamba: Passaggio flessibile tra Transformer e Mamba
TransMamba: Flexibly Switching between Transformer and Mamba

SynWorld: Sintesi di Scenari Virtuali per l'Affinamento della Conoscenza delle Azioni Agenti
SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

ShieldAgent: Protezione degli Agenti tramite Ragionamento Verificabile sulle Politiche di Sicurezza
ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

APIGen-MT: Pipeline Agente per la Generazione di Dati Multi-Turn tramite Simulazione di Interazione Agente-Umano
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay

MME-Unify: Un Benchmark Completo per Modelli Unificati di Comprensione e Generazione Multimodale
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

HumanDreamer-X: Ricostruzione di Avatar Umani Fotorealistici da Singola Immagine tramite Restauro Gaussiano
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

Illuminazione Completa: Illuminazione e Armonizzazione Monoscopica Umana Generalizzabile e Coerente
Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

MedSAM2: Segmentazione di Oggetti in Immagini e Video Medici 3D
MedSAM2: Segment Anything in 3D Medical Images and Videos

Architettura Slow-Fast per Modelli Linguistici Multimodali su Video
Slow-Fast Architecture for Video Multi-Modal Large Language Models

BEATS: Suite di Valutazione e Analisi del Bias per Modelli Linguistici di Grande Dimensione
BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models

EvMic: Recupero del suono senza contatto basato su eventi attraverso una modellizzazione spazio-temporale efficace
EvMic: Event-based Non-contact sound recovery from effective spatial-temporal modeling

Real-is-Sim: Colmare il Divario Sim-to-Real con un Gemello Digitale Dinamico per la Valutazione delle Politiche Robotiche nel Mondo Reale
Real-is-Sim: Bridging the Sim-to-Real Gap with a Dynamic Digital Twin for Real-World Robot Policy Evaluation

Delineare Qualsiasi Cosa: Delimitazione Agnosticamente alla Risoluzione dei Confini dei Campi su Immagini Satellitari
Delineate Anything: Resolution-Agnostic Field Boundary Delineation on Satellite Imagery

SPF-Portrait: Verso una Personalizzazione Pura del Ritratto con Fine-tuning Libero da Inquinamento Semantico
SPF-Portrait: Towards Pure Portrait Customization with Semantic Pollution-Free Fine-tuning