HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

25 papers found

VCode: un benchmark di codifica multimodale con SVG come rappresentazione visiva simbolica
VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

Nov 4

ByKevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang

101

Nel corso dell'era degli agenti intelligenti, il codice è emerso come un mezzo eseguibile e di precisione per il ragionamento e l'azione. Tuttavia, i progressi si sono concentrati prevalentemente su attività incentrate sul linguaggio, come la sintesi e il debugging di programmi, lasciando inesplorata la programmazione di tipo visivo. Ispirati dal modo in cui gli esseri umani ragionano sugli schizzi, proponiamo il codice SVG come rappresentazione visiva compatta, interpretabile ed eseguibile. Presentiamo VCode, un benchmark che riformula la comprensione multimodale come generazione di codice: dato un'immagine, un modello deve produrre SVG che preservi il significato simbolico per un ragionamento a valle. VCode copre tre domini: senso comune generale (MM-Vet), discipline professionali (MMMU) e percezione visivo-centrica (CV-Bench). Per valutare la fedeltà simbolica, proponiamo CodeVQA, un nuovo protocollo di valutazione in cui un modello policy risponde a domande sugli SVG renderizzati; le risposte corrette indicano una preservazione simbolica fedele. Empiricamente, i modelli linguistico-visivi (VLM) all'avanguardia faticano a generare SVG fedeli, rivelando un divario persistente tra la programmazione linguistica e quella visiva. Per colmare questa lacuna, introduciamo VCoder, un framework agente che potenzia i VLM lungo due assi: (i) *Pensare con Revisione*, che analizza iterativamente le discrepanze e affina il codice SVG; e (ii) *Agire con Strumenti Visivi*, dove rilevatori e parser forniscono suggerimenti strutturati come oggetti, forme e testo, oltre la capacità intrinseca del modello. Attraverso i benchmark, i VLM all'avanguardia con forti capacità di ragionamento ottengono punteggi complessivamente buoni, ma rimangono limitati nella conoscenza professionale e nel ragionamento 3D. VCoder garantisce un miglioramento complessivo di 12,3 punti rispetto al top performer Claude-4-Opus. Studi umani mostrano che sia gli esseri umani che i VLM performano peggio sugli SVG renderizzati; la loro coerenza, tuttavia, rivela la promessa della rappresentazione visiva simbolica. Il benchmark e il codice sono disponibili su https://github.com/CSU-JPG/VCode.

Non Accecare la tua VLA: Allineamento delle Rappresentazioni Visive per la Generalizzazione Fuori Distribuzione
Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

Oct 29

ByNikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov

Il crescente successo dei modelli Visione-Linguaggio-Azione (VLA) deriva dalla promessa che i modelli Visione-Linguaggio (VLM) preaddestrati possano dotare gli agenti di conoscenza del mondo trasferibile e di una base di associazione visione-linguaggio (VL), gettando le fondamenta per modelli d'azione con una generalizzazione più ampia. Tuttavia, quando questi VLM vengono adattati alla modalità azione, rimane poco chiaro in quale misura le loro rappresentazioni e conoscenze VL originali vengano preservate. In questo lavoro, conduciamo uno studio sistematico sulla ritenzione delle rappresentazioni durante la messa a punto (fine-tuning) per VLA, dimostrando che una semplice messa a punto per l'azione porta a un degrado delle rappresentazioni visive. Per caratterizzare e misurare questi effetti, analizziamo le rappresentazioni nascoste dei modelli VLA e le mappe di attenzione; inoltre, progettiamo una serie di compiti mirati e metodi che confrontano i modelli VLA con le loro controparti VLM, isolando i cambiamenti nelle capacità VL indotti dalla messa a punto per l'azione. Valutiamo inoltre una gamma di strategie per allineare le rappresentazioni visive e introduciamo un metodo semplice ma efficace che mitiga il degrado e produce una migliore generalizzazione a scenari fuori distribuzione (OOD). Nel complesso, la nostra analisi chiarisce il compromesso tra la messa a punto per l'azione e il degrado delle rappresentazioni VL e mette in luce approcci pratici per recuperare le capacità VL ereditate. Il codice è pubblicamente disponibile: https://blind-vla-paper.github.io

Quando la visualizzazione è il primo passo verso il ragionamento: MIRA, un benchmark per il ragionamento a catena visivo
When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

Nov 4

ByYiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye

Proponiamo MIRA, un nuovo benchmark progettato per valutare i modelli in scenari in cui la generazione di immagini visive intermedie è essenziale per un ragionamento efficace. A differenza dei metodi CoT tradizionali che si basano esclusivamente sul testo, i compiti in MIRA richiedono ai modelli di generare e utilizzare immagini intermedie - come schizzi, diagrammi strutturali o disegni di percorsi - per guidare il loro processo di ragionamento. Questa configurazione rispecchia fedelmente il modo in cui gli esseri umani risolvono problemi complessi attraverso il "disegnare per pensare". Per affrontare ciò, MIRA si concentra su compiti intrinsecamente impegnativi che coinvolgono strutture complesse, relazioni spaziali o passaggi di ragionamento difficili da esprimere solo tramite il linguaggio. Per garantire che i nostri dati di valutazione siano di alta qualità, includiamo 546 problemi multimodali, annotati con immagini visive intermedie e risposte finali. Proponiamo inoltre un protocollo di valutazione unificato per MIRA che si articola su tre livelli di input di valutazione: input diretto con solo immagine e domanda, input CoT solo testuale con immagine e prompt di pensiero, e input Visual-CoT con sia indizi visivi annotati che prompt di pensiero testuali. Per investigare il limite superiore della capacità dei modelli sul nostro benchmark, riportiamo anche le accuratezze pass@k e del voto di maggioranza sotto diverse impostazioni di k. I risultati sperimentali mostrano che gli attuali modelli linguistici multimodali di grandi dimensioni, inclusi i modelli privati più potenti e forti modelli open-weight, ottengono scarse performance quando si basano esclusivamente su prompt testuali. Tuttavia, quando vengono forniti indizi visivi intermedi, le prestazioni del modello migliorano costantemente, con un guadagno relativo medio del 33.7% su tutti i modelli e i compiti. Investigiamo inoltre il limite superiore espandendo lo spazio di ricerca e progettando prompt testuali allineati al Visual-CoT, ma entrambi gli approcci producono solo miglioramenti limitati rispetto alla nostra impostazione Visual-CoT. Questi risultati sottolineano il ruolo cruciale delle informazioni visive immaginate nel consentire un ragionamento efficace su MIRA.

Rapporto Tecnico di Step-Audio-EditX
Step-Audio-EditX Technical Report

Nov 5

ByChao Yan, Boyong Wu, Peng Yang, Pengfei Tan, Guoqiang Hu, Yuxin Zhang, Xiangyu, Zhang, Fei Tian, Xuerui Yang, Xiangyu Zhang, Daxin Jiang, Gang Yu

Presentiamo Step-Audio-EditX, il primo modello audio open-source basato su LLM che eccelle nell'editing audio espressivo e iterativo, comprendente emozioni, stile di parlato e aspetti paralinguistici, unitamente a solide capacità zero-shot di sintesi vocale da testo (TTS). La nostra innovazione principale risiede nell'utilizzo esclusivo di dati sintetici a grande margine, che evita la necessità di pre-informazioni basate su embedding o moduli ausiliari. Questo approccio di apprendimento a grande margine consente sia un controllo iterativo che un'elevata espressività tra diverse voci, e rappresenta una svolta fondamentale rispetto al focus convenzionale sulla separazione a livello di rappresentazione. I risultati delle valutazioni dimostrano che Step-Audio-EditX supera sia MiniMax-2.6-hd che Doubao-Seed-TTS-2.0 nelle attività di modifica delle emozioni e in altri compiti di controllo fine-granulari.

Quando le modalità entrano in conflitto: come l’incertezza del ragionamento unimodale governa la dinamica delle preferenze nei MLLM
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs

Nov 4

ByZhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu

I modelli linguistici multimodali di grandi dimensioni (MLLM) devono risolvere i conflitti quando diverse modalità forniscono informazioni contraddittorie, un processo che definiamo "modality following" (seguire la modalità). I lavori precedenti hanno misurato questo comportamento solo con statistiche grossolane a livello di dataset, trascurando l'influenza della fiducia del modello nel ragionamento unimodale. In questo articolo, introduciamo un nuovo framework che scompone il "modality following" in due fattori fondamentali: l'incertezza relativa del ragionamento (il divario di fiducia specifico per caso tra le previsioni unimodali) e la preferenza modale intrinseca (un bias stabile del modello quando le incertezze sono bilanciate). Per convalidare questo framework, costruiamo un dataset controllabile che varia sistematicamente la difficoltà di ragionamento degli input visivi e testuali. Utilizzando l'entropia come metrica di incertezza granulare, scopriamo una legge universale: la probabilità di seguire una modalità diminuisce monotonicamente all'aumentare della sua incertezza relativa. Al livello di difficoltà relativa in cui il modello tende a seguire entrambe le modalità con probabilità comparabile – ciò che chiamiamo punto di equilibrio – troviamo un indicatore pratico della preferenza intrinseca del modello. A differenza dei rapporti macro tradizionali, questa misura offre un modo più rigoroso e meno confuso per caratterizzare il bias modale, separandolo dalle capacità unimodali e dagli artefatti del dataset. Inoltre, sondando le previsioni strato per strato, riveliamo il meccanismo interno dell'oscillazione: nelle regioni ambigue vicino al punto di equilibrio, i modelli oscillano tra le modalità attraverso gli strati, spiegando l'indecisione osservata esternamente. Insieme, questi risultati stabiliscono l'incertezza relativa e la preferenza intrinseca come i due principi che governano il "modality following", offrendo sia un framework quantitativo che una comprensione meccanicistica di come gli MLLM risolvono le informazioni conflittuali.

Il Divario nella Collaborazione
The Collaboration Gap

Nov 4

ByTim R. Davidson, Adam Fourney, Saleema Amershi, Robert West, Eric Horvitz, Ece Kamar

La traiettoria dello sviluppo dell'intelligenza artificiale suggerisce che faremo sempre più affidamento su sistemi basati su agenti, composti da agenti sviluppati in modo indipendente con informazioni, privilegi e strumenti diversi. Il successo di questi sistemi dipenderà in modo cruciale da una collaborazione efficace tra questi agenti eterogenei, anche in condizioni di osservabilità parziale. Nonostante l'intenso interesse, pochi studi empirici hanno valutato su larga scala tale collaborazione agente-agente. Proponiamo un benchmark collaborativo per la risoluzione di labirinti che (i) isola le capacità collaborative, (ii) modula la complessità del problema, (iii) consente una valutazione automatizzata scalabile e (iv) non impone vincoli sul formato di output, preservando la plausibilità ecologica. Utilizzando questo framework, valutiamo 32 modelli leader open-source e closed-source in configurazioni singole, omogenee in coppia ed eterogenee in coppia. I nostri risultati rivelano un "divario collaborativo": i modelli che performano bene in solitario spesso si degradano sostanzialmente quando è richiesta la collaborazione. La collaborazione può interrompersi in modo drammatico; ad esempio, piccoli modelli distillati che risolvono bene i labirinti da soli possono fallire quasi completamente in determinate coppie. Scopriamo che iniziare con l'agente più forte spesso migliora i risultati, motivando un approccio di "inferenza a staffetta" in cui l'agente più forte guida per poi passare il compito a quello più debole, colmando gran parte del divario. Le nostre scoperte sostengono la necessità di (1) valutazioni che tengano conto della collaborazione, (2) strategie di addestramento sviluppate per potenziare le capacità collaborative e (3) una progettazione dell'interazione che evochi in modo affidabile le competenze latenti degli agenti, linee guida che si applicano sia alla collaborazione AI-AI che a quella umano-AI.

Brain-IT: Ricostruzione di Immagini da fMRI tramite Brain-Interaction Transformer
Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Oct 29

ByRoman Beliy, Amit Zalcher, Jonathan Kogman, Navve Wasserman, Michal Irani

La ricostruzione di immagini viste da persone a partire dalle loro registrazioni fMRI cerebrali fornisce una finestra non invasiva sul cervello umano. Nonostante i recenti progressi resi possibili dai modelli di diffusione, i metodi attuali spesso mancano di fedeltà rispetto alle immagini effettivamente viste. Presentiamo "Brain-IT", un approccio ispirato al cervello che affronta questa sfida attraverso un Transformer per l'Interazione Cerebrale (BIT), consentendo interazioni efficaci tra cluster di voxel cerebrali funzionalmente simili. Questi cluster funzionali sono condivisi da tutti i soggetti e fungono da elementi costitutivi per integrare le informazioni sia all'interno che tra i cervelli. Tutti i componenti del modello sono condivisi da tutti i cluster e soggetti, consentendo un addestramento efficiente con una quantità limitata di dati. Per guidare la ricostruzione dell'immagine, BIT predice due caratteristiche di immagine localizzate a livello di patch, complementari: (i) caratteristiche semantiche di alto livello che indirizzano il modello di diffusione verso il corretto contenuto semantico dell'immagine; e (ii) caratteristiche strutturali di basso livello che aiutano a inizializzare il processo di diffusione con la corretta struttura generale dell'immagine. La progettazione di BIT consente un flusso diretto di informazioni dai cluster di voxel cerebrali alle caratteristiche di immagine localizzate. Attraverso questi principi, il nostro metodo ottiene ricostruzioni di immagini da fMRI che ricostruiscono fedelmente le immagini viste e supera gli approcci allo stato dell'arte sia visivamente che mediante metriche oggettive standard. Inoltre, con soli 1 ora di dati fMRI da un nuovo soggetto, otteniamo risultati paragonabili ai metodi attuali addestrati su registrazioni complete di 40 ore.

Più Breve ma Non Peggiore: Ragionamento Frugale Attraverso Campioni Facili come Regolarizzatori di Lunghezza in RLVR Matematico
Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

Nov 2

ByAbdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang

I grandi modelli linguistici (LLM) addestrati per il ragionamento passo-passo tendono spesso a diventare eccessivamente verbosi, aumentando i costi di inferenza. Le pipeline standard di Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) filtrano i problemi "facili" per l'efficienza dell'addestramento, lasciando che il modello si addestri principalmente su problemi più difficili che richiedono catene di ragionamento più lunghe. Ciò distorce la distribuzione della lunghezza dell'output verso l'alto, determinando un modello che confonde il "pensare più a lungo" con il "pensare meglio". In questo lavoro, dimostriamo che trattenere e aumentare moderatamente il peso dei problemi moderatamente facili funge da regolarizzatore implicito della lunghezza. Esporre il modello a compiti risolvibili con catene corte vincola la sua distribuzione di output e previene una verbosità incontrollata. Il risultato è una **brevità emergente a costo zero**: il modello impara a risolvere problemi più difficili senza gonfiare la lunghezza dell'output, nonostante l'assenza di qualsiasi penalizzazione esplicita della lunghezza. Esperimenti RLVR che utilizzano questo approccio su Qwen3-4B-Thinking-2507 (con un limite di 16k token) raggiungono l'accuratezza pass@1 baseline AIME25 generando soluzioni che sono, in media, quasi due volte più brevi. Il codice è disponibile su https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, con dataset e modelli su https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

L'Input Visivo Può Essere Compresso? Un Benchmark di Compressione di Token Visivi per Grandi Modelli Multimodali
Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

Nov 4

ByTianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong, Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui

I grandi modelli multimodali (LMM) soffrono spesso di una grave inefficienza inferenziale a causa dell'elevato numero di token visivi introdotti dagli encoder di immagini. Sebbene i recenti metodi di compressione dei token, come il pruning e la fusione, abbiano mostrato potenziale nel ridurre la ridondanza, la loro valutazione rimane frammentata e incoerente. In questo lavoro, presentiamo UniPruneBench, un benchmark unificato ed estendibile per il pruning di token visivi negli LLM multimodali. UniPruneBench fornisce protocolli standardizzati su sei dimensioni di abilità e dieci dataset, coprendo dieci algoritmi di compressione rappresentativi e tre famiglie di LMM (LLaVA-v1.5, Intern-VL3 e Qwen2.5-VL). Oltre all'accuratezza sul compito, incorpora metriche a livello di sistema come il tempo di esecuzione e la latenza di prefilling per fornire una visione olistica. I nostri esperimenti rivelano diverse scoperte chiave: (1) il pruning casuale è una baseline sorprendentemente solida, (2) nessun singolo metodo supera costantemente gli altri negli scenari, (3) la sensibilità al pruning varia significativamente tra i compiti, con l'OCR che è il più vulnerabile, e (4) il rapporto di pruning è il fattore dominante che governa il degrado delle prestazioni. Crediamo che UniPruneBench servirà come base affidabile per la futura ricerca sulla modellazione multimodale efficiente.

CodeClash: Benchmarking per l'Ingegneria del Software Orientata agli Obiettivi
CodeClash: Benchmarking Goal-Oriented Software Engineering

Nov 2

ByJohn Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang

Gli attuali benchmark per la codifica valutano i modelli linguistici (LM) su compiti concreti e ben definiti, come correggere bug specifici o scrivere test mirati. Tuttavia, i programmatori umani non passano tutto il giorno ad affrontare incessantemente compiti isolati. Al contrario, lo sviluppo software nel mondo reale si basa sul perseguimento di obiettivi di alto livello, come migliorare la fidelizzazione degli utenti o ridurre i costi. Valutare se gli LM possano anche sviluppare codice in modo iterativo per raggiungere meglio obiettivi aperti, senza alcuna guida esplicita, rimane una sfida aperta. Per affrontare ciò, introduciamo CodeClash, un benchmark in cui gli LM competono in tornei a più round per costruire la codebase migliore per raggiungere un obiettivo competitivo. Ogni round procede in due fasi: gli agenti modificano il proprio codice, poi le loro codebase competono direttamente in un'arena di codice che determina i vincitori in base a obiettivi come la massimizzazione del punteggio, l'acquisizione di risorse o la sopravvivenza. Che si tratti di scrivere appunti, esaminare la documentazione, analizzare i log della competizione o creare suite di test, i modelli devono decidere autonomamente come migliorare le proprie codebase sia in assoluto che rispetto agli avversari. Eseguiamo 1680 tornei (25.200 round totali) per valutare 8 LM in 6 arene. I nostri risultati rivelano che, sebbene i modelli mostrino stili di sviluppo diversi, condividono limitazioni fondamentali nel ragionamento strategico. I modelli hanno anche difficoltà con la manutenzione a lungo termine della codebase, poiché i repository diventano progressivamente disordinati e ridondanti. Queste limitazioni sono nette: i modelli migliori perdono ogni round contro programmatori umani esperti. Rendiamo CodeClash open-source per far avanzare lo studio dello sviluppo di codice autonomo e orientato agli obiettivi.

TWIST2: Sistema Scalabile, Portatile e Olistico per la Raccolta di Dati Umanoidi
TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

Nov 4

ByYanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu

I dati su larga scala hanno guidato progressi fondamentali nella robotica, passando da modelli linguistici a modelli visione-linguaggio-azione per la manipolazione bimanuale. Tuttavia, la robotica umanoide manca di framework di raccolta dati ugualmente efficaci. I sistemi di teleoperazione umanoide esistenti utilizzano un controllo disaccoppiato o dipendono da costose configurazioni di motion capture. Introduciamo TWIST2, un sistema portatile e privo di mocap per la teleoperazione umanoide e la raccolta dati che preserva il controllo completo del corpo intero, migliorando al contempo la scalabilità. Il nostro sistema sfrutta PICO4U VR per ottenere movimenti umani in tempo reale del corpo intero, con un collo robotico personalizzato a 2 gradi di libertà (costo circa 250 dollari) per la visione egocentrica, consentendo un controllo olistico da umano a umanoide. Dimostriamo abilità umanoidi mobili e destre su lunghi orizzonti temporali e possiamo raccogliere 100 dimostrazioni in 15 minuti con un tasso di successo quasi del 100%. Basandoci su questa pipeline, proponiamo un framework di policy visuomotoria gerarchica che controlla autonomamente l'intero corpo umanoide basandosi sulla visione egocentrica. La nostra policy visuomotoria dimostra con successo compiti di manipolazione agile del corpo intero e di calcio dinamico. L'intero sistema è completamente riproducibile e open-source all'indirizzo https://yanjieze.com/TWIST2. Il nostro dataset raccolto è anch'esso open-source all'indirizzo https://twist-data.github.io.

LTD-Bench: Valutazione dei Modelli Linguistici di Grande Dimensione Tramite la Generazione di Disegni
LTD-Bench: Evaluating Large Language Models by Letting Them Draw

Nov 4

ByLiuhao Lin, Ke Li, Zihan Xu, Yuchen Shi, Yulei Qin, Yan Zhang, Xing Sun, Rongrong Ji

Gli attuali paradigmi di valutazione per i grandi modelli linguistici (LLM) rappresentano un punto cieco critico nella ricerca sull'IA, basandosi su metriche numeriche opache che nascondono limitazioni fondamentali nel ragionamento spaziale senza fornire una comprensione intuitiva delle capacità del modello. Questa carenza crea una pericolosa discrepanza tra le prestazioni riportate e le abilità pratiche, specialmente per applicazioni che richiedono la comprensione del mondo fisico. Introduciamo LTD-Bench, un benchmark rivoluzionario che trasforma la valutazione degli LLM da punteggi astratti a output visivi direttamente osservabili, richiedendo ai modelli di generare disegni attraverso matrici di punti o codice eseguibile. Questo approccio rende immediatamente evidenti le limitazioni del ragionamento spaziale anche ai non esperti, colmando il divario fondamentale tra prestazioni statistiche e valutazione intuitiva. LTD-Bench implementa una metodologia completa con task di generazione complementari (che testano l'immaginazione spaziale) e task di riconoscimento (che valutano la percezione spaziale) attraverso tre livelli di difficoltà progressivamente crescenti, valutando metodicamente entrambe le direzioni del critico mapping linguaggio-spazio. I nostri esperimenti estesi con modelli all'avanguardia rivelano un allarmante divario capacitivo: persino gli LLM che ottengono risultati impressionanti sui benchmark tradizionali dimostrano carenze profonde nell'stabilire mappature bidirezionali tra linguaggio e concetti spaziali - una limitazione fondamentale che mina il loro potenziale come veri modelli del mondo. Inoltre, gli output visivi di LTD-Bench abilitano potenti analisi diagnostiche, offrendo un approccio potenziale per investigare la similarità tra modelli.

RoboChallenge: Valutazione su larga scala di politiche incorporate con robot reali
RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies

Oct 20

ByAdina Yakefu, Bin Xie, Chongyang Xu, Enwen Zhang, Erjin Zhou, Fan Jia, Haitao Yang, Haoqiang Fan, Haowei Zhang, Hongyang Peng, Jing Tan, Junwen Huang, Kai Liu, Kaixin Liu, Kefan Gu, Qinglun Zhang, Ruitao Zhang, Saike Huang, Shen Cheng, Shuaicheng Liu, Tiancai Wang, Tiezhen Wang, Wei Sun, Wenbin Tang, Yajun Wei, Yang Chen, Youqiang Gui, Yucheng Zhao, Yunchao Ma, Yunfei Wei, Yunhuan Yang, Yutong Guo, Ze Chen, Zhengyuan Du, Ziheng Zhang, Ziming Liu, Ziwei Yan

Il test su macchine reali è indispensabile per gli algoritmi di controllo robotico. Nel contesto degli algoritmi basati sull'apprendimento, in particolare i modelli VLA, la necessità di una valutazione su larga scala, ovvero testare un gran numero di modelli su un ampio numero di compiti, sta diventando sempre più urgente. Tuttavia, implementare questo processo correttamente è estremamente complesso, specialmente quando si considerano scalabilità e riproducibilità. In questo rapporto, descriviamo la nostra metodologia per la costruzione di RoboChallenge, un sistema di valutazione online per testare algoritmi di controllo robotico, e la nostra indagine sui recenti modelli VLA allo stato dell'arte utilizzando il nostro benchmark iniziale Table30.

Dimentica il BIT, è Tutta Questione di TOKEN: Verso una Teoria dell'Informazione Semantica per i Modelli Linguistici di Grande Dimensione
Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

Nov 3

ByBo Bai

I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in numerose applicazioni del mondo reale. Sebbene la stragrande maggioranza della ricerca condotta da una prospettiva sperimentale stia progredendo rapidamente, essa richiede ingenti risorse computazionali, dati e altre risorse. Pertanto, come aprire la scatola nera degli LLM da un punto di vista teorico è diventata una sfida cruciale. Questo articolo prende le mosse dalla teoria della funzione tasso-distorsione, dall'informazione diretta e dalla causalità di Granger per indagare i principi teorici dell'informazione alla base degli LLM, portando allo sviluppo di una teoria dell'informazione semantica per gli LLM, in cui l'unità fondamentale è il token, piuttosto che i bit che sono privi di significato semantico. Definendo il modello probabilistico degli LLM, discutiamo misure teoriche dell'informazione indipendenti dalla struttura, come la funzione tasso-distorsione diretta nel pre-addestramento, la funzione tasso-ricompensa diretta nel post-addestramento e il flusso di informazione semantica nella fase di inferenza. Questo articolo approfondisce anche la teoria dell'incorporamento semantico a livello di token e il metodo di vettorializzazione ottimo in senso teorico dell'informazione. Successivamente, proponiamo una definizione generale di LLM autoregressivo, dalla quale è possibile derivare teoricamente l'architettura Transformer e le sue prestazioni, come l'ELBO, il limite dell'errore di generalizzazione, la capacità di memoria e le misure di informazione semantica. Altre architetture, come Mamba/Mamba2 e LLaDA, sono anch'esse discusse nel nostro quadro. Di conseguenza, questo articolo fornisce un quadro teorico per comprendere gli LLM dalla prospettiva della teoria dell'informazione semantica, che offre anche gli strumenti teorici necessari per ulteriori ricerche approfondite.

Rapporto Tecnico iFlyBot-VLA
iFlyBot-VLA Technical Report

Nov 1

ByYuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan

Presentiamo iFlyBot-VLA, un modello su larga scala Visione-Linguaggio-Azione (VLA) addestrato con un framework innovativo. I principali contributi sono i seguenti: (1) un modello di azione latente addestrato approfonditamente su video su larga scala di manipolazioni umane e robotiche; (2) un framework di rappresentazione dell'azione a doppio livello che supervisiona congiuntamente sia il Modello Visione-Linguaggio (VLM) che l'esperto d'azione durante l'addestramento; (3) una strategia di addestramento mista che combina dati di traiettoria robotica con dataset generali di Domande-Risposte (QA) e di QA spaziale, potenziando efficacemente le capacità percettive 3D e di ragionamento del backbone VLM. Nello specifico, il VLM è addestrato a prevedere due forme complementari di azioni: azioni latenti, derivate dal nostro modello di azione latente pre-addestrato su dati di manipolazione cross-embodiment, che catturano intenzioni implicite di alto livello; e token d'azione discreti strutturati, ottenuti tramite trasformazioni nel dominio della frequenza di segnali di controllo continui, che codificano dinamiche esplicite di basso livello. Questa doppia supervisione allinea gli spazi di rappresentazione di linguaggio, visione e azione, consentendo al VLM di contribuire direttamente alla generazione delle azioni. I risultati sperimentali sul benchmark LIBERO Franka dimostrano la superiorità del nostro framework, mentre le valutazioni nel mondo reale mostrano ulteriormente che iFlyBot-VLA raggiunge tassi di successo competitivi in vari e impegnativi compiti di manipolazione. Inoltre, prevediamo di rendere open-source una parte del nostro dataset auto-costruito per supportare la ricerca futura nella comunità.

RiddleBench: Un Nuovo Benchmark Generativo di Ragionamento per i LLM
RiddleBench: A New Generative Reasoning Benchmark for LLMs

Oct 28

ByDeepon Halder, Alan Saji, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, Raj Dabre

I modelli linguistici di grandi dimensioni hanno dimostrato prestazioni solide su molti benchmark di ragionamento consolidati. Tuttavia, questi benchmark valutano principalmente abilità strutturate come la risoluzione di problemi quantitativi, lasciando un vuoto nella valutazione di abilità di ragionamento flessibili e multifaccettate che sono centrali per l'intelligenza umana. Queste abilità richiedono l'integrazione della deduzione logica con la consapevolezza spaziale e la soddisfazione di vincoli, aspetti che le valutazioni attuali non misurano adeguatamente. Per colmare questa lacuna, presentiamo RiddleBench, un benchmark composto da 1.737 rompicapo complessi in inglese progettati per indagare queste capacità di ragionamento fondamentali. La valutazione dei modelli più all'avanguardia su RiddleBench rivela debolezze fondamentali. Anche i migliori modelli proprietari come Gemini 2.5 Pro, o3 e Claude 4 Sonnet raggiungono un'accuratezza di poco superiore al 60% (rispettivamente 60,30%, 63,37% e 63,16%). L'analisi rivela inoltre fallimenti profondi, tra cui cascate di allucinazioni (l'accettare ragionamenti errati provenienti da altri modelli) e una scarsa autocorrezione dovuta a un forte bias di auto-conferma. Il loro ragionamento è anche fragile, con prestazioni che si degradano significativamente quando i vincoli vengono riordinati o vengono introdotte informazioni irrilevanti. RiddleBench funge sia da strumento diagnostico per questi problemi che da risorsa per guidare lo sviluppo di modelli linguistici più robusti e affidabili.

ChartM^3: Una pipeline guidata dal codice a più stadi per la costruzione di dati di ragionamento visivo multidimensionali e multi-step nella comprensione dei grafici
ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

Nov 4

ByDuo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang

I compiti complessi di comprensione dei grafici richiedono capacità avanzate di riconoscimento visivo e ragionamento da parte dei modelli linguistici multimodali di grandi dimensioni (MLLM). Tuttavia, la ricerca attuale fornisce una copertura limitata degli scenari di grafici complessi e dei compiti di ragionamento computazionalmente intensivi prevalenti nelle applicazioni del mondo reale. Questo studio propone una pipeline automatizzata multi-stadio guidata da codice per generare sistematicamente dataset di ragionamento visivo al fine di affrontare queste limitazioni. La pipeline integra la generazione aumentata dal recupero (RAG) per recuperare modelli di grafici professionali e impiega strategie a catena del pensiero (CoT) per generare codici di ragionamento che simulano distribuzioni di dati reali, guidando così il rendering dei grafici e i calcoli statistici relativi alle domande. Attraverso una valutazione basata su modelli, la pipeline migliora la diversità dei grafici e la qualità dei dati. Utilizzando questo framework, abbiamo costruito ChartM³, un dataset multidimensionale e multi-step contenente 38K grafici e 142K coppie di domande e risposte per l'addestramento, insieme a 2.871 campioni di valutazione di alta qualità per consentire una valutazione delle prestazioni pratica. Esperimenti di fine-tuning supervisionato (SFT) e di apprendimento per rinforzo (RL) dimostrano che il nostro dataset migliora significativamente le capacità di ragionamento e le prestazioni di generalizzazione cross-dominio, consentendo a modelli più piccoli di ottenere prestazioni paragonabili a modelli di scala maggiore nella comprensione di grafici complessi.

VidEmo: Ragionamento ad Albero Affettivo per Modelli di Base Video Centrati sulle Emozioni
VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

Nov 4

ByZhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang

La comprensione e la previsione delle emozioni dai video ha ricevuto significativa attenzione negli studi recenti, guidata dai progressi nei modelli linguistici di grandi dimensioni per video (VideoLLM). Sebbene i metodi avanzati abbiano compiuto progressi nell'analisi delle emozioni video, la natura intrinseca delle emozioni pone sfide significative. Le emozioni sono caratterizzate da proprietà dinamiche e dipendenti da indizi, rendendo difficile comprendere stati emotivi complessi ed evolutivi con ragionamenti appropriati. Per affrontare queste sfide, proponiamo una nuova struttura di ragionamento guidata da indizi affettivi che unifica la percezione degli attributi fondamentali, l'analisi delle espressioni e la comprensione emotiva di alto livello in modo graduale. Al centro del nostro approccio c'è una famiglia di modelli fondazionali per le emozioni video (VidEmo), specificamente progettati per il ragionamento emotivo e il follow-up di istruzioni. Questi modelli subiscono un processo di ottimizzazione in due fasi: prima, un apprendimento emotivo curriculare per l'iniezione di conoscenze emotive, seguito da un apprendimento per rinforzo ad albero affettivo per il ragionamento emotivo. Inoltre, stabiliamo un'infrastruttura dati fondazionale e introduciamo un dataset granulare centrato sulle emozioni (Emo-CFG) composto da 2,1 milioni di campioni diversificati basati su istruzioni. Emo-CFG include domande-risposte emotive spiegabili, descrizioni granulari e ragionamenti associati, fornendo risorse essenziali per far avanzare i compiti di comprensione emotiva. I risultati sperimentali dimostrano che il nostro approccio raggiunge prestazioni competitive, stabilendo una nuova pietra miliare attraverso 15 compiti di percezione facciale.

LiveSecBench：面向中文语境下大型语言模型的动态与文化适应性AI安全基准测试
LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context

Nov 4

ByYudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang

In questo lavoro proponiamo LiveSecBench, un benchmark di sicurezza dinamico e in continuo aggiornamento, specificamente concepito per gli scenari applicativi degli LLM in lingua cinese. LiveSecBench valuta i modelli attraverso sei dimensioni critiche (Legalità, Etica, Correttezza fattuale, Privacy, Robustezza agli attacchi avversari e Sicurezza del ragionamento) radicate nei quadri giuridici e sociali cinesi. Questo benchmark mantiene la sua rilevanza attraverso un programma di aggiornamento dinamico che incorpora nuovi vettori di minaccia, come l'inclusione pianificata della Sicurezza nella Generazione da Testo a Immagine e della Sicurezza Agente nel prossimo aggiornamento. Attualmente, LiveSecBench (v251030) ha valutato 18 LLM, fornendo una panoramica della sicurezza dell'IA nel contesto della lingua cinese. La classifica è pubblicamente accessibile all'indirizzo https://livesecbench.intokentech.cn/.

BRAINS: Un Sistema Aumentato dal Recupero per il Rilevamento e il Monitoraggio dell'Alzheimer
BRAINS: A Retrieval-Augmented System for Alzheimer's Detection and Monitoring

Nov 4

ByRajan Das Gupta, Md Kishor Morol, Nafiz Fahad, Md Tanzib Hosain, Sumaya Binte Zilani Choya, Md Jakir Hossen

Mentre il carico globale della malattia di Alzheimer (MA) continua ad aumentare, il rilevamento precoce e accurato è diventato sempre più cruciale, specialmente nelle regioni con accesso limitato a strumenti diagnostici avanzati. Proponiamo BRAINS (Biomedical Retrieval-Augmented Intelligence for Neurodegeneration Screening) per affrontare questa sfida. Questo sistema innovativo sfrutta le potenti capacità di ragionamento dei Large Language Model (LLM) per il rilevamento e il monitoraggio dell'Alzheimer. BRAINS presenta un'architettura a doppio modulo: un modulo di diagnostica cognitiva e un modulo di recupero casi. Il Modulo Diagnostico utilizza LLM addestrati su dataset cognitivi e di neuroimaging – inclusi punteggi MMSE, CDR e metriche del volume cerebrale – per eseguire valutazioni strutturate del rischio di Alzheimer. Nel frattempo, il Modulo di Recupero Casi codifica i profili dei pazienti in rappresentazioni latenti e recupera casi simili da una knowledge base curata. Questi casi ausiliari vengono fusi con il profilo di input tramite uno Stratto di Fusione Casi per migliorare la comprensione contestuale. La rappresentazione combinata viene poi elaborata con prompt clinici per l'inferenza. Le valutazioni su dataset del mondo reale dimostrano l'efficacia di BRAINS nella classificazione della gravità della malattia e nell'identificazione dei segni precoci del declino cognitivo. Questo sistema non solo mostra un forte potenziale come strumento di supporto per un rilevamento scalabile, spiegabile e in fase precoce della malattia di Alzheimer, ma offre anche speranza per future applicazioni in questo campo.

AyurParam: un modello linguistico bilingue all'avanguardia per l'Ayurveda
AyurParam: A State-of-the-Art Bilingual Language Model for Ayurveda

Nov 4

ByMohd Nauman, Sravan Gvm, Vijay Devane, Shyam Pawar, Viraj Thakur, Kundeshwar Pundalik, Piyush Sawarkar, Rohit Saluja, Maunendra Desarkar, Ganesh Ramakrishnan

Gli attuali modelli linguistici di grandi dimensioni eccellono in compiti ampi e generalisti, ma forniscono costantemente prestazioni inferiori quando esposti a domini altamente specializzati che richiedono una profonda competenza culturale, linguistica e tematica. In particolare, i sistemi medici tradizionali come l'Ayurveda incarnano secoli di conoscenze testuali e cliniche sfumate che i modelli linguistici mainstream non riescono a interpretare o applicare con accuratezza. Presentiamo AyurParam-2.9B, un modello linguistico bilingue specializzato nel dominio, messo a punto a partire da Param-1-2.9B utilizzando un esteso dataset Ayurvedico curato da esperti, che abbraccia testi classici e linee guida cliniche. Il dataset di AyurParam incorpora domande e risposte di tipo contestuale, deduttivo e a scelta multipla in inglese e hindi, con protocolli di annotazione rigorosi per la precisione fattuale e la chiarezza espositiva. Valutato su BhashaBench-Ayur, AyurParam non solo supera tutti i modelli open-source addestrati per seguire istruzioni della sua classe dimensionale (1,5-3 miliardi di parametri), ma dimostra anche prestazioni competitive o superiori rispetto a modelli molto più grandi. I risultati di AyurParam evidenziano la necessità di un'autentica adattazione al dominio e di una supervisione di alta qualità per fornire un'intelligenza artificiale affidabile e culturalmente congrua per la conoscenza medica specialistica.

D2D: Da Rilevatore a Critico Differenziabile per un Miglioramento della Numericità nella Generazione di Immagini da Testo
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

Oct 22

ByNobline Yoo, Olga Russakovsky, Ye Zhu

I modelli di diffusione text-to-image (T2I) hanno ottenuto prestazioni eccellenti nell'allineamento semantico, ma continuano a incontrare difficoltà nel generare il numero corretto di oggetti specificato nei prompt. Gli approcci esistenti incorporano tipicamente reti di conteggio ausiliarie come critici esterni per potenziare la capacità numerica. Tuttavia, poiché questi critici devono fornire una guida gradiente durante la generazione, sono limitati a modelli basati su regressione che sono intrinsecamente differenziabili, escludendo così i modelli basati su detector con capacità di conteggio superiore, la cui natura di conteggio-per-enumerazione è non differenziabile. Per superare questa limitazione, proponiamo Detector-to-Differentiable (D2D), un framework innovativo che trasforma modelli di detection non differenziabili in critici differenziabili, sfruttando così la loro superiore capacità di conteggio per guidare la generazione numerica. Nello specifico, progettiamo funzioni di attivazione personalizzate per convertire i logit del detector in indicatori binari soft, che vengono poi utilizzati per ottimizzare il prior di rumore al momento dell'inferenza con modelli T2I pre-addestrati. I nostri esperimenti approfonditi su SDXL-Turbo, SD-Turbo e Pixart-DMD, condotti su quattro benchmark di complessità variabile (scenari a bassa densità, alta densità e multi-oggetto), dimostrano miglioramenti consistenti e sostanziali nell'accuratezza del conteggio degli oggetti (ad esempio, un incremento fino al 13.7% su D2D-Small, un benchmark a bassa densità con 400 prompt), con un degrado minimo della qualità complessiva dell'immagine e del sovraccarico computazionale.

TabDSR: Scomposizione, Sanitizzazione e Ragionamento per il Ragionamento Numerico Complesso su Dati Tabulari
TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data

Nov 4

ByChangjiang Jiang, Fengchang Yu, Haihua Chen, Wei Lu, Jin Zeng

Il ragionamento complesso su dati tabellari è cruciale nell'analisi dei dati del mondo reale, tuttavia i grandi modelli linguistici (LLM) spesso forniscono prestazioni inferiori a causa di query complesse, dati rumorosi e capacità numeriche limitate. Per affrontare questi problemi, proponiamo \method, un framework costituito da: (1) un decompositore di query che scompone domande complesse, (2) un sanificatore di tabelle che pulisce e filtra tabelle rumorose, e (3) un ragionatore basato su programmi di pensiero (PoT) che genera codice eseguibile per derivare la risposta finale dalla tabella sanificata. Per garantire una valutazione imparziale e mitigare la fuga di dati, introduciamo un nuovo dataset, CalTab151, specificamente progettato per il ragionamento numerico complesso su tabelle. I risultati sperimentali dimostrano che \method supera costantemente i metodi esistenti, raggiungendo prestazioni state-of-the-art (SOTA) con un miglioramento dell'accuratezza dell'8,79%, 6,08% e 19,87% rispettivamente su TAT-QA, TableBench e \method. Inoltre, il nostro framework si integra perfettamente con gli LLM mainstream, fornendo una soluzione robusta per il ragionamento numerico tabellare complesso. Questi risultati evidenziano l'efficacia del nostro framework nel migliorare le prestazioni degli LLM per il ragionamento numerico tabellare complesso. Dati e codice sono disponibili su richiesta.

Trattare in Modo Discriminante le Componenti di Movimento Favorisce l'Apprendimento Congiunto della Profondità e dell'Ego-Motion
Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

Nov 3

ByMengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan

L'apprendimento non supervisionato della profondità e dell'ego-motion, due compiti fondamentali della percezione 3D, ha compiuto progressi significativi negli ultimi anni. Tuttavia, la maggior parte dei metodi tratta l'ego-motion come un compito ausiliario, mescolando tutti i tipi di movimento o escludendo i movimenti rotazionali indipendenti dalla profondità nella supervisione. Tali progetti limitano l'incorporazione di forti vincoli geometrici, riducendo l'affidabilità e la robustezza in condizioni diverse. Questo studio introduce un trattamento discriminativo delle componenti del movimento, sfruttando le regolarità geometriche dei loro rispettivi flussi rigidi per avvantaggiare sia la stima della profondità che dell'ego-motion. Date fotogrammi video consecutivi, le uscite della rete allineano prima gli assi ottici e i piani di imaging delle telecamere sorgente e target. I flussi ottici tra i fotogrammi vengono trasformati attraverso questi allineamenti, e le deviazioni sono quantificate per imporre vincoli geometrici individualmente su ogni componente dell'ego-motion, consentendo una raffinatura più mirata. Questi allineamenti riformulano ulteriormente il processo di apprendimento congiunto in forme coassiali e complanari, dove la profondità e ogni componente di traslazione possono essere reciprocamente derivati attraverso relazioni geometriche in forma chiusa, introducendo vincoli complementari che migliorano la robustezza della profondità. DiMoDE, un framework generale per l'apprendimento congiunto di profondità e ego-motion che incorpora questi progetti, raggiunge prestazioni all'avanguardia su molteplici dataset pubblici e su un dataset reale appena raccolto e diversificato, in particolare in condizioni impegnative. Il nostro codice sorgente sarà pubblicamente disponibile su mias.group/DiMoDE dopo la pubblicazione.

Reg-DPO: Direct Preference Optimization con Regolarizzazione SFT e GT-Pair per Migliorare la Generazione Video
Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation

Nov 3

ByJie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang

Studi recenti hanno identificato l'Optimizzazione Diretta delle Preferenze (DPO) come un approccio efficiente e privo di ricompensa per migliorare la qualità della generazione video. Tuttavia, i metodi esistenti seguono in gran parte paradigmi propri del dominio delle immagini e sono sviluppati principalmente su modelli di piccola scala (circa 2 miliardi di parametri), limitando la loro capacità di affrontare le sfide uniche dei task video, come la costosa costruzione dei dati, l'addestramento instabile e l'elevato consumo di memoria. Per superare queste limitazioni, introduciamo una GT-Pair che costruisce automaticamente coppie di preferenza di alta qualità utilizzando video reali come positivi e video generati dal modello come negativi, eliminando la necessità di qualsiasi annotazione esterna. Presentiamo inoltre Reg-DPO, che incorpora la perdita SFT come termine di regolarizzazione nell'obiettivo DPO per migliorare la stabilità dell'addestramento e la fedeltà della generazione. Inoltre, combinando il framework FSDP con multiple tecniche di ottimizzazione della memoria, il nostro approccio raggiunge una capacità di addestramento quasi tre volte superiore rispetto all'uso del solo FSDP. Esperimenti estensivi su task sia di I2V che di T2V su diversi dataset dimostrano che il nostro metodo supera costantemente gli approcci esistenti, fornendo una qualità di generazione video superiore.