Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nel corso dell'era degli agenti intelligenti, il codice è emerso come un mezzo eseguibile e di precisione per il ragionamento e l'azione. Tuttavia, i progressi si sono concentrati prevalentemente su attività incentrate sul linguaggio, come la sintesi e il debugging di programmi, lasciando inesplorata la programmazione di tipo visivo. Ispirati dal modo in cui gli esseri umani ragionano sugli schizzi, proponiamo il codice SVG come rappresentazione visiva compatta, interpretabile ed eseguibile. Presentiamo VCode, un benchmark che riformula la comprensione multimodale come generazione di codice: dato un'immagine, un modello deve produrre SVG che preservi il significato simbolico per un ragionamento a valle. VCode copre tre domini: senso comune generale (MM-Vet), discipline professionali (MMMU) e percezione visivo-centrica (CV-Bench). Per valutare la fedeltà simbolica, proponiamo CodeVQA, un nuovo protocollo di valutazione in cui un modello policy risponde a domande sugli SVG renderizzati; le risposte corrette indicano una preservazione simbolica fedele. Empiricamente, i modelli linguistico-visivi (VLM) all'avanguardia faticano a generare SVG fedeli, rivelando un divario persistente tra la programmazione linguistica e quella visiva. Per colmare questa lacuna, introduciamo VCoder, un framework agente che potenzia i VLM lungo due assi: (i) *Pensare con Revisione*, che analizza iterativamente le discrepanze e affina il codice SVG; e (ii) *Agire con Strumenti Visivi*, dove rilevatori e parser forniscono suggerimenti strutturati come oggetti, forme e testo, oltre la capacità intrinseca del modello. Attraverso i benchmark, i VLM all'avanguardia con forti capacità di ragionamento ottengono punteggi complessivamente buoni, ma rimangono limitati nella conoscenza professionale e nel ragionamento 3D. VCoder garantisce un miglioramento complessivo di 12,3 punti rispetto al top performer Claude-4-Opus. Studi umani mostrano che sia gli esseri umani che i VLM performano peggio sugli SVG renderizzati; la loro coerenza, tuttavia, rivela la promessa della rappresentazione visiva simbolica. Il benchmark e il codice sono disponibili su https://github.com/CSU-JPG/VCode.
Il crescente successo dei modelli Visione-Linguaggio-Azione (VLA) deriva dalla promessa che i modelli Visione-Linguaggio (VLM) preaddestrati possano dotare gli agenti di conoscenza del mondo trasferibile e di una base di associazione visione-linguaggio (VL), gettando le fondamenta per modelli d'azione con una generalizzazione più ampia. Tuttavia, quando questi VLM vengono adattati alla modalità azione, rimane poco chiaro in quale misura le loro rappresentazioni e conoscenze VL originali vengano preservate. In questo lavoro, conduciamo uno studio sistematico sulla ritenzione delle rappresentazioni durante la messa a punto (fine-tuning) per VLA, dimostrando che una semplice messa a punto per l'azione porta a un degrado delle rappresentazioni visive. Per caratterizzare e misurare questi effetti, analizziamo le rappresentazioni nascoste dei modelli VLA e le mappe di attenzione; inoltre, progettiamo una serie di compiti mirati e metodi che confrontano i modelli VLA con le loro controparti VLM, isolando i cambiamenti nelle capacità VL indotti dalla messa a punto per l'azione. Valutiamo inoltre una gamma di strategie per allineare le rappresentazioni visive e introduciamo un metodo semplice ma efficace che mitiga il degrado e produce una migliore generalizzazione a scenari fuori distribuzione (OOD). Nel complesso, la nostra analisi chiarisce il compromesso tra la messa a punto per l'azione e il degrado delle rappresentazioni VL e mette in luce approcci pratici per recuperare le capacità VL ereditate. Il codice è pubblicamente disponibile: https://blind-vla-paper.github.io
Proponiamo MIRA, un nuovo benchmark progettato per valutare i modelli in scenari in cui la generazione di immagini visive intermedie è essenziale per un ragionamento efficace. A differenza dei metodi CoT tradizionali che si basano esclusivamente sul testo, i compiti in MIRA richiedono ai modelli di generare e utilizzare immagini intermedie - come schizzi, diagrammi strutturali o disegni di percorsi - per guidare il loro processo di ragionamento. Questa configurazione rispecchia fedelmente il modo in cui gli esseri umani risolvono problemi complessi attraverso il "disegnare per pensare". Per affrontare ciò, MIRA si concentra su compiti intrinsecamente impegnativi che coinvolgono strutture complesse, relazioni spaziali o passaggi di ragionamento difficili da esprimere solo tramite il linguaggio. Per garantire che i nostri dati di valutazione siano di alta qualità, includiamo 546 problemi multimodali, annotati con immagini visive intermedie e risposte finali. Proponiamo inoltre un protocollo di valutazione unificato per MIRA che si articola su tre livelli di input di valutazione: input diretto con solo immagine e domanda, input CoT solo testuale con immagine e prompt di pensiero, e input Visual-CoT con sia indizi visivi annotati che prompt di pensiero testuali. Per investigare il limite superiore della capacità dei modelli sul nostro benchmark, riportiamo anche le accuratezze pass@k e del voto di maggioranza sotto diverse impostazioni di k. I risultati sperimentali mostrano che gli attuali modelli linguistici multimodali di grandi dimensioni, inclusi i modelli privati più potenti e forti modelli open-weight, ottengono scarse performance quando si basano esclusivamente su prompt testuali. Tuttavia, quando vengono forniti indizi visivi intermedi, le prestazioni del modello migliorano costantemente, con un guadagno relativo medio del 33.7% su tutti i modelli e i compiti. Investigiamo inoltre il limite superiore espandendo lo spazio di ricerca e progettando prompt testuali allineati al Visual-CoT, ma entrambi gli approcci producono solo miglioramenti limitati rispetto alla nostra impostazione Visual-CoT. Questi risultati sottolineano il ruolo cruciale delle informazioni visive immaginate nel consentire un ragionamento efficace su MIRA.
Presentiamo Step-Audio-EditX, il primo modello audio open-source basato su LLM che eccelle nell'editing audio espressivo e iterativo, comprendente emozioni, stile di parlato e aspetti paralinguistici, unitamente a solide capacità zero-shot di sintesi vocale da testo (TTS). La nostra innovazione principale risiede nell'utilizzo esclusivo di dati sintetici a grande margine, che evita la necessità di pre-informazioni basate su embedding o moduli ausiliari. Questo approccio di apprendimento a grande margine consente sia un controllo iterativo che un'elevata espressività tra diverse voci, e rappresenta una svolta fondamentale rispetto al focus convenzionale sulla separazione a livello di rappresentazione. I risultati delle valutazioni dimostrano che Step-Audio-EditX supera sia MiniMax-2.6-hd che Doubao-Seed-TTS-2.0 nelle attività di modifica delle emozioni e in altri compiti di controllo fine-granulari.
I modelli linguistici multimodali di grandi dimensioni (MLLM) devono risolvere i conflitti quando diverse modalità forniscono informazioni contraddittorie, un processo che definiamo "modality following" (seguire la modalità). I lavori precedenti hanno misurato questo comportamento solo con statistiche grossolane a livello di dataset, trascurando l'influenza della fiducia del modello nel ragionamento unimodale. In questo articolo, introduciamo un nuovo framework che scompone il "modality following" in due fattori fondamentali: l'incertezza relativa del ragionamento (il divario di fiducia specifico per caso tra le previsioni unimodali) e la preferenza modale intrinseca (un bias stabile del modello quando le incertezze sono bilanciate). Per convalidare questo framework, costruiamo un dataset controllabile che varia sistematicamente la difficoltà di ragionamento degli input visivi e testuali. Utilizzando l'entropia come metrica di incertezza granulare, scopriamo una legge universale: la probabilità di seguire una modalità diminuisce monotonicamente all'aumentare della sua incertezza relativa. Al livello di difficoltà relativa in cui il modello tende a seguire entrambe le modalità con probabilità comparabile – ciò che chiamiamo punto di equilibrio – troviamo un indicatore pratico della preferenza intrinseca del modello. A differenza dei rapporti macro tradizionali, questa misura offre un modo più rigoroso e meno confuso per caratterizzare il bias modale, separandolo dalle capacità unimodali e dagli artefatti del dataset. Inoltre, sondando le previsioni strato per strato, riveliamo il meccanismo interno dell'oscillazione: nelle regioni ambigue vicino al punto di equilibrio, i modelli oscillano tra le modalità attraverso gli strati, spiegando l'indecisione osservata esternamente. Insieme, questi risultati stabiliscono l'incertezza relativa e la preferenza intrinseca come i due principi che governano il "modality following", offrendo sia un framework quantitativo che una comprensione meccanicistica di come gli MLLM risolvono le informazioni conflittuali.
La traiettoria dello sviluppo dell'intelligenza artificiale suggerisce che faremo sempre più affidamento su sistemi basati su agenti, composti da agenti sviluppati in modo indipendente con informazioni, privilegi e strumenti diversi. Il successo di questi sistemi dipenderà in modo cruciale da una collaborazione efficace tra questi agenti eterogenei, anche in condizioni di osservabilità parziale. Nonostante l'intenso interesse, pochi studi empirici hanno valutato su larga scala tale collaborazione agente-agente. Proponiamo un benchmark collaborativo per la risoluzione di labirinti che (i) isola le capacità collaborative, (ii) modula la complessità del problema, (iii) consente una valutazione automatizzata scalabile e (iv) non impone vincoli sul formato di output, preservando la plausibilità ecologica. Utilizzando questo framework, valutiamo 32 modelli leader open-source e closed-source in configurazioni singole, omogenee in coppia ed eterogenee in coppia. I nostri risultati rivelano un "divario collaborativo": i modelli che performano bene in solitario spesso si degradano sostanzialmente quando è richiesta la collaborazione. La collaborazione può interrompersi in modo drammatico; ad esempio, piccoli modelli distillati che risolvono bene i labirinti da soli possono fallire quasi completamente in determinate coppie. Scopriamo che iniziare con l'agente più forte spesso migliora i risultati, motivando un approccio di "inferenza a staffetta" in cui l'agente più forte guida per poi passare il compito a quello più debole, colmando gran parte del divario. Le nostre scoperte sostengono la necessità di (1) valutazioni che tengano conto della collaborazione, (2) strategie di addestramento sviluppate per potenziare le capacità collaborative e (3) una progettazione dell'interazione che evochi in modo affidabile le competenze latenti degli agenti, linee guida che si applicano sia alla collaborazione AI-AI che a quella umano-AI.
La ricostruzione di immagini viste da persone a partire dalle loro registrazioni fMRI cerebrali fornisce una finestra non invasiva sul cervello umano. Nonostante i recenti progressi resi possibili dai modelli di diffusione, i metodi attuali spesso mancano di fedeltà rispetto alle immagini effettivamente viste. Presentiamo "Brain-IT", un approccio ispirato al cervello che affronta questa sfida attraverso un Transformer per l'Interazione Cerebrale (BIT), consentendo interazioni efficaci tra cluster di voxel cerebrali funzionalmente simili. Questi cluster funzionali sono condivisi da tutti i soggetti e fungono da elementi costitutivi per integrare le informazioni sia all'interno che tra i cervelli. Tutti i componenti del modello sono condivisi da tutti i cluster e soggetti, consentendo un addestramento efficiente con una quantità limitata di dati. Per guidare la ricostruzione dell'immagine, BIT predice due caratteristiche di immagine localizzate a livello di patch, complementari: (i) caratteristiche semantiche di alto livello che indirizzano il modello di diffusione verso il corretto contenuto semantico dell'immagine; e (ii) caratteristiche strutturali di basso livello che aiutano a inizializzare il processo di diffusione con la corretta struttura generale dell'immagine. La progettazione di BIT consente un flusso diretto di informazioni dai cluster di voxel cerebrali alle caratteristiche di immagine localizzate. Attraverso questi principi, il nostro metodo ottiene ricostruzioni di immagini da fMRI che ricostruiscono fedelmente le immagini viste e supera gli approcci allo stato dell'arte sia visivamente che mediante metriche oggettive standard. Inoltre, con soli 1 ora di dati fMRI da un nuovo soggetto, otteniamo risultati paragonabili ai metodi attuali addestrati su registrazioni complete di 40 ore.
I grandi modelli linguistici (LLM) addestrati per il ragionamento passo-passo tendono spesso a diventare eccessivamente verbosi, aumentando i costi di inferenza. Le pipeline standard di Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) filtrano i problemi "facili" per l'efficienza dell'addestramento, lasciando che il modello si addestri principalmente su problemi più difficili che richiedono catene di ragionamento più lunghe. Ciò distorce la distribuzione della lunghezza dell'output verso l'alto, determinando un modello che confonde il "pensare più a lungo" con il "pensare meglio". In questo lavoro, dimostriamo che trattenere e aumentare moderatamente il peso dei problemi moderatamente facili funge da regolarizzatore implicito della lunghezza. Esporre il modello a compiti risolvibili con catene corte vincola la sua distribuzione di output e previene una verbosità incontrollata. Il risultato è una **brevità emergente a costo zero**: il modello impara a risolvere problemi più difficili senza gonfiare la lunghezza dell'output, nonostante l'assenza di qualsiasi penalizzazione esplicita della lunghezza. Esperimenti RLVR che utilizzano questo approccio su Qwen3-4B-Thinking-2507 (con un limite di 16k token) raggiungono l'accuratezza pass@1 baseline AIME25 generando soluzioni che sono, in media, quasi due volte più brevi. Il codice è disponibile su https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, con dataset e modelli su https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
I grandi modelli multimodali (LMM) soffrono spesso di una grave inefficienza inferenziale a causa dell'elevato numero di token visivi introdotti dagli encoder di immagini. Sebbene i recenti metodi di compressione dei token, come il pruning e la fusione, abbiano mostrato potenziale nel ridurre la ridondanza, la loro valutazione rimane frammentata e incoerente. In questo lavoro, presentiamo UniPruneBench, un benchmark unificato ed estendibile per il pruning di token visivi negli LLM multimodali. UniPruneBench fornisce protocolli standardizzati su sei dimensioni di abilità e dieci dataset, coprendo dieci algoritmi di compressione rappresentativi e tre famiglie di LMM (LLaVA-v1.5, Intern-VL3 e Qwen2.5-VL). Oltre all'accuratezza sul compito, incorpora metriche a livello di sistema come il tempo di esecuzione e la latenza di prefilling per fornire una visione olistica. I nostri esperimenti rivelano diverse scoperte chiave: (1) il pruning casuale è una baseline sorprendentemente solida, (2) nessun singolo metodo supera costantemente gli altri negli scenari, (3) la sensibilità al pruning varia significativamente tra i compiti, con l'OCR che è il più vulnerabile, e (4) il rapporto di pruning è il fattore dominante che governa il degrado delle prestazioni. Crediamo che UniPruneBench servirà come base affidabile per la futura ricerca sulla modellazione multimodale efficiente.
Gli attuali benchmark per la codifica valutano i modelli linguistici (LM) su compiti concreti e ben definiti, come correggere bug specifici o scrivere test mirati. Tuttavia, i programmatori umani non passano tutto il giorno ad affrontare incessantemente compiti isolati. Al contrario, lo sviluppo software nel mondo reale si basa sul perseguimento di obiettivi di alto livello, come migliorare la fidelizzazione degli utenti o ridurre i costi. Valutare se gli LM possano anche sviluppare codice in modo iterativo per raggiungere meglio obiettivi aperti, senza alcuna guida esplicita, rimane una sfida aperta. Per affrontare ciò, introduciamo CodeClash, un benchmark in cui gli LM competono in tornei a più round per costruire la codebase migliore per raggiungere un obiettivo competitivo. Ogni round procede in due fasi: gli agenti modificano il proprio codice, poi le loro codebase competono direttamente in un'arena di codice che determina i vincitori in base a obiettivi come la massimizzazione del punteggio, l'acquisizione di risorse o la sopravvivenza. Che si tratti di scrivere appunti, esaminare la documentazione, analizzare i log della competizione o creare suite di test, i modelli devono decidere autonomamente come migliorare le proprie codebase sia in assoluto che rispetto agli avversari. Eseguiamo 1680 tornei (25.200 round totali) per valutare 8 LM in 6 arene. I nostri risultati rivelano che, sebbene i modelli mostrino stili di sviluppo diversi, condividono limitazioni fondamentali nel ragionamento strategico. I modelli hanno anche difficoltà con la manutenzione a lungo termine della codebase, poiché i repository diventano progressivamente disordinati e ridondanti. Queste limitazioni sono nette: i modelli migliori perdono ogni round contro programmatori umani esperti. Rendiamo CodeClash open-source per far avanzare lo studio dello sviluppo di codice autonomo e orientato agli obiettivi.
I dati su larga scala hanno guidato progressi fondamentali nella robotica, passando da modelli linguistici a modelli visione-linguaggio-azione per la manipolazione bimanuale. Tuttavia, la robotica umanoide manca di framework di raccolta dati ugualmente efficaci. I sistemi di teleoperazione umanoide esistenti utilizzano un controllo disaccoppiato o dipendono da costose configurazioni di motion capture. Introduciamo TWIST2, un sistema portatile e privo di mocap per la teleoperazione umanoide e la raccolta dati che preserva il controllo completo del corpo intero, migliorando al contempo la scalabilità. Il nostro sistema sfrutta PICO4U VR per ottenere movimenti umani in tempo reale del corpo intero, con un collo robotico personalizzato a 2 gradi di libertà (costo circa 250 dollari) per la visione egocentrica, consentendo un controllo olistico da umano a umanoide. Dimostriamo abilità umanoidi mobili e destre su lunghi orizzonti temporali e possiamo raccogliere 100 dimostrazioni in 15 minuti con un tasso di successo quasi del 100%. Basandoci su questa pipeline, proponiamo un framework di policy visuomotoria gerarchica che controlla autonomamente l'intero corpo umanoide basandosi sulla visione egocentrica. La nostra policy visuomotoria dimostra con successo compiti di manipolazione agile del corpo intero e di calcio dinamico. L'intero sistema è completamente riproducibile e open-source all'indirizzo https://yanjieze.com/TWIST2. Il nostro dataset raccolto è anch'esso open-source all'indirizzo https://twist-data.github.io.
Gli attuali paradigmi di valutazione per i grandi modelli linguistici (LLM) rappresentano un punto cieco critico nella ricerca sull'IA, basandosi su metriche numeriche opache che nascondono limitazioni fondamentali nel ragionamento spaziale senza fornire una comprensione intuitiva delle capacità del modello. Questa carenza crea una pericolosa discrepanza tra le prestazioni riportate e le abilità pratiche, specialmente per applicazioni che richiedono la comprensione del mondo fisico. Introduciamo LTD-Bench, un benchmark rivoluzionario che trasforma la valutazione degli LLM da punteggi astratti a output visivi direttamente osservabili, richiedendo ai modelli di generare disegni attraverso matrici di punti o codice eseguibile. Questo approccio rende immediatamente evidenti le limitazioni del ragionamento spaziale anche ai non esperti, colmando il divario fondamentale tra prestazioni statistiche e valutazione intuitiva. LTD-Bench implementa una metodologia completa con task di generazione complementari (che testano l'immaginazione spaziale) e task di riconoscimento (che valutano la percezione spaziale) attraverso tre livelli di difficoltà progressivamente crescenti, valutando metodicamente entrambe le direzioni del critico mapping linguaggio-spazio. I nostri esperimenti estesi con modelli all'avanguardia rivelano un allarmante divario capacitivo: persino gli LLM che ottengono risultati impressionanti sui benchmark tradizionali dimostrano carenze profonde nell'stabilire mappature bidirezionali tra linguaggio e concetti spaziali - una limitazione fondamentale che mina il loro potenziale come veri modelli del mondo. Inoltre, gli output visivi di LTD-Bench abilitano potenti analisi diagnostiche, offrendo un approccio potenziale per investigare la similarità tra modelli.
Il test su macchine reali è indispensabile per gli algoritmi di controllo robotico. Nel contesto degli algoritmi basati sull'apprendimento, in particolare i modelli VLA, la necessità di una valutazione su larga scala, ovvero testare un gran numero di modelli su un ampio numero di compiti, sta diventando sempre più urgente. Tuttavia, implementare questo processo correttamente è estremamente complesso, specialmente quando si considerano scalabilità e riproducibilità. In questo rapporto, descriviamo la nostra metodologia per la costruzione di RoboChallenge, un sistema di valutazione online per testare algoritmi di controllo robotico, e la nostra indagine sui recenti modelli VLA allo stato dell'arte utilizzando il nostro benchmark iniziale Table30.
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in numerose applicazioni del mondo reale. Sebbene la stragrande maggioranza della ricerca condotta da una prospettiva sperimentale stia progredendo rapidamente, essa richiede ingenti risorse computazionali, dati e altre risorse. Pertanto, come aprire la scatola nera degli LLM da un punto di vista teorico è diventata una sfida cruciale. Questo articolo prende le mosse dalla teoria della funzione tasso-distorsione, dall'informazione diretta e dalla causalità di Granger per indagare i principi teorici dell'informazione alla base degli LLM, portando allo sviluppo di una teoria dell'informazione semantica per gli LLM, in cui l'unità fondamentale è il token, piuttosto che i bit che sono privi di significato semantico. Definendo il modello probabilistico degli LLM, discutiamo misure teoriche dell'informazione indipendenti dalla struttura, come la funzione tasso-distorsione diretta nel pre-addestramento, la funzione tasso-ricompensa diretta nel post-addestramento e il flusso di informazione semantica nella fase di inferenza. Questo articolo approfondisce anche la teoria dell'incorporamento semantico a livello di token e il metodo di vettorializzazione ottimo in senso teorico dell'informazione. Successivamente, proponiamo una definizione generale di LLM autoregressivo, dalla quale è possibile derivare teoricamente l'architettura Transformer e le sue prestazioni, come l'ELBO, il limite dell'errore di generalizzazione, la capacità di memoria e le misure di informazione semantica. Altre architetture, come Mamba/Mamba2 e LLaDA, sono anch'esse discusse nel nostro quadro. Di conseguenza, questo articolo fornisce un quadro teorico per comprendere gli LLM dalla prospettiva della teoria dell'informazione semantica, che offre anche gli strumenti teorici necessari per ulteriori ricerche approfondite.
Presentiamo iFlyBot-VLA, un modello su larga scala Visione-Linguaggio-Azione (VLA) addestrato con un framework innovativo. I principali contributi sono i seguenti: (1) un modello di azione latente addestrato approfonditamente su video su larga scala di manipolazioni umane e robotiche; (2) un framework di rappresentazione dell'azione a doppio livello che supervisiona congiuntamente sia il Modello Visione-Linguaggio (VLM) che l'esperto d'azione durante l'addestramento; (3) una strategia di addestramento mista che combina dati di traiettoria robotica con dataset generali di Domande-Risposte (QA) e di QA spaziale, potenziando efficacemente le capacità percettive 3D e di ragionamento del backbone VLM. Nello specifico, il VLM è addestrato a prevedere due forme complementari di azioni: azioni latenti, derivate dal nostro modello di azione latente pre-addestrato su dati di manipolazione cross-embodiment, che catturano intenzioni implicite di alto livello; e token d'azione discreti strutturati, ottenuti tramite trasformazioni nel dominio della frequenza di segnali di controllo continui, che codificano dinamiche esplicite di basso livello. Questa doppia supervisione allinea gli spazi di rappresentazione di linguaggio, visione e azione, consentendo al VLM di contribuire direttamente alla generazione delle azioni. I risultati sperimentali sul benchmark LIBERO Franka dimostrano la superiorità del nostro framework, mentre le valutazioni nel mondo reale mostrano ulteriormente che iFlyBot-VLA raggiunge tassi di successo competitivi in vari e impegnativi compiti di manipolazione. Inoltre, prevediamo di rendere open-source una parte del nostro dataset auto-costruito per supportare la ricerca futura nella comunità.
I modelli linguistici di grandi dimensioni hanno dimostrato prestazioni solide su molti benchmark di ragionamento consolidati. Tuttavia, questi benchmark valutano principalmente abilità strutturate come la risoluzione di problemi quantitativi, lasciando un vuoto nella valutazione di abilità di ragionamento flessibili e multifaccettate che sono centrali per l'intelligenza umana. Queste abilità richiedono l'integrazione della deduzione logica con la consapevolezza spaziale e la soddisfazione di vincoli, aspetti che le valutazioni attuali non misurano adeguatamente. Per colmare questa lacuna, presentiamo RiddleBench, un benchmark composto da 1.737 rompicapo complessi in inglese progettati per indagare queste capacità di ragionamento fondamentali. La valutazione dei modelli più all'avanguardia su RiddleBench rivela debolezze fondamentali. Anche i migliori modelli proprietari come Gemini 2.5 Pro, o3 e Claude 4 Sonnet raggiungono un'accuratezza di poco superiore al 60% (rispettivamente 60,30%, 63,37% e 63,16%). L'analisi rivela inoltre fallimenti profondi, tra cui cascate di allucinazioni (l'accettare ragionamenti errati provenienti da altri modelli) e una scarsa autocorrezione dovuta a un forte bias di auto-conferma. Il loro ragionamento è anche fragile, con prestazioni che si degradano significativamente quando i vincoli vengono riordinati o vengono introdotte informazioni irrilevanti. RiddleBench funge sia da strumento diagnostico per questi problemi che da risorsa per guidare lo sviluppo di modelli linguistici più robusti e affidabili.
I compiti complessi di comprensione dei grafici richiedono capacità avanzate di riconoscimento visivo e ragionamento da parte dei modelli linguistici multimodali di grandi dimensioni (MLLM). Tuttavia, la ricerca attuale fornisce una copertura limitata degli scenari di grafici complessi e dei compiti di ragionamento computazionalmente intensivi prevalenti nelle applicazioni del mondo reale. Questo studio propone una pipeline automatizzata multi-stadio guidata da codice per generare sistematicamente dataset di ragionamento visivo al fine di affrontare queste limitazioni. La pipeline integra la generazione aumentata dal recupero (RAG) per recuperare modelli di grafici professionali e impiega strategie a catena del pensiero (CoT) per generare codici di ragionamento che simulano distribuzioni di dati reali, guidando così il rendering dei grafici e i calcoli statistici relativi alle domande. Attraverso una valutazione basata su modelli, la pipeline migliora la diversità dei grafici e la qualità dei dati. Utilizzando questo framework, abbiamo costruito ChartM³, un dataset multidimensionale e multi-step contenente 38K grafici e 142K coppie di domande e risposte per l'addestramento, insieme a 2.871 campioni di valutazione di alta qualità per consentire una valutazione delle prestazioni pratica. Esperimenti di fine-tuning supervisionato (SFT) e di apprendimento per rinforzo (RL) dimostrano che il nostro dataset migliora significativamente le capacità di ragionamento e le prestazioni di generalizzazione cross-dominio, consentendo a modelli più piccoli di ottenere prestazioni paragonabili a modelli di scala maggiore nella comprensione di grafici complessi.
La comprensione e la previsione delle emozioni dai video ha ricevuto significativa attenzione negli studi recenti, guidata dai progressi nei modelli linguistici di grandi dimensioni per video (VideoLLM). Sebbene i metodi avanzati abbiano compiuto progressi nell'analisi delle emozioni video, la natura intrinseca delle emozioni pone sfide significative. Le emozioni sono caratterizzate da proprietà dinamiche e dipendenti da indizi, rendendo difficile comprendere stati emotivi complessi ed evolutivi con ragionamenti appropriati. Per affrontare queste sfide, proponiamo una nuova struttura di ragionamento guidata da indizi affettivi che unifica la percezione degli attributi fondamentali, l'analisi delle espressioni e la comprensione emotiva di alto livello in modo graduale. Al centro del nostro approccio c'è una famiglia di modelli fondazionali per le emozioni video (VidEmo), specificamente progettati per il ragionamento emotivo e il follow-up di istruzioni. Questi modelli subiscono un processo di ottimizzazione in due fasi: prima, un apprendimento emotivo curriculare per l'iniezione di conoscenze emotive, seguito da un apprendimento per rinforzo ad albero affettivo per il ragionamento emotivo. Inoltre, stabiliamo un'infrastruttura dati fondazionale e introduciamo un dataset granulare centrato sulle emozioni (Emo-CFG) composto da 2,1 milioni di campioni diversificati basati su istruzioni. Emo-CFG include domande-risposte emotive spiegabili, descrizioni granulari e ragionamenti associati, fornendo risorse essenziali per far avanzare i compiti di comprensione emotiva. I risultati sperimentali dimostrano che il nostro approccio raggiunge prestazioni competitive, stabilendo una nuova pietra miliare attraverso 15 compiti di percezione facciale.
In questo lavoro proponiamo LiveSecBench, un benchmark di sicurezza dinamico e in continuo aggiornamento, specificamente concepito per gli scenari applicativi degli LLM in lingua cinese. LiveSecBench valuta i modelli attraverso sei dimensioni critiche (Legalità, Etica, Correttezza fattuale, Privacy, Robustezza agli attacchi avversari e Sicurezza del ragionamento) radicate nei quadri giuridici e sociali cinesi. Questo benchmark mantiene la sua rilevanza attraverso un programma di aggiornamento dinamico che incorpora nuovi vettori di minaccia, come l'inclusione pianificata della Sicurezza nella Generazione da Testo a Immagine e della Sicurezza Agente nel prossimo aggiornamento. Attualmente, LiveSecBench (v251030) ha valutato 18 LLM, fornendo una panoramica della sicurezza dell'IA nel contesto della lingua cinese. La classifica è pubblicamente accessibile all'indirizzo https://livesecbench.intokentech.cn/.
Mentre il carico globale della malattia di Alzheimer (MA) continua ad aumentare, il rilevamento precoce e accurato è diventato sempre più cruciale, specialmente nelle regioni con accesso limitato a strumenti diagnostici avanzati. Proponiamo BRAINS (Biomedical Retrieval-Augmented Intelligence for Neurodegeneration Screening) per affrontare questa sfida. Questo sistema innovativo sfrutta le potenti capacità di ragionamento dei Large Language Model (LLM) per il rilevamento e il monitoraggio dell'Alzheimer. BRAINS presenta un'architettura a doppio modulo: un modulo di diagnostica cognitiva e un modulo di recupero casi. Il Modulo Diagnostico utilizza LLM addestrati su dataset cognitivi e di neuroimaging – inclusi punteggi MMSE, CDR e metriche del volume cerebrale – per eseguire valutazioni strutturate del rischio di Alzheimer. Nel frattempo, il Modulo di Recupero Casi codifica i profili dei pazienti in rappresentazioni latenti e recupera casi simili da una knowledge base curata. Questi casi ausiliari vengono fusi con il profilo di input tramite uno Stratto di Fusione Casi per migliorare la comprensione contestuale. La rappresentazione combinata viene poi elaborata con prompt clinici per l'inferenza. Le valutazioni su dataset del mondo reale dimostrano l'efficacia di BRAINS nella classificazione della gravità della malattia e nell'identificazione dei segni precoci del declino cognitivo. Questo sistema non solo mostra un forte potenziale come strumento di supporto per un rilevamento scalabile, spiegabile e in fase precoce della malattia di Alzheimer, ma offre anche speranza per future applicazioni in questo campo.
Gli attuali modelli linguistici di grandi dimensioni eccellono in compiti ampi e generalisti, ma forniscono costantemente prestazioni inferiori quando esposti a domini altamente specializzati che richiedono una profonda competenza culturale, linguistica e tematica. In particolare, i sistemi medici tradizionali come l'Ayurveda incarnano secoli di conoscenze testuali e cliniche sfumate che i modelli linguistici mainstream non riescono a interpretare o applicare con accuratezza. Presentiamo AyurParam-2.9B, un modello linguistico bilingue specializzato nel dominio, messo a punto a partire da Param-1-2.9B utilizzando un esteso dataset Ayurvedico curato da esperti, che abbraccia testi classici e linee guida cliniche. Il dataset di AyurParam incorpora domande e risposte di tipo contestuale, deduttivo e a scelta multipla in inglese e hindi, con protocolli di annotazione rigorosi per la precisione fattuale e la chiarezza espositiva. Valutato su BhashaBench-Ayur, AyurParam non solo supera tutti i modelli open-source addestrati per seguire istruzioni della sua classe dimensionale (1,5-3 miliardi di parametri), ma dimostra anche prestazioni competitive o superiori rispetto a modelli molto più grandi. I risultati di AyurParam evidenziano la necessità di un'autentica adattazione al dominio e di una supervisione di alta qualità per fornire un'intelligenza artificiale affidabile e culturalmente congrua per la conoscenza medica specialistica.
I modelli di diffusione text-to-image (T2I) hanno ottenuto prestazioni eccellenti nell'allineamento semantico, ma continuano a incontrare difficoltà nel generare il numero corretto di oggetti specificato nei prompt. Gli approcci esistenti incorporano tipicamente reti di conteggio ausiliarie come critici esterni per potenziare la capacità numerica. Tuttavia, poiché questi critici devono fornire una guida gradiente durante la generazione, sono limitati a modelli basati su regressione che sono intrinsecamente differenziabili, escludendo così i modelli basati su detector con capacità di conteggio superiore, la cui natura di conteggio-per-enumerazione è non differenziabile. Per superare questa limitazione, proponiamo Detector-to-Differentiable (D2D), un framework innovativo che trasforma modelli di detection non differenziabili in critici differenziabili, sfruttando così la loro superiore capacità di conteggio per guidare la generazione numerica. Nello specifico, progettiamo funzioni di attivazione personalizzate per convertire i logit del detector in indicatori binari soft, che vengono poi utilizzati per ottimizzare il prior di rumore al momento dell'inferenza con modelli T2I pre-addestrati. I nostri esperimenti approfonditi su SDXL-Turbo, SD-Turbo e Pixart-DMD, condotti su quattro benchmark di complessità variabile (scenari a bassa densità, alta densità e multi-oggetto), dimostrano miglioramenti consistenti e sostanziali nell'accuratezza del conteggio degli oggetti (ad esempio, un incremento fino al 13.7% su D2D-Small, un benchmark a bassa densità con 400 prompt), con un degrado minimo della qualità complessiva dell'immagine e del sovraccarico computazionale.
Il ragionamento complesso su dati tabellari è cruciale nell'analisi dei dati del mondo reale, tuttavia i grandi modelli linguistici (LLM) spesso forniscono prestazioni inferiori a causa di query complesse, dati rumorosi e capacità numeriche limitate. Per affrontare questi problemi, proponiamo \method, un framework costituito da: (1) un decompositore di query che scompone domande complesse, (2) un sanificatore di tabelle che pulisce e filtra tabelle rumorose, e (3) un ragionatore basato su programmi di pensiero (PoT) che genera codice eseguibile per derivare la risposta finale dalla tabella sanificata. Per garantire una valutazione imparziale e mitigare la fuga di dati, introduciamo un nuovo dataset, CalTab151, specificamente progettato per il ragionamento numerico complesso su tabelle. I risultati sperimentali dimostrano che \method supera costantemente i metodi esistenti, raggiungendo prestazioni state-of-the-art (SOTA) con un miglioramento dell'accuratezza dell'8,79%, 6,08% e 19,87% rispettivamente su TAT-QA, TableBench e \method. Inoltre, il nostro framework si integra perfettamente con gli LLM mainstream, fornendo una soluzione robusta per il ragionamento numerico tabellare complesso. Questi risultati evidenziano l'efficacia del nostro framework nel migliorare le prestazioni degli LLM per il ragionamento numerico tabellare complesso. Dati e codice sono disponibili su richiesta.
L'apprendimento non supervisionato della profondità e dell'ego-motion, due compiti fondamentali della percezione 3D, ha compiuto progressi significativi negli ultimi anni. Tuttavia, la maggior parte dei metodi tratta l'ego-motion come un compito ausiliario, mescolando tutti i tipi di movimento o escludendo i movimenti rotazionali indipendenti dalla profondità nella supervisione. Tali progetti limitano l'incorporazione di forti vincoli geometrici, riducendo l'affidabilità e la robustezza in condizioni diverse. Questo studio introduce un trattamento discriminativo delle componenti del movimento, sfruttando le regolarità geometriche dei loro rispettivi flussi rigidi per avvantaggiare sia la stima della profondità che dell'ego-motion. Date fotogrammi video consecutivi, le uscite della rete allineano prima gli assi ottici e i piani di imaging delle telecamere sorgente e target. I flussi ottici tra i fotogrammi vengono trasformati attraverso questi allineamenti, e le deviazioni sono quantificate per imporre vincoli geometrici individualmente su ogni componente dell'ego-motion, consentendo una raffinatura più mirata. Questi allineamenti riformulano ulteriormente il processo di apprendimento congiunto in forme coassiali e complanari, dove la profondità e ogni componente di traslazione possono essere reciprocamente derivati attraverso relazioni geometriche in forma chiusa, introducendo vincoli complementari che migliorano la robustezza della profondità. DiMoDE, un framework generale per l'apprendimento congiunto di profondità e ego-motion che incorpora questi progetti, raggiunge prestazioni all'avanguardia su molteplici dataset pubblici e su un dataset reale appena raccolto e diversificato, in particolare in condizioni impegnative. Il nostro codice sorgente sarà pubblicamente disponibile su mias.group/DiMoDE dopo la pubblicazione.
Studi recenti hanno identificato l'Optimizzazione Diretta delle Preferenze (DPO) come un approccio efficiente e privo di ricompensa per migliorare la qualità della generazione video. Tuttavia, i metodi esistenti seguono in gran parte paradigmi propri del dominio delle immagini e sono sviluppati principalmente su modelli di piccola scala (circa 2 miliardi di parametri), limitando la loro capacità di affrontare le sfide uniche dei task video, come la costosa costruzione dei dati, l'addestramento instabile e l'elevato consumo di memoria. Per superare queste limitazioni, introduciamo una GT-Pair che costruisce automaticamente coppie di preferenza di alta qualità utilizzando video reali come positivi e video generati dal modello come negativi, eliminando la necessità di qualsiasi annotazione esterna. Presentiamo inoltre Reg-DPO, che incorpora la perdita SFT come termine di regolarizzazione nell'obiettivo DPO per migliorare la stabilità dell'addestramento e la fedeltà della generazione. Inoltre, combinando il framework FSDP con multiple tecniche di ottimizzazione della memoria, il nostro approccio raggiunge una capacità di addestramento quasi tre volte superiore rispetto all'uso del solo FSDP. Esperimenti estensivi su task sia di I2V che di T2V su diversi dataset dimostrano che il nostro metodo supera costantemente gli approcci esistenti, fornendo una qualità di generazione video superiore.