Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Qwen3-VL, il modello visione-linguaggio più capace della serie Qwen fino ad oggi, che raggiunge prestazioni superiori su un'ampia gamma di benchmark multimodali. Supporta nativamente contesti interallacciati fino a 256K token, integrando perfettamente testo, immagini e video. La famiglia di modelli include sia varianti dense (2B/4B/8B/32B) che a miscela di esperti (30B-A3B/235B-A22B) per adattarsi a diversi compromessi latenza-qualità. Qwen3-VL si basa su tre pilastri fondamentali: (i) una comprensione del testo puro notevolmente più forte, che supera in diversi casi modelli backbone solo testo comparabili; (ii) una robusta comprensione del contesto lungo con una finestra nativa di 256K token sia per il testo che per gli input multimodali interallacciati, consentendo una fedele ritenzione, recupero e riferimento incrociato in documenti e video lunghi; e (iii) un ragionamento multimodale avanzato su compiti con singola immagine, immagini multiple e video, dimostrando prestazioni leader su valutazioni complete come MMMU e benchmark di matematica visuale (ad es. MathVista e MathVision). Architetturalmente, introduciamo tre miglioramenti chiave: (i) un MRoPE interallacciato potenziato per una modellizzazione spazio-temporale più forte tra immagini e video; (ii) l'integrazione di DeepStack, che sfrutta efficacemente le funzionalità ViT multi-livello per rafforzare l'allineamento visione-linguaggio; e (iii) l'allineamento temporale basato su testo per i video, che evolve dal T-RoPE a un esplicito allineamento con timestamp testuali per un ancoraggio temporale più preciso. Con budget di token e vincoli di latenza comparabili, Qwen3-VL raggiunge prestazioni superiori sia nelle architetture dense che in quelle a Miscela di Esperti (MoE). Prevediamo che Qwen3-VL servirà come motore fondamentale per il ragionamento basato su immagini, il processo decisionale agentivo e l'intelligenza del codice multimodale nei flussi di lavoro reali.
I modelli Vision-Language-Action (VLA), addestrati tramite obiettivi di flow-matching o diffusione, eccellono nell'apprendere comportamenti complessi da dataset su larga scala e multi-modali (ad esempio, teleoperazione umana, politiche scriptate). Tuttavia, poiché i VLA incorporano modalità di dati diverse nella fase di pre-addestramento, e il dataset di fine-tuning contiene spesso dati dimostrativi raccolti in modo cinematicamente subottimale o indesiderabile, esistono modalità d'azione ridondanti irrilevanti rispetto alle modalità d'azione di successo per il task a valle. Nello specifico, osserviamo una critica fragilità al momento dell'inferenza tra vari rumori campionati dopo il fine-tuning supervisionato di VLA pre-addestrati. In questo articolo, attribuiamo questa instabilità allo shift distributivo tra la politica del VLA e la politica indotta dalle modalità di successo stabili del dataset del task a valle. Pertanto, proponiamo TACO, un framework di test-time-scaling (TTS) che applica un stimatore di pseudo-conteggio leggero come verificatore ad alta fedeltà di chunk d'azione. I modelli VLA integrati con TACO possono eseguire le azioni con il massimo pseudo-conteggio tra tutti i chunk d'azione campionati, prevenendo così gli shift distributivi mentre si preserva l'abilità di generalizzazione dei VLA, poiché il vincolo è applicato solo durante l'inferenza. Il nostro metodo ricorda il classico principio anti-esplorazione nel reinforcement learning (RL) offline, e, essendo gradient-free, offre significativi vantaggi computazionali rispetto ad un aggiornamento RL, specialmente per i VLA basati su flusso o diffusione per i quali è difficile eseguire aggiornamenti RL a causa del processo di denoising. Esperimenti estensivi su quattro benchmark di simulazione (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) e su una piattaforma a due bracci dimostrano che il nostro metodo migliora significativamente la stabilità inferenziale e i tassi di successo negli adattamenti ai task a valle.
Imitare il comportamento umano per apprendere attivamente dall'esperienza generale e raggiungere l'intelligenza artificiale generale è sempre stato un sogno dell'umanità. I recenti modelli a pensiero esteso basati sul reinforcement learning (RL) dimostrano impressionanti abilità di livello esperto, ad esempio nel software e nella matematica, ma dipendono ancora fortemente da ricompense verificabili in domini specifici, creando un significativo collo di bottiglia per estendere i confini delle capacità di ragionamento generale. In questo lavoro, proponiamo PretrainZero, un framework di apprendimento attivo per rinforzo costruito sul corpus di pre-addestramento per estendere l'RL dal post-addestramento dominio-specifico al pre-addestramento generale. PretrainZero presenta le seguenti caratteristiche: 1) Pre-addestramento attivo: ispirato dalla capacità di apprendimento attivo umano, PretrainZero apprende una politica di ragionamento unificata per identificare attivamente contenuti ragionevoli e informativi dal corpus di pre-addestramento, e ragionare per prevedere tali contenuti tramite RL. 2) Apprendimento auto-supervisionato: senza etichette verificabili, modelli di ricompensa pre-addestrati o fine-tuning supervisionato, pre-addestriamo direttamente i ragionatori partendo da modelli base da 3 a 30B sul corpus generale di Wikipedia utilizzando l'RL, superando significativamente la barriera dei dati di verifica per il ragionamento generale. 3) Scalabilità della verifica: affrontando span mascherati progressivamente più complessi, PretrainZero potenzia sostanzialmente le abilità di ragionamento generale dei modelli base pre-addestrati. Nel pre-addestramento per rinforzo, PretrainZero migliora Qwen3-4B-Base di 8.43, 5.96 e 10.60 rispettivamente sui benchmark MMLU-Pro, SuperGPQA e sulla media matematica. Nel post-addestramento, i modelli pre-addestrati possono fungere anche da modelli fondamento per il ragionamento in compiti downstream di RLVR.
Comprendere le differenze visive tra scene dinamiche richiede la percezione comparativa di cambiamenti compositivi, spaziali e temporali, una capacità che rimane poco esplorata nei sistemi esistenti di visione e linguaggio. Sebbene i precedenti lavori sull'Image Difference Captioning (IDC) abbiano consentito ai modelli di descrivere cambiamenti semantici tra immagini statiche, questi approcci non riescono a catturare la continuità del movimento, l'evoluzione degli eventi o la coerenza delle modifiche nel tempo. Introduciamo il task ViDiC (Video Difference Captioning) e il corrispondente dataset ViDiC-1K, progettati per valutare la capacità dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM) di fornire descrizioni granulari delle somiglianze e differenze tra coppie di video. ViDiC-1K comprende 1.000 coppie di video selezionate, annotate con oltre 4.000 voci di checklist comparative, che coprono sette categorie: soggetto, stile, sfondo, cinematografia, movimento, location e tecniche di riproduzione. Per garantire una valutazione affidabile, proponiamo un framework a doppia checklist che misura separatamente l'accuratezza delle somiglianze e delle differenze, basato sul protocollo LLM-as-a-Judge. Esperimenti su diciannove modelli multimodali rappresentativi rivelano un divario prestazionale significativo nelle loro capacità di descrizione comparativa e percezione delle differenze. Speriamo che ViDiC-1K possa essere un benchmark impegnativo che getti solide basi per far progredire la comprensione video, la consapevolezza delle modifiche e il ragionamento comparativo nell'intelligenza multimodale.
L'apprendimento per rinforzo (RL) ha recentemente ottenuto un notevole successo nell'evocare ragionamento visivo all'interno dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM). Tuttavia, gli approcci esistenti tipicamente addestrano modelli separati per compiti diversi e trattano il ragionamento su immagini e video come domini disgiunti. Ciò risulta in una scalabilità limitata verso un generalista del ragionamento multimodale, il che restringe la versatilità pratica e ostacola la potenziale condivisione di conoscenze tra compiti e modalità. A tal fine, proponiamo OneThinker, un modello di ragionamento tutto-in-uno che unifica la comprensione di immagini e video attraverso diversi compiti visivi fondamentali, inclusi question answering, captioning, grounding spaziale e temporale, tracking e segmentazione. Per raggiungere questo obiettivo, costruiamo il corpus di addestramento OneThinker-600k che copre tutti questi compiti e impieghiamo modelli commerciali per l'annotazione CoT, ottenendo OneThinker-SFT-340k per un cold start SFT. Inoltre, proponiamo EMA-GRPO per gestire l'eterogeneità dei reward nel RL multi-task monitorando le medie mobili per-task delle deviazioni standard dei reward per un'ottimizzazione bilanciata. Esperimenti estesi su diversi benchmark visivi mostrano che OneThinker fornisce prestazioni solide su 31 benchmark, attraverso 10 compiti fondamentali di comprensione visiva. Inoltre, esso mostra un efficace trasferimento di conoscenza tra certi compiti e un'abilità preliminare di generalizzazione zero-shot, segnando un passo verso un generalista unificato del ragionamento multimodale. Tutto il codice, il modello e i dati sono rilasciati.
I modelli linguistici visivi (VLMs) dimostrano una forte comprensione visiva qualitativa, ma faticano nel ragionamento spaziale metricamente preciso richiesto per applicazioni embodied. Il paradigma agentico promette che i VLMs possano utilizzare un'ampia varietà di strumenti in grado di potenziare queste capacità, come stimatori di profondità, modelli di segmentazione e stimatori di posa. Tuttavia, rimane una sfida aperta come realizzare questa visione senza fare affidamento esclusivamente su strategie di prompt manualmente costruite o imporre pipeline di strumenti fisse e predefinite che limitano la capacità dei VLMs di scoprire pattern ottimali di utilizzo degli strumenti. Il Reinforcement Learning potrebbe colmare questa lacuna, ma finora è stato limitato al ragionamento con un singolo strumento visivo a causa del vasto spazio di ricerca nel ragionamento multi-strumento. Introduciamo il Double Interactive Reinforcement Learning (DIRL), un framework di addestramento a due fasi in cui i VLMs apprendono a coordinare più strumenti attraverso l'esplorazione interattiva e il feedback. Nella fase di insegnamento, combiniamo dimostrazioni da uno specialista di singolo strumento addestrato via RL interattivo con tracce da un modello all'avanguardia che utilizza tutti gli strumenti. Nella fase di esplorazione, il modello affina ulteriormente il coordinamento multi-strumento attraverso il RL continuato. Il nostro modello, SpaceTools, con capacità di ragionamento spaziale potenziato da strumenti, raggiunge prestazioni state-of-the-art su benchmark di comprensione spaziale (RoboSpatial-Home, BLINK, BOP-ASK) e dimostra un'affidabile manipuzione nel mondo reale utilizzando un robot a 7 gradi di libertà come strumento. DIRL fornisce miglioramenti sostanziali rispetto ai baseline vanilla SFT (+12% su RoboSpatial) e RL (+16% su RoboSpatial). Pagina del progetto: https://spacetools.github.io/.
Il raggiungimento di un allineamento preciso tra l'intento dell'utente e le immagini generate rimane una sfida centrale nella generazione di contenuti visivi da testo, poiché un singolo tentativo spesso non produce il risultato desiderato. Per gestire questo problema, gli approcci precedenti si concentrano principalmente sul ridimensionamento del processo di generazione visiva (ad esempio, aumentando i passaggi di campionamento o i seed), ma questo porta rapidamente a un plateau qualitativo. Questa limitazione sorge perché il prompt, cruciale per guidare la generazione, viene mantenuto fisso. Per affrontare la questione, proponiamo il Ridisegno del Prompt per il Ridimensionamento al momento dell'Inferenza, denominato PRIS, un framework che rivede adattivamente il prompt durante l'inferenza in risposta alle generazioni visive scalate. L'idea centrale di PRIS è esaminare le immagini generate, identificare modelli di errore ricorrenti tra di esse e ridisegnare di conseguenza il prompt prima di rigenerare le immagini con il prompt rivisto. Per fornire un feedback di allineamento preciso per la revisione del prompt, introduciamo un nuovo verificatore, la correzione fattuale a livello di elemento, che valuta l'allineamento tra gli attributi del prompt e le immagini generate a un livello di granularità fine, ottenendo valutazioni più accurate e interpretabili rispetto alle misure olistiche. Esperimenti estesi su benchmark di generazione testo-immagine e testo-video dimostrano l'efficacia del nostro approccio, incluso un miglioramento del 15% su VBench 2.0. Questi risultati evidenziano che il ridimensionamento congiunto dei prompt e dei contenuti visivi è la chiave per sfruttare appieno le leggi di scaling al momento dell'inferenza. Le visualizzazioni sono disponibili sul sito web: https://subin-kim-cv.github.io/PRIS.
Un modello mondiale veramente interattivo richiede tre elementi chiave: streaming in tempo reale a lungo termine, memoria spaziale coerente e controllo utente preciso. Tuttavia, la maggior parte degli approcci esistenti affronta solo uno di questi aspetti in isolamento, poiché raggiungere tutti e tre simultaneamente è estremamente impegnativo – ad esempio, i meccanismi di memoria a lungo termine spesso degradano le prestazioni in tempo reale. In questo lavoro, presentiamo RELIC, un framework unificato che affronta complessivamente queste tre sfide. Dati un singola immagine e una descrizione testuale, RELIC abilita l'esplorazione consapevole della memoria e di lunga durata di scene arbitrarie in tempo reale. Basandoci su recenti tecniche di distillazione di video-diffusion autoregressivi, il nostro modello rappresenta la memoria a lungo termine utilizzando token latenti storici altamente compressi, codificati con azioni relative e pose assolute della camera all'interno della KV cache. Questa struttura di memoria compatta e camera-aware supporta il recupero implicito di contenuti 3D-consistenti e impone una coerenza a lungo termine con un sovraccarico computazionale minimo. In parallelo, addestriamo con fine-tuning un modello insegnante video bidirezionale per generare sequenze oltre il suo originario orizzonte di addestramento di 5 secondi, e lo trasformiamo in un generatore studente causale utilizzando un nuovo paradigma di self-forcing efficiente in memoria che abilita la distillazione full-context su sequenze lunghe sia dell'insegnante che su auto-rollout prolungati dello studente. Implementato come modello da 14 miliardi di parametri e addestrato su un dataset curato renderizzato con Unreal Engine, RELIC raggiune una generazione in tempo reale a 16 FPS, dimostrando allo stesso tempo un follow-through delle azioni più accurato, uno streaming a lungo termine più stabile e un recupero della memoria spaziale più robusto rispetto ai lavori precedenti. Queste capacità stabiliscono RELIC come una solida base per la prossima generazione di modellazione mondiale interattiva.
I modelli linguistici multimodali (MLLM) che ragionano con le immagini possono utilizzare strumenti in modo interattivo per elaborare input visivi, ma gli approcci attuali si basano spesso su un insieme ristretto di strumenti con necessità e scalabilità reali limitate. In questo lavoro, riveliamo innanzitutto una critica e precedentemente trascurata debolezza: persino gli MLLM all'avanguardia sono sorprendentemente fragili, mostrando un significativo degrado delle prestazioni su immagini con semplici cambiamenti di orientamento o corruzioni naturali, sottolineando la necessità di un ragionamento basato su strumenti più robusto. Per affrontare questo problema, proponiamo CodeVision, un framework flessibile e scalabile in cui il codice funge da strumento universale, dove il modello genera codice come interfaccia universale per richiamare qualsiasi operazione sulle immagini, superando i registri di strumenti fissi. Addestriamo il nostro modello utilizzando una metodologia in due fasi, iniziando con un Fine-Tuning Supervisionato (SFT) su un dataset di alta qualità curato per composizione complessa e multi-turno di strumenti e recupero degli errori, seguito da Apprendimento per Rinforzo (RL) con una nuova e densa funzione di ricompensa di processo per incentivare un uso strategico ed efficiente degli strumenti. Per facilitare questa ricerca, costruiamo nuovi dataset per SFT e RL e introduciamo una nuova e impegnativa suite di benchmark progettata per valutare rigorosamente la robustezza ai cambiamenti di orientamento e il ragionamento multi-strumento. Esperimenti sulle serie Qwen2.5-VL e Qwen3-VL mostrano che il nostro approccio migliora significativamente le prestazioni del modello e favorisce capacità emergenti come la composizione flessibile degli strumenti, l'esecuzione concatenata efficiente e il robusto recupero degli errori dal feedback in tempo di esecuzione. Il codice è disponibile all'indirizzo https://github.com/ByteDance-BandAI/CodeVision.
I Normalizing Flow (NF) sono una classe di modelli generativi caratterizzati da un'architettura matematicamente invertibile, in cui il passaggio in avanti trasforma i dati in uno spazio latente per la stima della densità, mentre il passaggio inverso genera nuovi campioni da questo spazio. Questa caratteristica crea una sinergia intrinseca tra l'apprendimento di rappresentazioni e la generazione di dati. Tuttavia, la qualità generativa degli NF standard è limitata dalle scarse rappresentazioni semantiche derivanti dall'ottimizzazione della log-verosimiglianza. Per rimediare a ciò, proponiamo una nuova strategia di allineamento che sfrutta creativamente l'invertibilità degli NF: invece di regolarizzare il passaggio in avanti, allineiamo le caratteristiche intermedie del passaggio generativo (inverso) con le rappresentazioni di un potente modello base di visione, dimostrando un'efficacia superiore rispetto a un allineamento ingenuo. Introduciamo inoltre un nuovo algoritmo di ottimizzazione per la classificazione, esente da addestramento e operante al momento del test, che fornisce una valutazione più intrinseca della conoscenza semantica incorporata nell'NF. Esperimenti completi dimostrano che il nostro approccio accelera l'addestramento degli NF di oltre 3,3 volte, fornendo al contempo miglioramenti significativi sia nella qualità generativa che nell'accuratezza della classificazione. Sono stati stabiliti nuovi risultati state-of-the-art per gli NF su ImageNet 64x64 e 256x256. Il nostro codice è disponibile all'indirizzo https://github.com/MCG-NJU/FlowBack.
L'allineamento dei Large Language Model (LLM) con le preferenze umane si basa tipicamente su supervisione esterna, la quale presenta limitazioni critiche: le annotazioni umane sono scarse e soggettive, i modelli di ricompensa sono vulnerabili al reward hacking, e i metodi di autovalutazione soffrono di sensibilità ai prompt e di distorsioni. In questo lavoro, proponiamo lo stable rank, un segnale di qualità intrinseco e privo di annotazioni, derivato dalle rappresentazioni del modello. Lo stable rank misura la dimensionalità effettiva degli stati nascosti calcolando il rapporto tra la varianza totale e la varianza nella direzione dominante, catturando la qualità attraverso la modalità in cui l'informazione si distribuisce tra le dimensioni della rappresentazione. Empiricamente, lo stable rank raggiunge un'accuratezza dell'84.04% su RewardBench e migliora l'accuratezza del compito in media di 11.3 punti percentuali rispetto al greedy decoding tramite il campionamento Best-of-N. Sfruttando questa intuizione, introduciamo lo Stable Rank Group Relative Policy Optimization (SR-GRPO), che utilizza lo stable rank come segnale di ricompensa per l'apprendimento per rinforzo. Senza supervisione esterna, SR-GRPO migliora Qwen2.5-1.5B-Instruct del 10% su compiti STEM e del 19% sul ragionamento matematico, superando sia i modelli di ricompensa appresi che i baseline di autovalutazione. I nostri risultati dimostrano che segnali di qualità possono essere estratti dalla geometria interna del modello, offrendo una strada verso un allineamento scalabile senza supervisione esterna.
Sebbene le Neural Processing Unit (NPU) offrano un'elevata efficienza teorica per l'AI di edge, i modelli visione-linguaggio (VLM) all'avanguardia ottimizzati per le GPU spesso deludono su questi substrati. Attribuiamo questa incompatibilità hardware-modello a due fattori principali: la fragilità alla quantizzazione dei Vision Transformer (ViT) e la natura vincolata dall'I/O dei meccanismi di attenzione autoregressiva, che non riescono a sfruttare l'elevata velocità aritmetica delle NPU. Per colmare questa lacuna, proponiamo AutoNeural, un'architettura VLM nativa per NPU co-progettata per l'inferenza basata esclusivamente su numeri interi. Sostituiamo il codificatore ViT standard con un backbone di tipo MobileNetV5 che utilizza convoluzioni separabili in profondità, garantendo distribuzioni di attivazione limitate per una quantizzazione INT4/8/16 stabile. A complemento, il nostro backbone linguistico integra i principi dei State-Space Model (SSM) con i layer Transformer, impiegando convoluzioni gated efficienti per ottenere una complessità temporale lineare. Questo design ibrido elimina l'onere significativo di I/O della memoria associato alla cache Key-Value durante la generazione. Il nostro approccio fornisce sostanziali vantaggi in termini di efficienza, riducendo l'errore di quantizzazione del codificatore visivo fino a 7 volte e la latenza end-to-end di 14 volte rispetto ai baseline convenzionali. AutoNeural offre anche una velocità di decodifica 3 volte superiore e una finestra di contesto 4 volte più lunga rispetto al baseline. Convalidiamo questi miglioramenti attraverso un caso di studio automobilistico reale sul SoC Qualcomm SA8295P, dimostrando prestazioni in tempo reale per applicazioni di cockpit. I nostri risultati evidenziano come ripensare la topologia del modello specificamente per i vincoli delle NPU sia un prerequisito per un'intelligenza multi-modale robusta sull'edge.
La cucina è un’attività sequenziale e basata sull’aspetto visivo, in cui ogni fase, come tagliare, mescolare o friggere, possiede sia una logica procedurale che una semantica visiva. Sebbene i recenti modelli diffusion abbiano dimostrato notevoli capacità nella generazione di immagini da testo, faticano a gestire scenari strutturati a più fasi, come l’illustrazione di ricette. Inoltre, gli attuali metodi di illustrazione di ricette non sono in grado di adattarsi alla variabilità naturale della lunghezza delle ricette, generando un numero fisso di immagini indipendentemente dalla struttura effettiva delle istruzioni. Per affrontare queste limitazioni, presentiamo CookAnything, un framework flessibile e coerente basato su modelli diffusion, in grado di generare sequenze di immagini coerenti e semanticamente distinte a partire da istruzioni di cucina testuali di lunghezza arbitraria. Il framework introduce tre componenti chiave: (1) Step-wise Regional Control (SRC), che allinea i passaggi testuali con le corrispondenti regioni dell’immagine all’interno di un singolo processo di denoising; (2) Flexible RoPE, un meccanismo di codifica posizionale consapevole dei passaggi, che migliora sia la coerenza temporale che la diversità spaziale; e (3) Cross-Step Consistency Control (CSCC), che mantiene la coerenza fine degli ingredienti attraverso i vari passaggi. I risultati sperimentali su benchmark di illustrazione di ricette mostrano che CookAnything supera i metodi esistenti sia in contesti con training che senza training. Il framework proposto supporta una sintesi visiva scalabile e di alta qualità per istruzioni complesse a più passaggi e possiede un significativo potenziale per ampie applicazioni nei media didattici e nella creazione di contenuti procedurali.
Dal 2019, l'Hugging Face Model Hub è stata la principale piattaforma globale per la condivisione di modelli di IA con pesi aperti. Rilasciando un dataset della cronologia completa dei download settimanali dei modelli (giugno 2020-agosto 2025) insieme ai metadati dei modelli, forniamo l'analisi più rigorosa fino ad oggi delle dinamiche di concentrazione e delle caratteristiche in evoluzione nell'economia dei modelli aperti. La nostra analisi copre 851.000 modelli, oltre 200 attributi aggregati per modello e 2,2 miliardi di download. Documentiamo un riequilibrio fondamentale del potere economico: il dominio dell'industria statunitense dei pesi aperti da parte di Google, Meta e OpenAI è diminuito drasticamente a favore di sviluppatori indipendenti, organizzazioni comunitarie e, a partire dal 2025, dell'industria cinese, con i modelli DeepSeek e Qwen che potrebbero preannunciare una nuova consolidazione del potere di mercato. Identifichiamo cambiamenti statisticamente significativi nelle proprietà dei modelli, un aumento di 17 volte delle dimensioni medie dei modelli, una rapida crescita nella generazione multimodale (3,4 volte), nella quantizzazione (5 volte) e nelle architetture mixture-of-experts (7 volte), insieme a preoccupanti diminuzioni nella trasparenza dei dati, con i modelli a pesi aperti che hanno superato per la prima volta nel 2025 i modelli veramente open source. Mettiamo in luce un nuovo livello di intermediari dello sviluppo che è emerso, focalizzato sulla quantizzazione e l'adattamento dei modelli di base sia per l'efficienza che per l'espressione artistica. Per consentire la continuazione della ricerca e del monitoraggio, rilasciamo il dataset completo con una dashboard interattiva per il monitoraggio in tempo reale delle dinamiche di concentrazione e delle proprietà in evoluzione nell'economia dei modelli aperti.
Presentiamo Jina-VLM, un modello visione-linguaggio da 2,4 miliardi di parametri che raggiunge risultati all'avanguardia nel visual question answering multilingue tra i VLM open source di scala paragonabile (2B). Il modello combina un encoder visivo SigLIP2 con un backbone linguistico Qwen3 tramite un connettore a pooling d'attenzione che consente l'elaborazione efficiente di immagini a risoluzione arbitraria. Su benchmark VQA standard e valutazioni multilingue, Jina-VLM supera i modelli comparabili mantenendo prestazioni competitive in compiti puramente testuali.
La valutazione di modelli di allineamento immagine-testo come CLIP è fondamentale per colmare il divario tra rappresentazioni visive e linguistiche. Tuttavia, i benchmark esistenti si basano su perturbazioni basate su regole o didascalie brevi, limitando la loro capacità di misurare l'allineamento granulare. Presentiamo AlignBench, un benchmark che fornisce un nuovo indicatore di allineamento immagine-testo valutando coppie dettagliate immagine-didascalia generate da modelli diversificati di testo-immagine e immagine-testo. Ogni frase viene annotata per correttezza, consentendo una valutazione diretta dei VLM come valutatori di allineamento. Il benchmarking di un'ampia gamma di VLM basati su decoder rivela tre risultati chiave: (i) i modelli basati su CLIP, anche quelli ottimizzati per ragionamento composizionale, rimangono sostanzialmente ciechi; (ii) i rilevatori sovrastimano sistematicamente le frasi iniziali; e (iii) mostrano una forte autopreferenza, favoriscono i propri output e compromettono le prestazioni di rilevamento. La nostra pagina del progetto sarà disponibile all'indirizzo https://dahlian00.github.io/AlignBench/.
Introduciamo Doublespeak, un semplice attacco di dirottamento delle rappresentazioni in-context contro i grandi modelli linguistici (LLM). L'attacco funziona sostituendo sistematicamente una parola chiave dannosa (ad esempio, *bomba*) con un token benigno (ad esempio, *carota*) attraverso molteplici esempi in-context, forniti come prefisso a una richiesta dannosa. Dimostriamo che questa sostituzione porta alla convergenza della rappresentazione interna del token benigno verso quella di quello dannoso, incorporando efficacemente la semantica dannosa sotto un eufemismo. Di conseguenza, prompt superficialmente innocui (ad esempio, "Come costruire una carota?") vengono interpretati internamente come istruzioni non consentite (ad esempio, "Come costruire una bomba?"), eludendo così l'allineamento di sicurezza del modello. Utilizziamo strumenti di interpretabilità per mostrare che questa sovrascrittura semantica emerge strato per strato, con significati benigni negli strati iniziali che convergono in semantiche dannose in quelli successivi. Doublespeak è privo di ottimizzazioni, ampiamente trasferibile tra famiglie di modelli e raggiunge alti tassi di successo su sistemi open-source e a codice chiuso, toccando un ASR del 74% su Llama-3.3-70B-Instruct con un singolo override contestuale di una frase. I nostri risultati evidenziano una nuova superficie di attacco nello spazio latente degli LLM, rivelando che le attuali strategie di allineamento sono insufficienti e dovrebbero invece operare a livello rappresentazionale.
La distribuzione di modelli di grandi linguaggi (LLM) su piattaforme mobili affronta sfide significative a causa della memoria limitata e delle risorse computazionali condivise del dispositivo. La disponibilità delle risorse può rappresentare un problema poiché è direttamente influenzata dal carico di lavoro corrente del dispositivo, aumentando l'incertezza nella distribuzione del modello. Presentiamo UniQL, un framework unificato di quantizzazione post-addestramento e compressione low-rank con tassi di pruning configurabili sul dispositivo per LLM edge. UniQL è un framework generale che integra quantizzazione e compressione low-rank per Transformer, State Space Model (SSM) e modelli ibridi per supportare diverse applicazioni edge. Nel nostro framework congiunto proposto, introduciamo un efficiente metodo strutturato di ordinamento dei pesi che accelera il calcolo di 20 volte, una decomposizione ai valori singolari (SVD) quantization-aware per minimizzare gli errori di quantizzazione, un ordinamento dei pesi state-aware per SSM e un kernel fused per l'embedding posizionale rotazionale (RoPE) per modelli potati. Il nostro framework esegue l'ordinamento dei pesi, il fine-tuning e la quantizzazione nel cloud in un flusso di lavoro single-pass, consentendo al contempo tassi di pruning configurabili sul dispositivo fino al 35%. I nostri esperimenti mostrano che i modelli quantizzati e potati raggiungono una riduzione della memoria di 4x-5.7x e un miglioramento della token-throughput di 2.7x-3.4x, mantenendo un'accuratezza entro il 5% dei modelli originali con un pruning del 15% su Transformer (Llama3 e Qwen2.5), SSM (Mamba2) e modelli ibridi (Nemotron-H e Bamba-v2). Il codice e i modelli quantizzati sono disponibili all'indirizzo: https://github.com/enyac-group/UniQL.
I modelli di ragionamento che sfruttano lunghe catene di pensiero impiegano varie abilità cognitive, come la verifica delle proprie risposte, il backtracking, il riprovare con un metodo alternativo e altro ancora. Ricerche precedenti hanno dimostrato che quando un modello linguistico di base mostra queste abilità, un ulteriore addestramento di tale modello con l'apprendimento per rinforzo (RL) può imparare a sfruttarle. Come possiamo far sì che i modelli sfruttino abilità non mostrate dai modelli di base? Il nostro lavoro, SkillFactory, è un metodo per il fine-tuning dei modelli per apprendere approssimativamente queste abilità durante una fase di fine-tuning supervisionato (SFT) precedente all'RL. Il nostro approccio non si basa sulla distillazione da un modello più potente, ma utilizza invece campioni provenienti dal modello stesso, riorganizzati per fornire dati di addestramento nel formato di tali abilità. Queste tracce SFT "d'argento" possono essere imperfette, ma sono comunque efficaci per preparare un modello ad acquisire abilità durante l'RL. La nostra valutazione mostra che (1) partire da un'inizializzazione SFT con SkillFactory aiuta un modello a generalizzare verso varianti più difficili di un compito dopo l'RL, nonostante prestazioni inferiori prima dell'RL; (2) le abilità cognitive sono effettivamente utilizzate dal modello; (3) i modelli SkillFactory addestrati con RL sono più robusti alla regressione su compiti fuori dominio rispetto ai modelli di base addestrati con RL. Il nostro lavoro suggerisce che i bias induttivi appresi prima dell'RL aiutano i modelli ad apprendere un utilizzo robusto delle abilità cognitive.
L'applicazione dei Large Multimodal Models (LMM) alla comprensione di video di lunga durata è limitata dalla lunghezza limitata del contesto e dal costo computazionalmente proibitivo dell'elaborazione di token video densi. Di conseguenza, la ricerca recente si è concentrata sulla selezione di frame *query-aware*, metodi che spesso comportano un sovraccarico computazionale significativo. Questo articolo mette in discussione l'ipotesi che tali meccanismi di ricerca complessi siano universalmente necessari. In primo luogo, identifichiamo e convalidiamo una tipologia di query che distingue tra query globale e query localizzata. Dimostriamo che, mentre il campionamento uniforme è sia efficace che efficiente per le query globali, le query localizzate richiedono effettivamente una selezione *query-aware* per prestazioni ottimali. Basandoci su questa intuizione, proponiamo DIG, un framework di selezione dei frame che non richiede addestramento e che adatta la sua strategia in base al tipo di query. Nello specifico, DIG utilizza un efficiente campionamento uniforme per le query globali, attivando invece una pipeline specializzata per estrarre i frame rilevanti per la query in caso di query localizzate. Esperimenti su tre benchmark per la comprensione di video di lunga durata dimostrano che DIG supera costantemente i baseline esistenti e migliora in modo robusto le prestazioni degli LMM, anche quando il numero di frame in input viene scalato fino a 256.
I modelli visione-linguaggio (VLM) hanno ottenuto un notevole successo nei compiti di risposta a domande visive, ma la loro dipendenza da un gran numero di token visivi introduce un significativo sovraccarico computazionale. Sebbene gli approcci VLM efficienti esistenti riducano i token visivi attraverso una compressione a rapporto fisso, essi operano passivamente e mancano della capacità di adattarsi a requisiti di compito variabili. Ciò solleva una questione fondamentale: i VLM possono determinare autonomamente il numero minimo di token visivi richiesto per ogni campione? Ispirati dai meccanismi umani della visione attiva, introduciamo AdaptVision, un paradigma VLM efficiente che consente l'acquisizione adattiva di token visivi attraverso un approccio dal grossolano al fine. Il nostro modello elabora inizialmente token visivi compressi da immagini a bassa risoluzione e acquisisce selettivamente informazioni visive aggiuntive invocando uno strumento di bounding box per ritagliare le regioni chiave quando necessario. Addestriamo AdaptVision utilizzando un framework di apprendimento per rinforzo che bilancia accuratamente precisione ed efficienza. Centrale per il nostro approccio è l'Ottimizzazione della Politica a Turni Disaccoppiati (DTPO), che disaccoppia l'obiettivo di apprendimento in due componenti: (1) l'apprendimento dello strumento, che ottimizza il corretto utilizzo dello stesso, e (2) il miglioramento della precisione, che affina le risposte generate per migliorare la correttezza della risposta. Basandoci su questa formulazione, disaccoppiamo ulteriormente la stima del vantaggio calcolando vantaggi separati per i token associati a ciascun obiettivo. Questa formulazione consente un'ottimizzazione più efficace per AdaptVision rispetto al GRPO standard. Esperimenti completi su molteplici benchmark di VQA dimostrano che AdaptVision raggiunge prestazioni superiori consumando sostanzialmente meno token visivi rispetto ai metodi VLM efficienti allo stato dell'arte.
I modelli di diffusione mostrano potenziale per la deblurring di scene dinamiche; tuttavia, gli studi esistenti spesso non riescono a sfruttare la natura intrinseca del processo di sfocatura all'interno dei modelli di diffusione, limitandone il pieno potenziale. Per affrontare questo problema, presentiamo un Blur Diffusion Model (BlurDM), che integra perfettamente il processo di formazione dello sfocato nella diffusione per la deblurring delle immagini. Osservando che lo sfocamento da movimento deriva da un'esposizione continua, BlurDM modella implicitamente il processo di formazione dello sfocato attraverso uno schema forward a doppia diffusione, diffondendo sia rumore che sfocatura su un'immagine nitida. Durante il processo di generazione inversa, deriviamo una formulazione di doppia rimozione del rumore e deblurring, che consente a BlurDM di recuperare l'immagine nitida rimuovendo simultaneamente rumore e sfocatura, dato un rumore gaussiano puro condizionato dall'immagine sfocata come input. Inoltre, per integrare efficientemente BlurDM nelle reti di deblurring, eseguiamo BlurDM nello spazio latente, formando una rete di generazione di prior flessibile per la deblurring. Esperimenti estesi dimostrano che BlurDM migliora in modo significativo e consistente i metodi di deblurring esistenti su quattro dataset di benchmark. Il codice sorgente è disponibile all'indirizzo https://github.com/Jin-Ting-He/BlurDM.
I meccanismi di attenzione sono il cuore dei modelli fondazionali, ma la loro complessità quadratica rimane un collo di bottiglia critico per il scaling. Questa sfida ha guidato lo sviluppo di meccanismi di attenzione efficienti, con la sparsità emersa come paradigma dominante. I metodi attuali tipicamente conservano o scartano interi blocchi chiave-valore con maschere binarie, risultando in una sostanziale perdita di informazioni sotto alta sparsità. Per mitigare questo divario, presentiamo Pyramid Sparse Attention (PSA), un modulo versatile applicabile sia a compiti di comprensione che di generazione video. Invece del mascheramento binario, PSA introduce rappresentazioni KV poolate multi-livello, consentendo una granularità della maschera più fine. Nello specifico, ogni blocco di query assegna dinamicamente livelli di pooling inferiori ai blocchi KV critici e livelli superiori a quelli meno importanti, creando un'interpolazione informativa tra la ritenzione completa e la potatura totale. Questo design, analogo alla quantizzazione a punto fisso e alle reti piramidali classiche nella visione artificiale, mitiga efficacemente la perdita di informazioni preservando l'efficienza computazionale con un budget computazionale ridotto. Funziona con un kernel nativo e hardware-friendly che sfrutta un design block-tile disaccoppiato per garantire un'esecuzione efficiente. Sui benchmark di comprensione e generazione video, PSA preserva le informazioni contestuali e la fedeltà visiva, superando costantemente o raggiungendo prestazioni comparabili rispetto ai baseline di attenzione sparsa esistenti con trade-off efficienza-qualità superiori. Il nostro codice e i pesi del modello sono disponibili pubblicamente all'indirizzo: http://ziplab.co/PSA
La progettazione grafica costituisce la pietra angolare della comunicazione visiva moderna, rappresentando un mezzo vitale per promuovere eventi culturali e commerciali. I recenti progressi hanno esplorato l'automazione di questo processo mediante Large Multimodal Models (LMM), sebbene i metodi esistenti producano spesso layout geometricamente imprecisi e manchino della capacità di modifica iterativa e specifica per layer richiesta nei flussi di lavoro professionali. Per affrontare queste limitazioni, presentiamo PosterCopilot, un framework che avanza il ragionamento sul layout e l'editing controllabile per la progettazione grafica professionale. Nello specifico, introduciamo una strategia di addestramento progressiva a tre fasi che fornisce agli LMM la comprensione geometrica e il ragionamento estetico per il design del layout, composta da: Fine-Tuning Supervisionato con Perturbazione, Apprendimento per Rinforzo per l'Allineamento alla Realtà Visiva e Apprendimento per Rinforzo da Feedback Estetico. Inoltre, sviluppiamo un flusso di lavoro completo che combina il modello di design basato su LMM addestrato con modelli generativi, abilitando un editing iterativo e controllabile a livello di layer per il perfezionamento preciso degli elementi, mantenendo al contempo la coerenza visiva globale. Esperimenti estensivi dimostrano che PosterCopilot raggiunge layout geometricamente accurati ed esteticamente superiori, offrendo una controllabilità senza precedenti per il design iterativo professionale.
Introduciamo l'Adversarial Confusion Attack, una nuova classe di minacce contro i modelli linguistici multimodali di grandi dimensioni (MLLM). A differenza dei jailbreak o delle errata classificazione mirata, l'obiettivo è indurre un'interruzione sistematica che porti il modello a generare output incoerenti o decisamente errati. Le applicazioni pratiche includono l'incorporamento di tali immagini avversarie in siti web per impedire il funzionamento affidabile degli Agenti IA basati su MLLM. L'attacco proposto massimizza l'entropia del token successivo utilizzando un piccolo ensemble di MLLM open-source. In uno scenario white-box, dimostriamo che una singola immagine avversaria può perturbare tutti i modelli nell'ensemble, sia in contesti di immagine completa che di CAPTCHA avversario. Nonostante si basi su una tecnica avversaria di base (PGD), l'attacco genera perturbazioni che si trasferiscono sia a modelli open-source non visti in fase di sviluppo (ad es. Qwen3-VL) che a modelli proprietari (ad es. GPT-5.1).