Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il paradigma "Pensare con il Testo" e "Pensare con le Immagini" migliora significativamente le capacità di ragionamento dei Large Language Model (LLM) e dei Vision Language Model (VLM). Tuttavia, questi paradigmi presentano limitazioni intrinseche: (1) Le immagini catturano solo singoli momenti e non riescono a rappresentare processi dinamici o cambiamenti continui; (2) La separazione tra testo e visione come modalità distinte ostacola una comprensione e generazione multimodale unificata. Per superare queste limitazioni, introduciamo "Pensare con il Video", un nuovo paradigma che sfrutta modelli di generazione video, come Sora-2, per integrare il ragionamento visivo e testuale in un framework temporale unificato. Per supportare questa esplorazione, abbiamo sviluppato il Video Thinking Benchmark (VideoThinkBench). VideoThinkBench comprende due categorie di task: (1) task centrati sulla visione (ad es. Rompicapi Visivi), e (2) task centrati sul testo (ad es. sottoinsiemi di GSM8K, MMMU). La nostra valutazione stabilisce Sora-2 come un abile motore di ragionamento. Sui task centrati sulla visione, Sora-2 è generalmente comparabile ai VLM all'avanguardia (SOTA) e addirittura li supera in diversi task, come i Giochi di Osservazione. Sui task centrati sul testo, Sora-2 raggiunge una precisione del 92% su MATH e del 75.53% su MMMU. Inoltre, analizziamo sistematicamente l'origine di queste abilità. Troviamo anche che l'auto-consistenza e l'apprendimento in-context possono migliorare le prestazioni di Sora-2. In sintesi, i nostri risultati dimostrano che il modello di generazione video è il potenziale modello unificato per la comprensione e generazione multimodale, posizionando il "pensare con il video" come un paradigma unificato di ragionamento multimodale.
Consentire ai Large Multimodal Models (LMM) di integrare profondamente l'interazione con le immagini con capacità di ragionamento a lungo termine rimane una sfida di lunga data in questo campo. I recenti progressi nel ragionamento incentrato sulla visione esplorano un promettente paradigma di "Pensare con le Immagini" per gli LMM, segnando un passaggio dal ragionamento assistito dalle immagini al pensiero interattivo con le immagini. Sebbene questa pietra miliare consenta ai modelli di concentrarsi su regioni di immagine a grana fine, i progressi rimangono limitati da spazi di strumenti visivi ridotti e da progetti di flusso di lavoro specifici per task. Per colmare questa lacuna, presentiamo V-Thinker, un assistente multimodale per il ragionamento a scopo generale che abilita un pensiero interattivo e incentrato sulla visione attraverso l'apprendimento per rinforzo end-to-end. V-Thinker comprende due componenti chiave: (1) una Volano di Evoluzione dei Dati che sintetizza, evolve e verifica automaticamente dataset di ragionamento interattivo lungo tre dimensioni - diversità, qualità e difficoltà; e (2) un Curriculum di Addestramento Progressivo Visivo che prima allinea la percezione tramite supervisione a livello di punto, per poi integrare il ragionamento interattivo attraverso un framework di apprendimento per rinforzo a due stadi. Inoltre, introduciamo VTBench, un benchmark verificato da esperti mirato a task di ragionamento interattivo incentrati sulla visione. Esperimenti estensivi dimostrano che V-Thinker supera costantemente baseline solide basate su LMM sia in scenari di ragionamento generale che interattivo, fornendo spunti preziosi per far avanzare le applicazioni di ragionamento interattivo con le immagini.
Sebbene l'apprendimento per rinforzo (RL) possa potenziare gli agenti basati su grandi modelli linguistici (LLM) consentendo l'auto-miglioramento attraverso l'interazione, la sua adozione pratica rimane impegnativa a causa dei rollout costosi, della limitata diversità dei compiti, dei segnali di ricompensa inaffidabili e della complessità infrastrutturale, tutti fattori che ostacolano la raccolta di dati esperienziali scalabili. Per affrontare queste sfide, introduciamo DreamGym, il primo framework unificato progettato per sintetizzare esperienze diversificate con scalabilità in mente, al fine di abilitare un efficace addestramento RL online per agenti autonomi. Invece di affidarsi a costosi rollout in ambienti reali, DreamGym distilla le dinamiche ambientali in un modello esperienziale basato sul ragionamento che deriva transizioni di stato coerenti e segnali di feedback attraverso un ragionamento passo-passo, consentendo una raccolta scalabile di rollout dell'agente per l'RL. Per migliorare la stabilità e la qualità delle transizioni, DreamGym sfrutta un buffer di replay esperienziale inizializzato con dati offline del mondo reale e continuamente arricchito con nuove interazioni per supportare attivamente l'addestramento dell'agente. Per migliorare l'acquisizione di conoscenza, DreamGym genera in modo adattivo nuovi compiti che sfidano la politica corrente dell'agente, abilitando un apprendimento curriculare online più efficace. Esperimenti condotti in vari ambienti e con diverse architetture di agenti dimostrano che DreamGym migliora sostanzialmente l'addestramento RL, sia in contesti completamente sintetici che in scenari di trasferimento sim-to-real. Su compiti non pronti per l'RL come WebArena, DreamGym supera tutte le baseline di oltre il 30%. E in contesti pronti per l'RL ma costosi, eguaglia le prestazioni di GRPO e PPO utilizzando esclusivamente interazioni sintetiche. Quando si trasferisce una politica addestrata puramente su esperienze sintetiche all'RL in ambiente reale, DreamGym produce significativi guadagni prestazionali aggiuntivi richiedendo molte meno interazioni nel mondo reale, fornendo una strategia di warm-start scalabile per l'RL a scopo generale.
Sosteniamo che il progresso verso una vera intelligenza multimodale richieda un allontanamento dai sistemi reattivi e orientati al compito, nonché dall'approccio basato sulla forza bruta di contesti lunghi, verso un paradigma più ampio di *supersensing* (super-percezione). Inquadriamo il *supersensing* spaziale in quattro fasi che vanno oltre la comprensione puramente linguistica: percezione semantica (denominare ciò che si vede), cognizione degli eventi in streaming (mantenere la memoria attraverso esperienze continue), cognizione spaziale 3D implicita (inferire il mondo dietro i pixel) e modellazione predittiva del mondo (creare modelli interni che filtrano e organizzano le informazioni). Gli attuali benchmark testano per lo più solo le fasi iniziali, offrendo una copertura limitata della cognizione spaziale e mettendo raramente alla prova i modelli in modi che richiedono una vera modellazione del mondo. Per favorire il progresso nel *supersensing* spaziale, presentiamo VSI-SUPER, un benchmark composto da due parti: VSR (richiamo visivo spaziale a lungo orizzonte) e VSC (conteggio visivo spaziale continuo). Questi compiti richiedono input video di lunghezza arbitraria, ma sono resistenti all'espansione del contesto tramite forza bruta. Testiamo quindi i limiti del *data scaling* curando VSI-590K e addestrando Cambrian-S, ottenendo un miglioramento assoluto del +30% su VSI-Bench senza sacrificare le capacità generali. Tuttavia, le prestazioni su VSI-SUPER rimangono limitate, indicando che la scala da sola è insufficiente per il *supersensing* spaziale. Proponiamo la *predictive sensing* (percezione predittiva) come percorso futuro, presentando una prova di concetto in cui un predittore auto-supervisionato del *next-latent-frame* sfrutta la sorpresa (errore di predizione) per guidare la memoria e la segmentazione degli eventi. Su VSI-SUPER, questo approccio supera sostanzialmente i principali baseline proprietari, dimostrando che il *supersensing* spaziale richiede modelli che non solo vedono, ma anche anticipano, selezionano e organizzano l'esperienza.
Presentiamo Nemotron Nano V2 VL, l'ultimo modello della serie Nemotron vision-language, progettato per una solida comprensione di documenti reali, la comprensione di video lunghi e compiti di ragionamento. Nemotron Nano V2 VL offre miglioramenti significativi rispetto al nostro modello precedente, Llama-3.1-Nemotron-Nano-VL-8B, in tutti i domini visivi e testuali, grazie a importanti potenziamenti nell'architettura del modello, nei dataset e nelle ricette di addestramento. Nemotron Nano V2 VL si basa su Nemotron Nano V2, un LLM ibrido Mamba-Transformer, e su innovative tecniche di riduzione dei token per ottenere un throughput inferenziale più elevato in scenari con documenti e video lunghi. Rilasciamo checkpoint del modello nei formati BF16, FP8 e FP4 e condividiamo ampie parti dei nostri dataset, delle ricette e del codice di addestramento.
L'ipotesi del biglietto della lotteria forte (SLTH) ipotizza che in reti neurali inizializzate casualmente siano presenti sottoreti ad alte prestazioni, denominate biglietti della lotteria forti (SLT). Sebbene studi teorici recenti abbiano stabilito la validità della SLTH per varie architetture neurali, la SLTH per le architetture di transformer manca ancora di una comprensione teorica. In particolare, l'attuale teoria della SLTH non tiene ancora conto del meccanismo di multi-head attention (MHA), un componente fondamentale dei transformer. Per colmare questa lacuna, introduciamo un'analisi teorica dell'esistenza di SLT all'interno dei MHA. Dimostriamo che, se un MHA inizializzato casualmente con H teste e dimensione di input d ha una dimensione nascosta O(dlog(Hd^{3/2})) per la chiave e il valore, esso contiene con alta probabilità uno SLT che approssima un MHA arbitrario con la stessa dimensione di input. Inoltre, sfruttando questa teoria per i MHA, estendiamo la SLTH a transformer senza layer di normalizzazione. Convalidiamo empiricamente i nostri risultati teorici, dimostrando che l'errore di approssimazione tra lo SLT all'interno di un modello sorgente (MHA e transformer) e una sua controparte target approssimata diminuisce esponenzialmente all'aumentare della dimensione nascosta del modello sorgente.
Introduciamo GUI-360°, un dataset su larga scala e completo, insieme a una suite di benchmark, progettati per far progredire gli agenti che utilizzano il computer (CUA). I CUA presentano sfide uniche e sono limitati da tre lacune persistenti: la scarsità di compiti CUA del mondo reale, la mancanza di pipeline automatizzate di raccolta e annotazione per traiettorie multimodali e l'assenza di un benchmark unificato che valuti congiuntamente il grounding dell'interfaccia grafica (GUI), il parsing dello schermo e la previsione delle azioni. GUI-360° affronta queste lacune con una pipeline potenziata da LLM e largamente automatizzata per il reperimento di query, la costruzione di template ambientali, l'istanziazione di compiti, l'esecuzione in batch e il filtraggio qualitativo guidato da LLM. Il corpus rilasciato contiene oltre 1,2 milioni di passi d'azione eseguiti attraverso migliaia di traiettorie in popolari applicazioni office per Windows e include screenshot a piena risoluzione, metadati di accessibilità quando disponibili, obiettivi istanziati, tracce di ragionamento intermedie e traiettorie d'azione sia riuscite che fallite. Il dataset supporta tre compiti canonici - grounding della GUI, parsing dello schermo e previsione delle azioni - e uno spazio d'azione ibrido GUI+API che riflette i progetti moderni di agenti. Il benchmarking di modelli stato dell'arte visione-linguaggio su GUI-360° rivela carenze sostanziali pronte all'uso nel grounding e nella previsione delle azioni; la messa a punto supervisionata e l'apprendimento per rinforzo producono miglioramenti significativi ma non colmano il divario con l'affidabilità di livello umano. Rilasciamo GUI-360° e il codice associato per facilitare la ricerca riproducibile e accelerare i progressi verso CUA desktop robusti. Il dataset completo è stato reso pubblico su https://huggingface.co/datasets/vyokky/GUI-360.
I recenti progressi nei Modelli Visione-Linguaggio (VLM) hanno raggiunto prestazioni all'avanguardia in numerosi task di benchmark. Tuttavia, l'utilizzo di corpora di pre-addestramento su scala internet, spesso proprietari, solleva una preoccupazione critica sia per i professionisti che per gli utenti: performance inflazionate a causa della contaminazione dei dati di test. Sebbene lavori precedenti abbiano proposto strategie di mitigazione come la decontaminazione dei dati di pre-addestramento e la riprogettazione dei benchmark per gli LLM, la direzione complementare dello sviluppo di metodi di rilevamento per VLM contaminati rimane poco esplorata. Per colmare questa lacuna, contaminiamo deliberatamente VLM open-source su benchmark popolari e dimostriamo che gli approcci di rilevamento esistenti falliscono completamente o mostrano comportamenti inconsistenti. Proponiamo quindi un nuovo metodo di rilevamento semplice ma efficace basato sulla perturbazione semantica multimodale, dimostrando che i modelli contaminati non riescono a generalizzare sotto perturbazioni controllate. Infine, convalidiamo il nostro approccio su molteplici strategie di contaminazione realistiche, confermandone robustezza ed efficacia. Il codice e il dataset perturbato saranno rilasciati pubblicamente.
I benchmark robusti sono cruciali per valutare i Modelli Linguistici Multimodali di Grande Dimensione (MLLM). Tuttavia, riscontriamo che i modelli possono eccellere in molti benchmark multimodali senza una forte comprensione visiva, sfruttando invece bias, preconcetti linguistici e pattern superficiali. Ciò è particolarmente problematico per i benchmark incentrati sulla visione, concepiti per richiedere input visivi. Adottiamo un principio diagnostico per la progettazione dei benchmark: se un benchmark può essere aggirato, lo sarà. I progettisti dovrebbero quindi tentare di "aggirare" i propri benchmark per primi, utilizzando procedure diagnostiche e di debiasing per identificare e mitigare sistematicamente i bias non visivi. Una diagnosi efficace richiede di "addestrare direttamente sul set di test" – sondando il set di test rilasciato per i suoi pattern intrinseci e sfruttabili. Operazionalizziamo questo standard con due componenti. Primo, diagnostichiamo la suscettibilità del benchmark utilizzando una metodologia di "Stress-Test sul Set di Test" (TsT). Il nostro principale strumento diagnostico prevede il fine-tuning di un potente Modello Linguistico di Grande Dimensione tramite convalida incrociata k-fold esclusivamente sugli input testuali non visivi del set di test, per rivelare le performance ottenute con scorciatoie e assegnare a ciascun campione un punteggio di bias s(x). Affianchiamo a ciò uno strumento diagnostico leggero basato su Random Forest che opera su feature create manualmente per un'audit rapido e interpretabile. Secondo, applichiamo il debiasing ai benchmark filtrando i campioni ad alto bias utilizzando una procedura di "Potatura Iterativa del Bias" (IBP). Applicando questo framework a quattro benchmark – VSI-Bench, CV-Bench, MMMU e VideoMME – scopriamo bias non visivi pervasivi. Come caso di studio, applichiamo il nostro framework completo per creare VSI-Bench-Debiased, dimostrando una ridotta risolvibilità non visiva e un divario di performance più ampio per i modelli privi di visione rispetto all'originale.
I modelli di sistema emergenti per i Large Language Model (LLM), come l'inferenza disaggregata, il routing Mixture-of-Experts (MoE) e il fine-tuning asincrono per rinforzo, richiedono una comunicazione punto-a-punto flessibile che va oltre i semplici collettivi. Le implementazioni esistenti sono vincolate a specifici Network Interface Controller (NIC), ostacolando l'integrazione nei motori di inferenza e la portabilità tra diversi fornitori di hardware. Presentiamo TransferEngine, che collega la funzionalità dei NIC comuni per esporre un'interfaccia uniforme. TransferEngine espone operazioni WriteImm unilaterali con un primitivo ImmCounter per la notifica del completamento, senza assunzioni di ordinamento del trasporto di rete, gestendo in modo trasparente più NIC per GPU. Dimostriamo una velocità di picco di 400 Gbps sia su NVIDIA ConnectX-7 che su AWS Elastic Fabric Adapter (EFA). Mostriamo TransferEngine attraverso tre sistemi di produzione: (1) trasferimento della KvCache per inferenza disaggregata con scalabilità dinamica, (2) aggiornamenti dei pesi per RL che raggiungono 1,3 secondi per modelli con trilioni di parametri, e (3) un'implementazione di dispatch/combine per MoE che supera la latenza di decodifica di DeepEP su ConnectX-7, con le prime latenze pratiche su EFA. Dimostriamo che la nostra comunicazione punto-a-punto portabile complementa i collettivi evitando al contempo il vendor lock-in.
Proponiamo EVTAR, un modello di Virtual Try-on End-to-End con Riferimento Aggiuntivo, che adatta direttamente il capo di abbigliamento target sull'immagine della persona incorporando immagini di riferimento per migliorare l'accuratezza del provino virtuale. La maggior parte degli approcci esistenti si basa su input complessi come immagini agnostiche della persona, pose umane, densepose o punti chiave del corpo, rendendoli laboriosi e impraticabili per applicazioni nel mondo reale. Al contrario, EVTAR adotta una strategia di addestramento a due stadi, che consente un'inferenza semplice con i soli input dell'immagine sorgente e del capo target. Il nostro modello genera risultati di try-on senza maschere, densepose o mappe di segmentazione. Inoltre, EVTAR sfrutta immagini di riferimento aggiuntive di individui diversi che indossano gli stessi vestiti per preservare meglio la texture del capo e i dettagli fini. Questo meccanismo è analogo al modo in cui gli esseri umani considerano i modelli di riferimento quando scelgono gli outfit, simulando così un effetto di vestizione più realistico e di alta qualità. Arricchiamo i dati di addestramento con riferimenti supplementari e immagini di persone non abbinate per supportare queste capacità. Valutiamo EVTAR su due benchmark ampiamente utilizzati e su diverse attività, e i risultati convalidano costantemente l'efficacia del nostro approccio.
Nonostante l'impressionante capacità di comprensione video di alto livello, i modelli linguistici multimodali mostrano difficoltà nel ragionamento spaziale attraverso il tempo e lo spazio. Sebbene gli attuali approcci di addestramento spaziale si basino su dati video del mondo reale, ottenere filmati diversificati con annotazioni spaziali precise rimane un collo di bottiglia. Per alleviare questo problema, presentiamo SIMS-V – un framework sistematico di generazione dati che sfrutta le informazioni privilegiate dei simulatori 3D per creare dati di addestramento video spazialmente ricchi per modelli linguistici multimodali. Utilizzando questo framework, indaghiamo quali proprietà dei dati simulati guidano un trasferimento efficace nel mondo reale attraverso ablazioni sistematiche di tipi di domande, mix e scale. Identifichiamo un insieme minimo di tre categorie di domande (misurazione metrica, ragionamento dipendente dalla prospettiva e tracking temporale) che si rivelano più efficaci per sviluppare un'intelligenza spaziale trasferibile, superando la copertura completa nonostante l'uso di meno tipi di domande. Queste intuizioni consentono un addestramento altamente efficiente: il nostro video LLM da 7B di parametri addestrato su soli 25K esempi simulati supera il baseline più grande da 72B e raggiunge prestazioni competitive con modelli proprietari su rigorosi benchmark di ragionamento spaziale del mondo reale. Il nostro approccio dimostra una robusta generalizzazione, mantenendo le prestazioni sulla comprensione video generale mentre mostra miglioramenti sostanziali su compiti spaziali embodied e del mondo reale.
La valutazione automatica dei sistemi di traduzione parlato-testo (ST) viene tipicamente effettuata confrontando le ipotesi di traduzione con una o più traduzioni di riferimento. Sebbene efficace in una certa misura, questo approccio eredita la limitazione della valutazione basata su riferimento, che ignora informazioni preziose provenienti dall'input sorgente. Nella traduzione automatica (MT), i recenti progressi hanno dimostrato che le metriche neurali che incorporano il testo sorgente raggiungono una correlazione più forte con i giudizi umani. Estendere questa idea allo ST, tuttavia, non è banale perché la sorgente è audio anziché testo, e trascrizioni affidabili o allineamenti tra sorgente e riferimenti sono spesso non disponibili. In questo lavoro, conduciamo il primo studio sistematico sulle metriche consapevoli della sorgente per lo ST, con un particolare focus sulle condizioni operative del mondo reale in cui le trascrizioni sorgente non sono disponibili. Esploriamo due strategie complementari per generare proxy testuali dell'audio di input: le trascrizioni del riconoscimento vocale automatico (ASR) e le back-traduzioni della traduzione di riferimento, e introduciamo un nuovo algoritmo di risegmentazione cross-linguale in due fasi per affrontare il disallineamento tra le sorgenti sintetiche e le traduzioni di riferimento. I nostri esperimenti, condotti su due benchmark ST che coprono 79 coppie linguistiche e sei sistemi ST con architetture e livelli di prestazione diversi, mostrano che le trascrizioni ASR costituiscono una sorgente sintetica più affidabile delle back-traduzioni quando il tasso di errore sulle parole è inferiore al 20%, mentre le back-traduzioni rappresentano sempre un'alternativa computazionalmente più economica ma comunque efficace. Inoltre, il nostro algoritmo di risegmentazione cross-linguale consente un uso robusto delle metriche MT consapevoli della sorgente nella valutazione ST, aprendo la strada verso metodologie di valutazione per la traduzione parlato-testo più accurate e basate su principi solidi.
Il calcio umanoide rappresenta una sfida rappresentativa per l'intelligenza incarnata, richiedendo ai robot di operare all'interno di un ciclo percezione-azione strettamente accoppiato. Tuttavia, i sistemi esistenti si basano tipicamente su moduli disaccoppiati, con conseguenti risposte ritardate e comportamenti incoerenti in ambienti dinamici, mentre le limitazioni percettive del mondo reale aggravano ulteriormente questi problemi. In questo lavoro, presentiamo un controller unificato basato sull'apprendimento per rinforzo che consente a robot umanoidi di acquisire abilità calcistiche reattive attraverso l'integrazione diretta della percezione visiva e del controllo del movimento. Il nostro approccio estende gli Adversarial Motion Priors a contesti percettivi in ambienti dinamici reali, colmando il divario tra imitazione del movimento e controllo dinamico basato sulla visione. Introduciamo un'architettura encoder-decoder combinata con un sistema di percezione virtuale che modella le caratteristiche visive del mondo reale, consentendo alla policy di recuperare stati privilegiati da osservazioni imperfette e stabilire una coordinazione attiva tra percezione e azione. Il controller risultante dimostra una forte reattività, eseguendo in modo coerente comportamenti calcistici coerenti e robusti in vari scenari, inclusi incontri reali di RoboCup.
Introduciamo SAIL-RL, un framework di post-addestramento per l'apprendimento per rinforzo (RL) che potenzia le capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) insegnando loro quando e come pensare. Gli approcci esistenti sono limitati dalla supervisione basata solo sul risultato, che premia le risposte corrette senza garantire un ragionamento solido, e da strategie di pensiero uniformi, che spesso portano a un eccesso di ragionamento su compiti semplici e a una carenza di ragionamento su quelli complessi. SAIL-RL affronta queste sfide con un sistema di ricompensa duale: la Ricompensa per il Pensiero, che valuta la qualità del ragionamento attraverso l'ancoraggio fattuale, la coerenza logica e la coerenza della risposta, e la Ricompensa di Giudizio, che determina in modo adattivo quando è appropriato un ragionamento approfondito o una risposta diretta. Esperimenti sullo stato dell'arte SAIL-VL2 mostrano che SAIL-RL migliora i benchmark di ragionamento e comprensione multimodale sia a scala 4B che 8B, raggiungendo prestazioni competitive rispetto a modelli commerciali closed-source come GPT-4o, e riduce sostanzialmente le allucinazioni, stabilendosi come un framework principiato per costruire MLLM più affidabili e adattivi. Il codice sarà disponibile su https://github.com/BytedanceDouyinContent/SAIL-RL.