Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo FlowRL: bilanciamento del flusso per corrispondere all'intera distribuzione di ricompensa, anziché massimizzare le ricompense nell'apprendimento per rinforzo (RL) di modelli linguistici di grandi dimensioni (LLM). I recenti modelli avanzati di ragionamento adottano metodi di massimizzazione delle ricompense (ad esempio, PPO e GRPO), che tendono a sovra-ottimizzare i segnali di ricompensa dominanti trascurando percorsi di ragionamento meno frequenti ma validi, riducendo così la diversità. Al contrario, trasformiamo le ricompense scalari in una distribuzione target normalizzata utilizzando una funzione di partizione apprendibile, e poi minimizziamo la divergenza KL inversa tra la politica e la distribuzione target. Implementiamo questa idea come un metodo di ottimizzazione bilanciato dal flusso che promuove un'esplorazione diversificata e traiettorie di ragionamento generalizzabili. Condividiamo esperimenti su compiti di ragionamento matematico e di codice: FlowRL ottiene un miglioramento medio significativo del 10,0% rispetto a GRPO e del 5,1% rispetto a PPO sui benchmark matematici, e si comporta costantemente meglio nei compiti di ragionamento di codice. Questi risultati evidenziano la corrispondenza della distribuzione di ricompensa come un passo chiave verso un'esplorazione efficiente e un ragionamento diversificato nell'apprendimento per rinforzo di LLM.
I modelli visione-linguaggio (VLMs) hanno abilitato agenti di utilizzo del computer (CUAs) che operano autonomamente sulle interfacce grafiche (GUIs), dimostrando un grande potenziale, sebbene i progressi siano limitati dalla mancanza di dati su larga scala e open-source relativi all’utilizzo del computer e di modelli di base. In questo lavoro, introduciamo ScaleCUA, un passo verso la scalabilità di CUAs open-source. Offre un dataset su larga scala che copre 6 sistemi operativi e 3 domini di attività, costruito attraverso una pipeline a ciclo chiuso che unisce agenti automatizzati ed esperti umani. Addestrato su questi dati scalati, ScaleCUA può operare in modo fluido su diverse piattaforme. In particolare, ottiene miglioramenti significativi rispetto ai baseline (+26,6 su WebArena-Lite-v2, +10,7 su ScreenSpot-Pro) e stabilisce nuovi risultati all’avanguardia (94,4% su MMBench-GUI L1-Hard, 60,6% su OSWorld-G, 47,4% su WebArena-Lite-v2). Questi risultati sottolineano il potere della scalabilità basata sui dati per agenti di utilizzo del computer a scopo generale. Rilasceremo dati, modelli e codice per promuovere la ricerca futura: https://github.com/OpenGVLab/ScaleCUA.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più applicati in scenari reali e diversificati, ciascuno governato da specifiche comportamentali e di sicurezza (spec) personalizzate e adattate dagli utenti o dalle organizzazioni. Queste specifiche, categorizzate in safety-spec e behavioral-spec, variano a seconda degli scenari e si evolvono con il mutare delle preferenze e dei requisiti. Formalizziamo questa sfida come allineamento alle specifiche, concentrandoci sulla capacità degli LLM di seguire specifiche dinamiche e specifiche per lo scenario sia dal punto di vista comportamentale che della sicurezza. Per affrontare questa sfida, proponiamo Align3, un metodo leggero che utilizza la Deliberazione al Momento del Test (TTD) con riflessione e revisione gerarchica per ragionare sui confini delle specifiche. Presentiamo inoltre SpecBench, un benchmark unificato per misurare l'allineamento alle specifiche, che copre 5 scenari, 103 specifiche e 1.500 prompt. Esperimenti su 15 modelli di ragionamento e 18 modelli di istruzione con diversi metodi TTD, tra cui Self-Refine, TPO e MoreThink, producono tre risultati chiave: (i) la deliberazione al momento del test migliora l'allineamento alle specifiche; (ii) Align3 avanza la frontiera del compromesso sicurezza-utilità con un sovraccarico minimo; (iii) SpecBench rivela efficacemente le lacune di allineamento. Questi risultati evidenziano il potenziale della deliberazione al momento del test come strategia efficace per ragionare sui confini delle specifiche nel mondo reale.
Presentiamo AToken, il primo tokenizzatore visivo unificato che raggiunge sia una ricostruzione ad alta fedeltà sia una comprensione semantica attraverso immagini, video e asset 3D. A differenza dei tokenizzatori esistenti che si specializzano nella ricostruzione o nella comprensione per singole modalità, AToken codifica questi input visivi diversificati in uno spazio latente 4D condiviso, unificando sia i compiti che le modalità in un unico framework. Nello specifico, introduciamo un'architettura basata esclusivamente su transformer con incorporamenti di posizione rotazionali 4D per elaborare input visivi di risoluzioni e durate temporali arbitrarie. Per garantire un addestramento stabile, introduciamo un obiettivo di addestramento privo di componenti adversarial che combina perdite percettive e di matrice di Gram, raggiungendo una qualità di ricostruzione all'avanguardia. Utilizzando un curriculum di addestramento progressivo, AToken si espande gradualmente da singole immagini, video e 3D, supportando sia token latenti continui che discreti. AToken raggiunge 0.21 rFID con un'accuratezza del 82.2% su ImageNet per le immagini, 3.01 rFVD con un recupero del 32.6% su MSRVTT per i video e 28.19 PSNR con un'accuratezza di classificazione del 90.9% per il 3D. Nelle applicazioni downstream, AToken abilita sia compiti di generazione visiva (ad esempio, generazione di immagini con token continui e discreti, generazione di video da testo, sintesi da immagine a 3D) sia compiti di comprensione (ad esempio, LLM multimodali), ottenendo prestazioni competitive su tutti i benchmark. Questi risultati gettano luce sui sistemi di IA multimodali di prossima generazione costruiti su una tokenizzazione visiva unificata.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più addestrati con l'apprendimento per rinforzo da ricompense verificabili (RLVR), tuttavia il dispiegamento nel mondo reale richiede modelli in grado di auto-migliorarsi senza etichette o giudici esterni. I metodi esistenti privi di etichette, come la minimizzazione della confidenza, l'autoconsistenza o gli obiettivi a maggioranza, stabilizzano l'apprendimento ma riducono progressivamente l'esplorazione, causando un collasso dell'entropia: le generazioni diventano più brevi, meno diversificate e fragili. A differenza degli approcci precedenti, come l'Apprendimento per Rinforzo in Tempo di Test (TTRL), che adattano principalmente i modelli al dataset non etichettato immediatamente disponibile, il nostro obiettivo è più ampio: consentire miglioramenti generali senza sacrificare la capacità intrinseca di esplorazione e la capacità di generalizzazione del modello, ovvero evolvere. Formalizziamo questo problema e proponiamo l'Apprendimento per Rinforzo Orientato all'Evoluzione e Senza Etichette (EVOL-RL), una regola semplice che combina stabilità e variazione in un contesto privo di etichette. EVOL-RL mantiene la risposta votata a maggioranza come ancoraggio stabile (selezione) mentre aggiunge una ricompensa consapevole della novità che favorisce le risposte il cui ragionamento differisce da quanto già prodotto (variazione), misurato nello spazio semantico. Implementato con GRPO, EVOL-RL utilizza anche un clipping asimmetrico per preservare segnali forti e un regolarizzatore di entropia per sostenere la ricerca. Questo design a maggioranza-per-selezione + novità-per-variazione previene il collasso, mantiene catene di pensiero più lunghe e informative e migliora sia pass@1 che pass@n. EVOL-RL supera costantemente la baseline TTRL a maggioranza; ad esempio, l'addestramento su AIME24 senza etichette aumenta il pass@1 di Qwen3-4B-Base su AIME25 dal 4,6% di TTRL al 16,4%, e il pass@16 dal 18,5% al 37,9%. EVOL-RL non solo previene il collasso della diversità ma sblocca anche una generalizzazione più forte tra domini (ad esempio, GPQA). Inoltre, dimostriamo che EVOL-RL migliora anche le prestazioni nell'ambito RLVR, evidenziando la sua ampia applicabilità.
I recenti modelli di diffusione video dimostrano un forte potenziale nei compiti di intelligenza spaziale grazie ai loro ricchi prior latenti sul mondo. Tuttavia, questo potenziale è ostacolato dalla loro limitata controllabilità e incoerenza geometrica, creando un divario tra i loro forti prior e il loro utilizzo pratico nei compiti 3D/4D. Di conseguenza, gli approcci attuali spesso si basano su riaddestramento o fine-tuning, rischiando di degradare le conoscenze pre-addestrate e comportando elevati costi computazionali. Per affrontare questo problema, proponiamo WorldForge, un framework senza addestramento, operante al momento dell'inferenza, composto da tre moduli strettamente accoppiati. Il "Intra-Step Recursive Refinement" introduce un meccanismo di raffinamento ricorsivo durante l'inferenza, che ottimizza ripetutamente le previsioni della rete all'interno di ogni fase di denoising per consentire l'iniezione precisa della traiettoria. Il "Flow-Gated Latent Fusion" sfrutta la similarità del flusso ottico per separare il movimento dall'aspetto nello spazio latente e iniettare selettivamente la guida della traiettoria nei canali relativi al movimento. Il "Dual-Path Self-Corrective Guidance" confronta i percorsi di denoising guidati e non guidati per correggere adattivamente la deriva della traiettoria causata da segnali strutturali rumorosi o disallineati. Insieme, questi componenti iniettano una guida fine e allineata alla traiettoria senza addestramento, raggiungendo sia un controllo accurato del movimento che una generazione di contenuti fotorealistici. Esperimenti estesi su diversi benchmark convalidano la superiorità del nostro metodo in termini di realismo, coerenza della traiettoria e fedeltà visiva. Questo lavoro introduce un nuovo paradigma plug-and-play per la sintesi video controllabile, offrendo una nuova prospettiva sull'utilizzo dei prior generativi per l'intelligenza spaziale.
La ricerca è emersa come infrastruttura centrale per agenti basati su LLM ed è ampiamente considerata critica nel percorso verso un’intelligenza più generale. La finanza rappresenta un terreno di prova particolarmente impegnativo: gli analisti conducono abitualmente ricerche complesse e multi-step su dati sensibili al tempo e specifici del dominio, rendendola ideale per valutare sia la competenza nella ricerca che il ragionamento basato sulla conoscenza. Tuttavia, nessun dataset finanziario aperto esistente valuta la capacità di ricerca dati di agenti end-to-end, principalmente perché la costruzione di task realistici e complessi richiede una profonda competenza finanziaria e i dati sensibili al tempo sono difficili da valutare. Presentiamo FinSearchComp, il primo benchmark per agenti completamente open-source per la ricerca e il ragionamento finanziario realistico e open-domain. FinSearchComprende tre task — Recupero di Dati Sensibili al Tempo, Ricerca Storica Semplice e Investigazione Storica Complessa — che riproducono fedelmente i flussi di lavoro reali degli analisti finanziari. Per garantire difficoltà e affidabilità, coinvolgiamo 70 esperti finanziari professionisti per l’annotazione e implementiamo una rigorosa pipeline di controllo qualità multi-fase. Il benchmark include 635 domande che coprono i mercati globali e del Greater China, e valutiamo 21 modelli (prodotti) su di esso. Grok 4 (web) si posiziona al primo posto nel subset globale, avvicinandosi all’accuratezza di livello esperto. DouBao (web) guida il subset del Greater China. Le analisi sperimentali mostrano che dotare gli agenti di ricerca web e plugin finanziari migliora sostanzialmente i risultati su FinSearchComp, e l’origine geografica dei modelli e degli strumenti influisce significativamente sulle prestazioni. Allineandosi ai task realistici degli analisti e fornendo una valutazione end-to-end, FinSearchComp offre un banco di prova professionale e ad alta difficoltà per la ricerca e il ragionamento finanziario complesso.
Recenti studi hanno dimostrato l'importanza di rappresentazioni visive di alta qualità nella generazione di immagini e hanno evidenziato i limiti dei modelli generativi nella comprensione delle immagini. In quanto paradigma generativo originariamente progettato per il linguaggio naturale, i modelli autoregressivi affrontano sfide simili. In questo lavoro, presentiamo la prima indagine sistematica sui meccanismi di applicazione del paradigma di previsione del token successivo al dominio visivo. Identifichiamo tre proprietà chiave che ostacolano l'apprendimento della semantica visiva di alto livello: dipendenza locale e condizionale, incoerenza semantica inter-step e carenza di invarianza spaziale. Mostriamo che questi problemi possono essere efficacemente affrontati introducendo obiettivi di auto-supervisione durante l'addestramento, portando a un nuovo framework di addestramento, Self-guided Training for AutoRegressive models (ST-AR). Senza fare affidamento su modelli di rappresentazione pre-addestrati, ST-AR migliora significativamente la capacità di comprensione delle immagini dei modelli autoregressivi e porta a una migliore qualità di generazione. In particolare, ST-AR apporta un miglioramento di circa il 42% nell'FID per LlamaGen-L e del 49% nell'FID per LlamaGen-XL, mantenendo la stessa strategia di campionamento.
Questo articolo presenta RynnVLA-001, un modello visione-linguaggio-azione (VLA) basato su un pre-addestramento generativo su larga scala da dimostrazioni umane. Proponiamo una metodologia innovativa di pre-addestramento in due fasi. La prima fase, Pre-addestramento Generativo su Video Ego-Centrici, addestra un modello da Immagine a Video su 12 milioni di video di manipolazione ego-centrici per prevedere fotogrammi futuri condizionati da un fotogramma iniziale e un'istruzione linguistica. La seconda fase, Modellazione Traiettoria-Consapevole Umano-Centric, estende questo approccio prevedendo congiuntamente le traiettorie future dei punti chiave, collegando efficacemente la previsione dei fotogrammi visivi con la previsione delle azioni. Inoltre, per migliorare la rappresentazione delle azioni, proponiamo ActionVAE, un autoencoder variazionale che comprime sequenze di azioni in embedding latenti compatti, riducendo la complessità dello spazio di output del modello VLA. Quando fine-tuned sugli stessi dataset robotici downstream, RynnVLA-001 raggiunge prestazioni superiori rispetto ai benchmark più avanzati, dimostrando che la strategia di pre-addestramento proposta fornisce un'inizializzazione più efficace per i modelli VLA.
I metodi attuali di editing di immagini basati su istruzioni (IBIE) incontrano difficoltà con compiti di editing complessi, poiché sia i tipi di editing che il numero di campioni nei dataset esistenti sono limitati. Inoltre, la costruzione tradizionale dei dataset spesso include coppie immagine-didascalia rumorose, che possono introdurre distorsioni e limitare le capacità del modello in scenari di editing complessi. Per affrontare queste limitazioni, introduciamo MultiEdit, un dataset completo che presenta oltre 107K campioni di editing di immagini di alta qualità. Esso comprende 6 compiti di editing impegnativi attraverso una raccolta diversificata di 18 tipi di editing non legati al trasferimento di stile e 38 operazioni di trasferimento di stile, coprendo uno spettro che va dal trasferimento di stile sofisticato a operazioni semantiche complesse come l'editing di riferimenti a persone e l'editing di testo all'interno dell'immagine. Utilizziamo una pipeline innovativa per la costruzione del dataset che sfrutta due modelli linguistici multimodali di grandi dimensioni (MLLMs) per generare istruzioni di editing adattate visivamente e produrre immagini modificate ad alta fedeltà, rispettivamente. Esperimenti estesi dimostrano che il fine-tuning di modelli open-source di base con il nostro set MultiEdit-Train migliora significativamente le prestazioni dei modelli su compiti di editing sofisticati nel nostro benchmark MultiEdit-Test proposto, preservando efficacemente le loro capacità sul benchmark di editing standard. Crediamo che MultiEdit fornisca una risorsa preziosa per avanzare la ricerca verso capacità IBIE più diversificate e impegnative. Il nostro dataset è disponibile all'indirizzo https://huggingface.co/datasets/inclusionAI/MultiEdit.
Il grounding spazio-temporale nei video (STVG) mira a localizzare il tubo spazio-temporale di un video, come specificato dalla query testuale in input. In questo articolo, utilizziamo modelli linguistici multimodali di grandi dimensioni (MLLMs) per esplorare una soluzione zero-shot nello STVG. Riveliamo due intuizioni chiave sugli MLLMs: (1) gli MLLMs tendono ad assegnare dinamicamente token speciali, denominati token di grounding, per ancorare la query testuale; e (2) gli MLLMs spesso soffrono di un grounding subottimale a causa dell’incapacità di integrare pienamente gli indizi presenti nella query testuale (ad esempio, attributi, azioni) per l’inferenza. Sulla base di queste intuizioni, proponiamo un framework zero-shot basato su MLLM per lo STVG, che include nuove strategie di evidenziazione spazio-temporale decomposta (DSTH) e di assemblaggio temporale-aumentato (TAS) per liberare la capacità di ragionamento degli MLLMs. La strategia DSTH scompone prima la query originale in sotto-query di attributi e azioni per indagare l’esistenza del target sia spazialmente che temporalmente. Utilizza quindi un modulo di riattenzione guidata da logit (LRA) per apprendere variabili latenti come prompt spaziali e temporali, regolarizzando le previsioni dei token per ciascuna sotto-query. Questi prompt evidenziano rispettivamente gli indizi di attributi e azioni, dirigendo l’attenzione del modello verso regioni visive affidabili correlate allo spazio e al tempo. Inoltre, poiché il grounding spaziale della sotto-query di attributi dovrebbe essere temporalmente coerente, introduciamo la strategia TAS per assemblare le previsioni utilizzando i frame originali del video e i frame temporali aumentati come input per migliorare la coerenza temporale. Valutiamo il nostro metodo su vari MLLMs e dimostriamo che supera i metodi SOTA su tre benchmark comuni di STVG. Il codice sarà disponibile all’indirizzo https://github.com/zaiquanyang/LLaVA_Next_STVG.
L'imaging ecografico è diventato la modalità di imaging preferita per lo screening precoce del cancro grazie ai suoi vantaggi di radiazioni non ionizzanti, basso costo e capacità di imaging in tempo reale. Tuttavia, la diagnosi ecografica convenzionale dipende fortemente dall'esperienza del medico, presentando sfide di elevata soggettività e bassa efficienza diagnostica. I modelli visione-linguaggio (VLMs) offrono soluzioni promettenti per questo problema, ma i modelli generalisti esistenti dimostrano una conoscenza limitata nelle attività mediche ecografiche, con una scarsa generalizzazione nel riconoscimento delle lesioni multi-organo e una bassa efficienza nelle diagnosi multi-task. Per affrontare queste limitazioni, proponiamo EchoVLM, un modello visione-linguaggio specificamente progettato per l'imaging ecografico medico. Il modello utilizza un'architettura Mixture of Experts (MoE) addestrata su dati che coprono sette regioni anatomiche. Questo design consente al modello di eseguire più attività, tra cui la generazione di referti ecografici, la diagnosi e il visual question-answering (VQA). I risultati sperimentali hanno dimostrato che EchoVLM ha ottenuto miglioramenti significativi di 10,15 e 4,77 punti rispettivamente nei punteggi BLEU-1 e ROUGE-1 rispetto a Qwen2-VL nel compito di generazione di referti ecografici. Questi risultati suggeriscono che EchoVLM ha un potenziale sostanziale per migliorare l'accuratezza diagnostica nell'imaging ecografico, fornendo così una soluzione tecnica valida per future applicazioni cliniche. Il codice sorgente e i pesi del modello sono disponibili all'indirizzo https://github.com/Asunatan/EchoVLM.
Il rilevamento dei cambiamenti dalle immagini remote ad alta risoluzione rappresenta una pietra angolare delle applicazioni di osservazione terrestre, ma la sua efficacia è spesso compromessa da due sfide critiche. In primo luogo, i falsi allarmi sono prevalenti poiché i modelli interpretano erroneamente le variazioni radiometriche dovute a cambiamenti temporali (ad esempio, illuminazione, stagione) come cambiamenti reali. In secondo luogo, un divario semantico non trascurabile tra le caratteristiche astratte profonde e le caratteristiche superficiali ricche di dettagli tende a ostacolare la loro fusione efficace, portando a confini mal delineati. Per affrontare ulteriormente questi problemi, proponiamo la Frequency-Spatial Synergistic Gated Network (FSG-Net), un nuovo paradigma che mira a separare sistematicamente i cambiamenti semantici dalle variazioni spurie. Nello specifico, FSG-Net opera inizialmente nel dominio della frequenza, dove un Discrepancy-Aware Wavelet Interaction Module (DAWIM) mitiga adattivamente i pseudo-cambiamenti elaborando selettivamente le diverse componenti di frequenza. Successivamente, le caratteristiche raffinate vengono potenziate nel dominio spaziale da un Synergistic Temporal-Spatial Attention Module (STSAM), che amplifica la salienza delle regioni di cambiamento reale. Infine, per colmare il divario semantico, una Lightweight Gated Fusion Unit (LGFU) sfrutta la semantica di alto livello per selezionare e integrare in modo selettivo i dettagli cruciali dagli strati superficiali. Esperimenti completi sui benchmark CDD, GZ-CD e LEVIR-CD convalidano la superiorità di FSG-Net, stabilendo un nuovo stato dell'arte con punteggi F1 rispettivamente del 94,16%, 89,51% e 91,27%. Il codice sarà reso disponibile su https://github.com/zxXie-Air/FSG-Net dopo una possibile pubblicazione.