Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli esseri umani dipingono le immagini in modo incrementale: pianificano una disposizione globale, abbozzano una bozza approssimativa, ispezionano e rifiniscono i dettagli e, cosa più importante, ogni fase è ancorata agli stati visivi in evoluzione. Tuttavia, i modelli multimodali unificati addestrati su dataset intervallati da testo e immagini possono anch'essi immaginare la catena di stati intermedi? In questo articolo, introduciamo la generazione di immagini guidata dal processo, un paradigma multi-step che scompone la sintesi in una traiettoria di ragionamento intervallata da pensieri e azioni. Invece di generare immagini in un singolo passaggio, il nostro approccio si svolge attraverso più iterazioni, ciascuna composta da 4 fasi: pianificazione testuale, abbozzo visivo, riflessione testuale e rifinitura visiva. Il ragionamento testuale condiziona esplicitamente come dovrebbe evolversi lo stato visivo, mentre l’intermedio visivo generato vincola e ancorava a sua volta il successivo ragionamento testuale. Una sfida fondamentale della generazione guidata dal processo deriva dall'ambiguità degli stati intermedi: come possono i modelli valutare ogni immagine parzialmente completa? Affrontiamo questo problema attraverso una supervisione densa e step-by-step che mantiene due vincoli complementari: per gli stati visivi intermedi, imponiamo la coerenza spaziale e semantica; per gli stati testuali intermedi, preserviamo la conoscenza visiva precedente consentendo al modello di identificare e correggere gli elementi che violano il prompt. Ciò rende il processo di generazione esplicito, interpretabile e direttamente supervisionabile. Per validare il metodo proposto, conduciamo esperimenti su vari benchmark di generazione di immagini da testo.
L'addestramento RL di agenti LLM multi-turn è intrinsecamente instabile, e la qualità del ragionamento determina direttamente le prestazioni del compito. L'entropia è ampiamente utilizzata per monitorare la stabilità del ragionamento. Tuttavia, l'entropia misura solo la diversità all'interno dello stesso input e non può dire se il ragionamento risponda effettivamente a input diversi. In RAGEN-2, scopriamo che anche con un'entropia stabile, i modelli possono fare affidamento su modelli fissi che appaiono diversificati ma sono indipendenti dall'input. Chiamiamo questo fenomeno "collasso del modello" (template collapse), una modalità di fallimento invisibile all'entropia e a tutte le metriche esistenti. Per diagnosticare questo fallimento, scomponiamo la qualità del ragionamento in diversità intra-input (Entropia) e distinguibilità inter-input (Informazione Mutua, MI), e introduciamo una famiglia di proxy di informazione mutua per la diagnosi online. In vari compiti, l'informazione mutua si correla con le prestazioni finali molto più fortemente dell'entropia, rendendola un proxy più affidabile per la qualità del ragionamento. Spieghiamo ulteriormente il collasso del modello con un meccanismo del rapporto segnale-rumore (SNR). Una bassa varianza della ricompensa indebolisce i gradienti del compito, lasciando che i termini di regolarizzazione dominino e cancellino le differenze di ragionamento tra input diversi. Per affrontare ciò, proponiamo il Filtro Consapevole dello SNR (SNR-Aware Filtering) per selezionare prompt ad alto segnale per ogni iterazione, utilizzando la varianza della ricompensa come proxy leggero. In ambiti come la pianificazione, il ragionamento matematico, la navigazione web e l'esecuzione di codice, il metodo migliora costantemente sia la dipendenza dall'input che le prestazioni del compito.
I modelli linguistici autoregressivi (AR) generano testo un token alla volta, anche quando token consecutivi sono altamente prevedibili dato il contesto precedente. Introduciamo MARS (Mask AutoRegreSsion), un metodo di fine-tuning leggero che insegna a un modello AR ottimizzato per istruzioni di prevedere più token per passaggio in avanti. MARS non aggiunge modifiche architetturali, né parametri aggiuntivi, e produce un singolo modello che può ancora essere chiamato esattamente come il modello AR originale senza degradazione delle prestazioni. A differenza del decoding speculativo, che mantiene un modello draft separato affiancato a quello target, o di approcci multi-testa come Medusa, che aggiungono teste di previsione aggiuntive, MARS richiede solo un addestramento continuato su dati di istruzione esistenti. Quando genera un token per passaggio in avanti, MARS eguaglia o supera il baseline AR su sei benchmark standard. Quando gli è consentito di accettare più token per step, mantiene un'accuratezza a livello baseline raggiungendo un throughput di 1,5-1,7x. Sviluppiamo inoltre una strategia di caching KV a livello di blocco per l'inferenza in batch, ottenendo un'accelerazione wall-clock fino a 1,71x rispetto all'AR con cache KV su Qwen2.5-7B. Infine, MARS supporta la regolazione della velocità in tempo reale tramite soglie di confidenza: sotto un alto carico di richieste, il sistema di servizio può aumentare il throughput al volo senza scambiare modelli o riavviare, fornendo una manopola pratica latenza-qualità per il deployment.
La costruzione di modelli del mondo con coerenza spaziale e interattività in tempo reale rimane una sfida fondamentale nella computer vision. I paradigmi attuali di generazione video spesso presentano una mancanza di persistenza spaziale e un realismo visivo insufficiente, rendendo difficile supportare una navigazione senza soluzione di continuità in ambienti complessi. Per affrontare queste problematiche, proponiamo INSPATIO-WORLD, un nuovo framework in tempo reale in grado di ricostruire e generare scene interattive dinamiche ad alta fedeltà a partire da un singolo video di riferimento. Il cuore del nostro approccio è un'architettura Autoregressiva Spaziotemporale (STAR), che abilita un'evoluzione della scena coerente e controllabile attraverso due componenti strettamente accoppiati: la Cache Spaziotemporale Implicita aggrega le osservazioni di riferimento e storiche in una rappresentazione latente del mondo, garantendo la coerenza globale durante la navigazione a lungo termine; il Modulo di Vincolo Spaziale Esplicito impone la struttura geometrica e traduce le interazioni dell'utente in traiettorie fotografiche precise e fisicamente plausibili. Inoltre, introduciamo la Distillazione per Apprendimento di Distribuzione Congiunta (JDMD). Utilizzando le distribuzioni di dati del mondo reale come guida regolarizzante, la JDMD supera efficacemente il degrado della fedeltà tipicamente causato da un'eccessiva dipendenza da dati sintetici. Esperimenti estensivi dimostrano che INSPATIO-WORLD supera significativamente i modelli state-of-the-art (SOTA) esistenti in coerenza spaziale e precisione di interazione, classificandosi al primo posto tra i metodi interattivi in tempo reale sul benchmark WorldScore-Dynamic e stabilendo una pipeline pratica per navigare ambienti 4D ricostruiti da video monoculari.
L'addestramento post-allenamento basato sul reinforcement learning è recentemente emerso come un paradigma promettente per allineare i modelli di diffusione testo-immagine con le preferenze umane. Negli studi recenti, l'aumento della dimensione del gruppo di rollout produce miglioramenti prestazionali marcati, indicando un ampio margine per ulteriori guadagni di allineamento. Tuttavia, il ridimensionamento dei rollout su modelli di diffusione fondazionali su larga scala (ad es. FLUX.1-12B) impone un pesante onere computazionale. Per alleviare questo collo di bottiglia, esploriamo l'integrazione della quantizzazione FP4 nei rollout del Diffusion RL. Tuttavia, identifichiamo che le pipeline quantizzate naive introducono intrinsecamente rischi di degradazione delle prestazioni. Per superare questo dilemma tra efficienza e integrità dell'addestramento, proponiamo Sol-RL (Speed-of-light RL), un nuovo framework di Reinforcement Learning a due stadi potenziato da FP4. In primo luogo, utilizziamo rollout ad alto throughput NVFP4 per generare un pool massiccio di candidati ed estrarne un sottoinsieme altamente contrastivo. In secondo luogo, rigeneriamo questi campioni selezionati in precisione BF16 e ottimizziamo la policy esclusivamente su di essi. Disaccoppiando l'esplorazione dei candidati dall'ottimizzazione della policy, Sol-RL integra i meccanismi algoritmici del ridimensionamento dei rollout con i guadagni di throughput a livello di sistema di NVFP4. Questo design sinergico algoritmo-hardware accelera efficacemente la fase di rollout riservando al contempo campioni ad alta fedeltà per l'ottimizzazione. Dimostriamo empiricamente che il nostro framework mantiene l'integrità addestrativa della pipeline in precisione BF16 sfruttando appieno i guadagni di throughput abilitati dall'aritmetica FP4. Esperimenti estesi su SANA, FLUX.1 e SD3.5-L confermano che il nostro approccio fornisce prestazioni di allineamento superiori su più metriche, accelerando la convergenza dell'addestramento fino a 4.64 volte e sbloccando la potenza del ridimensionamento massiccio dei rollout a una frazione del costo.
Recenti progressi hanno dimostrato l'efficacia di agenti LLM auto-evolventi in compiti come la riparazione di programmi e la scoperta scientifica. In questo paradigma, un LLM pianificatore sintetizza un programma agente che richiama modelli parametrici, inclusi gli LLM, che vengono poi sintonizzati per ogni specifico compito per migliorare le prestazioni. Tuttavia, i framework esistenti per agenti auto-evolventi non forniscono garanzie formali di sicurezza o correttezza. Poiché tali programmi sono spesso eseguiti autonomamente su input non visti, questa mancanza di garanzie solleva preoccupazioni di affidabilità e sicurezza. Noi formuliamo la generazione di codice agentivo come un problema di apprendimento vincolato, combinando specifiche formali rigide (hard) con obiettivi flessibili (soft) che catturano l'utilità del compito. Introduciamo i Modelli Generativi Formalmente Protetti (FGGM), che permettono all'LLM pianificatore di specificare un contratto formale di output per ogni chiamata a un modello generativo usando la logica del primo ordine. Ogni chiamata FGGM avvolge il modello sottostante in un campionatore per rifiuto con una fallback verificata, garantendo che ogni output restituito soddisfi il contratto per qualsiasi input e configurazione dei parametri. Basandoci sugli FGGM, presentiamo SEVerA (Self-Evolving Verified Agents), un framework a tre fasi: la fase di Ricerca sintetizza programmi parametrici candidati contenenti chiamate FGGM; la Verifica dimostra la correttezza rispetto ai vincoli rigidi per tutti i valori dei parametri, riducendo il problema a un apprendimento senza vincoli; e l'Apprendimento applica un'ottimizzazione scalabile basata su gradienti, incluso fine-tuning in stile GRPO, per migliorare l'obiettivo flessibile preservando la correttezza. Valutiamo SEVerA sulla verifica di programmi Dafny, sulla sintesi matematica simbolica e sull'uso agentico di strumenti conforme a policy (τ^2-bench). In tutti i compiti, SEVerA raggiunge zero violazioni dei vincoli migliorando allo stesso tempo le prestazioni rispetto alle baseline senza vincoli e allo stato dell'arte, dimostrando che i vincoli comportamentali formali non solo garantiscono la correttezza, ma anche indirizzano la sintesi verso agenti di qualità superiore.
I recenti progressi nell'apprendimento per prompt consentono agli agenti basati su grandi modelli linguistici di acquisire conoscenze rilevanti per il compito dal contesto di inferenza senza modifiche ai parametri. Ad esempio, i metodi esistenti (come ACE o GEPA) possono apprendere prompt di sistema per migliorare l'accuratezza basandosi sulle esecuzioni precedenti dell'agente. Tuttavia, questi metodi si concentrano principalmente su scenari a agente singolo o con basso parallelismo. Ciò limita fondamentalmente la loro capacità di apprendere efficientemente da un ampio insieme di tracce agentistiche raccolte. Sarebbe efficiente e vantaggioso eseguire l'apprendimento per prompt in parallelo per adattarsi alla tendenza crescente di apprendere da molte tracce agentistiche o esecuzioni parallele di agenti. Tuttavia, senza una strategia principiata per il ridimensionamento, i metodi attuali soffrono di un degrado della qualità con alto parallelismo. Per migliorare sia l'efficienza che la qualità dell'apprendimento per prompt, proponiamo Combee, un nuovo framework per scalare l'apprendimento parallelo di prompt per agenti auto-miglioranti. Combee accelera l'apprendimento e consente di eseguire molti agenti in parallelo, apprendendo dalle loro tracce aggregate senza degrado della qualità. Per ottenere ciò, Combee sfrutta le scansioni parallele e impiega un meccanismo di shuffle aumentato; Combee introduce anche un controller dinamico della dimensione del batch per bilanciare qualità e ritardo. Le valutazioni su AppWorld, Terminal-Bench, Formula e FiNER dimostrano che Combee raggiunge un speedup fino a 17x rispetto ai metodi precedenti, con accuratezza comparabile o superiore e costo equivalente.
Proponiamo una nuova frontiera: i Computer Neurali (NC) - una forma emergente di macchina che unifica calcolo, memoria e I/O in uno stato di esecuzione appreso. A differenza dei computer convenzionali, che eseguono programmi espliciti, degli agenti, che agiscono su ambienti di esecuzione esterni, e dei modelli del mondo, che apprendono le dinamiche ambientali, gli NC mirano a rendere il modello stesso il computer in esecuzione. Il nostro obiettivo a lungo termine è il Computer Completamente Neurale (CNC): la realizzazione matura e generica di questa forma emergente di macchina, con esecuzione stabile, riprogrammazione esplicita e riutilizzo duraturo delle capacità. Come passo iniziale, studiamo se i primi primitivi degli NC possano essere appresi esclusivamente da tracce I/O raccolte, senza stati di programma strumentati. Nello specifico, istanziamo gli NC come modelli video che generano fotogrammi dello schermo a partire da istruzioni, pixel e azioni utente (quando disponibili) in ambienti CLI e GUI. Queste implementazioni dimostrano che i runtime appresi possono acquisire primitivi di interfaccia iniziali, in particolare l'allineamento I/O e il controllo a breve termine, mentre il riutilizzo di routine, gli aggiornamenti controllati e la stabilità simbolica rimangono problemi aperti. Delineiamo una roadmap verso i CNC incentrata su queste sfide. Se superate, i CNC potrebbero stabilire un nuovo paradigma computazionale al di là degli agenti, dei modelli del mondo e dei computer convenzionali odierni.
Proponiamo TC-AE, un'architettura basata su Vision Transformer (ViT) per autoencoder di compressione profonda. I metodi esistenti aumentano comunemente il numero di canali delle rappresentazioni latenti per mantenere la qualità della ricostruzione ad alti rapporti di compressione. Tuttavia, questa strategia porta spesso al collasso della rappresentazione latente, che degrada le prestazioni generative. Invece di fare affidamento su architetture sempre più complesse o schemi di addestramento multi-stadio, TC-AE affronta questa sfida dalla prospettiva dello spazio dei token, il ponte chiave tra i pixel e i latenti immagine, attraverso due innovazioni complementari: in primo luogo, studiamo il ridimensionamento del numero di token regolando la dimensione delle patch in ViT con un budget latente fisso, e identifichiamo una compressione aggressiva da token a latente come il fattore chiave che limita un ridimensionamento efficace. Per affrontare questo problema, scomponiamo la compressione token-to-latent in due stadi, riducendo la perdita di informazioni strutturali e consentendo un efficace ridimensionamento del numero di token per la generazione. In secondo luogo, per mitigare ulteriormente il collasso della rappresentazione latente, potenziamo la struttura semantica dei token immagine tramite addestramento auto-supervisionato congiunto, portando a latenti più adatti alla generazione. Con questi progetti, TC-AE raggiunge prestazioni di ricostruzione e generative notevolmente migliorate sotto compressione profonda. Speriamo che la nostra ricerca faccia avanzare i tokenizer basati su ViT per la generazione visiva.
Presentiamo Qualixar OS, il primo sistema operativo a livello applicativo per l'orchestrazione universale di agenti di intelligenza artificiale. A differenza degli approcci a livello kernel (AIOS) o degli strumenti a framework singolo (AutoGen, CrewAI), Qualixar OS fornisce un runtime completo per sistemi multi-agente eterogenei che abbracciano 10 provider di LLM, oltre 8 framework per agenti e 7 trasporti. I nostri contributi includono: (1) semantiche di esecuzione per 12 topologie multi-agente, inclusi pattern a griglia, foresta, maglia e maker; (2) Forge, un motore di progettazione di team guidato da LLM con memoria storica delle strategie; (3) instradamento modelli a tre livelli che combina Q-learning, cinque strategie e POMDP bayesiano con scoperta dinamica multi-provider; (4) una pipeline di giudizio basata su consenso con rilevamento di Goodhart, monitoraggio della deriva JSD e navigazione del trilemma dell'allineamento; (5) attribuzione dei contenuti a quattro livelli con firma HMAC e watermark steganografici; (6) compatibilità universale tramite Claw Bridge, che supporta i protocolli MCP e A2A con un Protocollo di Comando Universale a 25 comandi; (7) una dashboard di produzione a 24 schede con builder di workflow visivo e marketplace delle competenze. Qualixar OS è convalidato da 2.821 casi di test su 217 tipi di evento e 8 moduli di qualità. Su una suite di valutazione personalizzata di 20 attività, il sistema raggiunge un'accuratezza del 100% con un costo medio di $0,000039 per attività. Disponibile nei sorgenti sotto licenza Elastic 2.0.
L'estensione del CoT tramite RL è stata ampiamente utilizzata per potenziare le capacità di ragionamento degli LLM. Tuttavia, a causa della scarsità dei segnali di ricompensa, essa può anche indurre modelli di pensiero indesiderati come l'*overthinking*, ovvero la generazione di contenuti di ragionamento intermedi ridondanti. In questo lavoro, sosteniamo che una delle principali fonti di tale ridondanza sia una riflessione inefficiente, che spesso si manifesta in due modelli problematici: *Indiscriminate Reflection*, in cui il modello esegue controlli ampi e a basso impatto durante il ragionamento, e *Repetitive Reflection*, in cui verifica ripetutamente una conclusione già stabilita. Per affrontare ciò, introduciamo un framework di ottimizzazione del CoT basato su grafi. Nello specifico, convertiamo ogni CoT lineare in un grafo aciclico diretto (DAG) con archi di dipendenza espliciti e progettiamo una strategia di potatura duale: la potatura a livello di ramo rimuove i rami di riflessione dal contributo debole, mentre la potatura a livello di profondità elimina le ri-verifiche nelle fasi finali. Distilliamo questo comportamento tramite una pipeline in tre fasi: (1) SFT per inizializzare la politica su tracce concise e potate, (2) DPO per preferire traiettorie corrette ma meno ridondanti, e (3) GRPO con penalità di lunghezza per ottimizzare congiuntamente la correttezza della risposta e l'efficienza. Gli esperimenti mostrano che il nostro approccio riduce i token di ragionamento medi del 42% mantenendo o migliorando l'accuratezza.
L'allineamento pluralistico è emerso come una frontiera cruciale nello sviluppo dei Large Language Model (LLM), con i modelli di ricompensa (Reward Models, RM) che fungono da meccanismo centrale per catturare i diversi valori umani. Sebbene i benchmark per la qualità generale delle risposte siano diffusi, valutare quanto bene i modelli di ricompensa tengano conto delle preferenze individuali degli utenti rimane una sfida aperta. Per colmare questa lacuna, introduciamo Personalized RewardBench, un nuovo benchmark progettato per valutare rigorosamente la capacità dei modelli di ricompensa di modellare preferenze personalizzate. Costruiamo coppie di risposte scelte e rifiutate basate sul rigoroso rispetto (o violazione) di rubriche specifiche per l'utente, garantendo che le distinzioni di preferenza siano unicamente tailorizzate sull'individuo. In particolare, valutazioni umane confermano che il fattore discriminante primario tra le coppie è strettamente la preferenza personale, con entrambe le risposte che mantengono un'alta qualità generale (ad esempio, correttezza, rilevanza e utilità). Test estensivi rivelano che gli attuali modelli di ricompensa all'avanguardia hanno notevoli difficoltà con la personalizzazione, raggiungendo un picco di accuratezza di appena il 75,94%. Fondamentalmente, poiché un benchmark efficace per un modello di ricompensa dovrebbe prevedere le sue prestazioni nei task a valle, conduciamo esperimenti che dimostrano come il nostro benchmark mostri una correlazione significativamente più alta con le prestazioni a valle, sia nel campionamento Best-of-N (BoN) che nell'ottimizzazione Prossimale delle Politiche (Proximal Policy Optimization, PPO), rispetto ai baseline esistenti. Questi risultati stabiliscono Personalized RewardBench come un proxy robusto e accurato per valutare le prestazioni dei modelli di ricompensa nelle applicazioni a valle.
Il trasferimento di conoscenza da un insegnante cross-encoder tramite Distillazione della Conoscenza (KD) è diventato un paradigma standard per l'addestramento di modelli di retrieval. Mentre gli studi esistenti si sono concentrati prevalentemente sull'estrazione di negativi difficili per migliorare la discriminazione, la composizione sistematica dei dati di addestramento e la conseguente distribuzione dei punteggi dell'insegnante hanno ricevuto un'attenzione relativamente minore. In questo lavoro, evidenziamo che concentrarsi esclusivamente sui negativi difficili impedisce allo studente di apprendere la struttura completa delle preferenze dell'insegnante, rischiando di compromettere la generalizzazione. Per emulare efficacemente la distribuzione dei punteggi dell'insegnante, proponiamo una strategia di Campionamento Stratificato che copre uniformemente l'intero spettro dei punteggi. Esperimenti su benchmark in-dominio e out-of-domain confermano che il Campionamento Stratificato, che preserva la varianza e l'entropia dei punteggi dell'insegnante, funge da baseline robusta, superando significativamente il campionamento top-K e quello casuale in contesti diversificati. Questi risultati suggeriscono che l'essenza della distillazione risiede nel preservare l'ampia gamma di punteggi relativi percepiti dall'insegnante.
La validità del monitoraggio del ragionamento a catena (CoT) dipende dall'incapacità dei modelli di ragionare efficacemente nelle loro rappresentazioni latenti. Tuttavia, si sa poco sui limiti di tale ragionamento latente nei LLM. Testiamo questi limiti studiando se i modelli possono scoprire strategie di pianificazione a più fasi senza supervisione sui passaggi intermedi e le possono eseguire in modo latente, all'interno di un singolo passaggio in avanti. Utilizzando compiti di ricerca di percorsi su grafi che controllano precisamente il numero di passaggi di pianificazione latente richiesti, scopriamo una notevole limitazione non risolta dalla scalatura massiva: piccoli transformer addestrati da zero scoprono strategie che richiedono fino a tre passaggi latenti, GPT-4o e Qwen3-32B messi a punto raggiungono i cinque, e GPT-5.4 ne raggiunge sette con prompt few-shot. Sebbene la massima profondità di pianificazione latente che i modelli possono apprendere durante l'addestramento sia cinque, la strategia scoperta si generalizza fino a otto passaggi latenti al momento del test. Ciò rivela una dissociazione tra la capacità di scoprire una strategia latente con la sola supervisione della risposta finale e la capacità di eseguirla una volta scoperta. Se limiti simili valgono più in generale, le strategie che richiedono più passaggi di pianificazione latente coordinati potrebbero dover essere insegnate esplicitamente o esternalizzate, conferendo credibilità al monitoraggio CoT.
La generazione multimodale è stata a lungo dominata da pipeline guidate dal testo, in cui il linguaggio detta la visione ma non può ragionare o creare al suo interno. Sfidiamo questo paradigma chiedendoci se tutte le modalità, incluse descrizioni testuali, layout spaziali e istruzioni di modifica, possano essere unificate in un'unica rappresentazione visiva. Presentiamo FlowInOne, un framework che riformula la generazione multimodale come un flusso puramente visivo, convertendo tutti gli input in prompt visivi e abilitando una pipeline pulita image-in, image-out governata da un singolo modello di flow matching. Questa formulazione centrata sulla visione elimina naturalmente i colli di bottiglia dell'allineamento cross-modale, la schedulazione del rumore e i rami architetturali specifici per task, unificando la generazione testo-immagine, l'editing guidato da layout e il follow-up di istruzioni visive sotto un unico paradigma coerente. A supporto di ciò, introduciamo VisPrompt-5M, un dataset su larga scala di 5 milioni di coppie di prompt visivi che coprono task diversificati, inclusi la dinamica delle forze con consapevolezza fisica e la predizione di traiettorie, insieme a VP-Bench, un benchmark rigorosamente curato che valuta la fedeltà alle istruzioni, la precisione spaziale, il realismo visivo e la coerenza del contenuto. Esperimenti estensivi dimostrano che FlowInOne raggiunge prestazioni allo stato dell'arte in tutti i task di generazione unificati, superando sia modelli open-source che sistemi commerciali competitivi, stabilendo una nuova base per la modellazione generativa completamente vision-centrica dove percezione e creazione coesistono in un unico spazio visivo continuo.
I Large Language Model (LLM) fanno sempre più affidamento su capacità agenti - recupero iterativo, uso di strumenti e processo decisionale - per superare i limiti della conoscenza parametrica statica. Tuttavia, i framework agenti esistenti trattano le informazioni esterne come testo non strutturato e non riescono a sfruttare le dipendenze topologiche intrinseche dei dati del mondo reale. Per colmare questa lacuna, introduciamo l'Agentic Graph Learning (AGL), un paradigma che riformula l'apprendimento su grafi come un processo intervallato di navigazione consapevole della topologia e inferenza basata su LLM. Nello specifico, proponiamo AgentGL, il primo framework guidato da reinforcement learning (RL) per l'AGL. AgentGL fornisce a un agente LLM strumenti nativi per i grafi per un'esplorazione multi-scala, regola l'uso degli strumenti tramite un ragionamento vincolato dalla ricerca per bilanciare accuratezza ed efficienza, e impiega una strategia di RL curriculare condizionata dal grafo per stabilizzare l'apprendimento di politiche a lungo termine senza una supervisione passo-passo. Su vari benchmark di Text-Attributed Graph (TAG) e con diversi LLM di base, AgentGL supera sostanzialmente forti baseline di GraphLLM e GraphRAG, ottenendo miglioramenti assoluti fino al 17,5% nella classificazione dei nodi e al 28,4% nella predizione dei link. Questi risultati dimostrano che l'AGL è una frontiera promettente per consentire agli LLM di navigare e ragionare autonomamente in ambienti relazionali complessi. Il codice è pubblicamente disponibile all'indirizzo https://github.com/sunyuanfu/AgentGL.
Anticipare stati futuri diversi è una sfida centrale nella modellazione del mondo video. I modelli di mondo discriminativi producono una previsione deterministica che media implicitamente i possibili futuri, mentre i modelli di mondo generativi esistenti rimangono computazionalmente costosi. Recenti lavori dimostrano che prevedere il futuro nello spazio delle caratteristiche (feature space) di un modello base per la visione (VFM), piuttosto che in uno spazio latente ottimizzato per la ricostruzione dei pixel, richiede un numero significativamente inferiore di parametri nel modello mondiale. Tuttavia, la maggior parte di questi approcci rimane discriminativa. In questo lavoro, introduciamo DeltaTok, un tokenizer che codifica la differenza tra le caratteristiche del VFM di frame consecutivi in un singolo token continuo "delta", e DeltaWorld, un modello di mondo generativo che opera su questi token per generare in modo efficiente futuri plausibili e diversificati. I token delta riducono il video da una rappresentazione spaziotemporale tridimensionale a una sequenza temporale unidimensionale, ad esempio ottenendo una riduzione di 1.024x dei token con frame 512x512. Questa rappresentazione compatta abilita un addestramento multi-ipotesi trattabile, in cui molti futuri vengono generati in parallelo e solo il migliore viene supervisionato. In fase di inferenza, questo porta a previsioni diversificate in un unico passaggio in avanti. Esperimenti su compiti di forecasting denso dimostrano che DeltaWorld prevede futuri che si allineano più fedelmente agli esiti del mondo reale, pur avendo oltre 35x parametri in meno e utilizzando 2.000x FLOP in meno rispetto ai modelli di mondo generativi esistenti. Codice e pesi: https://deltatok.github.io.
L'ottimizzazione delle politiche relative al gruppo (GRPO) è ampiamente utilizzata per l'apprendimento per rinforzo con ricompense verificabili, ma spesso soffre del collasso del vantaggio: quando tutti i rollout in un gruppo ricevono la stessa ricompensa, il gruppo produce un vantaggio relativo nullo e quindi nessun segnale di apprendimento. Ad esempio, se un problema è troppo difficile per il sistema di ragionamento, tutti i rollout campionati possono essere errati e ricevere ricompensa zero. Recenti lavori affrontano questo problema aggiungendo suggerimenti o strutture ausiliarie a tali problemi difficili, in modo che il sistema di ragionamento produca risultati misti e recuperi un aggiornamento non nullo. Tuttavia, i suggerimenti esistenti sono generalmente fissi piuttosto che adattati al sistema di ragionamento corrente, e un suggerimento che crea un segnale di apprendimento con l'input suggerito non necessariamente migliora la politica senza suggerimenti utilizzata al momento del test. A tal fine, proponiamo l'Apprendimento di Suggerimenti per l'Apprendimento per Rinforzo (HiLL), un framework che addestra congiuntamente una politica di suggerimento e una politica di ragionamento durante l'RL. Per ogni problema difficile, il generatore di suggerimenti produce hint online condizionati al rollout errato corrente del sistema di ragionamento, consentendo alla generazione di suggerimenti di adattarsi agli errori evolutivi del sistema di ragionamento. Introduciamo inoltre la dipendenza dal suggerimento, che misura quanto fortemente le traiettorie corrette suggerite dipendono dall'hint. Deriviamo un risultato di trasferibilità che mostra come una minore dipendenza dal suggerimento implichi un trasferimento più forte dal successo con suggerimento al successo senza suggerimento, e utilizziamo questo risultato per definire una ricompensa ponderata per il trasferimento per addestrare il generatore di suggerimenti. Pertanto, HiLL favorisce suggerimenti che non solo recuperano gruppi GRPO informativi, ma producono anche segnali che hanno maggiori probabilità di migliorare la politica originale senza suggerimenti. Esperimenti su molteplici benchmark mostrano che HiLL supera costantemente GRPO e i precedenti baseline basati su suggerimenti, dimostrando il valore dell'apprendimento di suggerimenti adattivi e consapevoli del trasferimento per l'RL. Il codice è disponibile all'indirizzo https://github.com/Andree-9/HiLL.
Con l'aumentata accessibilità e utilizzo di documenti multilingue, il Recupero di Informazioni Translinguistico (CLIR) è emerso come un importante ambito di ricerca. Tradizionalmente, i compiti di CLIR sono stati condotti in contesti in cui la lingua dei documenti differisce da quella delle query, e tipicamente i documenti sono redatti in un'unica lingua coerente. In questo articolo, evidenziamo come in tale contesto la capacità di allineamento translinguistico potrebbe non essere valutata adeguatamente. In particolare, osserviamo che, in un insieme di documenti in cui coesistono documenti inglesi con un'altra lingua, la maggior parte dei sistemi di recupero multilingue tende a privilegiare documenti inglesi non correlati rispetto al documento correlato scritto nella stessa lingua della query. Per analizzare e quantificare rigorosamente questo fenomeno, introduciamo vari scenari e metriche progettati per valutare le prestazioni di allineamento translinguistico dei modelli di recupero multilingue. Inoltre, per migliorare le prestazioni translinguistiche in queste condizioni complesse, proponiamo una nuova strategia di addestramento mirata a potenziare l'allineamento translinguistico. Utilizzando solo un piccolo dataset composto da 2.8k campioni, il nostro metodo migliora significativamente le prestazioni di recupero translinguistico mitigando simultaneamente il problema dell'inclinazione verso l'inglese. Ampie analisi dimostrano che il metodo proposto migliora sostanzialmente le capacità di allineamento translinguistico della maggior parte dei modelli di embedding multilingue.
Il ragionamento con regole complesse e specifiche del contesto rimane una sfida per i grandi modelli linguistici (LLM). In ambito giuridico e normativo, ciò si manifesta come ragionamento deontico: il ragionamento su obblighi, permessi e divieti secondo regole esplicite. Sebbene molti benchmark recenti enfatizzino il ragionamento matematico in contesti brevi, pochi si concentrano sul ragionamento deontico ad alto rischio in contesti lunghi. Per colmare questa lacuna, introduciamo DEONTICBENCH, un benchmark di 6.232 compiti relativi alle imposte federali statunitensi, alle politiche sui bagagli delle compagnie aeree, all'amministrazione dell'immigrazione negli Stati Uniti e al diritto immobiliare statale statunitense. Questi compiti possono essere affrontati in più modi, incluso il ragionamento diretto in linguaggio naturale o con l'ausilio del calcolo simbolico. Oltre al ragionamento a catena di pensiero in forma libera, DEONTICBENCH consente un flusso di lavoro opzionale basato su risolutori, in cui i modelli traducono statuti e fatti caso in Prolog eseguibile, portando a interpretazioni formali del problema e a una traccia esplicita del programma. Rilasciamo programmi di riferimento in Prolog per tutte le istanze. Tra i migliori LLM all'avanguardia e i modelli di codifica, le migliori prestazioni sul sottoinsieme difficile raggiungono solo il 44,4% su SARA Numeric e il 46,6 di macro-F1 su Housing. Studiamo inoltre l'addestramento con fine-tuning supervisionato e l'apprendimento per rinforzo per la generazione di programmi simbolici. Sebbene l'addestramento migliori la qualità della generazione del Prolog, gli attuali metodi di RL non riescono ancora a risolvere questi compiti in modo affidabile. Nel complesso, DEONTICBENCH fornisce un benchmark per studiare il ragionamento basato su regole radicato nel contesto in domini del mondo reale, sia in ambienti simbolici che non simbolici.
I modelli linguistici multimodali (MLLM) richiedono input visivi ad alta risoluzione per compiti di granularità fine come la comprensione di documenti e la percezione di scene dense. Tuttavia, gli attuali paradigmi di ridimensionamento della risoluzione globale inondano indiscriminatamente il meccanismo di self-attention quadratico con token visivamente ridondanti, creando un grave collo di bottiglia per il throughput inferenziale mentre ignorano la sparsità spaziale e l'intento della query. Per superare questo limite, proponiamo Q-Zoom, un framework di percezione adattiva ad alta risoluzione e consapevole della query che opera in modo efficiente con un approccio coarse-to-fine. In primo luogo, una Dynamic Gating Network leggera bypassa in sicurezza l'elaborazione ad alta risoluzione quando le caratteristiche globali grossolane sono sufficienti. In secondo luogo, per le query che richiedono una percezione di granularità fine, una Self-Distilled Region Proposal Network (SD-RPN) localizza precisamente la Regione di Interesse (RoI) rilevante per il compito direttamente dagli spazi delle feature intermedi. Per ottimizzare questi moduli in modo efficiente, la gating network utilizza una strategia di generazione consistency-aware per derivare etichette di routing deterministiche, mentre la SD-RPN impiega un paradigma di distillazione completamente auto-supervisionato. Uno schema di allineamento spazio-temporale continuo e un fine-tuning mirato fondono poi senza soluzione di continuità la RoI locale densa con il layout globale grossolano. Esperimenti estensivi dimostrano che Q-Zoom stabilisce una frontiera di Pareto dominante. Utilizzando Qwen2.5-VL-7B come piattaforma di test principale, Q-Zoom accelera l'inferenza di 2.52 volte sui benchmark di Document & OCR e di 4.39 volte negli scenari ad Alta Risoluzione, eguagliando la massima accuratezza del baseline. Inoltre, quando configurato per la massima fedeltà percettiva, Q-Zoom supera le prestazioni di picco del baseline rispettivamente dell'1.1% e dell'8.1% su questi benchmark. Questi robusti miglioramenti si trasferiscono senza soluzione di continuità a Qwen3-VL, LLaVA e ai nuovi modelli di ragionamento con immagini basati su RL. La pagina del progetto è disponibile all'indirizzo https://yuhengsss.github.io/Q-Zoom/.
Il Large Chunk Test-Time Training (LaCT) ha dimostrato prestazioni solide nella ricostruzione 3D a contesto lungo, ma i suoi aggiornamenti completamente plastici durante l'inferenza rimangono vulnerabili alla dimenticanza catastrofica e all'overfitting. Di conseguenza, LaCT viene tipicamente implementato con un singolo grande chunk che copre l'intera sequenza di input, non raggiungendo l'obiettivo più ampio di elaborare sequenze arbitrariamente lunghe in un'unica passata. Proponiamo l'Elastic Test-Time Training, ispirato alla elastic weight consolidation, che stabilizza gli aggiornamenti dei pesi rapidi di LaCT mediante un prior elastico pesato secondo Fisher attorno a uno stato di ancoraggio mantenuto. L'ancoraggio evolve come una media mobile esponenziale dei pesi rapidi passati per bilanciare stabilità e plasticità. Basandoci su questa architettura aggiornata, introduciamo la Fast Spatial Memory (FSM), un modello efficiente e scalabile per la ricostruzione 4D che apprende rappresentazioni spaziotemporali da lunghe sequenze di osservazione e renderizza nuove combinazioni vista-tempo. Abbiamo pre-addestrato FSM su dati 3D/4D curati su larga scala per catturare la dinamica e la semantica di ambienti spaziali complessi. Esperimenti estensivi mostrano che FSM supporta un adattamento rapido su sequenze lunghe e fornisce una ricostruzione 3D/4D di alta qualità con chunk più piccoli, mitigando la scorciatoia dell'interpolazione della telecamera. In sintesi, miriamo a far evolvere LaCT oltre l'impostazione limitata del single-chunk verso un adattamento multi-chunk robusto, un passo necessario per la generalizzazione a sequenze genuinamente più lunghe, allevando al contempo sostanzialmente il collo di bottiglia della memoria di attivazione.
La generazione di video a controllo del movimento - in cui azioni specificate dall'utente guidano dinamiche di scena fisicamente plausibili da punti di vista liberamente scelti - richiede due capacità: (1) controllo del movimento disaccoppiato, che permette agli utenti di controllare separatamente il moto dell'oggetto e regolare il punto di vista della telecamera; e (2) causalità del movimento, garantendo che le azioni guidate dall'utente inneschino reazioni coerenti da parte di altri oggetti, invece di limitarsi a spostare i pixel. I metodi esistenti sono carenti su entrambi i fronti: essi intrecciano il movimento della telecamera e dell'oggetto in un unico segnale di tracciamento e trattano il movimento come uno spostamento cinematico senza modellare le relazioni causali tra i moti degli oggetti. Introduciamo MoRight, un framework unificato che affronta entrambe le limitazioni attraverso una modellazione del movimento disaccoppiata. Il moto dell'oggetto è specificato in una vista canonica statica e trasferito a un punto di vista target arbitrario della telecamera tramite un meccanismo di attenzione temporale incrociata tra le viste, consentendo un controllo disaccoppiato di telecamera e oggetto. Scomponiamo ulteriormente il movimento in componenti attive (guidate dall'utente) e passive (conseguenza), addestrando il modello ad apprendere la causalità del movimento dai dati. In fase di inferenza, gli utenti possono fornire il movimento attivo e MoRight ne prevede le conseguenze (ragionamento in avanti), oppure specificare gli esiti passivi desiderati e MoRight ricostruisce le azioni motrici plausibili (ragionamento inverso), il tutto mentre si regola liberamente il punto di vista della telecamera. Esperimenti su tre benchmark dimostrano prestazioni allo stato dell'arte nella qualità della generazione, nella controllabilità del movimento e nella consapevolezza delle interazioni.
La registrazione accurata delle nuvole di punti (PCR) è un compito importante nell'elaborazione di dati 3D, che coinvolge la stima di una trasformazione rigida tra due nuvole di punti. Sebbene i metodi di deep learning abbiano affrontato le principali limitazioni degli approcci tradizionali non basati sull'apprendimento, come la sensibilità a rumore, valori anomali, occlusione e inizializzazione, essi sono sviluppati e valutati su dataset sintetici puliti e densi (limitando la loro generalizzabilità a scenari industriali del mondo reale). Questo articolo introduce R3PM-Net, una rete leggera, globale e a livello di oggetto per il matching di punti, progettata per colmare questa lacuna dando priorità sia alla generalizzabilità che all'efficienza in tempo reale. Per supportare questa transizione, vengono proposti due dataset, Sioux-Cranfield e Sioux-Scans. Essi forniscono un terreno di valutazione per la registrazione di scansioni fotogrammetriche imperfette e di telecamere ad eventi con modelli CAD digitali, e sono stati resi pubblicamente disponibili. Esperimenti estensivi dimostrano che R3PM-Net raggiunge un'accuratezza competitiva con una velocità senza pari. Su ModelNet40, raggiunge un punteggio di fitness perfetto di 1 e un RMSE degli inlier di 0,029 cm in soli 0,007s, approssimativamente 7 volte più veloce del metodo state-of-the-art RegTR. Questa performance si mantiene sul dataset Sioux-Cranfield, mantenendo un fitness di 1 e un RMSE degli inlier di 0,030 cm con una latenza similmente bassa. Inoltre, sul dataset altamente impegnativo Sioux-Scans, R3PM-Net risolve con successo casi limite in meno di 50 ms. Questi risultati confermano che R3PM-Net offre una soluzione robusta e ad alta velocità per applicazioni industriali critiche, dove precisione e prestazioni in tempo reale sono indispensabili. Il codice e i dataset sono disponibili su https://github.com/YasiiKB/R3PM-Net.
Large reasoning models have recently demonstrated strong performance on complex tasks that require long chain-of-thought reasoning, through supervised fine-tuning on large-scale and high-quality datasets. To construct such datasets, existing pipelines generate long reasoning data from more capable Large Language Models (LLMs) and apply manually heuristic or naturalness-based selection methods to filter high-quality samples. Despite the proven effectiveness of naturalness-based data selection, which ranks data by the average log probability assigned by LLMs, our analysis shows that, when applied to LLM reasoning datasets, it systematically prefers samples with longer reasoning steps (i.e., more tokens per step) rather than higher-quality ones, a phenomenon we term step length confounding. Through quantitative analysis, we attribute this phenomenon to low-probability first tokens in reasoning steps; longer steps dilute their influence, thereby inflating the average log probabilities. To address this issue, we propose two variant methods: ASLEC-DROP, which drops first-token probabilities when computing average log probability, and ASLEC-CASL, which applies a causal debiasing regression to remove the first tokens' confounding effect. Experiments across four LLMs and five evaluation benchmarks demonstrate the effectiveness of our approach in mitigating the step length confounding problem.
L'equivarianza è una proprietà fondamentale nei modelli di visione artificiale, sebbene l'equivarianza rigorosa sia raramente soddisfatta nei dati del mondo reale, il che può limitare le prestazioni di un modello. Il controllo del grado di equivarianza è quindi auspicabile. Proponiamo una struttura generale per costruire modelli soft equivarianti proiettando i pesi del modello in un sottospazio progettato. Il metodo si applica a qualsiasi architettura pre-addestrata e fornisce limiti teorici sull'errore di equivarianza indotto. Empiricamente, dimostriamo l'efficacia del nostro metodo su molteplici backbone pre-addestrati, inclusi ViT e ResNet, in compiti di classificazione di immagini, segmentazione semantica e previsione di traiettorie umane. Significativamente, il nostro approccio migliora le prestazioni riducendo simultaneamente l'errore di equivarianza sul competitivo benchmark ImageNet.
Presentiamo GenLCA, un modello generativo basato sulla diffusione per la creazione e la modifica di avatar fotorealistici a figura intera a partire da input testuali e immagini. Gli avatar generati sono fedeli agli input, supportando al contempo animazioni facciali e corporee di alta fedeltà. L'idea centrale è un nuovo paradigma che consente di addestrare un modello di diffusione 3D per il corpo intero a partire da dati 2D parzialmente osservabili, permettendo al dataset di addestramento di scalare fino a milioni di video del mondo reale. Questa scalabilità contribuisce alla superiore fotorealismo e generalizzabilità di GenLCA. Nello specifico, aumentiamo la scala del dataset riutilizzando un modello preaddestrato di ricostruzione di avatar feed-forward come tokenizer 3D animabile, che codifica fotogrammi video non strutturati in token 3D strutturati. Tuttavia, la maggior parte dei video del mondo reale fornisce solo osservazioni parziali delle parti del corpo, risultando in artefatti eccessivi di sfocatura o trasparenza nei token 3D. Per risolvere questo problema, proponiamo una nuova strategia di addestramento per modelli di diffusione "visibility-aware" che sostituisce le regioni non valide con token apprendibili e calcola le perdite solo sulle regioni valide. Addestriamo quindi un modello di diffusione basato su flusso sul dataset di token, mantenendo intrinsecamente il fotorealismo e l'animabilità forniti dal modello preaddestrato di ricostruzione avatar. Il nostro approccio consente efficacemente l'uso di dati video su larga scala del mondo reale per addestrare un modello di diffusione nativamente in 3D. Dimostriamo l'efficacia del nostro metodo attraverso risultati di generazione e modifica diversificati e di alta fedeltà, superando di gran lunga le soluzioni esistenti. La pagina del progetto è disponibile all'indirizzo https://onethousandwu.com/GenLCA-Page.
Man mano che i modelli linguistici multimodali (MLLM) audiovisivi vengono implementati in applicazioni critiche per la sicurezza, comprenderne le vulnerabilità diventa cruciale. A tal fine, introduciamo la Tipografia Multimodale, uno studio sistematico che esamina come gli attacchi tipografici su più modalità influenzino negativamente gli MLLM. Mentre i lavori precedenti si concentrano in modo limitato su attacchi unimodali, noi esponiamo la fragilità cross-modale degli MLLM. Analizziamo le interazioni tra perturbazioni audio, visive e testuali e riveliamo che un attacco multimodale coordinato crea una minaccia significativamente più potente rispetto agli attacchi a modalità singola (tasso di successo dell'attacco = 83,43% contro 34,93%). I nostri risultati, ottenuti su molteplici MLLM all'avanguardia, compiti e benchmark di ragionamento basato sul senso comune e moderazione dei contenuti, stabiliscono la tipografia multimodale come una strategia di attacco critica e poco esplorata nel ragionamento multimodale. Il codice e i dati saranno resi pubblicamente disponibili.
Gli attuali benchmark online per agenti GUI mobili rimangono prevalentemente centrati sulle app e con compiti omogenei, non riuscendo a riflettere la diversità e l'instabilità dell'utilizzo mobile nel mondo reale. A tal fine, introduciamo VenusBench-Mobile, un benchmark online impegnativo per valutare agenti GUI mobili generici in condizioni realistiche e centrate sull'utente. VenusBench-Mobile si fonda su due pilastri valutativi fondamentali: definire cosa valutare attraverso una progettazione dei compiti guidata dall'intento dell'utente che rifletta l'uso mobile reale, e come valutare mediante uno schema di annotazione orientato alle capacità per un'analisi granulare del comportamento degli agenti. Una valutazione estesa degli agenti GUI mobili più all'avanguardia rivela ampi divari prestazionali rispetto ai benchmark precedenti, indicando che VenusBench-Mobile propone compiti sostanzialmente più impegnativi e realistici e che gli agenti attuali sono ancora lontani da un affidabile dispiegamento nel mondo reale. L'analisi diagnostica mostra inoltre che gli errori sono dominati da carenze nella percezione e nella memoria, aspetti largamente oscurati da valutazioni a grana grossa. Inoltre, anche gli agenti più potenti mostrano un tasso di successo quasi nullo in presenza di variazioni ambientali, evidenziando la loro fragilità in contesti realistici. Sulla base di queste osservazioni, riteniamo che VenusBench-Mobile costituisca un importante passo avanti verso un dispiegamento robusto nel mondo reale degli agenti GUI mobili. Codice e dati sono disponibili all'indirizzo https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.