Articoli di ricerca IA selezionati quotidianamente con traduzioni
Una narrativa prevalente nel post-addestramento degli LLM sostiene che il fine-tuning supervisionato (SFT) memorizza, mentre l'apprendimento per rinforzo (RL) generalizza. Rivalutiamo questa affermazione per il SFT sul ragionamento con supervisione a lunga catena di pensiero (CoT) e scopriamo che la generalizzazione cross-dominio non è assente ma condizionata, plasmata congiuntamente dalla dinamica di ottimizzazione, dai dati di addestramento e dalle capacità del modello base. Alcuni fallimenti riportati sono artefatti da sotto-ottimizzazione: le prestazioni cross-dominio prima peggiorano per poi recuperare e migliorare con un addestramento prolungato (uno schema di declino e recupero), quindi checkpoint con addestramento breve possono sottostimare la generalizzazione. Sia la qualità che la struttura dei dati contano: soluzioni di bassa qualità danneggiano ampiamente la generalizzazione, mentre tracce CoT lunghe e verificate producono guadagni cross-dominio consistenti. La capacità del modello è essenziale: modelli più potenti interiorizzano schemi procedurali trasferibili (ad esempio, backtracking) anche da un semplice gioco aritmetico, mentre quelli più deboli imitano la verbosità superficiale. Tuttavia, questa generalizzazione è asimmetrica: il ragionamento migliora mentre la sicurezza si degrada, riformulando la questione dal *se* il SFT sul ragionamento generalizza, al *sotto quali condizioni* e *a quale costo*.
Gli agenti basati su grandi modelli linguistici (LLM) come OpenClaw si affidano a competenze riutilizzabili per eseguire compiti complessi, eppure queste competenze rimangono largamente statiche dopo il deployment. Di conseguenza, flussi di lavoro simili, pattern di utilizzo degli strumenti e modalità di fallimento vengono ripetutamente riscoperti dagli utenti, impedendo al sistema di migliorare con l'esperienza. Sebbene le interazioni di utenti diversi forniscano segnali complementari su quando una competenza funziona o fallisce, i sistemi esistenti mancano di un meccanismo per convertire tali esperienze eterogenee in aggiornamenti affidabili delle competenze. Per affrontare questi problemi, presentiamo SkillClaw, un framework per l'evoluzione collettiva delle competenze negli ecosistemi di agenti multi-utente, che tratta le interazioni tra utenti e nel tempo come segnale primario per il miglioramento delle competenze. SkillClaw aggrega continuamente le traiettorie generate durante l'uso e le elabora con un modulo di evoluzione autonomo, che identifica pattern comportamentali ricorrenti e li traduce in aggiornamenti dell'insieme di competenze, affinando quelle esistenti o estendendole con nuove capacità. Le competenze risultanti sono mantenute in un repository condiviso e sincronizzate tra gli utenti, permettendo ai miglioramenti scoperti in un contesto di propagarsi a livello di sistema senza richiedere alcuno sforzo aggiuntivo dagli utenti. Integrando l'esperienza multi-utente in aggiornamenti continui delle competenze, SkillClaw abilita il trasferimento di conoscenze tra utenti e un miglioramento cumulativo delle capacità, e gli esperimenti su WildClawBench dimostrano che, con interazione e feedback limitati, migliora significativamente le prestazioni di Qwen3-Max in scenari agentistici del mondo reale.
Gli agenti IA potrebbero automatizzare la tua casella di posta, ma sono in grado di automatizzare altri aspetti routinari della tua vita? I compiti online quotidiani offrono un banco di prova realistico ma irrisolto per valutare la prossima generazione di agenti IA. A questo scopo, presentiamo ClawBench, un framework di valutazione composto da 153 compiti semplici che le persone devono svolgere regolarmente nella vita e nel lavoro, abbracciando 144 piattaforme live in 15 categorie, dal completamento di acquisti e prenotazione di appuntamenti all'invio di candidature lavorative. Questi compiti richiedono capacità più impegnative rispetto ai benchmark esistenti, come ottenere informazioni rilevanti da documenti forniti dall'utente, navigare flussi di lavoro multi-step su piattaforme diverse e operazioni ad alta intensità di scrittura come compilare correttamente moduli dettagliati. A differenza dei benchmark esistenti che valutano gli agenti in sandbox offline con pagine statiche, ClawBench opera su siti web in produzione, preservando la piena complessità, natura dinamica e sfide dell'interazione web nel mondo reale. Un livello di intercettazione leggero cattura e blocca solo la richiesta di invio finale, garantendo una valutazione sicura senza effetti collaterali nel mondo reale. Le nostre valutazioni di 7 modelli all'avanguardia mostrano che sia i modelli proprietari che quelli open-source riescono a completare solo una piccola porzione di questi compiti. Ad esempio, Claude Sonnet 4.6 raggiunge solo il 33.3%. Il progresso su ClawBench ci avvicina ad agenti IA in grado di funzionare come assistenti generalisti affidabili.
Introduciamo HY-Embodied-0.5, una famiglia di modelli fondazionali progettati specificamente per agenti embodied nel mondo reale. Per colmare il divario tra i modelli visione-linguaggio (VLM) generici e le esigenze degli agenti embodied, i nostri modelli sono sviluppati per potenziare le capacità fondamentali richieste dall'intelligenza embodied: la percezione visiva spaziale e temporale, unita a un ragionamento embodied avanzato per la previsione, l'interazione e la pianificazione. La suite HY-Embodied-0.5 comprende due varianti principali: un modello efficiente con 2 miliardi di parametri attivati progettato per il deployment su dispositivi edge, e un modello potente con 32 miliardi di parametri attivati destinato a compiti di ragionamento complesso. Per supportare la percezione visiva fine-granularità essenziale per i compiti embodied, adottiamo un'architettura Mixture-of-Transformers (MoT) per abilitare l'elaborazione specifica per modalità. Incorporando token latenti, questo design migliora efficacemente la rappresentazione percettiva dei modelli. Per migliorare le capacità di ragionamento, introduciamo un paradigma di post-addestramento iterativo e auto-evolutivo. Inoltre, impieghiamo la distillazione on-policy per trasferire le capacità avanzate del modello di grandi dimensioni alla variante più piccola, massimizzando così il potenziale prestazionale del modello compatto. Valutazioni estensive su 22 benchmark, che coprono percezione visiva, ragionamento spaziale e comprensione embodied, dimostrano l'efficacia del nostro approccio. Il nostro modello MoT-2B supera modelli state-of-the-art di dimensioni simili su 16 benchmark, mentre la variante da 32B raggiunge prestazioni paragonabili a modelli di frontiera come Gemini 3.0 Pro. In esperimenti di controllo robotico downstream, sfruttiamo la nostra solida base VLM per addestrare un efficace modello Vision-Language-Action (VLA), ottenendo risultati convincenti in valutazioni fisiche nel mondo reale. Codice e modelli sono open-source all'indirizzo https://github.com/Tencent-Hunyuan/HY-Embodied.
I modelli di diffusione text-to-video hanno reso possibile la sintesi video aperta, ma spesso incontrano difficoltà nel generare il numero corretto di oggetti specificati in un prompt. Introduciamo NUMINA, un framework identify-then-guide che non richiede addestramento, per un migliore allineamento numerico. NUMINA identifica le incongruenze prompt-layout selezionando teste di self- e cross-attention discriminative per derivare un layout latente numerabile. Successivamente, raffina questo layout in modo conservativo e modula la cross-attention per guidare la rigenerazione. Sul benchmark introdotto CountBench, NUMINA migliora l'accuratezza del conteggio fino al 7,4% su Wan2.1-1.3B, e rispettivamente del 4,9% e 5,5% su modelli da 5B e 14B. Inoltre, l'allineamento CLIP è migliorato mantenendo la coerenza temporale. Questi risultati dimostrano che la guida strutturale complementa la ricerca del seed e il potenziamento del prompt, offrendo un percorso pratico verso la diffusione text-to-video con conteggio accurato. Il codice è disponibile all'indirizzo https://github.com/H-EmbodVis/NUMINA.
In questo articolo presentiamo MegaStyle, una pipeline innovativa e scalabile per la cura dei dati che costruisce un dataset di stili di alta qualità, con coerenza intra-stile e diversità inter-stile. Raggiungiamo questo obiettivo sfruttando la capacità di mappatura stile-testo coerente degli attuali modelli generativi di grandi dimensioni, che possono generare immagini nello stesso stile a partire da una descrizione stilistica data. Sulla base di questo fondamento, curiamo una galleria di prompt diversificata e bilanciata con 170K prompt di stile e 400K prompt di contenuto, e generiamo un dataset di stili su larga scala, MegaStyle-1.4M, tramite combinazioni di prompt contenuto-stile. Con MegaStyle-1.4M, proponiamo un apprendimento contrastivo supervisionato dallo stile per mettere a punto un codificatore di stile, MegaStyle-Encoder, per estrarre rappresentazioni espressive e specifiche dello stile, e alleniamo anche un modello di trasferimento stilistico basato su FLUX, MegaStyle-FLUX. Esperimenti estesi dimostrano l'importanza di mantenere coerenza intra-stile, diversità inter-stile e alta qualità per un dataset di stili, nonché l'efficacia del proposto MegaStyle-1.4M. Inoltre, quando addestrati su MegaStyle-1.4M, MegaStyle-Encoder e MegaStyle-FLUX forniscono una misurazione affidabile della similarità stilistica e un trasferimento stilistico generalizzabile, apportando un contributo significativo alla comunità del trasferimento stilistico. Ulteriori risultati sono disponibili sul nostro sito web del progetto https://jeoyal.github.io/MegaStyle/.
La performance, ovvero l'esternalizzazione di intenti, emozioni e personalità attraverso il comportamento visivo, vocale e temporale, è ciò che rende vivo un personaggio. L'apprendimento di tali prestazioni da video rappresenta una valida alternativa alle tradizionali pipeline 3D. Tuttavia, i modelli video esistenti faticano a coniugare elevata espressività, inferenza in tempo reale e stabilità identitaria di lunga durata, una tensione che definiamo trilemma della performance. La conversazione è lo scenario performativo più completo, poiché i personaggi parlano, ascoltano, reagiscono ed esprimono emozioni simultaneamente, mantenendo nel tempo la propria identità. Per affrontare questa sfida, presentiamo LPM 1.0 (Large Performance Model), focalizzato sulla performance conversazionale audiovisiva full-duplex per un singolo individuo. Nello specifico, abbiamo costruito un dataset multimodale centrato sull'uomo mediante filtraggio rigoroso, abbinamento audio-video parlato-ascolto, comprensione della performance ed estrazione multi-riferimento identity-aware; addestrato un Diffusion Transformer da 17 miliardi di parametri (Base LPM) per performance altamente controllabili e identity-consistent attraverso condizionamento multimodale; e distillato in un generatore causale in streaming (Online LPM) per interazione a bassa latenza e lunghezza infinita. Durante l'inferenza, data un'immagine del personaggio con riferimenti identity-aware, LPM 1.0 genera video di ascolto dall'audio dell'utente e video di parlato da audio sintetizzato, con prompt testuali per il controllo del movimento, tutto a velocità real-time con generazione identity-stable e a lunghezza infinita. LPM 1.0 funge quindi da motore visivo per agenti conversazionali, personaggi di live streaming e NPC di giochi. Per valutare sistematicamente questo scenario, proponiamo LPM-Bench, il primo benchmark per la performance interattiva dei personaggi. LPM 1.0 ottiene risultati state-of-the-art in tutte le dimensioni valutate, mantenendo al contempo un'inferenza in tempo reale.
L'ottimizzazione delle politiche relative al gruppo (GRPO) è emersa come l'obiettivo de facto dell'apprendimento per rinforzo (RL) che guida i recenti progressi nei modelli linguistici multimodali di grandi dimensioni. Tuttavia, estendere questo successo a modelli generalisti multimodali open-source rimane fortemente limitato da due sfide primarie: l'estrema varianza nelle topologie di ricompensa tra diversi compiti visivi e l'intrinseca difficoltà di bilanciare una percezione fine con capacità di ragionamento a più passi. Per affrontare questi problemi, introduciamo l'ottimizzazione delle politiche relative al gruppo gaussiana (G²RPO), un nuovo obiettivo di addestramento RL che sostituisce la scalatura lineare standard con una corrispondenza distribuzionale non lineare. Forzando matematicamente la distribuzione del vantaggio di qualsiasi dato compito a convergere rigorosamente verso una distribuzione normale standard, N(0,1), G²RPO garantisce teoricamente l'equità del gradiente tra i compiti, mitiga le vulnerabilità ai valori anomali a coda pesante e offre un aggiornamento simmetrico per ricompense positive e negative. Sfruttando la stabilità di addestramento potenziata fornita da G²RPO, introduciamo due meccanismi di modellazione a livello di compito per bilanciare in modo fluido percezione e ragionamento. Primo, la modellazione della lunghezza della risposta elicita dinamicamente catene di ragionamento estese per query complesse, mentre impone output diretti per rafforzare l'ancoraggio visivo. Secondo, la modellazione dell'entropia delimita rigorosamente la zona di esplorazione del modello, prevenendo efficacemente sia il collasso che l'esplosione dell'entropia. Integrando queste metodologie, presentiamo OpenVLThinkerV2, un modello multimodale generico altamente robusto. Valutazioni estese su 18 benchmark diversi ne dimostrano le prestazioni superiori rispetto a solidi modelli open-source e a modelli proprietari all'avanguardia.
Presentiamo DMax, un nuovo paradigma per modelli linguistici di diffusione (dLLM) efficienti. Questo approccio mitiga l'accumulo di errori nel decoding parallelo, consentendo un parallelismo di decoding aggressivo preservando al contempo la qualità della generazione. A differenza dei dLLM mascherati convenzionali che decodificano attraverso una transizione binaria da maschera a token, DMax riformula il decoding come un auto-affinamento progressivo da embedding di maschera a embedding di token. Il cuore del nostro approccio è l'Addestramento Uniforme On-Policy, una nuova strategia di training che unisce efficientemente dLLM mascherati e uniformi, dotando il modello della capacità di recuperare token puliti sia da input mascherati che dalle sue stesse previsioni errate. Basandoci su queste fondamenta, proponiamo inoltre il Soft Parallel Decoding. Rappresentiamo ogni stato di decoding intermedio come un'interpolazione tra l'embedding del token previsto e l'embedding della maschera, abilitando un auto-revisione iterativa nello spazio degli embedding. Esperimenti estesi su una varietà di benchmark dimostrano l'efficacia di DMax. Rispetto al LLaMA-2.0-mini originale, il nostro metodo migliora il TPF su GSM8K da 2.04 a 5.47 preservando l'accuratezza. Su MBPP, aumenta il TPF da 2.71 a 5.86 mantenendo prestazioni comparabili. Su due GPU H200, il nostro modello raggiunge una media di 1.338 TPS con batch size 1. Il codice è disponibile all'indirizzo: https://github.com/czg1225/DMax
Gli agenti basati su grandi modelli linguistici (LLM) sono sempre più sviluppati non tanto modificando i pesi del modello, quanto riorganizzando il runtime che li circonda. Capacità che i sistemi precedenti si aspettavano che il modello recuperasse internamente sono ora esternalizzate in memorie esterne, abilità riutilizzabili, protocolli di interazione e l'infrastruttura di controllo che rende questi moduli affidabili nella pratica. Questo articolo analizza tale cambiamento attraverso la lente dell'esternalizzazione. Ispirandoci al concetto di artefatti cognitivi, sosteniamo che l'infrastruttura degli agenti è importante non solo perché aggiunge componenti ausiliari, ma perché trasforma oneri cognitivi complessi in forme che il modello può risolvere in modo più affidabile. In questa visione, la memoria esternalizza lo stato nel tempo, le abilità esternalizzano la competenza procedurale, i protocolli esternalizzano la struttura d'interazione e l'ingegneria dell'infrastruttura funge da livello di unificazione che le coordina in un'esecuzione governata. Tracciamo una progressione storica dai pesi al contesto all'infrastruttura, analizziamo memoria, abilità e protocolli come tre forme distinte ma accoppiate di esternalizzazione ed esaminiamo come interagiscono all'interno di un sistema agente più ampio. Discutiamo inoltre il compromesso tra capacità parametriche ed esternalizzate, identifichiamo tendenze emergenti come infrastrutture auto-evolventi e infrastrutture condivise per agenti, e affrontiamo le sfide aperte in termini di valutazione, governance e co-evoluzione a lungo termine di modelli e infrastrutture esterne. Il risultato è un framework a livello di sistema per spiegare perché il progresso pratico degli agenti dipende sempre più non solo da modelli più potenti, ma da una migliore infrastruttura cognitiva esterna.
Gli agenti mobili personalizzati in grado di inferire le preferenze utente e calibrare l'assistenza proattiva sono estremamente promettenti come assistenti digitali quotidiani, ma i benchmark esistenti non colgono ciò che questo richiede. I lavori precedenti valutano il recupero delle preferenze da cronologie statiche o la previsione delle intenzioni da contesti fissi. Nessuno dei due approcci verifica se un agente possa elicitarre preferenze mancanti tramite l'interazione, né se possa decidere quando intervenire, richiedere il consenso o rimanere in silenzio in un ambiente GUI live. Introduciamo KnowU-Bench, un benchmark online per agenti mobili personalizzati costruito su un ambiente di emulazione Android riproducibile, che copre 42 attività GUI generiche, 86 attività personalizzate e 64 attività proattive. A differenza dei lavori precedenti che trattano le preferenze utente come contesto statico, KnowU-Bench nasconde il profilo utente all'agente ed espone solo i log comportamentali, forzando una genuina inferenza delle preferenze anziché una semplice consultazione del contesto. Per supportare l'elicitation multiruolo delle preferenze, istanzia un simulatore utente guidato da LLM ancorato a profili strutturati, abilitando dialoghi realistici di chiarimento e una gestione proattiva del consenso. Oltre alla personalizzazione, KnowU-Bench fornisce una valutazione completa della catena decisionale proattiva completa, inclusa l'esecuzione GUI ancorata al contesto, la negoziazione del consenso e l'autolimitazione post-rifiuto, valutata attraverso un protocollo ibrido che combina verifica basata su regole con punteggi LLM-as-a-Judge. I nostri esperimenti rivelano un degrado sorprendente: agenti che eccellono nell'esecuzione esplicita di compiti scendono sotto il 50% con istruzioni vaghe che richiedono inferenza delle preferenze utente o calibrazione degli interventi, persino per modelli all'avanguardia come Claude Sonnet 4.6. I colli di bottiglia principali non sono la navigazione GUI ma l'acquisizione delle preferenze e la calibrazione degli interventi, esponendo un divario fondamentale tra la competente operatività dell'interfaccia e l'assistenza personale affidabile.
L'avvento di modelli multimodali agentivi ha dotato i sistemi della capacità di interagire attivamente con ambienti esterni. Tuttavia, gli agenti attuali soffrono di un profondo deficit metacognitivo: faticano ad arbitrare tra lo sfruttamento della conoscenza interna e l'interrogazione di utility esterne. Di conseguenza, cadono frequentemente vittime di invocazioni cieche di strumenti, ricorrendo a esecuzioni riflessive anche quando le query sono risolvibili dal contesto visivo grezzo. Questo comportamento patologico precipita severi colli di bottiglia di latenza e inietta rumore estraneo che devia il ragionamento corretto. I protocolli esistenti di apprendimento per rinforzo tentano di mitigare ciò tramite una ricompensa scalarizzata che penalizza l'uso degli strumenti. Tuttavia, questa formulazione accoppiata crea un dilemma di ottimizzazione irrisolvibile: una penalità aggressiva sopprime l'uso essenziale degli strumenti, mentre una penalità lieve viene interamente assorbita dalla varianza della ricompensa per accuratezza durante la normalizzazione del vantaggio, rendendola impotente contro l'abuso di strumenti. Per superare questo collo di bottiglia, proponiamo HDPO, un framework che riformula l'efficienza degli strumenti da un obiettivo scalare competitivo a uno strettamente condizionale. Evitando la scalarizzazione della ricompensa, HDPO mantiene due canali di ottimizzazione ortogonali: un canale di accuratezza che massimizza la correttezza del compito e un canale di efficienza che impone l'economia di esecuzione esclusivamente all'interno di traiettorie accurate tramite stima condizionale del vantaggio. Questa architettura disaccoppiata induce naturalmente un curriculum cognitivo, costringendo l'agente a padroneggiare prima la risoluzione del compito prima di affinare la sua autonomia. Valutazioni estensive dimostrano che il nostro modello risultante, Metis, riduce le invocazioni di strumenti di ordini di grandezza elevando simultaneamente l'accuratezza del ragionamento.
Gli agenti web – sistemi autonomi che navigano ed eseguono compiti sul web per conto degli utenti – hanno il potenziale per trasformare il modo in cui le persone interagiscono con il mondo digitale. Tuttavia, gli agenti web più capaci oggi si basano su modelli proprietari con dati e metodologie di addestramento non divulgati, limitando la comprensione scientifica, la riproducibilità e il progresso guidato dalla comunità. Crediamo che gli agenti per il web aperto debbano essere costruiti in modo aperto. A tal fine, introduciamo (1) MolmoWebMix, un'ampia e diversificata miscela di dimostrazioni di attività browser e dati di percezione web-GUI, e (2) MolmoWeb, una famiglia di agenti web multimodali completamente aperti. Nello specifico, MolmoWebMix combina oltre 100.000 traiettorie di compiti sintetiche provenienti da molteplici pipeline di generazione complementari con oltre 30.000 dimostrazioni umane, traiettorie di abilità web atomiche e dati di percezione GUI, inclusi il grounding di espressioni referenziali e il question answering su screenshot. Gli agenti MolmoWeb operano come politiche di azione visivo-linguistiche condizionate da istruzioni: data un'istruzione di compito e uno screenshot di una pagina web, predicono la prossima azione browser, senza richiedere accesso all'HTML, agli alberi di accessibilità o ad API specializzate. Disponibili nelle dimensioni 4B e 8B, su benchmark di utilizzo browser come WebVoyager, Online-Mind2Web e DeepShop, gli agenti MolmoWeb raggiungono risultati allo stato dell'arte, superando modelli open-weight-only di scala simile come Fara-7B, UI-Tars-1.5-7B e Holo1-7B. MolmoWeb-8B supera anche gli agenti set-of-marks (SoM) costruiti su modelli frontier chiusi molto più grandi come GPT-4o. Dimostriamo ulteriori guadagni consistenti attraverso lo scaling a tempo di test tramite rollout paralleli con selezione best-of-N, raggiungendo il 94,7% e il 60,5% di pass@4 (rispetto al 78,2% e 35,3% di pass@1) rispettivamente su WebVoyager e Online-Mind2Web. Rilasceremo checkpoint del modello, dati di addestramento, codice e un sistema di valutazione unificato per consentire la riproducibilità e accelerare la ricerca aperta sugli agenti web.
La comprensione spaziale è un pilastro fondamentale dell'intelligenza di livello umano. Tuttavia, la ricerca attuale si concentra prevalentemente sulla produzione di dati specifici per dominio, lasciando un vuoto critico: l'assenza di un motore open-source e basato su principi in grado di liberare appieno il potenziale dei dati spaziali di alta qualità. Per colmare questa lacuna, illustriamo i principi di progettazione di un sistema robusto per la generazione di dati e introduciamo OpenSpatial – un motore di dati open-source progettato per alta qualità, elevata scalabilità, ampia diversità di compiti ed efficienza ottimizzata. OpenSpatial adotta i bounding box 3D come primitiva fondamentale per costruire una gerarchia di dati completa su cinque compiti fondamentali: Misurazione Spaziale (SM), Relazione Spaziale (SR), Percezione della Fotocamera (CP), Coerenza Multi-vista (MC) e Ragionamento Consapevole della Scena (SAR). Sfruttando questa infrastruttura scalabile, abbiamo curato OpenSpatial-3M, un dataset su larga scala che comprende 3 milioni di campioni ad alta fedeltà. Valutazioni estensive dimostrano che modelli versatili addestrati sul nostro dataset raggiungono prestazioni all'avanguardia su un'ampia gamma di benchmark di ragionamento spaziale. In particolare, il modello con le migliori prestazioni mostra un sostanziale miglioramento medio relativo del 19 percento. Inoltre, forniamo un'analisi sistematica di come gli attributi dei dati influenzino la percezione spaziale. Rendendo open-source sia il motore che il dataset su scala 3M, forniamo una solida base per accelerare la futura ricerca sull'intelligenza spaziale.
Per estendere il paradigma del post-addestramento per rinforzo ai modelli onni-modali, al fine di potenziare simultaneamente la comprensione video-audio e il ragionamento collaborativo, proponiamo OmniJigsaw, un framework auto-supervisionato generico basato su un compito proxy di riordinamento temporale. Centrato sulla ricostruzione cronologica di clip audiovisive rimescolate, questo paradigma orchestra strategicamente i segnali visivi e uditivi per costringere l'integrazione cross-modale attraverso tre strategie distinte: Integrazione Congiunta delle Modalità, Selezione della Modalità a Livello di Campione e Mascheramento della Modalità a Livello di Clip. Riconoscendo che l'efficacia di tali compiti proxy è fondamentalmente legata alla qualità del "puzzle", progettiamo una pipeline di filtraggio dei dati a due stadi (da grossolano a fine), che facilita l'adattamento efficiente di OmniJigsaw a massicci dati onni-modali non annotati. La nostra analisi rivela un "fenomeno di scorciatoia bi-modale" nell'integrazione congiunta delle modalità e dimostra che il mascheramento fine della modalità a livello di clip mitiga questo problema, superando al contempo la selezione della modalità a livello di campione. Valutazioni estensive su 15 benchmark mostrano miglioramenti sostanziali nel ragionamento video, audio e collaborativo, convalidando OmniJigsaw come paradigma scalabile per l'apprendimento auto-supervisionato onni-modale.
L'utilizzo di competenze (skill) è diventato un componente fondamentale dei moderni sistemi agenti e può migliorare sostanzialmente la capacità degli agenti di completare compiti complessi. In scenari reali, dove gli agenti devono monitorare e interagire con numerose applicazioni personali, browser web e altre interfacce ambientali, le librerie di competenze possono scalare fino a migliaia di skill riutilizzabili. La scalabilità verso set di competenze più ampi introduce due sfide principali. In primo luogo, il caricamento dell'intero set di competenze satura la finestra di contesto, aumentando i costi in token, le allucinazioni e la latenza. In questo articolo, presentiamo Graph of Skills (GoS), un livello di retrieval strutturale in fase di inferenza per grandi librerie di competenze. GoS costruisce offline un grafo di skill eseguibile a partire da pacchetti di competenze; successivamente, in fase di inferenza, recupera un bundle di competenze delimitato e consapevole delle dipendenze attraverso: seeding ibrido semantico-lessicale, PageRank personalizzato a pesi inversi e idratazione con budget di contesto. Su SkillsBench e ALFWorld, GoS migliora la ricompensa media del 43,6% rispetto al baseline vanilla di caricamento completo delle skill, riducendo al contempo i token di input del 37,8%, e generalizza su tre famiglie di modelli: Claude Sonnet, GPT-5.2 Codex e MiniMax. Ulteriori studi di ablazione condotti su librerie di competenze che vanno da 200 a 2.000 skill dimostrano ulteriormente che GoS supera costantemente sia il caricamento vanilla delle skill che il semplice retrieval vettoriale nel bilanciare ricompensa, efficienza dei token e tempo di esecuzione.
Dato una persona e un'immagine di un capo d'abbigliamento, il virtual try-on (VTO) mira a sintetizzare un'immagine realistica della persona che indossa il capo, preservandone la posa originale e l'identità. Sebbene i recenti metodi di VTO eccellano nel visualizzare l'aspetto del capo, trascurano in larga misura un aspetto cruciale dell'esperienza di prova: l'accuratezza della vestibilità – ad esempio, raffigurando come una maglia taglia extra-large appare su una persona taglia extra-piccola. Un ostacolo chiave è l'assenza di dataset che forniscano informazioni precise sulle taglie del capo e del corpo, specialmente per i casi di "vestibilità scorretta", in cui i capi sono significativamente troppo grandi o troppo piccoli. Di conseguenza, gli attuali metodi di VTO generano per impostazione predefinita risultati ben aderenti, indipendentemente dalla taglia del capo o della persona. In questo articolo, compiamo i primi passi verso la risoluzione di questo problema aperto. Introduciamo FIT (Fit-Inclusive Try-on), un dataset VTO su larga scala comprendente oltre 1.13 milioni di triplette di immagini di prova, accompagnate da precise misurazioni corporee e del capo. Superiamo le sfide della raccolta dati tramite una strategia sintetica scalabile: (1) Generiamo programmaticamente capi 3D utilizzando GarmentCode e li drappeggiamo tramite simulazione fisica per catturare una vestibilità realistica. (2) Impieghiamo un nuovo framework di re-texturing per trasformare i rendering sintetici in immagini fotorealistiche preservando rigorosamente la geometria. (3) Introduciamo la preservazione dell'identità della persona nel nostro modello di re-texturing per generare immagini di persona abbinate (stessa persona, capi diversi) per l'addestramento supervisionato. Infine, sfruttiamo il nostro dataset FIT per addestrare un modello baseline di virtual try-on consapevole della vestibilità. I nostri dati e risultati stabiliscono il nuovo stato dell'arte per il virtual try-on consapevole della vestibilità, oltre a offrire un benchmark robusto per la ricerca futura. Renderemo tutti i dati e il codice pubblicamente disponibili sulla nostra pagina progetto: https://johannakarras.github.io/FIT.
I modelli linguistici all'avanguardia sono in grado di navigare siti web complessi, ma il loro costo e la dipendenza da API di terze parti rendono impraticabile un deployment locale. Introduciamo *Agent-as-Annotators*, un framework che struttura la generazione di traiettorie sintetiche per agenti web per analogia con i ruoli dell'annotazione umana, sostituendo il Progettista del Compito, l'Annotatore e il Supervisore con componenti modulari di LLM. Utilizzando Gemini 3 Pro come "insegnante", generiamo 3.000 traiettorie in sei ambienti web e addestriamo per fine-tuning uno "studente" da 9 miliardi di parametri con puro apprendimento supervisionato sulle 2.322 traiettorie che superano il filtraggio qualitativo. Il modello risultante raggiunge il 41,5% su WebArena, superando modelli proprietari come Claude 3.5 Sonnet (36,0%) e GPT-4o (31,5%) sotto lo stesso protocollo di valutazione, e quasi raddoppiando il precedente miglior risultato open-weight (Go-Browse, 21,7%). Le capacità si trasferiscono ad ambienti non visti, con un guadagno di 18,2 punti percentuali su WorkArena L1 (una piattaforma aziendale mai incontrata durante l'addestramento) e miglioramenti consistenti su tre benchmark aggiuntivi. Le ablazioni confermano che ogni componente della pipeline contribuisce in modo significativo, con il filtraggio del Giudice, i suggerimenti di valutazione e le tracce di ragionamento che spiegano ciascuno guadagni misurabili. Questi risultati dimostrano che la sintesi strutturata di traiettorie da un singolo insegnante all'avanguardia è sufficiente per produrre agenti web competitivi e distribuibili localmente. Pagina del progetto: https://agent-as-annotators.github.io
I modelli visione-linguaggio-azione (VLA) hanno fatto progredire la manipolazione robotica attraverso il pre-addestramento su larga scala, ma il dispiegamento nel mondo reale rimane impegnativo a causa dell'osservabilità parziale e del feedback ritardato. L'apprendimento per rinforzo affronta questo problema attraverso le funzioni di valore, che valutano i progressi del compito e guidano il miglioramento della politica. Tuttavia, i modelli di valore esistenti costruiti su modelli visione-linguaggio (VLM) faticano a catturare le dinamiche temporali, minando una stima affidabile del valore nei compiti a lungo termine. In questo articolo, proponiamo ViVa, un modello di valore video-generativo che riutilizza un generatore di video pre-addestrato per la stima del valore. Prendendo l'osservazione corrente e la propriocettione del robot come input, ViVa predice congiuntamente la propriocettione futura e un valore scalare per lo stato corrente. Sfruttando i preconcetti spazio-temporali di un generatore di video pre-addestrato, il nostro approccio ancorala stima del valore nelle dinamiche anticipate dell'incorporazione, andando oltre le istantanee statiche per accoppiare intrinsecamente il valore alla previsione. Integrato in RECAP, ViVa fornisce miglioramenti sostanziali nell'assemblaggio reale di scatole. L'analisi qualitativa su tutti e tre i compiti conferma che ViVa produce segnali di valore più affidabili, riflettendo accuratamente i progressi del compito. Sfruttando i preconcetti spazio-temporali provenienti da corpora video, ViVa generalizza anche a nuovi oggetti, evidenziando la promessa dei modelli video-generativi per la stima del valore.
L'adattamento dei Modelli Linguistici Multimodali (MLLM) per video della durata di ore è limitato dalla lunghezza del contesto. I flussi visivi densi saturano il budget dei token e aggravano il fenomeno del "lost-in-the-middle". Le euristiche esistenti, come il campionamento sparso o il pooling uniforme, sacrificano ciecamente la fedeltà scartando momenti decisivi e sprecando banda su sfondi irrilevanti. Proponiamo Tempo, un framework efficiente e query-aware che comprime video lunghi per la comprensione a valle. Tempo utilizza un Small Vision-Language Model (SVLM) come compressore temporale locale, trasformando la riduzione dei token in un processo di distillazione cross-modale precoce per generare rappresentazioni compatte e allineate all'intento in un singolo passaggio in avanti. Per imporre budget rigorosi senza violare la causalità, introduciamo l'Adaptive Token Allocation (ATA). Sfruttando la priorità di rilevanza zero-shot e il semantic front-loading dell'SVLM, l'ATA funge da router dinamico O(1) senza necessità di training. Alloca una banda densa ai segmenti critici per la query mentre comprime le ridondanze in ancoraggi temporali minimi per mantenere la narrazione globale. Esperimenti estensivi mostrano che la nostra architettura da 6B raggiunge prestazioni state-of-the-art con una compressione dinamica aggressiva (0.5-16 token/fotogramma). Sul LVBench estremamente lungo (4101s), Tempo ottiene un punteggio di 52.3 con un rigoroso budget visivo di 8K, superando GPT-4o e Gemini 1.5 Pro. Il ridimensionamento a 2048 fotogrammi raggiunge 53.7. Fondamentalmente, Tempo comprime video della durata di ore ben al di sotto dei limiti teorici, dimostrando che la vera comprensione di video di lunga durata si basa su un'efficienza guidata dall'intento piuttosto che su finestre di contesto gonfiate in modo avido.
La manipolazione robotica di oggetti deformabili rappresenta un regime ad alta intensità di dati nell'apprendimento embodied, in cui forma, contatto e topologia co-evolvono in modi che superano di gran lunga la variabilità dei corpi rigidi. Sebbene la simulazione prometta di alleviare i costi di acquisizione dei dati del mondo reale, le pipeline sim-to-real prevalenti rimangono radicate nelle astrazioni dei corpi rigidi, producendo una geometria non corrispondente, dinamiche soffici fragili e primitive di movimento poco adatte all'interazione con tessuti. Noi ipotizziamo che la simulazione fallisca non perché sia sintetica, ma perché non sia ancorata alla realtà. Per affrontare ciò, introduciamo SIM1, un motore di dati real-to-sim-to-real allineato alla fisica che ancorala simulazione al mondo fisico. Data una serie limitata di dimostrazioni, il sistema digitalizza le scene in gemelli metricamente consistenti, calibra le dinamiche deformabili attraverso la modellazione elastica ed espande i comportamenti tramite una generazione di traiettorie basata su diffusione con filtraggio di qualità. Questa pipeline trasforma osservazioni sparse in una supervisione sintetica scalabile con una fedeltà prossima a quella dimostrativa. Gli esperimenti mostrano che politiche addestrate su dati puramente sintetici raggiungono la parità con i baseline di dati reali con un rapporto di equivalenza di 1:15, ottenendo allo stesso tempo il 90% di successo in zero-shot e un miglioramento del 50% nella generalizzazione durante il dispiegamento nel mondo reale. Questi risultati convalidano la simulazione allineata alla fisica come supervisione scalabile per la manipolazione di deformabili e una via pratica per l'apprendimento di politiche efficiente in termini di dati.
La complessità computazionale quadratica dei meccanismi di attenzione standard rappresenta un grave collo di bottiglia per la scalabilità degli LLM negli scenari a contesto lungo. Sebbene i meccanismi di attenzione ibrida che combinano Attenzione Completa (FA) e Attenzione Sparsa (SA) offrano una potenziale soluzione, i metodi esistenti si basano tipicamente su rapporti di allocazione statici che non riescono ad adattarsi alle esigenze variabili di recupero delle informazioni di diversi compiti. Inoltre, la sparsità dinamica a livello di testina introduce spesso uno squilibrio severo del carico computazionale e code di sincronizzazione, che ostacolano l'accelerazione hardware durante la decodifica autoregressiva. Per colmare questa lacuna, introduciamo Flux Attention, un framework context-aware che ottimizza dinamicamente il calcolo dell'attenzione a livello di layer. Integrando un Layer Router leggero in LLM preaddestrati e congelati, il metodo proposto instrada adattivamente ogni layer verso FA o SA in base al contesto di input. Questo instradamento per layer preserva un recupero delle informazioni ad alta fedeltà garantendo al contempo accessi alla memoria contigui, trasformando le riduzioni computazionali teoriche in accelerazioni pratiche del tempo di esecuzione. Come approccio efficiente in termini di parametri, il nostro framework richiede solo 12 ore di addestramento su 8 GPU A800. Esperimenti estesi su molteplici benchmark di contesto lungo e ragionamento matematico dimostrano che Flux Attention raggiunge un compromesso superiore tra prestazioni e velocità di inferenza rispetto ai modelli baseline, con miglioramenti della velocità fino a 2,8 volte e 2,0 volte rispettivamente nelle fasi di prefill e decode.
I sistemi di database incorporano un numero crescente di funzioni nei loro kernel (note anche come funzioni native del database) per scenari come il supporto a nuove applicazioni e la migrazione di business. Questa crescita causa una domanda urgente di sintesi automatica delle funzioni native del database. Sebbene i recenti progressi nella generazione di codice basata su LLM (ad esempio, Claude Code) mostrino potenziale, essi sono troppo generici per lo sviluppo specifico dei database. Spesso generano allucinazioni o tralasciano contesti critici perché la sintesi di funzioni di database è intrinsecamente complessa e soggetta a errori, dove la sintesi di una singola funzione può coinvolgere la registrazione di multiple unità funzionali, il collegamento di riferimenti interni e l'implementazione corretta della logica. A tal fine, proponiamo DBCooker, un sistema basato su LLM per la sintesi automatica di funzioni native del database. Esso consiste in tre componenti. Primo, il modulo di caratterizzazione delle funzioni aggrega dichiarazioni multi-sorgente, identifica le unità funzionali che richiedono codifica specializzata e traccia le dipendenze cross-unità. Secondo, progettiamo operazioni per affrontare le principali sfide della sintesi: (1) un generatore di piani di codifica basato su pseudo-codice che costruisce scheletri di implementazione strutturati identificando elementi chiave come funzioni referenziate riutilizzabili; (2) un modello ibrido fill-in-the-blank guidato da prior probabilistiche e consapevolezza dei componenti per integrare la logica centrale con routine riutilizzabili; e (3) una validazione progressiva a tre livelli, inclusi controllo della sintassi, conformità agli standard e verifica semantica guidata da LLM. Infine, una strategia di orchestrazione adattiva unifica queste operazioni con strumenti esistenti e le sequenzia dinamicamente tramite la cronologia di orchestrazione di funzioni simili. I risultati mostrano che DBCooker supera altri metodi su SQLite, PostgreSQL e DuckDB (accuratezza superiore in media del 34,55%) e può sintetizzare nuove funzioni assenti nell'ultima versione di SQLite (v3.50).
L'emergere dei Large Language Model (LLM) ha illuminato il potenziale per un simulatore d'utente a scopo generale. Tuttavia, i benchmark esistenti rimangono limitati a scenari isolati, spazi d'azione ristretti o dati sintetici, non riuscendo a cogliere la natura olistica del comportamento umano autentico. Per colmare questa lacuna, introduciamo OmniBehavior, il primo benchmark di simulazione utente interamente costruito da dati del mondo reale, che integra modelli comportamentali a lungo termine, trasversali agli scenari ed eterogenei in un quadro unificato. Basandoci su questo benchmark, forniamo per la prima volta evidenze empiriche che i dataset precedenti con scenari isolati soffrono di visione tunnel, mentre il processo decisionale nel mondo reale si basa su catene causali a lungo termine e trasversali agli scenari. Valutazioni estensive sui LLM più avanzati rivelano che i modelli attuali faticano a simulare accuratamente questi comportamenti complessi, con prestazioni che raggiungono un plateau anche con l'ampliamento delle finestre contestuali. Crucialmente, un confronto sistematico tra comportamenti simulati e autentici rivela un pregiudizio strutturale fondamentale: i LLM tendono a convergere verso una persona media positiva, esibendo iper-attività, omogeneizzazione della persona e un pregiudizio utopico. Ciò si traduce nella perdita delle differenze individuali e dei comportamenti a coda lunga, evidenziando direzioni critiche per la futura ricerca sulla simulazione ad alta fedeltà.
I modelli foundation offrono una percezione solida, ma spesso risultano troppo computazionalmente pesanti per essere implementati, e adattarli richiede tipicamente annotazioni costose. Introduciamo un framework di distillazione della conoscenza semi-supervisionata (SSKD) che comprime modelli foundation visivi (VFM) pre-addestrati in esperti compatti, utilizzando dati etichettati limitati e dati non etichettati abbondanti, e lo istanziamo per l'instance segmentation, dove le etichette per-pixel sono particolarmente costose. Il framework si articola in tre fasi: (1) adattamento al dominio del(i) VFM tramite self-training con calibrazione contrastiva, (2) trasferimento della conoscenza attraverso una funzione di perdita multi-obiettivo unificata, e (3) raffinamento dello studente per mitigare il bias residuo delle pseudo-etichette. Elemento centrale del nostro approccio è una perdita contrastiva pixel-wise e instance-aware che fonde i punteggi delle maschere e delle classi per estrarre negativi informativi e imporre margini inter-istanza chiari. Mantenendo questo segnale contrastivo sia durante l'adattamento che la distillazione, allineiamo gli embedding del teacher e dello studente e sfruttiamo più efficacemente le immagini non etichettate. Su Cityscapes e ADE20K, il nostro studente circa 11 volte più piccolo migliora il(i) suo(i) teacher VFM zero-shot di +11.9 e +8.6 AP, supera il(i) teacher adattato(i) di +3.4 e +1.5 AP, e supera i metodi SSKD all'avanguardia sui benchmark.
I modelli di diffusione hanno ottenuto progressi notevoli nella generazione video, ma la loro controllabilità rimane una limitazione significativa. Fattori chiave della scena come layout, illuminazione e traiettoria della telecamera sono spesso intrecciati o modellati solo debolmente, limitando la loro applicabilità in domini come la produzione cinematografica e virtuale dove il controllo esplicito della scena è essenziale. Presentiamo LiVER, un framework basato sulla diffusione per la generazione video controllabile a livello di scena. Per raggiungere questo obiettivo, introduciamo un framework innovativo che condiziona la sintesi video su proprietà 3D esplicite della scena, supportato da un nuovo dataset su larga scala con annotazioni dense di layout degli oggetti, illuminazione e parametri della telecamera. Il nostro metodo disaccoppia queste proprietà renderizzando segnali di controllo da una rappresentazione 3D unificata. Proponiamo un modulo di condizionamento leggero e una strategia di addestramento progressivo per integrare questi segnali in un modello di diffusione video fondamentale, garantendo convergenza stabile e alta fedeltà. Il nostro framework abilita un'ampia gamma di applicazioni, inclusa la sintesi da immagine a video e da video a video dove la scena 3D sottostante è completamente modificabile. Per migliorare ulteriormente l'usabilità, sviluppiamo un agente di scena che traduce automaticamente le istruzioni utente di alto livello nei segnali di controllo 3D richiesti. Gli esperimenti dimostrano che LiVER raggiunge un fotorealismo e una coerenza temporale allo stato dell'arte, consentendo al contempo un controllo preciso e disaccoppiato sui fattori della scena, stabilendo un nuovo standard per la generazione video controllabile.
Indaghiamo se le capacità acquisite post-addestramento possano essere trasferite tra modelli senza riaddestramento, con un focus sul trasferimento tra diverse scale di modelli. Proponiamo l'Ipotesi della Chiave Master, la quale afferma che le capacità di un modello corrispondono a direzioni in un sottospazio latente a bassa dimensionalità che inducono comportamenti specifici e sono trasferibili tra modelli attraverso un allineamento lineare. Sulla base di questa ipotesi, introduciamo UNLOCK, un framework senza addestramento e senza etichette che estrae una direzione di capacità confrontando le attivazioni tra varianti Sorgente che possiedono la capacità e varianti che ne sono prive, la allinea con un modello Target attraverso una trasformazione lineare di basso rango e la applica al momento dell'inferenza per elicitare il comportamento. Esperimenti su comportamenti di ragionamento, inclusi il Ragionamento a Catena (Chain-of-Thought, CoT) e il ragionamento matematico, dimostrano miglioramenti sostanziali attraverso diverse scale di modelli senza addestramento. Ad esempio, trasferire il ragionamento CoT da Qwen1.5-14B a Qwen1.5-7B produce un guadagno di accuratezza del 12.1% su MATH, e trasferire una direzione di ragionamento matematico da Qwen3-4B-Base a Qwen3-14B-Base migliora l'accuratezza su AGIEval Math dal 61.1% al 71.3%, superando il 67.8% raggiunto dal modello da 14B post-addestrato. La nostra analisi mostra che il successo del trasferimento dipende dalle capacità apprese durante il pre-addestramento e che il nostro intervento amplifica le capacità latenti affinando la distribuzione di output verso traiettorie di ragionamento di successo.
I modelli di ragionamento multimodale (MRM) addestrati con apprendimento per rinforzo con ricompense verificabili (RLVR) mostrano una maggiore accuratezza sui benchmark di ragionamento visivo. Tuttavia, osserviamo che i guadagni in accuratezza spesso avvengono a scapito della qualità del ragionamento: le tracce di ragionamento a catena (Chain-of-Thought, CoT) generate sono frequentemente inconsistenti con la risposta finale e scarsamente ancorate all'evidenza visiva. Studiamo sistematicamente questo fenomeno su sette impegnativi benchmark di ragionamento spaziale del mondo reale e scopriamo che esso interessa MRM contemporanei come ViGoRL-Spatial, TreeVGR, così come i nostri modelli addestrati con l'ottimizzazione standard della politica di gruppo relativa (Group Relative Policy Optimization, GRPO). Caratterizziamo la qualità del ragionamento CoT lungo due assi complementari: "consistenza logica" (la CoT implica la risposta finale?) e "ancoraggio visivo" (ogni passo del ragionamento descrive accuratamente oggetti, attributi e relazioni spaziali nell'immagine?). Per affrontare questo problema, proponiamo Faithful GRPO (FGRPO), una variante della GRPO che applica la consistenza e l'ancoraggio come vincoli tramite ascesa duale Lagrangiana. La FGRPO incorpora vincoli di consistenza e ancoraggio a livello di batch nel calcolo del vantaggio all'interno di un gruppo, aggiustando in modo adattivo l'importanza relativa dei vincoli durante l'ottimizzazione. Valutiamo la FGRPO su backbone Qwen2.5-VL-7B e 3B attraverso sette dataset spaziali. I nostri risultati mostrano che la FGRPO migliora sostanzialmente la qualità del ragionamento, riducendo il tasso di inconsistenza dal 24,5% all'1,7% e migliorando i punteggi di ancoraggio visivo di +13%. Migliora anche l'accuratezza della risposta finale rispetto alla semplice GRPO, dimostrando che un ragionamento fedele consente risposte migliori.
I recenti progressi nella modellazione video generativa, favoriti da dataset su larga scala e architetture potenti, hanno prodotto un realismo visivo notevole. Tuttavia, evidenze emergenti suggeriscono che il semplice aumento dei dati e delle dimensioni del modello non conferisce a questi sistemi una comprensione delle leggi fisiche sottostanti che governano le dinamiche del mondo reale. Gli approcci esistenti spesso non riescono a catturare o imporre tale coerenza fisica, risultando in movimenti e dinamiche irrealistici. In questo lavoro, indaghiamo se l'integrazione dell'inferenza di proprietà fisiche latenti direttamente nel processo di generazione video possa fornire ai modelli la capacità di produrre video fisicamente plausibili. A tal fine, proponiamo Phantom, un modello di Generazione Video con Infusione Fisica che modella congiuntamente il contenuto visivo e le dinamiche fisiche latenti. Condizionato da fotogrammi video osservati e stati fisici inferiti, Phantom predice congiuntamente le dinamiche fisiche latenti e genera i fotogrammi video futuri. Phantom sfrutta una rappresentazione video consapevole della fisica che funge da incorporamento astratto ma informativo della fisica sottostante, facilitando la previsione congiunta delle dinamiche fisiche insieme al contenuto video, senza richiedere una specifica esplicita di un complesso insieme di dinamiche e proprietà fisiche. Integrando direttamente l'inferenza della rappresentazione video fisicamente consapevole nel processo di generazione, Phantom produce sequenze video che sono sia visivamente realistiche che fisicamente coerenti. Risultati quantitativi e qualitativi su benchmark standard di generazione video e di consapevolezza fisica dimostrano che Phantom non solo supera i metodi esistenti in termini di aderenza alle dinamiche fisiche, ma offre anche una fedeltà percettiva competitiva.
Sebbene i Modelli Visione-Linguaggio (VLM) abbiano compiuto progressi notevoli nella comprensione visiva statica, il loro dispiegamento in ambienti incarnati (embodied) 3D complessi rimane fortemente limitato. I benchmark esistenti presentano quattro carenze critiche: (1) i compiti di percezione passiva eludono le dinamiche interattive; (2) ambienti 2D semplificati non consentono di valutare la percezione della profondità; (3) la fuoriuscita di informazioni di stato privilegiate bypassa l'elaborazione visiva genuina; e (4) la valutazione umana è economicamente proibitiva e non scalabile. Introduciamo PokeGym, un benchmark visivo a lungo orizzonte istanziato all'interno di *Pokemon Legends: Z-A*, un gioco di ruolo open-world 3D visivamente complesso. PokeGym applica un isolamento rigoroso a livello di codice: gli agenti operano esclusivamente su osservazioni RGB grezze, mentre un valutatore indipendente verifica il successo tramite scansione della memoria, garantendo un processo decisionale puramente basato sulla vista e una valutazione automatizzata e scalabile. Il benchmark comprende 30 compiti (30-220 passi) che spaziano tra scenari di navigazione, interazione e misti, con tre granularità di istruzione (Guidata Visivamente, Guidata a Passi, Solo Obiettivo) per decostruire sistematicamente le capacità di grounding visivo, ragionamento semantico ed esplorazione autonoma. La nostra valutazione rivela una limitazione chiave degli attuali VLM: il recupero da situazioni di stallo fisico (deadlock), piuttosto che la pianificazione di alto livello, costituisce il collo di bottiglia principale, con i deadlock che mostrano una forte correlazione negativa con il successo del compito. Inoltre, scopriamo una divergenza metacognitiva: i modelli più deboli soffrono principalmente di Deadlock Inconsapevoli (non avvertono l'intrappolamento), mentre i modelli avanzati mostrano Deadlock Consapevoli (riconoscono l'intrappolamento ma non riescono a recuperare). Questi risultati evidenziano la necessità di integrare un'intuizione spaziale esplicita all'interno delle architetture dei VLM. Il codice e il benchmark saranno disponibili su GitHub.
L'anomaly detection zero-shot mira a rilevare e localizzare le regioni anomale nell'immagine senza avere accesso ad alcuna immagine di training del dominio di riferimento. Mentre gli approcci recenti sfruttano modelli vision-language (VLM), come CLIP, per trasferire conoscenze di concetti di alto livello, i metodi basati esclusivamente su modelli foundation visivi (VFM), come DINOv2, sono rimasti indietro in termini di prestazioni. Sosteniamo che questo divario derivi da due problemi pratici: (i) la limitata diversità nei dataset ausiliari di anomaly detection esistenti e (ii) strategie di adattamento dei VFM eccessivamente superficiali. Per affrontare entrambe le sfide, proponiamo AnomalyVFM, un framework generale ed efficace che trasforma qualsiasi VFM preaddestrato in un forte rilevatore di anomalie zero-shot. Il nostro approccio combina uno schema robusto di generazione di dataset sintetici in tre fasi con un meccanismo di adattamento efficiente in parametri, utilizzando adattatori di feature low-rank e una loss pixel pesata in base alla confidenza. Insieme, questi componenti consentono ai VFM moderni di superare sostanzialmente i metodi state-of-the-art attuali. Nello specifico, utilizzando RADIO come backbone, AnomalyVFM raggiunge una AUROC a livello di immagine media del 94,1% su 9 dataset diversificati, superando i metodi precedenti di significativi 3,3 punti percentuali. Pagina del progetto: https://maticfuc.github.io/anomaly_vfm/
L'implementazione di grandi modelli linguistici (LLM) su dispositivi edge eterogenei richiede framework che ottimizzino congiuntamente l'efficienza energetica, la qualità dell'inferenza e l'affidabilità. Il nostro precedente QEIL v1 (Kumar & Jha, 2026) ha ottenuto un miglioramento di 4,82x dell'IPW, ma si basava su fattori di efficienza statici, ottimizzazione greedy e selezione dei candidati non verificata. QEIL v2 sostituisce ogni euristica statica con modelli adattativi a runtime basati sulla fisica. Introduciamo tre metriche dispositivo-carico di lavoro: DASI (utilizzo computazionale derivato dal modello roofline), CPQ (pressione sulla memoria derivata dalla teoria delle code) e Phi (rendimento termico basato sulla fisica delle perdite CMOS), formando un'equazione energetica unificata in cui ogni coefficiente è riconducibile alla fisica dei semiconduttori. Per l'ottimizzazione, PGSAM (Simulated Annealing con Guida Pareto e Momento) minimizza simultaneamente energia, latenza e sottoutilizzo del dispositivo. Al momento dell'inferenza, la cascada di selezione EAC/ARDE con arresto anticipato CSVET fornisce una verifica progressiva tra campioni ripetuti. Valutato su WikiText-103, GSM8K e ARC-Challenge su sette famiglie di modelli (125M-8B parametri, inclusa una variante pre-quantizzata), QEIL v2 raggiunge il 75,7% di pass@k a 63,8W (IPW=0,9749), un miglioramento di 2,86x rispetto all'inferenza standard. Applicato a un Llama-3.1-8B a 4 bit, l'instradamento basato sulla fisica di QEIL v2 raggiunge IPW=1,024 a 54,8W – il primo sistema di orchestrazione edge a superare il riferimento empirico IPW=1,0, con il guadagno interamente attribuibile all'allocazione adattativa del carico di lavoro su dispositivo di QEIL v2 per un modello con requisiti ridotti di banda di memoria. L'energia totale si riduce del 75,6% rispetto allo standard, con una riduzione della latenza del 38,3%, zero throttling termico e recupero del 100% dei fault in tutti i benchmark e le famiglie di modelli.
I modelli visione-linguaggio (VLM) raggiungono prestazioni multimodali robuste, ma come il calcolo sia organizzato attraverso popolazioni di neuroni rimane scarsamente compreso. In questo lavoro, studiamo i VLM attraverso la lente della topologia neurale, rappresentando ogni strato come un grafo di correlazione intra-strato derivato dalle co-attivazioni neurone-neurone. Questa prospettiva ci permette di chiederci se la struttura a livello di popolazione sia comportamentalmente significativa, come cambi tra modalità e profondità, e se identifichi componenti interni causalmente influenti sotto intervento. Dimostriamo che la topologia delle correlazioni trasporta un segnale comportamentale recuperabile; inoltre, la struttura cross-modale si consolida progressivamente con la profondità attorno a un insieme compatto di neuroni hub ricorrenti, la cui perturbazione mirata altera sostanzialmente l'output del modello. La topologia neurale emerge quindi come una scala intermedia significativa per l'interpretabilità dei VLM: più ricca delle attribuzioni locali, più trattabile della ricostruzione completa del circuito, e empiricamente legata al comportamento multimodale. Il codice è pubblicamente disponibile all'indirizzo https://github.com/he-h/vlm-graph-probing.
Recenti lavori hanno esplorato l'ottimizzazione delle pipeline di elaborazione del segnale d'immagine (ISP) per vari compiti componendo moduli predefiniti e adattandoli a obiettivi specifici. Tuttavia, l'ottimizzazione congiunta delle sequenze modulari e dei loro parametri rimane impegnativa. Gli approcci esistenti si basano sulla ricerca di architetture neurali (NAS) o su apprendimento per rinforzo (RL) step-by-step, ma la NAS soffre di una discrepanza addestramento-inferenza, mentre il RL step-by-step porta a un addestramento instabile e a un elevato costo computazionale a causa del processo decisionale per stadi. Proponiamo POS-ISP, un framework RL a livello di sequenza che formula l'ottimizzazione modulare dell'ISP come un problema di predizione globale della sequenza. Il nostro metodo predice l'intera sequenza modulare e i suoi parametri in un singolo passaggio in avanti e ottimizza la pipeline utilizzando una ricompensa finale basata sul compito, eliminando la necessità di supervisione intermedia ed esecuzioni ridondanti. Esperimenti su molteplici compiti downstream mostrano che POS-ISP migliora le prestazioni del compito riducendo al contempo il costo computazionale, evidenziando l'ottimizzazione a livello di sequenza come un paradigma stabile ed efficiente per ISP orientati al compito. La pagina del progetto è disponibile all'indirizzo https://w1jyun.github.io/POS-ISP.
I modelli moderni di testo-immagine (T2I) generano visuali ad alta fedeltà ma rimangono indifferenti alle preferenze individuali degli utenti. Sebbene i modelli di reward esistenti ottimizzino per l'appeal umano "medio", non riescono a cogliere l'intrinseca soggettività del giudizio estetico. In questo lavoro, introduciamo un nuovo dataset e un framework predittivo, chiamato PAMELA, progettato per modellare le valutazioni di immagini personalizzate. Il nostro dataset comprende 70.000 valutazioni su 5.000 immagini diverse generate da modelli all'avanguardia (Flux 2 e Nano Banana). Ogni immagine è valutata da 15 utenti unici, fornendo una ricca distribuzione di preferenze soggettive attraverso domini come arte, design, moda e fotografia cinematografica. Sfruttando questi dati, proponiamo un modello di reward personalizzato addestrato congiuntamente sulle nostre annotazioni di alta qualità e su sottoinsiemi esistenti di valutazione estetica. Dimostriamo che il nostro modello predice il gradimento individuale con una precisione superiore a quella con cui la maggior parte dei metodi state-of-the-art attuali predice le preferenze a livello di popolazione. Utilizzando il nostro predittore personalizzato, dimostriamo come semplici metodi di ottimizzazione dei prompt possano essere utilizzati per orientare le generazioni verso le preferenze individuali degli utenti. I nostri risultati evidenziano l'importanza della qualità dei dati e della personalizzazione per gestire la soggettività delle preferenze utente. Rilasciamo il nostro dataset e modello per facilitare la ricerca standardizzata nell'allineamento T2I personalizzato e nella valutazione soggettiva della qualità visiva.
I recenti progressi nei modelli visione-linguaggio (VLM) hanno migliorato la descrizione automatica di immagini per il patrimonio culturale. Tuttavia, l'inferenza di metadati culturali strutturati (ad esempio, creatore, origine, periodo) dagli input visivi rimane poco esplorata. Introduciamo un benchmark multicategoria e cross-culturale per questo compito e valutiamo i VLM utilizzando un framework LLM-as-Judge che misura l'allineamento semantico con le annotazioni di riferimento. Per valutare il ragionamento culturale, riportiamo accuratezza di corrispondenza esatta, corrispondenza parziale e a livello di attributo tra le regioni culturali. I risultati mostrano che i modelli catturano segnali frammentati ed evidenziano una variazione prestazionale sostanziale tra culture e tipi di metadati, portando a previsioni inconsistenti e debolmente fondate. Questi risultati evidenziano le limitazioni degli attuali VLM nell'inferenza di metadati culturali strutturati al di là della percezione visiva.
L'apprendimento per rinforzo (RL) è diventato un approccio efficace per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM) attraverso l'integrazione strategica di motori di ricerca esterni. Tuttavia, gli agenti di ricerca basati su RL attuali spesso si affidano a un processo di esplorazione stocastica guidato da ricompense di risultato accuratamente progettate, portando a traiettorie di ragionamento inefficienti e un addestramento instabile. Per affrontare questi problemi, proponiamo una nuova architettura, Hierarchical Experience (HiExp), per migliorare le prestazioni e la stabilità dell'addestramento degli agenti di ricerca. Nello specifico, estraiamo conoscenza empirica attraverso l'analisi contrastiva e un meccanismo di clustering multilivello, trasformando le traiettorie di ragionamento grezze in conoscenza esperienziale gerarchica. Sfruttando un addestramento allineato all'esperienza, regolarizziamo efficacemente l'esplorazione stocastica, evolvendola in un processo di ricerca strategico e guidato dall'esperienza. Valutazioni estensive su molteplici benchmark complessi di ricerca agentiva e ragionamento matematico dimostrano che il nostro approccio non solo ottiene miglioramenti prestazionali sostanziali, ma mostra anche una forte generalizzazione trasversale ai compiti e agli algoritmi.
I benchmark di memoria esistenti per agenti LLM valutano il richiamo esplicito di fatti, ma trascurano la memoria implicita, in cui l'esperienza diventa comportamento automatizzato senza un recupero cosciente. Questa lacuna è cruciale: assistenti efficaci devono applicare automaticamente procedure apprese o evitare azioni fallite senza promemoria espliciti. Introduciamo ImplicitMemBench, il primo benchmark sistematico che valuta la memoria implicita attraverso tre costrutti cognitivamente fondati, tratti dalle teorie standard delle scienze cognitive sulla memoria non dichiarativa: Memoria Procedurale (acquisizione di abilità one-shot dopo interferenza), Priming (bias guidato da temi tramite istanze sperimentali/controllo abbinate) e Condizionamento Classico (associazioni Stimolo Condizionato – Stimolo Incondizionato (CS–US) che modellano le prime decisioni). La nostra suite di 300 elementi impiega un protocollo unificato Apprendimento/Priming-Interferenza-Test con valutazione del primo tentativo. La valutazione di 17 modelli rivale limitazioni severe: nessun modello supera il 66% complessivo, con i migliori performer DeepSeek-R1 (65.3%), Qwen3-32B (64.1%) e GPT-5 (63.0%) ben al di sotto dei baseline umani. L'analisi scopre asimmetrie drammatiche (inibizione 17.6% vs. preferenza 75.0%) e colli di bottiglia universali che richiedono innovazioni architetturali oltre il semplice scaling dei parametri. ImplicitMemBench riformula la valutazione da "cosa ricordano gli agenti" a "cosa mettono automaticamente in atto".
Presentiamo RewardFlow, un framework senza inversione che guida modelli preaddestrati di diffusione e flow-matching durante l'inferenza attraverso una dinamica di Langevin multi-ricompensa. RewardFlow unisce ricompense differenziabili complementari per l'allineamento semantico, la fedeltà percettiva, il grounding localizzato, la consistenza oggettuale e le preferenze umane, e introduce inoltre una ricompensa differenziabile basata su VQA che fornisce una supervisione semantica granulare attraverso il ragionamento linguaggio-visione. Per coordinare questi eterogenei obiettivi, progettiamo una politica adattiva prompt-aware che estrae primitive semantiche dall'istruzione, inferisce l'intento di modifica e modula dinamicamente i pesi delle ricompense e le dimensioni del passo durante tutto il campionamento. Su diverse benchmark di editing di immagini e generazione composizionale, RewardFlow fornisce una fedeltà di modifica e un allineamento composizionale allo stato dell'arte.
I modelli di visione artificiale di basso livello supervisionati si basano su loss puntuali (pixel-wise) rispetto a riferimenti accoppiati, tuttavia i dataset di training accoppiati presentano un'incongruenza fotometrica per ogni coppia; ad esempio, coppie di immagini diverse richiedono mappature globali diverse per luminosità, colore o bilanciamento del bianco. Questa incongruenza si insinua attraverso trasferimenti fotometrici intrinseci al compito (ad es., enhancement di immagini in condizioni di scarsa illuminazione) o tramite spostamenti non intenzionali durante l'acquisizione (ad es., rimozione della pioggia), e in entrambi i casi causa una patologia di ottimizzazione. Le loss di ricostruzione standard allocano un budget di gradiente sproporzionato verso target fotometrici contrastanti per ogni coppia, soffocando il ripristino del contenuto. In questo articolo, investigiamo questo problema e dimostriamo che, sotto una scomposizione ai minimi quadrati, le componenti fotometrica e strutturale del residuo (predizione-target) sono ortogonali, e che la componente fotometrica spazialmente densa domina l'energia del gradiente. Motivati da questa analisi, proponiamo la Photometric Alignment Loss (PAL). Questo obiettivo di supervisione flessibile sconta la discrepanza fotometrica di disturbo tramite un allineamento affine dei colori in forma chiusa, preservando al contempo la supervisione rilevante per il ripristino, richiedendo solo statistiche di covarianza e una piccola inversione di matrice con overhead trascurabile. Attraverso 6 task, 16 dataset e 16 architetture, PAL migliora costantemente le metriche e la generalizzazione. L'implementazione è in appendice.
La stima della profondità autosupervisionata a visualizzazione surround consente una percezione 3D densa e a basso costo con un campo visivo di 360° a partire da immagini multiple con sovrapposizione minima. Tuttavia, la maggior parte dei metodi esistenti soffre di stime di profondità inconsistenti tra le immagini sovrapposte. Per affrontare questa limitazione, proponiamo un metodo innovativo guidato dalla geometria per sistemi multi-camera calibrati e sincronizzati temporalmente, che predice una profondità metrica densa. Il nostro approccio mira a due fonti principali di inconsistenza: il campo recettivo limitato nelle regioni di bordo della stima di profondità monoculare e la difficoltà della corrispondenza di feature. Mitighiamo questi due problemi estendendo il campo recettivo attraverso le viste e limitando l'attenzione cross-view a un piccolo intorno. A tal fine, stabiliamo le relazioni di vicinato tra le immagini mappando le posizioni delle feature specifiche di ogni immagine su un cilindro condiviso. Sulla base delle posizioni cilindriche, applichiamo un meccanismo di attenzione spaziale esplicita, con ponderazione non appresa, che aggrega le feature tra le immagini in base alle loro distanze sul cilindro. Le feature modulate vengono poi decodificate in una mappa di profondità per ogni vista. Valutato sui dataset DDAD e nuScenes, il nostro metodo migliora sia la consistenza della profondità cross-view che l'accuratezza complessiva della profondità rispetto agli approcci allo stato dell'arte. Il codice è disponibile all'indirizzo https://abualhanud.github.io/CylinderDepthPage.