Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo HY-World 2.0, un framework di modelli mondiali multimodale che rappresenta un avanzamento rispetto al nostro precedente progetto HY-World 1.0. HY-World 2.0 accetta diverse modalità di input, inclusi prompt testuali, immagini a vista singola, immagini multivista e video, e produce rappresentazioni 3D del mondo. Con input testuali o di immagini a vista singola, il modello esegue la generazione di mondi, sintetizzando scene navigabili ad alta fedeltà utilizzando la tecnica del Gaussian Splatting 3D (3DGS). Questo risultato è ottenuto attraverso un metodo articolato in quattro fasi: a) Generazione di Panorami con HY-Pano 2.0, b) Pianificazione della Traiettoria con WorldNav, c) Espansione del Mondo con WorldStereo 2.0, e d) Composizione del Mondo con WorldMirror 2.0. Nello specifico, introduciamo innovazioni chiave per migliorare la fedeltà dei panorami, abilitare la comprensione e la pianificazione di scene 3D, e potenziare WorldStereo, il nostro modello di generazione di viste basato su keyframe, dotandolo di una memoria consistente. Potenziamo inoltre WorldMirror, un modello feed-forward per la previsione 3D universale, affinando l'architettura del modello e la strategia di apprendimento, consentendo la ricostruzione del mondo a partire da immagini multivista o video. Inoltre, introduciamo WorldLens, una piattaforma di rendering 3DGS ad alte prestazioni che vanta un'architettura flessibile e indipendente dal motore di rendering, illuminazione IBL automatica, rilevamento efficiente delle collisioni e una co-progettazione di addestramento e rendering, permettendo l'esplorazione interattiva di mondi 3D con supporto per personaggi. Esperimenti estensivi dimostrano che HY-World 2.0 raggiunge prestazioni all'avanguardia su diversi benchmark tra gli approcci open-source, fornendo risultati paragonabili al modello closed-source Marble. Rilasciamo tutti i pesi dei modelli, il codice e i dettagli tecnici per facilitare la riproducibilità e supportare ulteriori ricerche sui modelli mondiali 3D.
La guida autonoma di alto livello richiede pianificatori di movimento in grado di modellare le incertezze multimodali future, mantenendo al contempo robustezza nelle interazioni a ciclo chiuso. Sebbene i pianificatori basati su diffusione siano efficaci nel modellare distribuzioni complesse di traiettorie, spesso soffrono di instabilità stocastiche e della mancanza di feedback negativo correttivo quando addestrati esclusivamente con apprendimento per imitazione. Per affrontare questi problemi, proponiamo RAD-2, un framework unificato generatore-discriminatore per la pianificazione a ciclo chiuso. Nello specifico, un generatore basato su diffusione produce candidati di traiettoria diversificati, mentre un discriminatore ottimizzato con RL riclassifica questi candidati in base alla loro qualità di guida a lungo termine. Questo design disaccoppiato evita di applicare direttamente ricompense scalari sparse all'intero spazio ad alta dimensionalità delle traiettorie, migliorando così la stabilità dell'ottimizzazione. Per potenziare ulteriormente l'apprendimento per rinforzo, introduciamo l'ottimizzazione delle politiche relative di gruppo temporalmente coerenti, che sfrutta la coerenza temporale per alleviare il problema dell'assegnazione del credito. Inoltre, proponiamo l'ottimizzazione del generatore on-policy, che converte il feedback a ciclo chiuso in segnali di ottimizzazione longitudinale strutturati e sposta progressivamente il generatore verso le varietà di traiettorie ad alta ricompensa. Per supportare un addestramento su larga scala efficiente, introduciamo BEV-Warp, un ambiente di simulazione ad alta produttività che esegue valutazioni a ciclo chiuso direttamente nello spazio delle caratteristiche Bird's-Eye View tramite deformazione spaziale. RAD-2 riduce il tasso di collisioni del 56% rispetto a potenti pianificatori basati su diffusione. Il dispiegamento nel mondo reale dimostra inoltre un miglioramento della sicurezza percepita e della fluidità di guida nel traffico urbano complesso.
Gli Agenti di Ricerca Approfondita (DRA) mirano a risolvere complesse attività di ricerca a lungo termine che coinvolgono pianificazione, recupero delle informazioni, comprensione multimodale e generazione di report, ma la loro valutazione rimane problematica a causa degli ambienti web dinamici e delle definizioni di task ambigue. Proponiamo DR^{3}-Eval, un benchmark realistico e riproducibile per valutare gli agenti di ricerca approfondita nella generazione di report multimodali e multi-file. DR^{3}-Eval è costruito a partire da materiali autentici forniti dagli utenti e abbinato a un corpus sandbox di ricerca statico per task che simula la complessità del web aperto pur rimanendo completamente verificabile, contenente documenti di supporto, elementi di disturbo e rumore. Inoltre, introduciamo un framework di valutazione multidimensionale che misura Richiamo delle Informazioni, Accuratezza Fattuale, Copertura delle Citazioni, Aderenza alle Istruzioni e Qualità della Profondità, e ne validiamo l'allineamento con i giudizi umani. Esperimenti con il nostro sistema multi-agente sviluppato DR^{3}-Agent, basato su molteplici modelli linguistici all'avanguardia, dimostrano che DR^{3}-Eval è estremamente impegnativo e rivela modalità di fallimento critiche nella robustezza del retrieval e nel controllo delle allucinazioni. Il nostro codice e i dati sono pubblicamente disponibili.
Una strategia ampiamente adottata per il miglioramento dei modelli consiste nell'utilizzare dati sintetici generati da un modello più potente per l'addestramento supervisionato fine (SFT). Tuttavia, per modelli emergenti di ragionamento come Qwen3-8B, questo approccio spesso non riesce a migliorare le capacità di ragionamento e può persino portare a un calo significativo delle prestazioni. In questo lavoro, identifichiamo una sostanziale divergenza stilistica tra i dati generati dal "teacher" e la distribuzione dello "student" come un fattore principale che influisce sull'SFT. Per colmare questa lacuna, proponiamo un framework di sintesi dati basato sulla cooperazione Teacher-Student (TESSY), che intercala i modelli teacher e student per generare alternativamente token stilistici e non stilistici. Di conseguenza, TESSY produce sequenze sintetiche che ereditano le avanzate capacità di ragionamento del teacher, mantenendo al contempo la coerenza stilistica con la distribuzione dello student. Negli esperimenti sulla generazione di codice utilizzando GPT-OSS-120B come teacher, l'addestramento fine di Qwen3-8B su dati generati dal teacher porta a cali di prestazioni del 3,25% su LiveCodeBench-Pro e del 10,02% su OJBench, mentre TESSY ottiene miglioramenti rispettivamente dell'11,25% e del 6,68%.
I grandi modelli linguistici (LLM), nonostante siano allineati per la sicurezza, mostrano comportamenti di rifiuto fragili che possono essere elusi tramite semplici cambiamenti linguistici. Il cosiddetto "jailbreaking del tempo verbale" dimostra che i modelli che rifiutano richieste dannose spesso le accettano quando queste vengono riformulate al passato, rivelando un'importante lacuna di generalizzazione negli attuali metodi di allineamento, i cui meccanismi sottostanti sono poco compresi. In questo lavoro, introduciamo Activation-Scaling Guard (ASGuard), un quadro meccanicisticamente informato che mitiga in modo mirato questa specifica vulnerabilità. In una prima fase, utilizziamo l'analisi dei circuiti per identificare le specifiche teste di attenzione causalmente collegate al jailbreaking mirato, come un attacco che modifica il tempo verbale. In secondo luogo, addestriamo un vettore di scaling preciso, per canale, per ricalibrare l'attivazione delle teste vulnerabili al tempo verbale. Infine, lo applichiamo in un "fine-tuning preventivo", forzando il modello ad apprendere un meccanismo di rifiuto più robusto. Su quattro LLM, ASGuard riduce efficacemente il tasso di successo dell'attacco del jailbreaking mirato, preservando al contempo le capacità generali e minimizzando i rifiuti eccessivi, raggiungendo un bilanciamento Pareto-ottimale tra sicurezza e utilità. Le nostre scoperte sottolineano, sulla base dell'analisi meccanicistica, come i suffissi avversariali sopprimano la propagazione della direzione che media il rifiuto. Inoltre, il nostro lavoro dimostra come una profonda comprensione degli interni del modello possa essere sfruttata per sviluppare metodi pratici, efficienti e mirati per aggiustare il comportamento del modello, tracciando una rotta verso una sicurezza dell'IA più affidabile e interpretabile.
L'allocazione spaziale efficiente delle primitive costituisce il fondamento dello 3D Gaussian Splatting, poiché determina direttamente la sinergia tra compattezza della rappresentazione, velocità di ricostruzione e fedeltà di rendering. Le soluzioni precedenti, basate su ottimizzazione iterativa o inferenza feed-forward, presentano significativi compromessi tra questi obiettivi, principalmente a causa della dipendenza da strategie di allocazione locali e guidate da euristiche, che mancano di una consapevolezza globale della scena. Nello specifico, i metodi feed-forward attuali sono in gran parte allineati ai pixel o ai voxel. De-proiettando i pixel in primitive dense e alineate alla vista, essi incorporano ridondanza nell'asset 3D. Man mano che vengono aggiunte più viste di input, la dimensione della rappresentazione aumenta e la coerenza globale diventa fragile. A tal fine, introduciamo GlobalSplat, un framework basato sul principio di *allinea prima, decodifica dopo*. Il nostro approccio apprende una rappresentazione scenica latente compatta e globale, che codifica l'input multi-vista e risolve le corrispondenze tra le viste prima di decodificare qualsiasi geometria 3D esplicita. Fondamentalmente, questa formulazione consente ricostruzioni compatte e globalmente coerenti senza fare affidamento su backbone pre-addestrati per la predizione di pixel o sul riutilizzo di feature latenti da baseline dense. Utilizzando un curriculum di addestramento coarse-to-fine che aumenta gradualmente la capacità decodificata, GlobalSplat previene nativamente il gonfiamento della rappresentazione. Su RealEstate10K e ACID, il nostro modello raggiunge prestazioni competitive nella sintesi di nuove viste utilizzando fino a soli 16K Gaussiane, significativamente meno di quanto richiesto dalle pipeline dense, ottenendo un'impronta leggera di 4MB. Inoltre, GlobalSplat consente un'inferenza significativamente più veloce rispetto alle baseline, operando in meno di 78 millisecondi in un singolo passaggio in avanti. La pagina del progetto è disponibile all'indirizzo https://r-itk.github.io/globalsplat/
Sebbene i modelli Vision-Language-Action (VLA) end-to-end rappresentino un paradigma promettente per la manipolazione robotica, la loro messa a punto su dati di controllo limitati spesso compromette le profonde capacità di ragionamento ereditate dai modelli Vision-Language (VLM) di base. Per risolvere questo compromesso fondamentale, proponiamo HiVLA, un framework gerarchico centrato sulla visual grounding che dissocia esplicitamente la pianificazione semantica di alto livello dal controllo motorio di basso livello. Nella parte di alto livello, un pianificatore VLM esegue prima la scomposizione del compito e la visual grounding per generare piani strutturati, comprendenti un'istruzione per il sottocompito e un bounding box di destinazione preciso. Successivamente, per tradurre questo piano in azioni fisiche, introduciamo nella parte di basso livello un esperto d'azione DiT (Diffusion Transformer) basato sul flow matching, dotato di un nuovo meccanismo di cross-attention a cascata. Questo progetto fonde sequenzialmente il contesto globale, ritagli ad alta risoluzione centrati sugli oggetti e la semantica delle abilità, consentendo al DiT di concentrarsi esclusivamente su un'esecuzione robusta. La nostra architettura disaccoppiata preserva il ragionamento zero-shot del VLM consentendo al contempo il miglioramento indipendente di entrambi i componenti. Esperimenti estensivi in simulazione e nel mondo reale dimostrano che HiVLA supera significativamente i baseline end-to-end allo stato dell'arte, eccellendo in particolare nella composizione di abilità a lungo orizzonte e nella manipolazione fine di piccoli oggetti in scene affollate.
Claude Code è uno strumento di codifica agentico in grado di eseguire comandi shell, modificare file e richiamare servizi esterni per conto dell'utente. Questo studio ne descrive l'architettura completa analizzando il codice sorgente TypeScript pubblicamente disponibile e confrontandolo ulteriormente con OpenClaw, un sistema di agenti IA open-source indipendente che affronta molti degli stessi problemi di progettazione da un contesto di deployment differente. La nostra analisi identifica cinque valori, filosofie e necessità umane che motivano l'architettura (autorità decisionale umana, sicurezza e protezione, esecuzione affidabile, amplificazione delle capacità e adattabilità contestuale) e le rintraccia attraverso tredici principi di progettazione fino a scelte implementative specifiche. Il cuore del sistema è un semplice ciclo while che chiama il modello, esegue strumenti e si ripete. La maggior parte del codice, tuttavia, risiede nei sistemi che circondano questo ciclo: un sistema di permessi con sette modalità e un classificatore basato su ML, una pipeline di compattazione a cinque livelli per la gestione del contesto, quattro meccanismi di estensibilità (MCP, plugin, skill e hook), un meccanismo di delega dei subagent con isolamento dell'area di lavoro e una memorizzazione di sessione orientata all'append. Un confronto con OpenClaw, un gateway per assistente personale multi-canale, mostra che gli stessi ricorrenti problemi di progettazione producono risposte architetturali diverse quando il contesto di deployment cambia: dalla classificazione della sicurezza per azione al controllo degli accessi a livello di perimetro, da un unico ciclo CLI a un runtime embedded all'interno di un piano di controllo gateway, e dalle estensioni della finestra contestuale alla registrazione delle capacità a livello di gateway. Identifichiamo infine sei direzioni progettuali aperte per i futuri sistemi agentici, basate su recenti letterature empiriche, architetturali e politiche.
La Generazione Aumentata dal Recupero (RAG) estende i Grandi Modelli Linguistica Visiva (LVLM) con conoscenza visiva esterna. Tuttavia, i sistemi visivi RAG esistenti si basano tipicamente su segnali di recupero generici che trascurano la semantica visiva granulare essenziale per il ragionamento complesso. Per affrontare questa limitazione, proponiamo UniDoc-RL, un framework unificato di apprendimento per rinforzo in cui un agente LVLM esegue congiuntamente recupero, reranking, percezione visiva attiva e ragionamento. UniDoc-RL formula l'acquisizione di informazioni visive come un problema decisionale sequenziale con uno spazio di azione gerarchico. Nello specifico, affina progressivamente l'evidenza visiva da un recupero di documenti a grana grossa a una selezione di immagini a grana fine e a un ritaglio attivo delle regioni, consentendo al modello di sopprimere i contenuti irrilevanti e concentrarsi sulle regioni ad alta densità informativa. Per un addestramento end-to-end efficace, introduciamo uno schema di ricompensa multipla densa che fornisce supervisione consapevole del compito per ogni azione. Basandosi sull'Ottimizzazione della Politica Relativa di Gruppo (GRPO), UniDoc-RL allinea il comportamento dell'agente con molteplici obiettivi senza fare affidamento su una rete di valore separata. Per supportare questo paradigma di addestramento, abbiamo curato un dataset completo di traiettorie di ragionamento di alta qualità con annotazioni granulari delle azioni. Esperimenti su tre benchmark dimostrano che UniDoc-RL supera costantemente le baseline allo stato dell'arte, ottenendo guadagni fino al 17,7% rispetto ai metodi precedenti basati su RL.
I modelli visione-linguaggio (VLM) hanno dimostrato capacità notevoli nella comprensione congiunta di visione e linguaggio, ma la loro grande scala pone sfide significative per la distribuzione in scenari con risorse limitate. La distillazione della conoscenza (KD) offre una soluzione praticabile per migliorare le capacità del modello senza aumentarne le dimensioni o i requisiti dati, rendendo la distribuzione più efficiente. Tuttavia, l'applicazione della KD ai VLM è complicata dalla supervisione specifica per modalità: sebbene la conoscenza multimodale nei VLM sia fusa all'interno dello spazio linguistico, i metodi attuali supervisionano separatamente ogni modalità senza affrontare esplicitamente l'allineamento multimodale, portando a un trasferimento incoerente della conoscenza multimodale. Per risolvere questo problema, proponiamo Switch-KD, un framework di distillazione con interruttore visivo che unifica il trasferimento di conoscenza visione-linguaggio all'interno di uno spazio condiviso di probabilità testuale. Switch-KD comprende due componenti chiave: (1) la Distillazione con Interruttore Visivo, che instrada gli output visivi dello studente nel pathway linguistico del teacher per costruire riferimenti probabilistici cross-modali per un trasferimento implicito della conoscenza visiva; e (2) la perdita DBiLD (Dynamic Bi-directional Logits Difference), che allinea adattivamente le regioni probabilistiche informative preservando le strutture distributive del teacher e dello studente attraverso una supervisione bidirezionale. Guidato da Switch-KD, un TinyLLaVA da 0,5 miliardi di parametri distilla efficacemente la ricca conoscenza multimodale dal suo teacher da 3 miliardi, ottenendo un miglioramento medio di 3,6 punti su 10 benchmark multimodali senza alcuna modifica architetturale.
La previsione accurata di video futuri richiede sia un'elevata fedeltà visiva che una semantica di scena coerente, specialmente in ambienti dinamici complessi come la guida autonoma. Presentiamo Re2Pix, un framework gerarchico per la previsione video che scompone la previsione in due fasi: previsione della rappresentazione semantica e sintesi visiva guidata dalla rappresentazione. Invece di prevedere direttamente i fotogrammi RGB futuri, il nostro approccio prevede prima la struttura futura della scena nello spazio delle caratteristiche di un modello visivo foundation congelato, per poi condizionare un modello di diffusione latente su queste rappresentazioni previste per generare fotogrammi fotorealistici. Questa scomposizione consente al modello di concentrarsi prima sulla dinamica della scena e poi sulla generazione dell'aspetto. Una sfida cruciale sorge dalla discrepanza tra addestramento e test, tra le rappresentazioni ground-truth disponibili durante l'addestramento e quelle previste utilizzate in inferenza. Per affrontare questo problema, introduciamo due strategie di condizionamento, il nested dropout e la mixed supervision, che migliorano la robustezza rispetto a previsioni autoregressive imperfette. Esperimenti su benchmark impegnativi per la guida autonoma dimostrano che la proposta progettuale semantics-first migliora significativamente la coerenza semantica temporale, la qualità percettiva e l'efficienza di addestramento rispetto a solidi baseline basati sulla diffusione. Forniamo il codice di implementazione all'indirizzo https://github.com/Sta8is/Re2Pix.
Ogni chiamata a un endpoint di classificazione LLM produce una coppia input-output etichettata già conservata nei log di produzione. Queste coppie costituiscono un set di addestramento gratuito e in crescita: un surrogato leggero addestrato su di esse può assorbire una porzione significativa del traffico futuro a un costo inferenziale marginale quasi nullo. Le questioni aperte sono quando il surrogato è sufficientemente affidabile per essere distribuito, cosa gestisce rispetto a cosa rinvia, e come questo confine si evolve con l'accumularsi dei dati. Presentiamo TRACER (Trace-based Adaptive Cost-Efficient Routing), un sistema open-source che addestra surrogati di ML sulle tracce di produzione dell'LLM stesso e ne governa la distribuzione attraverso un gate di parità: il surrogato viene attivato solo quando il suo accordo con l'LLM supera una soglia α specificata dall'utente. Per rendere trasparente il confine di instradamento, TRACER genera artefatti di interpretabilità che descrivono quali regioni di input il surrogato gestisce, dove raggiunge un plateau e perché rinvia. Su un benchmark di intenti a 77 classi con un insegnante Sonnet 4.6, TRACER raggiunge una copertura del surrogato compresa tra l'83% e il 100%, a seconda dell'obiettivo di qualità α; su un benchmark a 150 classi, il surrogato sostituisce completamente l'insegnante. Su un task di inferenza del linguaggio naturale, il gate di parità rifiuta correttamente la distribuzione perché la rappresentazione vettoriale non supporta una separazione affidabile. Il sistema è disponibile come software open-source.
La modellazione delle Interazioni Uomo-Oggetto (HOI) cattura come gli esseri umani agiscono sugli oggetti e si relazionano con essi, tipicamente espressa come triplette <persona, azione, oggetto>. Gli approcci esistenti si dividono in due famiglie distinte: la generazione HOI sintetizza scene a partire da triplette strutturate e layout, ma non riesce a integrare condizioni miste come entità HOI e solo oggetti; mentre l'editing HOI modifica le interazioni tramite testo, ma fatica a disaccoppiare la posa dal contatto fisico e a scalare a interazioni multiple. Introduciamo OneHOI, un framework unificato basato su transformer diffusion che consolida la generazione e l'editing HOI in un unico processo di denoising condizionato guidato da rappresentazioni strutturate condivise delle interazioni. Il suo cuore, il Relational Diffusion Transformer (R-DiT), modella le relazioni mediate dai verbi attraverso token HOI consapevoli del ruolo e dell'istanza, un Action Grounding spaziale basato sul layout, uno Structured HOI Attention per imporre la topologia d'interazione e HOI RoPE per districare scene multi-HOI. Addestrato congiuntamente con modality dropout sul nostro dataset HOI-Edit-44K, insieme a dataset HOI e object-centric, OneHOI supporta controlli guidati dal layout, liberi dal layout, con maschere arbitrarie e a condizioni miste, raggiungendo risultati all'avanguardia sia nella generazione che nell'editing HOI. Il codice è disponibile su https://jiuntian.github.io/OneHOI/.
Questo lavoro si concentra sull'allineamento dei modelli di flusso con le preferenze umane. Un approccio promettente consiste nella messa a punto mediante la retropropagazione diretta dei gradienti di ricompensa attraverso il processo di generazione differenziabile del flusso. Tuttavia, la retropropagazione attraverso traiettorie lunghe comporta costi di memoria proibitivi ed esplosione del gradiente. Di conseguenza, i metodi a gradiente diretto faticano ad aggiornare le fasi iniziali della generazione, cruciali per determinare la struttura globale dell'immagine finale. Per affrontare questo problema, introduciamo LeapAlign, un metodo di messa a punto che riduce il costo computazionale e permette la propagazione diretta del gradiente dalla ricompensa alle fasi iniziali della generazione. Nello specifico, accorciamo la lunga traiettoria in soli due passi progettando due salti consecutivi, ciascuno dei quali salta multipli passi di campionamento ODE e predice i latent futuri in un singolo passo. Randomizzando i tempi di inizio e fine dei salti, LeapAlign consente aggiornamenti del modello efficienti e stabili in qualsiasi fase della generazione. Per utilizzare al meglio tali traiettorie abbreviate, assegniamo pesi di addestramento più elevati a quelle più coerenti con il percorso di generazione lungo. Per migliorare ulteriormente la stabilità del gradiente, riduciamo i pesi dei termini di gradiente con magnitudo elevata, invece di rimuoverli completamente come fatto in lavori precedenti. Durante la messa a punto del modello Flux, LeapAlign supera costantemente i metodi all'avanguardia basati su GRPO e a gradiente diretto in varie metriche, raggiungendo una qualità dell'immagine e un allineamento immagine-testo superiori.
I modelli visione-linguaggio (VLM) hanno notevolmente progredito l'interpretazione e la refertazione guidate dall'IA delle immagini mediche complesse, come la tomografia computerizzata (TC). Tuttavia, i metodi esistenti relegano in larga misura i clinici al ruolo di osservatori passivi degli output finali, senza offrire una traccia di ragionamento interpretabile da loro ispezionabile, convalidabile o perfezionabile. Per affrontare questo limite, introduciamo RadAgent, un agente di IA che utilizza strumenti per generare referti TC attraverso un processo graduale e interpretabile. Ogni referto risultante è accompagnato da una traccia completamente ispezionabile delle decisioni intermedie e delle interazioni con gli strumenti, consentendo ai clinici di esaminare come i reperti refertati vengono derivati. Nei nostri esperimenti, osserviamo che RadAgent migliora la generazione di referti di TC del Torace rispetto alla sua controparte VLM 3D, CT-Chat, in tre dimensioni. L'accuratezza clinica migliora di 6,0 punti (36,4% in relativo) in macro-F1 e di 5,4 punti (19,6% in relativo) in micro-F1. La robustezza in condizioni avverse migliora di 24,7 punti (41,9% in relativo). Inoltre, RadAgent raggiunge il 37,0% nella fedeltà fattuale (faithfulness), una nuova capacità totalmente assente nella sua controparte VLM 3D. Strutturando l'interpretazione della TC del torace come una traccia di ragionamento esplicita, aumentata da strumenti e iterativa, RadAgent ci avvicina a un'IA trasparente e affidabile per la radiologia.
I rapidi progressi degli strumenti di generazione di contenuti tramite intelligenza artificiale (AIGC) consentono la creazione su richiesta di immagini, video e visualizzazioni per la progettazione di pagine web, offrendo un paradigma flessibile e sempre più adottato per le moderne interfacce ed esperienze utente (UI/UX). Tuttavia, l'integrazione diretta di tali strumenti nella generazione automatizzata di pagine web spesso porta a incoerenza stilistica e scarsa coerenza globale, poiché gli elementi vengono generati in modo isolato. Proponiamo MM-WebAgent, un framework agente gerarchico per la generazione di pagine web multimodali che coordina la generazione di elementi basata su AIGC attraverso una pianificazione gerarchica e un'auto-riflessione iterativa. MM-WebAgent ottimizza congiuntamente il layout globale, i contenuti multimodali locali e la loro integrazione, producendo pagine web coerenti e visivamente consistenti. Introduciamo inoltre un benchmark per la generazione di pagine web multimodali e un protocollo di valutazione multilivello per una valutazione sistematica. Gli esperimenti dimostrano che MM-WebAgent supera i baseline basati sulla generazione di codice e sugli agenti, in particolare sulla generazione e integrazione di elementi multimodali. Codice & Dati: https://aka.ms/mm-webagent.
I modelli linguistici multimodali di grandi dimensioni (MLLM) ottengono buone prestazioni in molti compiti di visione e linguaggio, ma spesso incontrano difficoltà con problemi di tipo visivo-centrico che richiedono un ragionamento visivo fine. Recenti evidenze suggeriscono che questa limitazione non derivi da rappresentazioni visive deboli, ma da un sottoutilizzo delle informazioni visive durante l'instruction tuning, fase in cui molti compiti possono essere parzialmente risolti utilizzando esclusivamente i preconcetti linguistici. Proponiamo un approccio semplice e leggero che potenzia l'instruction tuning visivo con un piccolo numero di compiti auto-supervisionati ancorati al visivo, espressi come istruzioni in linguaggio naturale. Riformulando classici compiti preliminari auto-supervisionati, come la previsione di rotazione, l'abbinamento dei colori e la corrispondenza tra viste diverse, in triplette immagine-istruzione-risposta, introduciamo una supervisione che non può essere risolta senza fare affidamento sull'evidenza visiva. Il nostro approccio non richiede annotazioni umane, modifiche architetturali né fasi di addestramento aggiuntive. Attraverso molteplici modelli, regimi di addestramento e benchmark, l'iniezione di una piccola frazione (3-10%) di tali istruzioni ancorate al visivo migliora costantemente le prestazioni nelle valutazioni visivo-centriche. I nostri risultati evidenziano come l'instruction tuning con compiti di auto-supervisione ancorati al visivo rappresenti una leva potente per migliorare il ragionamento visivo negli MLLM attraverso semplici aggiustamenti alla distribuzione dei dati di addestramento. Codice disponibile all'indirizzo: https://github.com/sirkosophia/V-GIFT
L’Apprendimento per Rinforzo (RL) è emerso come un fattore critico per potenziare le capacità di ragionamento dei Large Language Model (LLM). Sebbene i recenti progressi si siano concentrati sull'ingegnerizzazione dei reward o sulla sintesi di dati, pochi studi sfruttano le caratteristiche intrinseche della rappresentazione del modello per guidare il processo di addestramento. In questo articolo, osserviamo innanzitutto la presenza di attivazioni ad alta magnitudine all'interno dei vettori query e key durante l'elaborazione di contesti lunghi. Traendo ispirazione dalla quantizzazione del modello – che stabilisce la criticità di tali attivazioni ad alta magnitudine – e dall'intuizione che il ragionamento su contesti lunghi presenti intrinsecamente una struttura sparsa, ipotizziamo che questi pesi fungano da driver pivotali per un'efficace ottimizzazione del modello. Sulla base di questa intuizione, proponiamo LongAct, una strategia che passa da aggiornamenti uniformi ad aggiornamenti sparsi guidati dalla salientza. Aggiornando selettivamente solo i pesi associati a queste attivazioni significative, LongAct raggiunge un miglioramento approssimativo dell'8% su LongBench v2 e potenzia la generalizzazione sul benchmark RULER. Inoltre, il nostro metodo mostra una notevole universalità, migliorando costantemente le prestazioni su diversi algoritmi di RL come GRPO e DAPO. Estesi studi di ablazione suggeriscono che concentrarsi su queste caratteristiche salienti sia la chiave per sbloccare il potenziale dei contesti lunghi.
I Large Language Model (LLM) si basano pesantemente sulla memorizzazione nella cache Chiave-Valore (KV) per minimizzare la latenza di inferenza. Tuttavia, le cache KV standard sono dipendenti dal contesto: il riutilizzo di un documento memorizzato in un nuovo contesto richiede il ricalcolo degli stati KV per tenere conto degli spostamenti nella distribuzione dell'attenzione. Soluzioni esistenti come CacheBlend, EPIC e SAM-KV mitigano questo problema ricalcolando selettivamente un sottoinsieme di token; tuttavia, comportano comunque un overhead computazionale (FLOP) non trascurabile e una maggiore latenza del Time-to-First-Token (TTFT). In questo articolo, proponiamo KV Packet, un framework per il riutilizzo della cache senza ricalcolo che tratta i documenti memorizzati come "pacchetti" immutabili avvolti in adattatori soft-token addestrabili e leggeri, i quali vengono addestrati tramite distillazione auto-supervisionata per colmare le discontinuità contestuali. Esperimenti condotti su Llama-3.1 e Qwen2.5 dimostrano che il metodo KV Packet proposto raggiunge FLOPs prossimi allo zero e un TTFT inferiore rispetto ai baseline basati sul ricalcolo, mantenendo allo stesso tempo punteggi F1 comparabili a quelli del baseline di ricalcolo completo.
Studiamo il reinforcement learning (RL) con regolarizzazione comportamentale, in cui la regolarizzazione verso una distribuzione di riferimento (il dataset nell'RL offline o il modello base nel fine-tuning RL per LLM) è essenziale per prevenire l'over-optimization del valore causato da un'estrapolazione erronea fuori distribuzione. I metodi esistenti si basano su gradienti di politica riparametrizzati, che sono difficili da scalare a grandi modelli generativi, o sul reject sampling, che può risultare eccessivamente conservativo quando si tenta di andare oltre il supporto comportamentale. In questo articolo, proponiamo Value Gradient Flow (VGF), un nuovo paradigma scalabile per l'RL con regolarizzazione comportamentale. VGF inquadra l'RL regolarizzato come un problema di trasporto ottimo che mappa la distribuzione di riferimento alla distribuzione di politica ottimale indotta dal valore. Risolviamo questo problema di trasporto mediante un flusso di gradiente discreto, in cui i gradienti del valore guidano particelle inizializzate dalla distribuzione di riferimento. La nostra analisi mostra che VGF impone la regolarizzazione implicitamente controllando il budget di trasporto. VGF elimina la parametrizzazione esplicita della politica pur rimanendo espressivo e flessibile, il che consente uno scaling adattivo al tempo di test regolando il budget di trasporto. Esperimenti estensivi dimostrano che VGF supera significativamente i metodi precedenti, raggiungendo risultati state-of-the-art su benchmark di RL offline (D4RL, OGBench) e su task di RL per LLM. Codice ed esecuzioni sono disponibili su https://ryanxhr.github.io/vgf.
Gli agenti di codifica IA operano in un paradosso: possiedono una vasta conoscenza parametrica ma non riescono a ricordare una conversazione di un'ora fa. I sistemi di memoria esistenti memorizzano il testo in database vettoriali con recupero a canale singolo, richiedono LLM cloud per le operazioni principali e non implementano nessuno dei processi cognitivi che rendono efficace la memoria umana. Presentiamo SuperLocalMemory V3.3 ("The Living Brain"), un sistema di memoria per agenti local-first che implementa l'intera tassonomia della memoria cognitiva con dinamiche matematiche del ciclo di vita. Basandosi sulle fondamenta geometro-informazionali della V3.2 (arXiv:2603.14588), introduciamo cinque contributi: (1) Fisher-Rao Quantization-Aware Distance (FRQAD) – una nuova metrica sulla varietà statistica gaussiana che raggiunge il 100% di precisione nel preferire embedding ad alta fedeltà rispetto a quelli quantizzati (contro l'85,6% del coseno), senza precedenti; (2) Dimenticanza Adattiva di Ebbinghaus con quantizzazione consapevole del ciclo di vita – la prima curva di dimenticanza matematica nella memoria locale degli agenti accoppiata a una compressione progressiva degli embedding, che raggiunge un potere discriminativo 6,7x superiore; (3) Recupero cognitivo a 7 canali che comprende canali semantici, di parole chiave, di grafi di entità, temporali, di attivazione a diffusione, di consolidamento e associativi di Hopfield, raggiungendo il 70,4% su LoCoMo nella Modalità A senza LLM; (4) Parametrizzazione della memoria che implementa la memoria Implicita a Lungo Termine tramite soft prompt; (5) Pipeline auto-cognitiva a attrito zero che automatizza l'intero ciclo di vita della memoria. Su LoCoMo, la V3.3 raggiunge il 70,4% nella Modalità A (zero-LLM), con un miglioramento di +23,8 punti percentuali sui multi-hop e +12,7 punti percentuali sugli adversarial. La V3.2 aveva raggiunto il 74,8% in Modalità A e l'87,7% in Modalità C; il divario di 4,4 punti percentuali riflette un compromesso architetturale deliberato. SLM V3.3 è open source sotto la licenza Elastic 2.0, funziona interamente su CPU e conta oltre 5.000 download mensili.
L'inversione guidata da testo dei modelli generativi è un paradigma fondamentale per manipolare contenuti 2D o 3D, abilitando numerose applicazioni come l'editing basato su testo, il trasferimento di stile o la risoluzione di problemi inversi. Tuttavia, essa si basa sul presupposto che i modelli generativi rimangano sensibili ai prompt in linguaggio naturale. Dimostriamo che, per i moderni modelli generativi nativi text-to-3D all'avanguardia, questo presupposto spesso viene meno. Identifichiamo una modalità di fallimento critica in cui le traiettorie di generazione vengono attratte in "trappole di assorbimento" latenti: regioni dove il modello diventa insensibile alle modifiche del prompt. In questi regimi, le variazioni del testo di input non riescono ad alterare le rappresentazioni interne in modo da modificare la geometria in output. Crucialmente, osserviamo che questa non è una limitazione dell'espressività geometrica del modello; gli stessi modelli generativi possiedono la capacità di produrre un'ampia diversità di forme ma, come dimostriamo, diventano insensibili alla guida testuale fuori distribuzione. Investigiamo questo comportamento analizzando le traiettorie di campionamento del modello generativo e scopriamo che geometrie complesse possono ancora essere rappresentate e prodotte sfruttando il prior generativo incondizionato del modello. Ciò conduce a un framework più robusto per l'editing di forme 3D basato su testo che aggira le trappole latenti disaccoppiando il potere rappresentativo geometrico di un modello dalla sua sensibilità linguistica. Il nostro approccio affronta le limitazioni delle pipeline 3D attuali e abilita la manipolazione semantica ad alta fedeltà di forme 3D fuori distribuzione. Pagina web del progetto: https://daidedou.sorpi.fr/publication/beyondprompts
La Generazione Aumentata dal Recupero (RAG) basa le risposte degli LLM su evidenze esterne, ma tratta il modello come un consumatore passivo dei risultati di ricerca: non vede mai come il corpus è organizzato o cosa non ha ancora recuperato, limitando la sua capacità di tornare indietro o combinare prove sparse. Presentiamo Corpus2Skill, che distilla un corpus documentale in una directory gerarchica di competenze in modalità offline e consente a un agente LLM di navigarla durante il servizio. La pipeline di compilazione clusterizza iterativamente i documenti, genera riassunti scritti dall'LLM a ogni livello e materializza il risultato come un albero di file di competenze navigabili. Durante il servizio, l'agente riceve una visione d'insieme del corpus, si addentra nei rami tematici attraverso riassunti progressivamente più dettagliati e recupera i documenti completi tramite ID. Poiché la gerarchia è esplicitamente visibile, l'agente può ragionare su dove cercare, tornare indietro da percorsi infruttuosi e combinare prove tra diversi rami. Su WixQA, un benchmark aziendale di assistenza clienti per RAG, Corpus2Skill supera il recupero denso, RAPTOR e i baseline RAG agentici in tutte le metriche di qualità.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente attirato notevole attenzione come approccio promettente per accelerare la scoperta scientifica. Tuttavia, la loro applicazione in domini scientifici aperti come la biologia rimane limitata, principalmente a causa della mancanza di spiegazioni fondate sui fatti e azionabili. Per affrontare questo problema, introduciamo un formalismo strutturato per le spiegazioni delle cellule virtuali che rappresenta il ragionamento biologico come grafi d'azione meccanicistici, consentendo una verifica e una falsificazione sistematiche. Basandoci su questo, proponiamo VCR-Agent, un framework multi-agente che integra un recupero della conoscenza biologicamente fondato con un approccio di filtraggio basato su un verificatore per generare e convalidare in modo autonomo il ragionamento meccanicistico. Utilizzando questo framework, rilasciamo il dataset VC-TRACES, che consiste in spiegazioni meccanicistiche verificate derivate dall'atlante Tahoe-100M. Empiricamente, dimostriamo che l'addestramento con queste spiegazioni migliora la precisione fattuale e fornisce un segnale di supervisione più efficace per la previsione a valle dell'espressione genica. Questi risultati sottolineano l'importanza di un ragionamento meccanicistico affidabile per le cellule virtuali, ottenuto attraverso la sinergia tra multi-agente e verifica rigorosa.
La distillazione cross-tokenizer (CTD), ovvero il trasferimento di conoscenza da un modello linguistico insegnante a uno studente quando i due utilizzano tokenizer diversi, rimane un problema in gran parte irrisolto. Gli approcci esistenti si basano su strategie euristiche per allineare vocabolari non corrispondenti, introducendo una notevole complessità. In questo articolo, proponiamo una baseline semplice ma efficace chiamata Byte-Level Distillation (BLD), che abilita la CTD operando a un'interfaccia comune tra i tokenizer: il livello dei byte. Nello specifico, convertiamo la distribuzione di output dell'insegnante in probabilità a livello di byte, colleghiamo un testina di decodifica leggera a livello di byte allo studente, e distilliamo attraverso questa interfaccia condivisa a livello di byte. Nonostante la sua semplicità, la BLD offre prestazioni competitive con – e su diversi benchmark supera – metodi CTD significativamente più sofisticati, in una serie di task di distillazione con modelli da 1B a 8B di parametri. I nostri risultati suggeriscono che il livello dei byte è un terreno comune naturale per il trasferimento di conoscenza cross-tokenizer, evidenziando al contempo che miglioramenti consistenti su tutti i task e i benchmark rimangono elusivi, sottolineando che la CTD è ancora un problema aperto.
La verifica potenziata da rubriche guida i modelli di ricompensa con criteri di valutazione espliciti, producendo giudizi più affidabili rispetto alla verifica a modello singolo. Tuttavia, la maggior parte dei metodi esistenti richiede costose annotazioni di rubriche, limitandone la scalabilità. Inoltre, abbiamo riscontrato che la generazione di rubriche è vulnerabile a un fallimento della cooperazione; rubriche di bassa qualità indirizzano erroneamente i modelli di ricompensa invece di aiutarli. Ispirati dal principio della comunicazione cooperativa, proponiamo Cooperative yet Critical reward modeling (C²), un framework che migliora significativamente i giudizi del modello di ricompensa facendo collaborare criticamente il modello con un generatore di rubriche addestrato esclusivamente su preferenze binarie. In C², sintetizziamo coppie di rubriche utili e fuorvianti misurando come ciascuna rubrica sposti il modello di ricompensa verso o lontano dalla preferenza corretta. Utilizzando queste coppie contrastive, addestriamo un generatore di rubriche cooperativo a proporre rubriche utili e un verificatore critico a valutare la validità della rubrica prima di emettere il suo giudizio, seguendo solo le rubriche che ritiene utili al momento dell'inferenza. C² supera i modelli di ricompensa basati sul ragionamento addestrati sulle stesse preferenze binarie, con guadagni fino a 6,5 punti su RM-Bench e un tasso di vittoria controllato per lunghezza di 6,0 punti su AlpacaEval 2.0. Senza annotazioni esterne di rubriche, C² consente a un modello di ricompensa da 8B di eguagliare le prestazioni ottenute con rubriche provenienti da un modello 4 volte più grande. Nel complesso, il nostro lavoro dimostra che l'elicitazione di una cooperazione deliberata nella verifica potenziata da rubriche rende i modelli di ricompensa più affidabili in modo scalabile.
Presentiamo Three-Phase Transformer (3PT), un priore strutturale per il flusso residuo (residual stream) in Transformer di tipo decoder-only, basato su un'architettura standard con SwiGLU, RMSNorm, RoPE e GQA. Il vettore latente è partizionato in N canali ciclici di uguale dimensione, ciascuno gestito da operazioni che rispettano la fase: una RMSNorm per canale, una rotazione di Givens 2D tra l'attenzione e la FFN che ruota ogni canale di un angolo theta + i*(2*pi/N), e un vincolo sul numero di teste che allinea le teste GQA con la partizione. L'architettura rappresenta un equilibrio auto-stabilizzante tra rimescolamento e re-imposizione, non un modulo aggiuntivo. La partizione delimita un sottospazio DC unidimensionale ortogonale ai canali, nel quale iniettiamo un profilo fisso a corno di Gabriele r(p) = 1/(p+1) come canale laterale per la posizione assoluta, che si combina ortogonalmente con la rotazione di posizione relativa di RoPE. La configurazione canonica con N=3 prende in prestito la metafora dal sistema trifase bilanciato in corrente alternata, dove tre sinusoidi sfasate di 120 gradi si sommano a zero senza alcuna coppia anticorrelata. Su WikiText-103, con 123M di parametri, 3PT raggiunge un -7.20% di perplexity (-2.62% di bits-per-byte) rispetto a un baseline RoPE-Only equivalente, con un incremento di soli +1.536 parametri (0.00124% del totale) e un'accelerazione della convergenza di 1.93x nel numero di step (1.64x in tempo reale). N si comporta come una manopola per la condivisione dei parametri piuttosto che un optimum unico: a 5.5M parametri, una scansione di N su {1,2,3,4,6,8,12} è quasi monotona con N=1 vincente; a 123M parametri, una scansione con tre seed rileva che N=3 e N=1 sono statisticamente indistinguibili. Il meccanismo portante è il flusso residuo partizionato per canale, la rotazione per blocco, la normalizzazione per fase e l'iniezione DC del corno. Caratterizziamo (a) l'auto-stabilizzazione della geometria senza imposizione esplicita, un nuovo esempio del quadro dei principi di conservazione per le reti neurali; (b) un profilo di profondità a U della deriva dell'angolo di rotazione a 12 strati; (c) la composizione ortogonale con RoPE, attenzione e FFN.
Il voto a maggioranza su più tentativi di LLM migliora il ragionamento matematico, ma gli errori correlati limitano la dimensione effettiva del campione. Una soluzione naturale consiste nell'assegnare strategie di ragionamento diverse a ciascun votante. L'approccio, denominato Diverse Prompt Mixer, è stato testato sulla competizione AIMO 3: 3 modelli, 23+ esperimenti, 50 problemi di livello Olimpiadi della Matematica, un H100 80 GB, limite di 5 ore. Ogni intervento a livello di prompt fallisce. Il campionamento ad alta temperatura già decorrela gli errori; strategie più deboli riducono l'accuratezza più di quanto riducano la correlazione. Attraverso un divario di capacità di 8 punti a N=8 pari e ogni ottimizzazione testata, la capacità del modello domina. Il divario tra il miglior punteggio a maggioranza (42/50) e pass@20 (~45.5) è una perdita da selezione, non una perdita da prompt. Un selettore basato su verificatore potrebbe colmarlo. L'ingegnerizzazione dei prompt non può farlo.
Nell'apprendimento incrementale online, i dati arrivano continuamente con sostanziali cambiamenti distributivi, creando una sfida significativa poiché i campioni precedenti hanno un valore di replay limitato durante l'apprendimento di un nuovo compito. Le ricerche precedenti si sono generalmente basate su un singolo centroide adattivo o su centroidi fissi multipli per rappresentare ogni classe nello spazio latente. Tuttavia, tali metodi incontrano difficoltà quando i flussi di dati delle classi sono intrinsecamente multimodali e richiedono aggiornamenti continui dei centroidi. Per superare questo limite, introduciamo un framework di apprendimento basato su Misture di Modelli (MMOT) ancorato alla teoria del Trasporto Ottimale, in cui i centroidi si evolvono incrementalmente con i nuovi dati. Questo approccio offre due vantaggi principali: (i) fornisce una caratterizzazione più precisa di flussi di dati complessi e (ii) consente una migliore stima della similarità tra classi per campioni non visti durante l'inferenza attraverso i centroidi derivati da MMOT. Inoltre, per rafforzare l'apprendimento delle rappresentazioni e mitigare la dimenticanza catastrofica, progettiamo una strategia di Preservazione Dinamica che regola lo spazio latente e mantiene la separabilità delle classi nel tempo. Le valutazioni sperimentali su dataset di benchmark confermano l'efficacia superiore del nostro metodo proposto.