Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Native Parallel Reasoner (NPR), un framework senza supervisione esterna che consente ai Large Language Model (LLM) di auto-sviluppare genuine capacità di ragionamento parallelo. NPR trasforma il modello dall'emulazione sequenziale alla cognizione parallela nativa attraverso tre innovazioni chiave: 1) un paradigma di addestramento progressivo auto-distillato che passa dalla scoperta di formati in "cold-start" a vincoli topologici rigorosi senza supervisione esterna; 2) un nuovo algoritmo di Parallel-Aware Policy Optimization (PAPO) che ottimizza le politiche di ramificazione direttamente all'interno del grafo di esecuzione, consentendo al modello di apprendere la scomposizione adattiva tramite tentativi ed errori; e 3) un robusto NPR Engine che ristruttura la gestione della memoria e il controllo del flusso di SGLang per abilitare un addestramento RL parallelo su larga scala e stabile. Su otto benchmark di ragionamento, NPR addestrato su Qwen3-4B raggiunge miglioramenti delle prestazioni fino al 24,5% e accelerazioni inferenziali fino a 4,6x. A differenza delle baseline precedenti che spesso ricadono nella decodifica autoregressiva, NPR dimostra un'esecuzione parallela genuina al 100%, stabilendo un nuovo standard per il ragionamento agentivo auto-evolutivo, efficiente e scalabile.
Gli Embedding Posizionali Rotazionali (RoPE) sono diventati uno standard per codificare l'ordine sequenziale nei Large Language Model (LLM) applicando rotazioni ai vettori query e key nel piano complesso. Le implementazioni standard, tuttavia, utilizzano solo la componente reale del prodotto scalare a valori complessi per il calcolo del punteggio di attenzione. Questa semplificazione scarta la componente immaginaria, che contiene preziose informazioni di fase, portando a una potenziale perdita di dettagli relazionali cruciali per la modellazione di dipendenze a contesto lungo. In questo articolo, proponiamo un'estensione che re-incorpora questa componente immaginaria scartata. Il nostro metodo sfrutta la rappresentazione complessa completa per creare un punteggio di attenzione a doppia componente. Dimostriamo teoricamente ed empiricamente che questo approccio migliora la modellazione delle dipendenze a contesto lungo preservando maggiori informazioni posizionali. Inoltre, le valutazioni su una serie di benchmark di modellazione linguistica a contesto lungo mostrano che il nostro metodo migliora costantemente le prestazioni rispetto al RoPE standard, con benefici che diventano più significativi all'aumentare della lunghezza del contesto. Il codice è disponibile all'indirizzo https://github.com/OpenMOSS/rope_pp.
I metodi esistenti di editing video affrontano un compromesso critico: i modelli specialistici offrono precisione ma si basano su conoscenze a priori specifiche per il compito, come le maschere, ostacolandone l'unificazione; al contrario, i modelli unificati di apprendimento temporale in-context sono privi di maschere ma mancano di segnali spaziali espliciti, portando a una mappatura debole tra istruzione e regione e a una localizzazione imprecisa. Per risolvere questo conflitto, proponiamo VideoCoF, un nuovo approccio a Catena di Fotogrammi (Chain-of-Frames) ispirato al ragionamento a Catena di Pensiero (Chain-of-Thought). VideoCoF impone una procedura "vedi, ragiona, poi modifica" obbligando il modello di diffusione video a prevedere prima dei token di ragionamento (latenze della regione di modifica) prima di generare i token video target. Questo passaggio esplicito di ragionamento elimina la necessità di maschere fornite dall'utente, raggiungendo al contempo un allineamento preciso tra istruzione e regione e un editing video granulare. Inoltre, introduciamo una strategia di allineamento RoPE che sfrutta questi token di ragionamento per garantire l'allineamento del movimento e abilitare l'estrapolazione della lunghezza oltre la durata dell'addestramento. Dimostriamo che con un costo minimo dei dati di sole 50k coppie video, VideoCoF raggiunge prestazioni all'avanguardia su VideoCoF-Bench, convalidando l'efficienza e l'efficacia del nostro approccio. Il nostro codice, i pesi del modello e i dati sono disponibili su https://github.com/knightyxp/VideoCoF.
La voxel art è una stilizzazione distintiva ampiamente utilizzata nei giochi e nei media digitali, ma la generazione automatizzata a partire da mesh 3D rimane impegnativa a causa dei requisiti contrastanti di astrazione geometrica, preservazione semantica e coerenza cromatica discreta. I metodi esistenti tendono a semplificare eccessivamente la geometria o non riescono a raggiungere l'estetica precisa a livello di pixel e vincolata alla palette tipica della voxel art. Introduciamo Voxify3D, un framework differenziabile a due stadi che collega l'ottimizzazione della mesh 3D con una supervisione basata sulla pixel art 2D. La nostra innovazione principale risiede nell'integrazione sinergica di tre componenti: (1) una supervisione ortografica da pixel art che elimina la distorsione prospettica per un allineamento preciso tra voxel e pixel; (2) un allineamento basato su patch con CLIP che preserva la semantica attraverso i livelli di discretizzazione; (3) una quantizzazione Gumbel-Softmax vincolata alla palette che abilita l'ottimizzazione differenziabile su spazi di colore discreti con strategie di palette controllabili. Questa integrazione affronta sfide fondamentali: la preservazione semantica sotto discretizzazione estrema, l'estetica da pixel art attraverso il rendering volumetrico e l'ottimizzazione discreta end-to-end. Gli esperimenti mostrano prestazioni superiori (37.12 CLIP-IQA, 77.90% preferenza utente) su personaggi diversificati e con astrazione controllabile (2-8 colori, risoluzioni 20x-50x). Pagina del progetto: https://yichuanh.github.io/Voxify-3D/
La generazione da riferimento a video (R2V) mira a sintetizzare video che siano coerenti con un prompt testuale preservando al contempo l'identità del soggetto da immagini di riferimento. Tuttavia, gli attuali metodi R2V sono limitati dalla dipendenza da triplette esplicite immagine-riferimento-video-testo, la cui costruzione è estremamente costosa e difficile da scalare. Noi superiamo questo collo di bottiglia introducendo Saber, un framework zero-shot scalabile che non richiede dati R2V espliciti. Addestrato esclusivamente su coppie video-testo, Saber impiega una strategia di addestramento mascherato e un design modellistico su misura basato su meccanismi di attenzione per apprendere rappresentazioni coerenti con l'identità e consapevoli del riferimento. Tecniche di augmentazione con mascheramento sono ulteriormente integrate per mitigare gli artefatti da copia-incolla comuni nella generazione da riferimento a video. Inoltre, Saber dimostra notevoli capacità di generalizzazione con un numero variabile di riferimenti e raggiunge prestazioni superiori sul benchmark OpenS2V-Eval rispetto a metodi addestrati con dati R2V.
I sistemi multi-agente basati su Large Language Model (LLM) sono difficili da debuggare poiché i fallimenti spesso originano da tracce di interazione lunghe e ramificate. La pratica prevalente consiste nell'utilizzare gli LLM per la localizzazione dei fallimenti basata sui log, attribuendo gli errori a un agente e a uno step specifici. Tuttavia, questo paradigma presenta due limitazioni chiave: (i) il debugging basato solo sui log manca di validazione, producendo ipotesi non verificate, e (ii) l'attribuzione a un singolo step o a un singolo agente è spesso mal posta, poiché abbiamo riscontrato che interventi distinti multipli possono riparare indipendentemente il task fallito. Per affrontare la prima limitazione, introduciamo DoVer, un framework di debugging guidato da interventi, che integra la generazione di ipotesi con una verifica attiva attraverso interventi mirati (ad esempio, modificando messaggi, alterando piani). Per la seconda limitazione, anziché valutare l'accuratezza dell'attribuzione, ci concentriamo sul misurare se il sistema risolve il fallimento o compie progressi quantificabili verso il successo del task, riflettendo una visione del debugging più orientata ai risultati. All'interno del framework agent Magnetic-One, sui dataset derivati da GAIA e AssistantBench, DoVer converte il 18-28% dei tentativi falliti in successi, raggiunge fino al 16% di progresso verso milestone e convalida o confuta il 30-60% delle ipotesi di fallimento. DoVer si dimostra efficace anche su un dataset diverso (GSMPlus) e un framework agent differente (AG2), dove recupera il 49% dei tentativi falliti. Questi risultati evidenziano l'intervento come meccanismo pratico per migliorare l'affidabilità nei sistemi agentici e aprono opportunità per metodi di debugging più robusti e scalabili per sistemi multi-agente basati su LLM. Il sito web del progetto e il codice saranno disponibili su https://aka.ms/DoVer.
Studiamo l'editing di video egocentrici guidato da istruzioni per applicazioni AR interattive. Sebbene i recenti editor video basati su IA funzionino bene su filmati in terza persona, le visuali egocentriche presentano sfide uniche – inclusi rapidi movimenti ego e frequenti interazioni mano-oggetto – che creano un significativo divario di dominio. Inoltre, le pipeline di editing offline esistenti soffrono di un'elevata latenza, limitando l'interazione in tempo reale. Per affrontare questi problemi, presentiamo un ecosistema completo per l'editing video egocentrico. In primo luogo, costruiamo EgoEditData, un dataset progettato con cura e curato manualmente, specificamente ideato per scenari di editing egocentrico, che presenta ricche interazioni mano-oggetto preservando esplicitamente le mani. In secondo luogo, sviluppiamo EgoEdit, un editor video egocentrico che segue le istruzioni e supporta l'inferenza in streaming in tempo reale su una singola GPU. Infine, introduciamo EgoEditBench, una suite di valutazione che mira alla fedeltà alle istruzioni, alla preservazione delle mani e delle interazioni, e alla stabilità temporale durante il movimento ego. Sia nei compiti di editing egocentrico che generale, EgoEdit produce risultati temporalmente stabili e fedeli alle istruzioni con latenza interattiva. Raggiunge miglioramenti evidenti sui benchmark di editing egocentrico – dove i metodi esistenti faticano – mantenendo al contempo prestazioni comparabili ai baseline più forti nei compiti di editing generale. EgoEditData ed EgoEditBench saranno resi pubblici per la comunità di ricerca. Visita il nostro sito web all'indirizzo https://snap-research.github.io/EgoEdit.
Le recenti tecniche di apprendimento per rinforzo (RL) hanno prodotto notevoli miglioramenti nelle capacità di ragionamento dei modelli linguistici, ma rimane poco chiaro se l'addestramento postumo estenda veramente l'abilità di ragionamento di un modello oltre quanto acquisito durante il pre-addestramento. Una sfida centrale è la mancanza di controllo nelle pipeline di addestramento moderne: i corpora di pre-addestramento su larga scala sono opachi, l'addestramento intermedio è spesso poco esaminato e gli obiettivi di RL interagiscono in modi complessi con conoscenze pregresse sconosciute. Per risolvere questa ambiguità, sviluppiamo un framework sperimentale completamente controllato che isola i contributi causali del pre-addestramento, dell'addestramento intermedio e del post-addestramento basato su RL. Il nostro approccio utilizza compiti di ragionamento sintetici con operazioni atomiche esplicite, tracce di ragionamento passo-passo analizzabili e manipolazione sistematica delle distribuzioni di addestramento. Valutiamo i modelli lungo due assi: generalizzazione estrapolativa verso composizioni più complesse e generalizzazione contestuale attraverso contesti superficiali. Utilizzando questo framework, riconciliamo visioni contrastanti sull'efficacia dell'RL. Dimostriamo che: 1) L'RL produce veri guadagni di capacità (pass@128) solo quando il pre-addestramento lascia un margine sufficiente e quando i dati di RL mirano al "limite di competenza" del modello, ovvero compiti al confine che sono difficili ma non ancora fuori portata. 2) La generalizzazione contestuale richiede un'esposizione minima ma sufficiente durante il pre-addestramento, dopo la quale l'RL può trasferire in modo affidabile. 3) L'addestramento intermedio migliora significativamente le prestazioni a parità di capacità computazionale rispetto al solo RL, dimostrando il suo ruolo centrale ma poco esplorato nelle pipeline di addestramento. 4) Ricompense a livello di processo riducono il reward hacking e migliorano la fedeltà del ragionamento. Nel complesso, questi risultati chiariscono l'interazione tra pre-addestramento, addestramento intermedio e RL, offrendo una base per comprendere e migliorare le strategie di addestramento dei modelli linguistici per il ragionamento.
La maggior parte dei modelli generativi visivi comprime le immagini in uno spazio latente prima di applicare modellazione diffusion o autoregressiva. Tuttavia, approcci esistenti come le VAE e gli encoder allineati ai modelli di base vincolano implicitamente lo spazio latente senza modellarne esplicitamente la distribuzione, rendendo poco chiaro quali tipi di distribuzioni siano ottimali per la modellazione. Introduciamo la VAE a corrispondenza di distribuzione (DMVAE), che allinea esplicitamente la distribuzione latente dell'encoder con una distribuzione di riferimento arbitraria tramite un vincolo di corrispondenza distributiva. Ciò generalizza oltre il prior gaussiano delle VAE convenzionali, consentendo l'allineamento con distribuzioni derivate da feature auto-supervisionate, rumore diffusion o altri distributioni precedenti. Con DMVAE, possiamo investigare sistematicamente quali distribuzioni latenti siano più favorevoli alla modellazione, e scopriamo che le distribuzioni derivate da SSL offrono un eccellente equilibrio tra fedeltà di ricostruzione ed efficienza di modellazione, raggiungendo un gFID pari a 3.2 su ImageNet con soli 64 epoche di addestramento. I nostri risultati suggeriscono che la scelta di una struttura di distribuzione latente adeguata (ottenuta tramite allineamento a livello distributivo), piuttosto che l'affidamento a priori fissi, sia la chiave per colmare il divario tra latenti facili da modellare e sintesi di immagini ad alta fedeltà. Il codice è disponibile su https://github.com/sen-ye/dmvae.
Gli esseri umani non percepiscono solo la somiglianza attributiva, ma anche la somiglianza relazionale. Una mela è simile a una pesca perché entrambe sono frutti rossastri, ma anche la Terra è simile a una pesca: la sua crosta, mantello e nucleo corrispondono rispettivamente alla buccia, polpa e nocciolo della pesca. Questa capacità di percepire e riconoscere la somiglianza relazionale viene considerata da molti scienziati cognitivi come ciò che distingue gli esseri umani da altre specie. Tuttavia, tutte le metriche di similarità visiva ampiamente utilizzate oggi (ad esempio LPIPS, CLIP, DINO) si concentrano esclusivamente sulla somiglianza attributiva percettiva e non riescono a catturare le ricche e spesso sorprendenti somiglianze relazionali che gli umani percepiscono. Come possiamo andare oltre il contenuto visibile di un'immagine per catturarne le proprietà relazionali? Come possiamo avvicinare nello spazio di rappresentazione immagini che condividono la stessa logica relazionale? Per rispondere a queste domande, abbiamo prima formulato la similarità relazionale delle immagini come un problema misurabile: due immagini sono relazionalmente simili quando le loro relazioni interne o funzioni tra elementi visivi corrispondono, anche se i loro attributi visivi differiscono. Successivamente, abbiamo curato un dataset di 114k immagini-caption in cui le descrizioni sono anonime, descrivendo la logica relazionale sottostante della scena piuttosto che il suo contenuto superficiale. Utilizzando questo dataset, abbiamo effettuato il fine-tuning di un modello Vision-Language per misurare la similarità relazionale tra le immagini. Questo modello rappresenta il primo passo verso la connessione di immagini in base alla loro struttura relazionale sottostante piuttosto che al loro aspetto visibile. Il nostro studio dimostra che, nonostante la similarità relazionale abbia numerose applicazioni nel mondo reale, i modelli di similarità di immagini esistenti non riescono a catturarla, rivelando un divario critico nell'ambito del computing visivo.
Proponiamo MVP (Multi-view Pyramid Transformer), un'architettura transformer multi-vista scalabile che ricostruisce direttamente grandi scene 3D da decine a centinaia di immagini in un singolo passaggio in avanti. Ispirandosi all'idea di "guardare più ampio per vedere l'insieme, guardare più fine per vedere i dettagli", MVP si basa su due principi di progettazione fondamentali: 1) una gerarchia inter-vista da locale a globale che amplia gradualmente la prospettiva del modello da viste locali a gruppi e infine all'intera scena, e 2) una gerarchia intra-vista da fine a grossolana che parte da rappresentazioni spaziali dettagliate e le aggrega progressivamente in token compatti e ad alta densità informativa. Questa doppia gerarchia consente di ottenere sia efficienza computazionale che ricchezza rappresentativa, permettendo una ricostruzione rapida di scene ampie e complesse. Validiamo MVP su diversi dataset e dimostriamo che, se combinato con il Gaussian Splatting 3D come rappresentazione 3D sottostante, esso raggiunge una qualità di ricostruzione generalizzabile allo stato dell'arte, mantenendo al contempo elevata efficienza e scalabilità in un'ampia gamma di configurazioni di vista.
Presentiamo LongCat-Image, un modello fondazionale pionieristico, open-source e bilingue (cinese-inglese) per la generazione di immagini, progettato per affrontare le principali sfide relative al rendering multilingue del testo, al fotorealismo, all'efficienza di deployment e all'accessibilità per gli sviluppatori, criticità riscontrate nei modelli leader attuali. 1) Questo risultato è ottenuto attraverso rigorose strategie di curatela dei dati durante le fasi di pre-training, mid-training e SFT (Supervised Fine-Tuning), affiancate dall'uso coordinato di modelli di reward curati durante la fase di RL (Reinforcement Learning). Tale strategia eleva il modello a un nuovo stato dell'arte (SOTA), garantendo capacità di rendering testuale superiori, un fotorealismo notevole e un significativo miglioramento della qualità estetica. 2) In particolare, il modello stabilisce un nuovo standard industriale per il rendering dei caratteri cinesi. Supportando anche caratteri complessi e rari, supera le principali soluzioni open-source e commerciali sia in termini di copertura che di accuratezza. 3) Il modello raggiunge un'efficienza straordinaria grazie alla sua progettazione compatta. Con un modello di diffusione core di soli 6 miliardi di parametri, è significativamente più piccolo delle architetture Mixture-of-Experts (MoE) da circa 20B parametri o più, comuni in questo campo. Ciò garantisce un utilizzo minimo della VRAM e un'inferenza rapida, riducendo notevolmente i costi di deployment. Oltre alla generazione, LongCat-Image eccelle anche nell'editing di immagini, raggiungendo risultati SOTA su benchmark standard con una superiore coerenza di modifica rispetto ad altri lavori open-source. 4) Per responsabilizzare appieno la comunità, abbiamo stabilito l'ecosistema open-source più completo fino ad oggi. Rilasciamo non solo multiple versioni del modello per text-to-image e image editing, inclusi checkpoint dopo le fasi di mid-training e post-training, ma anche l'intera toolchain del processo di training. Crediamo che l'apertura di LongCat-Image fornirà un supporto robusto a sviluppatori e ricercatori, spingendo in avanti le frontiere della creazione di contenuti visivi.
I recenti modelli di generazione video dimostrano capacità di sintesi impressionanti, ma rimangono limitati da un condizionamento mono-modale, il quale vincola la loro comprensione olistica del mondo. Ciò deriva da un'interazione cross-modale insufficiente e da una diversità modale limitata per una rappresentazione completa della conoscenza del mondo. Per affrontare queste limitazioni, introduciamo UnityVideo, un framework unificato per la generazione di video consapevole del mondo che apprende congiuntamente attraverso molteplici modalità (maschere di segmentazione, skeleton umani, DensePose, flusso ottico e mappe di profondità) e paradigmi di addestramento. Il nostro approccio presenta due componenti fondamentali: (1) un dynamic noising per unificare paradigmi di addestramento eterogenei, e (2) un modality switcher con un in-context learner che abilita un'elaborazione unificata tramite parametri modulari e apprendimento contestuale. Contribuiamo con un dataset unificato su larga scala contenente 1.3 milioni di campioni. Attraverso un'ottimizzazione congiunta, UnityVideo accelera la convergenza e migliora significativamente la generalizzazione zero-shot su dati non visti. Dimostriamo che UnityVideo raggiunge una qualità video superiore, una maggiore coerenza e un miglior allineamento con i vincoli del mondo fisico. Codice e dati sono disponibili all'indirizzo: https://github.com/dvlab-research/UnityVideo
I grandi modelli linguistici visivi (VLM) colmano efficacemente il divario modale attraverso un pre-addestramento estensivo, acquisendo rappresentazioni visive sofisticate allineate con il linguaggio. Tuttavia, rimane poco esplorato se queste rappresentazioni, ottimizzate per compiti di comprensione multimodale, custodiscano un potenziale intrinseco per la generazione visiva. In questo articolo, proponiamo VGT, Visual Generation Tuning, un paradigma innovativo progettato per stimolare le capacità sottostanti di generazione visiva all'interno di qualsiasi modello linguistico visivo. Eseguendo un efficiente tuning per la generazione visiva su VLM pre-addestrati, mitigiamo significativamente i costi di allineamento e acceleriamo la convergenza della modellazione autoregressiva nello spazio continuo (accelerazione di 20x). Nello specifico, accantoniamo i VAE a livello di pixel progettati per i transformer diffusivi e formuliamo VGT-AE allineando gli encoder semantici dei VLM pre-addestrati con le rappresentazioni latenti dei decoder di pixel. In compiti di ricostruzione d'immagine, raggiungiamo 26.67 PSNR e 0.50 rFID con un rapporto di compressione 28x, superando VAE specializzati; in compiti di generazione visiva, otteniamo risultati all'avanguardia tra i modelli autoregressivi: 0.77 su GenEval e 78.73 su DPG-Bench. Inoltre, il nostro VGT dimostra un significativo potenziale di scalabilità e versatilità nel conferire a qualsiasi VLM addestrato per la comprensione multimodale le capacità di generazione visiva, aprendo una nuova strada per esplorare modelli fondazionali multimodali unificati di prossima generazione. Modelli e codice sono disponibili su https://github.com/hustvl/VGT.
I modelli di ricompensa di processo (PRM) che forniscono feedback denso a livello di passaggio hanno mostrato potenziale per l'apprendimento per rinforzo, ma la loro adozione rimane limitata dalla necessità di costose annotazioni a livello di passaggio o di riferimenti alla verità di base. Proponiamo SPARK: un framework in tre fasi in cui, nella prima fase, un modello generatore produce soluzioni diverse e un modello verificatore le valuta utilizzando il ridimensionamento parallelo (auto-consistenza) e il ridimensionamento sequenziale (meta-critica). Nella seconda fase, utilizziamo questi output di verifica come dati di addestramento sintetici per mettere a punto modelli generativi di ricompensa di processo, che fungono successivamente da segnali di ricompensa durante l'addestramento. Dimostriamo che aggregare multiple verifiche indipendenti a livello di passaggio produce dati di addestramento per modelli di ricompensa di processo che superano la supervisione basata sulla verità di base del risultato, raggiungendo un F1 di 67.5 su ProcessBench (un benchmark per identificare passaggi errati nel ragionamento matematico) rispetto a 66.4 per l'addestramento guidato da riferimento e 61.9 per GPT-4o. Nella fase finale, applichiamo il nostro PRM generativo con verifica a catena di pensiero (PRM-CoT) come modello di ricompensa in esperimenti di RL sul ragionamento matematico e introduciamo vincoli di formato per prevenire il reward hacking. Utilizzando Qwen2.5-Math-7B, raggiungiamo una precisione media del 47.4% su sei benchmark di ragionamento matematico, superando l'RLVR basato sulla verità di base (43.9%). Il nostro lavoro abilita un addestramento RL senza riferimenti che supera i metodi basati sulla verità di base, aprendo nuove possibilità per domini privi di risposte verificabili o di una verità di base accessibile.
Il ragionamento visivo integrato con strumenti (TiVR) ha dimostrato un grande potenziale nel potenziare la risoluzione multimodale dei problemi. Tuttavia, i paradigmi esistenti di TiVR si concentrano principalmente sull'integrazione di vari strumenti visivi tramite apprendimento per rinforzo, trascurando la progettazione di meccanismi di risposta efficaci per gestire output di strumenti inaffidabili o errati. Questa limitazione è particolarmente evidente nei compiti di riferimento e di grounding, dove previsioni inaccurate degli strumenti di rilevamento spesso inducono i modelli TiVR a generare ragionamenti allucinati. Per affrontare questo problema, proponiamo VG-Refiner, il primo framework mirato al ragionamento di riferimento e grounding raffinato dagli strumenti. Tecnicamente, introduciamo un meccanismo a due fasi "think-rethink" che consente al modello di analizzare esplicitamente e rispondere al feedback degli strumenti, insieme a una ricompensa di raffinamento che incentiva una correzione efficace in risposta a risultati scadenti degli strumenti. Inoltre, proponiamo due nuove metriche e stabiliamo protocolli di valutazione equi per misurare sistematicamente la capacità di raffinamento dei modelli attuali. Adottiamo una piccola quantità di dati specifici per il compito per potenziare la capacità di raffinamento di VG-Refiner, ottenendo un miglioramento significativo nell'accuratezza e nella capacità di correzione su benchmark di riferimento e grounding ragionato, preservando al contempo le capacità generali del modello preaddestrato.
Proponiamo ReCamDriving, un framework per la generazione di video su nuove traiettorie controllato puramente tramite visione artificiale e telecamere. Mentre i metodi basati sulla riparazione non riescono a ripristinare artefatti complessi e gli approcci basati su LiDAR si affidano a segnali sparsi e incompleti, ReCamDriving sfrutta rendering 3DGS densi e completi della scena per una guida geometrica esplicita, raggiungendo una generazione precisa e controllabile dalla telecamera. Per mitigare l'overfitting verso comportamenti di restauro quando condizionato dai rendering 3DGS, ReCamDriving adotta un paradigma di addestramento a due stadi: il primo stadio utilizza le pose della telecamera per un controllo approssimativo, mentre il secondo stadio incorpora i rendering 3DGS per una guida fine del punto di vista e geometrica. Inoltre, presentiamo una strategia di curatela dei dati basata su 3DGS per traiettorie incrociate per eliminare il divario train-test nei pattern di trasformazione della telecamera, consentendo una supervisione scalabile multi-traiettoria a partire da video monoculari. Basandoci su questa strategia, costruiamo il dataset ParaDrive, contenente oltre 110.000 coppie di video a traiettoria parallela. Esperimenti estensivi dimostrano che ReCamDriving raggiunge uno stato dell'arte nella controllabilità della telecamera e nella coerenza strutturale.
I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno consentito capacità unificate di percezione-ragionamento, eppure questi sistemi rimangono altamente vulnerabili ad attacchi di jailbreak che aggirano l'allineamento di sicurezza e inducono comportamenti dannosi. Benchmark esistenti come JailBreakV-28K, MM-SafetyBench e HADES forniscono spunti preziosi sulle vulnerabilità multimodali, ma tipicamente si concentrano su scenari di attacco limitati, mancano di una valutazione standardizzata delle difese e non offrono un toolbox unificato e riproducibile. Per colmare queste lacune, introduciamo OmniSafeBench-MM, un toolbox completo per la valutazione attacco-difesa del jailbreak multimodale. OmniSafeBench-MM integra 13 metodi di attacco rappresentativi, 15 strategie di difesa e un dataset diversificato che abbraccia 9 principali domini di rischio e 50 categorie granulari, strutturato attraverso tipi di interrogazione consultivi, imperativi e dichiarativi per riflettere le intenzioni realistiche dell'utente. Oltre alla copertura dei dati, stabilisce un protocollo di valutazione tridimensionale che misura (1) la dannosità, distinta da una scala granulare e multilivello che va dal danno individuale a basso impatto alle minacce sociali catastrofiche, (2) l'allineamento dell'intenzione tra risposte e query, e (3) il livello di dettaglio della risposta, consentendo un'analisi sfumata del compromesso sicurezza-utilità. Condurremo esperimenti estesi su 10 MLLM open-source e 8 closed-source per rivelare la loro vulnerabilità al jailbreak multimodale. Unificando dati, metodologia e valutazione in una piattaforma open-source e riproducibile, OmniSafeBench-MM fornisce una base standardizzata per la ricerca futura. Il codice è rilasciato all'indirizzo https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
Nonostante i progressi promettenti nella generazione di immagini guidata da soggetti, i modelli attuali spesso si discostano dalle identità di riferimento e faticano in scene complesse con più soggetti. Per affrontare questa sfida, introduciamo OpenSubject, un corpus su larga scala derivato da video con 2.5 milioni di campioni e 4.35 milioni di immagini per la generazione e la manipolazione guidata da soggetti. Il dataset è costruito con una pipeline in quattro fasi che sfrutta priorità identitarie cross-frame. (i) Curazione Video. Applichiamo filtri di risoluzione ed estetici per ottenere clip di alta qualità. (ii) Individuazione e Accoppiamento di Soggetti Cross-Frame. Utilizziamo un consenso di categoria basato su modelli visione-linguaggio (VLM), grounding locale e accoppiamento consapevole della diversità per selezionare coppie di immagini. (iii) Sintesi di Immagini di Riferimento con Conservazione dell'Identità. Introduciamo l'outpainting guidato da mappe di segmentazione per sintetizzare le immagini di input per la generazione guidata da soggetti e l'inpainting guidato da bounding box per generare immagini di input per la manipolazione guidata da soggetti, insieme a tecniche di aumento dati geometricamente consapevoli ed erosione di bordi irregolari. (iv) Verifica e Descrizione. Utilizziamo un VLM per convalidare i campioni sintetizzati, risintetizzare i campioni falliti basandoci sulla fase (iii), e quindi costruire descrizioni brevi e lunghe. Inoltre, introduciamo un benchmark che copre la generazione e la manipolazione guidata da soggetti, valutando poi la fedeltà identitaria, l'aderenza al prompt, la coerenza della manipolazione e la coerenza dello sfondo con un giudice VLM. Esperimenti estesi mostrano che l'addestramento con OpenSubject migliora le prestazioni di generazione e manipolazione, specialmente in scene complesse.
La regressione basata su decodifica, che riformula la regressione come un compito di generazione di sequenze, è emersa come un paradigma promettente per applicare modelli linguistici di grandi dimensioni alla previsione numerica. Tuttavia, il suo progresso è ostacolato dal disallineamento tra obiettivi discreti a livello di token (ad esempio, l'entropia incrociata) e valori numerici continui. Gli approcci esistenti che si basano su vincoli a livello di token spesso non riescono a catturare la magnitudine globale del valore target, limitandone precisione e generalizzazione. In questo articolo, proponiamo di sbloccare il potenziale della regressione basata su decodifica tramite Apprendimento per Rinforzo (RL). Formuliamo il processo di generazione come un Processo Decisionale di Markov, utilizzando ricompense a livello di sequenza per imporre una coerenza numerica globale. Esperimenti estensivi su regressione tabellare e regressione di metriche del codice dimostrano che il nostro metodo (in particolare con ReMax e GRPO) supera costantemente sia i benchmark state-of-the-art a livello di token che le tradizionali teste di regressione, mostrando la superiorità dell'introduzione di segnali a livello di sequenza. La nostra analisi rivela inoltre che l'RL migliora significativamente l'efficienza di campionamento e la precisione predittiva, stabilendo la regressione basata su decodifica come un paradigma robusto e accurato per la previsione numerica generica.
I modelli generativi visivi (ad esempio, i modelli di diffusione) operano tipicamente in spazi latenti compressi per bilanciare efficienza addestrativa e qualità del campione. Parallelamente, è cresciuto l'interesse nello sfruttare rappresentazioni visive pre-addestrate di alta qualità, allineandole all'interno di VAE o direttamente nel modello generativo. Tuttavia, l'adattamento di tali rappresentazioni rimane complesso a causa di una discrepanza fondamentale tra feature orientate alla comprensione e spazi latenti adatti alla generazione. Gli encoder di rappresentazione beneficiano di latenti ad alta dimensionalità che catturano ipotesi diverse per regioni mascherate, mentre i modelli generativi preferiscono latenti a bassa dimensionalità che devono preservare fedelmente il rumore iniettato. Questa divergenza ha portato i lavori precedenti a fare affidamento su obiettivi e architetture complessi. In questo lavoro, proponiamo FAE (Feature Auto-Encoder), un framework semplice ma efficace che adatta rappresentazioni visive pre-addestrate in latenti a bassa dimensionalità adatti alla generazione, utilizzando anche un solo layer di attenzione, pur conservando informazioni sufficienti sia per la ricostruzione che per la comprensione. La chiave è l'accoppiamento di due decoder separati: uno addestrato a ricostruire lo spazio di feature originale, e un secondo che prende le feature ricostruite come input per la generazione di immagini. FAE è generico; può essere istanziato con vari encoder auto-supervisionati (ad esempio, DINO, SigLIP) e integrato in due distinte famiglie generative: modelli di diffusione e flussi normalizzanti. Su benchmark di generazione condizionata a classe e testo-immagine, FAE raggiunge prestazioni solide. Ad esempio, su ImageNet 256x256, il nostro modello di diffusione con CFG raggiunge un FID quasi state-of-the-art di 1.29 (800 epoche) e 1.70 (80 epoche). Senza CFG, FAE raggiunge lo state-of-the-art con FID di 1.48 (800 epoche) e 2.08 (80 epoche), dimostrando sia alta qualità che apprendimento rapido.
Presentiamo GRAPE (Group RepresentAtional Position Encoding), un framework unificato per la codifica posizionale basata su azioni di gruppo. GRAPE riunisce due famiglie di meccanismi: (i) rotazioni moltiplicative (GRAPE Moltiplicativo) in SO(d) e (ii) bias additivi sui logit (GRAPE Additivo) derivanti da azioni unipotenti nel gruppo lineare generale GL. In GRAPE Moltiplicativo, una posizione n in Z (o t in R) agisce come G(n)=exp(n,ω,L) con un generatore skew di rango-2 L in R^{d × d}, producendo una mappa relativa, composizionale e norm-preserving con un'esponenziale di matrice in forma chiusa. RoPE viene recuperata esattamente quando i piani d/2 sono le coppie di coordinate canoniche con spettro log-uniforme. Sottospazi commutativi appresi e miscele compatte non commutative estendono rigorosamente questa geometria per catturare l'accoppiamento di feature tra sottospazi con un costo per testa di O(d) e O(r d), rispettivamente. In GRAPE Additivo, i logit additivi sorgono come azioni unipotenti di rango-1 (o basso rango), recuperando ALiBi e il Forgetting Transformer (FoX) come casi speciali esatti, preservando al contempo una legge relativa esatta e la cacheabilità in streaming. Nel complesso, GRAPE fornisce uno spazio di progettazione principiato per la geometria posizionale in modelli a contesto lungo, includendo come casi speciali RoPE e ALiBi. Pagina del progetto: https://github.com/model-architectures/GRAPE.
I recenti progressi nei modelli generativi autoregressivi (AR) hanno prodotto sistemi sempre più potenti per la sintesi di contenuti multimediali. Tra questi, la previsione multi-scala è emersa come un paradigma popolare, in cui i modelli generano immagini in maniera coarse-to-fine (da grossolana a dettagliata). Tuttavia, i modelli AR scalari soffrono di exposure bias (bias di esposizione), che compromette la qualità della generazione. Identifichiamo due cause primarie di questo problema: (1) il disallineamento train-test, per cui il modello durante l'inferenza deve fare affidamento sulle proprie previsioni imperfette, e (2) lo squilibrio nella difficoltà di apprendimento per scala, per cui determinate scale presentano una complessità di ottimizzazione sproporzionatamente più alta. Attraverso un'analisi completa delle dinamiche di addestramento, proponiamo l'Affinamento Auto-Autoregressivo (SAR) per affrontare queste limitazioni. SAR introduce un meccanismo di Rollout a Scale Sfalsate (SSR) che esegue rollout autoregressivi leggeri per esporre il modello alle proprie previsioni intermedie, allineando così gli schemi di train e test, e una complementare Loss di Contrasto e Student-Forcing (CSFL) che fornisce una supervisione adeguata per i contesti auto-generati, garantendo un addestramento stabile. I risultati sperimentali mostrano che l'applicazione di SAR a modelli AR pre-addestrati migliora costantemente la qualità della generazione con un overhead computazionale minimo. Ad esempio, SAR produce una riduzione del FID del 5,2% su FlexVAR-d16 addestrato su ImageNet 256x256 in sole 10 epoche (5 ore su 32 GPU A100). Data la sua efficienza, scalabilità ed efficacia, ci aspettiamo che SAR possa servire come metodo affidabile di post-addestramento per la generazione visiva autoregressiva.
I recenti modelli visione-linguaggio (VLM) ottengono prestazioni notevoli nel ragionamento attraverso l'apprendimento per rinforzo (RL), che fornisce una soluzione fattibile per realizzare grandi modelli visione-linguaggio (LVLM) auto-evolventi continui nell'era dell'esperienza. Tuttavia, l'RL per i VLM richiede dati multimodali abbondanti e di alta qualità, risultando particolarmente complesso in domini specialistici come la chimica, le scienze della terra e la matematica multimodale. Le strategie esistenti, come i dati sintetici e i meccanismi di auto-ricompensa, soffrono di distribuzioni limitate e difficoltà di allineamento, causando infine reward hacking: i modelli sfruttano pattern ad alta ricompensa, collassando l'entropia della policy e destabilizzando l'addestramento. Proponiamo DoGe (Decouple to Generalize), un framework a doppio disaccoppiamento che guida i modelli ad apprendere prima dal contesto piuttosto che dal problem solving, riportando l'attenzione sugli scenari contestuali del problema trascurati dai metodi con dati sintetici. Disaccoppiando il processo di apprendimento in due componenti (Thinker e Solver), quantifichiamo ragionevolmente i segnali di ricompensa di questo processo e proponiamo un approccio di post-addestramento RL in due fasi, dall'esplorazione libera del contesto alla risoluzione pratica dei compiti. In secondo luogo, per aumentare la diversità dei dati di addestramento, DoGe costruisce una pipeline evolutiva di curriculum learning: un corpus espanso di conoscenze del dominio nativo e un pool di problemi seme che evolve iterativamente. Gli esperimenti mostrano che il nostro metodo supera costantemente il baseline su vari benchmark, fornendo un percorso scalabile per realizzare LVLM auto-evolventi.
La generalizzazione nella manipolazione robotica è essenziale per implementare i robot in ambienti open-world e progredire verso l'intelligenza artificiale generale. Sebbene i recenti modelli Visione-Linguaggio-Azione (VLA) sfruttino modelli di comprensione pre-addestrati su larga scala per la percezione e l'adempimento di istruzioni, la loro capacità di generalizzare verso nuovi compiti, oggetti e contesti rimane limitata. In questo lavoro presentiamo VideoVLA, un approccio semplice che esplora il potenziale della trasformazione di grandi modelli di generazione video in manipolatori robotici VLA. Dati un'istruzione linguistica e un'immagine, VideoVLA predice una sequenza di azioni insieme ai risultati visivi futuri. Basato su un Diffusion Transformer multimodale, VideoVLA modella congiuntamente le modalità video, linguaggio e azione, utilizzando modelli generativi video pre-addestrati per la previsione visiva e azionale congiunta. I nostri esperimenti dimostrano che futuri immaginati di alta qualità si correlano con previsioni azionali affidabili e successo del compito, sottolineando l'importanza dell'immaginazione visiva nella manipolazione. VideoVLA mostra una forte generalizzazione, inclusa l'imitazione di abilità di altre embodiment e la gestione di oggetti nuovi. Questa strategia di doppia previsione – che prevede sia le azioni che le loro conseguenze visive – esplora un cambio di paradigma nell'apprendimento robotico e sblocca capacità di generalizzazione nei sistemi di manipolazione.
I sistemi di dialogo a contesto lungo soffrono di Inerzia di Stato, dove vincoli statici impediscono ai modelli di risolvere i conflitti tra intenti utente in evoluzione e il contesto storico consolidato. Per affrontare questo problema, proponiamo DZ-TDPO, un framework di allineamento non distruttivo che sinergizza vincoli dinamici KL consapevoli dei conflitti con un bias di attenzione temporale calibrato. Esperimenti sul dataset Multi-Session Chat (MSC) dimostrano che DZ-TDPO raggiunge tassi di vittoria allo stato dell'arte (55,4% su Phi-3.5) mantenendo al contempo una robusta generalizzazione zero-shot. La nostra analisi di scalabilità rivela un "Compromesso Capacità-Stabilità": mentre modelli più piccoli incorrono in un "costo di allineamento" (picco di perplexity) per superare l'inerzia storica, il modello più grande Qwen2.5-7B raggiunge un tasso di vittoria del 50,8% con un overhead di perplexity trascurabile. Ciò conferma che l'Inerzia di Stato può essere alleviata tramite una regolazione precisa dell'attenzione piuttosto che aggiornamenti distruttivi dei pesi, preservando le capacità generali (MMLU) attraverso le diverse scale dei modelli. Codice e dati sono disponibili: https://github.com/lyj20071013/DZ-TDPO
Man mano che i robot entrano negli spazi di lavoro umani, diventa cruciale la necessità che comprendano le istruzioni incarnate degli esseri umani, permettendo un'interazione uomo-robot (HRI) intuitiva e fluida. Tuttavia, una comprensione accurata è difficile a causa della mancanza di dataset su larga scala che catturino interazioni incarnate naturali in diversi contesti HRI. I dataset esistenti presentano bias prospettico, raccolta da visuale singola, copertura inadeguata dei gesti non verbali e una predominante focalizzazione su ambienti indoor. Per affrontare questi problemi, presentiamo il dataset Refer360, un dataset su larga scala di interazioni verbali e non verbali incarnate, raccolto da diverse prospettive in ambienti sia indoor che outdoor. Inoltre, introduciamo MuRes, un modulo residuo guidato multimodale progettato per migliorare la comprensione delle espressioni referenziali incarnate. MuRes funge da collo di bottiglia informativo, estraendo segnali salienti specifici per modalità e rinforzandoli all'interno di rappresentazioni pre-addestrate per formare caratteristiche complementari per i task a valle. Conduciamo esperimenti estesi su quattro dataset HRI, incluso il dataset Refer360, e dimostriamo che gli attuali modelli multimodali non riescono a catturare in modo completo le interazioni incarnate; tuttavia, potenziarli con MuRes migliora costantemente le prestazioni. Questi risultati stabiliscono Refer360 come un benchmark prezioso e mostrano il potenziale dell'apprendimento residuo guidato per far progredire la comprensione delle espressioni referenziali incarnate in robot che operano all'interno di ambienti umani.
Le garanzie classiche di convergenza per l'apprendimento basato sul gradiente nei giochi richiedono che lo pseudo-gradiente sia (fortemente) monotono nella geometria euclidea, come dimostrato da Rosen (1965), una condizione che spesso fallisce anche in giochi semplici con forti accoppiamenti tra giocatori. Introduciamo Small-Gain Nash (SGN), una condizione di piccolo guadagno a blocchi in una geometria personalizzata con pesi a blocchi. SGN converte limiti locali di curvatura e di accoppiamento Lipschitz tra giocatori in un certificato trattabile di contrazione. Essa costruisce una metrica a blocchi pesata in cui lo pseudo-gradiente diventa fortemente monotono in qualsiasi regione dove questi limiti valgono, anche quando è non monotono in senso euclideo. Il flusso continuo è esponenzialmente contraente in questa geometria progettata, e le discretizzazioni di Eulero proiettato e RK4 convergono sotto limiti espliciti di passo derivati dal margine SGN e da una costante di Lipschitz locale. La nostra analisi rivale una "banda di scala temporale certificata", un certificato non asintotico e basato sulla metrica che svolge un ruolo simile a TTUR: piuttosto che forzare una separazione asintotica delle scale temporali tramite passi di apprendimento infinitesimi e disuguali, SGN identifica una banda finita di pesi metrici relativi per cui una dinamica a passo singolo è provatamente contrattiva. Validiamo il framework su giochi quadratici dove l'analisi di monotonicità euclidea fallisce nel predire la convergenza, ma SGN la certifica con successo, ed estendiamo la costruzione alle geometrie mirror/Fisher per il gradiente della politica regolarizzato con entropia nei giochi di Markov. Il risultato è una pipeline di certificazione offline che stima i parametri di curvatura, accoppiamento e Lipschitz su regioni compatte, ottimizza i pesi dei blocchi per ampliare il margine SGN e restituisce un certificato di convergenza strutturale e calcolabile, consistente in una metrica, un tasso di contrazione e dimensioni di passo sicure per giochi non monotoni.
Il variational autoencoder a vettori quantizzati (VQ-VAE) è un autoencoder discreto che comprime le immagini in token discreti. È difficile da addestrare a causa della discretizzazione. In questo articolo, proponiamo una tecnica semplice ma efficace, denominata Gaussian Quant (GQ), che converte un VAE gaussiano con un certo vincolo in un VQ-VAE senza addestramento. GQ genera rumore gaussiano casuale come codebook e trova il rumore più vicino alla media a posteriori. Teoricamente, dimostriamo che quando il logaritmo della dimensione del codebook supera il tasso di codifica bits-back del VAE gaussiano, è garantito un piccolo errore di quantizzazione. Praticamente, proponiamo un'euristica per addestrare il VAE gaussiano per una GQ efficace, denominata target divergence constraint (TDC). Empiricamente, mostriamo che GQ supera i precedenti VQ-VAE, come VQGAN, FSQ, LFQ e BSQ, sia su architetture UNet che ViT. Inoltre, TDC migliora anche i precedenti metodi di discretizzazione del VAE gaussiano, come TokenBridge. Il codice sorgente è disponibile su https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
I lavori recenti sulla traduzione strutturata di testi rimangono limitati al livello frasale, poiché faticano a gestire efficacemente le complesse strutture XML o HTML a livello di documento. Per affrontare questo problema, proponiamo il Format Reinforcement Learning (FormatRL), che impiega l'ottimizzazione delle politiche relative di gruppo su un modello supervisionato fine-tuned per ottimizzare direttamente nuove ricompense consapevoli della struttura: 1) TreeSim, che misura la similarità strutturale tra gli alberi XML previsti e di riferimento, e 2) Node-chrF, che misura la qualità della traduzione a livello di nodi XML. Inoltre, applichiamo StrucAUC, una metrica granulare che distingue tra errori minori e fallimenti strutturali maggiori. Gli esperimenti sul benchmark SAP per la documentazione software dimostrano miglioramenti su sei metriche, e un'analisi mostra ulteriormente come diverse funzioni di ricompensa contribuiscano a miglioramenti sia nella qualità strutturale che in quella traduttiva.
Introduciamo un framework auto-supervisionato a due stadi che combina la Joint-Embedding Predictive Architecture (JEPA) con un Density Adaptive Attention Mechanism (DAAM) per l'apprendimento di rappresentazioni vocali robuste. Lo Stadio~1 utilizza JEPA con DAAM per apprendere caratteristiche audio semantiche tramite predizione mascherata nello spazio latente, completamente disaccoppiata dalla ricostruzione della forma d'onda. Lo Stadio~2 sfrutta queste rappresentazioni per una efficiente tokenizzazione utilizzando la Finite Scalar Quantization (FSQ) e uno schema di impacchettamento a base mista, seguita da una ricostruzione ad alta fedeltà della forma d'onda con un decodificatore HiFi-GAN. Integrando un meccanismo di gating adattivo alla densità basato su misture gaussiane nell'encoder JEPA, il modello esegue una selezione adattiva di caratteristiche temporali e scopre una struttura vocale gerarchica a un basso frame rate di 2.5~Hz. I token risultanti (47.5 token/sec) forniscono una rappresentazione reversibile, altamente compressa e adatta per modelli linguistici, che è competitiva con, e spesso più efficiente di, i codec audio neurali esistenti.
Questo articolo indaga la discontinuità fondamentale tra i due più recenti Segment Anything Model: SAM2 e SAM3. Spieghiamo perché l'expertise nella segmentazione basata su prompt di SAM2 non si trasferisce al paradigma multimodale guidato da concetti di SAM3. SAM2 opera attraverso prompt spaziali (punti, riquadri e maschere) producendo una segmentazione puramente geometrica e temporale. Al contrario, SAM3 introduce un'architettura visione-linguaggio unificata capace di ragionamento open-vocabulary, grounding semantico, allineamento contrastivo e comprensione di concetti basata su esempi. Strutturiamo questa analisi attraverso cinque componenti fondamentali: (1) una Rottura Concettuale tra Segmentazione Basata su Prompt e Basata su Concetti, contrapponendo la semantica dei prompt spaziali di SAM2 con la fusione multimodale e la generazione di maschere condizionata da testo di SAM3; (2) Divergenza Architetturale, dettagliando il design puramente visivo-temporale di SAM2 rispetto all'integrazione in SAM3 di encoder visione-linguaggio, encoder geometrici e di esemplari, moduli di fusione, decoder in stile DETR, object query e gestione dell'ambiguità tramite Mixture-of-Experts; (3) Differenze nei Dataset e nelle Annotazioni, contrapponendo le maschere video SA-1B-V con i corpora annotati con concetti multimodali di SAM3; (4) Distinzioni nell'Addestramento e negli Iperparametri, mostrando perché la conoscenza dell'ottimizzazione di SAM2 non si applica a SAM3; e (5) Valutazione, Metriche e Modalità di Fallimento, delineando la transizione dalle metriche geometriche IoU alla valutazione semantica open-vocabulary. Insieme, queste analisi stabiliscono SAM3 come una nuova classe di modello fondazionale per la segmentazione e tracciano le direzioni future per l'emergente era della segmentazione guidata da concetti.