Articoli di ricerca IA selezionati quotidianamente con traduzioni
I sistemi multi-agente (MAS) estendono i grandi modelli linguistici (LLM) dal ragionamento indipendente di singoli modelli a un'intelligenza coordinata a livello di sistema. Mentre gli agenti LLM esistenti dipendono da una mediazione basata su testo per il ragionamento e la comunicazione, noi facciamo un passo avanti consentendo ai modelli di collaborare direttamente all'interno dello spazio latente continuo. Introduciamo LatentMAS, un framework end-to-end che non richiede training e abilita una collaborazione puramente latente tra agenti LLM. In LatentMAS, ogni agente esegue prima una generazione autoregressiva di pensieri latenti attraverso gli embedding nascosti dell'ultimo strato. Una memoria di lavoro latente condivisa preserva e trasferisce poi le rappresentazioni interne di ogni agente, garantendo uno scambio di informazioni senza perdite. Forniamo analisi teoriche che stabiliscono come LatentMAS raggiunga una maggiore espressività e una preservazione delle informazioni senza perdite, con una complessità sostanzialmente inferiore rispetto ai MAS vanilla basati su testo. Inoltre, valutazioni empiriche su 9 benchmark completi che coprono il ragionamento matematico e scientifico, la comprensione del senso comune e la generazione di codice, mostrano che LatentMAS supera costantemente solidi benchmark a modello singolo e MAS basati su testo, raggiungendo un'accuratezza superiore fino al 14,6%, riducendo l'uso di token in output del 70,8%-83,7% e fornendo un'inferenza end-to-end da 4 a 4,3 volte più veloce. Questi risultati dimostrano che il nostro nuovo framework di collaborazione latente migliora la qualità del ragionamento a livello di sistema offrendo al contempo sostanziali guadagni di efficienza senza alcun training aggiuntivo. Codice e dati sono completamente open-source all'indirizzo https://github.com/Gen-Verse/LatentMAS.
I modelli linguistici multimodali di grandi dimensioni (MLLM) si trovano attualmente al centro dell'attenzione della ricerca, mostrando rapidi progressi in termini di scala e capacità, ma la loro intelligenza, limitazioni e rischi rimangono insufficientemente compresi. Per affrontare queste problematiche, in particolare nel contesto della lingua russa, dove attualmente non esistono benchmark multimodali, presentiamo Mera Multi, un framework di valutazione multimodale open per architetture di lingua russa. Il benchmark è basato su istruzioni e comprende le modalità predefinite di testo, immagine, audio e video, includendo 18 nuovi task di valutazione costruiti sia per modelli general-purpose che per architetture specifiche per modalità (da immagine a testo, da video a testo e da audio a testo). I nostri contributi includono: (i) una tassonomia universale delle abilità multimodali; (ii) 18 dataset creati completamente da zero con attenzione alla specificità culturale e linguistica russa, prompt unificati e metriche; (iii) risultati baseline sia per modelli closed-source che open-source; (iv) una metodologia per prevenire la fuoriuscita dei dati del benchmark, inclusi watermark e licenze per gli insiemi privati. Sebbene il nostro focus attuale sia sul russo, il benchmark proposto fornisce una metodologia replicabile per la costruzione di benchmark multimodali in lingue tipologicamente diverse, in particolare all'interno della famiglia delle lingue slave.
I modelli mondiali fungono da simulatori centrali per settori come l'IA agenziale, l'IA incarnata e il gaming, essendo in grado di generare video di alta qualità, lunghi, fisicamente realistici e interattivi. Inoltre, il ridimensionamento di questi modelli potrebbe sbloccare capacità emergenti nella percezione, comprensione e ragionamento visivo, aprendo la strada a un nuovo paradigma che va oltre gli attuali modelli di fondazione visiva incentrati sugli LLM. Una svolta chiave che li abilita è il paradigma di decodifica semi-autoregressiva (block-diffusion), che fonde i punti di forza dei metodi diffusion e autoregressivi generando token video in blocchi, applicando la diffusione all'interno di ogni blocco condizionandolo a quelli precedenti, ottenendo così sequenze video più coerenti e stabili. Fondamentalmente, supera i limiti della diffusione video standard reintroducendo la gestione della KV Cache in stile LLM, consentendo una generazione efficiente, di lunghezza variabile e di alta qualità. Pertanto, Inferix è stato specificamente progettato come motore di inferenza di prossima generazione per abilitare la sintesi immersiva di mondi attraverso processi di decodifica semi-autoregressiva ottimizzati. Questo focus dedicato sulla simulazione mondiale lo distingue nettamente dai sistemi progettati per scenari ad alta concorrenza (come vLLM o SGLang) e dai classici modelli di diffusione video (come xDiTs). Inferix migliora ulteriormente la sua offerta con lo streaming video interattivo e il profiling, consentendo l'interazione in tempo reale e una simulazione realistica per modellare accuratamente le dinamiche mondiali. Inoltre, supporta una valutazione efficiente attraverso l'integrazione seamless di LV-Bench, un nuovo benchmark di valutazione fine-grain specificamente studiato per scenari di generazione video della durata di minuti. Speriamo che la comunità lavori insieme per far progredire Inferix e favorire l'esplorazione dei modelli mondiali.
La sintesi di contenuti audiovisivi sincronizzati rappresenta una sfida cruciale nell'IA generativa, con i modelli open-source che affrontano difficoltà nel garantire un robusto allineamento audio-video. La nostra analisi rivela che il problema è radicato in tre sfide fondamentali del processo di diffusione congiunta: (1) la Deriva della Corrispondenza, dove i segnali latenti rumorosi che evolvono concorrentemente ostacolano l'apprendimento stabile dell'allineamento; (2) meccanismi di attenzione globale inefficienti che non catturano i segnali temporali granulari; e (3) il bias intra-modale della Guida Classifier-Free (CFG) convenzionale, che migliora la condizionalità ma non la sincronizzazione cross-modale. Per superare queste sfide, introduciamo Harmony, un framework innovativo che applica meccanicamente la sincronizzazione audiovisiva. Proponiamo innanzitutto un paradigma di addestramento a Sinergia Incrociata per mitigare la deriva sfruttando forti segnali di supervisione dai compiti di generazione video guidata dall'audio e audio guidata dal video. Successivamente, progettiamo un Modulo di Interazione Disaccoppiata Globale-Locale per un allineamento temporale-stilistico efficiente e preciso. Infine, presentiamo una CFG Potenziata per la Sincronizzazione (SyncCFG) che isola ed amplifica esplicitamente il segnale di allineamento durante l'inferenza. Esperimenti estensivi dimostrano che Harmony stabilisce un nuovo stato dell'arte, superando significativamente i metodi esistenti sia nella fedeltà generativa che, soprattutto, nel raggiungimento di una sincronizzazione audiovisiva granulare.
Presentiamo Nemotron-Parse-1.1, un modello leggero per il parsing di documenti e l'OCR che avanza le capacità del suo predecessore, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 offre capacità migliorate nell'OCR generale, nella formattazione markdown, nel parsing strutturato di tabelle e nell'estrazione di testo da immagini, grafici e diagrammi. Supporta inoltre una lunghezza di sequenza in output maggiore per documenti visivamente densi. Come il suo predecessore, estrae i bounding box dei segmenti di testo, insieme alle corrispondenti classi semantiche. Nemotron-Parse-1.1 segue un'architettura encoder-decoder con 885 milioni di parametri, incluso un compatto decoder linguistico da 256 milioni di parametri. Raggiunge un'accuratezza competitiva sui benchmark pubblici, rendendolo una soluzione OCR leggera e robusta. Rilasciamo pubblicamente i pesi del modello su Huggingface, insieme a un container NIM ottimizzato e a un sottoinsieme dei dati di addestramento come parte del più ampio dataset Nemotron-VLM-v2. Inoltre, rilasciamo Nemotron-Parse-1.1-TC, che opera su una lunghezza ridotta dei token visivi, offrendo un miglioramento della velocità del 20% con un degrado minimo della qualità.
I modelli multimodali unificati (UMM) hanno dimostrato prestazioni impressionanti sia nella comprensione che nella generazione con una singola architettura. Tuttavia, gli UMM mostrano ancora un'incongruenza fondamentale: la comprensione favorisce embedding compatti, mentre la generazione favorisce rappresentazioni ricche per la ricostruzione. Questo compromesso strutturale produce confini decisionali disallineati, coerenza cross-modale degradata e una maggiore vulnerabilità sotto variazioni distributive e avversariali. In questo articolo, presentiamo UniGame, un framework di post-addestramento auto-avversario che mira direttamente alle incongruenze. Applicando un perturbatore leggero all'interfaccia condivisa dei token, UniGame consente al ramo di generazione di cercare attivamente e sfidare la comprensione fragile, trasformando il modello stesso nel proprio avversario. Gli esperimenti dimostrano che UniGame migliora significativamente la coerenza (+4,6%). Inoltre, ottiene anche sostanziali miglioramenti nella comprensione (+3,6%), nella generazione (+0,02), e nella robustezza out-of-distribution e avversaria (+4,8% e +6,2% su NaturalBench e AdVQA). Il framework è indipendente dall'architettura, introduce meno dell'1% di parametri aggiuntivi ed è complementare ai metodi di post-addestramento esistenti. Questi risultati posizionano l'auto-gioco avversario come un principio generale ed efficace per migliorare la coerenza, la stabilità e la competenza unificata dei futuri modelli fondazionali multimodali. Il codice ufficiale è disponibile all'indirizzo: https://github.com/AIFrontierLab/UniGame
Investigiamo la capacità dei grandi modelli linguistici (LLM) di generalizzare attraverso diversi livelli di difficoltà dei compiti, una questione chiave per una efficace curatela e valutazione dei dati. La ricerca esistente fornisce risultati contrastanti riguardo al fatto che l'addestramento su dati più facili o più difficili porti a risultati migliori, e se tali miglioramenti si manifestino su dati di test più facili o più difficili. Affrontiamo questa questione conducendo una valutazione sistematica della generalizzazione degli LLM attraverso modelli, dataset e gruppi granulari di esempi classificati per difficoltà. Classifichiamo gli esempi in sei dataset utilizzando gli output di migliaia di LLM diversi e la Teoria della Risposta all'Item (IRT), una metrica di difficoltà consolidata nel campo della valutazione educativa. A differenza dei lavori precedenti, le nostre valutazioni di difficoltà sono quindi determinate esclusivamente dalle capacità di molti LLM diversi, escludendo le opinioni umane sulla difficoltà. Con un'analisi più oggettiva, su larga scala e a grana fine, dimostriamo che la generalizzazione trasversale alla difficoltà è spesso limitata; l'addestramento su dati facili o difficili non può ottenere miglioramenti consistenti sull'intera gamma di difficoltà. Questi risultati evidenziano l'importanza di disporre di una gamma di difficoltà sia nei dati di addestramento che in quelli di valutazione per gli LLM, e che prendere scorciatoie riguardo alla difficoltà è rischioso.
Il "ragionamento per immagini" è emerso come un paradigma efficace per avanzare il ragionamento visivo, estendendosi oltre le catene di pensiero puramente testuali attraverso l'iniezione di evidenze visive nei passaggi intermedi del ragionamento. Tuttavia, i metodi esistenti sono carenti rispetto al pensiero visivo astratto umano, poiché la loro flessibilità è fondamentalmente limitata da strumenti esterni. In questo lavoro, introduciamo Monet, un framework di addestramento che consente ai grandi modelli linguistici multimodali (MLLM) di ragionare direttamente all'interno dello spazio visivo latente generando embedding continui che fungono da pensieri visivi intermedi. Identifichiamo due sfide fondamentali nell'addestrare MLLM per il ragionamento visivo latente: l'elevato costo computazionale nell'allineamento visivo latente e la supervisione insufficiente sugli embedding latenti, e le affrontiamo con una pipeline di fine-tuning supervisionato (SFT) basata su distillazione in tre fasi. Inoltre, riveliamo una limitazione nell'applicare GRPO al ragionamento latente: esso migliora principalmente il ragionamento basato sul testo piuttosto che quello latente. Per superare questo problema, proponiamo VLPO (Ottimizzazione delle Politiche Visuali-Latenti), un metodo di apprendimento per rinforzo che incorpora esplicitamente gli embedding latenti negli aggiornamenti del gradiente della politica. Per supportare l'SFT, costruiamo Monet-SFT-125K, un dataset CoT (Chain of Thought) intercalato testo-immagine di alta qualità contenente 125K CoT del mondo reale, di grafici, OCR e geometria. Il nostro modello, Monet-7B, mostra miglioramenti consistenti su benchmark di percezione e ragionamento del mondo reale ed esibisce una forte generalizzazione fuori distribuzione su compiti impegnativi di ragionamento visivo astratto. Analizziamo empiricamente anche il ruolo di ciascun componente di addestramento e discutiamo i nostri primi tentativi infruttuosi, fornendo spunti per futuri sviluppi nel ragionamento visivo latente. Il nostro modello, i dati e il codice sono disponibili su https://github.com/NOVAglow646/Monet.
Proponiamo Terminal Velocity Matching (TVM), una generalizzazione del flow matching che abilita la modellazione generativa ad alta fedeltà in uno o pochi passi. TVM modella la transizione tra due qualsiasi step di diffusione e regolarizza il suo comportamento al tempo terminale piuttosto che al tempo iniziale. Dimostriamo che TVM fornisce un limite superiore per la distanza di Wasserstein-2 tra le distribuzioni dei dati e del modello quando il modello è Lipschitz-continuo. Tuttavia, poiché i Diffusion Transformer non possiedono questa proprietà, introduciamo modifiche architetturali minime che consentono un addestramento stabile e a stadio singolo. Per rendere TVM efficiente in pratica, sviluppiamo un kernel di attenzione fusa che supporta i passi all'indietro sui prodotti Jacobiano-Vettore, i quali scalano bene con le architetture a transformer. Su ImageNet-256x256, TVM raggiunge un FID di 3.29 con una singola valutazione di funzione (NFE) e un FID di 1.99 con 4 NFE. Analogamente, raggiunge un FID a 1-NFE di 4.32 e un FID a 4-NFE di 2.94 su ImageNet-512x512, rappresentando lo stato dell'arte per i modelli a uno/pochi passi addestrati da zero.
I modelli visione-linguaggio (VLM) mostrano ancora carenze di robustezza nell'intelligenza spaziale, dimostrando scarse prestazioni nelle attività di comprensione e ragionamento spaziale. Attribuiamo questo divario all'assenza di un processo di apprendimento della geometria visiva in grado di ricostruire lo spazio 3D a partire da immagini 2D. Presentiamo G²VLM, un modello visione-linguaggio ancorato alla geometria che colma due aspetti fondamentali dell'intelligenza spaziale: la ricostruzione spaziale 3D e la comprensione spaziale. G²VLM sfrutta nativamente caratteristiche geometriche visive 3D apprese per prevedere direttamente attributi 3D e potenziare i compiti di ragionamento spaziale mediante apprendimento in contesto e ragionamento intervallato. Il nostro design unificato è altamente scalabile per la comprensione spaziale: si addestra su abbondanti dati video e di immagini multi-vista, sfruttando al contempo i vantaggi di prerequisiti visivi 3D che tipicamente derivano solo da annotazioni difficili da raccogliere. I risultati sperimentali dimostrano che G²VLM è competente in entrambi i compiti, raggiungendo risultati comparabili ai modelli all'avanguardia per la ricostruzione 3D feed-forward e ottenendo risultati migliori o competitivi nelle attività di comprensione e ragionamento spaziale. Unificando un VLM semanticamente forte con compiti di visione artificiale 3D di basso livello, speriamo che G²VLM possa servire come solida baseline per la comunità e aprire la strada a future applicazioni, come l'editing di scene 3D.
La generazione video block-causal affronta un netto compromesso velocità-qualità: piccoli modelli da 1,3B raggiungono solo 16 FPS, mentre modelli grandi da 14B procedono a soli 4,5 FPS, costringendo gli utenti a scegliere tra reattività e qualità. Il Block Cascading mitiga significativamente questo compromesso attraverso una parallelizzazione senza training. La nostra intuizione chiave: i blocchi video futuri non necessitano di blocchi correnti completamente denoisati per iniziare la generazione. Avviando la generazione dei blocchi con contesto parzialmente denoisato dai predecessori, trasformiamo pipeline sequenziali in cascate parallele dove più blocchi denoisano simultaneamente. Con 5 GPU che sfruttano il parallelismo temporale, otteniamo un’accelerazione di ~2x su tutte le scale di modelli: i modelli da 1,3B accelerano da 16 a 30 FPS, quelli da 14B da 4,5 a 12,5 FPS. Oltre alla velocità di inferenza, il Block Cascading elimina l’overhead del KV-recaching (~200ms) durante i cambi di contesto per la generazione interattiva. Valutazioni estensive contro multiple pipeline block-causal dimostrano nessuna perdita significativa nella qualità di generazione passando da pipeline block-causal a pipeline Block Cascading per l'inferenza. Pagina del progetto: https://hmrishavbandy.github.io/block_cascading_page/
L'ancoraggio di istruzioni in linguaggio naturale a comandi di controllo continuo per robot quadrupedi rimane una sfida fondamentale nel campo visione-linguaggio-azione. I metodi esistenti faticano a colmare il divario tra il ragionamento semantico di alto livello e l'attuazione di basso livello, portando a un ancoraggio instabile e a una debole generalizzazione nel mondo reale. Per affrontare questi problemi, presentiamo MobileVLA-R1, un framework unificato visione-linguaggio-azione che abilita un ragionamento esplicito e un controllo continuo per robot quadrupedi. Costruiamo MobileVLA-CoT, un dataset su larga scala di catene di pensiero (CoT) multi-granularità per traiettorie embodied, fornendo una supervisione strutturata al ragionamento per l'allineamento. Su questa base, introduciamo un paradigma di addestramento in due fasi che combina l'allineamento supervisionato CoT con l'apprendimento per rinforzo GRPO per migliorare la coerenza del ragionamento, la stabilità del controllo e l'esecuzione su orizzonti lunghi. Valutazioni estensive su compiti VLN e VLA dimostrano prestazioni superiori rispetto a baseline solide, con un miglioramento di circa il 5%. Il dispiegamento nel mondo reale su un robot quadrupede convalida prestazioni robuste in ambienti complessi. Codice: https://github.com/AIGeeksGroup/MobileVLA-R1. Sito web: https://aigeeksgroup.github.io/MobileVLA-R1.
La distillazione del timestep è un approccio efficace per migliorare l'efficienza generativa dei modelli di diffusione. Il Modello di Consistenza (CM), in quanto framework basato su traiettorie, dimostra un potenziale significativo grazie alla sua solida base teorica e alla generazione di alta qualità in pochi passi. Tuttavia, gli attuali metodi di distillazione della consistenza a tempo continuo dipendono ancora fortemente dai dati di addestramento e dalle risorse computazionali, ostacolandone l'adozione in scenari con risorse limitate e limitandone la scalabilità a domini diversi. Per affrontare questo problema, proponiamo il Trajectory-Backward Consistency Model (TBCM), che elimina la dipendenza da dati di addestramento esterni estraendo rappresentazioni latenti direttamente dalla traiettoria generativa del modello insegnante. A differenza dei metodi convenzionali che richiedono la codifica VAE e dataset su larga scala, il nostro paradigma di distillazione autonomo migliora significativamente sia l'efficienza che la semplicità. Inoltre, i campioni estratti dalla traiettoria colmano naturalmente il divario distributivo tra addestramento e inferenza, consentendo così un trasferimento di conoscenza più efficace. Empiricamente, TBCM raggiunge punteggi di 6.52 FID e 28.08 CLIP su MJHQ-30k nella generazione a singolo passo, riducendo contemporaneamente il tempo di addestramento di circa il 40% rispetto a Sana-Sprint e risparmiando una quantità sostanziale di memoria GPU, dimostrando un'efficienza superiore senza sacrificare la qualità. Riveliamo inoltre la discrepanza spazio-diffusione-generazione nella distillazione di consistenza a tempo continuo e analizziamo come le strategie di campionamento influenzino le prestazioni della distillazione, offrendo spunti per la futura ricerca in questo campo. Link GitHub: https://github.com/hustvl/TBCM.
Le politiche Vision-Language-Action (VLA) eccellono nell'allineare linguaggio, percezione e controllo robotico. Tuttavia, la maggior parte dei modelli VLA viene addestrata puramente per imitazione, il che porta a un overfitting rispetto alle dimostrazioni e a una fragilità in caso di shift distribuzionale. L'apprendimento per rinforzo (RL) ottimizza direttamente la ricompensa del compito, affrontando così questo disallineamento, ma l'interazione con robot reali è costosa e i simulatori convenzionali sono difficili da progettare e trasferire. Noi affrontiamo sia l'efficienza dei dati che la stabilità dell'ottimizzazione nel post-addestramento VLA attraverso un modello del mondo appreso e una procedura RL studiata per teste di azione basate su flussi (flow). Nello specifico, introduciamo Prophet, un modello unificato di attuazione robotica da azione a video, pre-addestrato su dati robotici eterogenei e su larga scala per apprendere dinamiche azione-risultato riutilizzabili. Esso è in grado di adattarsi con pochi esempi (few-shot) a nuovi robot, oggetti e ambienti, producendo un simulatore pronto per il rollout. Su Prophet, rinforziamo le politiche di azione con Flow-action-GRPO (FA-GRPO), che adatta Flow-GRPO per operare su azioni VLA, e con FlowScale, un ripesaggio passo-passo che riscala i gradienti per passo nella testa di flusso. Insieme, Prophet, FA-GRPO e FlowScale costituiscono ProphRL, un percorso pratico, efficiente in termini di dati e computazione, per il post-addestramento VLA. Gli esperimenti mostrano miglioramenti del successo del 5-17% su benchmark pubblici e del 24-30% su robot reali su diverse varianti VLA.
I Vision Foundation Model (VFM) estraggono rappresentazioni spazialmente sottocampionate, ponendo sfide per i compiti a livello di pixel. Gli approcci di upsampling esistenti affrontano un compromesso fondamentale: i filtri classici sono veloci e ampiamente applicabili ma si basano su forme fisse, mentre gli upsampler moderni raggiungono un'accuratezza superiore attraverso forme apprendibili e specifiche per il VFM, al costo di un riaddestramento per ogni modello. Introduciamo il Neighborhood Attention Filtering (NAF), che colma questa lacuna apprendendo pesi spaziali e di contenuto adattivi attraverso la Cross-Scale Neighborhood Attention e i Rotary Position Embeddings (RoPE), guidati unicamente dall'immagine di input ad alta risoluzione. NAF opera in modalità zero-shot: effettua l'upsampling delle feature da qualsiasi VFM senza riaddestramento, rendendolo la prima architettura VFM-agnostica a superare gli upsampler specifici per VFM e a raggiungere prestazioni allo stato dell'arte in molteplici attività downstream. Mantiene un'elevata efficienza, scalando su mappe di feature 2K e ricostruendo mappe a risoluzione intermedia a 18 FPS. Oltre all'upsampling di feature, NAF dimostra ottime prestazioni nel restauro di immagini, evidenziandone la versatilità. Codice e checkpoint sono disponibili su https://github.com/valeoai/NAF.
Presentiamo Sphinx, un ambiente sintetico per la percezione visiva e il ragionamento che mira ai primitivi cognitivi fondamentali. Sphinx genera proceduralmente enigmi utilizzando motivi, tessere, grafici, icone e primitive geometriche, ciascuno associato a soluzioni di verifica attendibile (ground-truth), consentendo sia una valutazione precisa che la costruzione di dataset su larga scala. Il benchmark copre 25 tipologie di compiti che spaziano dal rilevamento di simmetrie, alle trasformazioni geometriche, al ragionamento spaziale, all'interpretazione di grafici e alla previsione di sequenze. La valutazione di recenti modelli linguistico-visivi di grandi dimensioni (LVLM) mostra che anche l'all'avanguardia GPT-5 raggiunge solo il 51,1% di accuratezza, ben al di sotto delle prestazioni umane. Infine, dimostriamo che l'apprendimento per rinforzo con ricompense verificabili (RLVR) migliora sostanzialmente l'accuratezza del modello su questi compiti e produce guadagni su benchmark esterni di ragionamento visivo, evidenziandone la promessa per far progredire il ragionamento multimodale.
L’apprendimento per rinforzo tramite feedback umano (RLHF) è ampiamente utilizzato per l’allineamento dei grandi modelli linguistici, eppure i professionisti si trovano di fronte a un enigma persistente: migliorare la sicurezza spesso riduce l’equità, scalare a popolazioni diverse diventa computazionalmente intrattabile e rendere i sistemi robusti spesso amplifica i bias delle maggioranze. Formalizziamo questa tensione come il Trilemma dell’Allineamento: nessun sistema RLHF può raggiungere simultaneamente (i) epsilon-rappresentatività attraverso diversi valori umani, (ii) trattabilità polinomiale in complessità campionaria e computazionale, e (iii) delta-robustezza contro perturbazioni avversarie e cambi di distribuzione. Attraverso un’analisi di teoria della complessità che integra la teoria statistica dell’apprendimento e l’ottimizzazione robusta, dimostriamo che raggiungere sia la rappresentatività (epsilon ≤ 0.01) che la robustezza (delta ≤ 0.001) per popolazioni su scala globale richiede operazioni di Omega(2^{d_contesto}), che è super-polinomiale nella dimensionalità del contesto. Mostriamo che le attuali implementazioni RLHF risolvono questo trilemma sacrificando la rappresentatività: raccolgono solo 10^3–10^4 campioni da pool di annotatori omogenei, mentre sarebbero necessari 10^7–10^8 campioni per una vera rappresentazione globale. Il nostro framework fornisce una spiegazione unificata per le patologie documentate dell’RLHF, inclusi il collasso delle preferenze, la sicofanza e l’amplificazione sistematica dei bias. Concludiamo con indicazioni concrete per navigare questi compromessi fondamentali attraverso rilassamenti strategici dei requisiti di allineamento.
La generazione 3D su scala urbana è di fondamentale importanza per lo sviluppo dell'intelligenza incarnata e dei modelli del mondo. I metodi esistenti, tuttavia, affrontano sfide significative in termini di qualità, fedeltà e scalabilità nella generazione di mondi 3D. Pertanto, proponiamo RAISECity, un motore di sintesi intelligente allineato alla realtà che crea mondi 3D dettagliati su scala urbana. Introduciamo un framework agenziale che sfrutta diversi strumenti foundation multimodali per acquisire conoscenze del mondo reale, mantenere rappresentazioni intermedie robuste e costruire scene 3D complesse. Questo design agenziale, caratterizzato da elaborazione dinamica dei dati, autoriflessione e perfezionamento iterativi e invocazione di strumenti multimodali avanzati, minimizza gli errori cumulativi e migliora le prestazioni complessive. Esperimenti quantitativi estesi e analisi qualitative convalidano le prestazioni superiori di RAISECity nell'allineamento al mondo reale, precisione delle forme, fedeltà delle texture e livello estetico, raggiungendo un tasso di vittoria superiore al 90% rispetto ai baseline esistenti per la qualità percettiva complessiva. Questa combinazione di qualità 3D, allineamento alla realtà, scalabilità e compatibilità senza soluzione di continuità con le pipeline di computer grafica rende RAISECity una base promettente per applicazioni nei media immersivi, nell'intelligenza incarnata e nei modelli del mondo.
La previsione accurata della vita utile residua (RUL) dipende dalla qualità degli indicatori di salute (HI), tuttavia i metodi esistenti spesso non riescono a districare i complessi meccanismi di degrado nei sistemi multi-sensore o a quantificare l'incertezza nell'affidabilità degli HI. Questo articolo introduce un nuovo framework per la costruzione di HI, avanzando tre contributi chiave. In primo luogo, adattiamo la Ricostruzione lungo Percorsi Proiettati (RaPP) come indicatore di salute (HI) per la previsione della RUL per la prima volta, dimostrando che supera le metriche tradizionali dell'errore di ricostruzione. In secondo luogo, mostriamo che l'arricchimento degli HI derivati da RaPP con la quantificazione dell'incertezza aleatoria ed epistemica (UQ) tramite dropout Monte Carlo e spazi latenti probabilistici migliora significativamente la robustezza della previsione della RUL. In terzo luogo, e più criticamente, proponiamo i *gruppi di indicatori*, un paradigma che isola sottoinsiemi di sensori per modellare degradazioni specifiche del sistema, dando vita al nostro nuovo metodo, I-GLIDE, che abilita diagnosi interpretabili e specifiche per meccanismo. Valutato su dati provenienti da sistemi aerospaziali e manifatturieri, il nostro approccia consegue miglioramenti marcati in accuratezza e generalizzabilità rispetto ai metodi HI allo stato dell'arte, fornendo al contempo insight azionabili sui percorsi di guasto del sistema. Questo lavoro colma il divario tra il rilevamento di anomalie e la prognostica, offrendo un framework principiato per la modellazione del degrado consapevole dell'incertezza in sistemi complessi.
Nonostante lo Splatting Gaussiano 3D (3DGS) eccelli nella maggior parte delle configurazioni, manca di generalizzazione su punti di vista inediti in scenari few-shot a causa di un overfit sulle osservazioni sparse. Riconsideriamo l'ottimizzazione del 3DGS da una prospettiva di apprendimento automatico, inquadrando la sintesi di nuove viste come un problema di generalizzazione verso punti di vista non visti, una direzione poco esplorata. Proponiamo la Regolarizzazione dell'Acutezza Adattativa in Frequenza (FASR), che riformula la funzione obiettivo dell'addestramento 3DGS, guidandolo così a convergere verso una soluzione con migliore generalizzazione. Sebbene la Minimizzazione Consapevole dell'Acutezza (SAM) riduca analogamente l'acutezza del paesaggio di loss per migliorare la generalizzazione dei modelli di classificazione, il suo impiego diretto nel 3DGS è subottimale a causa della discrepanza tra i compiti. Nello specifico, esso ostacola la ricostruzione di dettagli ad alta frequenza a causa di un'eccessiva regolarizzazione, mentre ridurne l'intensità porta a una penalizzazione insufficiente dell'acutezza. Per affrontare ciò, riflettiamo la frequenza locale delle immagini per impostare il peso della regolarizzazione e il raggio dell'intorno quando si stima l'acutezza locale. Ciò previene artefatti a floater in nuovi punti di vista e ricostruisce dettagli fini che SAM tende a oversmoothare. Su dataset con varie configurazioni, il nostro metodo migliora costantemente un'ampia gamma di baseline. Il codice sarà disponibile su https://bbangsik13.github.io/FASR.