Articoli di ricerca IA selezionati quotidianamente con traduzioni
I rapidi progressi nei modelli video si sono concentrati principalmente sulla qualità visiva, lasciando le loro capacità di ragionamento in gran parte inesplorate. Il ragionamento video fonda l'intelligenza in ambienti visivi spaziotemporalmente coerenti che vanno oltre ciò che il testo può catturare naturalmente, consentendo un ragionamento intuitivo sulla struttura spaziotemporale come continuità, interazione e causalità. Tuttavia, lo studio sistematico del ragionamento video e del suo comportamento di scaling è ostacolato dalla mancanza di dati di addestramento su larga scala. Per colmare questa lacuna, presentiamo il Very Big Video Reasoning (VBVR) Dataset, una risorsa di scala senza precedenti che comprende 200 task di ragionamento selezionati seguendo una tassonomia principiata e oltre un milione di clip video, approssimativamente tre ordini di grandezza più ampia dei dataset esistenti. Presentiamo inoltre VBVR-Bench, un framework di valutazione verificabile che va oltre il giudizio basato su modelli incorporando sistemi di punteggio basati su regole e allineati all'umano, consentendo una diagnosi riproducibile e interpretabile delle capacità di ragionamento video. Sfruttando la suite VBVR, abbiamo condotto uno dei primi studi di scaling su larga scala sul ragionamento video e osservato i primi segni di generalizzazione emergente verso task di ragionamento non visti. Nel complesso, VBVR getta le basi per la prossima fase della ricerca sul ragionamento video generalizzabile. I dati, il toolkit di benchmark e i modelli sono pubblicamente disponibili su https://video-reason.com/ .
I sistemi di IA composti promettono capacità superiori a quelle dei singoli modelli, ma il loro successo dipende criticamente da un'orchestrazione efficace. Gli approcci di routing esistenti presentano due limitazioni: (1) i router a livello di input prendono decisioni grossolane a livello di query che ignorano i requisiti evolutivi del compito; (2) gli orchestratori addestrati con RL sono costosi da adattare e spesso soffrono di collasso del routing, invocando ripetutamente un'opzione potente ma costosa in scenari multi-turn. Introduciamo SkillOrchestra, un framework per l'orchestrazione consapevole delle abilità. Invece di apprendere direttamente una politica di routing end-to-end, SkillOrchestra apprende abilità granulari dall'esperienza di esecuzione e modella la competenza e il costo specifici degli agenti in relazione a tali abilità. In fase di deployment, l'orchestratore inferisce le richieste di abilità dell'interazione corrente e seleziona gli agenti che le soddisfano al meglio sotto un esplicito compromesso prestazioni-costo. Esperimenti estesi su dieci benchmark dimostrano che SkillOrchestra supera gli orchestratori basati su RL allo stato dell'arte fino al 22,5%, con una riduzione del costo di apprendimento di 700x e 300x rispetto a Router-R1 e ToolOrchestra, rispettivamente. Questi risultati mostrano che la modellazione esplicita delle abilità abilita un'orchestrazione scalabile, interpretabile ed efficiente nel campionamento, offrendo un'alternativa principiata agli approcci basati su RL ad alta intensità di dati. Il codice è disponibile all'indirizzo: https://github.com/jiayuww/SkillOrchestra.
In seguito all'ascesa dei grandi modelli di base, sono emersi i modelli Vision-Language-Action (VLA), che sfruttano una solida comprensione visiva e linguistica per l'apprendimento di politiche generali. Tuttavia, l'attuale panorama dei VLA rimane frammentato ed esplorativo. Sebbene molti gruppi abbiano proposto i propri modelli VLA, le incongruenze nei protocolli di addestramento e nelle impostazioni di valutazione rendono difficile identificare quali scelte progettuali siano veramente determinanti. Per dare struttura a questo spazio in evoluzione, riesaminiamo lo spazio di progettazione dei VLA all'interno di un quadro unificato e con una configurazione di valutazione uniforme. Partendo da una semplice baseline VLA simile a RT-2 e OpenVLA, analizziamo sistematicamente le scelte progettuali lungo tre dimensioni: componenti fondamentali, elementi essenziali della percezione e prospettive di modellazione delle azioni. Da questo studio, distilliamo 12 risultati chiave che insieme formano una ricetta pratica per costruire modelli VLA robusti. L'esito di questa esplorazione è un modello semplice ma efficace, VLANeXt. VLANeXt supera i precedenti metodi all'avanguardia sui benchmark LIBERO e LIBERO-plus e dimostra una forte generalizzazione in esperimenti nel mondo reale. Rilasceremo una codebase unificata e facile da usare che funga da piattaforma comune per la comunità per riprodurre i nostri risultati, esplorare lo spazio di progettazione e costruire nuove varianti di VLA su una base condivisa.
Riportiamo uno studio esplorativo di red-teaming su agenti autonomi basati su modelli linguistici, implementati in un ambiente di laboratorio live con memoria persistente, account email, accesso a Discord, file system ed esecuzione di shell. In un periodo di due settimane, venti ricercatori di IA hanno interagito con gli agenti in condizioni sia benigne che avversariali. Concentrandoci sui fallimenti emersi dall'integrazione di modelli linguistici con autonomia, uso di strumenti e comunicazione multi-parte, documentiamo undici casi di studio rappresentativi. I comportamenti osservati includono: conformità non autorizzata a non-proprietari, divulgazione di informazioni sensibili, esecuzione di azioni distruttive a livello di sistema, condizioni di denial-of-service, consumo incontrollato di risorse, vulnerabilità di spoofing dell'identità, propagazione di pratiche non sicure tra agenti e parziale acquisizione del controllo del sistema. In diversi casi, gli agenti hanno segnalato il completamento di un'attività mentre lo stato del sistema sottostante contraddiceva tali rapporti. Riportiamo anche alcuni tentativi falliti. I nostri risultati attestano l'esistenza di vulnerabilità rilevanti per la sicurezza, la privacy e la governance in scenari di implementazione realistici. Questi comportamenti sollevano questioni irrisolte riguardanti la responsabilità, l'autorità delegata e l'imputabilità di danni a valle, richiedendo un'urgente attenzione da parte di giuristi, policymaker e ricercatori di diverse discipline. Questo rapporto costituisce un contributo empirico iniziale a quel più ampio dibattito.
La raccomandazione sequenziale utilizza sempre più il ragionamento latente multi-step per migliorare il calcolo al momento del test. Nonostante i vantaggi empirici, gli approcci esistenti guidano principalmente gli stati di ragionamento intermedi tramite obiettivi dominati dal target senza imporre vincoli espliciti di fattibilità. Ciò risulta in una deriva latente, dove le traiettorie di ragionamento deviano in regioni implausibili. Sosteniamo che un ragionamento efficace per la raccomandazione dovrebbe invece essere visto come una navigazione su una varietà collaborativa piuttosto che come un raffinamento latente libero. A tal fine, proponiamo ManCAR (Manifold-Constrained Adaptive Reasoning), un framework principiato che ancorail ragionamento all'interno della topologia di un grafo di interazione globale. ManCAR costruisce un prior d'intento locale dal vicinato collaborativo delle azioni recenti di un utente, rappresentato come una distribuzione sul simplesso degli item. Durante l'addestramento, il modello allinea progressivamente la sua distribuzione predittiva latente con questo prior, forzando la traiettoria di ragionamento a rimanere all'interno della varietà valida. Al momento del test, il ragionamento procede in modo adattativo finché la distribuzione predittiva non si stabilizza, evitando un raffinamento eccessivo. Forniamo un'interpretazione variazionale di ManCAR per convalidare teoricamente i suoi meccanismi di prevenzione della deriva e di arresto adattativo al test. Esperimenti su sette benchmark dimostrano che ManCAR supera costantemente i baseline allo stato dell'arte, raggiungendo un miglioramento relativo fino al 46,88% rispetto a NDCG@10. Il nostro codice è disponibile all'indirizzo https://github.com/FuCongResearchSquad/ManCAR.
Sebbene i modelli Visione-Linguaggio-Azione (VLA) abbiano registrato rapidi progressi nel pre-addestramento, il loro avanzamento nell'Apprendimento per Rinforzo (RL) rimane ostacolato dalla bassa efficienza campionaria e dalla scarsità di ricompense in contesti del mondo reale. Lo sviluppo di modelli di ricompensa di processo generalizzabili è essenziale per fornire il feedback granulare necessario a colmare questa lacuna, eppure le funzioni di valore temporale esistenti spesso non riescono a generalizzare al di là dei loro domini di addestramento. Introduciamo TOPReward, una nuova funzione di valore temporale con fondamenti probabilistici, che sfrutta la conoscenza latente del mondo dei modelli video Visione-Linguaggio (VLM) pre-addestrati per stimare il progresso dei compiti robotici. A differenza dei metodi precedenti che richiedono ai VLM di emettere direttamente valori di progresso, soggetti a errata rappresentazione numerica, TOPReward estrae il progresso del compito direttamente dai logit interni dei token del VLM. In valutazioni zero-shot su oltre 130 compiti distinti del mondo reale e su molteplici piattaforme robotiche (ad es., Franka, YAM, SO-100/101), TOPReward raggiunge una Correlazione Valore-Ordine (VOC) media di 0,947 su Qwen3-VL, superando drasticamente lo stato dell'arte della baseline GVL, che raggiunge una correlazione quasi zero sullo stesso modello open-source. Dimostriamo inoltre che TOPReward funge da strumento versatile per applicazioni a valle, inclusa la rilevazione del successo e la clonazione del comportamento allineata alla ricompensa.
I modelli multimodali unificati sono in grado sia di comprendere che di generare contenuti visivi all'interno di un'unica architettura. I modelli esistenti, tuttavia, rimangono avidi di dati e troppo pesanti per la distribuzione su dispositivi edge. Presentiamo Mobile-O, un modello compatto visione-linguaggio-diffusione che porta l'intelligenza multimodale unificata su un dispositivo mobile. Il suo modulo centrale, il Mobile Conditioning Projector (MCP), fonde le caratteristiche visive e linguistiche con un generatore di diffusione utilizzando convoluzioni depthwise separabili e allineamento stratificato. Questo design consente un condizionamento cross-modale efficiente con un costo computazionale minimo. Addestrato su soli pochi milioni di campioni e post-addestrato in un nuovo formato a quadrupla (prompt di generazione, immagine, domanda, risposta), Mobile-O migliora congiuntamente sia le capacità di comprensione che di generazione visiva. Nonostante la sua efficienza, Mobile-O raggiunge prestazioni competitive o superiori rispetto ad altri modelli unificati, ottenendo il 74% su GenEval e superando Show-O e JanusFlow del 5% e dell'11%, mentre è rispettivamente 6 e 11 volte più veloce. Per la comprensione visiva, Mobile-O li supera in media del 15,3% e del 5,1% su sette benchmark. Eseguendo in soli ~3 secondi per immagine 512x512 su un iPhone, Mobile-O stabilisce il primo quadro pratico per la comprensione e generazione multimodale unificata in tempo reale su dispositivi edge. Speriamo che Mobile-O faciliti la futura ricerca sull'intelligenza multimodale unificata in tempo reale eseguita interamente sul dispositivo senza dipendenze cloud. Il nostro codice, modelli, dataset e applicazione mobile sono pubblicamente disponibili su https://amshaker.github.io/Mobile-O/.
La capacità di manipolare utensili espande significativamente l'insieme di compiti che un robot può svolgere. Tuttavia, la manipolazione di utensili rappresenta una classe impegnativa di destrezza, che richiede la presa di oggetti sottili, rotazioni dell'oggetto in mano e interazioni forzate. Poiché la raccolta di dati di teleoperazione per questi comportamenti è complessa, l'apprendimento per rinforzo (RL) da simulazione a realtà (sim-to-real) è un'alternativa promettente. Tuttavia, gli approcci precedenti richiedono tipicamente uno sforzo ingegneristico sostanziale per modellare gli oggetti e ottimizzare le funzioni di ricompensa per ogni compito. In questo lavoro, proponiamo SimToolReal, compiendo un passo verso la generalizzazione delle politiche RL sim-to-real per la manipolazione di utensili. Invece di concentrarci su un singolo oggetto e compito, generiamo proceduralmente un'ampia varietà di primitive di oggetti simili a utensili in simulazione e addestriamo una singola politica RL con l'obiettivo universale di manipolare ogni oggetto verso pose obiettivo casuali. Questo approccio consente a SimToolReal di eseguire una manipolazione dextra generale degli utensili durante il test senza alcun addestramento specifico per oggetto o compito. Dimostriamo che SimToolReal supera i metodi precedenti di retargeting e presa fissa del 37%, eguagliando le prestazioni delle politiche RL specializzate addestrate su oggetti e compiti target specifici. Infine, mostriamo che SimToolReal generalizza su un insieme variegato di utensili comuni, raggiungendo solide prestazioni zero-shot in oltre 120 rollout nel mondo reale, coprendo 24 compiti, 12 istanze di oggetti e 6 categorie di utensili.
Studiamo il compito di stabilire corrispondenze visive a livello di oggetto tra diverse prospettive in video, concentrandoci sugli scenari complessi di transizione egocentrica-to-esocentrica e esocentrica-to-egocentrica. Proponiamo un framework semplice ma efficace basato sulla segmentazione binaria condizionata, in cui una maschera di query dell'oggetto viene codificata in una rappresentazione latente per guidare la localizzazione dell'oggetto corrispondente in un video target. Per favorire rappresentazioni robuste e invarianti al punto di vista, introduciamo un obiettivo di addestramento a cicli di consistenza: la maschera predetta nella vista target viene proiettata nuovamente nella vista sorgente per ricostruire la maschera di query originale. Questo vincolo bidirezionale fornisce un forte segnale di auto-supervisione senza richiedere annotazioni di verità terreno e abilita l'addestramento al momento del test (TTT) durante l'inferenza. Gli esperimenti sui benchmark Ego-Exo4D e HANDAL-X dimostrano l'efficacia del nostro obiettivo di ottimizzazione e della strategia TTT, raggiungendo prestazioni allo stato dell'arte. Il codice è disponibile all'indirizzo https://github.com/shannany0606/CCMP.
L'apprendimento per rinforzo con verificatori (RLVR) è un paradigma centrale per migliorare il ragionamento dei grandi modelli linguistici (LLM), eppure i metodi esistenti soffrono spesso di un'esplorazione limitata. Le politiche tendono a collassare su pochi schemi di ragionamento e interrompono prematuramente l'esplorazione profonda, mentre la regolarizzazione entropica convenzionale introduce solo una stocasticità locale e non riesce a indurre una diversità significativa a livello di percorso, portando a segnali di apprendimento deboli e instabili nell'ottimizzazione delle politiche basata su gruppi. Proponiamo DSDR, un framework di apprendimento per rinforzo con Regolarizzazione della Diversità a Doppia Scala che scompone la diversità nel ragionamento dei LLM in componenti globale e accoppiata. Globalmente, DSDR promuove la diversità tra le traiettorie di ragionamento corrette per esplorare modalità di soluzione distinte. Localmente, applica una regolarizzazione entropica a livello di token, invariante rispetto alla lunghezza e ristretta alle traiettorie corrette, prevenendo il collasso entropico all'interno di ciascuna modalità preservando al contempo la correttezza. Le due scale sono accoppiate attraverso un meccanismo di allocazione globale-locale che enfatizza la regolarizzazione locale per le traiettorie corrette più distintive. Forniamo supporto teorico dimostrando che DSDR preserva l'ottimalità della correttezza sotto regolarizzazione limitata, sostiene segnali di apprendimento informativi nell'ottimizzazione basata su gruppi e produce una regola di accoppiamento globale-locale principiata. Esperimenti su molteplici benchmark di ragionamento dimostrano miglioramenti consistenti in accuratezza e pass@k, evidenziando l'importanza della diversità a doppia scala per l'esplorazione profonda in RLVR. Il codice è disponibile all'indirizzo https://github.com/SUSTechBruce/DSDR.
I dati sintetici generati da modelli generativi video hanno mostrato potenzialità per l'apprendimento robotico come pipeline scalabile, ma spesso soffrono di qualità d'azione inconsistente a causa di video generati in modo imperfetto. Recentemente, i modelli visione-linguaggio (VLM) sono stati utilizzati per validare la qualità video, ma presentano limitazioni nel distinguere video fisicamente accurati e, anche in tal caso, non possono valutare direttamente le azioni generate stesse. Per affrontare questo problema, introduciamo RoboCurate, un nuovo framework di generazione di dati robotici sintetici che valuta e filtra la qualità delle azioni annotate confrontandole con un replay di simulazione. Nello specifico, RoboCurate riproduce le azioni predette in un simulatore e valuta la qualità dell'azione misurando la consistenza del movimento tra l'esecuzione del simulatore e il video generato. Inoltre, sblocchiamo la diversità delle osservazioni oltre il dataset disponibile tramite editing immagine-immagine e applichiamo un trasferimento video-a-video che preserva l'azione per aumentare ulteriormente l'aspetto. Osserviamo che i dati generati da RoboCurate producono sostanziali miglioramenti relativi nei tassi di successo rispetto all'uso di soli dati reali, raggiungendo +70,1% su GR-1 Tabletop (300 demo), +16,1% su DexMimicGen nella configurazione di pre-training e +179,9% nell'impegnativo setting di manipolazione destra umanoide ALLEX nel mondo reale.
Proponiamo tttLRM, un innovativo modello di ricostruzione 3D su larga scala che sfrutta uno strato di addestramento al tempo di test (Test-Time Training, TTT) per abilitare una ricostruzione 3D autoregressiva a contesto lungo con complessità computazionale lineare, scalando ulteriormente le capacità del modello. Il nostro framework comprime efficientemente multiple osservazioni di immagini nei pesi rapidi dello strato TTT, formando una rappresentazione 3D implicita nello spazio latente che può essere decodificata in vari formati espliciti, come gli Splat Gaussiani (GS), per applicazioni a valle. La variante ad apprendimento online del nostro modello supporta una ricostruzione e raffinazione 3D progressive a partire da osservazioni in streaming. Dimostriamo che la pre-addestramento su compiti di sintesi di nuove viste si trasferisce efficacemente alla modellazione 3D esplicita, comportando un miglioramento della qualità della ricostruzione e una convergenza più rapida. Esperimenti estensivi mostrano che il nostro metodo raggiunge prestazioni superiori nella ricostruzione feedforward con Gaussiane 3D rispetto agli approcci allo stato dell'arte, sia su oggetti che su scene.
L'Optical Character Recognition (OCR) è un compito fondamentale per la digitalizzazione delle informazioni, fungendo da ponte critico tra i dati visivi e la comprensione testuale. Sebbene i moderni Vision-Language Model (VLM) abbiano raggiunto un'elevata accuratezza in questo dominio, essi si basano prevalentemente su un decoding autoregressivo, che diventa computazionalmente costoso e lento per documenti lunghi, poiché richiede un passaggio sequenziale in avanti per ogni token generato. Identifichiamo un'opportunità chiave per superare questo collo di bottiglia: a differenza della generazione aperta, l'OCR è un compito altamente deterministico in cui l'input visivo determina rigorosamente una sequenza di output unica, teoricamente abilitando un decoding efficiente e parallelo tramite modelli di diffusione. Tuttavia, dimostriamo che gli esistenti modelli di diffusione mascherata non riescono a sfruttare questo potenziale; essi introducono instabilità strutturali che sono benigne in compiti flessibili, come la generazione di didascalie, ma catastrofiche per i requisiti rigidi di corrispondenza esatta dell'OCR. Per colmare questa lacuna, introduciamo DODO, il primo VLM che utilizza la diffusione discreta a blocchi per sbloccarne il potenziale di accelerazione per l'OCR. Scomponendo la generazione in blocchi, DODO mitiga gli errori di sincronizzazione della diffusione globale. Empiricamente, il nostro metodo raggiunge un'accuratezza quasi allo stato dell'arte, consentendo un'inferenza fino a 3 volte più veloce rispetto ai baseline autoregressivi.
I sistemi di memoria agentica consentono agli agenti basati su grandi modelli linguistici (LLM) di mantenere uno stato attraverso interazioni prolungate, supportando ragionamenti a lungo termine e personalizzazione oltre i limiti di contesto fissi. Nonostante il rapido sviluppo architetturale, le fondamenta empiriche di questi sistemi rimangono fragili: i benchmark esistenti sono spesso inadeguati per scala, le metriche di valutazione sono disallineate con l'utilità semantica, le prestazioni variano significativamente tra i modelli di base, e i costi a livello di sistema sono frequentemente trascurati. Questa rassegna presenta un'analisi strutturata della memoria agentica da prospettive sia architetturali che sistemiche. Introduciamo innanzitutto una tassonomia concisa dei sistemi MAG basata su quattro strutture di memoria. Successivamente, analizziamo i principali punti critici che limitano i sistemi attuali, inclusi gli effetti di saturazione dei benchmark, la validità delle metriche e la sensibilità del giudizio, l'accuratezza dipendente dal modello di base, e i sovraccarichi di latenza e throughput introdotti dalla manutenzione della memoria. Collegando la struttura della memoria alle limitazioni empiriche, questa rassegna chiarisce perché gli attuali sistemi di memoria agentica spesso non rispettano le promesse teoriche e delinea le direzioni per una valutazione più affidabile e una progettazione di sistema più scalabile.
I moderni sistemi di ranking su larga scala operano in un panorama sofisticato di obiettivi in competizione, vincoli operativi e requisiti di prodotto in evoluzione. I progressi in questo dominio sono sempre più limitati dal vincolo del contesto ingegneristico: l'arduo processo di traduzione di intenti di prodotto ambigui in ipotesi ragionevoli, eseguibili e verificabili, piuttosto che dalle sole tecniche di modellazione. Presentiamo GEARS (Generative Engine for Agentic Ranking Systems), un framework che riformula l'ottimizzazione del ranking come un processo di scoperta autonomo all'interno di un ambiente di sperimentazione programmabile. Invece di trattare l'ottimizzazione come una selezione statica di modelli, GEARS sfrutta Specialized Agent Skills per incapsolare la conoscenza esperta del ranking in capacità di ragionamento riutilizzabili, consentendo agli operatori di guidare i sistemi tramite un'alta personalizzazione dell'intento a livello concettuale. Inoltre, per garantire l'affidabilità in produzione, il framework incorpora meccanismi di validazione per imporre la robustezza statistica e filtrare le policy fragili che sovra-adattano i segnali a breve termine. La validazione sperimentale su diverse superfici di prodotto dimostra che GEARS identifica costantemente policy superiori e quasi Pareto-efficienti sinergizzando segnali algoritmici con un profondo contesto di ranking, mantenendo al contempo un rigido controllo sulla stabilità del deployment.
L'ottimizzazione dei kernel GPU è fondamentale per sistemi di machine learning moderni ed efficienti, ma rimane impegnativa a causa del complesso intreccio di fattori progettuali e della rapida evoluzione dell'hardware. Gli approcci automatizzati esistenti tipicamente trattano i Large Language Model (LLM) semplicemente come generatori stocastici di codice all'interno di loop evolutivi guidati da euristiche. Questi metodi spesso incontrano difficoltà con kernel complessi che richiedono trasformazioni strutturali coordinate e multi-step, poiché mancano di capacità di pianificazione esplicita e scartano frequentemente strategie promettenti a causa di implementazioni intermedie inefficienti o errate. Per affrontare questo problema, proponiamo la Ricerca tramite Modello del Mondo Co-Evolvente e sviluppiamo K-Search basandoci su questo metodo. Sostituendo le euristiche di ricerca statiche con un modello del mondo co-evolvente, il nostro framework sfrutta la conoscenza pregressa del dominio degli LLM per guidare la ricerca, esplorando attivamente lo spazio di ottimizzazione. Questo approccio dissocia esplicitamente la pianificazione algoritmica di alto livello dall'istanziazione di programma di basso livello, consentendo al sistema di navigare percorsi di ottimizzazione non monotoni rimanendo resiliente ai difetti temporanei di implementazione. Valutiamo K-Search su kernel complessi e diversificati provenienti da FlashInfer, inclusi i kernel GQA, MLA e MoE. I nostri risultati mostrano che K-Search supera significativamente i metodi di ricerca evolutiva all'avanguardia, ottenendo un miglioramento medio di 2.10x e un guadagno fino a 14.3x sui kernel MoE complessi. Sul task GPUMode TriMul, K-Search raggiunge prestazioni all'avanguardia su H100, toccando 1030us e superando sia le soluzioni evolutive precedenti che quelle progettate da umani.
I modelli Vision-Language-Action (VLA) sono emersi come un paradigma promettente per la manipolazione robotica generica, sfruttando il pre-addestramento su larga scala per ottenere prestazioni elevate. Il campo si è rapidamente evoluto con l'aggiunta di prior spaziali e diverse innovazioni architetturali. Tuttavia, questi progressi sono spesso accompagnati da ricette di addestramento e dettagli implementativi variabili, il che può rendere difficile individuare la fonte precisa dei miglioramenti empirici. In questo lavoro, introduciamo SimVLA, una baseline semplificata progettata per stabilire un punto di riferimento trasparente per la ricerca VLA. Disaccoppiando rigorosamente la percezione dal controllo, utilizzando un'architettura standard vision-language e una testa di azione leggera, e standardizzando le dinamiche critiche di addestramento, dimostriamo che un design minimale può raggiungere prestazioni allo stato dell'arte. Nonostante abbia solo 0,5 miliardi di parametri, SimVLA supera modelli con miliardi di parametri sui benchmark di simulazione standard, senza pre-addestramento su robot. SimVLA raggiunge anche prestazioni su robot reali paragonabili a quelle di pi0.5. I nostri risultati stabiliscono SimVLA come una baseline robusta e riproducibile che consente una chiara attribuzione dei miglioramenti empirici alle future innovazioni architetturali. Sito web: https://frontierrobo.github.io/SimVLA
Nonostante il notevole successo pratico dei modelli linguistici basati sui transformer, recenti studi hanno sollevato preoccupazioni riguardo alla loro capacità di eseguire il tracciamento dello stato. In particolare, un corpus di letteratura in crescita ha dimostrato questa limitazione principalmente attraverso fallimenti nella generalizzazione fuori distribuzione (OOD), come l'estrapolazione di lunghezza. In questo lavoro, spostiamo l'attenzione sulle implicazioni in distribuzione di queste limitazioni. Conduciamo un ampio studio sperimentale sull'efficienza dei dati dei transformer e delle reti neurali ricorrenti (RNN) attraverso molteplici regimi di supervisione. Scopriamo che la quantità di dati di addestramento richiesta dai transformer cresce molto più rapidamente con la dimensione dello spazio degli stati e la lunghezza della sequenza rispetto alle RNN. Inoltre, analizziamo la misura in cui i meccanismi appresi di tracciamento dello stato sono condivisi tra diverse lunghezze di sequenza. Dimostriamo che i transformer mostrano una condivisione dei pesi trascurabile o addirittura dannosa tra le diverse lunghezze, indicando che apprendono soluzioni specifiche per la lunghezza in isolamento. Al contrario, i modelli ricorrenti mostrano un apprendimento ammortizzato efficace condividendo i pesi tra le lunghezze, permettendo ai dati di una lunghezza di sequenza di migliorare le prestazioni su altre. Nel complesso, questi risultati dimostrano che il tracciamento dello stato rimane una sfida fondamentale per i transformer, anche quando le distribuzioni di addestramento e valutazione coincidono.
Presentiamo Nacrith, un sistema di compressione senza perdita che combina un modello linguistico trasformatore da 135 milioni di parametri (SmolLM2-135M) con un ensemble di predittori leggeri online e un codificatore aritmetico a 32 bit. Oltre al paradigma base LLM più codifica aritmetica, Nacrith introduce diversi contributi: (1) un aggiornamento della precisione della CDF da 2^16 a 2^24 che elimina circa il 75% del sovraccarico di quantizzazione causato dai pavimenti di probabilità minima in vocabolari ampi; (2) un modello N-gram a livello di token per previsioni locali veloci; (3) una testa di bias adattiva in spazio logaritmico che corregge gli errori LLM per documento tramite discesa del gradiente online; (4) un salto LLM basato sulla confidenza per accelerare i token altamente prevedibili; (5) un formato binario ibrido (NC06) che estende la compressione neurale a file binari arbitrari – a nostra conoscenza, una novità tra i compressori basati su LLM; (6) un backend di inferenza llama.cpp che raggiunge una decodifica per token circa 7 volte più veloce rispetto a PyTorch; (7) compressione parallela multi-GPU fino a 8 worker; e (8) una finestra scorrevole nativa per la KV cache che riduce il costo per scorrimento di circa 37 volte. Il sistema richiede solo circa 500 MB di pesi GGUF e circa 1,2 GB di VRAM per worker, funzionando su GPU consumer. Sul file alice29.txt (Canterbury Corpus, 152 KB), Nacrith raggiunge 0,918 bit per byte (bpb) – superando gzip di 3,1 volte, bzip2 di 2,5 volte, CMIX v21 del 44% e ts_zip del 20%, comprimendo al di sotto dei limiti di entropia di Shannon di ordine zero, primo e secondo a livello di byte. Su enwik8 (100 MB), Nacrith raggiunge 0,9389 bpb (11,74%), superando ts_zip (~1,11 bpb) del 15% e FineZip (1,024 bpb) dell'8%, nonostante utilizzi un modello 60 volte più piccolo e nessuna messa a punto. Una valutazione su dati non in distribuzione, effettuata su un documento pubblicato dopo la data di cutoff dell'addestramento del modello, conferma che questi vantaggi non sono artefatti di memorizzazione, raggiungendo 0,723 bpb su testo non visto.
L'industria digitale richiede asset 3D modulari di alta qualità e diversificati, specialmente per i contenuti generati dagli utenti (UGC). In questo lavoro presentiamo AssetFormer, un modello basato su Transformer autoregressivo progettato per generare asset 3D modulari a partire da descrizioni testuali. Il nostro studio pilota utilizza asset modulari reali raccolti da piattaforme online. AssetFormer affronta la sfida di creare asset composti da primitive che aderiscono a parametri di progetto vincolati per varie applicazioni. Adattando in modo innovativo le tecniche di sequenziamento e decodifica dei moduli, ispirate ai modelli linguistici, il nostro approccio migliora la qualità della generazione degli asset attraverso la modellazione autoregressiva. I risultati iniziali indicano l'efficacia di AssetFormer nel semplificare la creazione di asset per lo sviluppo professionale e per scenari UGC. Questo lavoro presenta un framework flessibile estendibile a vari tipi di asset 3D modulari, contribuendo al campo più ampio della generazione di contenuti 3D. Il codice è disponibile all'indirizzo https://github.com/Advocate99/AssetFormer.
Gli attuali metodi di animazione umana 3D faticano a raggiungere il fotorealismo: gli approcci basati sulla cinematica mancano di dinamiche non rigide (ad esempio, la dinamica degli indumenti), mentre i metodi che sfruttano i prior di diffusione video possono sintetizzare movimenti non rigidi ma soffrono di artefatti qualitativi e perdita d'identità. Per superare queste limitazioni, presentiamo Ani3DHuman, un framework che combina l'animazione basata sulla cinematica con i prior di diffusione video. Introduciamo innanzitutto una rappresentazione del movimento a strati che separa il movimento rigido dal movimento non rigido residuo. Il movimento rigido è generato da un metodo cinematico, che produce poi un rendering approssimativo per guidare il modello di diffusione video nella generazione di sequenze video che ripristinano il movimento non rigido residuo. Tuttavia, questo compito di ripristino, basato sul campionamento di diffusione, è estremamente impegnativo, poiché i rendering iniziali sono fuori distribuzione, causando il fallimento dei normali campionatori deterministici ODE. Pertanto, proponiamo un innovativo metodo di campionamento stocastico auto-guidato, che affronta efficacemente il problema del fuori distribuzione combinando il campionamento stocastico (per la qualità fotorealistica) con l'auto-guidaggio (per la fedeltà dell'identità). Questi video ripristinati forniscono una supervisione di alta qualità, consentendo l'ottimizzazione del campo di movimento non rigido residuo. Esperimenti estensivi dimostrano che Ani3DHuman può generare animazioni umane 3D fotorealistiche, superando i metodi esistenti. Il codice è disponibile su https://github.com/qiisun/ani3dhuman.
I virus adeno-associati (AAV) sono vettori promettenti per la terapia genica, ma i loro sierotipi nativi presentano limitazioni nel tropismo tissutale, nell'evasione immunitaria e nell'efficienza produttiva. L'ingegnerizzazione dei capsidi per superare questi ostacoli è complessa a causa del vasto spazio delle sequenze e della difficoltà di ottimizzare simultaneamente multiple proprietà funzionali. La complessità aumenta ulteriormente quando si considera il rene, che presenta barriere anatomiche uniche e bersagli cellulari che richiedono un'ingegneria vettoriale precisa ed efficiente. Qui presentiamo AAVGen, un framework di intelligenza artificiale generativa per la progettazione de novo di capsidi AAV con profili multi-caratteristica potenziati. AAVGen integra un modello linguistico proteico (PLM) con l'addestramento supervisionato fine (SFT) e una tecnica di apprendimento per rinforzo denominata Ottimizzazione della Politica di Sequenza di Gruppo (GSPO). Il modello è guidato da un segnale di ricompensa composito derivato da tre predittori di regressione basati su ESM-2, ciascuno addestrato per predire una proprietà chiave: idoneità produttiva, tropismo renale e termostabilità. I nostri risultati dimostrano che AAVGen produce una libreria diversificata di nuove sequenze proteiche VP1. Le validazioni in silico hanno rivelato che la maggior parte delle varianti generate ha prestazioni superiori in tutti e tre gli indici impiegati, indicando un'ottimizzazione multi-obiettivo di successo. Inoltre, l'analisi strutturale tramite AlphaFold3 conferma che le sequenze generate preservano il ripiegamento canonico del capside nonostante la diversificazione sequenziale. AAVGen getta le basi per un'ingegneria vettoriale virale guidata dai dati, accelerando lo sviluppo di vettori AAV di prossima generazione con caratteristiche funzionali su misura.
L'odometria affidabile per robot a zampe senza telecamere o LiDAR rimane una sfida a causa della deriva dell'IMU e della sensibilità rumorosa della velocità dei giunti. Questo articolo presenta uno stimatore di stato puramente propriocettivo che utilizza solo misurazioni dell'IMU e dei motori per stimare congiuntamente la posa e la velocità del corpo, con una formulazione unificata applicabile a robot bipedi, quadrupedi e a zampe ruotate. L'idea chiave è trattare ogni zampa a contatto come un'ancora cinematica: la stima della forza applicata al piede basata sulla coppia dei giunti seleziona i contatti affidabili, e le corrispondenti posizioni di appoggio forniscono vincoli intermittenti nel sistema di riferimento mondiale che sopprimono la deriva a lungo termine. Per prevenire la deriva in elevazione durante traversate estese, introduciamo una correzione leggera basata sul clustering delle altezze e sul decadimento temporale che aggancia le altezze di appoggio appena registrate a piani di supporto precedentemente osservati. Per migliorare le osservazioni della velocità del piede sotto quantizzazione degli encoder, applichiamo un filtro di Kalman a cubatura cinematico-inverso che filtra direttamente le velocità dell'estremità del piede dagli angoli e dalle velocità dei giunti. L'implementazione mitiga ulteriormente la deriva dell'imbardata attraverso la consistenza geometrica multi-contatto e degrada gradualmente a un riferimento di direzione derivato cinematicamente quando i vincoli di imbardata dell'IMU non sono disponibili o non sono affidabili. Valutiamo il metodo su quattro piattaforme quadrupedi (tre robot Astrall e un Unitree Go2 EDU) utilizzando traiettorie a ciclo chiuso. Sul robot Astrall a piede puntiforme A, un anello orizzontale di ~200 m e un anello verticale di ~15 m ritornano con un errore di 0,1638 m e 0,219 m, rispettivamente; sul robot a zampe ruotate B, gli errori corrispondenti sono 0,2264 m e 0,199 m. Sul robot a zampe ruotate C, un anello orizzontale di ~700 m produce un errore di 7,68 m e un anello verticale di ~20 m produce un errore di 0,540 m. Il Unitree Go2 EDU chiude un anello orizzontale di ~120 m con un errore di 2,2138 m e un anello verticale di ~8 m con un errore verticale inferiore a 0,1 m. github.com/ShineMinxing/Ros2Go2Estimator.git
La scoperta causale per dati sia trasversali che temporali ha tradizionalmente seguito un paradigma specifico per dataset, in cui un nuovo modello viene adattato per ogni singolo dataset. Questo approccio limita il potenziale dell'addestramento preliminare multi-dataset. Il concetto di Large Causal Models (LCMs) prevede una classe di architetture neurali pre-addestrate specificamente progettate per la scoperta causale temporale. Gli approcci precedenti sono limitati a un numero ridotto di variabili, si degradano con input più grandi e fanno ampio affidamento su dati sintetici, limitando la generalizzazione. Proponiamo un framework metodologico per gli LCM, che combina generatori sintetici diversificati con dataset realistici di serie temporali, consentendo l'apprendimento su larga scala. Esperimenti estesi su benchmark sintetici, semi-sintetici e realistici mostrano che gli LCM si scalano efficacemente verso numeri di variabili più elevati e architetture più profonde mantenendo prestazioni solide. I modelli addestrati raggiungono un'accuratezza competitiva o superiore rispetto ai baseline classici e neurali, specialmente in contesti out-of-distribution, consentendo al contempo un'inferenza rapida e single-pass. I risultati dimostrano che gli LCM rappresentano un paradigma promettente di modello di base per la scoperta causale temporale. Gli esperimenti e i pesi del modello sono disponibili all'indirizzo https://github.com/kougioulis/LCM-paper/.
Il ragionamento diagnostico basato su serie temporali è essenziale per molte applicazioni, ma le soluzioni esistenti affrontano un divario persistente: i modelli linguistici di grandi dimensioni per il ragionamento generale (GRLM) possiedono forti capacità deduttive ma mancano della conoscenza specifica del dominio per comprendere modelli complessi delle serie temporali. Al contrario, i modelli linguistici di grandi dimensioni specializzati su serie temporali (TSLM) comprendono questi modelli ma non hanno la capacità di generalizzare il ragionamento per domande più complesse. Per colmare questa lacuna, proponiamo un framework ibrido di iniezione della conoscenza che inietta direttamente le intuizioni generate dai TSLM nella traccia di ragionamento dei GRLM, ottenendo così un ragionamento robusto sulle serie temporali con conoscenza di dominio. Poiché la raccolta di dati per il fine-tuning tramite iniezione di conoscenza è costosa, sfruttiamo ulteriormente un approccio basato sull'apprendimento per rinforzo con ricompense verificabili (RLVR) per elicitare tracce ricche di conoscenza senza supervisione umana, trasferendo poi questa traccia di pensiero di dominio nei GRLM per un'efficiente iniezione di conoscenza. Rilasciamo inoltre SenTSR-Bench, un benchmark per il ragionamento diagnostico basato su serie temporali multivariate raccolte da operazioni industriali reali. Su SenTSR-Bench e altri dataset pubblici, il nostro metodo supera costantemente i TSLM del 9,1%-26,1% e i GRLM del 7,9%-22,4%, fornendo intuizioni diagnostiche robuste e contestuali per le serie temporali.