Articoli di ricerca IA selezionati quotidianamente con traduzioni
OmniLottie è un framework versatile che genera animazioni vettoriali di alta qualità a partire da istruzioni multimodali. Per un controllo flessibile del movimento e del contenuto visivo, ci concentriamo su Lottie, un formato JSON leggero per la rappresentazione sia delle forme che dei comportamenti animati. Tuttavia, i file JSON Lottie grezzi contengono estesi metadati strutturali invarianti e token di formattazione, rappresentando una sfida significativa per l'apprendimento della generazione di animazioni vettoriali. Pertanto, introduciamo un Lottie tokenizer ben progettato che trasforma i file JSON in sequenze strutturate di comandi e parametri rappresentanti forme, funzioni di animazione e parametri di controllo. Tale tokenizer ci consente di costruire OmniLottie su modelli linguistici visivi preaddestrati per seguire istruzioni intervallate multimodali e generare animazioni vettoriali di alta qualità. Per far progredire ulteriormente la ricerca nella generazione di animazioni vettoriali, abbiamo curato MMLottie-2M, un dataset su larga scala di animazioni vettoriali progettate professionalmente, accoppiate con annotazioni testuali e visive. Attraverso esperimenti estensivi, validiamo che OmniLottie possa produrre animazioni vettoriali vivide e semanticamente allineate che aderiscono strettamente alle istruzioni umane multimodali.
Image Chain-of-Thought (Image-CoT) è un paradigma di scalabilità al momento del test che migliora la generazione di immagini estendendo il tempo di inferenza. La maggior parte dei metodi Image-CoT si concentra sulla generazione da testo a immagine (T2I). A differenza della generazione T2I, l'editing di immagini è finalizzato a uno scopo: lo spazio delle soluzioni è vincolato dall'immagine sorgente e dall'istruzione. Questa discrepanza causa tre sfide quando si applica Image-CoT all'editing: allocazione inefficiente delle risorse con budget di campionamento fissi, verifica inaffidabile nelle fasi iniziali utilizzando punteggi MLLM generici e risultati editati ridondanti a causa di un campionamento su larga scala. Per affrontare ciò, proponiamo ADaptive Edit-CoT (ADE-CoT), un framework di scalabilità al momento del test su richiesta per migliorare l'efficienza e le prestazioni dell'editing. Incorpora tre strategie chiave: (1) un'allocazione delle risorse consapevole della difficoltà che assegna budget dinamici in base alla difficoltà di editing stimata; (2) una verifica specifica per l'editing nella potatura iniziale che utilizza la localizzazione regionale e la coerenza delle didascalie per selezionare candidati promettenti; e (3) un arresto opportunistico in profondità, guidato da un verificatore specifico per istanza, che termina quando vengono trovati risultati allineati con l'intento. Esperimenti estesi su tre modelli di editing all'avanguardia (Step1X-Edit, BAGEL, FLUX.1 Kontext) e tre benchmark mostrano che ADE-CoT raggiunge compromessi prestazioni-efficienza superiori. Con budget di campionamento comparabili, ADE-CoT ottiene prestazioni migliori con un aumento di velocità superiore a 2x rispetto a Best-of-N.
Gli agenti di ingegneria del software (SWE) stanno migliorando rapidamente, con i recenti progressi guidati principalmente dall'apprendimento per rinforzo (RL). Tuttavia, l'addestramento RL è limitato dalla scarsità di raccolte su larga scala di task con ambienti di esecuzione riproducibili e suite di test affidabili. Sebbene siano emersi numerosi benchmark, i dataset adatti per l'addestramento rimangono limitati in scala e diversità o spesso si rivolgono a un insieme ristretto di ecosistemi linguistici ad alto reddito. Introduciamo SWE-rebench V2, una pipeline automatizzata agnostica rispetto al linguaggio per raccogliere task SWE eseguibili del mondo reale e costruire ambienti di addestramento RL su larga scala. La pipeline sintetizza procedure di installazione e test specifiche per repository tramite un agente di configurazione interattivo e filtra le istanze non valide utilizzando un ensemble di giudici LLM, convalidati rispetto alle annotazioni SWE-bench verificate da esseri umani. Utilizzando questa pipeline, abbiamo costruito un dataset di oltre 32.000 task che coprono 20 linguaggi e oltre 3.600 repository, con immagini pre-costruite per un'esecuzione riproducibile. Per scalare ulteriormente i dati di addestramento, rilasciamo inoltre oltre 120.000 task con istruzioni di installazione, test di tipo "fail-to-pass" e metadati ricchi, in cui la descrizione del problema è generata sulla base della descrizione originale della pull request. Convalidiamo le istanze raccolte attraverso uno studio diagnostico che copre un sottoinsieme di task in cinque linguaggi di programmazione su sette modelli popolari e forniamo metadati a livello di istanza che segnalano fattori confondenti comuni come test eccessivamente restrittivi e descrizioni sotto-specificate. Rilasciamo i dataset, il codice di raccolta ed esecuzione e gli artefatti associati per consentire l'addestramento su larga scala di agenti SWE su linguaggi e repository diversificati.
Con l'evoluzione dell'allineamento dei Large Language Model (LLM) da semplici completamenti a generazioni complesse e altamente sofisticate, i Modelli di Ricompensa si stanno sempre più orientando verso valutazioni guidate da rubriche per mitigare i bias superficiali. Tuttavia, la comunità manca di un benchmark unificato per valutare questo paradigma valutativo, poiché i benchmark esistenti sono privi sia della complessità discriminativa sia delle annotazioni di rubriche ground-truth necessarie per un'analisi rigorosa. Per colmare questa lacuna, introduciamo RubricBench, un benchmark curato con 1.147 confronti a coppie, progettato specificamente per valutare l'affidabilità della valutazione basata su rubriche. La nostra costruzione impiega una pipeline di filtraggio multidimensionale per individuare campioni difficili caratterizzati da complessità di input sfumata e bias superficiale fuorviante, arricchendo ciascuno con rubriche atomiche annotate da esperti, derivate rigorosamente dalle istruzioni. Esperimenti completi rivelano un divario sostanziale nelle capacità tra le rubriche annotate da esseri umani e quelle generate da modelli, indicando che anche i modelli all'avanguardia faticano a specificare autonomamente criteri di valutazione validi, rimanendo considerevolmente indietro rispetto alle prestazioni guidate dall'uomo.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato capacità di ragionamento notevoli, abilitate principalmente dal post-addestramento basato su fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) su dati di ragionamento di alta qualità. Tuttavia, la riproduzione e l'estensione di queste capacità in contesti aperti e scalabili è ostacolata da tre fondamentali sfide incentrate sui dati: (1) il problema del cold-start, derivante dalla mancanza di dataset iniziali con traiettorie dettagliate e lunghe di ragionamento a catena (CoT) necessarie per inizializzare le politiche di ragionamento; (2) la copertura di dominio limitata, poiché la maggior parte dei dataset di ragionamento open-source esistenti sono concentrati sulla matematica, con una copertura ristretta di discipline scientifiche più ampie; e (3) il collo di bottiglia dell'annotazione, dove la difficoltà dei compiti di ragionamento di frontiera rende l'annotazione umana affidabile proibitivamente costosa o impossibile. Per affrontare queste sfide, introduciamo CHIMERA, un dataset sintetico e compatto di ragionamento comprendente 9.000 campioni per il ragionamento generalizzabile cross-dominio. CHIMERA è costruito con tre proprietà chiave: (1) fornisce traiettorie di ragionamento CoT ricche e lunghe, sintetizzate dai modelli di ragionamento più all'avanguardia; (2) ha una copertura ampia e strutturata, che abbraccia 8 principali discipline scientifiche e oltre 1.000 argomenti granulari organizzati tramite una tassonomia gerarchica generata dal modello; e (3) impiega una pipeline di valutazione completamente automatizzata e scalabile che utilizza modelli di ragionamento robusti per convalidare incrociatamente sia la validità del problema che la correttezza della risposta. Utilizziamo CHIMERA per eseguire il post-addestramento di un modello Qwen3 da 4B. Nonostante le dimensioni modeste del dataset, il modello risultante raggiunge prestazioni solide su una serie di benchmark di ragionamento impegnativi, inclusi GPQA-Diamond, AIME 24/25/26, HMMT 25 e Humanity's Last Exam, avvicinandosi o eguagliando le prestazioni di ragionamento di modelli sostanzialmente più grandi come DeepSeek-R1 e Qwen3-235B.
OpenAutoNLU è una libreria open-source di machine learning automatizzato per attività di comprensione del linguaggio naturale (NLU), che copre sia la classificazione del testo che il riconoscimento di entità nominate (NER). A differenza delle soluzioni esistenti, introduciamo una selezione del regime di addestramento consapevole dei dati che non richiede alcuna configurazione manuale da parte dell'utente. La libreria fornisce inoltre diagnostiche integrate della qualità dei dati, rilevamento configurabile di dati fuori distribuzione (OOD) e funzionalità per modelli linguistici di grandi dimensioni (LLM), il tutto all'interno di un'API minimalista a basso codice. L'app demo è accessibile qui https://openautonlu.dev.
I recenti progressi nelle capacità di ragionamento dei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno permesso loro di affrontare compiti più complessi come l'analisi scientifica e il ragionamento matematico. Nonostante le loro potenzialità, le capacità di ragionamento degli MLLM in diversi scenari della vita reale rimangono in gran parte inesplorate e mancano di benchmark standardizzati per la valutazione. Per colmare questa lacuna, introduciamo MMR-Life, un benchmark completo progettato per valutare le diverse capacità di ragionamento multimodale su immagini multiple degli MLLM in scenari di vita reale. MMR-Life consiste in 2.646 domande a scelta multipla basate su 19.108 immagini provenienti principalmente da contesti del mondo reale, che coprono in modo completo sette tipi di ragionamento: abduttivo, analogico, causale, deduttivo, induttivo, spaziale e temporale. A differenza dei benchmark di ragionamento esistenti, MMR-Life non si basa su competenze specifiche di dominio, ma richiede invece ai modelli di integrare le informazioni tra più immagini e applicare diverse capacità di ragionamento. La valutazione di 37 modelli avanzati evidenzia la notevole sfida rappresentata da MMR-Life. Anche i modelli più performanti come GPT-5 raggiungono solo il 58% di accuratezza e mostrano una variazione considerevole nelle prestazioni tra i diversi tipi di ragionamento. Inoltre, analizziamo i paradigmi di ragionamento degli MLLM esistenti, esplorando come fattori quali la lunghezza del pensiero, il metodo di ragionamento e il tipo di ragionamento influenzino le loro prestazioni. In sintesi, MMR-Life stabilisce una base completa per valutare, analizzare e migliorare la prossima generazione di sistemi di ragionamento multimodale.
Gli attuali rilevatori 3D di oggetti indoor multi-vista si basano su geometrie dei sensori costose da ottenere (ovvero, pose di telecamere multi-vista calibrate con precisione) per fondere le informazioni multi-vista in una rappresentazione globale della scena, limitando il dispiegamento in scenari reali. Noi miriamo a un'impostazione più pratica: il rilevamento 3D di oggetti indoor multi-vista Sensor-Geometry-Free (SG-Free), in cui non sono presenti input geometrici forniti dai sensori (pose multi-vista o profondità). Il recente Visual Geometry Grounded Transformer (VGGT) dimostra che forti indizi 3D possono essere dedotti direttamente dalle immagini. Basandoci su questa intuizione, presentiamo VGGT-Det, il primo framework specificamente progettato per il rilevamento 3D di oggetti indoor multi-vista SG-Free. Piuttosto che limitarsi a utilizzare le previsioni di VGGT, il nostro metodo integra l'encoder VGGT in una pipeline basata su transformer. Per sfruttare efficacemente sia i prior semantici che geometrici all'interno di VGGT, introduciamo due nuovi componenti chiave: (i) Attention-Guided Query Generation (AG): sfrutta le mappe di attenzione di VGGT come prior semantici per inizializzare le query di oggetto, migliorando la localizzazione concentrandosi sulle regioni degli oggetti preservando al contempo la struttura spaziale globale; (ii) Query-Driven Feature Aggregation (QD): una See-Query addestrabile interagisce con le query di oggetto per 'vedere' ciò di cui hanno bisogno, aggregando poi dinamicamente le caratteristiche geometriche multi-livello attraverso i layer VGGT che sollevano progressivamente le caratteristiche 2D in 3D. Gli esperimenti mostrano che VGGT-Det supera significativamente il metodo dalle migliori prestazioni in contesto SG-Free di 4.4 e 8.6 mAP@0.25 rispettivamente su ScanNet e ARKitScenes. Uno studio di ablazione mostra che i prior semantici e geometrici appresi internamente da VGGT possono essere efficacemente sfruttati dalla nostra AG e QD.
Mentre i modelli di generazione musicale si sono evoluti per gestire input multimodali complessi che mescolano testo, testi e audio di riferimento, i meccanismi di valutazione sono rimasti indietro. In questo articolo, colmiamo questa lacuna critica stabilendo un ecosistema completo per la modellizzazione dei reward musicali nell'ambito delle Istruzioni Multimodali Composizionali (CMI), dove la musica generata può essere condizionata da descrizioni testuali, testi e prompt audio. Introduciamo innanzitutto CMI-Pref-Pseudo, un ampio dataset di preferenze comprendente 110k campioni etichettati pseudo-automaticamente, e CMI-Pref, un corpus di alta qualità annotato manualmente e specificamente progettato per compiti di allineamento granulari. Per unificare il panorama valutativo, proponiamo CMI-RewardBench, un benchmark unificato che valuta i modelli di reward musicali su campioni eterogenei in termini di musicalità, allineamento testo-musica e allineamento alle istruzioni composizionali. Sfruttando queste risorse, sviluppiamo i modelli di reward CMI (CMI-RM), una famiglia di modelli di reward efficiente in termini di parametri in grado di elaborare input eterogenei. Valutiamo la loro correlazione con i punteggi di giudizio umano sulla musicalità e sull'allineamento su CMI-Pref insieme a dataset precedenti. Ulteriori esperimenti dimostrano che CMI-RM non solo si correla fortemente con i giudizi umani, ma consente anche un efficace scaling al momento dell'inferenza tramite filtraggio top-k. I dati di addestramento, i benchmark e i modelli di reward necessari sono pubblicamente disponibili.
Lo sviluppo di agenti interattivi multi-turn per l'uso di strumenti è impegnativo poiché le esigenze degli utenti nel mondo reale sono spesso complesse e ambigue, eppure gli agenti devono eseguire azioni deterministiche per soddisfarle. Per colmare questa lacuna, introduciamo CoVe (Constraint-Verification), un framework di sintesi dei dati post-addestramento progettato per addestrare agenti interattivi per l'uso di strumenti, garantendo al contempo sia la complessità che la correttezza dei dati. CoVe inizia definendo vincoli di task espliciti, che svolgono un duplice ruolo: guidano la generazione di traiettorie complesse e fungono da verificatori deterministici per valutare la qualità della traiettoria. Ciò consente la creazione di traiettorie di addestramento di alta qualità per il supervised fine-tuning (SFT) e la derivazione di segnali di reward accurati per il reinforcement learning (RL). La nostra valutazione sul complesso benchmark τ²-bench dimostra l'efficacia del framework. In particolare, il nostro modello compatto CoVe-4B raggiunge tassi di successo del 43,0% e del 59,4% rispettivamente nei domini Airline e Retail; le sue prestazioni complessive superano significativamente quelle di baseline robuste di scala simile e rimangono competitive con modelli fino a 17 volte più grandi. Questi risultati indicano che CoVe fornisce un percorso efficace ed efficiente per sintetizzare dati di addestramento per agenti interattivi all'avanguardia per l'uso di strumenti. Per supportare la ricerca futura, rendiamo open-source il nostro codice, il modello addestrato e l'intero set di 12.000 traiettorie di alta qualità utilizzate per l'addestramento.
Presentiamo LLaDA-o, un efficace modello di diffusione onnicomprensivo e adattabile alla lunghezza, per la comprensione e generazione multimodale. LLaDA-o è costruito su un framework Mixture of Diffusion (MoD) che disaccoppia la diffusione discreta mascherata per la comprensione del testo e la diffusione continua per la generazione visiva, accoppiandole attraverso un'architettura di attenzione condivisa, semplice ed efficiente che riduce il calcolo ridondante per condizioni fisse. Basandoci su MoD, introduciamo inoltre una strategia di adattamento alla lunghezza incentrata sui dati che consente una decodifica a lunghezza flessibile in contesti multimodali senza modifiche architetturali. Esperimenti estensivi dimostrano che LLaDA-o raggiunge prestazioni allo stato dell'arte tra i modelli di diffusione onnicomprensivi su benchmark di comprensione e generazione multimodale, e raggiunge un punteggio di 87.04 sul DPG-Bench per la generazione di immagini da testo, supportando l'efficacia della modellazione unificata della diffusione onnicomprensiva. Il codice è disponibile all'indirizzo https://github.com/ML-GSAI/LLaDA-o.
Gli album fotografici personali non sono semplici raccolte di immagini statiche, ma archivi ecologici viventi definiti da continuità temporale, intrecci sociali e metadati ricchi, il che rende non banale il recupero fotografico personalizzato. Tuttavia, i benchmark di recupero esistenti si basano fortemente su istantanee web isolate dal contesto, non riuscendo a catturare il ragionamento multi-sorgente necessario per risolvere query utente autentiche e guidate dall'intento. Per colmare questa lacuna, introduciamo PhotoBench, il primo benchmark costruito da album personali autentici. È progettato per spostare il paradigma dalla corrispondenza visiva al ragionamento personalizzato, guidato dall'intento e multi-sorgente. Basandoci su un rigoroso framework di profilazione multi-sorgente, che integra per ogni immagine la semantica visiva, i metadati spaziotemporali, l'identità sociale e gli eventi temporali, sintetizziamo query complesse guidate dall'intento e radicate nelle traiettorie di vita degli utenti. Una valutazione estensiva su PhotoBench rivela due limitazioni critiche: il divario modale, dove i modelli di embedding unificati falliscono sui vincoli non visivi, e il paradosso della fusione delle sorgenti, dove i sistemi agentivi mostrano scarse capacità di orchestrazione degli strumenti. Questi risultati indicano che la prossima frontiera nel recupero multimodale personale va oltre gli embedding unificati, richiedendo robusti sistemi di ragionamento agentivo capaci di una soddisfazione precisa dei vincoli e di una fusione multi-sorgente. Il nostro PhotoBench è disponibile.
I recenti progressi nei modelli di diffusione video (VDM) fondamentali hanno portato a significativi avanzamenti. Tuttavia, nonostante la notevole qualità visiva dei video generati, la ricostruzione di scene 3D coerenti a partire da questi output rimane una sfida, a causa della limitata controllabilità della telecamera e dell'incoerenza del contenuto generato quando visto da diverse traiettorie camerali. In questo articolo, proponiamo WorldStereo, un nuovo framework che collega la generazione video guidata da telecamera e la ricostruzione 3D attraverso due moduli dedicati di memoria geometrica. Formalmente, la memoria globale-geometrica consente un controllo preciso della telecamera iniettando prior strutturali grossolani attraverso nuvole di punti aggiornate incrementalmente. Inoltre, la memoria stereo-spaziale vincola i campi recettivi dell'attenzione del modello con corrispondenze 3D per concentrarsi sui dettagli granulari dalla banca della memoria. Questi componenti permettono a WorldStereo di generare video consistenti da più visuali sotto un controllo camerale preciso, facilitando una ricostruzione 3D di alta qualità. Inoltre, il WorldStereo basato su rami di controllo flessibili mostra un'efficienza impressionante, beneficiando del backbone VDM distillato per l'accoppiamento delle distribuzioni senza addestramento congiunto. Esperimenti estesi su benchmark sia per la generazione video guidata da telecamera che per la ricostruzione 3D dimostrano l'efficacia del nostro approccio. È degno di nota che WorldStereo agisca come un potente modello mondiale, affrontando diverse attività di generazione di scene (che inizino da immagini prospettiche o panoramiche) con risultati 3D ad alta fedeltà. I modelli saranno rilasciati.
I modelli fondativi generativi vengono sempre più scalati sia in ampiezza che in profondità, ponendo sfide significative per l'apprendimento stabile delle caratteristiche e il trasferimento affidabile degli iperparametri (HP) tra diverse dimensioni del modello. Sebbene la parametrizzazione ad aggiornamento massimo (μP) abbia fornito una soluzione principiata a entrambi i problemi per la scalatura in ampiezza, le estensioni esistenti al regime di scalatura congiunta ampiezza-profondità rimangono frammentate, specifiche per architettura e ottimizzatore, e spesso si basano su teorie tecnicamente complesse. In questo lavoro, sviluppiamo una semplice e unificata cornice spettrale per la μP nella scalatura congiunta ampiezza-profondità. Considerando reti residue con profondità di blocco variabili, introduciamo prima una condizione spettrale μP che caratterizza precisamente come le norme dei pesi e i loro aggiornamenti per passo dovrebbero scalare con ampiezza e profondità, unificando formulazioni μP precedentemente disparate come casi speciali. Basandoci su questa condizione, deriviamo poi una ricetta generale per implementare la μP su un'ampia classe di ottimizzatori mappando i vincoli spettrali a parametrizzazioni concrete degli HP. Questo approccio non solo recupera le formulazioni μP esistenti (ad esempio, per SGD e AdamW) ma si estende naturalmente anche a una gamma più ampia di ottimizzatori. Infine, esperimenti su modelli linguistici in stile GPT-2 dimostrano che la proposta condizione spettrale μP preserva l'apprendimento stabile delle caratteristiche e consente un trasferimento robusto degli HP nella scalatura ampiezza-profondità.
L'apprendimento per rinforzo (RL) ricopre un ruolo centrale nel migliorare il ragionamento e l'allineamento dei grandi modelli linguistici, ma la sua efficienza dipende criticamente da come vengono selezionati i dati di addestramento. Le strategie di selezione online esistenti si basano prevalentemente su euristiche legate alla difficoltà, favorendo i punti dati con tassi di successo intermedi, equiparando implicitamente la difficoltà al contenuto informativo e trascurando l'incertezza epistemica derivante da evidenze limitate. Introduciamo InSight, un metodo di CAMPionamento dei dati GUIDato dall'INformazione per l'addestramento RL, basato su un obiettivo di informazione mutua pesata. Modellando gli esiti dei dati con tassi di successo latenti bayesiani, dimostriamo che la riduzione attesa dell'incertezza si scompone in componenti complementari dipendenti dalla difficoltà e dall'evidenza, rivelando una limitazione fondamentale della selezione basata solo sulla difficoltà. Sfruttando questa osservazione, InSight costruisce un punteggio di acquisizione stabile basato sulla credenza media del successo dei punti dati piuttosto che su esiti campionati rumorosi, e si estende naturalmente a contesti multi-rollout comuni nell'apprendimento per rinforzo con ricompense verificabili (RLVR). Esperimenti estensivi dimostrano che InSight raggiunge costantemente prestazioni allo stato dell'arte e migliora l'efficienza dell'addestramento, inclusi un guadagno medio di +1,41 sui benchmark di Pianificazione e Matematica, un miglioramento di +1,01 sul ragionamento generale e un'accelerazione fino a ~2,2x, con un overhead computazionale aggiuntivo trascurabile.
I grandi modelli linguistici (LLM) stanno diventando la base per agenti autonomi in grado di utilizzare strumenti per risolvere compiti complessi. L'apprendimento per rinforzo (RL) è emerso come un approccio comune per infondere tali capacità agentive, ma tipicamente in contesti di addestramento strettamente controllati. Questo metodo dipende spesso da coppie compito-soluzione accuratamente costruite e da una sostanziale supervisione umana, il che crea un ostacolo fondamentale verso un'auto-evoluzione aperta in direzione di sistemi superintelligenti. In questo articolo, proponiamo il framework Tool-R0 per addestrare agenti general-purpose per l'uso di strumenti da zero con RL di auto-gioco, sotto un'assunzione di dati zero. Inizializzato dallo stesso LLM di base, Tool-R0 co-evolve un Generatore e un Risolutore con ricompense complementari: uno propone compiti impegnativi e mirati al limite delle competenze dell'altro, e l'altro impara a risolverli effettuando chiamate a strumenti del mondo reale. Ciò crea un ciclo di auto-evoluzione che non richiede compiti o dataset preesistenti. La valutazione su diversi benchmark di utilizzo di strumenti mostra che Tool-R0 produce un miglioramento relativo del 92,5% rispetto al modello base e supera i baseline di chiamata a strumenti completamente supervisionati nelle stesse condizioni. Il nostro lavoro fornisce inoltre approfondimenti empirici sugli agenti LLM ad auto-gioco analizzando la co-evoluzione, le dinamiche del curriculum e il comportamento di scaling.
L'apprendimento per rinforzo (RL) per il ragionamento matematico può soffrire di scarsità di ricompense: per problemi complessi, gli LLM non riescono a campionare traiettorie corrette, impedendo all'RL di ricevere un feedback positivo significativo. Allo stesso tempo, spesso esistono soluzioni di riferimento scritte da esseri umani insieme al problema (ad esempio, problemi da AoPS), ma un fine-tuning diretto su queste soluzioni non apporta benefici perché i modelli spesso non possono imitare dimostrazioni umane che si trovano al di fuori della loro distribuzione di ragionamento. Introduciamo il Reference-Guided Fine-Tuning (ReGFT), un metodo semplice ed efficace che utilizza soluzioni di riferimento scritte da esseri umani per sintetizzare traiettorie positive su problemi difficili e addestrare il modello su di esse prima dell'RL. Per ogni problema, forniamo al modello una soluzione di riferimento parziale e gli permettiamo di generare la propria traccia di ragionamento, garantendo che le traiettorie risultanti rimangano nello spazio di ragionamento del modello pur beneficiando della guida di riferimento. Il fine-tuning su queste traiettorie guidate da riferimento aumenta il numero di problemi risolvibili e produce un checkpoint che riceve più ricompense positive durante l'RL. In tre benchmark (AIME24, AIME25, BeyondAIME), ReGFT migliora costantemente l'accuratezza supervisionata, accelera l'addestramento DAPO e innalza il plateau di performance finale dell'RL. I nostri risultati mostrano che ReGFT supera efficacemente la scarsità di ricompense e sblocca un ragionamento matematico basato su RL più potente.
Gli agenti LLM possono esplorare codebases e ragionare sulla semantica del codice senza eseguirlo? Studiamo questa capacità, che chiamiamo ragionamento codicale agente, e introduciamo il ragionamento semi-formale: una metodologia di prompting strutturata che richiede agli agenti di costruire premesse esplicite, tracciare percorsi di esecuzione e derivare conclusioni formali. A differenza della catena di pensiero non strutturata, il ragionamento semi-formale funge da certificato: l'agente non può saltare casi o avanzare affermazioni non supportate. Valutiamo tre task (verifica dell'equivalenza delle patch, localizzazione dei guasti e risposta a domande sul codice) e dimostriamo che il ragionamento semi-formale migliora costantemente l'accuratezza in tutti. Per l'equivalenza delle patch, l'accuratezza migliora dal 78% all'88% su esempi curati e raggiunge il 93% su patch generate da agenti nel mondo reale, avvicinandosi all'affidabilità necessaria per segnali di ricompensa RL senza esecuzione. Per le risposte a domande sul codice su RubberDuckBench Mohammad et al. (2026), il ragionamento semi-formale raggiunge un'accuratezza dell'87%. Per la localizzazione dei guasti su Defects4J Just et al. (2014), il ragionamento semi-formale migliora l'accuratezza Top-5 di 5 punti percentuali rispetto al ragionamento standard. Questi risultati dimostrano che il ragionamento agente strutturato abilita un'analisi semantica significativa del codice senza esecuzione, aprendo applicazioni pratiche nelle pipeline di addestramento RL, nella revisione del codice e nell'analisi statica dei programmi.
L'apprendimento per rinforzo (RL) viene sempre più utilizzato per il post-addestramento di Modelli Visione-Linguaggio (VLM) medici, ma rimane poco chiaro se il RL migliori effettivamente il ragionamento visivo medico o affini principalmente comportamenti già indotti dalla messa a punto supervisionata (SFT). Presentiamo uno studio controllato che distingue questi effetti lungo tre assi: visione, SFT e RL. Utilizzando MedMNIST come piattaforma di test multi-modalità, analizziamo la percezione visiva confrontando i "vision tower" dei VLM con baseline di sola visione, quantifichiamo il supporto al ragionamento e l'efficienza di campionamento tramite Accuratezza@1 rispetto a Pass@K, e valutiamo quando il RL colma il divario di supporto e come i guadagni si trasferiscano tra le modalità. Scopriamo che il RL è più efficace quando il modello possiede già un supporto non banale (Pass@K alto): esso affina principalmente la distribuzione di output, migliorando Acc@1 e l'efficienza di campionamento, mentre la SFT espande il supporto e rende efficace il RL. Sulla base di questi risultati, proponiamo una procedura "boundary-aware" e la istanziamo post-addestrando con RL un modello inizializzato con OctoMed su un piccolo sottoinsieme bilanciato di VQA a scelta multipla di PMC, ottenendo prestazioni medie solide su sei benchmark di VQA medici.
Presentiamo Legal RAG Bench, un benchmark e una metodologia di valutazione per analizzare le prestazioni end-to-end dei sistemi RAG (Retrieval-Augmented Generation) in ambito legale. Come benchmark, Legal RAG Bench è composto da 4.876 passaggi tratti dal Victorian Criminal Charge Book, affiancati da 100 domande complesse, elaborate manualmente, che richiedono una conoscenza specialistica del diritto e della procedura penale. Sono fornite sia risposte in forma estesa che i passaggi di supporto. Come metodologia di valutazione, Legal RAG Bench utilizza un design fattoriale completo e un nuovo framework di scomposizione gerarchica dell'errore, consentendo confronti diretti e omogenei dei contributi dei modelli di retrieval e di ragionamento all'interno dei sistemi RAG. Valutiamo tre modelli di embedding all'avanguardia (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001 e OpenAI's Text Embedding 3 Large) e due LLM di frontiera (Gemini 3.1 Pro e GPT-5.2), riscontrando che l'information retrieval è il principale fattore trainante delle prestazioni dei RAG legali, mentre gli LLM esercitano un effetto più moderato sulla correttezza e sulla groundedness (accuratezza fattuale). In particolare, Kanon 2 Embedder ha avuto l'impatto positivo più significativo sulle prestazioni, migliorando la correttezza media di 17,5 punti, la groundedness di 4,5 punti e l'accuratezza del retrieval di 34 punti. Osserviamo che molti errori attribuiti ad allucinazioni nei sistemi RAG legali sono in realtà scatenati da fallimenti nel retrieval, concludendo che il retrieval determina il limite superiore delle prestazioni per molti moderni sistemi RAG legali. Documentiamo le ragioni e le modalità con cui abbiamo costruito Legal RAG Bench insieme ai risultati delle nostre valutazioni. Rilasciamo inoltre apertamente il nostro codice e i nostri dati per facilitare la riproduzione dei nostri risultati.
Presentiamo FireRed-OCR, un framework sistematico per specializzare i VLM generici in modelli OCR ad alte prestazioni. I Large Vision-Language Models (VLM) hanno dimostrato capacità generali impressionanti, ma soffrono frequentemente di "allucinazioni strutturali" durante l'elaborazione di documenti complessi, limitando la loro utilità nelle applicazioni OCR industriali. In questo articolo, introduciamo FireRed-OCR, un nuovo framework progettato per trasformare i VLM generici (basati su Qwen3-VL) in esperti di parsing strutturale di documenti con precisione a livello di pixel. Per far fronte alla scarsità di dati strutturati di alta qualità, abbiamo costruito una "Fabbrica di Dati Geometria + Semantica". A differenza del campionamento casuale tradizionale, la nostra pipeline sfrutta il clustering delle caratteristiche geometriche e la marcatura multidimensionale per sintetizzare e curare un dataset altamente bilanciato, gestendo efficacemente layout a coda lunga e tipi di documento rari. Inoltre, proponiamo una strategia di Addestramento Progressivo in Tre Fasi che guida il modello dalla percezione a livello di pixel alla generazione della struttura logica. Questo percorso include: (1) Pre-allineamento multi-task per ancorare la comprensione della struttura del documento da parte del modello; (2) SFT Specializzato per standardizzare l'output Markdown a immagine intera; e (3) Format-Constrained Group Relative Policy Optimization (GRPO), che utilizza l'apprendimento per rinforzo per imporre una rigorosa validità sintattica e integrità strutturale (ad esempio, chiusura delle tabelle, sintassi delle formule). Valutazioni estensive su OmniDocBench v1.5 dimostrano che FireRed-OCR raggiunge prestazioni all'avanguardia con un punteggio complessivo del 92,94%, superando significativamente baseline solide come DeepSeek-OCR 2 e OCRVerse attraverso metriche su testo, formule, tabelle e ordine di lettura. Rendiamo open-source il nostro codice e i pesi del modello per facilitare il paradigma "Da VLM Generale a Esperto Strutturale Specializzato".
L'apprendimento per rinforzo al momento del test (TTRL) è emerso come un paradigma promettente per l'auto-evoluzione di grandi modelli di ragionamento (LRM), consentendo l'adattamento online su input di test non etichettati tramite ricompense auto-indotte attraverso un voto a maggioranza. Tuttavia, un consenso non verificato, spurio ma ad alta frequenza, può diventare un segnale di ricompensa distorto e rinforzato, portando a un collasso modale errato. Affrontiamo questa modalità di fallimento con T³RL (Tool-Verification for Test-Time Reinforcement Learning), che introduce la verifica strumentale al momento del test nella stima della ricompensa. Nello specifico, un verificatore utilizza uno strumento esterno come evidenza (ad esempio, dall'esecuzione di codice) per aumentare il peso dei rollout verificati in un voto consapevole della verifica, producendo pseudo-etichette più affidabili per l'addestramento. In varie difficoltà matematiche (MATH-500, AMC e AIME 2024) e con diversi tipi di modelli di base, T³RL migliora significativamente rispetto al TTRL, con guadagni maggiori su problemi più difficili. Più in generale, T³RL può essere visto come una sintesi di dati online verificata, evidenziando la verifica strumentale al momento del test come un meccanismo chiave per stabilizzare l'auto-evoluzione.
I ragionatori Think-Answer come DeepSeek-R1 hanno compiuto progressi significativi sfruttando un ragionamento interno interpretabile. Tuttavia, nonostante la frequente presenza di segnali autoriflessivi come "Ops!", rimangono vulnerabili a errori di output durante l'inferenza a passaggio singolo. Per affrontare questa limitazione, proponiamo un processo Ricorsivo Think-Answer (R-TAP) efficiente che consente ai modelli di impegnarsi in cicli di ragionamento iterativi e generare risposte più accurate, andando oltre i convenzionali approcci a passaggio singolo. Elemento centrale di questo approccio è un generatore di confidenza che valuta la certezza delle risposte del modello e guida i successivi miglioramenti. Incorporando due ricompense complementari - la Ricompensa per l'Aumento Ricorsivo della Confidenza e la Ricompensa per la Confidenza della Risposta Finale - dimostriamo che i modelli potenziati da R-TAP superano costantemente i metodi convenzionali a passaggio singolo, sia per i grandi modelli linguistici (LLM) che per i modelli visione-linguaggio (VLM). Inoltre, analizzando la frequenza di espressioni simili a "Ops" nelle risposte del modello, scopriamo che i modelli con R-TAP applicato mostrano significativamente meno pattern autoriflessivi, risultando in un ragionamento in fase di inferenza più stabile e veloce. Speriamo che R-TAP apra la strada all'evoluzione di metodi efficienti ed elaborati per affinare i processi di ragionamento delle future IA.
Lo steering dell'attenzione è una tecnica importante per controllare il focus del modello, abilitando capacità come l'evidenziazione del prompt, in cui il modello dà priorità al testo specificato dall'utente. Tuttavia, i metodi esistenti di steering dell'attenzione richiedono la memorizzazione esplicita dell'intera matrice di attenzione, rendendoli incompatibili con implementazioni efficienti in termini di memoria come FlashAttention. Introduciamo l'Amplificazione delle Chiavi con Modifica Spettrale (SEKA), un metodo di steering senza addestramento che affronta questo problema modificando direttamente gli embedding delle chiavi prima del calcolo dell'attenzione. SEKA utilizza la scomposizione spettrale per orientare gli embedding delle chiavi verso direzioni latenti che amplificano i punteggi di attenzione per determinati token. Estendiamo questo concetto ad AdaSEKA (SEKA Adattativo), una variante adattiva alla query che utilizza un meccanismo di routing senza addestramento per combinare dinamicamente multiple sottospazi esperti in base all'intento semantico del prompt. I nostri esperimenti mostrano che entrambi i metodi superano significativamente baseline solide su benchmark standard di steering, aggiungendo al contempo una latenza e un sovraccarico di memoria molto inferiori, mantenendo la compatibilità con l'attenzione ottimizzata.
Introduciamo V-SONAR, uno spazio di incorporamento visione-linguaggio esteso dallo spazio di incorporamento esclusivamente testuale SONAR (Omnilingual Embeddings Team et al., 2026), che supporta 1500 lingue testuali e 177 lingue parlate. Per costruire V-SONAR, proponiamo una pipeline di allineamento post-hoc che mappa le rappresentazioni di un encoder visivo esistente nello spazio SONAR. Valutiamo approfonditamente V-SONAR e dimostriamo che i suoi incorporamenti raggiungono prestazioni competitive nel retrieval video-da-testo. Dotato del decodificatore testuale OMNISONAR, V-SONAR supera ulteriormente i modelli stato dell'arte di visione-linguaggio nelle attività di descrizione video, inclusi DREAM-1K (BLEU 23.9 vs. 19.6) e PE-VIDEO (BLEU 39.0 vs. 30.0). Sfruttando V-SONAR, dimostriamo innanzitutto che il Large Concept Model (LCM; LCM team et al. 2024), che opera in SONAR ed è stato addestrato solo su testo in inglese, può eseguire la comprensione di concetti visivi singoli e multipli in maniera zero-shot. Infine, introduciamo V-LCM, che estende l'LCM con un tuning basato su istruzioni visione-linguaggio. V-LCM codifica gli input visivi e linguistici in una sequenza unificata di incorporamenti latenti tramite V-SONAR e SONAR, ed è addestrato con lo stesso obiettivo di diffusione latente per la predizione dell'incorporamento successivo utilizzato nella pre-addestramento esclusivamente testuale dell'LCM. Esperimenti su una miscela di dati su larga scala, multilingue e multimodale, per il tuning su istruzioni evidenziano il potenziale di V-LCM: V-LCM eguaglia i modelli stato dell'arte di visione-linguaggio in attività che coprono la descrizione di immagini/video e question answering, superandoli significativamente in 61 lingue, da quelle con risorse abbondanti a quelle con risorse scarse, su un totale di 62 lingue testate.
Quando una descrizione testuale viene estesa con un dettaglio aggiuntivo, la similarità immagine-testo dovrebbe diminuire se tale dettaglio è errato. Dimostriamo che i dual encoder in stile CLIP violano spesso questa intuizione: aggiungere un oggetto o una relazione plausibile ma incorretta a una descrizione altrimenti corretta può aumentare il punteggio di similarità. Chiamiamo questi casi "mezze verità". Su COCO, CLIP preferisce la descrizione più breve e corretta solo nel 40,6% dei casi, e la performance scende al 32,9% quando il dettaglio aggiunto è una relazione. Riconduciamo questa vulnerabilità a una supervisione debole sulle parti delle didascalie: l'addestramento contrastivo allinea frasi complete ma non impone esplicitamente che singole entità e relazioni siano ancorate alla realtà. Proponiamo CS-CLIP (Component-Supervised CLIP), che scompone le didascalie in unità di entità e relazioni, costruisce un'alternativa minimamente modificata per ciascuna unità e affina il modello per assegnare un punteggio più alto all'unità corretta rispetto alla sua alternativa, preservando al contempo l'inferenza standard del dual encoder. CS-CLIP aumenta l'accuratezza sulle mezze verità al 69,3% e migliora la performance media su benchmark composizionali consolidati di 5,7 punti, suggerendo che ridurre gli errori da mezza verità si allinea a guadagni più ampi nella comprensione composizionale. Il codice è disponibile pubblicamente all'indirizzo: https://github.com/kargibora/CS-CLIP
Questo rapporto presenta CharacterFlywheel, un processo iterativo a volano per il miglioramento dei grandi modelli linguistici (LLM) nelle applicazioni di chat sociale in produzione su Instagram, WhatsApp e Messenger. Partendo da LLaMA 3.1, abbiamo affinato i modelli attraverso 15 generazioni utilizzando dati provenienti dal traffico reale degli utenti, sia interno che esterno. Tramite deployment continui da luglio 2024 ad aprile 2025, abbiamo condotto test A/B controllati della durata di 7 giorni che hanno mostrato miglioramenti costanti nell'engagement: 7 degli 8 nuovi modelli distribuiti hanno dimostrato un incremento positivo rispetto alla baseline, con i modelli più performanti che hanno raggiunto fino all'8,8% di miglioramento nell'ampiezza dell'engagement e al 19,4% nella sua profondità. Abbiamo anche osservato guadagni sostanziali nella guidabilità, con l'aderenza alle istruzioni aumentata dal 59,2% all'84,8% e le violazioni delle istruzioni ridotte dal 26,6% al 5,8%. Descriviamo nel dettaglio il processo CharacterFlywheel che integra la cura dei dati, la modellazione delle reward per stimare e interpolare il panorama delle metriche di engagement, il fine-tuning supervisionato (SFT), l'apprendimento per rinforzo (RL) e le valutazioni sia offline che online per garantire progressi affidabili a ogni fase di ottimizzazione. Discutiamo inoltre i nostri metodi per la prevenzione dell'overfitting e per gestire le dinamiche di produzione su larga scala. Questi contributi fanno avanzare il rigore scientifico e la comprensione degli LLM nelle applicazioni sociali che servono milioni di utenti.
I modelli linguistici di grandi dimensioni (LLM) hanno trasformato radicalmente il retrieval denso, evolvendo gli architetture di base da encoder discriminatori ad architetture generative. Tuttavia, persiste una disconnessione critica: sebbene gli LLM possiedano forti capacità di ragionamento, i sistemi di retrieval attuali li utilizzano prevalentemente come encoder statici, lasciando inesplorato il loro potenziale per il ragionamento complesso. Per affrontare questo problema, gli approcci esistenti adottano tipicamente pipeline di riscrittura-e-recupero per generare ragionamenti espliciti a catena (CoT) prima del retrieval. Tuttavia, questo comporta una latenza proibitiva. In questo articolo, proponiamo LaSER, un innovativo framework di auto-distillazione che internalizza il ragionamento esplicito nello spazio latente dei sistemi di retrieval denso. Operando su un'architettura LLM condivisa, LaSER introduce un meccanismo di addestramento a doppia visuale: una visuale Esplicita che codifica esplicitamente i percorsi di ragionamento veritieri, e una visuale Latente che esegue un pensiero latente implicito. Per colmare il divario tra queste visuali, progettiamo una strategia di allineamento multi-granulare. Oltre al consueto allineamento degli output, introduciamo un meccanismo di allineamento della traiettoria che sincronizza gli stati latenti intermedi del percorso latente con la progressione semantica dei segmenti di ragionamento esplicito. Ciò consente al sistema di retrieval di "pensare" silenziosamente ed efficacemente senza generazione di testo autoregressiva. Esperimenti approfonditi su benchmark intensivi di ragionamento, sia in-dominio che out-of-dominio, dimostrano che LaSER supera significativamente i baseline state-of-the-art. Inoltre, analisi condotte su diverse architetture e scale modellari convalidano la robustezza del nostro approccio, confermando che il nostro framework di apprendimento unificato è essenziale per elicitare un efficace pensiero latente. Il nostro metodo combina con successo la profondità di ragionamento delle pipeline CoT esplicite con l'efficienza inferenziale dei sistemi di retrieval denso standard.
Identifichiamo il ragionamento sull'occlusione come un aspetto fondamentale ma trascurato per la generazione condizionata dal layout 3D. È essenziale per sintetizzare oggetti parzialmente occlusi con geometria e scala coerenti con la profondità. Sebbene i metodi esistenti possano generare scene realistiche che seguono i layout di input, spesso non riescono a modellare occlusioni inter-oggetto precise. Proponiamo SeeThrough3D, un modello per la generazione condizionata da layout 3D che modella esplicitamente le occlusioni. Introduciamo una rappresentazione di scena 3D consapevole dell'occlusione (OSCR), in cui gli oggetti sono raffigurati come box 3D traslucidi posizionati in un ambiente virtuale e renderizzati dal punto di vista della camera desiderato. La trasparenza codifica le regioni nascoste degli oggetti, consentendo al modello di ragionare sulle occlusioni, mentre il punto di vista renderizzato fornisce un controllo esplicito della camera durante la generazione. Condizioniamo un modello preaddestrato di generazione di immagini text-to-image basato su flow introducendo un insieme di token visivi derivati dalla nostra rappresentazione 3D renderizzata. Inoltre, applichiamo l'auto-attenzione mascherata per associare accuratamente ogni bounding box dell'oggetto alla sua corrispondente descrizione testuale, consentendo la generazione precisa di oggetti multipli senza mescolanza di attributi. Per addestrare il modello, costruiamo un dataset sintetico con scene multi-oggetto diversificate con forti occlusioni inter-oggetto. SeeThrough3D generalizza efficacemente a categorie di oggetti non viste e consente un controllo preciso del layout 3D con occlusioni realistiche e un controllo della camera coerente.
L'addestramento su dati simbolici verificabili rappresenta un approccio promettente per espandere le frontiere del ragionamento dei modelli linguistici oltre quanto fornito dai corpora standard di pre-addestramento. Tuttavia, i generatori procedurali esistenti spesso si basano su puzzle o template fissi e non offrono l'ampiezza distributiva necessaria su larga scala. Introduciamo Reasoning Core, una suite scalabile che genera proceduralmente dati di ragionamento simbolico verificabili attraverso domini formali fondamentali: pianificazione PDDL su domini randomizzati, logica del primo ordine con uguaglianza, parsing e generazione di grammatiche libere dal contesto, ragionamento causale su reti bayesiane casuali e sistemi di equazioni. Ogni attività è abbinata a un risolutore esterno per una verifica rigorosa e ammette un controllo continuo della difficoltà per la progettazione di curricula. Gli esempi possono includere facoltativamente tracce di ragionamento derivate dal risolutore, consentendo un addestramento supervisionato fin dalle prime fasi di pre-addestramento, e la stessa interfaccia fornisce funzioni di reward verificabili per l'apprendimento per rinforzo. I nostri esperimenti dimostrano che miscelare i dati di Reasoning Core nel pre-addestramento migliora il ragionamento a valle, preservando o leggermente migliorando la qualità della modellazione linguistica. Valutazioni zero-shot confermano che queste attività rappresentano una sfida per modelli all'avanguardia come GPT-5. Il codice e i dati sono pubblicamente disponibili con licenza MIT.
Introduciamo (Classroom Final Exam), un benchmark multimodale per valutare le capacità di ragionamento dei grandi modelli linguistici in oltre 20 domini STEM. è curato a partire da problemi autentici di compiti a casa ed esami universitari utilizzati ripetutamente, insieme a soluzioni di riferimento fornite dai docenti dei corsi. rappresenta una sfida significativa anche per i modelli all'avanguardia: il nuovo modello Gemini-3.1-pro-preview raggiunge un'accuratezza complessiva del 59,69%, mentre il secondo modello migliore, Gemini-3-flash-preview, arriva al 55,46%, lasciando un ampio margine di miglioramento. Oltre ai risultati della classifica, eseguiamo un'analisi diagnostica scomponendo le soluzioni di riferimento in flussi di ragionamento. Troviamo che, sebbene i modelli all'avanguardia siano spesso in grado di rispondere correttamente a sotto-domande intermedie, faticano a derivare e mantenere in modo affidabile stati intermedi corretti durante soluzioni multi-step. Osserviamo inoltre che le soluzioni generate dai modelli hanno tipicamente più passaggi di ragionamento rispetto a quelle fornite dal docente, indicando un'efficienza dei passaggi non ottimale e un rischio maggiore di accumulo di errori. I dati e il codice sono disponibili su https://github.com/Analogy-AI/CFE_Bench.
Introduciamo Synthetic Visual Genome 2 (SVG2), un dataset su larga scala di scene graph panottici video. SVG2 contiene oltre 636.000 video con 6,6 milioni di oggetti, 52,0 milioni di attributi e 6,7 milioni di relazioni, offrendo un aumento di un ordine di grandezza in scala e diversità rispetto ai precedenti dataset di scene graph spazio-temporali. Per creare SVG2, abbiamo progettato una pipeline completamente automatizzata che combina segmentazione panottica multi-scala, tracciamento delle traiettorie online-offline con scoperta automatica di nuovi oggetti, analisi semantica per traiettoria e inferenza spazio-temporale delle relazioni basata su GPT-5. Basandoci su questa risorsa, addestriamo TRaSER, un modello di generazione di scene graph video. TRaSER potenzia i VLM con un meccanismo di disposizione dei token allineato alle traiettorie e nuovi moduli: un ricampionatore di oggetti-traiettorie e un ricampionatore a finestra temporale per convertire video grezzi e traiettorie panottiche in scene graph spazio-temporali compatti in un singolo passaggio in avanti. Il ricampionatore a finestra temporale associa i token visivi a brevi segmenti di traiettoria per preservare il movimento locale e la semantica temporale, mentre il ricampionatore di oggetti-traiettorie aggrega intere traiettorie per mantenere il contesto globale degli oggetti. Sui dataset di test PVSG, VIPSeg, VidOR e SVG2, TRaSER migliora il rilevamento delle relazioni del +15-20%, la predizione degli oggetti del +30-40% rispetto ai baseline open-source più robusti e del +13% rispetto a GPT-5, e la predizione degli attributi del +15%. Quando i scene graph generati da TRaSER vengono inviati a un VLM per attività di video question answering, si ottiene un guadagno assoluto di accuratezza da +1,5 a +4,6% rispetto all'uso del solo video o del video arricchito con i scene graph generati da Qwen2.5-VL, dimostrando l'utilità dei scene graph spazio-temporali espliciti come rappresentazione intermedia.
I recenti modelli di diffusione text-to-image (T2I) raggiungono un realismo notevole, ma un allineamento fedele tra prompt e immagine rimane una sfida, specialmente per prompt complessi con oggetti multipli, relazioni e attributi granulari. I metodi di scaling inference-time esistenti, privi di addestramento, si basano su budget di iterazione fissi che non possono adattarsi alla difficoltà del prompt, mentre i modelli ottimizzati con reflection richiedono dataset di reflection accuratamente curati e un'estesa messa a punto congiunta di modelli di diffusione e modelli visione-linguaggio, spesso sovradattandosi ai dati dei percorsi di reflection e mancando di trasferibilità tra modelli. Introduciamo RAISE (Requirement-Adaptive Self-Improving Evolution), un framework evolutivo, privo di addestramento e guidato dai requisiti, per la generazione T2I adattiva. RAISE formula la generazione di immagini come un processo di scaling adattivo guidato dai requisiti, facendo evolvere una popolazione di candidati al momento dell'inferenza attraverso un insieme diversificato di azioni di raffinamento, incluse riscrittura del prompt, ricampionamento del rumore e editing istruzionale. Ogni generazione viene verificata rispetto a una lista di controllo strutturata dei requisiti, consentendo al sistema di identificare dinamicamente gli elementi non soddisfatti e allocare ulteriore calcolo solo dove necessario. Ciò realizza uno scaling adattivo al test-time che allinea lo sforzo computazionale con la complessità semantica della query. Su GenEval e DrawBench, RAISE raggiunge un allineamento allo stato dell'arte (0.94 complessivo su GenEval) comportando meno campioni generati (ridotti del 30-40%) e chiamate VLM (ridotte dell'80%) rispetto ai baseline precedenti di scaling e modelli ottimizzati con reflection, dimostrando un auto-miglioramento multi-round efficiente, generalizzabile e modello-agnostico. Il codice è disponibile all'indirizzo https://github.com/LiyaoJiang1998/RAISE.
Il question answering visivo basato su conoscenza (KB-VQA) dimostra un potenziale significativo nella gestione di compiti ad alta intensità di conoscenza. Tuttavia, sorgono conflitti tra la conoscenza parametrica statica nei modelli visione-linguaggio (VLM) e le informazioni recuperate dinamicamente, a causa della natura statica della conoscenza del modello acquisita durante il pre-training. Gli output tendono a ignorare i contesti recuperati o a mostrare un'integrazione incoerente con la conoscenza parametrica, ponendo sfide sostanziali per il KB-VQA. I metodi attuali per mitigare i conflitti di conoscenza sono principalmente adattati da approcci basati sul linguaggio e si concentrano su conflitti a livello di contesto tramite strategie di prompting ingegnerizzate o meccanismi di decoding consapevoli del contesto. Tuttavia, questi metodi trascurano il ruolo cruciale dell'informazione visiva nei conflitti e soffrono di contesti recuperati ridondanti, che compromettono l'identificazione accurata dei conflitti e una mitigazione efficace. Per affrontare queste limitazioni, proponiamo CC-VQA: un nuovo metodo per KB-VQA, che non richiede training ed è consapevole dei conflitti e delle correlazioni. Il nostro metodo comprende due componenti principali: (1) Vision-Centric Contextual Conflict Reasoning, che esegue un'analisi dei conflitti visivo-semantici attraverso contesti di conoscenza interni ed esterni; e (2) Correlation-Guided Encoding and Decoding, che include la compressione della codifica posizionale per enunciati a bassa correlazione e un decoding adattivo che utilizza un punteggio dei conflitti ponderato per la correlazione. Valutazioni estensive sui benchmark E-VQA, InfoSeek e OK-VQA dimostrano che CC-VQA raggiunge prestazioni allo stato dell'arte, ottenendo miglioramenti assoluti di accuratezza dal 3,3% al 6,4% rispetto ai metodi esistenti. Il codice è disponibile all'indirizzo https://github.com/cqu-student/CC-VQA.
La creazione di ambienti digitali interattivi per gaming, robotica e simulazione si basa su oggetti 3D articolati la cui funzionalità emerge dalla loro geometria delle parti e dalla struttura cinematica. Tuttavia, gli approcci esistenti rimangono fondamentalmente limitati: i metodi di ricostruzione basati sull'ottimizzazione richiedono una lenta calibrazione dei giunti per ogni oggetto e tipicamente gestiscono solo oggetti semplici con un singolo giunto, mentre i metodi basati sul retrieval assemblano parti da una libreria fissa, portando a geometrie ripetitive e una scarsa generalizzazione. Per affrontare queste sfide, introduciamo ArtLLM, un framework innovativo per generare asset articolati di alta qualità direttamente da mesh 3D complete. Il suo nucleo è un modello linguistico grande multimodale 3D addestrato su un dataset su larga scala di articolazioni curato sia da dataset di articolazioni esistenti che da oggetti generati proceduralmente. A differenza dei lavori precedenti, ArtLLM predice in modo autoregressivo un numero variabile di parti e giunti, inferendo la loro struttura cinematica in maniera unificata dalla nuvola di punti dell'oggetto. Questo layout consapevole dell'articolazione condiziona poi un modello generativo 3D per sintetizzare geometrie delle parti ad alta fedeltà. Esperimenti sul dataset PartNet-Mobility mostrano che ArtLLM supera significativamente i metodi all'avanguardia sia in accuratezza del layout delle parti che nella predizione dei giunti, generalizzando in modo robusto a oggetti del mondo reale. Infine, ne dimostriamo l'utilità nella costruzione di gemelli digitali, evidenziandone il potenziale per l'apprendimento robotico scalabile.
I recenti progressi nella generazione video hanno aperto nuove strade per la simulazione macroscopica di sistemi dinamici complessi, ma la loro applicazione ai fenomeni microscopici rimane in gran parte inesplorata. La simulazione a micro scala rivela un grande potenziale per applicazioni biomediche come la scoperta di farmaci, i sistemi organ-on-chip e gli studi sui meccanismi delle malattie, mostrando al contempo potenzialità anche in ambito educativo e nella visualizzazione interattiva. In questo lavoro, presentiamo MicroWorldBench, un benchmark basato su una rubrica multilivello per i compiti di simulazione a micro scala. MicroWorldBench consente una valutazione sistematica e basata su rubriche attraverso 459 criteri unici annotati da esperti, che coprono molteplici compiti di simulazione microscopica (ad esempio, processi a livello di organo, dinamiche cellulari e interazioni molecolari subcellulari) e dimensioni di valutazione (ad esempio, fedeltà scientifica, qualità visiva, aderenza alle istruzioni). MicroWorldBench rivela che gli attuali modelli all'avanguardia per la generazione video falliscono nella simulazione microscopica, mostrando violazioni delle leggi fisiche, incoerenza temporale e disallineamento con i criteri esperti. Per affrontare queste limitazioni, abbiamo costruito MicroSim-10K, un dataset di simulazione di alta qualità e verificato da esperti. Sfruttando questo dataset, abbiamo addestrato MicroVerse, un modello di generazione video specificamente progettato per la simulazione a micro scala. MicroVerse è in grado di riprodurre accuratamente complessi meccanismi microscopici. Il nostro lavoro introduce per la prima volta il concetto di Simulazione del Micro-Mondo e presenta una prova di concetto, aprendo la strada ad applicazioni in biologia, educazione e visualizzazione scientifica. Dimostriamo il potenziale delle simulazioni microscopiche educative dei meccanismi biologici. I nostri dati e il codice sono pubblicamente disponibili all'indirizzo https://github.com/FreedomIntelligence/MicroVerse.
Lo sviluppo di sistemi di riconoscimento vocale automatico (ASR) per lingue con risorse limitate è ostacolato dalla scarsità di corpora trascritti. Questo studio proof-of-concept esplora le canzoni come fonte di dati non convenzionale ma promettente per l'ASR del kazako. Abbiamo curato un dataset di 3.013 coppie audio-testo (circa 4,5 ore) provenienti da 195 canzoni di 36 artisti, segmentate a livello di riga del testo. Utilizzando Whisper come riconoscitore di base, addestriamo modelli in sette scenari di training che coinvolgono i dati delle Canzoni, il Common Voice Corpus (CVC) e FLEURS, e li valutiamo su tre benchmark: CVC, FLEURS e Kazakh Speech Corpus 2 (KSC2). I risultati mostrano che il fine-tuning basato sulle canzoni migliora le prestazioni rispetto ai baseline zero-shot. Ad esempio, Whisper Large-V3 Turbo addestrato su una miscela di Canzoni, CVC e FLEURS raggiunge un WER normalizzato del 27,6% su CVC e dell'11,8% su FLEURS, dimezzando l'errore su KSC2 (39,3% vs. 81,2%) rispetto al modello zero-shot. Sebbene questi miglioramenti rimangano al di sotto di quelli dei modelli addestrati sul corpus KSC2 da 1.100 ore, dimostrano che anche modeste miscele di canzoni e parlato possono produrre miglioramenti di adattamento significativi nell'ASR a basse risorse. Il dataset è rilasciato su Hugging Face per scopi di ricerca con una licenza contingentata e non commerciale.
La Federated Instruction Tuning (FIT) consente la messa a punto collaborativa delle istruzioni per grandi modelli linguistici tra più organizzazioni (client) in un contesto cross-silo, senza richiedere la condivisione di istruzioni private. Recenti scoperte sui backdoor naturali e il metodo esistente di raccolta dei dati di addestramento suggeriscono che campioni avvelenati possano essere pervasivi e incorporati inavvertitamente in dataset del mondo reale, potenzialmente distribuiti su tutti i client, anche se questi sono benigni. Questo lavoro esamina sistematicamente questa minaccia nella FIT, dimostrando che le difese esistenti sono inefficaci quando i dati avvelenati sono sparsi tra tutti i client. Affrontare questa sfida comporta due difficoltà principali: identificare le caratteristiche distintive dei campioni avvelenati presso ogni client e abilitare una difesa collaborativa quando alcuni client sono fortemente dominati da campioni avvelenati. Per affrontare queste difficoltà, identifichiamo i gradienti nel dominio della frequenza come un segnale robusto per distinguere i dati avvelenati. Proponiamo inoltre un meccanismo globale di clustering secondario che facilita l'identificazione collaborativa dei campioni avvelenati tra i client. In sintesi, questo articolo introduce ProtegoFed, il primo framework FIT privo di backdoor che rileva, rimuove e persino purifica accuratamente i dati avvelenati sparsi tra i client durante l'addestramento. I risultati sperimentali su quattro dataset di FL mostrano che ProtegoFed identifica dal 92,00% al 100,00% dei campioni avvelenati, riduce il tasso di successo dell'attacco a quasi zero e mantiene l'utilità sul compito principale. Il codice è disponibile all'indirizzo https://github.com/dongdongzhaoUP/ProtegoFed.
I modelli Geo-Fondamentali (GMF) sono stati valutati su una vasta gamma di compiti di osservazione della Terra, inclusi molteplici domini, e hanno dimostrato un forte potenziale nel produrre mappe affidabili anche con etichette ridotte. Tuttavia, il benchmarking dei GMF per applicazioni criosferiche è rimasto limitato, principalmente a causa della mancanza di dataset di valutazione adeguati. Per colmare questa lacuna, introduciamo Cryo-Bench, un benchmark creato per valutare le prestazioni dei GMF su componenti criosferiche chiave. Cryo-Bench include ghiacciai detritici-ricoperti, laghi glaciali, ghiaccio marino e fronti di distacco, coprendo molteplici sensori e ampie regioni geografiche. Valutiamo 14 GMF insieme a baseline UNet e ViT per valutarne vantaggi, limiti e strategie d'uso ottimali. Con un encoder congelato, UNet raggiunge il mIoU medio più alto del 66,38%, seguito da TerraMind al 64,02% sui cinque dataset di valutazione inclusi in Cryo-Bench. In uno scenario few-shot (10% dei dati di input), GMF come DOFA e TerraMind superano UNet, raggiungendo punteggi mIoU rispettivamente di 59,53, 56,62 e 56,60, contro il 56,60 di U-Net. Quando si effettua il fine-tuning completo dei GMF, si osserva una performance disomogenea tra dataset e modelli. Tuttavia, l'ottimizzazione del tasso di apprendimento insieme al fine-tuning migliora sostanzialmente le prestazioni dei GMF. Ad esempio, la valutazione su due dataset rappresentativi (GLID e CaFFe) mostra un miglioramento relativo medio del 12,77%. Nonostante la rappresentazione minima della Criosfera nei loro dati di pre-addestramento, i GMF mostrano notevoli capacità di adattamento al dominio e producono risultati significativi tra i vari compiti. Sulla base dei nostri risultati, raccomandiamo il fine-tuning dell'encoder con l'ottimizzazione degli iperparametri per ottenere le migliori prestazioni possibili, utilizzando encoder congelati quando gli utenti necessitano di risultati rapidi senza sperimentazioni estese (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
Le prestazioni di lattazione delle capre da latte Saanen, rinomate per l'elevata produzione lattea, sono intrinsecamente legate alla loro taglia corporea, rendendo la misurazione corporea 3D accurata essenziale per valutare il potenziale produttivo. Tuttavia, i metodi di ricostruzione esistenti mancano di dati 3D autentici specifici per capre. Per colmare questa lacuna, abbiamo creato il dataset FemaleSaanenGoat contenente video RGBD sincronizzati da otto angolazioni di 55 capre Saanen femmina (6-18 mesi). Utilizzando il DynamicFusion multi-vista, fondiamo sequenze di nuvole di punti rumorose e non rigide in scansioni 3D ad alta fedeltà, superando le sfide poste dalle superfici irregolari e dai movimenti rapidi. Sulla base di queste scansioni, sviluppiamo SaanenGoat, un modello di forma 3D parametrico specificamente progettato per capre Saanen femmina. Questo modello presenta un template raffinato con 41 articolazioni scheletriche e una rappresentazione migliorata della mammella, registrato con i nostri dati di scansione. Uno spazio delle forme completo costruito da 48 capre consente una rappresentazione precisa delle diverse variazioni individuali. Grazie al modello SaanenGoat, otteniamo una ricostruzione 3D ad alta precisione da input RGBD monoscopico e raggiungiamo la misurazione automatizzata di sei dimensioni corporee critiche: lunghezza del corpo, altezza, larghezza toracica, circonferenza toracica, larghezza bacino e altezza bacino. I risultati sperimentali dimostrano la precisione superiore del nostro metodo sia nella ricostruzione 3D che nella misurazione corporea, presentando un nuovo paradigma per applicazioni vision 3D su larga scala nell'allevamento di precisione.
L'apprendimento per osservazione richiede che un agente impari a eseguire un compito facendo riferimento esclusivamente alle osservazioni del compito svolto. Questo lavoro indaga l'equivalente scenario nell'apprendimento robotico del mondo reale, dove non si assume l'accesso a ricompense progettate manualmente né alle azioni del dimostratore. Per affrontare questo scenario vincolato dai dati, questo lavoro presenta un algoritmo di Inverse Reinforcement Learning (IRL) basato sulla pianificazione per la modellazione del mondo a partire dalla sola osservazione e interazione. Esperimenti condotti interamente nel mondo reale dimostrano che questo paradigma è efficace per apprendere compiti di manipolazione basati su immagini da zero in meno di un'ora, senza presupporre conoscenze pregresse, pre-addestramento o dati di alcun tipo oltre alle osservazioni del compito. Inoltre, questo lavoro dimostra che la rappresentazione del mondo appresa è capace di apprendimento per trasferimento online nel mondo reale partendo da zero. Rispetto agli approcci esistenti, inclusi IRL, RL e Behavior Cloning (BC), che hanno assunzioni più restrittive, l'approccio proposto dimostra un'efficienza campionaria e tassi di successo significativamente maggiori, aprendo una strada pratica per la modellazione e la pianificazione online del mondo a partire dall'osservazione e interazione. Video e altro su: https://uwrobotlearning.github.io/mpail2/.