Articoli di ricerca IA selezionati quotidianamente con traduzioni
Mentre gli agenti autonomi di ingegneria del software (SWE) stanno rimodellando i paradigmi di programmazione, attualmente soffrono di una limitazione di "mondo chiuso": tentano di correggere i bug da zero o utilizzando esclusivamente il contesto locale, ignorando l'immensa esperienza umana storica disponibile su piattaforme come GitHub. L'accesso a questa esperienza di mondo aperto è ostacolato dalla natura non strutturata e frammentata dei dati reali di tracciamento dei problemi. In questo articolo, introduciamo MemGovern, un framework progettato per governare e trasformare i dati grezzi di GitHub in una memoria esperienziale utilizzabile dagli agenti. MemGovern impiega una governance dell'esperienza per convertire l'esperienza umana in schede esperienziali compatibili con gli agenti e introduce una strategia di ricerca esperienziale agentica che consente il recupero guidato dalla logica dell'expertise umana. Producendo 135.000 schede esperienziali governate, MemGovern ottiene un significativo miglioramento delle prestazioni, aumentando il tasso di risoluzione sullo SWE-bench Verified del 4,65%. In quanto approccio plug-in, MemGovern fornisce una soluzione per un'infrastruttura di memoria compatibile con gli agenti.
Nonostante i rapidi progressi dei modelli di generazione video, il ruolo dei dati nell'influenzare il movimento è poco compreso. Presentiamo Motive (MOTIon attribution for Video gEneration), un framework di attribuzione dei dati basato sui gradienti e incentrato sul movimento, che si adatta a moderni dataset e modelli video di grandi dimensioni e alta qualità. Lo utilizziamo per studiare quali clip di fine-tuning migliorano o peggiorano le dinamiche temporali. Motive isola le dinamiche temporali dall'aspetto statico tramite maschere di perdita pesate sul movimento, ottenendo un calcolo dell'influenza specifico per il movimento efficiente e scalabile. Sui modelli text-to-video, Motive identifica le clip che influenzano fortemente il movimento e guida la cura dei dati che migliora la coerenza temporale e la plausibilità fisica. Con i dati ad alta influenza selezionati da Motive, il nostro metodo migliora sia la fluidità del movimento che il grado dinamico su VBench, raggiungendo un tasso di preferenza umana del 74,1% rispetto al modello base preaddestrato. A nostra conoscenza, questo è il primo framework che attribuisce il movimento anziché l'aspetto visivo nei modelli generativi video e lo utilizza per curare i dati di fine-tuning.
Presentiamo Solar Open, un modello linguistico bilingue Mixture-of-Experts da 102 miliardi di parametri per lingue sottorappresentate. Solar Open dimostra una metodologia sistematica per costruire modelli linguistici di grandi dimensioni competitivi affrontando tre sfide interconnesse. In primo luogo, per addestrare efficacemente nonostante la scarsità di dati per le lingue sottorappresentate, sintetizziamo 4,5 trilioni di token di dati di alta qualità, specifici per dominio e orientati all'apprendimento per rinforzo. In secondo luogo, organizziamo questi dati attraverso un curriculum progressivo che ottimizza congiuntamente composizione, soglie di qualità e copertura di dominio su 20 trilioni di token. In terzo luogo, per abilitare capacità di ragionamento tramite apprendimento per rinforzo scalabile, applichiamo la nostra framework proposta SnapPO per un'ottimizzazione efficiente. Su benchmark in inglese e coreano, Solar Open raggiunge prestazioni competitive, dimostrando l'efficacia di questa metodologia per lo sviluppo di intelligenza artificiale per lingue sottorappresentate.
I benchmark esistenti sulla memoria a lungo termine utilizzano principalmente dialoghi multi-turno o cronologie utente sintetiche, rendendo le prestazioni di retrieval un indicatore imperfetto della comprensione della persona. Presentiamo \BenchName, un benchmark di pubblico accessibile costruito da narrazioni autobiografiche estese, dove azioni, contesto e pensieri interiori forniscono evidenze dense per inferire motivazioni stabili e principi decisionali. \BenchName ricostruisce ogni narrazione in un flusso ancorato temporalmente e consapevole dei flashback, valutando i modelli con domande collegate alle evidenze che abbracciano il richiamo fattuale, l'attribuzione di stati soggettivi e il ragionamento a livello di principi. Attraverso fonti narrative diverse, i sistemi potenziati dal retrieval migliorano principalmente l'accuratezza fattuale, mentre persistono errori nelle spiegazioni temporalmente contestualizzate e nelle inferenze di livello superiore, evidenziando la necessità di meccanismi di memoria che vadano oltre il retrieval. I nostri dati sono disponibili in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
Presentiamo la serie Ministral 3, una famiglia di modelli linguistici densi ad alta efficienza parametrica progettati per applicazioni con vincoli computazionali e di memoria, disponibili in tre dimensioni: 3B, 8B e 14B di parametri. Per ciascuna dimensione, rilasciamo tre varianti: un modello base preaddestrato per uso generico, uno fine-tuned per istruzioni e un modello per il ragionamento dedicato alla risoluzione di problemi complessi. Inoltre, presentiamo la nostra metodologia per derivare i modelli Ministral 3 attraverso la Distillazione a Cascata, una tecnica di pruning iterativo e addestramento continuo con distillazione. Ogni modello è dotato di capacità di comprensione delle immagini e tutti sono rilasciati sotto licenza Apache 2.0.
L'apprendimento per rinforzo ha migliorato significativamente le prestazioni degli agenti LLM su compiti con risultati verificabili, ma incontra ancora difficoltà in compiti agentivi aperti con spazi di soluzione vasti (ad esempio, la pianificazione di viaggi complessi). A causa dell'assenza di una verità di riferimento oggettiva per questi compiti, gli attuali algoritmi RL si basano in larga misura su modelli di ricompensa che assegnano punteggi scalari a singole risposte. Sosteniamo che tale valutazione puntuale soffra di un collasso intrinseco della discriminazione: il modello di ricompensa fatica a distinguere i vantaggi sottili tra diverse traiettorie, facendo sì che i punteggi all'interno di un gruppo vengano compressi in un intervallo ristretto. Di conseguenza, il segnale di ricompensa efficace diventa dominato dal rumore del modello di ricompensa, portando a una stagnazione dell'ottimizzazione. Per affrontare questo problema, proponiamo ArenaRL, un paradigma di apprendimento per rinforzo che passa dalla valutazione scalare puntuale al ranking relativo intra-gruppo. ArenaRL introduce un meccanismo di valutazione pairwise consapevole del processo, impiegando rubriche multilivello per assegnare punteggi relativi a grana fine alle traiettorie. Inoltre, costruiamo un'arena avversaria intra-gruppo e ideiamo uno schema di classificazione basato su tornei per ottenere segnali di vantaggio stabili. I risultati empirici confermano che lo schema di eliminazione diretta con seeding costruito raggiunge un'accuratezza di stima del vantaggio quasi equivalente ai confronti pairwise completi con complessità O(N²), operando però con una complessità di soli O(N), trovando un equilibrio ottimale tra efficienza e precisione. Inoltre, per ovviare alla carenza di benchmark a ciclo completo per agenti aperti, costruiamo Open-Travel e Open-DeepResearch, due benchmark di alta qualità che presentano una pipeline completa che copre SFT, addestramento RL e valutazione multidimensionale. Esperimenti estensivi mostrano che ArenaRL supera sostanzialmente i baseline RL standard, consentendo agli agenti LLM di generare soluzioni più robuste per compiti real-world complessi.
Il recente cambio di paradigma verso i grandi modelli di ragionamento (LRM) come agenti autonomi ha intensificato la richiesta di capacità sofisticate di utilizzo di strumenti in dialoghi multi-turn. Tuttavia, i dataset e gli approcci di generazione dei dati esistenti sono limitati da set di strumenti statici e predefiniti che non possono scalare per adattarsi alla complessità della collaborazione aperta tra uomo e agente. Per affrontare questo problema, abbiamo inizialmente sviluppato un framework per la generazione automatizzata su larga scala di dialoghi multi-turn orientati al compito, utilizzando un simulatore basato su LRM per generare dinamicamente strumenti ad alto valore e specifici del dominio per risolvere compiti specifici. Tuttavia, osserviamo che una progettazione puramente orientata al compito spesso produce traiettorie di "pura risoluzione del compito", in cui l'agente completa l'obiettivo con un'interazione minima, non riuscendo a generare conversazioni con un numero elevato di turni come quelle osservate negli scenari realistici. Per colmare questa lacuna, ci orientiamo verso un paradigma di simulazione orientato all'utente. Disaccoppiando la generazione del compito da un simulatore utente dedicato che imita le regole comportamentali umane – come la formulazione incrementale di richieste e il feedback turno per turno – favoriamo dialoghi multi-turn più autentici e prolungati che riflettono la natura iterativa della risoluzione di problemi nel mondo reale. La nostra pipeline di generazione funziona come un modulo versatile plug-and-play in grado di avviare la generazione da qualsiasi stato, garantendo un'elevata scalabilità nella produzione di dati estesi sull'uso di strumenti. Inoltre, consentendo il completamento di più compiti all'interno di una singola traiettoria, produce un dataset ad alta densità che riflette le esigenze multifaccettate dell'interazione reale tra uomo e agente.
Lo sviluppo di agenti intelligenti capaci di manipolazione destrosa è fondamentale per raggiungere un'automazione di tipo umano sia nella robotica che negli ambienti digitali. Tuttavia, gli attuali agenti GUI si basano su predizioni discrete di clic (x,y), il che impedisce traiettorie libere e in ciclo chiuso (ad esempio, trascinare una barra di avanzamento) che richiedono percezione e regolazione continue e in tempo reale. In questo lavoro, sviluppiamo ShowUI-π, il primo modello generativo basato su flussi come mano destrosa per GUI, caratterizzato dalle seguenti innovazioni: (i) Azioni Unificate Discrete-Continue, che integrano clic discreti e trascinamenti continui all'interno di un modello condiviso, consentendo un adattamento flessibile attraverso diverse modalità di interazione; (ii) Generazione di Azioni basata su Flussi per la modellazione del trascinamento, che predice aggiustamenti incrementali del cursore da osservazioni visive continue tramite un esperto di azioni leggero, garantendo traiettorie fluide e stabili; (iii) Dati di Addestramento e Benchmark per il Trascinamento, dove raccogliamo manualmente e sintetizziamo 20.000 traiettorie di trascinamento in cinque domini (ad esempio PowerPoint, Adobe Premiere Pro) e introduciamo ScreenDrag, un benchmark con protocolli di valutazione online e offline completi per valutare le capacità di trascinamento degli agenti GUI. I nostri esperimenti mostrano che gli agenti GUI proprietari hanno ancora difficoltà su ScreenDrag (ad esempio, Operator totalizza 13.27, e il migliore Gemini-2.5-CUA raggiunge 22.18). Al contrario, ShowUI-π raggiunge 26.98 con soli 450M di parametri, sottolineando sia la difficoltà del compito che l'efficacia del nostro approccio. Speriamo che questo lavoro faccia progredire gli agenti GUI verso un controllo destrorso di tipo umano nel mondo digitale. Il codice è disponibile all'indirizzo https://github.com/showlab/showui-pi.
Il ragionamento complesso nei framework di agenti potenziati da strumenti è intrinsecamente di lungo orizzonte, causando l'accumulo di tracce di ragionamento e artefatti transitori degli strumenti che sollecitano il contesto di lavoro limitato dei grandi modelli linguistici. Senza meccanismi espliciti di memoria, tale accumulo compromette la continuità logica e mina l'allineamento al compito. Ciò posiziona la memoria non come una questione accessoria di efficienza, ma come un componente fondamentale per sostenere un ragionamento coerente e orientato agli obiettivi su lunghi orizzonti. Proponiamo MemoBrain, un modello di memoria esecutiva per agenti potenziati da strumenti che costruisce una memoria consapevole delle dipendenze tra i passaggi di ragionamento, catturando stati intermedi salienti e le loro relazioni logiche. Operando come un co-pilota affiancato all'agente di ragionamento, MemoBrain organizza i progressi del ragionamento senza bloccare l'esecuzione e gestisce attivamente il contesto di lavoro. Nello specifico, pota i passaggi non validi, ripiega le sotto-traiettorie completate e preserva una struttura di ragionamento compatta e ad alta salienza entro un budget di contesto fisso. Complessivamente, questi meccanismi abilitano un controllo cognitivo esplicito sulle traiettorie di ragionamento, anziché un accumulo passivo del contesto. Valutiamo MemoBrain su benchmark impegnativi di lungo orizzonte, inclusi GAIA, WebWalker e BrowseComp-Plus, dimostrando miglioramenti consistenti rispetto a baseline solide.
I metodi di segmentazione di oggetti video come SAM2 raggiungono prestazioni elevate attraverso architetture basate su memoria, ma incontrano difficoltà in presenza di ampi cambiamenti di punto di vista a causa della dipendenza da caratteristiche di aspetto. I metodi tradizionali di segmentazione di istanze 3D affrontano la coerenza del punto di vista, ma richiedono pose della camera, mappe di profondità e costose pre-elaborazioni. Presentiamo 3AM, un potenziamento applicabile durante l'addestramento che integra le feature 3D-aware di MUSt3R in SAM2. Il nostro leggero Feature Merger fonde feature multi-livello di MUSt3R che codificano corrispondenze geometriche implicite. Combinato con le feature di aspetto di SAM2, il modello raggiunge un riconoscimento geometricamente coerente basato sia sulla posizione spaziale che sulla similarità visiva. Proponiamo una strategia di campionamento consapevole del campo visivo che garantisce che i frame osservino regioni oggetto spazialmente coerenti per un apprendimento affidabile delle corrispondenze 3D. Fondamentalmente, il nostro metodo richiede solo input RGB in inferenza, senza pose della camera o pre-elaborazione. Su dataset complessi con moto a larga base (ScanNet++, Replica), 3AM supera sostanzialmente SAM2 e le sue estensioni, raggiungendo il 90.6% di IoU e il 71.7% di Positive IoU sul Selected Subset di ScanNet++, migliorando i metodi VOS allo stato dell'arte di +15.9 e +30.4 punti. Pagina del progetto: https://jayisaking.github.io/3AM-Page/
Gli agenti autonomi basati su grandi modelli linguistici (LLM) stanno evolvendo rapidamente per gestire compiti multi-turno, ma garantire la loro affidabilità rimane una sfida cruciale. Un pilastro fondamentale di questa affidabilità è la calibrazione, che si riferisce alla capacità di un agente di esprimere una confidenza che rifletta fedelmente le sue prestazioni effettive. Sebbene la calibrazione sia ben consolidata per i modelli statici, le sue dinamiche nei flussi di lavoro agentistici integrati con strumenti rimangono poco esplorate. In questo lavoro, indaghiamo sistematicamente la calibrazione verbalizzata negli agenti che utilizzano strumenti, rivelando una dicotomia fondamentale della confidenza guidata dal tipo di strumento. Nello specifico, il nostro studio pilota identifica che gli strumenti di evidenza (ad esempio, la ricerca web) inducono sistematicamente una grave sovraconfidenza a causa del rumore intrinseco nelle informazioni recuperate, mentre gli strumenti di verifica (ad esempio, gli interpreti di codice) possono ancorare il ragionamento attraverso feedback deterministico e mitigare la scorretta calibrazione. Per migliorare robustamente la calibrazione tra i tipi di strumento, proponiamo un framework di fine-tuning con apprendimento per rinforzo (RL) che ottimizza congiuntamente l'accuratezza del compito e la calibrazione, supportato da un benchmark olistico di progettazioni di reward. Dimostriamo che i nostri agenti addestrati non solo raggiungono una calibrazione superiore, ma mostrano anche una robusta generalizzazione dagli ambienti di addestramento locali a contesti web rumorosi e a domini distinti come il ragionamento matematico. I nostri risultati evidenziano la necessità di strategie di calibrazione specifiche per dominio per gli agenti che utilizzano strumenti. Più in generale, questo lavoro getta le basi per costruire agenti auto-consapevoli che possano comunicare in modo affidabile l'incertezza in deployment reali ad alto rischio.
Il Retrieval Augmented Generation affronta un compromesso: la concatenazione di documenti in un prompt lungo abilita il ragionamento multi-documento ma crea colli di bottiglia nella fase di prefill, mentre la codifica separata delle cache KV dei documenti offre velocità ma interrompe l'interazione cross-documento. Proponiamo il Parallel Context-of-Experts Decoding (Pced), un framework senza addestramento che sposta l'aggregazione delle evidenze dal meccanismo di attenzione al processo di decoding. Pced tratta i documenti recuperati come "esperti" isolati, sincronizzando le loro previsioni tramite una nuova regola di decoding contrastivo retrieval-aware che pondera i logit degli esperti rispetto al prior del modello. Questo approccio recupera le capacità di ragionamento cross-documento senza costruire un'attenzione condivisa tra i documenti.
I recenti progressi nei transformer diffusivi (DiT) hanno stabilito nuovi standard nella generazione di immagini, ma rimangono impraticabili per l'implementazione su dispositivo a causa degli elevati costi computazionali e di memoria. In questo lavoro, presentiamo un framework DiT efficiente, progettato per dispositivi mobili e periferici, che raggiunge una qualità di generazione di livello transformer sotto stringenti vincoli di risorse. Il nostro design combina tre componenti chiave. In primo luogo, proponiamo un'architettura DiT compatta con un meccanismo di attenzione sparsa globale-locale adattiva che bilancia la modellazione del contesto globale e la preservazione dei dettagli locali. In secondo luogo, proponiamo un framework di training elastico che ottimizza congiuntamente sub-DiT di capacità variabili all'interno di una super-rete unificata, consentendo a un singolo modello di adattarsi dinamicamente per un'inferenza efficiente su hardware diversi. Infine, sviluppiamo la Distillazione per Apprendimento Distribuzionale Guidata dalla Conoscenza (Knowledge-Guided Distribution Matching Distillation), una pipeline di distillazione step-by-step che integra l'obiettivo DMD con il trasferimento di conoscenza da modelli insegnanti a pochi passi, producendo una generazione ad alta fedeltà e bassa latenza (ad esempio, a 4 passi) adatta all'uso in tempo reale su dispositivo. Nel complesso, questi contributi abilitano modelli di diffusione scalabili, efficienti e di alta qualità per il deployment su hardware eterogenei.
Le pipeline di Generazione Aumentata tramite Recupero (RAG) devono affrontare sfide che vanno oltre il semplice recupero di documenti singoli, come l'interpretazione di elementi visivi (tabelle, grafici, immagini), la sintesi di informazioni tra documenti e la fornitura di un accurato ancoraggio alle fonti. I benchmark esistenti non colgono questa complessità, concentrandosi spesso su dati testuali, sulla comprensione di documenti singoli o sulla valutazione separata del recupero e della generazione. Introduciamo ViDoRe v3, un benchmark RAG multimodale completo che presenta query di tipo multiplo su corpora di documenti visivamente ricchi. Copre 10 dataset appartenenti a diversi domini professionali, comprendenti circa 26.000 pagine di documenti abbinate a 3.099 query verificate da esseri umani, ciascuna disponibile in 6 lingue. Grazie a 12.000 ore di lavoro di annotazione umana, forniamo annotazioni di alta qualità per la rilevanza nel recupero, la localizzazione tramite bounding box e risorse di riferimento verificate. La nostra valutazione delle pipeline RAG più all'avanguardia rivela che i sistemi di recupero visivi superano quelli testuali, i modelli a interazione tardiva e il riordinamento testuale migliorano sostanzialmente le prestazioni, e contesti ibridi o puramente visivi aumentano la qualità della generazione delle risposte. Tuttavia, i modelli attuali hanno ancora difficoltà con elementi non testuali, query aperte e l'ancoraggio visivo di precisione. Per incoraggiare progressi nell'affrontare queste sfide, il benchmark è rilasciato con una licenza commerciale permissiva all'indirizzo https://hf.co/vidore.
I sistemi Text-to-Visualization (Text2Vis) traducono interrogazioni in linguaggio naturale su dati tabellari in risposte concise e visualizzazioni eseguibili. Sebbene i LLM proprietari generino codice funzionale, i grafici risultanti spesso mancano di allineamento semantico e chiarezza, qualità che possono essere valutate solo dopo l'esecuzione. I modelli open-source incontrano difficoltà ancora maggiori, producendo frequentemente output non eseguibili o visivamente scadenti. Sebbene il fine-tuning supervisionato possa migliorare l'eseguibilità del codice, non riesce a potenziare la qualità complessiva della visualizzazione, poiché la perdita SFT tradizionale non può catturare il feedback post-esecuzione. Per colmare questa lacuna, proponiamo RL-Text2Vis, il primo framework di apprendimento per rinforzo per la generazione Text2Vis. Basato sul Group Relative Policy Optimization (GRPO), il nostro metodo utilizza una ricompensa multi-obiettivo innovativa che ottimizza congiuntamente l'accuratezza testuale, la validità del codice e la qualità della visualizzazione sfruttando il feedback post-esecuzione. Addestrando modelli Qwen2.5 (7B e 14B), RL-Text2Vis raggiunge un miglioramento relativo del 22% nella qualità dei grafici rispetto a GPT-4o sul benchmark Text2Vis e incrementa il successo dell'esecuzione del codice dal 78% al 97% rispetto al suo baseline zero-shot. I nostri modelli superano significativamente i baseline zero-shot e supervisionati e dimostrano anche una robusta generalizzazione su dataset fuori dominio come VIS-Eval e NVBench. Questi risultati stabiliscono il GRPO come una strategia efficace per il ragionamento multimodale strutturato nella generazione di visualizzazioni. Rilasciamo il nostro codice all'indirizzo https://github.com/vis-nlp/RL-Text2Vis.
Con il rapido progresso della generazione di immagini, l'editing di testo visivo tramite istruzioni in linguaggio naturale ha ricevuto crescente attenzione. La sfida principale di questo compito è comprendere appieno l'istruzione e l'immagine di riferimento, generando così testo visivo stilisticamente coerente con l'immagine. I metodi precedenti spesso coinvolgono passaggi complessi per specificare contenuto e attributi del testo (come dimensione del carattere, colore e layout), senza considerare la coerenza stilistica con l'immagine di riferimento. Per affrontare ciò, proponiamo UM-Text, un modello multimodale unificato per la comprensione contestuale e l'editing di testo visivo tramite istruzioni naturali. Nello specifico, introduciamo un Modello di Linguaggio Visivo (VLM) per elaborare l'istruzione e l'immagine di riferimento, in modo che contenuto e layout del testo possano essere progettati meticolosamente in base alle informazioni contestuali. Per generare un'immagine di testo visivo accurata e armoniosa, proponiamo inoltre l'UM-Encoder per combinare gli embedding delle varie informazioni condizionali, dove la combinazione è configurata automaticamente dal VLM in base all'istruzione di input. Durante l'addestramento, proponiamo una perdita di consistenza regionale per fornire una supervisione più efficace per la generazione di glifi sia nello spazio latente che in RGB, e progettiamo una strategia di addestramento su tre fasi su misura per migliorare ulteriormente le prestazioni del modello. In aggiunta, contribuiamo con UM-DATA-200K, un dataset su larga scala di immagini di testo visivo in scenari diversificati per l'addestramento del modello. Risultati qualitativi e quantitativi estesi su molteplici benchmark pubblici dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia.
La rapida evoluzione dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM) ha favorito l'automazione dei flussi di lavoro; tuttavia, la ricerca esistente si concentra principalmente sui limiti prestazionali in ambienti statici, trascurando la robustezza necessaria per un dispiegamento stocastico nel mondo reale. Identifichiamo tre sfide chiave: pianificazione dinamica dei task, esplorazione attiva in condizioni di incertezza e apprendimento continuo dall'esperienza. Per colmare questa lacuna, introduciamo , un ambiente di valutazione dinamico che simula un agente "tirocinante" che esplora continuamente un ambiente nuovo. A differenza dei benchmark tradizionali, valuta gli agenti lungo tre dimensioni: (1) schedulazione consapevole del contesto per task in flusso con priorità variabili; (2) acquisizione prudente di informazioni per ridurre le allucinazioni tramite esplorazione attiva; e (3) evoluzione continua attraverso la distillazione di strategie generalizzate da task generati dinamicamente su base rule-based. Gli esperimenti dimostrano che gli agenti all'avanguardia presentano carenze significative in ambienti dinamici, specialmente nell'esplorazione attiva e nell'apprendimento continuo. Il nostro lavoro definisce un quadro per valutare l'affidabilità degli agenti, spostando la valutazione da test statici a scenari realistici orientati alla produzione. I nostri codici sono disponibili su https://github.com/KnowledgeXLab/EvoEnv
La sostituzione controllabile di personaggi video con un'identità fornita dall'utente rimane un problema complesso a causa della mancanza di dati video accoppiati. I lavori precedenti si sono basati prevalentemente su un paradigma di tipo ricostruttivo che richiede maschere di segmentazione per ogni fotogramma e una guida strutturale esplicita (ad esempio, scheletro, profondità). Questa dipendenza, tuttavia, limita fortemente la loro generalizzabilità in scenari complessi che coinvolgono occlusioni, interazioni personaggio-oggetto, pose insolite o illuminazione difficoltosa, portando spesso ad artefatti visivi e incoerenze temporali. In questo articolo, proponiamo MoCha, un framework pionieristico che supera questi limiti richiedendo solo una singola maschera di fotogramma arbitraria. Per adattare efficacemente la condizione di input multi-modale e migliorare l'identità facciale, introduciamo un RoPE (Rotary Position Embedding) consapevole delle condizioni e impieghiamo una fase di post-addestramento basata su RL (Reinforcement Learning). Inoltre, per ovviare alla scarsità di dati di addestramento accoppiati e qualificati, proponiamo una pipeline completa per la costruzione dei dati. Nello specifico, progettiamo tre dataset specializzati: un dataset renderizzato ad alta fedeltà creato con Unreal Engine 5 (UE5), un dataset guidato dalle espressioni sintetizzato con le attuali tecniche di animazione ritrattistica e un dataset aumentato derivato da coppie video-maschera esistenti. Esperimenti estensivi dimostrano che il nostro metodo supera sostanzialmente gli approcci allo stato dell'arte esistenti. Rilasceremo il codice per facilitare ulteriori ricerche. Per maggiori dettagli, si prega di consultare la nostra pagina del progetto: orange-3dv-team.github.io/MoCha
I modelli VLA hanno dimostrato un potenziale promettente nella navigazione embodiata unificando percezione e pianificazione, ereditando al contempo le forti capacità di generalizzazione dei grandi modelli linguistico-visivi (VLM). Tuttavia, la maggior parte dei modelli VLA esistenti si basa su mappature reattive dirette dalle osservazioni alle azioni, carenti delle capacità di ragionamento esplicito e della memoria persistente necessarie per compiti di navigazione complessi e a lungo termine. Per affrontare queste sfide, proponiamo VLingNav, un modello VLA per la navigazione embodiata basato su una cognizione fondata sul linguaggio. In primo luogo, ispirati dalla teoria del doppio processo della cognizione umana, introduciamo un meccanismo di ragionamento a catena (chain-of-thought) adattivo, che innesca dinamicamente il ragionamento esplicito solo quando necessario, consentendo all'agente di passare fluidamente tra un'esecuzione rapida e intuitiva e una pianificazione lenta e deliberata. In secondo luogo, per gestire le dipendenze spaziali a lungo termine, sviluppiamo un modulo di memoria linguistica assistita visivamente che costruisce una memoria semantica persistente e cross-modale, permettendo all'agente di richiamare osservazioni passate per prevenire esplorazioni ripetitive e inferire tendenze di movimento in ambienti dinamici. Per la fase di addestramento, costruiamo Nav-AdaCoT-2.9M, il più grande dataset di navigazione embodiata con annotazioni di ragionamento fino ad oggi, arricchito con annotazioni CoT adattive che inducono un paradigma di ragionamento in grado di adattare sia quando pensare sia a cosa pensare. Inoltre, incorporiamo una fase di apprendimento per rinforzo online guidata da un esperto, permettendo al modello di superare il puro apprendimento per imitazione e di acquisire comportamenti di navigazione più robusti e auto-esplorati. Esperimenti estensivi dimostrano che VLingNav raggiunge prestazioni all'avanguardia in un'ampia gamma di benchmark di navigazione embodiata. Notevolmente, VLingNav si trasferisce su piattaforme robotiche del mondo reale in maniera zero-shot, eseguendo vari compiti di navigazione e dimostrando una forte generalizzazione cross-dominio e cross-compito.
Questo articolo presenta VideoLoom, un Modello Linguistico di Grande Dimensione per Video (Video LLM) unificato per la comprensione spazio-temporale congiunta. Per facilitare lo sviluppo di capacità di localizzazione spaziale e temporale fine, abbiamo curato LoomData-8.7k, un dataset video incentrato sull'umano con didascalie temporalmente ancorate e spazialmente localizzate. Grazie a ciò, VideoLoom raggiunge prestazioni allo stato dell'arte o altamente competitive su una varietà di benchmark spaziali e temporali (ad esempio, 63.1 J&F su ReVOS per la segmentazione di oggetti video referenziali e 48.3 R1@0.7 su Charades-STA per l'ancoraggio temporale). Inoltre, introduciamo LoomBench, un nuovo benchmark costituito da coppie video-domanda temporali, spaziali e compositive, che consente una valutazione completa dei Video LLM da diverse prospettive. Nel complesso, questi contributi offrono una suite universale ed efficace per la comprensione video spazio-temporale congiunta, stabilendo un nuovo standard nell'intelligenza multimodale.
Il miglioramento delle capacità di ragionamento dei grandi modelli linguistici (LLM) si è basato in larga misura sull'auto-addestramento iterativo con dati generati dal modello stesso. Sebbene efficaci nel potenziare l'accuratezza, gli approcci esistenti rafforzano principalmente i percorsi di ragionamento vincenti, comportando un costo sostanziale di calibrazione: i modelli diventano sovracconfidenti e perdono la capacità di rappresentare l'incertezza. Questo fallimento è stato caratterizzato come una forma di collasso del modello nell'allineamento, in cui le distribuzioni predittive degenerano verso stime puntuali a bassa varianza. Affrontiamo questo problema ridefinendo l'addestramento al ragionamento come un problema di apprendimento epistemico, in cui i modelli devono apprendere non solo come ragionare, ma anche quando il loro ragionamento dovrebbe essere considerato affidabile. Proponiamo il ragionamento epistemicamente calibrato (EpiCaR) come obiettivo di addestramento che ottimizza congiuntamente le prestazioni di ragionamento e la calibrazione, e lo istanziamo all'interno di un framework di fine-tuning supervisionato iterativo utilizzando segnali espliciti di autovalutazione. Esperimenti sulle famiglie Llama-3 e Qwen-3 dimostrano che il nostro approccio raggiunge una Pareto-superiorità rispetto ai baseline standard sia in accuratezza che in calibrazione, specialmente in modelli con sufficiente capacità di ragionamento (es. 3B+). Questo framework generalizza efficacemente al ragionamento matematico fuori distribuzione (GSM8K) e alla generazione di codice (MBPP). In definitiva, il nostro approccio consente una riduzione di 3 volte del compute di inferenza, eguagliando le prestazioni con K=30 campioni di STaR con soli K=10 campini in modelli capaci.
L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è diventato un paradigma standard per il ragionamento nei Modelli Linguistici di Grande Dimensione. Tuttavia, ottimizzare esclusivamente per la correttezza della risposta finale spinge spesso i modelli verso un'esplorazione verbosa e senza meta, in cui fanno affidamento su tattiche di prova ed errore esaustive piuttosto che su una pianificazione strutturata per raggiungere le soluzioni. Sebbene vincoli euristici come le penalità di lunghezza possano ridurre la verbosità, essi spesso troncano passaggi di ragionamento essenziali, creando un difficile compromesso tra efficienza e verificabilità. In questo articolo, sosteniamo che la capacità discriminativa è un prerequisito per una generazione efficiente: imparando a distinguere le soluzioni valide, un modello può interiorizzare un segnale di guida che pota lo spazio di ricerca. Proponiamo JudgeRLVR, un paradigma a due stadi "giudica-poi-genera". Nella prima fase, addestriamo il modello a giudicare risposte risolutive con risposte verificabili. Nella seconda fase, perfezioniamo lo stesso modello con un RLVR generativo classico, inizializzato a partire dal "giudice". Rispetto al Vanilla RLVR che utilizza gli stessi dati di addestramento nel dominio matematico, JudgeRLVR raggiunge un migliore compromesso qualità-efficienza per Qwen3-30B-A3B: in matematica in-dominio, fornisce un guadagno medio di accuratezza di circa +3,7 punti con una lunghezza di generazione media ridotta del -42%; su benchmark out-of-domain, fornisce un miglioramento medio di accuratezza di circa +4,5 punti, dimostrando una generalizzazione potenziata.
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in sistemi reali di fact-checking, tuttavia le valutazioni esistenti si concentrano prevalentemente sulla verifica delle affermazioni e trascurano il più ampio flusso di lavoro del fact-checking, inclusi l'estrazione delle affermazioni e il recupero delle prove. Questo approccio limitato impedisce ai benchmark attuali di rivelare fallimenti sistematici nel ragionamento, punti ciechi fattuali e limitazioni di robustezza degli LLM moderni. Per colmare questa lacuna, presentiamo FactArena, un framework di valutazione in stile arena completamente automatizzato che conduce benchmark completi e per fasi degli LLM lungo l'intera pipeline di fact-checking. FactArena integra tre componenti chiave: (i) un processo di fact-checking guidato da LLM che standardizza la scomposizione delle affermazioni, il recupero delle prove tramite interazioni potenziate da strumenti e la previsione del verdetto basata su giustificazioni; (ii) un meccanismo di giudizio in stile arena guidato da linee guida di riferimento consolidate per garantire confronti a coppie imparziali e coerenti tra agenti giudicanti eterogenei; e (iii) un modulo di evoluzione delle affermazioni guidato dall'arena che genera in modo adattivo affermazioni più complesse e semanticamente controllate per sondare la robustezza fattuale degli LLM al di là dei dati di partenza fissi. Su 16 LLM all'avanguardia appartenenti a sette famiglie di modelli, FactArena produce classifiche stabili e interpretabili. Le nostre analisi rivelano inoltre significative discrepanze tra l'accuratezza statica nella verifica delle affermazioni e la competenza end-to-end nel fact-checking, evidenziando la necessità di una valutazione olistica. Il framework proposto offre un paradigma scalabile e affidabile per diagnosticare il ragionamento fattuale degli LLM, guidare lo sviluppo futuro dei modelli e promuovere l'impiego affidabile degli LLM in applicazioni di fact-checking critiche per la sicurezza.
La tokenizzazione discreta del movimento ha recentemente consentito ai Large Language Model (LLM) di fungere da architetture versatili per la comprensione del movimento e il ragionamento movimento-linguaggio. Tuttavia, le pipeline esistenti tipicamente dissociano la quantizzazione del movimento dall'apprendimento degli embedding semantici, collegandoli esclusivamente tramite ID di token. Questo approccio non riesce ad allineare efficacemente la geometria intrinseca dello spazio del movimento con lo spazio degli embedding, ostacolando così la capacità dell'LLM di compiere ragionamenti sfumati sul movimento. Sosteniamo che l'allineamento sia più efficace quando entrambe le modalità condividono una base geometrica unificata. Pertanto, invece di forzare l'LLM a ricostruire da zero la complessa geometria tra i token di movimento, presentiamo un framework innovativo che applica esplicitamente l'ortogonalità sia al codebook del movimento che allo spazio di embedding dell'LLM, garantendo che le loro strutture relazionali si rispecchino naturalmente. Nello specifico, utilizziamo un quantizzatore decoder-only con Gumbel-Softmax per un training differenziabile e un utilizzo bilanciato del codebook. Per collegare le modalità, impieghiamo una proiezione sparsa che mappa i codici di movimento nello spazio di embedding dell'LLM preservando l'ortogonalità. Infine, una schedulazione di regolarizzazione ortonormale a due stadi applica vincoli soft durante l'addestramento del tokenizer e il fine-tuning dell'LLM per mantenere l'allineamento geometrico senza ostacolare l'adattamento semantico. Esperimenti estensivi su HumanML3D dimostrano che il nostro framework raggiunge un miglioramento delle prestazioni del 20% rispetto ai metodi state-of-the-art attuali, convalidando che una base geometrica unificata potenzia efficacemente l'LLM per un ragionamento sul movimento più sfumato.