Articoli di ricerca IA selezionati quotidianamente con traduzioni
Gli attuali agenti di IA possono richiamare strumenti in modo flessibile ed eseguire compiti complessi, ma il loro progresso a lungo termine è ostacolato dalla mancanza di un'accumulazione e trasferimento sistematici delle competenze. Senza un meccanismo unificato per il consolidamento delle abilità, gli agenti spesso "reinventano la ruota", riscoprendo soluzioni in contesti isolati senza sfruttare strategie pregresse. Per superare questa limitazione, presentiamo SkillNet, un'infrastruttura aperta progettata per creare, valutare e organizzare competenze di IA su larga scala. SkillNet struttura le competenze all'interno di un'ontologia unificata che supporta la creazione di abilità da fonti eterogenee, stabilisce connessioni relazionali ricche ed esegue valutazioni multidimensionali su Sicurezza, Completezza, Eseguibilità, Manutenibilità e Consapevolezza dei Costi. La nostra infrastruttura integra un repository di oltre 200.000 competenze, una piattaforma interattiva e un versatile toolkit Python. Le valutazioni sperimentali su ALFWorld, WebShop e ScienceWorld dimostrano che SkillNet migliora significativamente le prestazioni degli agenti, aumentando le ricompense medie del 40% e riducendo i passi di esecuzione del 30% su più modelli di base. Formalizzando le competenze come asset evolutivi e componibili, SkillNet fornisce una solida base affinché gli agenti passino dall'esperienza transitoria alla padronanza duratura.
Sebbene i grandi modelli linguistici (LLM) mostrino potenziale nella scoperta scientifica, la ricerca esistente si concentra sull'inferenza o sull'addestramento guidato dal feedback, lasciando inesplorata la modellizzazione diretta del processo di ragionamento generativo, P(ipotesi|contesto) (P(h|b)). Dimostriamo che addestrare direttamente P(h|b) è matematicamente intrattabile a causa della complessità combinatoria (O(N^k)) intrinseca nel recuperare e comporre ispirazioni da una vasta base di conoscenza. Per superare questa barriera, introduciamo MOOSE-Star, un framework unificato che abilita un addestramento trattabile e un'inferenza scalabile. Nel caso migliore, MOOSE-Star riduce la complessità da esponenziale a logaritmica (O(log N)) attraverso: (1) l'addestramento su sottocompiti scomposti derivati dall'equazione probabilistica della scoperta, (2) l'impiego di una ricerca gerarchica guidata dalla motivazione per abilitare un recupero logaritmico e potare i sottospazi irrilevanti, e (3) l'utilizzo di una composizione limitata per garantire robustezza contro il rumore nel recupero. Per facilitare ciò, rilasciamo TOMATO-Star, un dataset di 108.717 articoli scomposti (38.400 ore GPU) per l'addestramento. Inoltre, mostriamo che mentre il campionamento a forza bruta colpisce un "muro della complessità", MOOSE-Star esibisce uno scaling continuo al momento del test.
Gli agenti basati su Large Language Model (LLM) possono automatizzare i flussi di lavoro di data science, ma molti rigorosi metodi statistici implementati in R rimangono sottoutilizzati poiché gli LLM faticano con la conoscenza statistica e il recupero degli strumenti. Gli approcci esistenti potenziati dal retrieval si concentrano sulla semantica a livello di funzione e ignorano la distribuzione dei dati, producendo corrispondenze subottimali. Proponiamo DARE (Distribution-Aware Retrieval Embedding), un modello di retrieval leggero e plug-and-play che incorpora informazioni sulla distribuzione dei dati nelle rappresentazioni delle funzioni per il recupero di pacchetti R. I nostri principali contributi sono: (i) RPKB, una R Package Knowledge Base curata, derivata da 8.191 pacchetti CRAN di alta qualità; (ii) DARE, un modello di embedding che fonde caratteristiche distributive con i metadati delle funzioni per migliorare la rilevanza del recupero; e (iii) RCodingAgent, un agente LLM orientato a R per la generazione affidabile di codice R e una suite di attività di analisi statistica per valutare sistematicamente gli agenti LLM in scenari analitici realistici. Empiricamente, DARE raggiunge un NDCG@10 del 93,47%, superando i modelli di embedding open-source all'avanguardia fino al 17% nel recupero dei pacchetti, pur utilizzando un numero di parametri sostanzialmente inferiore. L'integrazione di DARE in RCodingAgent produce miglioramenti significativi nelle attività di analisi downstream. Questo lavoro contribuisce a colmare il divario tra l'automazione tramite LLM e l'ecosistema statistico maturo di R.
Gli agenti multimodali nel mondo reale risolvono flussi di lavoro multi-step basati su evidenze visive. Ad esempio, un agente può diagnosticare un dispositivo collegando una foto del cablaggio a uno schema e validando la riparazione con la documentazione online, oppure pianificare un viaggio interpretando una mappa dei trasporti e verificando gli orari sotto vincoli di routing. Tuttavia, i benchmark multimodali esistenti valutano principalmente ragionamenti visivi a turno singolo o competenze strumentali specifiche, senza catturare appieno il realismo, la sottigliezza visiva e l'uso di strumenti a lungo termine richiesti dagli agenti pratici. Introduciamo AgentVista, un benchmark per agenti multimodali generalisti che copre 25 sotto-domini in 7 categorie, abbinando scenari visivi realistici e ricchi di dettagli a un uso ibrido e naturale degli strumenti. I compiti richiedono interazioni strumentali a lungo termine attraverso diverse modalità, inclusa ricerca web, ricerca per immagini, navigazione tra pagine e operazioni basate su codice sia per l'elaborazione di immagini che per la programmazione generale. La valutazione completa dei modelli più avanzati rivela lacune significative nella loro capacità di portare a termine un uso multimodale di strumenti a lungo termine. Anche il modello migliore nella nostra valutazione, Gemini-3-Pro con strumenti, raggiunge solo il 27,3% di accuratezza complessiva, e le istanze più difficili possono richiedere più di 25 turni di chiamata di strumenti. Ci aspettiamo che AgentVista acceleri lo sviluppo di agenti multimodali più capaci e affidabili per la risoluzione di problemi realistici e ultra-impegnativi.
La scalabilità dell'apprendimento per imitazione è fondamentalmente limitata dall'efficienza della raccolta dei dati. Sebbene le interfacce portatili siano emerse come una soluzione scalabile per l'acquisizione di dati in contesti reali, esse operano prevalentemente in modalità ad anello aperto: gli operatori raccolgono dimostrazioni in modo cieco, senza conoscere le debolezze della politica sottostante, portando a una copertura inefficiente delle distribuzioni di stati critici. Al contrario, metodi interattivi come DAgger affrontano efficacemente il *covariate shift* ma si basano sull'esecuzione fisica del robot, che è costosa e difficile da scalare. Per conciliare questo compromesso, introduciamo RoboPocket, un sistema portatile che abilita l'Iterazione Istantanea della Politica Senza Robot utilizzando singoli smartphone consumer. La sua innovazione principale è un framework di Inferenza Remota che visualizza la traiettoria predetta dalla politica tramite Previsione Visiva in Realtà Aumentata (AR). Questo feedback immersivo consente ai raccoglitori di identificare proattivamente i potenziali fallimenti e concentrare la raccolta dati sulle regioni deboli della politica, senza richiedere un robot fisico. Inoltre, implementiamo una pipeline asincrona di Affinamento Online che aggiorna continuamente la politica con i dati in arrivo, chiudendo efficacemente l'anello di apprendimento in pochi minuti. Esperimenti estensivi dimostrano che RoboPocket rispetta le leggi di scala dei dati e raddoppia l'efficienza dei dati rispetto alle strategie di scalabilità offline, superando il loro collo di bottiglia di efficienza di lunga data. Inoltre, il nostro ciclo di iterazione istantanea aumenta l'efficienza del campionamento fino a 2 volte in ambienti distribuiti con un piccolo numero di correzioni interattive per persona. Pagina del progetto e video: https://robo-pocket.github.io.
Le immagini uomo-prodotto, che mostrano l'integrazione tra esseri umani e prodotti, svolgono un ruolo vitale nella pubblicità, nell'e-commerce e nel marketing digitale. La sfida principale nella generazione di tali immagini risiede nel garantire la preservazione fedele dei dettagli del prodotto. Tra i paradigmi esistenti, l'inpainting basato su riferimento offre una soluzione mirata sfruttando immagini di riferimento del prodotto per guidare il processo di inpaint. Tuttavia, permangono limitazioni in tre aspetti chiave: la carenza di dati di training su larga scala e diversificati, la difficoltà dei modelli attuali nel concentrarsi sulla preservazione dei dettagli del prodotto e l'incapacità di una supervisione grossolana di ottenere una guida precisa. Per affrontare questi problemi, proponiamo HiFi-Inpaint, un nuovo framework di inpaint basato su riferimento ad alta fedeltà studiato per generare immagini uomo-prodotto. HiFi-Inpaint introduce l'Attention di Miglioramento Condiviso (SEA) per affinare le caratteristiche granulari del prodotto e una Loss Consapevole dei Dettagli (DAL) per imporre una supervisione precisa a livello di pixel utilizzando mappe ad alta frequenza. Inoltre, abbiamo costruito un nuovo dataset, HP-Image-40K, con campioni curati da dati auto-sintetizzati e processati con filtraggio automatico. I risultati sperimentali mostrano che HiFi-Inpaint raggiunge prestazioni all'avanguardia, producendo immagini uomo-prodotto che preservano i dettagli.
Quale modello multimodale dovremmo utilizzare per la classificazione? Studi precedenti suggeriscono che la risposta risieda nei modelli visione-linguaggio (VLM) contrastivi di tipo CLIP, grazie alla loro prestazione notevole nella classificazione zero-shot. Al contrario, i Large Multimodal Model (LMM) sono più adatti per compiti complessi. In questo lavoro, sosteniamo che questa risposta tralascia un'importante capacità degli LMM: l'apprendimento in contesto (in-context learning). Eseguiamo un benchmark degli LMM allo stato dell'arte su diversi dataset per la classificazione in mondo chiuso e scopriamo che, sebbene le loro prestazioni zero-shot siano inferiori a quelle di CLIP, gli LMM con alcuni esempi in contesto possono eguagliare o addirittura superare i VLM contrastivi dotati di adattatori basati su cache, il loro equivalente "in contesto". Estendiamo questa analisi allo scenario di mondo aperto, dove la natura generativa degli LMM li rende più adatti al compito. In questo scenario impegnativo, gli LMM mostrano difficoltà quando vengono forniti con informazioni di contesto imperfette. Per affrontare questo problema, proponiamo CIRCLE, un semplice metodo senza addestramento che assegna pseudo-etichette agli esempi in contesto, affinandole iterativamente con il contesto disponibile stesso. Attraverso esperimenti estensivi, dimostriamo che CIRCLE stabilisce una baseline robusta per la classificazione in mondo aperto, superando le controparti VLM ed evidenziando il potenziale degli LMM di fungere da classificatori unificati e un'alternativa flessibile ai modelli specializzati.
La quantizzazione post-addestramento (PTQ) con invarianza computazionale per i Large Language Model (LLM) ha dimostrato progressi notevoli; tuttavia, la sua applicazione ai Multimodal Large Language Model (MLLM) presenta sfide sostanziali. In questo articolo, analizziamo SmoothQuant come caso di studio e identifichiamo due problemi critici: l'Allineamento Inadeguato del Smoothing e l'Invarianza Computazionale Cross-Modale. Per affrontare questi problemi, proponiamo Modality-Aware Smoothing Quantization (MASQuant), un framework innovativo che introduce (1) Modality-Aware Smoothing (MAS), che apprende fattori di smoothing separati e specifici per modalità per prevenire l'Allineamento Inadeguato, e (2) Cross-Modal Compensation (CMC), che risolve l'Invarianza Computazionale Cross-Modale utilizzando la whitening SVD per trasformare le differenze di attivazione multimodale in forme a basso rango, consentendo una quantizzazione unificata tra le modalità. MASQuant dimostra prestazioni di quantizzazione stabili sia per MLLM bimodali che trimodali. I risultati sperimentali mostrano che MASQuant è competitivo tra gli algoritmi PTQ allo stato dell'arte. Codice sorgente: https://github.com/alibaba/EfficientAI.
I benchmark standard stanno diventando sempre più inaffidabili a causa della saturazione, della soggettività e della scarsa generalizzazione. Sosteniamo che valutare la capacità del modello di acquisire attivamente informazioni sia fondamentale per valutare l'intelligenza del modello. Proponiamo Interactive Benchmarks, un paradigma di valutazione unificato che valuta le capacità di ragionamento del modello in un processo interattivo sotto vincoli di budget. Istanziamo questo framework in due contesti: Interactive Proofs, dove i modelli interagiscono con un giudice per dedurre verità oggettive o risposte in logica e matematica; e Interactive Games, dove i modelli ragionano strategicamente per massimizzare utilità a lungo termine. I nostri risultati dimostrano che i benchmark interattivi forniscono una valutazione robusta e fedele dell'intelligenza del modello, rivelando che esiste ancora un margine di miglioramento sostanziale negli scenari interattivi. Pagina del progetto: https://github.com/interactivebench/interactivebench
L'attenzione a basso bit, come SageAttention, è emersa come un approccio efficace per accelerare l'inferenza del modello, ma la sua applicabilità all'addestramento rimane poco compresa. In lavori precedenti, abbiamo introdotto SageBwd, un'attenzione addestrabile in INT8 che quantizza sei delle sette moltiplicazioni di matrici di attenzione preservando le prestazioni durante il fine-tuning. Tuttavia, SageBwd ha mostrato un divario di prestazioni persistente rispetto all'attenzione in precisione completa (FPA) durante la pre-training. In questo lavoro, indaghiamo le cause di questo divario e dimostriamo che SageBwd eguaglia l'attenzione in precisione completa durante la pre-training. Attraverso esperimenti e analisi teorica, raggiungiamo alcune importanti intuizioni e conclusioni: (i) la QK-norm è necessaria per un addestramento stabile con un numero elevato di token per step, (ii) gli errori di quantizzazione originano principalmente dal gradiente dello score dS nella backward-pass, (iii) ridurre i token per step permette a SageBwd di eguagliare le prestazioni della FPA nella pre-training, e (iv) il K-smoothing rimane essenziale per la stabilità dell'addestramento, mentre il Q-smoothing fornisce un beneficio limitato durante la pre-training.
Nonostante i notevoli progressi nella generazione video, i modelli esistenti rimangono limitati a una plausibilità superficiale, mancando di una comprensione coerente e unificata del mondo. Gli approcci precedenti incorporano tipicamente una sola forma di conoscenza relativa al mondo o si affidano a strategie di allineamento rigide per introdurre conoscenze aggiuntive. Tuttavia, allineare una singola conoscenza mondiale è insufficiente per costituire un modello del mondo, che richiede invece la modellazione congiunta di multiple dimensioni eterogenee (ad esempio, senso comune fisico, coerenza 3D e temporale). Per affrontare questa limitazione, introduciamo DreamWorld, un framework unificato che integra conoscenze mondiali complementari nei generatori video attraverso un Paradigma di Modellazione Congiunta del Mondo, prevedendo congiuntamente i pixel video e le feature dei modelli di fondazione per catturare la dinamica temporale, la geometria spaziale e la coerenza semantica. Tuttavia, l'ottimizzazione ingenua di questi obiettivi eterogenei può portare a instabilità visiva e sfarfallio temporale. Per mitigare questo problema, proponiamo l'Addolcimento Progressivo dei Vincoli di Coerenza (CCA) per regolare gradualmente i vincoli a livello mondiale durante l'addestramento, e una Guida Interna Multi-Sorgente per imporre i priori mondiali appresi durante l'inferenza. Valutazioni estensive mostrano che DreamWorld migliora la coerenza mondiale, superando Wan2.1 di 2.26 punti su VBench. Il codice sarà reso pubblico su https://github.com/ABU121111/DreamWorld.
Presentiamo Timer-S1, un solido modello base per serie temporali di tipo Mixture-of-Experts (MoE) con 8,3 miliardi di parametri totali, 0,75 miliardi di parametri attivati per ogni token e una lunghezza contestuale di 11,5K. Per superare il collo di bottiglia della scalabilità nei modelli base per serie temporali pre-addestrati esistenti, applichiamo lo "Serial Scaling" lungo tre dimensioni: architettura del modello, dataset e pipeline di addestramento. Timer-S1 integra blocchi TimeMoE sparsi e blocchi TimeSTP generici per la Serial-Token Prediction (STP), un obiettivo di addestramento generico che rispetta la natura sequenziale della previsione. Il paradigma proposto introduce calcoli seriali per migliorare le previsioni a lungo termine, evitando al contempo l'onerosa inferenza di tipo rolling e la marcata accumulazione di errori tipica della predizione standard del token successivo. Alla ricerca di un dataset di addestramento di alta qualità e non distorto, abbiamo curato TimeBench, un corpus con mille miliardi di punti temporali, applicando una meticolosa augmentazione dei dati per mitigare il bias predittivo. Abbiamo inoltre introdotto una fase di post-addestramento, che include pre-addestramento continuato ed estensione del contesto lungo, per potenziare le prestazioni a breve termine e con contesti estesi. Valutato sull'ampia classifica GIFT-Eval, Timer-S1 raggiunge prestazioni previsive all'avanguardia, ottenendo i migliori punteggi MASE e CRPS come modello pre-addestrato. Timer-S1 sarà rilasciato per favorire ulteriori ricerche.
I modelli attuali di generazione video non possono simulare le conseguenze fisiche di azioni 3D come forze e manipolazioni robotiche, poiché mancano di una comprensione strutturale di come le azioni influenzano le scene 3D. Presentiamo RealWonder, il primo sistema in tempo reale per la generazione video condizionata da azioni a partire da una singola immagine. La nostra intuizione chiave è utilizzare la simulazione fisica come ponte intermedio: invece di codificare direttamente azioni continue, le traduciamo attraverso la simulazione fisica in rappresentazioni visive (flusso ottico e RGB) che i modelli video possono elaborare. RealWonder integra tre componenti: ricostruzione 3D da singole immagini, simulazione fisica e un generatore video distillato che richiede solo 4 passi di diffusione. Il nostro sistema raggiunge 13.2 FPS a una risoluzione di 480x832, consentendo l'esplorazione interattiva di forze, azioni robotiche e controlli della telecamera su oggetti rigidi, corpi deformabili, fluidi e materiali granulari. Prevediamo che RealWonder apra nuove opportunità per applicare modelli video in esperienze immersive, AR/VR e apprendimento robotico. Il nostro codice e i pesi del modello sono pubblicamente disponibili sul sito del progetto: https://liuwei283.github.io/RealWonder/
La presa è una capacità fondamentale per i robot per interagire con il mondo fisico. Gli esseri umani, dotati di due mani, selezionano autonomamente strategie di presa appropriate in base alla forma, alle dimensioni e al peso degli oggetti, consentendo una presa robusta e una successiva manipolazione. Al contrario, l'attuale presa robotica rimane limitata, specialmente in contesti multi-strategia. Sebbene notevoli sforzi siano stati rivolti alla presa con pinza parallela e a mano singola, la presa destra per robot bimanuali rimane poco esplorata, con i dati che rappresentano il collo di bottiglia principale. Raggiungere prese fisicamente plausibili e geometricamente conformi in grado di resistere a sollecitazioni esterne presenta sfide significative. Per affrontare questi problemi, introduciamo UltraDexGrasp, un framework per la presa destra universale con robot bimanuali. La pipeline di generazione dati proposta integra una sintesi di presa basata sull'ottimizzazione con una generazione di dimostrazioni basata sulla pianificazione, producendo traiettorie di alta qualità e diversificate attraverso multiple strategie di presa. Con questo framework, abbiamo curato UltraDexGrasp-20M, un dataset di presa su larga scala e multi-strategia che comprende 20 milioni di frame su 1.000 oggetti. Basandoci su UltraDexGrasp-20M, sviluppiamo ulteriormente una politica di presa semplice ma efficace che prende come input nuvole di punti, aggrega le caratteristiche della scena tramite attenzione unidirezionale e predice comandi di controllo. Addestrata esclusivamente su dati sintetici, la politica raggiunge un robusto trasferimento zero-shot da simulazione a realtà e riesce costantemente con oggetti nuovi di varie forme, dimensioni e pesi, raggiungendo una percentuale media di successo dell'81,2% nella presa destra universale nel mondo reale. Per facilitare la futura ricerca sulla presa con robot bimanuali, rendiamo open-source la pipeline di generazione dati all'indirizzo https://github.com/InternRobotics/UltraDexGrasp.
I transformer per la visione hanno dimostrato un notevole successo nella classificazione sfruttando l'auto-attenzione globale per catturare dipendenze a lungo raggio. Tuttavia, questo stesso meccanismo può oscurare i dettagli spaziali a grana fine, cruciali per compiti come la segmentazione. In questo lavoro, cerchiamo di migliorare le prestazioni di segmentazione dei vision transformer dopo un addestramento standard di classificazione a livello di immagine. Più specificamente, presentiamo un componente aggiuntivo semplice ma efficace che migliora le prestazioni sui compiti di segmentazione preservando le capacità di riconoscimento a livello di immagine dei vision transformer. Nel nostro approccio, moduliamo l'auto-attenzione con un kernel Gaussiano apprendibile che orienta l'attenzione verso le patch vicine. Affiniamo ulteriormente le rappresentazioni delle patch per apprendere embedding migliori alle posizioni delle patch. Queste modifiche incoraggiano i token a concentrarsi sull'intorno locale e assicurano rappresentazioni significative alle posizioni spaziali, preservando comunque la capacità del modello di incorporare informazioni globali. Gli esperimenti dimostrano l'efficacia delle nostre modifiche, evidenziata da sostanziali miglioramenti nella segmentazione su tre benchmark (ad esempio, oltre il 6% e il 4% su ADE20K per ViT Tiny e Base), senza alterare il regime di addestramento o sacrificare le prestazioni di classificazione. Il codice è disponibile all'indirizzo https://github.com/sinahmr/LocAtViT/.
I modelli di ragionamento pensano ad alta voce, ma gran parte di ciò che dicono è rumore. Presentiamo OPSDC (On-Policy Self-Distillation for Reasoning Compression), un metodo che insegna ai modelli a ragionare in modo più conciso distillando il loro stesso comportamento conciso nuovamente in sé stessi. L'intero approccio si riduce a un'idea semplice: condizionare lo stesso modello con un'istruzione "sii conciso" per ottenere i logit del teacher, e minimizzare la KL inversa per token sui rollout dello studente. Niente risposte ground-truth, niente budget di token, niente stimatori di difficoltà. Solo auto-distillazione. Eppure, questa semplicità nasconde una sofisticazione sorprendente: OPSDC comprime automaticamente i problemi facili in modo aggressivo, preservando al contempo la deliberazione necessaria per quelli difficili. Su Qwen3-8B e Qwen3-14B, otteniamo una riduzione del 57-59% dei token su MATH-500 migliorando l'accuratezza di 9-16 punti assoluti. Su AIME 2024, il modello da 14B guadagna 10 punti con una compressione del 41%. Il segreto? Gran parte di ciò che i modelli di ragionamento producono non è solo ridondante: è attivamente dannoso, aggravando gli errori con ogni token non necessario.
Presentiamo un sistema per l'addestramento di agenti di ricerca aziendale tramite apprendimento per rinforzo che raggiunge prestazioni allo stato dell'arte su un insieme diversificato di compiti di ricerca agentica difficili da verificare. Il nostro lavoro fornisce quattro contributi fondamentali. Primo, introduciamo KARLBench, una suite di valutazione multi-capacità che abbraccia sei distinti regimi di ricerca, inclusa la ricerca di entità guidata da vincoli, la sintesi di report cross-documento, il ragionamento numerico su tabelle, il recupero esaustivo di entità, il ragionamento procedurale su documentazione tecnica e l'aggregazione di fatti su note interne aziendali. Secondo, dimostriamo che i modelli addestrati su comportamenti di ricerca eterogenei generalizzano sostanzialmente meglio di quelli ottimizzati per un singolo benchmark. Terzo, sviluppiamo una pipeline di sintesi agentica che impiega ragionamento a lungo orizzonte e uso di strumenti per generare dati di addestramento diversificati, fondati e di alta qualità, con bootstrapping iterativo da modelli gradualmente più capaci. Quarto, proponiamo un nuovo paradigma di post-addestramento basato su RL off-policy iterativo a largo batch che è efficiente nel campionamento, robusto alle discrepanze motore addestramento-inferenza, e si estende naturalmente all'addestramento multi-task con generalizzazione out-of-distribution. Rispetto a Claude 4.6 e GPT 5.2, KARL è Pareto-ottimale su KARLBench attraverso i compromessi costo-qualità e latenza-qualità, inclusi compiti che erano out-of-distribution durante l'addestramento. Con sufficiente potenza di calcolo al test, supera i modelli chiusi più potenti. Questi risultati dimostrano che dati sintetici mirati in combinazione con l'apprendimento per rinforzo multi-task abilitano agenti della conoscenza efficienti in termini di costi e ad alte prestazioni per il ragionamento fondato.
Mentre i dataset per la comprensione video si sono estesi fino a durate orarie, sono tipicamente composti da clip densamente concatenate che differiscono dalla vita quotidiana naturale e non sceneggiata. Per colmare questa lacuna, introduciamo MM-Lifelong, un dataset progettato per la Comprensione Multimodale Continua (Lifelong). Comprendendo 181,1 ore di filmati, è strutturato su scale Giornaliera, Settimanale e Mensile per catturare densità temporali variabili. Valutazioni estensive rivelano due modalità critiche di fallimento negli attuali paradigmi: i MLLM end-to-end soffrono di un Collo di Bottiglia della Memoria di Lavoro a causa della saturazione del contesto, mentre i baseline agentivi rappresentativi subiscono un Collasso della Localizzazione Globale quando navigano sequenze temporali sparse della durata di mesi. Per affrontare questo problema, proponiamo l'Agente Multimodale Ricorsivo (ReMA), che impiega una gestione dinamica della memoria per aggiornare iterativamente uno stato di credenza ricorsivo, superando significativamente i metodi esistenti. Infine, stabiliamo delle suddivisioni del dataset progettate per isolare i bias temporali e di dominio, fornendo una base rigorosa per la ricerca futura nell'apprendimento supervisionato e nella generalizzazione fuori distribuzione.
Gli agenti basati su grandi modelli linguistici (LLM) potenziati da strumenti promettono di unificare il ragionamento scientifico con il calcolo computazionale, ma il loro dispiegamento in domini ad alto rischio come la scoperta di farmaci è ostacolato da due barriere critiche: una governance non vincolata dell'uso degli strumenti e una scarsa affidabilità negli orizzonti temporali lunghi. Nelle pipeline farmaceutiche ad alta dipendenza, gli agenti autonomi spesso deviano verso traiettorie irreproducibili, dove allucinazioni nelle fasi iniziali si moltiplicano generando fallimenti a valle. Per superare questo problema, presentiamo Mozi, un'architettura a doppio strato che colma la flessibilità dell'IA generativa con il rigore deterministico della biologia computazionale. Lo Strato A (Piano di Controllo) stabilisce una gerarchia governata di supervisore-operatore che applica un isolamento degli strumenti basato sui ruoli, limita l'esecuzione a spazi di azione vincolati e guida un ripianificazione basata sulla riflessione. Lo Strato B (Piano del Flusso di Lavoro) opera le fasi canoniche della scoperta di farmaci – dall'Identificazione del Target all'Ottimizzazione dei Lead – come grafi di abilità componibili e con stato. Questo strato integra contratti di dati rigorosi e checkpoint strategici con umano nel ciclo (HITL) per salvaguardare la validità scientifica ai confini decisionali ad alta incertezza. Operando sul principio di progettazione "ragionamento in forma libera per compiti sicuri, esecuzione strutturata per pipeline a lungo termine", Mozi fornisce meccanismi di robustezza integrati e un'audibilità a livello di traccia per mitigare completamente l'accumulo di errori. Valutiamo Mozi su PharmaBench, un benchmark curato per agenti biomedici, dimostrando un'accuratezza di orchestrazione superiore rispetto ai baseline esistenti. Inoltre, attraverso studi di caso terapeutici end-to-end, dimostriamo la capacità di Mozi di navigare in spazi chimici massivi, applicare filtri di tossicità stringenti e generare candidati *in silico* altamente competitivi, trasformando efficacemente l'LLM da un fragile conversazionale in un co-scienziato affidabile e governato.
Introduciamo Latent Particle World Model (LPWM), un modello del mondo auto-supervisionato e incentrato sugli oggetti, scalabile su dataset multi-oggetto del mondo reale e applicabile nel processo decisionale. LPWM scopre autonomamente punti chiave, rettangoli di delimitazione e maschere degli oggetti direttamente dai dati video, permettendogli di apprendere scomposizioni della scena ricche senza supervisione. La nostra architettura è addestrata end-to-end esclusivamente a partire da video e supporta un condizionamento flessibile su azioni, linguaggio e obiettivi immagine. LPWM modella la dinamica stocastica delle particelle tramite un innovativo modulo di azione latente e ottiene risultati all'avanguardia su vari dataset reali e sintetici. Oltre alla modellazione video stocastica, LPWM è prontamente applicabile al processo decisionale, incluso l'apprendimento per imitazione condizionato da obiettivi, come dimostriamo nell'articolo. Codice, dati, modelli pre-addestrati e sequenze video sono disponibili: https://taldatech.github.io/lpwm-web
L'apprendimento di un modello di trasporto che mappi una distribuzione sorgente a una distribuzione target è un problema canonico nell'apprendimento automatico, ma le applicazioni scientifiche richiedono sempre più modelli in grado di generalizzare a distribuzioni sorgente e target non osservate durante l'addestramento. Introduciamo il trasporto condizionato alla distribuzione (DCT), un quadro metodologico che condiziona le mappe di trasporto su embedding appresi delle distribuzioni sorgente e target, consentendo la generalizzazione a coppie di distribuzioni non viste. DCT permette anche l'apprendimento semi-supervisionato per problemi di previsione distribuzionale: poiché apprende da coppie di distribuzioni arbitrarie, può sfruttare distribuzioni osservate in una sola condizione per migliorare la previsione del trasporto. DCT è agnostico rispetto al meccanismo di trasporto sottostante, supportando modelli che spaziano dal flow matching a modelli basati su divergenze distributive (ad es. Wasserstein, MMD). Dimostriamo i vantaggi prestazionali pratici di DCT su benchmark sintetici e quattro applicazioni in biologia: trasferimento degli effetti di batch nella genomica a cellula singola, previsione di perturbazioni da dati di citometria di massa, apprendimento delle dinamiche trascrizionali clonali nell'ematopoiesi e modellazione dell'evoluzione delle sequenze del recettore dei linfociti T.
L'addestramento di grandi modelli linguistici per ragionare con i motori di ricerca tramite apprendimento per rinforzo è ostacolato da un problema fondamentale di assegnazione del credito: metodi esistenti come Search-R1 forniscono solo una ricompensa finale sparsa dopo un'intera traiettoria multi-step, rendendo impossibile attribuire il successo o il fallimento a singole decisioni di ragionamento e recupero. Metodi a ricompensa di processo come StepSearch mitigano questo problema introducendo una supervisione a livello di step, ma si basano su ricompense euristiche come la sovrapposizione TF-IDF con documenti gold standard, e campionano comunque k traiettorie complete per esempio, mantenendo un'elevata varianza del gradiente. Proponiamo SLATE, un framework basato su due idee complementari: (1) campionamento troncato a livello di step, che genera k traiettorie che condividono un prefisso comune e differiscono solo allo step successivo, e (2) ricompense dense "LLM-as-judge", che sostituiscono la valutazione euristica con un valutatore LLM capace che valuta la qualità di ogni step di ragionamento, query di ricerca e risposta, fornendo una supervisione più ricca e affidabile. Dimostriamo teoricamente che, sotto la stessa struttura di ricompensa densa, il campionamento troncato riduce la varianza delle stime del vantaggio fino a un fattore T rispetto al campionamento dell'intera traiettoria per traiettorie di T step, producendo gradienti di politica con varianza inferiore e meglio mirati. Esperimenti su sette benchmark di QA confermano che SLATE supera costantemente sia i baseline a ricompensa sparsa che quelli a ricompensa di processo, con i maggiori miglioramenti su task multi-hop più difficili e su modelli più piccoli.
La re-identificazione (ReID) multimodale di oggetti mira a sfruttare le informazioni complementari provenienti da diverse modalità per recuperare oggetti specifici. Tuttavia, i metodi esistenti si basano spesso su filtraggi rigidi dei token o su semplici strategie di fusione, che possono portare alla perdita di indizi discriminativi e a un aumento dell'interferenza di fondo. Per affrontare queste sfide, proponiamo STMI, un nuovo framework di apprendimento multimodale costituito da tre componenti chiave: (1) il modulo di Modulazione delle Caratteristiche Guidata dalla Segmentazione (SFM) sfrutta le maschere generate da SAM per potenziare le rappresentazioni in primo piano e sopprimere il rumore di fondo attraverso una modulazione dell'attenzione apprendibile; (2) il modulo di Riallocazione Semantica dei Token (STR) utilizza token query apprendibili e un meccanismo di riallocazione adattiva per estrarre rappresentazioni compatte e informative senza scartare alcun token; (3) il modulo di Interazione Ipergrafo Cross-Modale (CHI) costruisce un ipergrafo unificato tra le modalità per catturare relazioni semantiche di ordine superiore. Esperimenti estesi su benchmark pubblici (ovvero RGBNT201, RGBNT100 e MSVR310) dimostrano l'efficacia e la robustezza del nostro framework STMI proposto negli scenari di ReID multimodale.
I robot che operano in ambienti condivisi con gli esseri umani non devono solo navigare, interagire e rilevare l'ambiente circostante, ma anche interpretare e rispondere a comportamenti umani dinamici e spesso imprevedibili. Sebbene i recenti progressi abbiano mostrato potenzialità nel migliorare la percezione robotica e l'adesione alle istruzioni utilizzando Modelli Visione-Linguaggio (VLM), questi rimangono limitati nell'affrontare le complessità delle interazioni uomo-robot (HRI) multimodali. Motivati da questa sfida, introduciamo un modulo di feedback linguaggio-visione leggero che chiude il ciclo tra un LLM e l'encoder visivo nei VLM. Il modulo proietta gli stati nascosti dei token immagine attraverso un Perceptron Multistrato (MLP) controllato da gate nuovamente nell'input dell'encoder, sollecitando un secondo passaggio che reinterpreta la scena nel contesto testuale. Valutiamo questo approccio su tre compiti incentrati sulla robotica: navigazione in un ambiente simulato (Habitat), descrizione sequenziale della scena (Mementos-Robotics) e riconoscimento delle intenzioni umane (nostro dataset HRI). I risultati mostrano che il nostro metodo migliora Qwen 2.5 (7B) del 3.3% (distanza minore), +0.057 nel punteggio di descrizione e +2.93% in accuratezza, con meno del 3% di parametri aggiuntivi; Gemma 3 (4B) e LLaVA OV 1.5 (4B) mostrano risultati di navigazione contrastanti ma guadagni di +0.111, +0.055 e +10.81%, +4.79% negli ultimi due compiti. Il codice è disponibile all'indirizzo https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.