Articoli di ricerca IA selezionati quotidianamente con traduzioni
La diversità dei dati di post-addestramento è fondamentale per prestazioni efficaci nelle attività downstream nei grandi modelli linguistici (LLM). Molti approcci esistenti per la costruzione di tali dati quantificano la diversità utilizzando metriche basate sul testo che catturano la variazione linguistica, ma tali metriche forniscono solo segnali deboli per le caratteristiche rilevanti per il compito che determinano le prestazioni downstream. In questo lavoro, introduciamo la Copertura dell'Attivazione delle Caratteristiche (FAC), che misura la diversità dei dati in uno spazio delle caratteristiche interpretabile. Basandoci su questa metrica, proponiamo ulteriormente un framework di sintesi dei dati guidato dalla diversità, denominato FAC Synthesis, che utilizza prima un autoencoder sparso per identificare le caratteristiche mancanti da un dataset di partenza (seed), e poi genera campioni sintetici che riflettono esplicitamente queste caratteristiche. Gli esperimenti mostrano che il nostro approccio migliora costantemente sia la diversità dei dati che le prestazioni downstream su varie attività, tra cui il follow-up di istruzioni, il rilevamento di tossicità, la modellazione di reward e lo steering del comportamento. Interessante notare, identifichiamo uno spazio delle caratteristiche interpretabile condiviso tra diverse famiglie di modelli (ad esempio, LLaMA, Mistral e Qwen), consentendo il trasferimento di conoscenze cross-model. Il nostro lavoro fornisce una metodologia solida e pratica per esplorare l'ottimizzazione dei LLM incentrata sui dati.
Il recupero di query vocali è una modalità di interazione importante nell'ambito della moderna information retrieval. Tuttavia, i dataset di valutazione esistenti sono spesso limitati a query semplici in condizioni di rumore controllate, rendendoli inadeguati per valutare la robustezza dei sistemi di recupero di query vocali sotto perturbazioni acustiche complesse. Per affrontare questa limitazione, presentiamo SQuTR, un benchmark di robustezza per il recupero di query vocali che include un dataset su larga scala e un protocollo di valutazione unificato. SQuTR aggrega 37.317 query uniche provenienti da sei dataset di recupero testuale comunemente utilizzati in inglese e cinese, coprendo molteplici domini e diversi tipi di query. Sintetizziamo il parlato utilizzando profili vocali di 200 parlanti reali e mescoliamo 17 categorie di rumore ambientale reale sotto livelli SNR controllati, consentendo una valutazione riproducibile della robustezza da condizioni silenziose a condizioni altamente rumorose. Sotto il protocollo unificato, conduciamo valutazioni su larga scala su sistemi di recupero rappresentativi, sia a cascata che end-to-end. I risultati sperimentali mostrano che le prestazioni di recupero diminuiscono all'aumentare del rumore, con cali sostanzialmente diversi tra i sistemi. Anche i modelli di recupero su larga scala faticano in condizioni di rumore estremo, indicando che la robustezza rimane un collo di bottiglia critico. Nel complesso, SQuTR fornisce un ambiente di test riproducibile per benchmarking e analisi diagnostica, e facilita la ricerca futura sulla robustezza nel recupero testuale da query vocali.
Presentiamo MedXIAOHE, un modello fondazionale medico visione-linguaggio progettato per far progredire la comprensione e il ragionamento medico generico nelle applicazioni cliniche del mondo reale. MedXIAOHE raggiunge prestazioni all'avanguardia su diversi benchmark medici e supera i principali sistemi multimodali proprietari in molteplici capacità. Per ottenere questo risultato, proponiamo una struttura di pre-addestramento continuo consapevole delle entità che organizza corpora eterogenei per ampliare la copertura conoscitiva e ridurre i gap di coda lunga (ad esempio, malattie rare). Per un ragionamento e un'interazione di livello esperto medico, MedXIAOHE incorpora diversi modelli di ragionamento medico tramite apprendimento per rinforzo e addestramento agentistico potenziato da strumenti, abilitando un ragionamento diagnostico multi-step con tracce decisionali verificabili. Per migliorare l'affidabilità nell'uso reale, MedXIAOHE integra rubriche basate sulle preferenze dell'utente, ragionamento fondato su evidenze e generazione di report lunghi a bassa allucinazione, con un migliorato rispetto delle istruzioni mediche. Rilasciamo questo rapporto per documentare le nostre scelte progettuali pratiche, le intuizioni sul scaling e il quadro di valutazione, con la speranza di ispirare ulteriori ricerche.
I Modelli Linguistici Multimodali di Grande Scala (MLLM) eccellono in una comprensione visiva ampia, ma faticano ancora con la percezione fine, dove l'evidenza decisiva è piccola e facilmente sopraffatta dal contesto globale. I recenti metodi "Pensare-con-le-Immagini" alleviano questo problema zoomando iterativamente sulle regioni di interesse durante l'inferenza, ma comportano un'alta latenza a causa di ripetute chiamate a strumenti e ricodifiche visive. Per affrontare ciò, proponiamo la Distillazione da Regione a Immagine, che trasforma lo zoom da uno strumento di inferenza a un primitivo di addestramento, internalizzando così i benefici dello zoom agentico in un unico passaggio in avanti di un MLLM. In particolare, prima zoomiamo su regioni micro-ritagliate per permettere a modelli insegnanti forti di generare dati VQA di alta qualità, e poi distilliamo questa supervisione basata sulle regioni nuovamente nell'immagine completa. Dopo l'addestramento su tali dati, il modello studente più piccolo migliora la percezione fine "a colpo d'occhio" senza l'uso di strumenti. Per valutare rigorosamente questa capacità, presentiamo inoltre ZoomBench, un benchmark annotato in modo ibrido composto da 845 dati VQA che coprono sei dimensioni percettive fini, insieme a un protocollo a doppia vista che quantifica il "divario di zoom" globale-regionale. Gli esperimenti mostrano che i nostri modelli raggiungono prestazioni leader su molteplici benchmark di percezione fine e migliorano anche la cognizione multimodale generale su benchmark come il ragionamento visivo e gli agenti GUI. Discutiamo inoltre quando il "Pensare-con-le-Immagini" è necessario rispetto a quando i suoi vantaggi possono essere distillati in un unico passaggio in avanti. Il nostro codice è disponibile all'indirizzo https://github.com/inclusionAI/Zooming-without-Zooming.
La comprensione universale dei video richiede la modellizzazione di informazioni visive e uditive granulari nel tempo in scenari reali diversificati. Tuttavia, le prestazioni dei modelli esistenti sono principalmente limitate da dati di istruzione video che rappresentano contenuti audiovisivi complessi come descrizioni singole e incomplete, prive di organizzazione granulare e annotazioni affidabili. Per affrontare questo problema, introduciamo: (i) ASID-1M, una collezione open-source di un milione di annotazioni di istruzioni audiovisive strutturate e granulari con supervisione a attributi singoli e multipli; (ii) ASID-Verify, una pipeline scalabile di curatela dei dati per l'annotazione, con verifica e raffinamento automatici che impongono coerenza semantica e temporale tra le descrizioni e il corrispondente contenuto audiovisivo; e (iii) ASID-Captioner, un modello di comprensione video addestrato tramite Fine-Tuning Supervisionato (SFT) su ASID-1M. Esperimenti su sette benchmark che coprono captioning audiovisivo, captioning per attributi, domande e risposte basate su captioning e grounding temporale basato su captioning mostrano che ASID-Captioner migliora la qualità delle descrizioni granulari, riducendo al contempo le allucinazioni e migliorando l'aderenza alle istruzioni. Il modello raggiunge prestazioni all'avanguardia tra i modelli open-source ed è competitivo con Gemini-3-Pro.
Ipotesi. L'intelligenza artificiale generale è, nella sua essenza, un problema di compressione. Una compressione efficace richiede risonanza: l'apprendimento profondo scala meglio quando la sua architettura è allineata con la struttura fondamentale dei dati. Questi sono i principi fondamentali. Tuttavia, le moderne architetture per la visione si sono allontanate da queste verità: i segnali visivi sono altamente ridondanti, mentre l'informazione discriminativa, la "sorpresa", è sparsa. I modelli attuali processano uniformemente griglie dense di pixel, sprecando enormi risorse computazionali su sfondi statici invece di concentrarsi sui residui predittivi che definiscono il movimento e il significato. Sosteniamo che per risolvere la comprensione visiva, dobbiamo allineare le nostre architetture con i principi dell'informazione teorica del video, ovvero i Codec. Metodo. OneVision-Encoder codifica i video comprimendo la struttura visiva predittiva in significato semantico. Adottando la Codec Patchification, OV-Encoder abbandona il calcolo uniforme per concentrarsi esclusivamente sul 3,1%-25% delle regioni ricche di entropia del segnale. Per unificare il ragionamento spaziale e temporale sotto layout di token irregolari, OneVision-Encoder impiega un 3D RoPE condiviso ed è addestrato con un obiettivo su larga scala di discriminazione per cluster su oltre un milione di concetti semantici, catturando congiuntamente la permanenza degli oggetti e la dinamica del movimento. Evidenze. I risultati convalidano la nostra ipotesi centrale: efficienza e accuratezza non sono un compromesso; sono positivamente correlate. Quando integrato in un LLM, supera costantemente backbone visivi robusti come Qwen3-ViT e SigLIP2 in 16 benchmark di comprensione di immagini, video e documenti, nonostante utilizzi un numero sostanzialmente inferiore di token visivi e dati di pre-addestramento. Notevolmente, nelle attività di comprensione video, OV-Encoder raggiunge un miglioramento medio del 4,1% rispetto a Qwen3-ViT. La sparsità a livello di patch, allineata ai codec, è un principio fondamentale, che abilita OV-Encoder come motore scalabile per i generalisti visivi di prossima generazione.
I modelli linguistici video (VideoLMs) consentono ai sistemi di intelligenza artificiale di comprendere le dinamiche temporali nei video. Per adattarsi al vincolo della dimensione massima del contesto, i metodi attuali utilizzano il campionamento dei fotogrammi chiave, che può tralasciare sia eventi a livello macro che dettagli a livello micro a causa della copertura temporale sparsa. Inoltre, l'elaborazione delle immagini complete e dei relativi token per ogni fotogramma comporta un sovraccarico computazionale sostanziale. Per affrontare queste limitazioni, proponiamo di sfruttare le primitive dei codec video (nello specifico i vettori di movimento e i residui), che codificano nativamente la ridondanza e la sparsità video senza richiedere una costosa codifica dell'immagine completa per la maggior parte dei fotogrammi. A tal fine, introduciamo encoder basati su transformer leggeri che aggregano le primitive del codec e allineano le loro rappresentazioni con gli embedding degli encoder di immagini attraverso una strategia di pre-addestramento che accelera la convergenza durante la messa a punto end-to-end. Il nostro approccio riduce il tempo per il primo token fino all'86% e l'utilizzo dei token fino al 93% rispetto ai VideoLM standard. Inoltre, variando le densità dei fotogrammi chiave e delle primitive del codec, siamo in grado di mantenere o superare le prestazioni su 14 benchmark diversificati per la comprensione video, che spaziano dal question answering generale, al ragionamento temporale, alla comprensione di contenuti lunghi e alla comprensione spaziale della scena.
Il recupero di video basato sul movimento semantico è un problema fondamentale ma ancora irrisolto. Gli approcci esistenti di rappresentazione video si affidano eccessivamente all'aspetto statico e al contesto della scena piuttosto che alla dinamica del movimento, un bias ereditato dai loro dati e obiettivi di addestramento. Al contrario, gli input tradizionali incentrati sul movimento come il flusso ottico mancano del grounding semantico necessario per comprendere il movimento a livello alto. Per dimostrare questo bias intrinseco, introduciamo i benchmark SimMotion, che combinano dati sintetici controllati con un nuovo dataset del mondo reale annotato manualmente. Mostriamo che i modelli esistenti ottengono scarse prestazioni su questi benchmark, spesso fallendo nel separare il movimento dall'aspetto. Per colmare questa lacuna, proponiamo SemanticMoments, un metodo semplice e senza addestramento che calcola statistiche temporali (in particolare, momenti di ordine superiore) su feature provenienti da modelli semantici pre-addestrati. Attraverso i nostri benchmark, SemanticMoments supera costantemente i metodi esistenti basati su RGB, flusso ottico e supervisione testuale. Ciò dimostra che le statistiche temporali in uno spazio semantico delle feature forniscono una base scalabile e perceptualmente fondata per la comprensione video centrata sul movimento.
Questo articolo presenta GeoAgent, un modello in grado di ragionare in modo simile agli esseri umani e derivare conclusioni sugli indirizzi a grana fine. I metodi precedenti basati su RL hanno ottenuto progressi significativi in termini di prestazioni e interpretabilità, ma permangono preoccupazioni a causa della loro dipendenza da dati a catena del pensiero (CoT) generati dall'IA e da strategie di addestramento in conflitto con le caratteristiche geografiche. Per affrontare questi problemi, introduciamo innanzitutto GeoSeek, un nuovo dataset di geolocalizzazione comprendente dati CoT annotati da esperti geografici e giocatori professionisti. Esploriamo inoltre approfonditamente le caratteristiche intrinseche dei compiti geografici e proponiamo una ricompensa per la similarità geografica e una ricompensa per la coerenza valutata da un agente di consistenza per supportare l'addestramento. Ciò incoraggia il modello a convergere verso risposte corrette da una prospettiva geografica, garantendo al contempo l'integrità e la coerenza del suo processo logico. I risultati sperimentali dimostrano che GeoAgent supera i metodi esistenti e una serie di VLLM generici su multiple granularità, generando al contempo ragionamenti strettamente allineati con il pensiero umano.
L'apprendimento per rinforzo (RL) con ricompense verificabili è diventato una fase standard di post-addestramento per potenziare il ragionamento visivo nei modelli visione-linguaggio, ma rimane poco chiaro quali capacità il RL migliori effettivamente rispetto alla messa a punto supervisionata utilizzata come inizializzazione di partenza (IN). I guadagni complessivi sui benchmark confondono molteplici fattori, rendendo difficile attribuire i miglioramenti a competenze specifiche. Per colmare questa lacuna, proponiamo un framework di analisi in stile Frankenstein che include: (i) localizzazione funzionale tramite *causal probing*; (ii) caratterizzazione degli aggiornamenti tramite confronto dei parametri; e (iii) test di trasferibilità tramite fusione di modelli. I nostri risultati rivelano che, a differenza dell'IN che modifica principalmente le rappresentazioni visive iniziali, il RL induce una modifica coerente del processo inferenziale, concentrata principalmente negli strati intermedi e finali della rete. Questi affinamenti a medio-terminale sono sia trasferibili (tramite fusione) che necessari (tramite blocco dei parametri) per ottenere i vantaggi del RL. Nel complesso, i nostri risultati suggeriscono che il contributo affidabile del RL nel ragionamento visivo non è un potenziamento uniforme della percezione visiva, ma un affinamento sistematico del calcolo nei transformer di medio-terminale che migliora l'allineamento visione-ragionamento e le prestazioni di ragionamento, evidenziando i limiti della valutazione basata esclusivamente sui benchmark per comprendere i miglioramenti nel ragionamento multimodale.
Gli agenti AI sono in grado di affrontare compiti sempre più complessi. Per raggiungere obiettivi più ambiziosi, essi devono saper scomporre i problemi in sotto-componenti gestibili e delegarne in sicurezza il completamento ad altri agenti AI e a esseri umani. Tuttavia, i metodi esistenti di scomposizione e delega dei compiti si basano su euristiche semplici e non sono in grado di adattarsi dinamicamente ai cambiamenti ambientali né di gestire in modo robusto fallimenti imprevisti. Qui proponiamo un framework adattivo per la delega intelligente dell'AI - una sequenza decisionale che coinvolge l'allocazione dei compiti, incorporando anche il trasferimento di autorità, responsabilità, accountability, specifiche chiare su ruoli e confini, chiarezza d'intento e meccanismi per stabilire fiducia tra le due (o più) parti. Il framework proposto è applicabile sia a deleganti umani che AI e a delegatari in reti di delega complesse, con l'obiettivo di orientare lo sviluppo di protocolli per il nascente web agentivo.
La creazione di agenti incarnati a scopo generale su hardware diversificati rimane una sfida centrale nella robotica, spesso inquadrata come paradigma "un-cervello, molte-forme". Il progresso è ostacolato da dati frammentati, rappresentazioni inconsistenti e obiettivi di addestramento disallineati. Presentiamo ABot-M0, un framework che costruisce una pipeline sistematica di curatela dei dati mentre ottimizza congiuntamente l'architettura del modello e le strategie di addestramento, consentendo la trasformazione end-to-end di dati grezzi eterogenei in rappresentazioni unificate ed efficienti. A partire da sei dataset pubblici, ripuliamo, standardizziamo e bilanciamo i campioni per costruire UniACT-dataset, un dataset su larga scala con oltre 6 milioni di traiettorie e 9.500 ore di dati, che copre diverse morfologie robotiche e scenari di compito. Il pre-addestramento unificato migliora il trasferimento di conoscenze e la generalizzazione tra piattaforme e compiti, supportando un'intelligenza incarnata a scopo generale. Per migliorare l'efficienza e la stabilità della predizione delle azioni, proponiamo l'Ipotesi della Varietà delle Azioni: le azioni robotiche efficaci risiedono non nell'intero spazio ad alta dimensionalità, ma su una varietà a bassa dimensionalità e liscia, governata da leggi fisiche e vincoli del compito. Sulla base di ciò, introduciamo l'Apprendimento della Varietà delle Azioni (AML), che utilizza un backbone DiT per predire direttamente sequenze di azioni pulite e continue. Ciò sposta l'apprendimento dalla rimozione del rumore alla proiezione su varietà fattibili, migliorando la velocità di decodifica e la stabilità della politica. ABot-M0 supporta una percezione modulare tramite un meccanismo a doppio flusso che integra la semantica dei VLM con prior geometrici e input multi-view da moduli 3D plug-and-play come VGGT e Qwen-Image-Edit, potenziando la comprensione spaziale senza modificare il backbone e mitigando le limitazioni standard dei VLM nel ragionamento 3D. Gli esperimenti mostrano che i componenti operano in modo indipendente con benefici additivi. Rilasceremo tutto il codice e le pipeline per garantire la riproducibilità e favorire la ricerca futura.
La simulazione offre un metodo scalabile e a basso costo per arricchire l'addestramento visione-linguaggio-azione (VLA), riducendo la dipendenza da costose dimostrazioni con robot reali. Tuttavia, la maggior parte dei metodi di co-addestramento sim-reale si basa sulla messa a punto supervisionata (SFT), che tratta la simulazione come una fonte statica di dimostrazioni e non sfrutta l'interazione a ciclo chiuso su larga scala. Di conseguenza, i miglioramenti nel mondo reale e la generalizzazione sono spesso limitati. In questo articolo, proponiamo un framework di \textit{Co}-addestramento sim-reale basato su \textit{RL} (RL-Co) che sfrutta la simulazione interattiva preservando al contempo le capacità nel mondo reale. Il nostro metodo segue una progettazione generica in due fasi: innanzitutto avviamo la politica con SFT su un mix di dimostrazioni reali e simulate, per poi metterla a punto con l'apprendimento per rinforzo in simulazione, aggiungendo una perdita supervisionata ausiliaria sui dati del mondo reale per ancorare la politica e mitigare l'oblio catastrofico. Valutiamo il nostro framework su quattro compiti di manipolazione su tavolo nel mondo reale utilizzando due architetture VLA rappresentative, OpenVLA e π_{0.5}, e osserviamo miglioramenti consistenti rispetto alla messa a punto esclusivamente su dati reali e al co-addestramento basato su SFT, inclusi un +24% di successo nel mondo reale per OpenVLA e un +20% per π_{0.5}. Oltre a tassi di successo più elevati, il co-addestramento con RL produce una generalizzazione più robusta a variazioni non viste del compito e un'efficienza dei dati del mondo reale notevolmente migliorata, fornendo un percorso pratico e scalabile per sfruttare la simulazione per potenziare l'implementazione di robot reali.
L'inferenza dei grandi modelli linguistici (LLM) è spesso limitata dall'ingombro di memoria e dalla larghezza di banda della memoria negli ambienti con risorse limitate, rendendo la quantizzazione una tecnica fondamentale per un servizio efficiente. Sebbene la quantizzazione post-addestramento (PTQ) mantenga un'alta fedeltà a 4 bit, essa si deteriora a 2-3 bit. Fondamentalmente, i metodi esistenti impongono una griglia di quantizzazione invariante alla forma (ad esempio, gli intervalli uniformi fissi di UINT2) per ogni gruppo, limitando severamente l'insieme ammissibile per la minimizzazione dell'errore. Per affrontare questo problema, proponiamo la Quantizzazione per Decomposizione in Piani di Bit (BPDQ), che costruisce una griglia di quantizzazione variabile mediante piani di bit e coefficienti scalari, e li raffina iterativamente utilizzando informazioni approssimate del secondo ordine mentre compensa progressivamente gli errori di quantizzazione per minimizzare la discrepanza in uscita. Nel regime a 2 bit, BPDQ consente di servire Qwen2.5-72B su una singola RTX 3090 con un'accuratezza GSM8K dell'83,85% (contro il 90,83% a 16 bit). Inoltre, forniamo un'analisi teorica che mostra come la griglia variabile espanda l'insieme ammissibile e come il processo di quantizzazione sia costantemente allineato con l'obiettivo di ottimizzazione nella geometria indotta dall'Hessiano. Codice: github.com/KingdalfGoodman/BPDQ.
In questo rapporto presentiamo Xiaomi-Robotics-0, un modello avanzato visione-linguaggio-azione (VLA) ottimizzato per alte prestazioni ed esecuzione real-time rapida e fluida. La chiave del nostro metodo risiede in una strategia di addestramento e distribuzione accuratamente progettata. Xiaomi-Robotics-0 viene inizialmente pre-addestrato su traiettorie robotiche cross-embodiment e dati visione-linguaggio su larga scala, dotandolo di capacità di generazione di azioni ampie e generalizzabili, evitando al contempo la dimenticanza catastrofica della conoscenza visivo-semantica del VLM pre-addestrato sottostante. Durante il post-addestramento, proponiamo diverse tecniche per addestrare il modello VLA all'esecuzione asincrona, al fine di affrontare la latenza di inferenza durante le esecuzioni su robot reali. In fase di distribuzione, allineiamo attentamente i time-step di blocchi di azioni predetti consecutivi per garantire esecuzioni real-time continue e senza interruzioni. Valutiamo Xiaomi-Robotics-0 in modo estensivo su benchmark di simulazione e su due impegnativi compiti con robot reali che richiedono una manipolazione bimanuale precisa e destrosa. I risultati dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia in tutti i benchmark di simulazione. Inoltre, Xiaomi-Robotics-0 può essere eseguito in modo rapido e fluido su robot reali utilizzando una GPU di classe consumer, ottenendo alti tassi di successo e throughput in entrambi i compiti reali. Per favorire la ricerca futura, codice e checkpoint del modello sono open-source all'indirizzo https://xiaomi-robotics-0.github.io.
I modelli linguistici diffusivi di grandi dimensioni (dLLM) sono emersi come un'alternativa convincente ai modelli linguistici autoregressivi (AR), grazie alla loro capacità di generare token in parallelo. Questo paradigma è particolarmente adatto per la generazione di codice, dove la pianificazione strutturale olistica e l'affinamento non sequenziale sono fondamentali. Nonostante questo potenziale, l'adattamento dei dLLM per la generazione di kernel CUDA rimane impegnativo, ostacolato non solo dall'alta specializzazione richiesta ma anche dalla grave carenza di dati di addestramento di alta qualità. Per affrontare queste sfide, abbiamo costruito CuKe, un dataset potenziato per il fine-tuning supervisionato, ottimizzato per kernel CUDA ad alte prestazioni. Su di esso, proponiamo un framework di apprendimento per rinforzo a due fasi con selezione curata (BiC-RL), costituito da una fase di riempimento di kernel CUDA e da una fase di generazione end-to-end di kernel CUDA. Sfruttando questo framework di addestramento, introduciamo DICE, una serie di modelli linguistici diffusivi progettati per la generazione di kernel CUDA, che coprono tre scale parametriche: 1,7B, 4B e 8B. Esperimenti estensivi su KernelBench dimostrano che DICE supera significativamente sia i modelli linguistici autoregressivi che quelli diffusivi di scala comparabile, stabilendo un nuovo stato dell'arte per la generazione di kernel CUDA.
Il ragionamento scientifico richiede intrinsecamente l'integrazione di toolkit sofisticati per navigare le conoscenze specifiche di dominio. Tuttavia, gli attuali benchmark trascurano in larga misura la capacità degli agenti di orchestrare strumenti per flussi di lavoro così rigorosi. Per colmare questa lacuna, introduciamo SciAgentGym, un ambiente interattivo e scalabile che offre 1.780 strumenti specifici di dominio in quattro discipline delle scienze naturali, supportato da una solida infrastruttura di esecuzione. A complemento, presentiamo SciAgentBench, una suite di valutazione a livelli progettata per testare a fondo le capacità agentiche, dalle azioni elementari ai flussi di lavoro a lungo termine. La nostra valutazione identifica un collo di bottiglia critico: i modelli all'avanguardia faticano nell'utilizzo complesso di strumenti scientifici. Anche per un modello leader come GPT-5, i tassi di successo crollano dal 60,6% al 30,9% con l'estendersi degli orizzonti interattivi, principalmente a causa di fallimenti nell'esecuzione di flussi di lavoro multi-step. Per affrontare questo problema, proponiamo SciForge, un metodo di sintesi dei dati che modella lo spazio delle azioni strumentali come un grafo delle dipendenze per generare traiettorie di training logicamente consapevoli. Addestrando tramite fine-tuning su queste traiettorie, il nostro SciAgent-8B supera il significativamente più grande Qwen3-VL-235B-Instruct, dimostrando al contempo un positivo trasferimento cross-dominio delle capacità di utilizzo di strumenti scientifici. Questi risultati sottolineano il potenziale promettente della prossima generazione di agenti scientifici autonomi.
Proponiamo UniDFlow, un framework unificato di flusso discreto per la comprensione, generazione e modifica multimodale. Esso dissocia comprensione e generazione mediante adattatori a basso rango specifici per compito, evitando interferenze negli obiettivi ed entanglement delle rappresentazioni, mentre un innovativo allineamento delle preferenze multimodali basato su riferimento ottimizza gli esiti relativi sotto condizionamento identico, migliorando fedeltà e controllabilità senza necessità di riaddestramento su larga scala. UniDFlow raggiunge prestazioni all'avanguardia su otto benchmark e dimostra una solida generalizzazione zero-shot a compiti includenti inpaiting, generazione di immagini in contesto, modifica basata su riferimento e generazione composizionale, nonostante l'assenza di addestramento esplicito specifico per tali compiti.
I Large Language Model (LLM) rappresentano una frontiera promettente per i sistemi di raccomandazione, nonostante il loro sviluppo sia stato ostacolato dall'assenza di leggi di scaling prevedibili, cruciali per guidare la ricerca e ottimizzare l'allocazione delle risorse. Ipotesizziamo che ciò possa essere attribuito all'intrinseco rumore, bias e incompletezza dei dati grezzi di interazione utente negli sforzi precedenti di pre-training continuo (CPT). Questo articolo introduce un nuovo framework a livelli per generare dati sintetici di alta qualità che evita tali problemi creando un curriculum pedagogico curato per l'LLM. Forniamo prove potenti e dirette dell'utilità del nostro curriculum dimostrando che modelli sequenziali standard addestrati sui nostri dati sintetici principiati superano significativamente (+130% su recall@100 per SasRec) i modelli addestrati su dati reali in compiti di ranking a valle, dimostrandone la superiorità nell'apprendimento di pattern di preferenza utente generalizzabili. Basandoci su questo, dimostriamo empiricamente, per la prima volta, uno scaling di legge di potenza robusto per un LLM sottoposto a pre-training continuo sui nostri dati di alta qualità specifici per la raccomandazione. I nostri esperimenti rivelano una riduzione della perplexity consistente e prevedibile attraverso multiple modalità di dati sintetici. Questi risultati stabiliscono una metodologia fondante per scalare in modo affidabile le capacità degli LLM nel dominio della raccomandazione, spostando così il focus della ricerca dal mitigare le carenze dei dati al valorizzare informazioni strutturate di alta qualità.
I metodi tradizionali per automatizzare la progettazione di sistemi di raccomandazione, come la Ricerca di Architetture Neurali (NAS), sono spesso limitati da uno spazio di ricerca fisso definito da conoscenze a priori umane, confinando l'innovazione a operatori predefiniti. Sebbene i recenti framework di evoluzione del codice guidati da LLM spostino l'obiettivo dallo spazio di ricerca fisso a spazi di programma aperti, essi si basano principalmente su metriche scalari (ad es., NDCG, Hit Ratio) che non forniscono insight qualitativi sui fallimenti del modello né una guida direzionale per il miglioramento. Per affrontare questo problema, proponiamo Self-EvolveRec, un framework innovativo che stabilisce un ciclo di feedback direzionale integrando un Simulatore di Utente per critiche qualitative e uno Strumento di Diagnosi del Modello per la verifica interna quantitativa. Inoltre, introduciamo una strategia di Co-Evoluzione Modello - Strumento di Diagnosi per garantire che i criteri di valutazione si adattino dinamicamente man mano che l'architettura di raccomandazione evolve. Esperimenti estensivi dimostrano che Self-EvolveRec supera significativamente i baseline all'avanguardia di NAS e di evoluzione del codice guidata da LLM sia nelle prestazioni di raccomandazione che nella soddisfazione dell'utente. Il nostro codice è disponibile all'indirizzo https://github.com/Sein-Kim/self_evolverec.
Il raggiungimento di un'intelligenza spaziale richiede di andare oltre la plausibilità visiva per costruire simulatori del mondo basati su leggi fisiche. Sebbene i grandi modelli linguistici di codifica abbiano fatto progredire la generazione statica di scene 3D, estendere questo paradigma alla dinamica 4D rimane una frontiera critica. Questo compito presenta due sfide fondamentali: l'intreccio contestuale multi-scala, in cui una generazione monolitica non riesce a bilanciare le strutture degli oggetti locali con i layout ambientali globali; e un divario esecutivo semantico-fisico, in cui la generazione di codice ad anello aperto porta a allucinazioni fisiche prive di fedeltà dinamica. Introduciamo Code2Worlds, un framework che formula la generazione 4D come generazione di codice linguaggio-simulazione. In primo luogo, proponiamo un'architettura a doppio flusso che separa la generazione di oggetti potenziata dal retrieval dall'orchestrazione ambientale gerarchica. In secondo luogo, per garantire la fedeltà dinamica, stabiliamo un meccanismo ad anello chiuso consapevole della fisica in cui un Agente di Post-Elaborazione scrive le dinamiche, accoppiato con un Critico VLM-Movimento che esegue auto-riflessione per affinare iterativamente il codice di simulazione. Le valutazioni sul benchmark Code4D mostrano che Code2Worlds supera i baseline con un guadagno SGS del 41% e una Ricchezza superiore del 49%, generando in modo unico dinamiche fisicamente consapevoli assenti nei precedenti metodi statici. Codice: https://github.com/AIGeeksGroup/Code2Worlds. Sito web: https://aigeeksgroup.github.io/Code2Worlds.
Le politiche generative iterative, come i modelli di diffusione e il flow matching, offrono una superiore espressività per il controllo continuo ma complicano il Reinforcement Learning a Massima Entropia poiché le loro log-densità delle azioni non sono direttamente accessibili. Per affrontare questo problema, proponiamo Field Least-Energy Actor-Critic (FLAC), un framework senza verosimiglianza che regola la stocasticità della politica penalizzando l'energia cinetica del campo di velocità. La nostra intuizione chiave è formulare l'ottimizzazione della politica come un problema del Generalized Schrödinger Bridge (GSB) relativo a un processo di riferimento ad alta entropia (ad esempio, uniforme). In questa prospettiva, il principio di massima entropia emerge naturalmente come il rimanere vicini a un riferimento ad alta entropia mentre si ottimizza il ritorno, senza richiedere densità di azione esplicite. In questo framework, l'energia cinetica funge da proxy fisicamente fondato per la divergenza dal riferimento: minimizzare l'energia nello spazio dei cammini limita la deviazione della distribuzione di azione terminale indotta. Basandoci su questa visione, deriviamo uno schema di policy iteration regolarizzato dall'energia e un algoritmo pratico off-policy che sintonizza automaticamente l'energia cinetica attraverso un meccanismo duale Lagrangiano. Empiricamente, FLAC raggiunge prestazioni superiori o comparabili su benchmark ad alta dimensionalità rispetto a baseline solidi, evitando al contempo la stima esplicita della densità.
L'addestramento con rinforzo (RL) è diventato una tecnica chiave per potenziare i grandi modelli linguistici (LLM) su compiti ad alta intensità di ragionamento, motivandone l'estensione ai modelli linguistici visivi (VLM). Sebbene i VLM ottimizzati con RL migliorino nei benchmark di ragionamento visivo, rimangono vulnerabili a un ancoraggio visivo debole, allucinazioni e a un'eccessiva dipendenza dagli indizi testuali. Dimostriamo che semplici perturbazioni testuali controllate – didascalie fuorvianti o tracce di ragionamento a catena (CoT) errate – causano un calo sostanziale della robustezza e della confidenza del modello, e che questi effetti sono più pronunciati quando la coerenza del CoT viene presa in considerazione attraverso modelli di ragionamento multimodale open-source. Metriche basate sull'entropia mostrano inoltre che queste perturbazioni rimodellano l'incertezza del modello e la massa di probabilità sull'opzione corretta, esponendo tendenze specifiche di ciascun modello nella scorretta calibrazione. Per comprendere meglio queste vulnerabilità, analizziamo ulteriormente le dinamiche di fine-tuning RL e scopriamo un compromesso tra accuratezza e fedeltà (accuracy-faithfulness): il fine-tuning aumenta l'accuratezza sul benchmark, ma può simultaneamente erodere l'affidabilità del CoT associato e la sua robustezza a cambiamenti contestuali. Sebbene l'augmentation avversaria migliori la robustezza, di per sé non previene la deriva della fedeltà. Incorporare una ricompensa che consideri la fedeltà può ripristinare l'allineamento tra risposte e ragionamento, ma se abbinata all'augmentation, l'addestramento rischia di collassare su strategie di scorciatoia e la robustezza rimane elusiva. Nel complesso, questi risultati evidenziano i limiti delle valutazioni basate solo sull'accuratezza e motivano protocolli di addestramento e valutazione che enfatizzino congiuntamente la correttezza, la robustezza e la fedeltà del ragionamento ancorato al visivo.
I recenti progressi nei modelli generativi basati sulla diffusione hanno stabilito un nuovo paradigma per la riluminazione di immagini e video. Tuttavia, estendere queste capacità alla riluminazione 4D rimane impegnativo, principalmente a causa della scarsità di dati di addestramento 4D accoppiati per la riluminazione e della difficoltà nel mantenere la coerenza temporale attraverso cambiamenti estremi di punto di vista. In questo lavoro, proponiamo Light4D, un nuovo framework senza addestramento progettato per sintetizzare video 4D consistenti sotto un'illuminazione target, anche sotto cambiamenti estremi di visuale. In primo luogo, introduciamo la Disentangled Flow Guidance, una strategia consapevole del tempo che inietta efficacemente il controllo dell'illuminazione nello spazio latente preservando l'integrità geometrica. In secondo luogo, per rafforzare la coerenza temporale, sviluppiamo il Temporal Consistent Attention all'interno dell'architettura IC-Light e incorporiamo ulteriormente una regolarizzazione deterministica per eliminare lo sfarfallio dell'aspetto. Esperimenti estesi dimostrano che il nostro metodo raggiunge prestazioni competitive in termini di coerenza temporale e fedeltà dell'illuminazione, gestendo in modo robusto rotazioni della camera da -90 a 90 gradi. Codice: https://github.com/AIGeeksGroup/Light4D. Sito web: https://aigeeksgroup.github.io/Light4D.
I modelli di diffusione audio sono in grado di sintetizzare musica ad alta fedeltà a partire da testo, ma i loro meccanismi interni di rappresentazione di concetti di alto livello rimangono poco compresi. In questo lavoro, utilizziamo l'activation patching per dimostrare che distinti concetti musicali semantici, come la presenza di strumenti specifici, parti vocali o caratteristiche di genere, sono controllati da un piccolo sottoinsieme condiviso di livelli di attenzione nelle architetture all'avanguardia di diffusione audio. Successivamente, dimostriamo che l'applicazione di Contrastive Activation Addition e Sparse Autoencoders in questi strati consente un controllo più preciso sull'audio generato, indicando un beneficio diretto del fenomeno di specializzazione. Modulando le attivazioni degli strati identificati, possiamo alterare con alta precisione elementi musicali specifici, come modulare il tempo o cambiare l'atmosfera di un brano.
L'identificazione dei commit che correggono vulnerabilità corrispondenti a CVE divulgati è essenziale per la manutenzione sicura del software, ma rimane complessa su larga scala, poiché i grandi repository contengono milioni di commit, di cui solo una piccola frazione affronta problemi di sicurezza. Gli approcci automatizzati esistenti, incluse le tecniche di machine learning tradizionali e i recenti metodi basati su Large Language Model (LLM), soffrono spesso di compromessi imprecisi tra precisione e recall. Valutati frequentemente su commit campionati casualmente, scopriamo che sottostimano sostanzialmente la difficoltà del mondo reale, dove i commit candidati sono già rilevanti per la sicurezza e altamente simili. Proponiamo Favia, un framework forense basato su agenti per l'identificazione delle correzioni di vulnerabilità, che combina un ranking scalabile dei candidati con un ragionamento semantico profondo e iterativo. Favia impiega inizialmente una fase efficiente di ranking per restringere lo spazio di ricerca dei commit. Ogni commit viene poi valutato rigorosamente utilizzando un agente LLM basato su ReAct. Fornendo all'agente un repository pre-commit come ambiente, insieme a strumenti specializzati, l'agente tenta di localizzare i componenti vulnerabili, naviga la codebase e stabilisce un allineamento causale tra le modifiche al codice e le cause profonde delle vulnerabilità. Questo processo guidato dalle evidenze consente l'identificazione robusta di correzioni indirette, multi-file e non banali che sfuggono ai metodi a passaggio singolo o basati sulla similarità. Valutiamo Favia su CVEVC, un dataset su larga scala che abbiamo creato, comprendente oltre 8 milioni di commit da 3.708 repository del mondo reale, e dimostriamo che supera costantemente i baseline all'avanguardia tradizionali e basati su LLM in condizioni realistiche di selezione dei candidati, raggiungendo i migliori compromessi precisione-recall e i punteggi F1 più alti.
Presentiamo scPilot, il primo framework sistematico per praticare il *reasoning* nativo per le omiche: un modello linguistico di grandi dimensioni (LLM) dialoga in linguaggio naturale ispezionando direttamente i dati di RNA-seq a cellula singola e strumenti di bioinformatica on-demand. scPilot converte le analisi fondamentali a cellula singola, ovvero l'annotazione del tipo cellulare, la ricostruzione delle traiettorie di sviluppo e il targeting dei fattori di trascrizione, in problemi di ragionamento passo-passo che il modello deve risolvere, giustificare e, quando necessario, rivedere sulla base di nuove evidenze. Per misurare i progressi, rilasciamo scBench, una suite di 9 dataset curati da esperti e sistemi di valutazione che testano fedelmente la capacità di reasoning nativo per le omiche di scPilot rispetto a vari LLM. Esperimenti con o1 mostrano che il reasoning nativo per le omiche iterativo aumenta la precisione media dell'11% per l'annotazione del tipo cellulare, mentre Gemini-2.5-Pro riduce la distanza di modifica del grafo delle traiettorie del 30% rispetto al prompting one-shot, generando al contempo tracce di ragionamento trasparenti che spiegano l'ambiguità dei geni marker e la logica regolatoria. Fondando gli LLM sui dati omici grezzi, scPilot abilita analisi a cellula singola verificabili, interpretabili e clinicamente informative. Codice, dati e pacchetto sono disponibili all'indirizzo https://github.com/maitrix-org/scPilot.
I metodi di steering influenzano il comportamento dei Large Language Model identificando direzioni semantiche nelle rappresentazioni nascoste, ma sono tipicamente realizzati attraverso interventi di attivazione durante l'inferenza che applicano una modifica fissa e globale agli stati interni del modello. Sebbene efficaci, tali interventi spesso inducono compromessi sfavorevoli tra attributo e utilità sotto controllo intenso, poiché ignorano il fatto che molti comportamenti sono governati da un sottoinsieme piccolo ed eterogeneo di componenti del modello. Proponiamo Steer2Edit, un framework teoricamente fondato e senza addestramento che trasforma i vettori di steering da segnali di controllo in fase di inferenza a segnali diagnostici per l'editing dei pesi di rango-1 a livello di componente. Invece di iniettare uniformemente una direzione di steering durante la generazione, Steer2Edit ridistribuisce selettivamente l'influenza comportamentale attraverso singole testine di attenzione e neuroni MLP, producendo modifiche interpretabili che preservano il passaggio in avanti standard e rimangono compatibili con l'inferenza parallela ottimizzata. Nell'allineamento alla sicurezza, mitigazione delle allucinazioni ed efficienza del ragionamento, Steer2Edit raggiunge costantemente compromessi più favorevoli tra attributo e utilità: a parità di prestazioni downstream, migliora la sicurezza fino al 17,2%, aumenta la veridicità del 9,8% e riduce la lunghezza del ragionamento in media del 12,2%. Complessivamente, Steer2Edit fornisce un ponte principiato tra lo steering delle rappresentazioni e l'editing dei pesi tradurre segnali di steering in aggiornamenti di parametri interpretabili e senza addestramento.
La quantizzazione post-addestramento (PTQ) è essenziale per distribuire i grandi modelli linguistici (LLM) su dispositivi con memoria limitata, ma rende i modelli statici e difficili da affinare. I paradigmi standard di fine-tuning, incluso l'apprendimento per rinforzo (RL), si basano fondamentalmente sulla retropropagazione e su pesi ad alta precisione per calcolare i gradienti. Pertanto, non possono essere utilizzati su modelli quantizzati, dove lo spazio dei parametri è discreto e non differenziabile. Sebbene le strategie evolutive (ES) offrano un'alternativa senza retropropagazione, l'ottimizzazione dei parametri quantizzati può comunque fallire a causa di gradienti che svaniscono o sono inaccurati. Questo articolo introduce le Strategie Evolutive Quantizzate (QES), un paradigma di ottimizzazione che esegue il fine-tuning completo dei parametri direttamente nello spazio quantizzato. QES si basa su due innovazioni: (1) integra un feedback d'errore accumulato per preservare segnali di gradiente ad alta precisione, e (2) utilizza una ripetizione stateless del seed per ridurre l'utilizzo della memoria a livelli di inferenza a bassa precisione. QES supera significativamente lo stato dell'arte dei metodi di fine-tuning di ordine zero nei compiti di ragionamento aritmetico, rendendo possibile il fine-tuning diretto per modelli quantizzati. Aprì quindi la possibilità di scalare completamente gli LLM nello spazio quantizzato. Il codice sorgente è disponibile all'indirizzo https://github.com/dibbla/Quantized-Evolution-Strategies.
La mappatura delle chiome degli alberi individuali è fondamentale per attività come il mantenimento di inventari arborei urbani e il monitoraggio della salute delle foreste, che ci aiutano a comprendere e preservare il nostro ambiente. Tuttavia, la separazione automatica delle chiome nelle immagini aeree è complessa a causa di fattori come la texture e le sovrapposizioni parziali tra le chiome. In questo studio, presentiamo un metodo per addestrare modelli di deep learning che segmentano e separano alberi individuali da immagini RGB e multispettrali, utilizzando pseudo-etichette derivate da dati di scansione laser aerotrasportata (ALS). Il nostro studio dimostra che le pseudo-etichette derivate da ALS possono essere migliorate utilizzando un modello di segmentazione di istanze zero-shot, Segment Anything Model 2 (SAM 2). Il nostro metodo offre un modo per ottenere annotazioni di addestramento specifiche per il dominio per modelli basati su immagini ottiche senza alcun costo di annotazione manuale, portando a modelli di segmentazione che superano qualsiasi modello disponibile progettato per un impiego generico sulla stessa attività.
I grandi modelli di base hanno dimostrato una forte generalizzazione in contesti aperti per problemi complessi nella visione e nel linguaggio, ma livelli simili di generalizzazione non sono ancora stati raggiunti nella robotica. Una sfida fondamentale è che questi modelli mostrano capacità limitate di zero-shot, il che ostacola la loro abilità di generalizzare efficacemente a scenari non visti. In questo lavoro, proponiamo GeneralVLA (Modelli Generalizzabili Visione-Linguaggio-Azione con Pianificazione di Traiettorie Guidata dalla Conoscenza), un modello gerarchico visione-linguaggio-azione (VLA) che può essere più efficace nell'utilizzare la generalizzazione dei modelli di base, abilitando la manipolazione zero-shot e generando automaticamente dati per la robotica. In particolare, studiamo una classe di modelli VLA gerarchici in cui il modulo di alto livello ASM (Modulo di Segmentazione delle Affordanze) viene messo a punto per percepire le affordanze dei punti chiave dell'immagine della scena; l'agente di medio livello 3DAgent svolte la comprensione del compito, la conoscenza delle abilità e la pianificazione della traiettoria per produrre un percorso 3D che indica la traiettoria desiderata dell'end-effector del robot. La previsione intermedia del percorso 3D viene poi utilizzata come guida per la politica di controllo di basso livello, consapevole della 3D, capace di manipolazione precisa. Rispetto ad approcci alternativi, il nostro metodo non richiede la raccolta di dati robotici nel mondo reale o dimostrazioni umane, rendendolo molto più scalabile per compiti e punti di vista diversi. Empiricamente, GeneralVLA genera con successo traiettorie per 14 compiti, superando significativamente metodi all'avanguardia come VoxPoser. Le dimostrazioni generate possono addestrare politiche di clonazione del comportamento più robuste rispetto all'addestramento con dimostrazioni umane o con dati generati da VoxPoser, Scaling-up e Code-As-Policies. Crediamo che GeneralVLA possa essere il metodo scalabile sia per generare dati per la robotica che per risolvere nuovi compiti in uno scenario zero-shot. Codice: https://github.com/AIGeeksGroup/GeneralVLA. Sito web: https://aigeeksgroup.github.io/GeneralVLA.
L'identificazione linguistica (LID) è un passaggio essenziale nella creazione di dataset multilingue di alta qualità a partire da dati web. Gli strumenti di LID esistenti (come OpenLID o GlotLID) spesso incontrano difficoltà nell'identificare lingue strettamente imparentate e nel distinguere un linguaggio naturale valido dal rumore, il quale contamina i sottoinsiemi specifici per lingua, specialmente per le lingue a risorse limitate. In questo lavoro estendiamo il classificatore OpenLID aggiungendo più dati di addestramento, unendo cluster problematici di varianti linguistiche e introducendo un'etichetta speciale per contrassegnare il rumore. Chiamiamo questo sistema esteso OpenLID-v3 e lo valutiamo rispetto a GlotLID su molteplici benchmark. Durante lo sviluppo, ci concentriamo su tre gruppi di lingue strettamente correlate (bosniaco, croato e serbo; varietà romanze dell'Italia settentrionale e della Francia meridionale; e lingue scandinave) e contribuiamo con nuovi dataset di valutazione laddove quelli esistenti sono inadeguati. Rileviamo che gli approcci ensemble migliorano la precisione ma riducono anche sostanzialmente la copertura per le lingue a risorse limitate. OpenLID-v3 è disponibile su https://huggingface.co/HPLT/OpenLID-v3.