Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nella generazione video hanno rivelato un fenomeno inaspettato: i modelli video basati sulla diffusione mostrano capacità di ragionamento non banali. I lavori precedenti attribuiscono questo fenomeno a un meccanismo a Catena di Fotogrammi (Chain-of-Frames, CoF), in cui si presume che il ragionamento si svolga sequenzialmente attraverso i fotogrammi video. In questo lavoro, contestiamo questa ipotesi e scopriamo un meccanismo fondamentalmente diverso. Dimostriamo che il ragionamento nei modelli video emerge invece principalmente lungo i passi di denoising della diffusione. Attraverso analisi qualitative ed esperimenti di probing mirati, scopriamo che i modelli esplorano multiple soluzioni candidate nei primi passi di denoising e convergono progressivamente verso una risposta finale, un processo che definiamo Catena di Passi (Chain-of-Steps, CoS). Oltre a questo meccanismo centrale, identifiamo diversi comportamenti di ragionamento emergenti critici per le prestazioni del modello: (1) memoria di lavoro, che consente un riferimento persistente; (2) autocorrezione e miglioramento, che permettono di recuperare da soluzioni intermedie errate; e (3) percezione prima dell'azione, dove i primi passi stabiliscono una base semantica e i passi successivi eseguono manipolazioni strutturate. Durante un passo di diffusione, scopriamo inoltre una specializzazione funzionale auto-evolutasi all'interno dei Diffusion Transformer, dove gli strati iniziali codificano la struttura percettiva densa, gli strati intermedi eseguono il ragionamento e gli strati finali consolidano le rappresentazioni latenti. Sulla base di queste intuizioni, presentiamo una semplice strategia senza necessità di addestramento come prova di concetto, dimostrando come il ragionamento possa essere migliorato ensembleando le traiettorie latenti di modelli identici con diversi semi casuali. Nel complesso, il nostro lavoro fornisce una comprensione sistematica di come emerge il ragionamento nei modelli di generazione video, offrendo una base per guidare la ricerca futura verso un migliore sfruttamento delle dinamiche di ragionamento intrinseche dei modelli video come nuovo substrato per l'intelligenza.
I recenti grandi modelli linguistici per il codice hanno ottenuto progressi notevoli nelle attività di programmazione generale. Tuttavia, le loro prestazioni si degradano significativamente negli scenari industriali che richiedono ragionamenti sulla semantica dell'hardware, costrutti linguistici specializzati e vincoli rigorosi delle risorse. Per affrontare queste sfide, introduciamo InCoder-32B (Industrial-Coder-32B), il primo modello base per il codice da 32 miliardi di parametri che unisce l'intelligenza del codice attraverso la progettazione di chip, l'ottimizzazione dei kernel GPU, i sistemi embedded, l'ottimizzazione dei compilatori e la modellazione 3D. Adottando un'architettura efficiente, addestriamo InCoder-32B da zero con pre-addestramento su codice generale, ricottura su codice industriale curato, mid-training che estende progressivamente il contesto da 8K a 128K token con dati sintetici di ragionamento industriale, e post-addestramento con verifica basata sull'esecuzione. Eseguiamo una valutazione estesa su 14 benchmark generali di codice mainstream e 9 benchmark industriali che coprono 4 domini specializzati. I risultati mostrano che InCoder-32B raggiunge prestazioni altamente competitive su compiti generali, stabilendo al contempo solidi benchmark open-source in tutti i domini industriali.
I modelli linguistici multimodali onnicomprensivi (OLM) ridefiniscono l'interazione uomo-macchina integrando nativamente audio, visione e testo. Tuttavia, i benchmark esistenti per gli OLM rimangono ancorati a compiti statici e centrati sull'accuratezza, lasciando un divario critico nella valutazione dell'interattività sociale, ovvero la capacità fondamentale di gestire gli stimoli dinamici nei dialoghi naturali. A tal fine, proponiamo SocialOmni, un benchmark completo che concretizza la valutazione di questa interattività conversazionale lungo tre dimensioni fondamentali: (i) separazione e identificazione del parlante (chi sta parlando), (ii) controllo del tempismo delle interruzioni (quando intervenire) e (iii) generazione di interruzioni naturali (come formulare l'interruzione). SocialOmni include 2.000 campioni percettivi e un set diagnostico di qualità controllata composto da 209 istanze di generazione di interazioni con vincoli temporali e contestuali stringenti, integrato da scenari di inconsistenza audiovisiva controllata per testare la robustezza dei modelli. Abbiamo valutato 12 OLM leader di mercato, rivelando una significativa variabilità nelle loro capacità di interazione sociale tra i diversi modelli. Inoltre, la nostra analisi evidenzia un marcato disaccoppiamento tra l'accuratezza percettiva di un modello e la sua capacità di generare interruzioni contestualmente appropriate, indicando che metriche basate esclusivamente sulla comprensione sono insufficienti per caratterizzare la competenza sociale conversazionale. Più incoraggiante è il fatto che queste diagnosi di SocialOmni forniscono segnali concreti per colmare il divario percezione-interazione nei futuri OLM.
Presentiamo MiroThinker-1.7, un nuovo agente di ricerca progettato per compiti complessi di ragionamento a lungo termine. Sviluppando questa base, introduciamo ulteriormente MiroThinker-H1, che estende le capacità dell'agente con funzionalità di ragionamento avanzato per una risoluzione dei problemi multi-step più affidabile. In particolare, MiroThinker-1.7 migliora l'affidabilità di ogni fase di interazione attraverso uno stadio di mid-training agentico che enfatizza la pianificazione strutturata, il ragionamento contestuale e l'interazione con strumenti. Ciò consente un'interazione multi-step più efficace e un ragionamento prolungato attraverso compiti complessi. MiroThinker-H1 incorpora ulteriormente la verifica direttamente nel processo di ragionamento sia a livello locale che globale. Le decisioni di ragionamento intermedie possono essere valutate e affinate durante l'inferenza, mentre la traiettoria complessiva del ragionamento viene verificata per garantire che le risposte finali siano supportate da catene coerenti di evidenze. Attraverso benchmark che coprono la ricerca sul web aperto, il ragionamento scientifico e l'analisi finanziaria, MiroThinker-H1 raggiunge prestazioni all'avanguardia in compiti di ricerca approfondita mantenendo risultati solidi in domini specializzati. Rilasciamo inoltre MiroThinker-1.7 e MiroThinker-1.7-mini come modelli open-source, fornendo capacità competitive di agente di ricerca con un'efficienza significativamente migliorata.
Presentiamo Qianfan-OCR, un modello visione-linguaggio end-to-end da 4 miliardi di parametri che unifica l'analisi di documenti, l'analisi del layout e la comprensione documentale all'interno di un'unica architettura. Il modello esegue la conversione diretta da immagine a Markdown e supporta diverse attività guidate da prompt, tra cui estrazione di tabelle, comprensione di grafici, domande e risposte su documenti ed estrazione di informazioni chiave. Per ovviare alla perdita dell'analisi esplicita del layout nei sistemi OCR end-to-end, proponiamo Layout-as-Thought, una fase di ragionamento opzionale attivata da token speciali "think" che genera rappresentazioni strutturate del layout – bounding box, tipi di elemento e ordine di lettura – prima di produrre gli output finali, recuperando così le capacità di grounding del layout e migliorando l'accuratezza su layout complessi. Qianfan-OCR si classifica al primo posto tra i modelli end-to-end su OmniDocBench v1.5 (93.12) e OlmOCR Bench (79.8), ottiene risultati competitivi su OCRBench, CCOCR, DocVQA e ChartQA rispetto a modelli VLM generali di scala comparabile, e raggiunge il punteggio medio più alto sui benchmark pubblici di estrazione di informazioni chiave, superando Gemini-3.1-Pro, Seed-2.0 e Qwen3-VL-235B. Il modello è accessibile pubblicamente tramite la piattaforma Baidu AI Cloud Qianfan.
I recenti progressi nei modelli multimodali di ragionamento su larga scala (MLRM) hanno migliorato significativamente le prestazioni nel campo del question answering visivo. Tuttavia, osserviamo che le parole di transizione (ad esempio, *perché*, *tuttavia* e *aspetta*) sono strettamente associate ad allucinazioni e tendono a manifestare stati ad alta entropia. Sosteniamo che adeguate informazioni di ragionamento contestuale possano essere estratte direttamente dalla distribuzione di probabilità dei token. Ispirati dalla teoria della rappresentazione sovrapposta, proponiamo di sfruttare il ragionamento latente sovrapposto per integrare molteplici semantiche candidate e mantenere traiettorie di ragionamento latenti. L'ipotesi è che la dipendenza da input testuali discreti possa spingere il modello verso un ragionamento esplicito sequenziale, sottoutilizzando gli indizi contestuali densi durante le fasi di ragionamento ad alta entropia. Pertanto, proponiamo di costruire ricche rappresentazioni semantiche a partire dalle distribuzioni di probabilità dei token per potenziare il ragionamento in contesto. Con questo obiettivo, presentiamo il *Latent Entropy-Aware Decoding* (LEAD), una strategia di decodifica plug-and-play efficiente che sfrutta il contesto semantico per ottenere un ragionamento affidabile. Il cuore del nostro metodo risiede nella commutazione della modalità di ragionamento basata sull'entropia. Il modello utilizza embedding continui ponderati probabilisticamente in stati di alta entropia e ritorna agli embedding discreti dei token man mano che l'entropia diminuisce. Inoltre, proponiamo una strategia di iniezione di ancore visive guidata da prior che incoraggia il modello a concentrarsi sulle informazioni visive. Esperimenti estensivi dimostrano che LEAD mitiga efficacemente le allucinazioni in vari MLRM su molteplici benchmark.
La simulazione delle interazioni robot-mondo è un pilastro fondamentale dell'Intelligenza Artificiale Embodied. Recentemente, alcuni lavori hanno mostrato potenzialità nell'utilizzare generazioni video per trascendere i rigidi vincoli visivi/fisici dei simulatori tradizionali. Tuttavia, essi operano principalmente in spazio 2D o sono guidati da segnali ambientali statici, ignorando la realtà fondamentale per cui le interazioni robot-mondo sono eventi spaziotemporali intrinsecamente 4D che richiedono una modellizzazione interattiva precisa. Per ripristinare questa essenza 4D garantendo al contempo un controllo preciso del robot, introduciamo Kinema4D, un nuovo simulatore robotico generativo 4D condizionato all'azione che scompone l'interazione robot-mondo in: i) Rappresentazione 4D precisa dei controlli robotici: guidiamo un robot 3D basato su URDF tramite cinematica, producendo una traiettoria di controllo robotica 4D precisa. ii) Modellazione generativa 4D delle reazioni ambientali: proiettiamo la traiettoria robotica 4D in una mappa di punti come segnale visivo spaziotemporale, controllando il modello generativo per sintetizzare le dinamiche reattive di ambienti complessi in sequenze sincronizzate RGB/mappa di punti. Per facilitare l'addestramento, abbiamo curato un dataset su larga scala chiamato Robo4D-200k, comprendente 201.426 episodi di interazione robotica con annotazioni 4D di alta qualità. Esperimenti estensivi dimostrano che il nostro metodo simula efficacemente interazioni fisicamente plausibili, geometricamente consistenti e indipendenti dall'embodiment che rispecchiano fedelmente le dinamiche del mondo reale. Per la prima volta, esso mostra una potenziale capacità di trasferimento zero-shot, fornendo una base ad alta fedeltà per far progredire la simulazione embodied di prossima generazione.
I recenti progressi nei transformer di diffusione video hanno abilitato modelli di mondi ludici interattivi che consentono agli utenti di esplorare ambienti generati su orizzonti temporali estesi. Tuttavia, gli approcci esistenti faticano a garantire un controllo d'azione preciso e una coerenza 3D a lungo termine. La maggior parte dei lavori precedenti tratta le azioni utente come segnali di condizionamento astratti, trascurando l'accoppiamento geometrico fondamentale tra le azioni e il mondo 3D, per cui le azioni inducono movimenti relativi della telecamera che si accumulano in una posa globale della telecamera all'interno di un mondo 3D. In questo articolo, stabiliamo la posa della telecamera come rappresentazione geometrica unificante per ancorare congiuntamente il controllo d'azione immediato e la coerenza 3D a lungo termine. In primo luogo, definiamo uno spazio d'azione continuo basato sulla fisica e rappresentiamo gli input utente nell'algebra di Lie per derivare precise pose della telecamera a 6 gradi di libertà, che vengono iniettate nel modello generativo tramite un incorporatore di telecamera per garantire un allineamento accurato delle azioni. In secondo luogo, utilizziamo le pose globali della telecamera come indici spaziali per recuperare osservazioni passate rilevanti, consentendo una rivisitazione geometricamente coerente delle località durante la navigazione a lungo termine. Per supportare questa ricerca, introduciamo un dataset su larga scala comprendente 3.000 minuti di gameplay umano autentico, annotato con traiettorie della telecamera e descrizioni testuali. Esperimenti estensivi dimostrano che il nostro approccio supera sostanzialmente i modelli di mondi ludici interattivi allo stato dell'arte in termini di controllabilità delle azioni, qualità visiva a lungo termine e coerenza spaziale 3D.
Il parsing Text-to-SQL ha compiuto progressi notevoli nell'ambito del Full Schema Assumption. Tuttavia, questo presupposto risulta inadeguato negli ambienti aziendali reali, dove i database contengono centinaia di tabelle con metadati massicci e rumorosi. Invece di iniettare l'intero schema a priori, un agente deve identificare e verificare attivamente solo il sottoinsieme rilevante, dando origine allo scenario Schema Sconosciuto che studiamo in questo lavoro. Per affrontare questo problema, proponiamo TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). Formuliamo il compito come un Processo Decisionale di Markov Parzialmente Osservabile, in cui il nostro agente autonomo utilizza un protocollo strutturato in quattro fasi per ancorare il ragionamento a metadati verificati. Crucialmente, questo protocollo fornisce un confine strutturale per la nostra innovativa strategia Dual-Track GRPO. Applicando vantaggi mascherati a livello di token, questa strategia isola le ricompense dell'esplorazione dagli esiti dell'esecuzione per risolvere il problema dell'assegnazione del credito, producendo un miglioramento relativo del 9,9% rispetto al GRPO standard. Esperimenti estesi su cinque benchmark dimostrano che TRUST-SQL raggiunge un miglioramento assoluto medio del 30,6% e del 16,6% rispettivamente per le varianti da 4B e 8B rispetto ai loro modelli base. Notevolmente, nonostante operi completamente senza metadati precaricati, la nostra architettura eguaglia o supera costantemente baseline robuste che si basano sul pre-riempimento dello schema.
Il paradigma predominante per il miglioramento dei grandi modelli linguistici si basa su addestramento offline con annotazioni umane o ambienti simulati, lasciando del tutto inesplorata la ricca esperienza accumulata durante il dispiegamento nel mondo reale. Proponiamo l'Apprendimento Esperienziale Online (OEL), un quadro che consente ai modelli linguistici di migliorare continuamente dalla propria esperienza di dispiegamento. OEL opera in due fasi: in primo luogo, la conoscenza esperienziale trasferibile viene estratta e accumulata dalle traiettorie di interazione raccolte sul lato utente; in secondo luogo, questa conoscenza viene consolidata nei parametri del modello tramite distillazione contestuale on-policy, senza richiedere accesso all'ambiente lato utente. Le due fasi vengono iterate per formare un ciclo di apprendimento online, in cui il modello migliorato raccoglie traiettorie di qualità superiore che forniscono una conoscenza esperienziale più ricca per i round successivi. Valutiamo OEL su ambienti di giochi testuali su più scale di modelli e varianti con e senza ragionamento. OEL ottiene miglioramenti consistenti attraverso iterazioni successive, potenziando sia l'accuratezza del compito che l'efficienza dei token, preservando al contempo le prestazioni fuori distribuzione. La nostra analisi mostra inoltre che la conoscenza esperienziale estratta è significativamente più efficace delle traiettorie grezze e che la coerenza on-policy tra la fonte di conoscenza e il modello policy è cruciale per un apprendimento efficace.
L'integrazione dei Large Language Model (LLM) nel settore finanziario sta guidando un cambiamento di paradigma, dal recupero passivo delle informazioni all'interazione dinamica e agentica. Sebbene l'apprendimento di strumenti generici abbia assistito a un'impennata di benchmark, il settore finanziario, caratterizzato da alti rischi, normative rigorose e rapida volatilità dei dati, rimane criticamente sottoservito. Le valutazioni finanziarie esistenti si concentrano prevalentemente sull'analisi testuale statica o su QA basato su documenti, ignorando la complessa realtà dell'esecuzione degli strumenti. Al contrario, i benchmark generici per strumenti mancano del rigore specifico del dominio richiesto per la finanza, basandosi spesso su ambienti simulativi o su un numero trascurabile di API finanziarie. Per colmare questa lacuna, introduciamo FinToolBench, il primo benchmark eseguibile e realistico dedicato alla valutazione di agenti per l'apprendimento di strumenti finanziari. A differenza di lavori precedenti limitati a una manciata di strumenti simulati, FinToolBench stabilisce un ecosistema realistico che accoppia 760 strumenti finanziari eseguibili con 295 query rigorose che richiedono l'uso di strumenti. Proponiamo una nuova framework di valutazione che va oltre il semplice successo/esito binario dell'esecuzione, valutando gli agenti su dimensioni critiche per la finanza: tempestività, tipo di intento e allineamento al dominio normativo. Inoltre, presentiamo FATR, una baseline per il retrieval e il ragionamento sugli strumenti consapevole del contesto finanziario, che migliora stabilità e conformità. Fornendo la prima piattaforma di test per l'esecuzione finanziaria agentica e verificabile, FinToolBench stabilisce un nuovo standard per l'IA affidabile nella finanza. Il manifesto degli strumenti, l'ambiente di esecuzione e il codice di valutazione saranno open-source per facilitare la ricerca futura.
Sebbene i recenti modelli di Flow Matching evitino i colli di bottiglia ricostruttivi degli autoencoder latenti operando direttamente nello spazio dei pixel, la mancanza di continuità semantica nella varietà dei pixel intreccia severamente i percorsi di trasporto ottimo. Ciò induce gravi conflitti di traiettoria in prossimità delle intersezioni, producendo soluzioni sub-ottimali. Invece di aggirare il problema mediante rappresentazioni latenti con perdita di informazioni, noi districhiamo direttamente le traiettorie nello spazio dei pixel proponendo i Waypoint Diffusion Transformers (WiT). WiT fattorizza il campo vettoriale continuo tramite waypoint semantici intermedi proiettati da modelli visivi pre-addestrati. Esso disaggrega efficacemente le traiettorie di generazione suddividendo il trasporto ottimo in segmenti prior-to-waypoint e waypoint-to-pixel. Nello specifico, durante il processo iterativo di denoising, un generatore leggero inferisce dinamicamente questi waypoint intermedi dallo stato rumoroso corrente. Questi ultimi condizionano poi continuamente il diffusion transformer principale tramite il meccanismo Just-Pixel AdaLN, guidando l'evoluzione verso lo stato successivo e producendo infine i pixel RGB finali. Valutato su ImageNet 256x256, WiT supera solidi baseline nello spazio dei pixel, accelerando la convergenza dell'addestramento JiT di 2.2x. Il codice sarà rilasciato pubblicamente su https://github.com/hainuo-wang/WiT.git.
Molte applicazioni di grandi modelli linguistici richiedono il condizionamento su contesti lunghi. I Transformer supportano tipicamente questa funzionalità memorizzando una grande cache KV per layer delle attivazioni passate, che comporta un sovraccarico di memoria sostanziale. Un'alternativa desiderabile è la memoria compressiva: leggere un contesto una volta, memorizzarlo in uno stato compatto e rispondere a molte query da quello stato. Studiamo questo approccio in uno scenario di rimozione del contesto, dove il modello deve generare una risposta senza accesso al contesto originale al momento dell'inferenza. Introduciamo GradMem, che scrive il contesto in memoria tramite un'ottimizzazione per campione al momento del test. Dato un contesto, GradMem esegue pochi passi di discesa del gradiente su un piccolo insieme di token di memoria del prefisso, mantenendo congelati i pesi del modello. GradMem ottimizza esplicitamente una perdita auto-supervisionata a livello di modello per la ricostruzione del contesto, risultando in un'operazione di scrittura guidata dalla perdita con correzione iterativa dell'errore, a differenza dei metodi di sola forward pass. Sul recupero associativo chiave-valore, GradMem supera i scrittori di memoria di sola forward pass con la stessa dimensione di memoria, e passi aggiuntivi del gradiente scalano la capacità in modo molto più efficace rispetto a scritture forward ripetute. Mostriamo inoltre che GradMem si trasferisce oltre i benchmark sintetici: con modelli linguistici preaddestrati, ottiene risultati competitivi su compiti di linguaggio naturale includendo varianti di bAbI e SQuAD, basandosi solo sulle informazioni codificate in memoria.
I modelli multimodali unificati (UMM) sono spesso limitati dal pre-addestramento dei loro componenti di generazione visiva, che tipicamente si basa su paradigmi inefficienti e su dati di coppie testo-immagine di alta qualità, ma scarsi. In questo articolo, analizziamo sistematicamente le ricette di pre-addestramento per la generazione visiva degli UMM e identifichiamo questi due problemi come i principali colli di bottiglia. Per affrontarli, proponiamo Image-Only Training for UMMs (IOMM), un framework di addestramento a due stadi efficiente dal punto di vista dei dati. Il primo stadio pre-addestra il componente di generazione visiva utilizzando esclusivamente abbondanti dati non etichettati composti da sole immagini, rimuovendo così la dipendenza da dati accoppiati per questa fase costosa. Il secondo stadio mette a punto il modello utilizzando un mix di immagini non etichettate e un piccolo set curato di coppie testo-immagine, portando a un migliore allineamento alle istruzioni e a una qualità generativa superiore. Esperimenti estensivi mostrano che IOMM non solo migliora l'efficienza dell'addestramento, ma raggiunge anche prestazioni allo stato dell'arte (SOTA). Ad esempio, il nostro modello IOMM-B (3.6B) è stato addestrato da zero utilizzando solo ~1050 ore GPU H800 (con la stragrande maggioranza, 1000 ore, dedicate all'efficiente stadio di pre-addestramento con sole immagini). Esso ottiene 0.89 su GenEval e 0.55 su WISE, superando baseline solide come BAGEL-7B (0.82 & 0.55) e BLIP3-o-4B (0.84 & 0.50). Il codice è disponibile all'indirizzo https://github.com/LINs-lab/IOMM.
Le valutazioni multi-turno e multi-agente per i LLM presentano spesso una sostanziale variabilità tra esecuzioni consecutive. Nelle interazioni a lungo termine, piccole deviazioni iniziali si accumulano attraverso i turni e vengono amplificate dall'accoppiamento multi-agente. Ciò distorce le stime del tasso di vittoria e rende inaffidabili le classifiche tra tornei ripetuti. La scelta del prompt peggiora ulteriormente questa situazione producendo politiche effettive diverse. Affrontiamo sia l'instabilità che le prestazioni insufficienti con MEMO (Memory-augmented MOdel context optimization), un framework di auto-gioco che ottimizza il contesto al momento dell'inferenza accoppiando ritenzione ed esplorazione. La ritenzione mantiene una memoria persistente che archivia insight strutturati dalle traiettorie di auto-gioco e li inietta come prior durante le sessioni successive. L'esplorazione esegue un'evoluzione dei prompt in stile torneo con selezione consapevole dell'incertezza tramite TrueSkill, e utilizza il replay prioritizzato per rivisitare stati decisivi e rari. In cinque giochi testuali, MEMO aumenta il tasso di vittoria medio dal 25.1% al 49.5% per GPT-4o-mini e dal 20.9% al 44.3% per Qwen-2.5-7B-Instruct, utilizzando 2.000 partite di auto-gioco per task. Anche la variabilità tra esecuzioni diminuisce, fornendo classifiche più stabili tra le variazioni di prompt. Questi risultati suggeriscono che le prestazioni e la robustezza dei LLM in giochi multi-agente hanno ampio margine di miglioramento attraverso l'ottimizzazione del contesto. MEMO ottiene i maggiori guadagni in giochi di negoziazione e ad informazione imperfetta, mentre il RL rimane più efficace in contesti ad informazione perfetta.
Mentre i Large Language Model (LLM) si sono evoluti in agenti capaci di utilizzare strumenti, rimangono fragili nelle interazioni a lungo termine. A differenza del ragionamento matematico, dove gli errori sono spesso correggibili tramite backtracking, i fallimenti nell'uso degli strumenti frequentemente inducono effetti collaterali irreversibili, rendendo critica una verifica accurata a livello di singolo passo. Tuttavia, i benchmark esistenti a livello di processo sono prevalentemente confinati a domini matematici di tipo "mondo chiuso", non riuscendo a catturare la natura dinamica e aperta dell'esecuzione di strumenti. Per colmare questa lacuna, introduciamo AgentProcessBench, il primo benchmark dedicato a valutare l'efficacia a livello di passo in traiettorie realistiche, aumentate da strumenti. Il benchmark comprende 1.000 traiettorie diverse e 8.509 annotazioni di passi etichettate manualmente, con un accordo tra annotatori dell'89.1%. Presenta uno schema di etichettatura ternario per catturare l'esplorazione e una regola di propagazione dell'errore per ridurre l'ambiguità dell'etichettatura. Esperimenti estensivi rivelano intuizioni chiave: (1) modelli di policy più deboli mostrano rapporti inflazionati di passi corretti a causa di terminazioni anticipate; (2) distinguere azioni neutre ed errate rimane una sfida significativa per i modelli attuali; e (3) i segnali derivati dal processo forniscono un valore complementare alla supervisione basata sul risultato, migliorando significativamente la scalabilità durante il test. Speriamo che AgentProcessBench possa favorire future ricerche sui modelli di reward e aprire la strada verso agenti generali. Il codice e i dati sono disponibili su https://github.com/RUCBM/AgentProcessBench.
La traduzione automatica (MT) di alta qualità può essere scalata su centinaia di lingue, stabilendo un punto di riferimento elevato per i sistemi multilingue. Tuttavia, rispetto alle 7.000 lingue del mondo, i sistemi attuali offrono ancora una copertura limitata: circa 200 lingue sul lato target, e forse poche centinaia in più sul lato sorgente, supportate grazie al trasferimento cross-linguale. E persino questi numeri sono stati difficili da valutare a causa della mancanza di benchmark e metriche affidabili. Presentiamo Omnilingual Machine Translation (OMT), il primo sistema MT che supporta oltre 1.600 lingue. Questa scala è resa possibile da una strategia dati completa che integra grandi corpora multilingue pubblici con dataset di nuova creazione, incluso il bitext MeDLEY curato manualmente. Esploriamo due modi per specializzare un modello linguistico di grandi dimensioni (LLM) per la traduzione automatica: come modello decoder-only (OMT-LLaMA) o come modulo in un'architettura encoder-decoder (OMT-NLLB). Significativamente, tutti i nostri modelli da 1B a 8B di parametri eguagliano o superano le prestazioni MT di un baseline LLM da 70B, rivelando un chiaro vantaggio di specializzazione e consentendo una forte qualità di traduzione in contesti con risorse computazionali limitate. Inoltre, la nostra valutazione delle traduzioni dall'inglese a 1.600 lingue mostra ulteriormente che, sebbene i modelli baseline possano interpretare lingue poco supportate, spesso falliscono nel generarli con una fedeltà significativa; i modelli OMT-LLaMA espandono sostanzialmente l'insieme di lingue per cui è possibile una generazione coerente. In aggiunta, i modelli OMT migliorano nel trasferimento cross-linguale, avvicinandosi a risolvere la parte di "comprensione" del puzzle nella MT per le 1.600 lingue valutate. La nostra classifica e i principali dataset di valutazione creati da umani (BOUQuET e Met-BOUQuET) si stanno evolvendo dinamicamente verso l'onnilinguità e sono liberamente disponibili.
I modelli linguistici di grandi dimensioni (LLM) dotati di ragionamento a catena di pensiero (chain-of-thought) raggiungono prestazioni all'avanguardia in compiti complessi di problem-solving, ma le loro tracce di ragionamento verbose e i grandi requisiti di contesto li rendono impraticabili per il deployment su dispositivi edge. Queste sfide includono elevati costi di generazione di token, ingombri di KV-cache di grandi dimensioni e inefficienze nel distillare le capacità di ragionamento in modelli più piccoli per dispositivi mobili. Gli approcci esistenti spesso si basano sulla distillazione delle tracce di ragionamento da modelli più grandi a modelli più piccoli, che sono verbose e stilisticamente ridondanti, caratteristiche indesiderabili per l'inferenza on-device. In questo lavoro, proponiamo un approccio leggero per abilitare il ragionamento in piccoli LLM utilizzando adattatori LoRA combinati con fine-tuning supervisionato. Introduciamo inoltre il "budget forcing" tramite apprendimento per rinforzo su questi adattatori, riducendo significativamente la lunghezza della risposta con una perdita di accuratezza minima. Per affrontare il decoding vincolato dalla memoria, sfruttiamo lo scaling parallelo al momento del test (parallel test-time scaling), migliorando l'accuratezza con un lieve aumento della latenza. Infine, presentiamo un meccanismo dinamico di commutazione degli adattatori (adapter-switching) che attiva il ragionamento solo quando necessario e una strategia di condivisione della KV-cache durante la codifica del prompt, riducendo il tempo per il primo token (time-to-first-token) per l'inferenza on-device. Esperimenti su Qwen2.5-7B dimostrano che il nostro metodo raggiunge un ragionamento efficiente e accurato sotto stringenti vincoli di risorse, rendendo pratico il ragionamento degli LLM per scenari mobili. Video che dimostrano la nostra soluzione in esecuzione su dispositivi mobili sono disponibili sulla nostra pagina progetto.
Introduciamo SegviGen, un framework che riconverte modelli generativi 3D nativi per la segmentazione di parti 3D. Le pipeline esistenti sollevano forti prior 2D in 3D tramite distillazione o aggregazione di maschere multi-vista, spesso soffrendo di incoerenza tra le viste e contorni sfocati, oppure esplorano la segmentazione discriminativa 3D nativa, che tipicamente richiede dati 3D annotati su larga scala e risorse di addestramento consistenti. Al contrario, SegviGen sfrutta i prior strutturati codificati in modelli generativi 3D preaddestrati per indurre la segmentazione attraverso una colorazione distintiva delle parti, stabilendo un framework nuovo ed efficiente per la segmentazione di parti. Nello specifico, SegviGen codifica un asset 3D e predice colori indicativi delle parti sui voxel attivi di una ricostruzione allineata geometricamente. Supporta la segmentazione interattiva delle parti, la segmentazione completa e la segmentazione completa con guida 2D in un framework unificato. Esperimenti estensivi mostrano che SegviGen migliora lo stato dell'arte precedente del 40% nella segmentazione interattiva delle parti e del 15% nella segmentazione completa, utilizzando solo lo 0.32% dei dati di addestramento etichettati. Dimostra che i prior generativi 3D preaddestrati si trasferiscono efficacemente alla segmentazione di parti 3D, abilitando prestazioni robusthe con supervisione limitata. Visita la nostra pagina progetto all'indirizzo https://fenghora.github.io/SegviGen-Page/.
Le abilità degli agenti, pacchetti di conoscenza procedurale strutturata iniettati al momento dell'inferenza, sono sempre più utilizzati per potenziare gli agenti LLM nei compiti di ingegneria del software. Tuttavia, la loro reale utilità in contesti di sviluppo end-to-end rimane poco chiara. Presentiamo SWE-Skills-Bench, il primo benchmark guidato dai requisiti che isola l'utilità marginale delle abilità degli agenti nell'ingegneria del software (SWE) reale. Abbina 49 abilità SWE pubbliche a repository GitHub autentici ancorati a commit specifici e a documenti di requisiti con criteri di accettazione espliciti, generando approssimativamente 565 istanze di compiti in sei sottodomini SWE. Introduciamo un framework di verifica deterministico che mappa i criteri di accettazione di ogni compito a test basati sull'esecuzione, consentendo una valutazione controllata in coppia con e senza l'abilità. I nostri risultati mostrano che i benefici dell'iniezione delle abilità sono molto più limitati di quanto l'adozione rapida suggerisca: 39 delle 49 abilità non producono alcun miglioramento del tasso di successo, e il guadagno medio è solo del +1,2%. L'overhead dei token varia da risparmi modesti a un aumento del 451%, mentre i tassi di successo rimangono invariati. Solo sette abilità specializzate producono guadagni significativi (fino a +30%), mentre tre peggiorano le prestazioni (fino a -10%) a causa di linee guida con mismatch di versione in conflitto con il contesto del progetto. Questi risultati suggeriscono che le abilità degli agenti sono un intervento limitato, la cui utilità dipende fortemente dall'adeguatezza al dominio, dal livello di astrazione e dalla compatibilità contestuale. SWE-Skills-Bench fornisce un banco di prova per valutare la progettazione, la selezione e il deployment delle abilità negli agenti di ingegneria del software. SWE-Skills-Bench è disponibile all'indirizzo https://github.com/GeniusHTX/SWE-Skills-Bench.
La Super-Risoluzione Video (VSR) mira a ripristinare fotogrammi video di alta qualità a partire da stime a bassa risoluzione (LR). Tuttavia, la maggior parte degli approcci VSR esistenti si comporta come una scatola nera al momento dell'inferenza: gli utenti non possono correggere in modo affidabile artefatti inaspettati, ma possono solo accettare ciò che il modello produce. In questo articolo, proponiamo una nuova framework VSR interattiva denominata SparkVSR che rende i fotogrammi chiave sparsi un segnale di controllo semplice ed espressivo. Nello specifico, gli utenti possono prima applicare la super-risoluzione a un piccolo insieme di fotogrammi chiave, opzionalmente utilizzando qualsiasi modello di super-risoluzione di immagini (ISR) disponibile; successivamente, SparkVSR propaga i priori dei fotogrammi chiave all'intera sequenza video rimanendo ancorato al movimento originale del video LR. Nello specifico, introduciamo una pipeline di addestramento a due stadi (latente-pixel) condizionata dai fotogrammi chiave, che fonde i latent del video LR con i latent codificati in modo sparso dei fotogrammi chiave ad alta risoluzione (HR) per apprendere una propagazione robusta tra spazi diversi e perfezionare i dettagli percettivi. Al momento dell'inferenza, SparkVSR supporta una selezione flessibile dei fotogrammi chiave (specifica manuale, estrazione dei frame I del codec o campionamento casuale) e un meccanismo di guida senza riferimento che bilancia continuamente l'aderenza ai fotogrammi chiave e il ripristino non referenziato (blind), garantendo prestazioni robuste anche quando i fotogrammi chiave di riferimento sono assenti o imperfetti. Esperimenti su molteplici benchmark VSR dimostrano un miglioramento della coerenza temporale e una forte qualità di ripristino, superando i baseline fino al 24,6%, 21,8% e 5,6% rispettivamente su CLIP-IQA, DOVER e MUSIQ, abilitando così una super-risoluzione video controllabile e guidata dai fotogrammi chiave. Inoltre, dimostriamo che SparkVSR è una framework generica per l'elaborazione video interattiva e condizionata dai fotogrammi chiave, poiché può essere applicata immediatamente a compiti non visti durante l'addestramento, come il restauro di pellicole antiche e il trasferimento di stile video. La nostra pagina del progetto è disponibile all'indirizzo: https://sparkvsr.github.io/
Presentiamo una formalizzazione completa in Lean 4 della caratterizzazione dell'equilibrio nel sistema di Vlasov-Maxwell-Landau (VML), che descrive il moto del plasma carico. Il progetto dimostra l'intero ciclo di ricerca matematica assistita dall'IA: un modello di ragionamento IA (Gemini DeepThink) ha generato la dimostrazione a partire da una congettura, uno strumento di codifica agentico (Claude Code) l'ha tradotta in Lean a partire da prompt in linguaggio naturale, un dimostratore specializzato (Aristotele) ha chiuso 111 lemmi e il kernel di Lean ha verificato il risultato. Un singolo matematico ha supervisionato il processo in 10 giorni a un costo di 200 dollari, senza scrivere una sola riga di codice. L'intero processo di sviluppo è pubblico: tutti i 229 prompt umani e i 213 commit git sono archiviati nel repository. Riferiamo lezioni dettagliate sulle modalità di fallimento dell'IA – deriva delle ipotesi, bug di allineamento delle definizioni, comportamenti di elusione degli agenti – e su ciò che ha funzionato: la divisione della dimostrazione in astratto/concreto, la revisione avversariale e il ruolo cruciale della revisione umana delle definizioni chiave e degli enunciati dei teoremi. È degno di nota che la formalizzazione sia stata completata prima della stesura finale del corrispondente articolo matematico.
La gestione di contesti lunghi rimane una sfida fondamentale per i modelli linguistici: anche con finestre di contesto estese, i modelli spesso falliscono nell'estrarre, ragionare e utilizzare in modo affidabile le informazioni presenti in contesti estesi. Lavori recenti come i Modelli Linguistici Ricorsivi (RLM) hanno affrontato questa sfida in modo agentivo, scomponendo i contesti lunghi in sotto-chiamate ricorsive attraverso interazioni programmatiche durante l'inferenza. Sebbene promettente, il successo degli RLM dipende criticamente da come questi programmi di interazione col contesto vengono selezionati, un aspetto che è rimasto largamente inesplorato. In questo articolo, studiamo questo problema e introduciamo SRLM, un framework che potenzia l'interazione programmatica col contesto con un meccanismo di Auto-Riflessione (Self-Reflection) consapevole dell'incertezza. SRLM sfrutta tre segnali intrinseci: l'auto-consistenza, la lunghezza del ragionamento e la confidenza verbalizzata. Questi servono come indicatori complementari dell'incertezza interna del modello, che li utilizza per valutare e confrontare i programmi candidati per l'interazione col contesto. Esperimenti estesi su diversi dataset di benchmark, lunghezze del contesto e modelli di base, mostrano che SRLM supera costantemente i baseline allo stato dell'arte, ottenendo un miglioramento fino al 22% rispetto agli RLM a parità di budget temporale. I nostri risultati dimostrano che la ricorsione di per sé non è il motore primario delle prestazioni negli RLM, e una semplice ricerca di programmi auto-riflessiva può eguagliare o superare gli RLM senza richiedere meccanismi di auto-interrogazione o ricorsione esplicita. Troviamo che per lunghezze del contesto entro la finestra del modello, gli RLM con ricorsione spesso degradano le prestazioni rispetto al modello base, mentre SRLM produce guadagni consistenti sia in contesti brevi che lunghi. Troviamo inoltre che gli RLM sono meno efficaci in compiti di natura semanticamente intensiva, dove la ricerca euristica di programmi è insufficiente e è richiesta una comprensione contestuale più ampia, mentre l'auto-riflessione in SRLM fornisce un segnale semantico che indirizza meglio il ragionamento in questi scenari.
Con il rapido avanzamento dei modelli visione-linguaggio, un numero crescente di studi ha esplorato il loro potenziale per i compiti di generazione di SVG. Sebbene gli approcci esistenti migliorino le prestazioni costruendo dataset SVG su larga scala e introducendo token specifici per SVG, essi soffrono ancora di generalizzazione limitata, percorsi ridondanti negli output di codice e una mancanza di ragionamento esplicito. In questo lavoro, presentiamo CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), un framework unificato che introduce un meccanismo a catena del pensiero (chain-of-thought) per esporre esplicitamente il processo di ragionamento del modello durante la generazione di SVG. Per supportare questo ragionamento strutturato, costruiamo SVG-Sophia, un dataset di alta qualità contenente 145.000 campioni per i compiti di raffinamento del codice SVG, Text-to-SVG e Image-to-SVG. Addestrando il modello a generare codice SVG strutturato a livello di gruppo, CTRL-S migliora significativamente la coerenza strutturale e la fedeltà visiva. Inoltre, adottiamo l'algoritmo GRPO e progettiamo un framework di ottimizzazione multi-ricompensa, incorporando ricompense basate su DINO, similarità immagine-testo, formato ed efficienza del codice. Attraverso un'ottimizzazione congiunta multi-ricompensa e un addestramento multi-task, il nostro approccio migliora sistematicamente le capacità generative complessive. Esperimenti estensivi mostrano che CTRL-S supera i metodi esistenti, raggiungendo tassi di successo del compito più elevati, una qualità superiore del codice SVG e una fedeltà visiva eccezionale.
Una valutazione affidabile è essenziale per lo sviluppo e il dispiegamento di grandi modelli linguistici, ma nella pratica richiede spesso un notevole sforzo manuale: i professionisti devono identificare benchmark appropriati, riprodurre codebase di valutazione eterogenei, configurare mappature di schemi di dataset e interpretare metriche aggregate. Per affrontare queste sfide, presentiamo One-Eval, un sistema di valutazione agente che converte richieste di valutazione in linguaggio naturale in flussi di lavoro di valutazione eseguibili, tracciabili e personalizzabili. One-Eval integra (i) NL2Bench per la strutturazione dell'intento e la pianificazione personalizzata dei benchmark, (ii) BenchResolve per la risoluzione dei benchmark, l'acquisizione automatica dei dataset e la normalizzazione dello schema per garantire l'eseguibilità, e (iii) Metriche e Reporting per la selezione di metriche consapevoli del compito e una reportistica orientata alle decisioni che va oltre i punteggi scalari. Il sistema incorpora inoltre checkpoint con umano nel ciclo per la revisione, la modifica e il rollback, preservando al contempo tracce di evidenze campionarie per il debug e l'auditabilità. Gli esperimenti dimostrano che One-Eval può eseguire valutazioni end-to-end a partire da richieste eterogenee in linguaggio naturale con uno sforzo utente minimo, supportando una valutazione più efficiente e riproducibile in contesti industriali. Il nostro framework è pubblicamente disponibile all'indirizzo https://github.com/OpenDCAI/One-Eval.
La ricostruzione in streaming da video monoculare non calibrato rimane una sfida, poiché richiede sia una stima della posa ad alta precisione che un raffinamento online computazionalmente efficiente in ambienti dinamici. Sebbene l'integrazione di modelli di fondazione 3D con framework SLAM rappresenti un paradigma promettente, persiste un collo di bottiglia critico: la maggior parte dei modelli di fondazione multi-vista stima le pose in modo feed-forward, producendo corrispondenze a livello di pixel che mancano della precisione necessaria per un'ottimizzazione geometrica rigorosa. Per affrontare questo problema, presentiamo M^3, che potenzia il modello di fondazione Multi-vista con una testa di Matching dedicata per facilitare corrispondenze dense granulari e lo integra in un robusto SLAM basato su Gaussian Splatting monoculare. M^3 migliora ulteriormente la stabilità del tracking incorporando la soppressione dinamica delle aree e l'allineamento intrinseco cross-inference. Esperimenti estesi su vari benchmark indoor e outdoor dimostrano un'accuratezza allo stato dell'arte sia nella stima della posa che nella ricostruzione della scena. In particolare, M^3 riduce l'RMSE dell'ATE del 64,3% rispetto a VGGT-SLAM 2.0 e supera ARTDECO di 2,11 dB in PSNR sul dataset ScanNet++.
Un'opinione prevalente nell'apprendimento robotico è che la simulazione da sola non sia sufficiente; si ritiene ampiamente che un trasferimento efficace da simulazione a realtà richieda almeno una certa raccolta di dati nel mondo reale o una messa a punto specifica per il compito per colmare il divario tra ambienti simulati e fisici. Noi contestiamo questo assunto. Con dati di addestramento sintetici simulati sufficientemente su larga scala e diversificati, dimostriamo che il trasferimento zero-shot nel mondo reale non solo è possibile, ma anche efficace sia per la manipolazione statica che mobile. Introduciamo MolmoBot-Engine, una pipeline completamente open-source per la generazione procedurale di dati su robot, compiti e ambienti simulati diversificati in MolmoSpaces. Con essa, rilasciamo MolmoBot-Data, un dataset di 1,8 milioni di traiettorie esperte per la manipolazione di oggetti articolati e compiti di pick-and-place. Addestriamo tre classi di policy: MolmoBot, un modello visione-linguaggio multi-frame basato su Molmo2 con una testa di azione a flusso di corrispondenza (flow-matching); MolmoBot-Pi0, che replica l'architettura π_0 per consentire un confronto diretto; e MolmoBot-SPOC, una policy leggera adatta per il deployment su dispositivi edge e suscettibile di messa a punto con RL. Valutiamo su due piattaforme robotiche: il Franka FR3 per compiti di manipolazione su tavolo e il manipolatore mobile Rainbow Robotics RB-Y1 per l'apertura di porte, la manipolazione di cassetti, l'interazione con armadi e il pick-and-place mobile. Senza alcuna messa a punto nel mondo reale, le nostre policy raggiungono un trasferimento zero-shot su oggetti e ambienti mai visti. Sul pick-and-place su tavolo, MolmoBot raggiunge un tasso di successo del 79,2% in valutazioni nel mondo reale su 4 scenari, superando π_{0,5} al 39,2%. I nostri risultati dimostrano che la generazione procedurale di ambienti combinata con asset articolati diversificati può produrre policy di manipolazione robuste che generalizzano ampiamente al mondo reale. Blog Tecnico: https://allenai.org/blog/molmobot-robot-manipulation
Il campionamento da una distribuzione categorica è matematicamente semplice, ma, nel decoding con vocabolari di grandi dimensioni, spesso innesca traffico di memoria aggiuntivo e kernel supplementari dopo l'head del LM. Presentiamo FlashSampling, una primitiva di campionamento esatta che fonde il campionamento nel matmul dell'LM-head e non materializza mai il tensore dei logit nell'HBM. Il metodo è semplice: calcola i logit tile per tile sull'chip, aggiunge rumore di Gumbel, mantiene solo un massimizzatore per riga e per tile del vocabolario, e conclude con una piccola riduzione sui tile. Il kernel a tile fuso è esatto perché l'argmax si scompone su una partizione; le varianti raggruppate per contesti online e tensor-parallel sono esatte grazie alla fattorizzazione gerarchica della distribuzione categorica. Su GPU H100, H200, B200 e B300, FlashSampling accelera i carichi di lavoro di decoding a livello di kernel e, in esperimenti end-to-end con vLLM, riduce il tempo per token di output fino al 19% sui modelli testati. Questi risultati dimostrano che il campionamento esatto, senza approssimazioni, può essere integrato nel matmul stesso, trasformando un passo di post-elaborazione vincolato dalla larghezza di banda in un epilogo leggero. Pagina del progetto: https://github.com/FlashSampling/FlashSampling.
La supervisione accurata dei processi rimane una sfida critica per la manipolazione robotica a lungo termine. Il collo di bottiglia principale è che gli attuali MLLM video, addestrati principalmente secondo un paradigma di Supervised Fine-Tuning (SFT), funzionano come "Osservatori" passivi che riconoscono gli eventi in corso, piuttosto che valutare lo stato corrente rispetto all'obiettivo finale del compito. In questo articolo, introduciamo PRIMO R1 (Process Reasoning Induced Monitoring), un framework da 7B che trasforma gli MLLM video in "Critici" attivi. Sfruttiamo il Reinforcement Learning basato sugli outcome per incentivare un'esplicita generazione di una Catena di Pensiero (Chain-of-Thought) per la stima del progresso. Inoltre, la nostra architettura costruisce un input temporale strutturato ancorando esplicitamente la sequenza video tra le immagini dello stato iniziale e di quello corrente. Supportato dal Dataset e Benchmark PRIMO proposti, esperimenti estensivi in diversi ambienti in-dominio e scenari umanoidi reali out-of-domain dimostrano che PRIMO R1 raggiunge prestazioni allo stato dell'arte. Quantitativamente, il nostro modello da 7B ottiene una riduzione del 50% nell'errore assoluto medio rispetto ai baseline di ragionamento specializzati, dimostrando miglioramenti di accuratezza relativa significativi rispetto a MLLM generali di scala 72B. Inoltre, PRIMO R1 mostra una forte generalizzazione zero-shot su compiti difficili di rilevamento dei guasti. Stabiliamo prestazioni allo stato dell'arte sul benchmark RoboFail con un'accuratezza del 67.0%, superando modelli closed-source come OpenAI o1 del 6.0%.
I modelli generativi 3D nativi hanno raggiunto una fedeltà e velocità notevoli, ma soffrono di una limitazione critica: l'incapacità di prescrivere articolazioni strutturali precise, dove il controllo strutturale preciso all'interno dello spazio 3D nativo rimane inesplorato. Questo articolo propone SK-Adapter, un framework semplice ma altamente efficiente ed efficace che sblocca la manipolazione scheletrica precisa per la generazione 3D nativa. Andando oltre i prompt testuali o visivi, che possono essere ambigui per strutture precise, trattiamo lo scheletro 3D come un segnale di controllo di prima classe. SK-Adapter è una rete adattatrice strutturale leggera che codifica le coordinate dei giunti e la topologia in token apprendibili, che vengono iniettati nel backbone di generazione 3D congelato tramite cross-attention. Questo design intelligente permette al modello non solo di "prestare attenzione" efficacemente a vincoli strutturali 3D specifici, ma anche di preservare i suoi priori generativi originali. Per colmare il divario dati, contribuiamo con il dataset Objaverse-TMS, un dataset su larga scala di 24k coppie testo-mesh-scheletro. Esperimenti estensivi confermano che il nostro metodo raggiunge un controllo strutturale robusto preservando la qualità geometrica e tessiturale del modello foundation, superando significativamente i baseline esistenti. Inoltre, estendiamo questa capacità all'editing 3D locale, abilitando la modifica specifica per regione di asset esistenti con guida scheletrica, che era irraggiungibile con i metodi precedenti. Pagina del progetto: https://sk-adapter.github.io/
Sebbene i Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM) mostrino prestazioni promettenti nell'interpretazione automatizzata degli elettrocardiogrammi, non è chiaro se essi eseguano un reale ragionamento passo-passo o si affidino semplicemente a indizi visivi superficiali. Per indagare ciò, introduciamo ECG-Reasoning-Benchmark, un nuovo framework di valutazione multi-turn composto da oltre 6.400 campioni per valutare sistematicamente il ragionamento sequenziale attraverso 17 diagnosi ECG fondamentali. La nostra valutazione completa dei modelli più all'avanguardia rivela un fallimento critico nell'esecuzione di deduzioni logiche multi-step. Sebbene i modelli possiedano la conoscenza medica per recuperare i criteri clinici di una diagnosi, mostrano tassi di successo quasi nulli (6% di Completamento) nel mantenere una catena di ragionamento completa, fallendo principalmente nell'ancorare i corrispondenti reperti ECG all'effettiva evidenza visiva nel segnale elettrocardiografico. Questi risultati dimostrano che gli MLLM attuali bypassano l'effettiva interpretazione visiva, esponendo una lacuna critica nei paradigmi di addestramento esistenti e sottolineando la necessità di un'IA medica robusta e centrata sul ragionamento. Il codice e i dati sono disponibili all'indirizzo https://github.com/Jwoo5/ecg-reasoning-benchmark.
Recenti lavori hanno chiarito che il percorso residuo non è una mera questione di ottimizzazione tecnica; esso è parte del meccanismo rappresentativo del modello. Siamo d'accordo, ma sosteniamo che il modo più chiaro per organizzare questo spazio di progetto sia attraverso una visione a due assi del Transformer. Un decoder evolve l'informazione lungo due dimensioni ordinate: la posizione nella sequenza e la profondità del layer. L'auto-attenzione fornisce già un mixing adattivo lungo l'asse della sequenza, mentre il flusso residuo (residual stream) esegue solitamente un'addizione fissa lungo l'asse della profondità. Se fissiamo una posizione di token e trattiamo l'indice del layer come variabile ordinata, allora una lettura di attenzione residuale depth-wise causale è esattamente lo stesso operatore locale dell'attenzione causale a finestra scorrevole corta (ShortSWA), eccetto che scritta sulla profondità anziché sulla sequenza. Questa è la dualità fondamentale del flusso residuo alla base del Transformer^2. Questa prospettiva chiarisce anche la letteratura recente. ELC-BERT e DenseFormer mostrano già che un'aggregazione appresa sulla profondità può superare l'accumulo residuo uniforme, mentre Vertical Attention, DeepCrossAttention (DCA), MUDDFormer e Attention Residuals si spingono ulteriormente verso un routing esplicito basato sull'attenzione sugli strati precedenti. Il punto cruciale, tuttavia, è che la dualità a livello di operatore non implica una simmetria a livello di sistema. Per modelli autoregressivi su larga scala, lo ShortSWA sull'asse della sequenza è di solito il posizionamento più compatibile con l'hardware perché riutilizza kernel a finestra scorrevole lato token, layout di KV-cache ed esecuzione chunked. Se l'obiettivo è invece modificare la scorciatoia stessa, il Deep Delta Learning (DDL) è l'intervento più pulito perché modifica direttamente l'operatore residuo anziché aggiungere un percorso di retrieval cross-layer separato. La nostra raccomandazione è quindi semplice: usare il DDL quando la scorciatoia è l'oggetto di interesse, e usare lo ShortSWA sull'asse della sequenza quando l'obiettivo è un mixing adattivo locale.
Nonostante la ricerca interdisciplinare produca un impatto più ampio e di più lungo termine, la maggior parte del lavoro rimane confinata in silos accademici di singoli domini. I recenti approcci basati sull'IA per la scoperta scientifica mostrano potenziale per la ricerca interdisciplinare, ma molti privilegiano la progettazione rapida di esperimenti e soluzioni, aggirando i processi di ragionamento esplorativo e collaborativo che guidano le svolte creative interdisciplinari. Di conseguenza, gli sforzi precedenti hanno largamente privilegiato l'automazione della scoperta scientifica piuttosto che l'augmentazione dei processi di ragionamento alla base dell'innovazione scientifica. Presentiamo Idea-Catalyst, un framework innovativo che identifica sistematicamente intuizioni interdisciplinari per supportare il ragionamento creativo sia negli esseri umani che nei modelli linguistici di grandi dimensioni. Partendo da un obiettivo di ricerca astratto, Idea-Catalyst è progettato per assistere la fase di brainstorming, evitando esplicitamente un ancoraggio prematuro a soluzioni specifiche. Il framework incorpora caratteristiche metacognitive chiave del ragionamento interdisciplinare: (a) definire e valutare gli obiettivi di ricerca, (b) consapevolezza delle opportunità e delle sfide irrisolte di un dominio, e (c) esplorazione strategica di idee interdisciplinari basata sul potenziale di impatto. Nello specifico, Idea-Catalyst scompone un obiettivo astratto (ad esempio, migliorare la collaborazione uomo-IA) in quesiti di ricerca fondamentali del dominio target che guidano l'analisi dei progressi e delle sfide aperte all'interno di quel dominio. Queste sfide vengono riformulate come problemi concettuali indipendenti dal dominio, permettendo il recupero da discipline esterne (ad esempio, Psicologia, Sociologia) che affrontano questioni analoghe. Sintetizzando e ricontestualizzando le intuizioni da questi domini nuovamente nel dominio target, Idea-Catalyst classifica i domini di origine in base al loro potenziale interdisciplinare. Empiricamente, questa integrazione mirata migliora la novità media del 21% e la profondità di insight del 16%, rimanendo al contempo ancorata al problema di ricerca originale.
La diffusione nello spazio dei pixel è recentemente riemersa come una valida alternativa alla diffusione latente, consentendo una generazione di alta qualità senza autoencoder preaddestrati. Tuttavia, i modelli standard di diffusione nello spazio dei pixel ricevono una supervisione semantica relativamente debole e non sono progettati esplicitamente per catturare la struttura visiva di alto livello. Metodi recenti di allineamento delle rappresentazioni (ad esempio, REPA) suggeriscono che caratteristiche visive preaddestrate possono migliorare sostanzialmente l'addestramento della diffusione, e la co-denoising visivo è emersa come una direzione promettente per incorporare tali caratteristiche nel processo generativo. Tuttavia, gli approcci di co-denoising esistenti spesso intrecciano scelte progettuali multiple, rendendo poco chiaro quali siano veramente essenziali. Pertanto, presentiamo V-Co, uno studio sistematico del co-denoising visivo in un framework unificato basato su JiT. Questa impostazione controllata ci consente di isolare gli ingredienti che rendono efficace il co-denoising visivo. Il nostro studio rivela quattro ingredienti chiave per un co-denoising visivo efficace. Primo, preservare il calcolo specifico delle caratteristiche abilitando un'interazione flessibile tra flussi motiva un'architettura completamente dual-stream. Secondo, una guida efficace senza classificatore (CFG) richiede una predizione incondizionata strutturalmente definita. Terzo, una supervisione semantica più forte è meglio fornita da una loss ibrida con deriva percettiva. Quarto, un co-denoising stabile richiede inoltre una corretta calibrazione tra flussi, che realizziamo attraverso un riscalamento delle caratteristiche basato su RMS. Insieme, questi risultati forniscono una ricetta semplice per il co-denoising visivo. Esperimenti su ImageNet-256 mostrano che, a dimensioni del modello comparabili, V-Co supera la linea di base della diffusione nello spazio dei pixel sottostante e forti metodi precedenti di diffusione nei pixel, utilizzando al contempo meno epoche di addestramento, offrendo una guida pratica per futuri modelli generativi allineati alle rappresentazioni.
La stilizzazione basata su diffusione ha compiuto progressi significativi, tuttavia i metodi esistenti sono limitati a trasformazioni guidate dal colore, trascurando la semantica complessa e i dettagli materiali. Introduciamo StyleExpert, un framework semantico-aware basato sulla Miscela di Esperti (MoE). Il nostro framework impiega un codificatore di stile unificato, addestrato sul nostro dataset su larga scala di triplette contenuto-stile-stilizzato, per incorporare stili diversi in uno spazio latente consistente. Questo incorporamento viene poi utilizzato per condizionare un meccanismo di gating similarity-aware, che instrada dinamicamente gli stili verso esperti specializzati all'interno dell'architettura MoE. Sfruttando questa architettura MoE, il nostro metodo gestisce con abilità stili diversificati che spaziano su molteplici livelli semantici, dalle texture superficiali alla semantica profonda. Esperimenti estensivi dimostrano che StyleExpert supera gli approcci esistenti nella preservazione della semantica e dei dettagli materiali, generalizzando al contempo verso stili non visti. Il nostro codice e le immagini raccolte sono disponibili alla pagina del progetto: https://hh-lg.github.io/StyleExpert-Page/.
I recenti progressi negli agenti multimodali hanno migliorato l'interazione con i computer e l'utilizzo di strumenti, tuttavia la maggior parte dei sistemi esistenti rimane reattiva, ottimizzando le azioni in isolamento senza ragionare sugli stati futuri o sugli obiettivi a lungo termine. Ciò limita la coerenza della pianificazione e impedisce agli agenti di risolvere in modo affidabile compiti complessi e multi-step di alto livello. Introduciamo TraceR1, un framework di apprendimento per rinforzo a due stadi che allena esplicitamente il ragionamento anticipatorio prevendo traiettorie a breve orizzonte prima dell'esecuzione. Il primo stadio esegue un apprendimento per rinforzo a livello di traiettoria con ricompense che impongono una coerenza globale attraverso le sequenze di azioni predette. Il secondo stadio applica un fine-tuning di rinforzo fondato, utilizzando il feedback di esecuzione da agenti strumento congelati per affinare l'accuratezza e l'eseguibilità a livello di step. TraceR1 viene valutato su sette benchmark, coprendo l'uso del computer online, benchmark di uso del computer offline e compiti di ragionamento con strumenti multimodali, dove ottiene miglioramenti sostanziali nella stabilità della pianificazione, nella robustezza esecutiva e nella generalizzazione rispetto ai baseline reattivi e a stadio singolo. Questi risultati dimostrano che il ragionamento anticipatorio sulle traiettorie è un principio chiave per costruire agenti multimodali in grado di ragionare, pianificare e agire efficacemente in ambienti complessi del mondo reale.
Presentiamo VAREX (VARied-schema EXtraction), un benchmark per valutare i modelli fondazione multimodali nell'estrazione di dati strutturati da moduli governativi. VAREX utilizza una pipeline di Reverse Annotation che compila programmaticamente modelli PDF con valori sintetici, producendo ground truth deterministico validato attraverso un controllo qualità in tre fasi. Il benchmark comprende 1.777 documenti con 1.771 schemi univoci suddivisi in tre categorie strutturali, ciascuno fornito in quattro modalità di input: testo semplice, testo con conservazione del layout (allineato con spazi bianchi per approssimare le posizioni delle colonne), immagine del documento, o combinazione di testo e immagine. A differenza dei benchmark esistenti che valutano da una singola rappresentazione di input, VAREX fornisce quattro modalità controllate per documento, consentendo un'abalazione sistematica di come il formato di input influisca sull'accuratezza dell'estrazione – una capacità assente nei benchmark precedenti. Valutiamo 20 modelli, dai modelli proprietari all'avanguardia a piccoli modelli open, con particolare attenzione ai modelli con ≤4B di parametri adatti per deployment con vincoli di costo e latenza. I risultati rivelano che (1) al di sotto dei 4B di parametri, la conformità dell'output strutturato – non la capacità estrattiva – è un collo di bottiglia dominante; in particolare, l'eco dello schema (modelli che producono una struttura conforme allo schema invece dei valori estratti) riduce i punteggi del 45-65 pp (punti percentuali) nei modelli interessati; (2) un fine-tuning specifico per l'estrazione su modelli da 2B produce guadagni di +81 pp, dimostrando che il deficit nel seguire le istruzioni è risolvibile senza scalare le dimensioni; (3) il testo con conservazione del layout fornisce il maggiore guadagno di accuratezza (+3-18 pp), superando i segnali visivi a livello di pixel; e (4) il benchmark discrimina più efficacemente i modelli nella fascia di accuratezza del 60-95%. Il dataset e il codice di valutazione sono pubblicamente disponibili.
Il paradigma dominante per migliorare il ragionamento matematico nei modelli linguistici si basa sul Reinforcement Learning con ricompense verificabili. Tuttavia, i metodi esistenti trattano ogni istanza del problema in isolamento, senza sfruttare le strategie riutilizzabili che emergono e si accumulano durante l'addestramento. A tal fine, introduciamo ARISE (Agent Reasoning via Intrinsic Skill Evolution), un framework di reinforcement learning gerarchico in cui una politica condivisa opera sia per gestire le abilità a livello alto sia per generare risposte a livello basso (denominati rispettivamente Gestore delle Abilità e Lavoratore). Il Gestore mantiene una libreria di abilità suddivisa in livelli attraverso un rollout dedicato alla generazione di abilità che esegue una summarizzazione strutturata delle tracce di soluzione di successo (dopo l'esecuzione), impiegando contemporaneamente un meccanismo di selezione guidato da policy per recuperare le abilità rilevanti al fine di condizionare i rollout futuri (prima dell'esecuzione). Un design gerarchico delle ricompense guida la co-evoluzione della capacità di ragionamento e della qualità della libreria. Esperimenti su due modelli base e sette benchmark che comprendono sia matematica competitiva che Omni-MATH mostrano che ARISE supera costantemente gli algoritmi della famiglia GRPO e i baseline potenziati con memoria, con guadagni particolarmente significativi su compiti fuori distribuzione. Studi di ablazione confermano che ogni componente contribuisce ai miglioramenti osservati e che la qualità della libreria e le prestazioni di ragionamento migliorano in tandem durante l'addestramento. Il codice è disponibile all'indirizzo https://github.com/Skylanding/ARISE.
La presa di decisioni nel mondo reale, dalla valutazione della conformità fiscale alla diagnosi medica, richiede l'aggregazione di molteplici fonti di evidenza rumorose e potenzialmente contraddittorie. Gli approcci esistenti o mancano di una quantificazione esplicita dell'incertezza (metodi di aggregazione neurale) o si basano su predicati discreti progettati manualmente (framework di logica probabilistica), limitando la scalabilità ai dati non strutturati. Introduciamo Latent Posterior Factors (LPF), un framework che trasforma le posteriori latenti del Variational Autoencoder (VAE) in fattori di verosimiglianza "soft" per l'inferenza nelle Sum-Product Network (SPN), consentendo un ragionamento probabilistico trattabile su evidenze non strutturate preservando stime calibrate dell'incertezza. Istanziamo LPF come LPF-SPN (inferenza strutturata basata su fattori) e LPF-Learned (aggregazione appresa end-to-end), permettendo un confronto rigoroso tra il ragionamento probabilistico esplicito e l'aggregazione appresa sotto una rappresentazione condivisa dell'incertezza. In otto domini (sette sintetici e il benchmark FEVER), LPF-SPN raggiunge un'elevata accuratezza (fino al 97,8%), un basso errore di calibrazione (ECE 1,4%) e un forte adattamento probabilistico, superando sostanzialmente l'apprendimento profondo evidenziale, i LLM e i baseline basati su grafi su 15 semi casuali. Contributi: (1) Un framework che collega le rappresentazioni latenti dell'incertezza con il ragionamento probabilistico strutturato. (2) Architetture duali che abilitano un confronto controllato tra paradigmi di ragionamento. (3) Metodologia di addestramento riproducibile con selezione dei semi. (4) Valutazione rispetto a baseline di EDL, BERT, R-GCN e modelli linguistici di grandi dimensioni. (5) Validazione incrociata su domini. (6) Garanzie formali in un articolo complementare.
La memoria persistente è una capacità fondamentale per gli agenti di IA, ma le basi matematiche del recupero della memoria, della gestione del ciclo di vita e della coerenza rimangono inesplorate. I sistemi attuali utilizzano la similarità del coseno per il recupero, decadimento euristico per la salienza e non forniscono un rilevamento formale delle contraddizioni. Stabiliamo fondamenta geometria-informazionale attraverso tre contributi. Primo, una metrica di recupero derivata dalla struttura di informazione di Fisher per famiglie gaussiane diagonali, che soddisfa gli assiomi metrici riemanniani, è invariante sotto statistiche sufficienti e calcolabile in tempo O(d). Secondo, il ciclo di vita della memoria formulato come dinamica di Langevin riemanniana con esistenza e unicità provata della distribuzione stazionaria tramite l'equazione di Fokker-Planck, sostituendo il decadimento manuale con garanzie di convergenza principiate. Terzo, un modello di fascio cellulare dove classi di coomologia prima non banali corrispondono precisamente a contraddizioni irriconciliabili tra contesti di memoria. Sul benchmark LoCoMo, gli strati matematici producono un miglioramento di +12,7 punti percentuali rispetto ai baseline ingegneristici su sei conversazioni, raggiungendo +19,9 pp sui dialoghi più impegnativi. Un'architettura di recupero a quattro canali raggiunge il 75% di accuratezza senza dipendenze cloud. I risultati potenziati dal cloud raggiungono l'87,7%. Una configurazione zero-LLM soddisfa i requisiti di sovranità dei dati dell'AI Act dell'UE per progettazione architetturale. A nostra conoscenza, questo è il primo lavoro che stabilisce fondamenta geometria-informazionale, teoria dei fasci e stocastico-dinamiche per i sistemi di memoria degli agenti di IA.
Presentiamo una caratterizzazione teorica completa dei Fattori Posteriori Latenti (LPF), un framework metodologicamente solido per aggregare molteplici elementi di prova eterogenei in compiti di previsione probabilistica. Il ragionamento basato su evidenze multiple sorge in modo pervasivo in domini ad alto rischio, inclusi la diagnosi sanitaria, la valutazione del rischio finanziario, l'analisi di casi legali e la conformità normativa, eppure gli approcci esistenti o mancano di garanzie formali o non riescono a gestire architetturalmente scenari multi-evidenza. LPF codifica ogni elemento di prova in un posteriore latente Gaussiano tramite un autoencoder variazionale, converte i posteriori in fattori soft attraverso la marginalizzazione Monte Carlo, e aggrega i fattori tramite inferenza esatta in una Sum-Product Network (LPF-SPN) o tramite un aggregatore neurale appreso (LPF-Learned). Dimostriamo sette garanzie formali che coprono i requisiti chiave per un'IA affidabile: Conservazione della Calibrazione (ECE <= epsilon + C/sqrt(K_eff)); Errore Monte Carlo che decade come O(1/sqrt(M)); un limite PAC-Bayes non vacuo con un gap train-test di 0,0085 per N=4200; operatività entro 1,12 volte il limite inferiore teorico dell'informazione; degradazione graduale come O(epsilon*delta*sqrt(K)) in caso di corruzione, mantenendo l'88% delle prestazioni con metà delle evidenze sostituite in modo avversariale; decadimento della calibrazione come O(1/sqrt(K)) con R^2=0,849; e una scomposizione esatta dell'incertezza epistemica-aleatoria con errore inferiore allo 0,002%. Tutti i teoremi sono convalidati empiricamente su dataset controllati che comprendono fino a 4.200 esempi di addestramento. Il nostro framework teorico stabilisce LPF come fondamento per un'IA multi-evidenza affidabile in applicazioni critiche per la sicurezza.
La risoluzione di problemi mediante l'utilizzo di strumenti sotto vincoli espliciti costituisce uno scenario altamente impegnativo ma inevitabile per i grandi modelli linguistici (LLM), che richiede capacità come la chiamata di funzioni, il rispetto di istruzioni e l'auto-miglioramento. Tuttavia, i progressi sono stati ostacolati dall'assenza di valutazioni dedicate. Per affrontare questa lacuna, introduciamo CCTU, un benchmark per valutare l'uso di strumenti da parte degli LLM sotto vincoli complessi. CCTU si basa su una tassonomia di 12 categorie di vincoli che abbracciano quattro dimensioni (risorse, comportamento, set di strumenti e risposta). Il benchmark comprende 200 casi di test accuratamente curati e impegnativi, relativi a diversi scenari di utilizzo di strumenti, ciascuno dei quali coinvolge in media sette tipi di vincoli e una lunghezza media del prompt superiore a 4.700 token. Per consentire una valutazione affidabile, abbiamo sviluppato un modulo eseguibile di convalida dei vincoli che esegue una validazione a livello di step e impone la conformità durante le interazioni multi-turno tra i modelli e i loro ambienti. Abbiamo valutato nove LLM all'avanguardia sia in modalità "con ragionamento" che "senza ragionamento". I risultati indicano che, quando è richiesto il rigoroso rispetto di tutti i vincoli, nessun modello raggiunge un tasso di completamento dei task superiore al 20%. Un'analisi più approfondita rivela che i modelli violano i vincoli in oltre il 50% dei casi, in particolare nelle dimensioni delle risorse e della risposta. Inoltre, gli LLM dimostrano una capacità limitata di auto-miglioramento anche dopo aver ricevuto feedback dettagliati sulle violazioni dei vincoli, evidenziando un collo di bottiglia critico nello sviluppo di agenti robusti per l'uso di strumenti. Per facilitare la ricerca futura, rendiamo pubblici dati e codice.
I modelli vision foundation (VFM) basati su Vision Transformers (ViT) hanno ottenuto prestazioni notevoli in varie attività di visione artificiale, ma soffrono di una complessità quadratica che ne limita la scalabilità a sequenze lunghe. Gli approcci esistenti di attenzione lineare per i ViT sono tipicamente addestrati da zero, richiedendo ingenti risorse computazionali, mentre i metodi basati sulla linearizzazione sviluppati per i decoder di grandi modelli linguistici non si trasferiscono efficacemente ai ViT. Per affrontare queste sfide, proponiamo ViT-AdaLA, un framework innovativo per adattare e trasferire efficacemente la conoscenza pregressa dai VFM ai ViT con attenzione lineare. ViT-AdaLA si articola in tre fasi: allineamento dell'attenzione, allineamento delle feature e fine-tuning supervisionato. Nella fase di allineamento dell'attenzione, allineiamo l'attenzione lineare standard con l'attenzione originale basata su softmax in ciascun blocco per approssimare il comportamento dell'attenzione softmax. Tuttavia, errori di approssimazione residui si accumulano inevitabilmente attraverso i layer. Mitighiamo questo problema effettuando il fine-tuning del ViT linearizzato per allineare le feature del layer finale con quelle di un insegnante VFM softmax congelato. Infine, la conoscenza pregressa adattata viene trasferita ai task downstream attraverso il fine-tuning supervisionato. Esperimenti estensivi su attività di classificazione e segmentazione dimostrano l'efficacia e la generalità di ViT-AdaLA rispetto a varie controparti all'avanguardia basate su attenzione lineare.
I sistemi di Generazione Aumentata dal Recupero (RAG) affrontano sfide con domande complesse e multi-hop, e framework agentivi come Search-R1 (Jin et al., 2025), che opera in modo iterativo, sono stati proposti per affrontare queste complessità. Tuttavia, tali approcci possono introdurre inefficienze, incluso il recupero ripetuto di informazioni già processate e difficoltà nel contestualizzare efficacemente i risultati recuperati all'interno del prompt di generazione corrente. Questi problemi possono portare a turni di recupero non necessari, ragionamento subottimale, risposte inaccurate e un aumento del consumo di token. In questo articolo, investigiamo modifiche applicate al momento del test alla pipeline Search-R1 per mitigare queste carenze identificate. Nello specifico, esploriamo l'integrazione di due componenti e la loro combinazione: un modulo di contestualizzazione per integrare meglio le informazioni rilevanti dai documenti recuperati nel ragionamento, e un modulo di deduplica che sostituisce i documenti già recuperati con i successivi più rilevanti. Valutiamo i nostri approcci utilizzando i dataset HotpotQA (Yang et al., 2018) e Natural Questions (Kwiatkowski et al., 2019), riportando il punteggio di corrispondenza esatta (EM), una valutazione della correttezza della risposta tramite LLM-as-a-Judge, e il numero medio di turni. La nostra variante dalle prestazioni migliori, che utilizza GPT-4.1-mini per la contestualizzazione, ottiene un aumento del 5,6% nel punteggio EM e riduce il numero di turni del 10,5% rispetto al baseline Search-R1, dimostrando un miglioramento dell'accuratezza delle risposte e dell'efficienza del recupero.
I modelli di diffusione mascherata (MDM) mostrano una generalizzazione superiore quando appresi utilizzando uno schema di mascheramento parziale (Prime). Questo approccio converte i token in sub-token e modella il processo di diffusione a livello di sub-token. Identifichiamo due limitazioni del framework MDM-Prime. In primo luogo, mancano strumenti per guidare la scelta degli iperparametri della granularità del token nel sottotokenizzatore. In secondo luogo, rileviamo che la forma funzionale del sottotokenizzatore degrada significativamente la stima della likelihood quando abbinata ai tokenizzatori Byte-Pair-Encoding (BPE) comunemente utilizzati. Per affrontare queste limitazioni, studiamo la tensione del limite variazionale in MDM-Prime e sviluppiamo MDM-Prime-v2, un modello linguistico di diffusione mascherata che incorpora la codifica binaria e l'ordinamento casuale degli indici. La nostra analisi di scalabilità rivela che MDM-Prime-v2 è 21,8 volte più efficiente in termini di calcolo rispetto ai modelli autoregressivi (ARM). In confronti ottimali per il calcolo, MDM-Prime-v2 raggiunge una perplexity di 7,77 su OpenWebText, superando ARM (12,99), MDM (18,94) e MDM-Prime (13,41). Estendendo la dimensione del modello a 1,1 miliardi di parametri, il nostro modello dimostra un'ulteriore superiorità in accuratezza zero-shot su varie attività di ragionamento di senso comune.
I metodi esistenti di generazione di scene 3D basati su diffusione operano principalmente in spazi latenti di immagini/video 2D, il che rende intrinsecamente difficile mantenere la coerenza dell'aspetto e geometrica tra le diverse viste. Per colmare questa lacuna, presentiamo OneWorld, un framework che esegue la diffusione direttamente all'interno di uno spazio di rappresentazione 3D coerente. Elemento centrale del nostro approccio è l'Autoencoder per la Rappresentazione Unificata 3D (3D-URAE); esso sfrutta modelli fondazione 3D pre-addestrati e ne potenzia la natura incentrata sulla geometria iniettando l'aspetto visivo e distillando la semantica in uno spazio latente 3D unificato. Inoltre, introduciamo una funzione di perdita di consistenza Corrispondenza-Intersezione-Visuale (CVC) a livello di token per imporre esplicitamente l'allineamento strutturale tra le viste, e proponiamo il Forzamento della Deriva sul Varietà (MDF) per mitigare il bias di esposizione addestramento-inferenza e modellare un varietà 3D robusto mescolando rappresentazioni derivate e originali. Esperimenti completi dimostrano che OneWorld genera scene 3D di alta qualità con una coerenza intersezione-visiva superiore rispetto ai metodi state-of-the-art basati su 2D. Il nostro codice sarà disponibile su https://github.com/SensenGao/OneWorld.
Presentiamo Polyglot-Lion, una famiglia di modelli compatti di riconoscimento automatico del parlato (ASR) multilingue, progettata per il panorama linguistico di Singapore, che copre inglese, mandarino, tamil e malese. I nostri modelli sono ottenuti addestrando tramite fine-tuning i modelli Qwen3-ASR-0.6B e Qwen3-ASR-1.7B esclusivamente su corpora vocali pubblicamente disponibili, utilizzando una strategia di campionamento bilanciata che equalizza il numero di enunciati di addestramento per lingua e omette deliberatamente il condizionamento tramite tag linguistici, in modo che il modello impari a identificare le lingue implicitamente dall'audio. Su 12 benchmark che coprono le quattro lingue target, Polyglot-Lion-1.7B raggiunge un tasso di errore medio del 14.85, risultando competitivo con MERaLiON-2-10B-ASR (14.32) – un modello 6 volte più grande – mentre richiede un costo di addestramento di 81$ su una singola GPU RTX PRO 6000, rispetto ai 18.862$ del baseline su 128 GPU. La velocità di inferenza è approssimativamente 20 volte più veloce di MERaLiON, con 0.10 s/campione rispetto a 2.02 s/campione. Questi risultati dimostrano che un fine-tuning linguisticamente bilanciato di modelli pre-addestrati di scala moderata può produrre sistemi ASR multilingue pronti per la distribuzione a una frazione del costo di sistemi specialistici più grandi.
La comprensione degli esseri umani a partire dalle nuvole di punti LiDAR rappresenta uno dei compiti più critici nella guida autonoma, data la sua stretta correlazione con la sicurezza dei pedoni, ma rimane impegnativa in presenza di diverse interazioni uomo-oggetto e contesti affollati. Tuttavia, i metodi esistenti trascurano ampiamente il potenziale di sfruttare le interazioni uomo-oggetto per costruire framework robusti di stima della posa umana 3D. Due sfide principali motivano l'incorporazione dell'interazione uomo-oggetto. In primo luogo, tali interazioni introducono ambiguità spaziale tra i punti umani e quelli degli oggetti, che spesso porta a previsioni errate dei punti chiave umani 3D nelle regioni di interazione. In secondo luogo, esiste uno squilibrio severo nella distribuzione delle classi per numero di punti tra le parti del corpo che interagiscono e quelle che non interagiscono, con le regioni ad alta frequenza d'interazione come mani e piedi osservate in modo sparso nei dati LiDAR. Per affrontare queste sfide, proponiamo un framework di Apprendimento dell'Interazione Uomo-Oggetto (HOIL) per una stima robusta della posa umana 3D da nuvole di punti LiDAR. Per mitigare il problema dell'ambiguità spaziale, presentiamo un apprendimento contrastivo consapevole dell'interazione uomo-oggetto (HOICL) che migliora efficacemente la discriminazione delle feature tra punti umani e oggetti, specialmente nelle regioni di interazione. Per alleviare il problema dello squilibrio tra classi, introduciamo un pooling guidato dalle parti e consapevole del contatto (CPPool) che riallocata adattivamente la capacità rappresentativa comprimendo i punti sovrarappresentati preservando al contempo i punti informativi dalle parti del corpo interagenti. Inoltre, presentiamo un raffinamento temporale opzionale basato sul contatto che migliora le stime errate dei punti chiave per fotogramma utilizzando indizi di contatto nel tempo. Di conseguenza, il nostro HOIL sfrutta efficacemente l'interazione uomo-oggetto per risolvere l'ambiguità spaziale e lo squilibrio tra classi nelle regioni di interazione. I codici saranno rilasciati.
I modelli diffusivi operano in una modalità riflessiva di Sistema 1, vincolati da una pianificazione di campionamento fissa e agnostica al contenuto. Questa rigidità sorge dalla maledizione della dimensionalità dello stato, in cui l'esplosione combinatoria degli stati possibili nel manifold di rumore ad alta dimensione rende intrattabile una pianificazione esplicita della traiettoria e porta a una sistematica errata allocazione computazionale. Per affrontare questo problema, introduciamo Chain-of-Trajectories (CoTj), un framework senza training che abilita una pianificazione deliberativa di Sistema 2. Elemento centrale di CoTj è il DNA della diffusione, una firma a bassa dimensionalità che quantifica la difficoltà di rimozione del rumore per ogni stadio e funge da proxy per lo spazio degli stati ad alta dimensionalità, permettendoci di riformulare il campionamento come una pianificazione su grafo su un grafo aciclico diretto. Attraverso un paradigma Prevedi-Pianifica-Esegui, CoTj alloca dinamicamente lo sforzo computazionale alle fasi generative più impegnative. Esperimenti condotti su molteplici modelli generativi dimostrano che CoTj scopre traiettorie consapevoli del contesto, migliorando la qualità e la stabilità dell'output riducendo al contempo il calcolo ridondante. Questo lavoro getta le basi per una modellazione diffusiva basata sulla pianificazione e consapevole delle risorse. Il codice è disponibile all'indirizzo https://github.com/UnicomAI/CoTj.
La recinzione su larga scala di terreni per mega-sviluppi speculativi costituisce un processo spaziale di non-equilibrio la cui velocità, topologia e irreversibilità rimangono scarsamente quantificate. Studiamo il mega-sviluppo costiero di Pantai Indah Kapuk 2 (PIK2) a nord di Giacarta, in Indonesia, utilizzando otto anni (2017-2024) di dati Sentinel-2 sull'uso/copertura del suolo (LULC) a una risoluzione di 10 metri. Il paesaggio viene proiettato su un simplesso di probabilità marxiano che partiziona i pixel terrestri in frazioni di Beni Comuni, Agraria e Capitale. Le distanze geodetiche di Fisher-Rao (FR) su questo simplesso identificano un impulso di trasformazione di 0,405 rad/anno durante il periodo 2019-2020, in coincidenza con la principale attività costruttiva. L'analisi della catena di Markov assorbente restituisce tempi di assorbimento attesi nell'ambiente costruito di 46,0 anni per i terreni coltivati e 38,1 anni per la copertura arborea, con un tasso di auto-ritenzione aggregato per le aree edificate del 96,4%. L'analisi di percolazione rivela che una componente connessa gigante contenente l'89-95% di tutti i pixel edificati persiste a probabilità di occupazione p nell'intervallo [0,096, 0,162], ben al di sotto della soglia di percolazione casuale p_c ≈ 0,593, indicando una crescita spaziale pianificata piuttosto che stocastica. La dimensione frattale box-counting del confine urbano aumenta da d_f = 1,316 a 1,397, coerente con un'espansione di frontiera sempre più irregolare. Questi risultati suggeriscono che gli strumenti dell'informazione-geometria e della meccanica statistica possono caratterizzare con precisione quantitativa le firme cinematiche e topologiche dell'accumulazione spaziale capitalistica.
I modelli linguistici chimici (CLM) sono emersi come promettenti concorrenti dei popolari modelli di apprendimento automatico classici per i compiti di predizione delle proprietà molecolari (MPP). Tuttavia, un numero crescente di studi ha riportato risultati inconsistenti e contraddittori riguardo alle prestazioni dei CLM su vari benchmark MPP. In questo studio, conduciamo e analizziamo centinaia di esperimenti meticolosamente controllati per investigare sistematicamente gli effetti di vari fattori, come la dimensione del dataset, la dimensione del modello e la standardizzazione, sulle prestazioni dei CLM in fase di pre-addestramento e fine-tuning per l'MPP. In assenza di leggi di scala ben consolidate per modelli linguistici mascherati con solo encoder, il nostro obiettivo è fornire evidenze numeriche complete e una comprensione più profonda dei meccanismi sottostanti che influenzano le prestazioni dei CLM per i compiti MPP, alcuni dei quali sembrano essere completamente trascurati in letteratura.
Presentiamo HistoAtlas, un atlante computazionale pan-cancro che estrae 38 caratteristiche istologiche interpretabili da 6.745 vetrini diagnostici H&E relativi a 21 tipi di cancro del TCGA, collegando sistematicamente ogni caratteristica a sopravvivenza, espressione genica, mutazioni somatiche e sottotipi immunitari. Tutte le associazioni sono corrette per covariabili, aggiustate per test multipli e classificate in livelli di forza dell'evidenza. L'atlante recupera biologia nota, dall'infiltrazione immunitaria e prognosi alla proliferazione e segnalazione chinasica, scoprendo al contempo segnali immunitari specifici per compartimento e sottotipi morfologici con esiti divergenti. Ogni risultato è tracciabile spazialmente fino ai compartimenti tissutali e alle singole cellule, statisticamente calibrato e consultabile liberamente. HistoAtlas consente la scoperta sistematica e su larga scala di biomarcatori a partire da colorazioni H&E di routine, senza necessità di colorazioni specializzate o sequenziamento. I dati e un atlante web interattivo sono liberamente disponibili all'indirizzo https://histoatlas.com.