Articoli di ricerca IA selezionati quotidianamente con traduzioni
Recenti studi, come quello sulle Iper-Connessioni (HC), hanno esteso il paradigma ubiquitario delle connessioni residue consolidatosi nell'ultimo decennio, ampliando la larghezza del flusso residuo e diversificando gli schemi di connettività. Sebbene si ottengano sostanziali miglioramenti delle prestazioni, questa diversificazione compromette fondamentalmente la proprietà di identity mapping intrinseca della connessione residua, causando una grave instabilità durante l'addestramento e una scalabilità limitata, oltre a comportare un sovraccarico significativo negli accessi alla memoria. Per affrontare queste sfide, proponiamo le Iper-Connessioni a Vincolo di Varietà (mHC), un framework generale che proietta lo spazio delle connessioni residue delle HC su una varietà specifica per ripristinare la proprietà di identity mapping, incorporando al contempo un'ottimizzazione rigorosa dell'infrastruttura per garantire l'efficienza. Esperimenti empirici dimostrano che mHC è efficace per l'addestramento su larga scala, offrendo miglioramenti tangibili delle prestazioni e una scalabilità superiore. Anticipiamo che mHC, in quanto estensione flessibile e pratica delle HC, contribuirà a una comprensione più profonda della progettazione architetturale topologica e indicherà direzioni promettenti per l'evoluzione dei modelli fondanti.
Introduciamo Youtu-LLM, un modello linguistico leggero ma potente che armonizza un'elevata efficienza computazionale con un'intelligenza agenziale nativa. A differenza dei tipici modelli di piccole dimensioni che si basano sulla distillazione, Youtu-LLM (1.96B) è pre-addestrato da zero per coltivare sistematicamente capacità di ragionamento e pianificazione. I progressi tecnici chiave sono i seguenti: (1) Architettura Compatta con Supporto a Contesti Lunghi: Basata su un'architettura densa Multi-Latent Attention (MLA) con un nuovo vocabolario orientato alle STEM, Youtu-LLM supporta una finestra di contesto di 128k token. Questo design consente un solido ragionamento su contesti lunghi e il tracciamento degli stati con un'impronta di memoria minima, rendendolo ideale per compiti agenziali e di ragionamento a lungo termine. (2) Curriculum Principe "Commonsense-STEM-Agent": Abbiamo curato un corpus massiccio di circa 11T di token e implementato una strategia di addestramento multi-stadio. Spostando progressivamente la distribuzione dei dati di pre-addestramento dal senso comune generale a compiti STEM complessi e agenziali, ci assicuriamo che il modello acquisisca abilità cognitive profonde piuttosto che un allineamento superficiale. (3) Mid-training Agenziale Scalabile: Specificamente per il mid-training agenziale, impieghiamo diversi schemi di costruzione dei dati per sintetizzare traiettorie ricche e variegate negli ambiti della matematica, della programmazione e dell'uso di strumenti. Questi dati di alta qualità permettono al modello di interiorizzare efficacemente comportamenti di pianificazione e riflessione. Valutazioni estensive mostrano che Youtu-LLM stabilisce un nuovo stato dell'arte per LLM sotto i 2B parametri. Su benchmark generali, raggiunge prestazioni competitive rispetto a modelli più grandi, mentre su compiti specificamente agenziali supera significativamente i baseline SOTA esistenti, dimostrando che modelli leggeri possono possedere forti capacità agenziali intrinseche.
La creazione agentica richiede che i LLM operino in ambienti reali attraverso più turni, compiendo azioni, osservando i risultati e perfezionando iterativamente gli artefatti. Nonostante la sua importanza, la comunità open-source manca di un ecosistema principiato e end-to-end per semplificare lo sviluppo degli agenti. Introduciamo l'Ecosistema di Apprendimento Agentico (ALE), un'infrastruttura fondamentale che ottimizza la pipeline di produzione per i LLM agentici. ALE è composto da tre componenti: ROLL, un framework di post-addestramento per l'ottimizzazione dei pesi; ROCK, un gestore di ambienti sandbox per la generazione di traiettorie; e iFlow CLI, un framework per agenti per un'efficiente ingegneria del contesto. Rilasciamo ROME (ROME è Ovviamente un Modello Agentico), un agente open-source basato su ALE e addestrato su oltre un milione di traiettorie. Il nostro approccio include protocolli di composizione dei dati per sintetizzare comportamenti complessi e un nuovo algoritmo di ottimizzazione delle policy, l'Allineamento delle Policy basato sull'Interazione (IPA), che assegna il merito su blocchi di interazione semantica anziché su singoli token per migliorare la stabilità dell'addestramento a lungo termine. Empiricamente, valutiamo ROME in un ambiente strutturato e introduciamo Terminal Bench Pro, un benchmark con una scala migliorata e un controllo della contaminazione. ROME dimostra prestazioni solide in benchmark come SWE-bench Verified e Terminal Bench, dimostrando l'efficacia dell'infrastruttura ALE.
La rilevazione delle anomalie nei log è cruciale per preservare la sicurezza dei sistemi operativi. A seconda della fonte di raccolta dei dati di log, varie informazioni vengono registrate nei log che possono essere considerate come modalità di log. Alla luce di questa intuizione, i metodi unimodali spesso incontrano difficoltà ignorando le diverse modalità dei dati di log. Nel frattempo, i metodi multimodali non riescono a gestire le interazioni tra queste modalità. Applicando l'analisi del sentiment multimodale alla rilevazione delle anomalie nei log, proponiamo CoLog, un framework che codifica i log in modo collaborativo utilizzando varie modalità. CoLog utilizza transformer collaborativi e un'attenzione multi-testo impressionata per apprendere le interazioni tra diverse modalità, garantendo una rilevazione completa delle anomalie. Per gestire l'eterogeneità causata da queste interazioni, CoLog incorpora uno strato di adattamento della modalità, che adatta le rappresentazioni provenienti dalle diverse modalità di log. Questa metodologia consente a CoLog di apprendere modelli sfumati e dipendenze all'interno dei dati, potenziando le sue capacità di rilevazione delle anomalie. Esperimenti estensivi dimostrano la superiorità di CoLog rispetto ai metodi state-of-the-art esistenti. Inoltre, nel rilevare sia anomalie puntuali che collettive, CoLog raggiunge una precisione media del 99,63%, un recall medio del 99,59% e un punteggio F1 medio del 99,61% su sette dataset di benchmark per la rilevazione di anomalie basata sui log. Le capacità di rilevazione complete di CoLog lo rendono altamente adatto per la cybersecurity, il monitoraggio dei sistemi e l'efficienza operativa. CoLog rappresenta un avanzamento significativo nella rilevazione delle anomalie nei log, fornendo una soluzione sofisticata ed efficace per il rilevamento di anomalie puntuali e collettive attraverso un framework unificato e una soluzione alle complesse sfide poste dall'analisi automatica dei dati di log. Forniamo inoltre l'implementazione di CoLog all'indirizzo https://github.com/NasirzadehMoh/CoLog.
I recenti progressi nella ricostruzione 3D hanno ottenuto risultati notevoli nella cattura di scene di alta qualità a partire da immagini multi-vista dense, ma incontrano difficoltà quando le viste di input sono limitate. Diverse metodologie, incluse tecniche di regolarizzazione, prior semantici e vincoli geometrici, sono state implementate per affrontare questa sfida. I più recenti metodi basati su modelli di diffusione hanno dimostrato miglioramenti sostanziali generando nuove viste da pose di camera differenti per aumentare i dati di addestramento, superando le precedenti tecniche basate su regolarizzazione e prior. Nonostante questi progressi, identifichiamo tre limitazioni critiche in questi approcci allo stato dell'arte: una copertura inadeguata oltre le periferie delle viste conosciute, inconsistenze geometriche tra le viste generate e pipeline computazionalmente costose. Introduciamo GaMO (Geometry-aware Multi-view Outpainter), un framework che riformula la ricostruzione da viste sparse attraverso l'outpainting multi-vista. Invece di generare nuovi punti di vista, GaMO espande il campo visivo dalle pose di camera esistenti, preservando intrinsecamente la coerenza geometrica mentre fornisce una copertura della scena più ampia. Il nostro approccio impiega strategie di condizionamento multi-vista e di denoising consapevole della geometria in maniera zero-shot, senza addestramento. Esperimenti estensivi su Replica e ScanNet++ dimostrano una qualità di ricostruzione allo stato dell'arte con 3, 6 e 9 viste di input, superando i metodi precedenti in termini di PSNR e LPIPS, e ottenendo un accelerazione di 25 volte rispetto ai metodi basati su diffusione allo stato dell'arte, con un tempo di elaborazione inferiore a 10 minuti. Pagina del progetto: https://yichuanh.github.io/GaMO/
La memoria funge da snodo cruciale che collega passato e futuro, fornendo sia agli esseri umani che ai sistemi di IA concetti ed esperienze preziose per affrontare compiti complessi. La ricerca recente sugli agenti autonomi si è sempre più concentrata sulla progettazione di flussi di lavoro efficienti per la memoria attingendo dalle neuroscienze cognitive. Tuttavia, limitati da barriere interdisciplinari, i lavori esistenti faticano ad assimilare l'essenza dei meccanismi della memoria umana. Per colmare questa lacuna, sintetizziamo sistematicamente le conoscenze interdisciplinari sulla memoria, collegando le intuizioni delle neuroscienze cognitive con gli agenti basati su LLM. Nello specifico, illustriamo innanzitutto la definizione e la funzione della memoria lungo un percorso progressivo che va dalle neuroscienze cognitive, passa attraverso gli LLM e arriva agli agenti. Forniamo quindi un'analisi comparativa della tassonomia della memoria, dei meccanismi di archiviazione e del completo ciclo di gestione della vita, sia da una prospettiva biologica che artificiale. Successivamente, esaminiamo i benchmark principali per valutare la memoria degli agenti. Inoltre, esploriamo la sicurezza della memoria da una duplice prospettiva di attacco e difesa. Infine, prevediamo future direzioni di ricerca, con un focus sui sistemi di memoria multimodale e l'acquisizione di abilità.
Presentiamo PFP, una struttura di rete neurale per comprimere video lunghi in contesti brevi, con un obiettivo di pre-addestramento esplicito volto a preservare i dettagli ad alta frequenza di singoli fotogrammi in posizioni temporali arbitrarie. Il modello baseline può comprimere un video di 20 secondi in un contesto di circa 5k token, da cui è possibile recuperare fotogrammi casuali con aspetti percettivamente preservati. Tali modelli pre-addestrati possono essere direttamente perfezionati come encoder di memoria per modelli video autoregressivi, consentendo memoria a lungo termine con basso costo computazionale e perdita di fedeltà relativamente contenuta. Valutiamo il framework con impostazioni ablative e discutiamo i compromessi delle possibili architetture neurali.
I modelli visione-linguaggio-azione (VLA) hanno reso possibile la manipolazione robotica a lungo orizzonte condizionata dal linguaggio, ma la maggior parte dei sistemi esistenti è limitata a pinze. Scalare le politiche VLA per robot bimanuali dotati di mani dattili ad alto grado di libertà (DoF) rimane una sfida a causa dello spazio d'azione ampliato, delle frequenti occlusioni mano-oggetto e del costo associato alla raccolta di dati su robot reali. Presentiamo GR-Dexter, un framework hardware-modello-dati olistico per la manipolazione generalista basata su VLA su un robot bimanuale con mani dattili. Il nostro approccio combina la progettazione di una mano robotica compatta a 21 DoF, un sistema di teletrasporto bimanuale intuitivo per la raccolta di dati su robot reali e una metodologia di addestramento che sfrutta le traiettorie robotiche teleoperate insieme a dataset su larga scala di visione e linguaggio e dataset cross-embodiment accuratamente curati. In valutazioni nel mondo reale che abbracciano la manipolazione quotidiana a lungo orizzonte e il pick-and-place generalizzabile, GR-Dexter raggiunge prestazioni solide in dominio e una maggiore robustezza rispetto a oggetti non visti e istruzioni non viste. Speriamo che GR-Dexter rappresenti un passo pratico verso la manipolazione robotica generalista con mani dattili.
I recenti progressi nella generazione testo-video (T2V) hanno raggiunto una buona qualità visiva, ma la sintesi di video che seguano fedelmente le leggi fisiche rimane una sfida aperta. I metodi esistenti, basati principalmente sulla grafica o sull'estensione dei prompt, faticano a generalizzare oltre ambienti simulati semplici o ad apprendere un ragionamento fisico implicito. Anche la scarsità di dati di addestramento con interazioni e fenomeni fisici ricchi costituisce un problema. In questo articolo, introduciamo innanzitutto una pipeline di costruzione di dati video arricchiti con la fisica, PhyAugPipe, che sfrutta un modello visione-linguaggio (VLM) con ragionamento a catena di pensiero per raccogliere un ampio dataset di addestramento, PhyVidGen-135K. Successivamente, formuliamo un framework principiato di ottimizzazione diretta delle preferenze di gruppo consapevole della fisica, PhyGDPO, che si basa sul modello probabilistico di Plackett-Luce di gruppo per catturare preferenze olistiche che vadano oltre i confronti a coppie. In PhyGDPO, progettiamo uno schema di ricompensa guidata dalla fisica (PGR) che incorpora ricompense fisiche basate su VLM per orientare l'ottimizzazione verso la coerenza fisica. Proponiamo inoltre uno schema di riferimento a commutazione LoRA (LoRA-SR) che elimina la duplicazione dei riferimenti onerosa per la memoria, consentendo un addestramento efficiente. Gli esperimenti mostrano che il nostro metodo supera significamente i metodi open-source all'avanguardia su PhyGenBench e VideoPhy2. Si prega di consultare la nostra pagina del progetto all'indirizzo https://caiyuanhao1998.github.io/project/PhyGDPO per ulteriori risultati video. Il nostro codice, modelli e dati saranno rilasciati all'indirizzo https://github.com/caiyuanhao1998/Open-PhyGDPO.
Questo articolo presenta JavisGPT, il primo modello linguistico multimodale di grandi dimensioni (MLLM) unificato per la comprensione e generazione congiunta audio-video (JAV). JavisGPT adotta una concisa architettura encoder-LLM-decoder, caratterizzata da un modulo SyncFusion per la fusione spazio-temporale audio-video e query apprendibili con consapevolezza della sincronia per collegare un generatore JAV-DiT preaddestrato. Questo design abilita la comprensione e generazione audio-video temporalmente coerenti a partire da istruzioni multimodali. Progettiamo una pipeline di addestramento efficace in tre fasi, composta da preaddestramento multimodale, fine-tuning audio-video e instruction-tuning su larga scala, per costruire progressivamente capacità di comprensione e generazione multimodali a partire da modelli visione-linguaggio esistenti. A supporto di ciò, costruiamo ulteriormente JavisInst-Omni, un dataset di istruzioni di alta qualità con oltre 200.000 dialoghi audio-video-testo curati da GPT-4o che coprono scenari diversificati e multilivello di comprensione e generazione. Esperimenti estesi su benchmark di comprensione e generazione JAV dimostrano che JavisGPT supera gli MLLM esistenti, particolarmente in contesti complessi e temporalmente sincronizzati.
La presa di decisioni ad alto rischio implica il ragionamento in condizioni di incertezza sul futuro. In questo lavoro, addestriamo modelli linguistici a formulare previsioni su domande di forecasting a risposta aperta. Per incrementare i dati di addestramento, sintetizziamo nuove domande previsionali a partire da eventi globali riportati nelle notizie quotidiane, utilizzando una procedura di selezione completamente automatizzata e accurata. Addestriamo i modelli di ragionamento Qwen3 sul nostro dataset, OpenForesight. Per prevenire la fuoriuscita di informazioni future durante l'addestramento e la valutazione, utilizziamo un corpus di notizie offline, sia per la generazione dei dati che per il recupero delle informazioni nel nostro sistema previsionale. Guidati da un piccolo set di validazione, dimostriamo i vantaggi del retrieval e di una funzione di reward migliorata per l'apprendimento per rinforzo (RL). Una volta ottenuto il nostro sistema previsionale finale, eseguiamo test su dati non visti nel periodo da maggio ad agosto 2025. Il nostro modello specializzato, OpenForecaster 8B, eguaglia le prestazioni di modelli proprietari molto più grandi, con il nostro addestramento che migliora l'accuratezza, la calibrazione e la coerenza delle previsioni. Rileviamo che i miglioramenti nella calibrazione ottenuti con l'addestramento al forecasting si generalizzano su benchmark popolari. Rendi-amo open-source tutti i nostri modelli, il codice e i dati per rendere ampiamente accessibile la ricerca sul forecasting con modelli linguistici.
Nonostante le crescenti capacità di ragionamento dei recenti grandi modelli linguistici (LLM), i loro meccanismi interni durante il processo di ragionamento rimangono poco esplorati. Gli approcci precedenti spesso si basano su concetti definiti dall'uomo (ad esempio, sovrapensiero, riflessione) a livello di parola per analizzare il ragionamento in maniera supervisionata. Tuttavia, tali metodi sono limitati, poiché è impossibile catturare l'intero spettro dei potenziali comportamenti di ragionamento, molti dei quali sono difficili da definire nello spazio dei token. In questo lavoro, proponiamo un framework non supervisionato (denominato RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) per scoprire i vettori di ragionamento, che definiamo come direzioni nello spazio di attivazione che codificano comportamenti di ragionamento distinti. Segmentando le tracce di ragionamento a catena in "passi" a livello di frase e addestrando autoencoder sparsi (SAE) sulle attivazioni a livello di passo, scopriamo caratteristiche disaccoppiate corrispondenti a comportamenti interpretabili come la riflessione e il backtracking. Le analisi di visualizzazione e clustering mostrano che questi comportamenti occupano regioni separabili nello spazio delle colonne del decodificatore. Inoltre, interventi mirati sui vettori derivati dai SAE possono amplificare o sopprimere in modo controllabile specifici comportamenti di ragionamento, alterando le traiettorie di inferenza senza riaddestramento. Oltre al disaccoppiamento specifico per comportamento, i SAE catturano proprietà strutturali come la lunghezza della risposta, rivelando cluster di tracce di ragionamento lunghe rispetto a quelle corte. Ancora più interessante, i SAE consentono la scoperta di nuovi comportamenti al di là della supervisione umana. Dimostriamo la capacità di controllare la confidenza della risposta identificando vettori correlati alla confidenza nello spazio del decodificatore del SAE. Questi risultati sottolineano il potenziale della scoperta latente non supervisionata sia per interpretare che per guidare in modo controllabile il ragionamento negli LLM.
Presentiamo SpaceTimePilot, un modello di diffusione video che dissocia lo spazio e il tempo per il rendering generativo controllabile. Dato un video monoculare, SpaceTimePilot può alterare indipendentemente il punto di vista della telecamera e la sequenza di movimento all'interno del processo generativo, re-renderizzando la scena per un'esplorazione continua e arbitraria attraverso lo spazio e il tempo. Per ottenere questo risultato, introduciamo un efficace meccanismo di incorporamento temporale per l'animazione nel processo di diffusione, che consente un controllo esplicito della sequenza di movimento del video di output rispetto a quella del video sorgente. Poiché nessun dataset fornisce video accoppiati della stessa scena dinamica con variazioni temporali continue, proponiamo uno schema di addestramento di temporal-warping semplice ma efficace che riutilizza dataset multi-view esistenti per simulare differenze temporali. Questa strategia supervisiona efficacemente il modello per apprendere il controllo temporale e raggiungere una robusta dissociazione spazio-temporale. Per migliorare ulteriormente la precisione del controllo duale, introduciamo due componenti aggiuntive: un meccanismo migliorato di condizionamento della telecamera che consente di alterare la telecamera dal primo fotogramma, e CamxTime, il primo dataset sintetico di rendering a copertura completa spazio-temporale che fornisce traiettorie video spazio-temporali completamente libere all'interno di una scena. L'addestramento congiunto sullo schema di temporal-warping e sul dataset CamxTime produce un controllo temporale più preciso. Valutiamo SpaceTimePilot su dati sia del mondo reale che sintetici, dimostrando una chiara dissociazione spazio-temporale e risultati solidi rispetto ai lavori precedenti. Pagina del progetto: https://zheninghuang.github.io/Space-Time-Pilot/ Codice: https://github.com/ZheningHuang/spacetimepilot
Il rapido progresso dei sistemi autonomi, inclusi veicoli a guida autonoma e droni, ha intensificato la necessità di sviluppare una vera Intelligenza Spaziale a partire da dati multi-modali dei sensori di bordo. Sebbene i modelli di fondazione eccellano in contesti mono-modali, integrare le loro capacità attraverso sensori diversi come telecamere e LiDAR per creare una comprensione unificata rimane una sfida formidabile. Questo articolo presenta un quadro completo per il pre-addestramento multi-modale, individuando il nucleo di tecniche che guidano il progresso verso questo obiettivo. Analizziamo l'interazione tra le caratteristiche fondamentali dei sensori e le strategie di apprendimento, valutando il ruolo di dataset specifici per piattaforma nell'abilitare questi avanzamenti. Il nostro contributo principale è la formulazione di una tassonomia unificata per i paradigmi di pre-addestramento: che spazia dalle baseline a modalità singola a framework unificati sofisticati che apprendono rappresentazioni olistiche per task avanzati come la rilevazione di oggetti 3D e la previsione di occupazione semantica. Inoltre, investigiamo l'integrazione di input testuali e rappresentazioni di occupazione per facilitare la percezione e la pianificazione in mondo aperto. Infine, identifichiamo colli di bottiglia critici, come l'efficienza computazionale e la scalabilità del modello, e proponiamo una roadmap verso modelli di fondazione multi-modali generici in grado di raggiungere un'Intelligenza Spaziale robusta per il dispiegamento nel mondo reale.
Il modello di diffusione dimostra una notevole capacità di catturare l'intera distribuzione dati (condizionale). Tuttavia, a causa della mancanza di un addestramento e di dati sufficienti per apprendere a coprire le aree a bassa probabilità, il modello viene penalizzato quando non riesce a generare immagini di alta qualità corrispondenti a tali aree. Per ottenere una migliore qualità generativa, strategie di guida come la classifier free guidance (CFG) possono indirizzare i campioni verso le aree ad alta probabilità durante la fase di campionamento. Tuttavia, la CFG standard spesso porta a campioni eccessivamente semplificati o distorti. D'altro canto, l'approccio alternativo di guidare il modello di diffusione con una sua versione degradata è limitato dalla necessità di strategie di degradazione accuratamente progettate, addestramento aggiuntivo e passi di campionamento supplementari. In questo articolo, proponiamo una strategia semplice ma efficace, l'Internal Guidance (IG), che introduce una supervisione ausiliaria sullo strato intermedio durante il processo di addestramento ed estrapola gli output degli strati intermedi e profondi per ottenere i risultati generativi durante il processo di campionamento. Questa strategia semplice produce miglioramenti significativi sia nell'efficienza dell'addestramento che nella qualità generativa su varie baseline. Su ImageNet 256x256, SiT-XL/2+IG raggiunge FID=5.31 e FID=1.75 rispettivamente a 80 e 800 epoche. Ancora più impressionante, LightningDiT-XL/1+IG raggiunge un FID=1.34, che rappresenta un ampio margine di miglioramento rispetto a tutti questi metodi. In combinazione con CFG, LightningDiT-XL/1+IG raggiunge l'attuale stato dell'arte con un FID di 1.19.
I recenti modelli video-linguistici hanno mostrato un grande potenziale per la comprensione dei video, ma faticano ancora con un'accurata localizzazione temporale per la percezione a livello di evento. Osserviamo che due fattori principali nella comprensione video (cioè, la localizzazione temporale e la risposta testuale) formano una gerarchia logica: un'accurata localizzazione delle evidenze temporali getta le basi per una risposta testuale affidabile. Tuttavia, i lavori esistenti tipicamente gestiscono questi due compiti in modo accoppiato senza una struttura logica chiara, portando a obiettivi sub-ottimali. Affrontiamo questo problema da una prospettiva di apprendimento fattorizzato. Proponiamo prima D²VLM, un framework che disaccoppia l'apprendimento di questi due compiti pur enfatizzandone la dipendenza intrinseca. Adottiamo un paradigma di "localizzazione seguita da risposta con riferimento all'evidenza" e introduciamo token di evidenza per la localizzazione delle prove, che enfatizzano la cattura della semantica visiva a livello di evento oltre l'attenzione sulla rappresentazione temporale presente nei lavori esistenti. Per facilitare ulteriormente l'apprendimento di questi due compiti, introduciamo un nuovo algoritmo di ottimizzazione delle preferenze fattorizzato (FPO). A differenza dell'ottimizzazione standard delle preferenze, la FPO incorpora esplicitamente la modellizzazione probabilistica della localizzazione temporale nell'obiettivo di ottimizzazione, consentendo l'apprendimento delle preferenze sia per la localizzazione temporale che per la risposta testuale. Costruiamo anche un dataset sintetico per colmare la carenza di dataset adatti per l'apprendimento delle preferenze fattorizzato con localizzazione temporale esplicita. Esperimenti su vari compiti dimostrano il netto vantaggio del nostro approccio. Il nostro codice sorgente è disponibile all'indirizzo https://github.com/nusnlp/d2vlm.
La classificazione dei suoni respiratori è ostacolata dalle dimensioni limitate, dagli elevati livelli di rumore e dal severo squilibrio delle classi nei dataset di riferimento come l'ICBHI 2017. Sebbene i modelli basati su Transformer offrano potenti capacità di estrazione delle caratteristiche, sono inclini all'overfitting e spesso convergono verso minimi acuti nel panorama della loss quando addestrati su tali dati medici limitati. Per affrontare questo problema, introduciamo un framework che migliora l'Audio Spectrogram Transformer (AST) utilizzando la Sharpness-Aware Minimization (SAM). Invece di limitarsi a minimizzare la loss di addestramento, il nostro approccio ottimizza la geometria della superficie della loss, guidando il modello verso minimi più piatti che generalizzano meglio su pazienti non visti. Implementiamo inoltre una strategia di campionamento pesato per gestire efficacemente lo squilibrio delle classi. Il nostro metodo raggiunge un punto state-of-the-art del 68,10% sul dataset ICBHI 2017, superando le baseline esistenti basate su CNN e ibride. Ancora più importante, raggiunge una sensibilità del 68,31%, un miglioramento cruciale per uno screening clinico affidabile. Un'ulteriore analisi che utilizza t-SNE e mappe di attenzione conferma che il modello apprende caratteristiche robuste e discriminative piuttosto che memorizzare il rumore di fondo.
I problemi complessi di ragionamento spesso coinvolgono relazioni spaziali, geometriche e strutturali implicite che non sono codificate esplicitamente nel testo. Sebbene i recenti modelli di ragionamento abbiano ottenuto prestazioni elevate in molti ambiti, il ragionamento puramente basato sul testo fatica a rappresentare i vincoli strutturali globali in contesti complessi. In questo articolo introduciamo FIGR, che integra il pensiero visivo attivo nel ragionamento a più turni tramite apprendimento per rinforzo end-to-end. FIGR esternalizza le ipotesi strutturali intermedie costruendo rappresentazioni visive durante la risoluzione dei problemi. Regolando in modo adattivo quando e come il ragionamento visivo debba essere invocato, FIGR consente un ragionamento più stabile e coerente sulle proprietà strutturali globali che sono difficili da catturare dal solo testo. Esperimenti su benchmark impegnativi di ragionamento matematico dimostrano che FIGR supera le solide baseline di ragionamento a catena del pensiero (chain-of-thought) esclusivamente testuali. In particolare, FIGR migliora il modello base del 13,12% su AIME 2025 e dell'11,00% su BeyondAIME, evidenziando l'efficacia del ragionamento multimodale guidato da figure nel migliorare la stabilità e l'affidabilità del ragionamento complesso.
Il dialogo strategico richiede che gli agenti eseguano atti dialogici distinti, per i quali la stima delle credenze è essenziale. Sebbene i lavori precedenti spesso stimino le credenze in modo accurato, mancano di un meccanismo principiato per utilizzare tali credenze durante la generazione. Colmiamo questa lacuna formalizzando innanzitutto due atti fondamentali, Avversariale e Allineamento, e operazionalizzandoli tramite vincoli probabilistici su ciò che un agente può generare. Istanziamo questa idea in BEDA, un framework che consiste nell'insieme del mondo, nello stimatore di credenze per la stima delle credenze e nel generatore condizionale che seleziona gli atti e realizza espressioni coerenti con le credenze inferite. In tre contesti - Conditional Keeper Burglar (CKBG, avversariale), Mutual Friends (MF, cooperativo) e CaSiNo (negoziazione) - BEDA supera costantemente baseline robuste: su CKBG migliora il tasso di successo di almeno 5,0 punti su tutti i backbone e di 20,6 punti con GPT-4.1-nano; su Mutual Friends ottiene un miglioramento medio di 9,3 punti; e su CaSiNo raggiunge l'accordo ottimale rispetto a tutte le baseline. Questi risultati indicano che l'utilizzo della stima delle credenze come vincolo fornisce un meccanismo semplice e generale per un dialogo strategico affidabile.
I moderni sistemi di IA si basano su embedding vettoriali memorizzati e ricercati utilizzando l'aritmetica in virgola mobile. Sebbene efficace per la ricerca di similarità approssimata, questo progetto introduce una non-determinismo fondamentale: modelli, input e codice identici possono produrre stati di memoria e risultati di recupero diversi su diverse architetture hardware (ad esempio, x86 vs. ARM). Ciò impedisce la riproducibilità e la distribuzione sicura, portando a una divergenza silenziosa dei dati che ostacola la verifica post-hoc e compromette le tracce di controllo nei settori regolamentati. Presentiamo Valori, un substrato di memoria IA deterministico che sostituisce le operazioni di memoria in virgola mobile con l'aritmetica in virgola fissa (Q16.16) e modella la memoria come una macchina a stati riproducibile. Valori garantisce stati di memoria, snapshot e risultati di ricerca bit-identici su diverse piattaforme. Dimostriamo che la non-determinismo sorge prima dell'indicizzazione o del recupero e mostriamo come Valori impone il determinismo al confine della memoria. I nostri risultati suggeriscono che una memoria deterministica è un primitivo necessario per sistemi di IA affidabili. L'implementazione di riferimento è open-source e disponibile all'indirizzo https://github.com/varshith-Git/Valori-Kernel (archiviata su https://zenodo.org/records/18022660).