Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Being-H0.5, un modello fondazionale Visione-Linguaggio-Azione (VLA) progettato per una robusta generalizzazione cross-embodiment su piattaforme robotiche diverse. Mentre i VLA esistenti spesso incontrano difficoltà con l'eterogeneità morfologica e la scarsità di dati, noi proponiamo un paradigma di apprendimento human-centric che tratta le tracce di interazione umana come un "linguaggio madre" universale per l'interazione fisica. A supporto di ciò, presentiamo UniHand-2.0, la più vasta ricetta di pre-training embodied fino ad oggi, comprendente oltre 35.000 ore di dati multimodali su 30 embodiment robotici distinti. Il nostro approccio introduce uno Spazio d'Azione Unificato che mappa i controlli eterogenei dei robot in slot semanticamente allineati, permettendo a robot con poche risorse di acquisire competenze dai dati umani e da piattaforme ad alte risorse. Costruito su questa base human-centric, progettiamo un paradigma unificato di modellazione sequenziale e pre-training multi-task per colmare il divario tra dimostrazioni umane ed esecuzione robotica. Architetturalmente, Being-H0.5 utilizza un design Mixture-of-Transformers che include un nuovo framework Mixture-of-Flow (MoF) per disaccoppiare i primitivi motori condivisi da esperti specializzati specifici per embodiment. Infine, per rendere le politiche cross-embodiment stabili nel mondo reale, introduciamo il Manifold-Preserving Gating per la robustezza sotto shift sensoriale e l'Universal Async Chunking per universalizzare il controllo a chunk tra embodiment con diversa latenza e profili di controllo. Dimostriamo empiricamente che Being-H0.5 raggiunge risultati state-of-the-art su benchmark simulati, come LIBERO (98.9%) e RoboCasa (53.9%), mostrando anche forti capacità cross-embodiment su cinque piattaforme robotiche.
La risoluzione di problemi, un complesso compito di ingegneria del software (SWE) integrale allo sviluppo nel mondo reale, è emersa come una sfida avvincente per l'intelligenza artificiale. L'istituzione di benchmark come SWE-bench ha rivelato che questo compito è estremamente difficile per i grandi modelli linguistici, accelerando così significativamente l'evoluzione di agenti di codifica autonomi. Questo articolo presenta una rassegna sistematica di questo dominio emergente. Iniziamo esaminando le pipeline di costruzione dei dati, coprendo approcci di raccolta automatica e di sintesi. Forniamo quindi un'analisi completa delle metodologie, spaziando da framework senza addestramento con i loro componenti modulari a tecniche basate sull'addestramento, inclusi il fine-tuning supervisionato e l'apprendimento per rinforzo. Successivamente, discutiamo analisi critiche sulla qualità dei dati e sul comportamento degli agenti, insieme ad applicazioni pratiche. Infine, identifichiamo le principali sfide e delineiamo le direzioni promettenti per la ricerca futura. Un repository open-source è mantenuto all'indirizzo https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution per fungere da risorsa dinamica in questo campo.
Negli ultimi anni si è registrato un crescente interesse nell'estendere i grandi modelli linguistici verso sistemi agentivi. Sebbene l'efficacia degli agenti continui a migliorare, l'efficienza, cruciale per il dispiegamento nel mondo reale, è stata spesso trascurata. Questo articolo investiga pertanto l'efficienza partendo da tre componenti fondamentali degli agenti: la memoria, l'apprendimento dell'uso di strumenti (tool learning) e la pianificazione, considerando costi quali la latenza, il numero di token, i passi computazionali, ecc. Con l'obiettivo di condurre una ricerca completa che affronti l'efficienza del sistema agente stesso, passiamo in rassegna un'ampia gamma di approcci recenti che differiscono nell'implementazione ma convergono frequentemente su principi di alto livello condivisi, inclusi, ma non limitati a: delimitare il contesto tramite compressione e gestione, progettare ricompense per l'apprendimento per rinforzo che minimizzino l'invocazione di strumenti, e impiegare meccanismi di ricerca controllata per migliorare l'efficienza, i quali vengono discussi in dettaglio. Di conseguenza, caratterizziamo l'efficienza in due modi complementari: confrontando l'efficacia con un budget di costo fisso e confrontando il costo a un livello paragonabile di efficacia. Questo compromesso può essere visto anche attraverso la frontiera di Pareto tra efficacia e costo. Da questa prospettiva, esaminiamo anche benchmark orientati all'efficienza, sintetizzando i protocolli di valutazione per queste componenti e consolidando le metriche di efficienza comunemente riportate sia negli studi metodologici che in quelli sui benchmark. Inoltre, discutiamo le principali sfide e le direzioni future, con l'obiettivo di fornire spunti promettenti.
I video trasmettono informazioni più ricche rispetto alle immagini o al testo, catturando sia le dinamiche spaziali che temporali. Tuttavia, la maggior parte dei metodi di personalizzazione video esistenti si basa su immagini di riferimento o su precedenti temporali specifici per il compito, non riuscendo a sfruttare appieno le ricche informazioni spazio-temporali intrinseche ai video, limitando così la flessibilità e la generalizzazione nella generazione video. Per affrontare queste limitazioni, proponiamo OmniTransfer, un framework unificato per il trasferimento video spazio-temporale. Esso sfrutta le informazioni multi-vista tra i fotogrammi per migliorare la coerenza dell'aspetto e utilizza indizi temporali per abilitare un controllo temporale fine. Per unificare varie attività di trasferimento video, OmniTransfer incorpora tre progetti chiave: Task-aware Positional Bias, che sfrutta in modo adattivo le informazioni del video di riferimento per migliorare l'allineamento temporale o la coerenza dell'aspetto; Reference-decoupled Causal Learning, che separa i rami di riferimento e target per consentire un trasferimento preciso del riferimento migliorando l'efficienza; e Task-adaptive Multimodal Alignment, che utilizza una guida semantica multimodale per distinguere dinamicamente e affrontare diversi compiti. Esperimenti estensivi mostrano che OmniTransfer supera i metodi esistenti nel trasferimento di aspetto (ID e stile) e temporale (movimento della telecamera ed effetti video), eguagliando allo stesso tempo i metodi guidati dalla postura nel trasferimento del movimento senza utilizzare la postura, stabilendo un nuovo paradigma per una generazione video flessibile e ad alta fedeltà.
Comprendere e ragionare sul mondo fisico richiede intelligenza spaziale: la capacità di interpretare la geometria, la prospettiva e le relazioni spaziali oltre la percezione 2D. Sebbene i recenti Large Model Visivi (VLM) eccellano nella comprensione visiva, rimangono fondamentalmente percettori 2D e faticano con un ragionamento 3D genuino. Introduciamo Think3D, un framework che consente agli agenti VLM di pensare con lo spazio 3D. Sfruttando modelli di ricostruzione 3D che recuperano nuvole di punti e pose della telecamera da immagini o video, Think3D permette all'agente di manipolare attivamente lo spazio attraverso operazioni basate sulla telecamera e commutazione tra vista egocentrica/globale, trasformando il ragionamento spaziale in un processo interattivo a catena del pensiero (chain-of-thought) in 3D. Senza training aggiuntivo, Think3D migliora significativamente le prestazioni di ragionamento spaziale di modelli avanzati come GPT-4.1 e Gemini 2.5 Pro, ottenendo guadagni medi di +7,8% su BLINK Multi-view e MindCube, e +4,7% su VSI-Bench. Mostriamo inoltre che modelli più piccoli, che faticano con l'esplorazione spaziale, beneficiano significativamente di una politica di apprendimento per rinforzo (RL) che permette al modello di selezionare punti di vista e operazioni informativi. Con il RL, il beneficio dall'uso degli strumenti aumenta da +0,7% a +6,8%. I nostri risultati dimostrano che l'esplorazione spaziale aumentata da strumenti e senza training è un percorso percorribile verso un ragionamento 3D più flessibile e simile a quello umano negli agenti multimodali, stabilendo una nuova dimensione dell'intelligenza multimodale. Codice e pesi sono rilasciati su https://github.com/zhangzaibin/spagent.
L'Interpretabilità Meccanicistica (MI) è emersa come un approccio cruciale per demistificare il processo decisionale opaco dei Large Language Model (LLM). Tuttavia, le revisioni esistenti trattano principalmente la MI come una scienza osservativa, sintetizzando le intuizioni analitiche ma mancando di un quadro sistematico per interventi concreti. Per colmare questa lacuna, presentiamo una survey pratica strutturata attorno alla pipeline: "Localizzare, Guidare e Migliorare". Categorizziamo formalmente i metodi di Localizzazione (diagnosi) e di Guida (intervento) sulla base di specifici Oggetti Interpretabili per stabilire un protocollo di intervento rigoroso. Inoltre, dimostriamo come questo quadro consenta miglioramenti tangibili in termini di Allineamento, Capacità ed Efficienza, rendendo operativa la MI come metodologia attuabile per l'ottimizzazione dei modelli. La lista curata di articoli di questo lavoro è disponibile all'indirizzo https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
Sebbene i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) dimostrino una forte percezione onni-modale, la loro capacità di prevedere eventi futuri a partire da segnali audiovisivi rimane in gran parte inesplorata, poiché i benchmark esistenti si concentrano principalmente sulla comprensione retrospettiva. Per colmare questa lacuna, introduciamo FutureOmni, il primo benchmark progettato per valutare la previsione futura onni-modale da ambienti audiovisivi. I modelli valutati devono essere in grado di effettuare ragionamenti causali e temporali cross-modali, nonché sfruttare efficacemente la conoscenza interna per prevedere eventi futuri. FutureOmni è costruito tramite una pipeline scalabile assistita da LLM con umano nel ciclo e contiene 919 video e 1.034 coppie di domande a risposta multipla in 8 domini primari. Le valutazioni su 13 modelli onni-modali e 7 modelli video-only mostrano che i sistemi attuali hanno difficoltà con la previsione futura audiovisiva, specialmente in scenari con forte componente verbale, con la migliore accuratezza del 64,8% raggiunta da Gemini 3 Flash. Per mitigare questa limitazione, abbiamo curato un dataset di instruction-tuning di 7.000 campioni e proposto una strategia di addestramento denominata Previsione Futura Onni-Modale (OFF, Omni-Modal Future Forecasting). Le valutazioni su FutureOmni e su popolari benchmark audiovisivi e video-only dimostrano che OFF migliora la previsione futura e la generalizzazione. Rilasciamo pubblicamente tutto il codice (https://github.com/OpenMOSS/FutureOmni) e i dataset (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).
I lavori esistenti adottano sempre più meccanismi di tipo memory-centric per elaborare contesti lunghi in modo segmentato, e una gestione efficace della memoria è una delle capacità chiave che consente ai grandi modelli linguistici di propagare efficacemente le informazioni lungo l'intera sequenza. Pertanto, sfruttare modelli di reward (RM) per valutare in modo automatico e affidabile la qualità della memoria è fondamentale. In questo lavoro presentiamo MemoryRewardBench, il primo benchmark che studia sistematicamente la capacità degli RM di valutare i processi di gestione della memoria a lungo termine. MemoryRewardBench copre sia compiti di comprensione di contesti lunghi che di generazione long-form, caratterizzandosi per 10 impostazioni distinte con diversi modelli di gestione della memoria, con lunghezze del contesto che vanno dagli 8K ai 128K token. Le valutazioni su 13 RM all'avanguardia indicano un restringimento del divario prestazionale tra modelli open-source e proprietari, con i modelli di nuova generazione che superano costantemente i loro predecessori indipendentemente dal numero di parametri. Mettiamo inoltre in luce le capacità e le limitazioni fondamentali degli RM attuali nella valutazione della gestione della memoria degli LLM attraverso impostazioni diversificate.
Presentiamo LightOnOCR-2-1B, un modello visione-linguaggio multilingue end-to-end da 1 miliardo di parametri che converte immagini di documenti (ad esempio, PDF) in testo pulito e ordinato naturalmente, senza ricorrere a fragili pipeline OCR. Addestrato su un mix di distillazione su larga scala e di alta qualità, con una forte copertura di scansioni, documenti francesi e PDF scientifici, LightOnOCR-2 raggiunge risultati allo stato dell'arte su OlmOCR-Bench pur essendo 9 volte più piccolo e sostanzialmente più veloce dei modelli precedentemente più performanti. Estendiamo ulteriormente il formato di output per prevedere bounding box normalizzate per le immagini incorporate, introducendo la localizzazione durante il pre-addestramento tramite una strategia di ripresa e raffinandola con RLVR utilizzando ricompense basate sull'IoU. Infine, miglioriamo la robustezza con la media dei checkpoint e il merging aritmetico dei task. Rilasciamo i checkpoint del modello sotto licenza Apache 2.0 e pubblichiamo pubblicamente il dataset e la valutazione LightOnOCR-bbox-bench sotto le rispettive licenze.
Il raggiungimento di prestazioni di livello umano nella Navigazione Visione-e-Linguaggio (VLN) richiede che un agente incarnato comprenda congiuntamente istruzioni multimodali e contesto visivo-spaziale, ragionando su lunghe sequenze di azioni. Lavori recenti, come NavCoT e NavGPT-2, dimostrano il potenziale del ragionamento a Catena del Pensiero (CoT) per migliorare l'interpretabilità e la pianificazione a lungo termine. Inoltre, estensioni multimodali come OctoNav-R1 e CoT-VLA convalidano ulteriormente il CoT come una via promettente verso un ragionamento navigazionale simile a quello umano. Tuttavia, gli approcci esistenti presentano limiti critici: i CoT puramente testuali mancano di ancoraggio spaziale e si adattano eccessivamente a step di ragionamento annotati e sparsi, mentre i CoT multimodali causano una severa inflazione di token generando osservazioni visive immaginate, rendendo la navigazione in tempo reale impraticabile. In questo lavoro, proponiamo FantasyVLN, un framework di ragionamento implicito unificato che preserva i vantaggi del ragionamento CoT senza il sovraccarico esplicito di token. Nello specifico, i token visivi immaginati vengono codificati in uno spazio latente compatto utilizzando un AutoRegressore Visivo (VAR) preaddestrato durante l'allenamento del ragionamento CoT, e il modello impara congiuntamente da modalità CoT testuali, visive e multimodali sotto una strategia unificata multi-CoT. In fase di inferenza, il nostro modello esegue un mapping diretto da istruzione ad azione, pur beneficiando di rappresentazioni consapevoli del ragionamento. Esperimenti estensivi su LH-VLN mostrano che il nostro approccio raggiunge una navigazione consapevole del ragionamento ma in tempo reale, migliorando i tassi di successo e l'efficienza mentre riduce la latenza di inferenza di un ordine di grandezza rispetto ai metodi CoT espliciti.
I metodi di ricerca guidati da ricompense hanno dimostrato un forte potenziale nel migliorare gli agenti che utilizzano strumenti, guidando efficacemente il campionamento e l'esplorazione di spazi d'azione complessi. Come progetto centrale, questi metodi di ricerca utilizzano modelli di ricompensa di processo (PRM) per fornire ricompense a livello di step, consentendo un monitoraggio più granulare. Tuttavia, mancano benchmark di valutazione sistematici e affidabili per i PRM in contesti di utilizzo di strumenti. In questo articolo, introduciamo ToolPRMBench, un benchmark su larga scala specificamente progettato per valutare i PRM per agenti che utilizzano strumenti. ToolPRMBench è costruito su diversi benchmark rappresentativi di utilizzo di strumenti e converte le traiettorie degli agenti in casi di test a livello di step. Ogni caso contiene la cronologia delle interazioni, un'azione corretta, un'alternativa plausibile ma errata e i metadati pertinenti dello strumento. Utilizziamo rispettivamente il campionamento offline per isolare errori singoli locali e il campionamento online per catturare fallimenti realistici multi-step dai rollout completi degli agenti. Viene proposta una pipeline di verifica multi-LLM per ridurre il rumore delle etichette e garantire la qualità dei dati. Condurremo esperimenti estesi su ToolPRMBench su modelli linguistici di grandi dimensioni, PRM generici e PRM specializzati per strumenti. I risultati rivelano chiare differenze nell'efficacia dei PRM e evidenziano il potenziale dei PRM specializzati per l'utilizzo di strumenti. Il codice e i dati saranno rilasciati su https://github.com/David-Li0406/ToolPRMBench.
La ricerca agentiva è emersa recentemente come un paradigma potente, in cui un agente intercala ragionamenti a più fasi con recupero di informazioni on-demand per risolvere domande complesse. Nonostante il suo successo, la progettazione di un sistema di retrieval per la ricerca agentiva rimane in gran parte inesplorata. Gli agenti di ricerca esistenti si basano tipicamente su retriever basati sulla similarità, mentre passaggi simili non sono sempre utili per la generazione della risposta finale. In questo articolo, proponiamo un nuovo framework di addestramento per retriever specificamente progettato per la ricerca agentiva. A differenza dei retriever progettati per la Generazione Aumentata con Recupero (RAG) a turno singolo, che si basano solo sull'utilità locale del passaggio, proponiamo di utilizzare sia la rilevanza locale query-passaggio che la correttezza globale della risposta per misurare l'utilità del passaggio in una ricerca agentiva multi-turno. Introduciamo inoltre una strategia di addestramento iterativa, in cui l'agente di ricerca e il retriever vengono ottimizzati in modo bidirezionale e iterativo. A differenza dei retriever RAG, che vengono addestrati una sola volta con domande fisse, il nostro retriever viene continuamente migliorato utilizzando query in evoluzione e di qualità superiore provenienti dall'agente. Esperimenti estesi su sette benchmark di QA a salto singolo e multi-hop dimostrano che il nostro retriever, denominato , supera costantemente baseline solide across diversi agenti di ricerca. I nostri codici sono disponibili all'indirizzo: https://github.com/8421BCD/Agentic-R.
Le spiegazioni basate su concetti quantificano come concetti di alto livello (ad esempio, genere o esperienza) influenzano il comportamento del modello, il che è cruciale per i decisori in domini ad alto rischio. Recenti lavori valutano la fedeltà di tali spiegazioni confrontandole con effetti causali di riferimento stimati da controfattuali. Nella pratica, i benchmark esistenti si basano su costosi controfattuali scritti da esseri umani che fungono da proxy imperfetti. Per affrontare questo problema, introduciamo un framework per costruire dataset contenenti coppie controfattuali strutturali: LIBERTy (Benchmark Interventistico basato su LLM per la Spiegabilità con Target di Riferimento). LIBERTy è fondato su Modelli Causali Strutturati (SCM) esplicitamente definiti della generazione del testo: gli interventi su un concetto si propagano attraverso l'SCM finché un LLM genera il controfattuale. Introduciamo tre dataset (rilevazione di malattie, screening di curriculum vitae e previsione di violenza sul posto di lavoro) insieme a una nuova metrica di valutazione, la fedeltà d'ordine. Utilizzandoli, valutiamo un'ampia gamma di metodi su cinque modelli e identifichiamo un margine di miglioramento sostanziale per le spiegazioni basate su concetti. LIBERTy consente anche un'analisi sistematica della sensibilità del modello agli interventi: scopriamo che gli LLM proprietari mostrano una sensibilità notevolmente ridotta ai concetti demografici, probabilmente a causa di mitigazioni post-addestramento. Nel complesso, LIBERTy fornisce un benchmark tanto necessario per sviluppare metodi di spiegabilità fedeli.
Nonostante i recenti progressi, i modelli fondazionali in ambito medico continuano a lottare per unificare la comprensione visiva e la generazione, poiché questi compiti presentano obiettivi intrinsecamente conflittuali: astrazione semantica versus ricostruzione a livello di pixel. Gli approcci esistenti, tipicamente basati su architetture autoregressive a parametri condivisi, portano frequentemente a prestazioni compromesse in uno o in entrambi i compiti. Per affrontare questo problema, presentiamo UniX, un modello fondazionale medico unificato di prossima generazione per la comprensione e la generazione di radiografie del torace. UniX disaccoppia i due compiti in un ramo autoregressivo per la comprensione e un ramo di diffusione per la generazione ad alta fedeltà. In modo cruciale, viene introdotto un meccanismo di self-attention cross-modale per guidare dinamicamente il processo di generazione con le caratteristiche di comprensione. Abbinata a una pipeline rigorosa di pulizia dei dati e a una strategia di addestramento multi-stadio, questa architettura consente una collaborazione sinergica tra i compiti, sfruttando al contempo i punti di forza dei modelli di diffusione per una generazione superiore. Su due benchmark rappresentativi, UniX raggiunge un miglioramento del 46,1% nelle prestazioni di comprensione (Micro-F1) e un guadagno del 24,2% nella qualità della generazione (FD-RadDino), utilizzando solo un quarto dei parametri di LLM-CXR. Raggiungendo prestazioni paragonabili a quelle di modelli specifici per compito, il nostro lavoro stabilisce un paradigma scalabile per la comprensione e la generazione sinergica di immagini mediche. I codici e i modelli sono disponibili all'indirizzo https://github.com/ZrH42/UniX.
L'auto-addestramento con grandi modelli linguistici è emerso come un paradigma promettente per raggiungere un'intelligenza artificiale capace di auto-miglioramento. Tuttavia, i framework di auto-addestramento esistenti soffrono spesso di instabilità nell'ottimizzazione, a causa di (i) obiettivi non stazionari indotti dal feedback di ricompensa dipendente dal risolutore per l'Interrogante, e (ii) errori di bootstrap derivanti da pseudo-etichette auto-generate utilizzate per supervisionare il Risolutore. Per mitigare queste problematiche, introduciamo DARC (Decoupled Asymmetric Reasoning Curriculum), un framework a due stadi che stabilizza il processo di auto-evoluzione. In primo luogo, addestriamo l'Interrogante a sintetizzare domande calibrate sulla difficoltà, condizionate su livelli di difficoltà espliciti e corpora esterni. In secondo luogo, addestriamo il Risolutore con un meccanismo asimmetrico di auto-distillazione, in cui un insegnante arricchito con documenti genera pseudo-etichette di alta qualità per supervisionare lo studente Risolutore che non ha accesso ai documenti. I risultati empirici dimostrano che DARC è indipendente dal modello, producendo un miglioramento medio di 10,9 punti su nove benchmark di ragionamento e tre modelli di base. Inoltre, DARC supera costantemente tutte le baseline e si avvicina alle prestazioni di modelli supervisionati senza fare affidamento su annotazioni umane. Il codice è disponibile all'indirizzo https://github.com/RUCBM/DARC.
Gli attuali Large Language Model (LLM) mostrano una fondamentale disconnessione modale: possiedono una vasta conoscenza semantica ma mancano di un ancoraggio procedurale per rispettare le leggi immutabili del mondo fisico. Di conseguenza, sebbene questi agenti funzionino implicitamente come modelli del mondo, le loro simulazioni sono spesso affette da allucinazioni fisiche, generando piani logicamente solidi ma fisicamente ineseguibili. Le strategie di allineamento esistenti si basano prevalentemente su addestramenti o messe a punto ad alta intensità di risorse, che tentano di comprimere regole ambientali dinamiche in parametri modelli statici. Tuttavia, tale incapsulamento parametrico è intrinsecamente rigido, e fatica ad adattarsi alla variabilità aperta delle dinamiche fisiche senza una costosa e continua ri-istruzione. Per colmare questa lacuna, introduciamo WorldMind, un framework che costruisce autonomamente un Repository di Conoscenza Mondiale simbolico sintetizzando il feedback ambientale. Nello specifico, unifica l'Esperienza di Processo per imporre la fattibilità fisica tramite errori di previsione e l'Esperienza dell'Obiettivo per guidare l'ottimalità del compito attraverso traiettorie di successo. Esperimenti su EB-ALFRED e EB-Habitat dimostrano che WorldMind raggiunge prestazioni superiori rispetto ai baseline, con una notevole trasferibilità cross-modello e cross-ambiente.
I sistemi LLM di produzione spesso si basano su modelli separati per la sicurezza e altre fasi ad alta intensità di classificazione, aumentando la latenza, l'occupazione di VRAM e la complessità operativa. Noi, invece, riutilizziamo il calcolo già pagato dall'LLM di servizio: addestriamo "sonde" leggere sui suoi stati nascosti e prevediamo le etichette nello stesso passaggio in avanti utilizzato per la generazione. Inquadriamo la classificazione come una selezione di rappresentazioni sul tensore completo degli stati nascosti token-layer, piuttosto che impegnarci su un token fisso o un layer fisso (ad esempio, i logit del primo token o il pooling dell'ultimo layer). Per implementare ciò, introduciamo un aggregatore a due stadi che (i) riassume i token all'interno di ogni layer e (ii) aggrega i riassunti dei layer per formare una singola rappresentazione per la classificazione. Istanziamo questo modello con pooling diretto, un gate di attenzione di scoring da 100K parametri e una sonda basata su self-attention multi-testina (MHA) a precisione ridotta con fino a 35 milioni di parametri addestrabili. Su benchmark di sicurezza e sentiment, le nostre sonde migliorano rispetto al riutilizzo dei soli logit (ad es., MULI) e sono competitive con baseline specifiche per task sostanzialmente più grandi, preservando una latenza quasi pari a quella di servizio ed evitando i costi in VRAM e latenza di una pipeline separata con modello di guardia.
Le traiettorie di ragionamento a catena lunga (CoT) forniscono segnali di supervisione ricchi per distillare il ragionamento dai modelli linguistici insegnanti a quelli studenti. Tuttavia, sia i lavori precedenti che i nostri esperimenti mostrano che le traiettorie provenienti da insegnanti più potenti non necessariamente producono studenti migliori, evidenziando l'importanza dell'idoneità dei dati per lo studente nella distillazione. I metodi esistenti valutano l'idoneità principalmente attraverso la verosimiglianza dello studente, favorendo le traiettorie che si allineano strettamente al comportamento corrente del modello ma tralasciando quelle più informative. Per affrontare questo problema, proponiamo il *Rank-Surprisal Ratio* (RSR), una metrica semplice che cattura sia l'allineamento che l'informatività per valutare l'idoneità di una traiettoria di ragionamento. L'RSR è motivato dall'osservazione che le traiettorie efficaci tipicamente combinano una probabilità assoluta bassa con token relativamente ben posizionati sotto il modello studente, bilanciando la forza del segnale di apprendimento e l'allineamento comportamentale. Nello specifico, l'RSR è definito come il rapporto tra il rango medio (per token) di una traiettoria e la sua log-verosimiglianza negativa media, ed è semplice da calcolare e interpretare. Su cinque modelli studenti e traiettorie di ragionamento provenienti da 11 insegnanti diversi, l'RSR mostra una forte correlazione con le prestazioni post-addestramento (Spearman medio 0.86), superando le metriche esistenti. Ne dimostriamo inoltre l'utilità pratica sia nella selezione delle traiettorie che nella selezione dell'insegnante.
Gli agenti di apprendimento per rinforzo basati su pixel spesso falliscono in presenza di un puro shift distributivo visivo, anche quando le dinamiche latenti e le ricompense rimangono invariate. Tuttavia, i benchmark esistenti mescolano molteplici fonti di variazione, ostacolando un'analisi sistematica. Introduciamo KAGE-Env, una piattaforma 2D nativa in JAX che scompone il processo di osservazione in assi visivi controllabili indipendentemente, mantenendo fisso il problema di controllo sottostante. Per costruzione, la variazione di un asse visivo influisce sulle prestazioni solo attraverso la distribuzione delle azioni condizionata allo stato indotta in una politica pixel, fornendo un'astrazione pulita per la generalizzazione visiva. Basandoci su questo ambiente, definiamo KAGE-Bench, un benchmark composto da sei suite ad asse noto che include 34 coppie di configurazioni addestrazione-valutazione, progettato per isolare singoli shift visivi. Utilizzando una baseline standard PPO-CNN, osserviamo forti fallimenti dipendenti dall'asse: gli shift del fotometrico e dello sfondo causano spesso un collasso completo del successo, mentre gli shift dell'aspetto dell'agente sono relativamente benigni. Diversi shift preservano il movimento in avanti ma compromettono il completamento del compito, dimostrando che la ricompensa totale da sola può mascherare fallimenti di generalizzazione. Infine, l'implementazione completamente vettorizzata in JAX consente fino a 33 milioni di step ambientali al secondo su una singola GPU, permettendo analisi rapide e riproducibili sui fattori visivi. Codice: https://avanturist322.github.io/KAGEBench/.
La riconoscenza fonemica (PR) costituisce l'interfaccia atomica per la modellazione agnostica al linguaggio nell'elaborazione cross-linguale del parlato e nell'analisi fonetica. Nonostante gli sforzi prolungati nello sviluppo di sistemi di PR, le valutazioni attuali misurano solo l'accuratezza superficiale della trascrizione. Presentiamo PRiSM, il primo benchmark open-source progettato per evidenziare i punti ciechi nella percezione fonetica attraverso una valutazione intrinseca ed estrinseca dei sistemi di PR. PRiSM standardizza la valutazione basata sulla trascrizione e valuta l'utilità downstream in contesti clinici, educativi e multilingue mediante sonde di trascrizione e rappresentazione. Scopriamo che l'esposizione a lingue diverse durante l'addestramento è fondamentale per le prestazioni della PR, i modelli encoder-CTC sono i più stabili e i modelli di PR specializzati superano ancora i Large Audio Language Model. PRiSM rilascia codice, ricette e dataset per indirizzare il campo verso modelli vocali multilingue con solide capacità fonetiche: https://github.com/changelinglab/prism.
L'apprendimento per rinforzo (RL) basato sul risultato-ricompensa si è dimostrato efficace nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, l'RL standard assegna il merito solo a livello della risposta finale, penalizzando intere tracce di ragionamento quando il risultato è errato e rinforzando uniformemente tutti i passaggi quando è corretto. Di conseguenza, i passaggi intermedi corretti possono essere scoraggiati nelle tracce fallite, mentre passaggi spurii possono essere rinforzati in quelle riuscite. Definiamo questo problema come il problema dell'assegnazione del credito. Sebbene un rimedio naturale sia addestrare un modello di ricompensa di processo, ottimizzare con precisione tali modelli per identificare i passaggi di ragionamento correttivi rimane complesso. Introduciamo l'Intervention Training (InT), un paradigma di addestramento in cui il modello esegue un'assegnazione del credito granulare sulle proprie tracce di ragionamento, proponendo correzioni brevi e mirate che indirizzano le traiettorie verso una ricompensa maggiore. Utilizzando le soluzioni di riferimento comunemente disponibili nei dataset di ragionamento matematico e sfruttando il fatto che verificare una soluzione generata dal modello è più semplice che generarne una corretta da zero, il modello identifica il primo errore nel suo ragionamento e propone un intervento a singolo passo per reindirizzare la traiettoria verso la soluzione corretta. Applichiamo quindi il fine-tuning supervisionato (SFT) al rollout on-policy fino al punto di errore concatenato con l'intervento, localizzando l'errore nello specifico passaggio che ha causato il fallimento. Dimostriamo che il modello risultante funge da inizializzazione molto migliore per l'addestramento RL. Dopo aver eseguito InT e il successivo fine-tuning con RL, miglioriamo l'accuratezza di quasi il 14% rispetto a un modello base da 4 miliardi di parametri su IMO-AnswerBench, superando modelli open-source più grandi come gpt-oss-20b.
Presentiamo una metodologia ibrida per generare dataset su larga scala di relazioni semantiche in lingue a bassa disponibilità di risorse, dimostrata attraverso un corpus completo di relazioni semantiche per il turco. Il nostro approccio integra tre fasi: (1) utilizzo di embedding FastText con Clustering Agglomerativo per identificare cluster semantici, (2) impiego di Gemini 2.5-Flash per la classificazione automatica delle relazioni semantiche, e (3) integrazione con fonti lessicali curate. Il dataset risultante comprende 843.000 coppie semantiche uniche in turco, distribuite su tre tipi di relazione (sinonimi, contrari, co-iponimi), rappresentando un incremento di scala di 10 volte rispetto alle risorse esistenti a un costo minimo (65$). Convalidiamo il dataset attraverso due task downstream: un modello di embedding che raggiunge una precisione top-1 del 90% nel retrieval e un modello di classificazione che ottiene un punteggio F1-macro del 90%. Il nostro protocollo scalabile affronta la critica carenza di dati per l'NLP in turco e dimostra l'applicabilità ad altre lingue a bassa disponibilità di risorse. Rilasciamo pubblicamente il dataset e i modelli.
La rilevazione dei cambiamenti mediante telerilevamento mira a localizzare e caratterizzare le variazioni di scena tra due istanti temporali ed è fondamentale per applicazioni come il monitoraggio ambientale e la valutazione dei disastri. Nel frattempo, i modelli autoregressivi visivi (VAR) hanno recentemente dimostrato capacità impressionanti nella generazione di immagini, ma il loro utilizzo per compiti discriminativi a livello di pixel rimane limitato a causa di una scarsa controllabilità, prestazioni subottimali nella predizione densa e bias di esposizione. Introduciamo RemoteVAR, un nuovo framework per la rilevazione dei cambiamenti basato su VAR che affronta queste limitazioni condizionando la predizione autoregressiva su caratteristiche bi-temporali fuse a multi-risoluzione tramite cross-attention e impiegando una strategia di addestramento autoregressivo progettata specificamente per la predizione di mappe di cambiamento. Esperimenti estesi su benchmark standard di change detection mostrano che RemoteVAR fornisce miglioramenti consistenti e significativi rispetto a solide baseline basate su modelli diffusion e transformer, stabilendo un'alternativa autoregressiva competitiva per la rilevazione dei cambiamenti nel telerilevamento. Il codice sarà disponibile qui: https://github.com/yilmazkorkmaz1/RemoteVAR.
Gli embedding neurali presentano una nota lacuna: non riescono a distinguere in modo affidabile i sinonimi dagli antonimi. Di conseguenza, l'aumento delle soglie di similarità spesso non impedisce che gli opposti vengano raggruppati insieme. Abbiamo costruito un sistema di clustering semantico su larga scala specificamente progettato per affrontare direttamente questo problema. La nostra pipeline elabora 15 milioni di elementi lessicali, valuta 520 milioni di potenziali relazioni e genera infine 2,9 milioni di cluster semantici ad alta precisione. Il sistema apporta tre contributi principali. In primo luogo, introduciamo un dataset etichettato di 843.000 coppie di concetti che abbracciano sinonimia, antonimia e co-iponimia, costruito tramite augmentazione con il LLM Gemini 2.5-Flash e verificato utilizzando risorse lessicografiche curate da esperti umani. In secondo luogo, proponiamo un discriminatore specializzato per relazioni semantiche a tre vie che raggiunge il 90% di macro-F1, consentendo una robusta disambiguazione che va oltre la semplice similarità grezza degli embedding. In terzo luogo, introduciamo un nuovo algoritmo di clustering soft-to-hard che mitiga la deriva semantica, prevenendo catene transitive errate (ad esempio, caldo -> piccante -> dolore -> depressione) risolvendo simultaneamente la polisemia. Il nostro approccio utilizza una procedura di espansione-potatura a due stadi topologicamente consapevole con voto topologico, garantendo che ogni termine venga assegnato a esattamente un cluster semanticamente coerente. La risorsa risultante consente una ricerca semantica e una generazione aumentata dal retrieval ad alta precisione, in particolare per le lingue con morfologia ricca e a risorse limitate, dove i database di sinonimi esistenti rimangono scarsi.
Il tuning su istruzioni è un paradigma standard per l'adattamento di grandi modelli linguistici (LLM), ma i moderni dataset di istruzioni sono estesi, rumorosi e ridondanti, rendendo il fine-tuning su dati completi costoso e spesso non necessario. I metodi di selezione dati esistenti costruiscono datastore di gradienti computazionalmente onerosi o assegnano punteggi statici tramite un proxy debole, trascurando per lo più l'incertezza evolutiva e perdendo così una fonte chiave di interpretabilità degli LLM. Proponiamo GRADFILTERING, un framework di selezione dati agnostico rispetto all'obiettivo e consapevole dell'incertezza, che utilizza un piccolo proxy GPT-2 con un ensemble LoRA e aggrega i gradienti per esempio in un'utilità denominata Rapporto Segnale-Rumore del Gradiente (G-SNR). Il nostro metodo eguaglia o supera sottoinsiemi casuali e baseline solidi nella maggior parte delle valutazioni LLM-as-a-judge, nonché nella valutazione umana. Inoltre, i sottoinsiemi selezionati da GRADFILTERING convergono più rapidamente rispetto a filtri competitivi con lo stesso budget computazionale, riflettendo il vantaggio di una valutazione consapevole dell'incertezza.
Man mano che i grandi modelli linguistici (LLM) vengono addestrati su corpora sempre più opachi, gli attacchi di inferenza di appartenenza (MIA) sono stati proposti per verificare se testi protetti da copyright siano stati utilizzati durante l'addestramento, nonostante le crescenti preoccupazioni sulla loro affidabilità in condizioni realistiche. Ci chiediamo se i MIA possano costituire una prova ammissibile in dispute avversarie sul copyright, in cui uno sviluppatore di modelli accusato potrebbe oscurare i dati di addestramento preservandone il contenuto semantico, e formalizziamo questo scenario attraverso un protocollo di comunicazione giudice-pubblico ministero-accusato. Per testare la robustezza in questo protocollo, introduciamo SAGE (Structure-Aware SAE-Guided Extraction), un framework di parafrasaggio guidato da Autoencoder Sparse (SAE) che riscrive i dati di addestramento alterando la struttura lessicale mentre preserva il contenuto semantico e l'utilità per i compiti downstream. I nostri esperimenti mostrano che i MIA allo stato dell'arte si degradano quando i modelli vengono perfezionati (fine-tuning) su parafrasi generate da SAGE, indicando che i loro segnali non sono robusti alle trasformazioni che preservano la semantica. Sebbene una certa dispersione di informazioni permanga in alcuni regimi di fine-tuning, questi risultati suggeriscono che i MIA sono fragili in contesti avversari e insufficienti, da soli, come meccanismo autonomo per l'audit del copyright sugli LLM.
Presentiamo SciCoQA, un dataset progettato per rilevare le discrepanze tra le pubblicazioni scientifiche e i relativi codebase, al fine di garantire implementazioni fedeli. Costruiamo SciCoQA a partire da issue di GitHub e articoli sulla riproducibilità e, per scalare il nostro dataset, proponiamo un metodo di generazione di dati sintetici per costruire discrepanze carta-codice. Analizziamo nel dettaglio tali discrepanze e proponiamo tipologie e categorie per comprendere meglio le incongruenze che si verificano. In totale, il nostro dataset è composto da 611 discrepanze carta-codice (81 reali, 530 sintetiche), che abbracciano diverse discipline della scienza computazionale, tra cui IA, Fisica, Biologia Quantitativa e altre. La nostra valutazione di 21 LLM evidenzia la difficoltà di SciCoQA, in particolare per gli esempi che coinvolgono dettagli omessi nel paper, input di contesto lungo e dati estranei al corpus di pre-training dei modelli. Il modello con le migliori prestazioni nella nostra valutazione, GPT-5, riesce a rilevare solo il 45,7% delle discrepanze carta-codice del mondo reale.
Lo Stochastic Gradient Descent con Privacy Differenziale (DP-SGD) è il paradigma dominante per l'addestramento privato, ma i suoi limiti fondamentali nell'ambito delle definizioni di privacy avversaria nel caso peggiore rimangono scarsamente compresi. Analizziamo il DP-SGD nel framework della privacy differenziale f, che caratterizza la privacy attraverso le curve di trade-off di test di ipotesi, e studiamo il campionamento shufflato su un singolo epoca con M aggiornamenti del gradiente. Deriviamo un limite superiore esplicito e subottimale sulla curva di trade-off ottenibile. Questo risultato induce un limite inferiore geometrico sulla separazione κ, che è la distanza massima tra la curva di trade-off del meccanismo e la linea ideale di indovinamento casuale. Poiché una grande separazione implica un significativo vantaggio per l'avversario, una privacy significativa richiede un κ piccolo. Tuttavia, dimostriamo che l'imposizione di una piccola separazione comporta un rigoroso limite inferiore sul moltiplicatore di rumore gaussiano σ, che limita direttamente l'utilità ottenibile. In particolare, sotto il modello avversario standard del caso peggiore, lo shuffled DP-SGD deve soddisfare σ ≥ 1/√(2 ln M) oppure κ ≥ 1/8 * (1 - 1/(4π ln M)), e quindi non può raggiungere simultaneamente una privacy forte e un'alta utilità. Sebbene questo limite svanisca asintoticamente per M → ∞, la convergenza è estremamente lenta: anche per numeri di aggiornamenti di interesse pratico, l'ampiezza di rumore richiesta rimane sostanziale. Mostriamo inoltre che la stessa limitazione si estende al sottocampionamento di Poisson a meno di fattori costanti. I nostri esperimenti confermano che i livelli di rumore implicati da questo limite portano a un significativo degrado dell'accuratezza in impostazioni di addestramento realistiche, mostrando così un collo di bottiglia critico nel DP-SGD sotto le standard ipotesi avversarie del caso peggiore.
Le espressioni linguistiche di emozioni come depressione, ansia e stati correlati a traumi sono pervasive nelle note cliniche, nei dialoghi di counseling e nelle comunità online di salute mentale. Il riconoscimento accurato di queste emozioni è essenziale per il triage clinico, la valutazione del rischio e l'intervento tempestivo. Sebbene i grandi modelli linguistici (LLM) abbiano dimostrato una forte capacità di generalizzazione nei compiti di analisi emotiva, la loro affidabilità diagnostica in contesti medici ad alto rischio e ad alta intensità contestuale rimane altamente sensibile alla progettazione dei prompt. Inoltre, i metodi esistenti affrontano due sfide chiave: la comorbidità emotiva, in cui molteplici stati emotivi intrecciati complicano la previsione, e l'esplorazione inefficiente degli indizi clinicamente rilevanti. Per affrontare queste sfide, proponiamo APOLO (Automated Prompt Optimization for Linguistic Emotion Diagnosis), un framework che esplora sistematicamente uno spazio di prompt più ampio e a granularità fine per migliorare l'efficienza e la robustezza diagnostica. APOLO formula l'ottimizzazione delle istruzioni come un Processo Decisionale di Markov Parzialmente Osservabile e adotta un meccanismo di collaborazione multi-agente che coinvolge i ruoli di Pianificatore, Insegnante, Critico, Studente e Target. All'interno di questo framework a ciclo chiuso, il Pianificatore definisce una traiettoria di ottimizzazione, mentre gli agenti Insegnante-Critico-Studente perfezionano iterativamente i prompt per migliorare la stabilità e l'efficacia del ragionamento; l'agente Target determina se continuare l'ottimizzazione in base alla valutazione delle prestazioni. I risultati sperimentali mostrano che APOLO migliora costantemente l'accuratezza e la robustezza diagnostica attraverso benchmark specifici di dominio e stratificati, dimostrando un paradigma scalabile e generalizzabile per applicazioni affidabili degli LLM nell'assistenza alla salute mentale.
I recenti agenti dati basati su LLM mirano ad automatizzare le attività di data science, dall'analisi dei dati al deep learning. Tuttavia, la natura aperta dei problemi di data science del mondo reale, che spesso abbracciano multiple tassonomie e mancano di risposte standard, rappresenta una sfida significativa per la valutazione. Per affrontare questo problema, introduciamo DSAEval, un benchmark che comprende 641 problemi di data science reali basati su 285 dataset diversificati, coprendo sia dati strutturati che non strutturati (ad esempio, immagini e testo). DSAEval incorpora tre caratteristiche distintive: (1) Percezione Ambientale Multimodale, che consente agli agenti di interpretare osservazioni da multiple modalità incluse testo e immagini; (2) Interazioni Multi-Query, che rispecchiano la natura iterativa e cumulativa dei progetti di data science reali; e (3) Valutazione Multi-Dimensionale, che fornisce una valutazione olistica attraverso ragionamento, codice e risultati. Valutiamo sistematicamente 11 LLM agentistici avanzati utilizzando DSAEval. I nostri risultati mostrano che Claude-Sonnet-4.5 raggiunge le prestazioni complessive più solide, GPT-5.2 è il più efficiente, e MiMo-V2-Flash è il più conveniente. Dimostriamo inoltre che la percezione multimodale migliora costantemente le prestazioni su compiti relativi alle immagini, con guadagni che vanno dal 2,04% all'11,30%. In generale, sebbene gli attuali agenti di data science performino bene su dati strutturati e flussi di lavoro di analisi dati di routine, rimangono sfide sostanziali nei domini non strutturati. Infine, offriamo spunti critici e delineiamo future direzioni di ricerca per far progredire lo sviluppo degli agenti di data science.
Molti studenti non hanno accesso a una mentorship esperta nella ricerca. Ci chiediamo se un mentore IA possa guidare gli studenti universitari da un'idea alla stesura di un articolo. Abbiamo sviluppato METIS, un assistente potenziato da strumenti e consapevole delle fasi di lavoro, dotato di ricerca letteraria, linee guida curate, controlli metodologici e memoria. Valutiamo METIS confrontandolo con GPT-5 e Claude Sonnet 4.5 attraverso sei fasi di scrittura, utilizzando preferenze comparative con LLM come giudice, rubriche con personae studentesche, brevi sessioni di tutoraggio multi-turn e controlli di evidenza/conformità. Su 90 prompt a turno singolo, i giudici LLM hanno preferito METIS a Claude Sonnet 4.5 nel 71% dei casi e a GPT-5 nel 54%. I punteggi degli studenti (chiarezza/azione praticabilità/aderenza ai vincoli; 90 prompt x 3 giudici) sono più alti in tutte le fasi. Nelle sessioni multi-turno (cinque scenari/agente), METIS produce una qualità finale leggermente superiore a GPT-5. I vantaggi si concentrano nelle fasi basate sui documenti (D-F), coerentemente con l'instradamento consapevole della fase e i grounding; le modalità di fallimento includono instradamento prematuro agli strumenti, grounding superficiale e occasionale errata classificazione della fase.
L'apprendimento attivo (AL) ha il potenziale di ridurre drasticamente i costi di annotazione nella segmentazione di immagini biomediche 3D, dove l'etichettatura esperta di dati volumetrici è sia dispendiosa in termini di tempo che costosa. Tuttavia, i metodi AL esistenti non sono in grado di superare in modo consistente i baseline di campionamento casuale migliorati e adattati ai dati 3D, lasciando il campo privo di una soluzione affidabile. Introduciamo Class-stratified Scheduled Power Predictive Entropy (ClaSP PE), una strategia di query semplice ed efficace che affronta due limitazioni chiave dei metodi AL standard basati sull'incertezza: lo squilibrio delle classi e la ridondanza nelle selezioni iniziali. ClaSP PE combina un'interrogazione stratificata per classe per garantire la copertura delle strutture sottorappresentate e un rumore di potenza in scala logaritmica con una pianificazione decadente per imporre la diversità delle query nelle prime fasi dell'AL e incoraggiare lo sfruttamento in seguito. Nella nostra valutazione su 24 setting sperimentali utilizzando quattro dataset biomedici 3D all'interno del benchmark completo nnActive, ClaSP PE è l'unico metodo che generalmente supera i baseline casuali migliorati in termini di qualità della segmentazione con guadagni statisticamente significativi, rimanendo allo stesso tempo efficiente nell'annotazione. Inoltre, simuliamo esplicitamente l'applicazione nel mondo reale testando il nostro metodo su quattro dataset mai visti prima senza adattamento manuale, dove tutti i parametri sperimentali sono impostati secondo linee guida predefinite. I risultati confermano che ClaSP PE generalizza robustamente a nuovi task senza richiedere una regolazione specifica per dataset. All'interno del framework nnActive, presentiamo prove convincenti che un metodo AL può superare costantemente i baseline casuali adattati alla segmentazione 3D, in termini sia di prestazioni che di efficienza di annotazione in uno scenario realistico e vicino alla produzione. La nostra implementazione open-source e le chiare linee guida per il deployment la rendono prontamente applicabile nella pratica. Il codice è disponibile all'indirizzo https://github.com/MIC-DKFZ/nnActive.