Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Model (LLM) hanno ottenuto un notevole successo nella comprensione del codice sorgente, tuttavia, con l'aumentare della scala dei sistemi software, l'efficienza computazionale è diventata un collo di bottiglia critico. Attualmente, questi modelli si basano su un paradigma testuale che tratta il codice sorgente come una sequenza lineare di token, il che comporta un aumento lineare della lunghezza del contesto e dei relativi costi computazionali. Il rapido avanzamento dei Multimodal LLM (MLLM) introduce un'opportunità per ottimizzare l'efficienza rappresentando il codice sorgente come immagini renderizzate. A differenza del testo, che è difficile da comprimere senza perdere significato semantico, la modalità immagine è intrinsecamente adatta alla compressione. Regolando la risoluzione, le immagini possono essere ridimensionate a una frazione del loro costo originale in token rimanendo riconoscibili per i modelli abilitati alla visione. Per esplorare la fattibilità di questo approccio, conduciamo il primo studio sistematico sull'efficacia degli MLLM per la comprensione del codice. I nostri esperimenti rivelano che: (1) gli MLLM possono comprendere efficacemente il codice con una sostanziale riduzione dei token, raggiungendo compressioni fino a 8x; (2) gli MLLM possono sfruttare efficacemente indizi visivi come l'evidenziazione della sintassi, migliorando le prestazioni di completamento del codice sotto compressione 4x; e (3) compiti di comprensione del codice come il rilevamento di cloni mostrano un'eccellente resilienza alla compressione visiva, con alcuni rapporti di compressione che addirittura superano leggermente gli input di testo grezzo. Le nostre scoperte evidenziano sia il potenziale che le attuali limitazioni degli MLLM nella comprensione del codice, indicando uno spostamento verso la rappresentazione del codice in modalità immagine come percorso per un'inferenza più efficiente.
Gli agenti linguistici hanno dimostrato un forte potenziale per l'automazione di compiti. Il tentativo di realizzare questo potenziale per compiti sempre più complessi e a lungo termine ha guidato l'ascesa di un paradigma di "sub-agente come strumento" per la risoluzione di compiti multi-turn. Tuttavia, i progetti esistenti mancano ancora di una visione astratta e dinamica dei sub-agenti, compromettendo così l'adattabilità. Affrontiamo questa sfida con un'astrazione unificata e indipendente dal framework che modella qualsiasi agente come una tupla Istruzione, Contesto, Strumenti, Modello. Questa tupla funge da ricetta compositiva per le capacità, consentendo al sistema di generare esecutori specializzati per ogni compito on-demand. Basandoci su questa astrazione, introduciamo un sistema agentivo, AOrchestra, in cui l'orchestratore centrale concretizza la tupla a ogni passo: cura il contesto rilevante per il compito, seleziona gli strumenti e i modelli, e delega l'esecuzione tramite la creazione automatica e immediata di agenti. Tale progettazione consente di ridurre gli sforzi di ingegneria umana e rimane indipendente dal framework con supporto plug-and-play per agenti diversificati come esecutori di compiti. Consente inoltre un compromesso controllabile tra prestazioni e costo, permettendo al sistema di avvicinarsi all'efficienza paretiana. Su tre benchmark impegnativi (GAIA, SWE-Bench, Terminal-Bench), AOrchestra ottiene un miglioramento relativo del 16,28% rispetto al baseline più forte quando abbinato a Gemini-3-Flash. Il codice è disponibile all'indirizzo: https://github.com/FoundationAgents/AOrchestra
Questo lavoro trae origine da precedenti osservazioni complementari sulla dinamica del Chain-of-Thought (CoT): si dimostra che i Large Language Model (LLM) effettuano una pianificazione latente del ragionamento successivo prima dell'emergere del CoT, riducendo così il significato del CoT esplicito; mentre il CoT rimane critico per compiti che richiedono ragionamenti multi-step. Per approfondire la comprensione tra gli stati interni degli LLM e le loro traiettorie di ragionamento verbalizzate, investigiamo la forza di pianificazione latente degli LLM attraverso il nostro metodo di probing, Tele-Lens, applicato agli stati nascosti attraverso diversi domini di task. I nostri risultati empirici indicano che gli LLM mostrano un orizzonte miope, conducendo principalmente transizioni incrementali senza una precisa pianificazione globale. Sfruttando questa caratteristica, proponiamo un'ipotesi sul miglioramento della stima dell'incertezza del CoT, che validiamo dimostrando che un piccolo sottoinsieme di posizioni del CoT può rappresentare efficacemente l'incertezza dell'intero percorso. Sottolineiamo inoltre l'importanza di sfruttare le dinamiche del CoT e dimostriamo che il riconoscimento automatico del bypass del CoT può essere ottenuto senza degradazione delle prestazioni. Il nostro codice, dati e modelli sono rilasciati su https://github.com/lxucs/tele-lens.
L'automazione della ricerca in IA si differenzia dall'ingegneria del software generale a causa della valutazione computazionalmente costosa (ad esempio, l'addestramento del modello) e dell'opaca attribuzione delle prestazioni. Gli agenti attuali basati su LLM faticano in questo contesto, generando spesso script monolitici che ignorano i costi di esecuzione e i fattori causali. Introduciamo MARS (Modular Agent with Reflective Search), un framework ottimizzato per la ricerca autonoma in IA. MARS si basa su tre pilastri: (1) Pianificazione Consapevole del Budget tramite Monte Carlo Tree Search (MCTS) vincolata dai costi, per bilanciare esplicitamente le prestazioni con la spesa di esecuzione; (2) Costruzione Modulare, che impiega una pipeline "Progetta-Scomponi-Implementa" per gestire repository di ricerca complessi; e (3) Memoria Riflessiva Comparativa, che affronta l'assegnazione del merito analizzando le differenze tra le soluzioni per distillare insight ad alto segnale. MARS raggiunge prestazioni all'avanguardia tra i framework open-source su MLE-Bench in condizioni comparabili, mantenendo competitività con i metodi migliori della classifica globale. Inoltre, il sistema mostra qualitativi momenti "Aha!", in cui il 63% di tutte le lezioni utilizzate origina da trasferimenti tra rami di ricerca, dimostrando che l'agente generalizza efficacemente le intuizioni attraverso i percorsi di esplorazione.
I metodi esistenti per il controllo del movimento umano nella generazione video si basano tipicamente su pose 2D o modelli parametrici 3D espliciti (ad esempio, SMPL) come segnali di controllo. Tuttavia, le pose 2D legano rigidamente il movimento al punto di vista di guida, precludendo la sintesi da nuove visuali. I modelli 3D espliciti, sebbene informativi a livello strutturale, soffrono di imprecisioni intrinseche (ad esempio, ambiguità di profondità e dinamiche inaccurate) che, quando usate come vincolo forte, sovrascrivono la potente consapevolezza 3D intrinseca dei generatori video su larga scala. In questo lavoro, rivisitiamo il controllo del movimento da una prospettiva consapevole del 3D, sostenendo una rappresentazione del movimento implicita e indipendente dalla vista che si allinea naturalmente con i priori spaziali del generatore, piuttosto che dipendere da vincoli ricostruiti esternamente. Introduciamo 3DiMo, che addestra congiuntamente un codificatore di movimento con un generatore video pre-addestrato per distillare i frame di guida in token di movimento compatti e indipendenti dalla vista, iniettati semanticamente tramite cross-attention. Per promuovere la consapevolezza 3D, addestriamo con una supervisione ricca di visuali (ovvero, video a vista singola, multi-vista e con camera in movimento), forzando la coerenza del movimento attraverso diversi punti di vista. Inoltre, utilizziamo una supervisione geometrica ausiliaria che sfrutta SMPL solo per una inizializzazione preliminare e viene gradualmente ridotta a zero, permettendo al modello di transitare dalla guida 3D esterna all'apprendimento di una genuina comprensione del movimento spaziale 3D dai dati e dai priori del generatore. Gli esperimenti confermano che 3DiMo riproduce fedelmente i movimenti di guida con un controllo della camera flessibile e guidato dal testo, superando significativamente i metodi esistenti sia nella fedeltà del movimento che nella qualità visiva.
Mentre i Large Language Model (LLM) eccellono in compiti a breve termine, scalare tali modelli per workflow agentivi a lungo termine rimane una sfida. Il collo di bottiglia principale risiede nella scarsità di dati di addestramento che catturino strutture di dipendenza a lungo termine autentiche e dinamiche evolutive cross-stage: i metodi di sintesi esistenti si limitano a scenari a caratteristica singola vincolati dalla distribuzione del modello, oppure comportano costi proibitivi di annotazione umana, fallendo nel fornire una supervisione scalabile e di alta qualità. Affrontiamo questo problema riconcettualizzando la sintesi dei dati attraverso la lente dell'evoluzione del software nel mondo reale. La nostra intuizione chiave: le sequenze di Pull Request (PR) incarnano naturalmente i segnali di supervisione per l'apprendimento a lungo termine. Esse scompongono obiettivi complessi in unità di invio verificabili, mantengono la coerenza funzionale attraverso le iterazioni e codificano pattern di raffinamento autentici attraverso le cronologie di bug-fix. Basandoci su questo, proponiamo daVinci-Agency, che estrae sistematicamente supervisione strutturata da catene di PR attraverso tre meccanismi interconnessi: (1) scomposizione progressiva del compito tramite commit continui, (2) imposizione di coerenza a lungo termine attraverso obiettivi funzionali unificati, e (3) raffinamento verificabile da traiettorie autentiche di bug-fix. A differenza delle traiettorie sintetiche che trattano ogni passo in modo indipendente, la struttura di daVinci-Agency basata sulle PR preserva intrinsecamente le dipendenze causali e i perfezionamenti iterativi essenziali per insegnare comportamenti persistenti orientati all'obiettivo e consente un allineamento naturale con la modellazione di compiti a ciclo completo a livello di progetto. Le traiettorie risultanti sono sostanziali – in media 85k token e 116 chiamate a strumenti – eppure notevolmente efficienti in termini di dati: il fine-tuning di GLM-4.6 su 239 campioni di daVinci-Agency produce ampi miglioramenti su diversi benchmark, raggiungendo in particolare un guadagno relativo del 47% su Toolathlon. Oltre alle prestazioni sui benchmark, la nostra analisi conferma...
I modelli del mondo sono emersi come una frontiera cruciale nella ricerca sull'IA, con l'obiettivo di potenziare i modelli di grandi dimensioni infondendo in essi dinamiche fisiche e conoscenza del mondo. L'obiettivo principale è consentire agli agenti di comprendere, prevedere e interagire con ambienti complessi. Tuttavia, l'attuale panorama di ricerca rimane frammentato, con approcci focalizzati prevalentemente sull'iniezione di conoscenza del mondo in compiti isolati, come la previsione visiva, la stima 3D o il simbol grounding, piuttosto che sull'istituzione di una definizione o framework unificato. Sebbene queste integrazioni specifiche per compito producano miglioramenti delle prestazioni, spesso mancano della coerenza sistematica necessaria per una comprensione olistica del mondo. In questo articolo, analizziamo i limiti di tali approcci frammentati e proponiamo una specifica di progettazione unificata per i modelli del mondo. Suggeriamo che un modello del mondo robusto non dovrebbe essere una collezione disomogenea di capacità, ma un framework normativo che incorpori in modo integrale interazione, percezione, ragionamento simbolico e rappresentazione spaziale. Questo lavoro mira a fornire una prospettiva strutturata per guidare la ricerca futura verso modelli del mondo più generali, robusti e basati su principi.
La distillazione per allineamento di distribuzione (DMD) allinea un generatore multi-step con la sua controparte a pochi step per consentire una generazione di alta qualità con bassi costi computazionali inferenziali. Tuttavia, la DMD tende a soffrire di collasso modale, poiché la sua formulazione basata sulla KL inversa incoraggia intrinsecamente un comportamento di ricerca modale. I rimedi esistenti tipicamente si basano su regolarizzazioni percettive o avversarie, comportando così un sovraccarico computazionale sostanziale e instabilità nell'addestramento. In questo lavoro, proponiamo un framework di distillazione a ruoli separati che disaccoppia esplicitamente i ruoli degli step distillati: il primo step è dedicato a preservare la diversità dei campioni tramite un obiettivo di predizione del target (ad esempio, v-prediction), mentre gli step successivi si concentrano sul perfezionamento della qualità sotto la loss DMD standard, con i gradienti dall'obiettivo DMD bloccati al primo step. Denominiamo questo approccio DMD con Diversità Preservata (DP-DMD), che, nonostante la sua semplicità – nessun backbone percettivo, nessun discriminatore, nessuna rete ausiliaria e nessuna immagine di ground-truth aggiuntiva – preserva la diversità dei campioni mantenendo al contempo una qualità visiva pari a quella dei metodi allo stato dell'arte in estesi esperimenti di text-to-image.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno consentito agli agenti di ingegneria del software di affrontare complessi compiti di modifica del codice. La maggior parte degli approcci esistenti si basa su feedback di esecuzione da ambienti containerizzati, che richiedono una configurazione completa delle dipendenze e l'esecuzione fisica di programmi e test. Sebbene efficace, questo paradigma è dispendioso in termini di risorse e difficile da mantenere, complicando sostanzialmente l'addestramento degli agenti e limitando la scalabilità. Proponiamo SWE-World, un framework senza Docker che sostituisce gli ambienti di esecuzione fisici con un surrogate appreso per l'addestramento e la valutazione di agenti di ingegneria del software. SWE-World sfrutta modelli basati su LLM addestrati su dati reali di interazione agente-ambiente per prevedere i risultati intermedi dell'esecuzione e il feedback finale dei test, consentendo agli agenti di apprendere senza interagire con ambienti containerizzati fisici. Questo design preserva il ciclo standard di interazione agente-ambiente eliminando al contempo la necessità di costose operazioni di costruzione e manutenzione dell'ambiente durante l'ottimizzazione e la valutazione dell'agente. Inoltre, poiché SWE-World può simulare i risultati della valutazione finale delle traiettorie candidate senza una sottomissione reale, consente di selezionare la soluzione migliore tra più tentativi in fase di test, facilitando così un efficace test-time scaling (TTS) nei compiti di ingegneria del software. Esperimenti su SWE-bench Verified dimostrano che SWE-World eleva Qwen2.5-Coder-32B dal 6,2% al 52,0% tramite SFT senza Docker, al 55,0% con RL senza Docker e al 68,2% con ulteriore TTS. Il codice è disponibile all'indirizzo https://github.com/RUCAIBox/SWE-World.
In questo rapporto tecnico, presentiamo SWE-Master, un framework open-source e completamente riproducibile per il post-addestramento finalizzato alla creazione di agenti efficaci per l'ingegneria del software. SWE-Master esplora sistematicamente l'intera pipeline di sviluppo degli agenti, includendo la sintesi di traiettorie insegnanti e la curatela dei dati, l'SFT a lungo orizzonte, l'RL con feedback di esecuzione reale e la progettazione del framework di inferenza. Partendo da un modello base open-source con capacità SWE iniziali limitate, SWE-Master dimostra come un metodo di ottimizzazione sistematica possa elicitare forti abilità di risoluzione di compiti SWE complessi e a lungo termine. Valutiamo SWE-Master su SWE-bench Verified, un benchmark standard per compiti realistici di ingegneria del software. In condizioni sperimentali identiche, il nostro approccio raggiunge un tasso di risoluzione del 61.4% con Qwen2.5-Coder-32B, superando sostanzialmente i baseline open-source esistenti. Incorporando ulteriormente il test-time scaling (TTS) con feedback ambientale basato su LLM, SWE-Master raggiunge il 70.8% con TTS@8, dimostrando un forte potenziale prestazionale. SWE-Master fornisce una base pratica e trasparente per far avanzare la ricerca riproducibile sugli agenti di ingegneria del software. Il codice è disponibile all'indirizzo https://github.com/RUCAIBox/SWE-Master.
Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso come un approccio chiave per potenziare il ragionamento dei LLM. Tuttavia, framework standard come l'Group Relative Policy Optimization (GRPO) tipicamente impiegano un budget di rollout uniforme, portando a inefficienze nelle risorse. Inoltre, i metodi adattativi esistenti spesso si basano su metriche a livello di istanza, come i tassi di superamento dei task, non riuscendo a catturare lo stato di apprendimento dinamico del modello. Per affrontare queste limitazioni, proponiamo CoBA-RL, un algoritmo di reinforcement learning progettato per allocare in modo adattivo i budget di rollout in base all'evoluzione delle capacità del modello. Nello specifico, CoBA-RL utilizza una funzione valore orientata alle capacità per mappare i task ai loro potenziali guadagni addestrativi e impiega una strategia greedy basata su heap per calibrare efficientemente la distribuzione delle risorse computazionali verso i campioni con alto valore addestrativo. Esperimenti estensivi dimostrano che il nostro approccio orchestra efficacemente il compromesso tra esplorazione e sfruttamento, fornendo miglioramenti generalizzati e consistenti su molteplici benchmark impegnativi. Questi risultati sottolineano che quantificare il valore addestrativo dei campioni e ottimizzare l'allocazione del budget sono cruciali per far progredire l'efficienza del post-addestramento dei LLM.
Oggigiorno, l'addestramento e la valutazione di report generati da sistemi di DeepResearch rimangono sfide complesse a causa della mancanza di segnali di ricompenda verificabili. Di conseguenza, la valutazione basata su rubriche è diventata una pratica comune. Tuttavia, gli approcci esistenti si basano su rubriche predefinite troppo generiche, che mancano di granularità sufficiente, oppure dipendono da rubriche specifiche per query costruite manualmente, che sono costose e difficili da scalare. In questo articolo, proponiamo una pipeline per addestrare generatori di rubriche specifiche per query, allineati alle preferenze umane e mirati alla generazione di report di DeepResearch. Inizialmente costruiamo un dataset di query in stile DeepResearch annotate con preferenze umane su report accoppiati, e addestriamo i generatori di rubriche tramite apprendimento per rinforzo con una ricompensa ibrida che combina la supervisione delle preferenze umane e la valutazione delle rubriche basata su LLM. Per gestire meglio il ragionamento a lungo termine, introduciamo inoltre un flusso di lavoro basato su Stati Markoviani Multi-agente (MaMs) per la generazione di report. Dimostriamo empiricamente che i nostri generatori di rubriche forniscono una supervisione più discriminante e meglio allineata alle preferenze umane rispetto alle strategie esistenti di progettazione delle rubriche. Inoltre, quando integrati nel framework di addestramento MaMs, i sistemi DeepResearch equipaggiati con i nostri generatori di rubriche superano costantemente tutti i benchmark open-source sul DeepResearch Bench e raggiungono prestazioni paragonabili a quelle dei modelli closed-source leader.
Il pensiero parallelo è emerso come un paradigma promettente per il ragionamento, ma impone oneri computazionali significativi. I metodi di efficienza esistenti si basano principalmente su segnali locali per singola traiettoria e mancano di meccanismi principiati per sfruttare le dinamiche globali tra i rami paralleli. Introduciamo il *2D probing*, un'interfaccia che espone le dinamiche larghezza-profondità del pensiero parallelo sollecitando periodicamente risposte intermedie da tutti i rami. La nostra analisi rivela tre intuizioni chiave: una scalabilità non monotona tra le allocazioni di larghezza e profondità, lunghezze eterogenee dei rami di ragionamento e una stabilizzazione precoce del consenso globale. Guidati da queste intuizioni, introduciamo *Parallel-Probe*, un controllore senza addestramento progettato per ottimizzare online il pensiero parallelo. Parallel-Probe utilizza un arresto anticipato basato sul consenso per regolare la profondità di ragionamento e una potatura dei rami basata sulla deviazione per aggiustare dinamicamente la larghezza. Esperimenti estesi su tre benchmark e modelli multipli dimostrano che Parallel-Probe stabilisce una frontiera di Pareto superiore per la scalabilità a tempo di test. Rispetto al voto a maggioranza standard, riduce i token sequenziali fino al 35,8% e il costo totale dei token di oltre il 25,8%, mantenendo un'accuratezza competitiva.
I recenti progressi nei modelli di reward multimodali (RM) hanno dato un impulso significativo allo sviluppo della generazione visiva. I framework esistenti adottano tipicamente una modellazione delle preferenze in stile Bradley-Terry o sfruttano modelli linguistici visivi (VLM) generativi come giudici, per poi ottimizzare i modelli di generazione visiva tramite apprendimento per rinforzo. Tuttavia, gli RM attuali presentano limitazioni intrinseche: seguono spesso un paradigma "one-size-fits-all" che presuppone una distribuzione di preferenze monolitica o si basa su griglie di valutazione fisse. Di conseguenza, sono insensibili agli indizi visivi specifici del contenuto, portando a un disallineamento sistematico con le preferenze umane, soggettive e dipendenti dal contesto. A tal fine, ispirati dalla valutazione umana, proponiamo UnifiedReward-Flex, un modello di reward personalizzato e unificato per la generazione visiva che unisce la modellazione del reward a un ragionamento flessibile e adattativo al contesto. Nello specifico, dato un prompt e il contenuto visivo generato, il modello interpreta prima l'intento semantico e si fonda sull'evidenza visiva, per poi costruire dinamicamente una valutazione gerarchica istanziando criteri granulari sia sotto dimensioni di alto livello predefinite che auto-generate. La nostra pipeline di addestramento segue un processo in due fasi: (1) distilliamo prima tracce di ragionamento strutturate e di alta qualità da VLM closed-source avanzati per avviare un SFT, dotando il modello di comportamenti di ragionamento flessibili e adattativi al contesto; (2) eseguiamo poi un'ottimizzazione diretta delle preferenze (DPO) su coppie di preferenze accuratamente selezionate per rafforzare ulteriormente la fedeltà del ragionamento e l'allineamento discriminativo. Per validare l'efficacia, integriamo UnifiedReward-Flex nel framework GRPO per la sintesi di immagini e video, e i risultati estensivi ne dimostrano la superiorità.
Il riordinamento è un componente critico dei moderni sistemi di recupero dell'informazione, che tipicamente abbinano un primo stadio di recupero efficiente a un modello più espressivo per affinare i risultati. Sebbene i grandi modelli di ragionamento abbiano guidato rapidi progressi nel riordinamento incentrato sul testo, il riordinamento basato sul ragionamento per il recupero video rimane poco esplorato. Per colmare questa lacuna, introduciamo RANKVIDEO, un riordinatore basato sul ragionamento per il recupero video che ragiona esplicitamente sulle coppie query-video utilizzando il contenuto video per valutarne la rilevanza. RANKVIDEO viene addestrato utilizzando un curriculum a due stadi, costituito da una messa a punto supervisionata ancorata alla percezione, seguita da un addestramento al riordinamento che combina obiettivi pointwise, pairwise e di distillazione della confidenza del docente, ed è supportato da una pipeline di sintesi dei dati per costruire coppie query-video ad alta intensità di ragionamento. Esperimenti condotti sul benchmark su larga scala MultiVENT 2.0 dimostrano che RANKVIDEO migliora costantemente le prestazioni di recupero all'interno di un'architettura a due stadi, producendo un miglioramento medio del 31% sull'nDCG@10 e superando le alternative di riordinamento basate solo sul testo e sul linguaggio visivo, risultando al contempo più efficiente.
Nella modellazione generativa discreta, due paradigmi dominanti mostrano capacità divergenti: i Modelli Linguistici di Diffusione con Mascheramento (MDLM) eccellono nella comprensione semantica e nella generalizzazione zero-shot, mentre i Modelli Linguistici di Diffusione con Rumore Uniforme (UDLM) raggiungono un'elevata qualità di generazione in pochi passi. Tuttavia, nessuno dei due consegue prestazioni bilanciate in entrambe le dimensioni. Per affrontare questa limitazione, proponiamo XDLM, che collega i due paradigmi attraverso un kernel di rumore stazionario. XDLM offre due contributi chiave: (1) fornisce un'unificazione teorica principiata di MDLM e UDLM, recuperando ciascun paradigma come caso speciale; e (2) un collo di bottiglia della memoria alleviato, reso possibile da una semplificazione algebrica delle probabilità a posteriori. Gli esperimenti dimostrano che XDLM avanza la frontiera di Pareto tra capacità di comprensione e qualità della generazione. Quantitativamente, XDLM supera UDLM di 5,4 punti su benchmark testuali zero-shot e supera MDLM nella generazione di immagini in pochi passi (FID 54,1 vs. 80,8). Quando scalato per ottimizzare un grande modello linguistico da 8 miliardi di parametri, XDLM raggiunge 15,0 su MBPP in soli 32 passi, raddoppiando efficacemente le prestazioni di base. Infine, l'analisi delle dinamiche di addestramento rivela il potenziale superiore di XDLM per lo scaling a lungo termine. Il codice è disponibile all'indirizzo https://github.com/MzeroMiko/XDLM.
Il paradigma dell'omotopia, un principio generale per la risoluzione di problemi complessi, compare in ambiti diversificati come l'ottimizzazione robusta, l'ottimizzazione globale, il calcolo degli zeri di polinomi e il campionamento. I risolutori pratici per questi problemi seguono tipicamente una struttura predittore-correttore (PC), ma si basano su euristiche artigianali per la dimensione del passo e la terminazione delle iterazioni, che sono spesso subottimali e specifiche per il compito. Per affrontare questa limitazione, unifichiamo questi problemi in un unico quadro teorico, che consente la progettazione di un risolutore neurale generale. Basandosi su questa visione unificata, proponiamo Neural Predictor-Corrector (NPC), che sostituisce le euristiche artigianali con politiche apprese automaticamente. NPC formula la selezione delle politiche come un problema decisionale sequenziale e sfrutta l'apprendimento per rinforzo per scoprire automaticamente strategie efficienti. Per migliorare ulteriormente la generalizzazione, introduciamo un meccanismo di addestramento ammortizzato, che consente un unico addestramento offline per una classe di problemi e un'inferenza online efficiente su nuove istanze. Esperimenti su quattro problemi di omotopia rappresentativi dimostrano che il nostro metodo generalizza efficacemente a istanze non viste. Supera costantemente i baseline classici e specializzati in termini di efficienza, mostrando al contempo una stabilità superiore tra i diversi compiti, evidenziando il valore dell'unificazione dei metodi di omotopia in un unico framework neurale.
L'intelligenza di ricerca si sta evolvendo dalla Ricerca Profonda alla Ricerca Ampia, un paradigma essenziale per recuperare e sintetizzare informazioni complete sotto vincoli complessi in parallelo. Tuttavia, i progressi in questo campo sono ostacolati dalla mancanza di benchmark dedicati e metodologie di ottimizzazione per l'ampiezza della ricerca. Per affrontare queste sfide, analizziamo approfonditamente la Ricerca Ampia da due prospettive: Pipeline dei Dati e Ottimizzazione degli Agenti. In primo luogo, produciamo WideSeekBench, un benchmark per la Ricerca Generale di Informazioni Ampie (GBIS) costruito attraverso una rigorosa pipeline di dati multi-fase per garantire diversità in termini di volume di informazioni target, vincoli logici e domini. In secondo luogo, introduciamo WideSeek, un'architettura dinamica multi-agente gerarchica in grado di generare autonomamente sotto-agenti paralleli in base ai requisiti del compito. Inoltre, progettiamo un framework di training unificato che linearizza le traiettorie multi-agente e ottimizza il sistema utilizzando RL end-to-end. I risultati sperimentali dimostrano l'efficacia di WideSeek e del RL multi-agente, evidenziando come la scalabilità del numero di agenti sia una direzione promettente per far avanzare il paradigma della Ricerca Ampia.
La complessità quadratica dell'attenzione rimane il principale collo di bottiglia nell'inferenza a contesto lungo per i grandi modelli linguistici. I metodi di accelerazione precedenti sparsificano la mappa di attenzione con pattern strutturati o eliminano permanentemente i token a livelli specifici, approcci che possono trattenere token irrilevanti o basarsi su decisioni precoci irreversibili nonostante la dinamica per-livello e per-testa dell'importanza dei token. In questo articolo proponiamo Token Sparse Attention, un meccanismo di sparsificazione leggero e dinamico a livello di token che comprime Q, K, V per testa in un insieme ridotto di token durante l'attenzione, per poi decomprimere l'output alla sequenza originale, consentendo alle informazioni dei token di essere riconsiderate nei livelli successivi. Inoltre, Token Sparse Attention introduce un nuovo punto di progettazione all'intersezione tra selezione dei token e attenzione sparsa. Il nostro approccio è completamente compatibile con le implementazioni di attenzione densa, inclusa Flash Attention, e può essere composto in modo trasparente con kernel di attenzione sparsa esistenti. I risultati sperimentali dimostrano che Token Sparse Attention migliora costantemente il trade-off accuratezza-latenza, raggiungendo un speedup dell'attenzione fino a 3.2× per contesti di 128K con un degrado di accuratezza inferiore all'1%. Questi risultati mostrano che la sparsificazione dinamica e intervallata a livello di token è una strategia complementare ed efficace per l'inferenza scalabile a contesto lungo.
I modelli video autoregressivi del mondo prevedono osservazioni visive future condizionate sulle azioni. Sebbene efficaci su orizzonti brevi, questi modelli spesso incontrano difficoltà nella generazione a lungo termine, poiché piccoli errori di previsione si accumulano nel tempo. I metodi precedenti mitigano questo problema introducendo modelli insegnante pre-addestrati e una corrispondenza delle distribuzioni a livello di sequenza, che comportano un costo computazionale aggiuntivo e non riescono a prevenire la propagazione degli errori oltre l'orizzonte di addestramento. In questo lavoro, proponiamo LIVE, un modello video interattivo del mondo a lungo orizzonte (Long-horizon Interactive Video world modEl) che impone un accumulo di errori limitato tramite un nuovo obiettivo di consistenza ciclica, eliminando così la necessità di una distillazione basata su un insegnante. Nello specifico, LIVE esegue prima un rollout in avanti partendo dai frame ground-truth e poi applica un processo di generazione inverso per ricostruire lo stato iniziale. La loss di diffusione viene successivamente calcolata sullo stato terminale ricostruito, fornendo un vincolo esplicito sulla propagazione degli errori a lungo termine. Inoltre, forniamo una visione unificata che comprende diversi approcci e introduciamo un curriculum di addestramento progressivo per stabilizzare il training. Gli esperimenti dimostrano che LIVE raggiunge prestazioni all'avanguardia sui benchmark a lungo orizzonte, generando video stabili e di alta qualità ben oltre le lunghezze di rollout di addestramento.
L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha fatto progredire il ragionamento dei LLM, ma rimane limitato da un'esplorazione inefficiente sotto budget di rollout limitati, portando a un basso successo di campionamento e un addestramento instabile in compiti complessi. Scopriamo che molti fallimenti nell'esplorazione non derivano dalla difficoltà del problema, ma da un piccolo numero di token prompt che introducono interferenze. Basandoci su questa intuizione, proponiamo il Less Noise Sampling Framework (LENS), che prima effettua il prompting identificando e rimuovendo i token di interferenza. Successivamente, trasferisce i rollout riusciti dal processo di purificazione per supervisionare l'ottimizzazione della politica sui prompt originali rumorosi, consentendo al modello di imparare a ignorare le interferenze nelle impostazioni reali e rumorose del prompting. I risultati sperimentali mostrano che LENS supera significativamente il GRPO, fornendo prestazioni più elevate e una convergenza più rapida, con un guadagno medio del 3,88% e un accelerazione di oltre 1,6 volte. Il nostro lavoro evidenzia il ruolo cruciale della potatura dei token di interferenza nel migliorare l'efficienza del rollout, offrendo una nuova prospettiva per la ricerca RLVR.
La ricerca che coinvolge dati sensibili in termini di privacy è sempre stata limitata dalla scarsità di dati, in netto contrasto con altre aree che hanno beneficiato della scalabilità dei dati. Questa sfida sta diventando sempre più urgente poiché agli agenti di IA moderni - come OpenClaw e Gemini Agent - viene garantito un accesso persistente a informazioni personali altamente sensibili. Per affrontare questo collo di bottiglia di lunga data e i rischi crescenti, presentiamo Privasis (ovvero, oasi della privacy), il primo dataset sintetico su larga scala (milioni di elementi) interamente costruito da zero - un vasto bacino di testi con informazioni private ricche e diversificate - progettato per ampliare e accelerare la ricerca in aree in cui l'elaborazione di dati sociali sensibili è inevitabile. Rispetto ai dataset esistenti, Privasis, che comprende 1,4 milioni di record, offre una scala di ordini di grandezza superiore con qualità e una diversità molto maggiore tra vari tipi di documenti, inclusi anamnesi mediche, documenti legali, registri finanziari, calendari e messaggi di testo, con un totale di 55,1 milioni di attributi annotati come etnia, data di nascita, luogo di lavoro, ecc. Utilizziamo Privasis per costruire un corpus parallelo per la sanificazione dei testi con la nostra pipeline che scompone i testi e applica una sanificazione mirata. I nostri modelli compatti di sanificazione (<=4B) addestrati su questo dataset superano i modelli linguistici di grandi dimensioni all'avanguardia, come GPT-5 e Qwen-3 235B. Prevediamo di rilasciare dati, modelli e codice per accelerare la futura ricerca su domini e agenti sensibili alla privacy.
Assistere gli utenti non esperti nello sviluppo di siti web interattivi complessi è diventato un compito popolare per gli agenti di codice basati su LLM. Tuttavia, gli agenti di codice esistenti tendono a generare solo pagine web frontend, mascherando la mancanza di una reale elaborazione e memorizzazione dei dati full-stack con effetti visivi appariscenti. È importante notare che la costruzione di applicazioni web full-stack di livello production è di gran lunga più impegnativa della sola generazione di pagine web frontend, poiché richiede un attento controllo del flusso dei dati, una comprensione completa di pacchetti e dipendenze in costante aggiornamento e una precisa localizzazione di bug oscuri nella codebase. Per affrontare queste difficoltà, introduciamo FullStack-Agent, un sistema agentico unificato per la programmazione agentica full-stack che consiste in tre parti: (1) FullStack-Dev, un framework multi-agente con forti capacità di pianificazione, modifica del codice, navigazione della codebase e localizzazione dei bug. (2) FullStack-Learn, un metodo innovativo di scalabilità dei dati e auto-miglioramento che retro-traduce repository di siti web crawlate e sintetizzate per migliorare l'LLM backbone di FullStack-Dev. (3) FullStack-Bench, un benchmark completo che testa sistematicamente le funzionalità frontend, backend e di database del sito web generato. Il nostro FullStack-Dev supera il precedente metodo state-of-the-art rispettivamente dell'8,7%, 38,2% e 15,9% sui test case frontend, backend e di database. Inoltre, FullStack-Learn aumenta le prestazioni di un modello da 30B del 9,7%, 9,5% e 2,8% sulle tre serie di test case attraverso l'auto-miglioramento, dimostrando l'efficacia del nostro approccio. Il codice è rilasciato su https://github.com/mnluzimu/FullStack-Agent.
Il ragionamento multimodale adattivo è emerso come una frontiera promettente nei modelli visione-linguaggio (VLM), con l'obiettivo di modulare dinamicamente tra il ragionamento visivo potenziato da strumenti e il ragionamento testuale per migliorare sia l'efficacia che l'efficienza. Tuttavia, le valutazioni esistenti si basano su etichette di difficoltà statiche e metriche semplicistiche, che non riescono a catturare la natura dinamica della difficoltà relativa alle diverse capacità dei modelli. Di conseguenza, esse oscurano la distinzione tra selezione modale adattiva e prestazione generale, trascurando al contempo analisi granulari del processo. In questo articolo, proponiamo AdaptMMBench, un benchmark completo per il ragionamento multimodale adattivo che abbraccia cinque domini: mondo reale, OCR, interfaccia grafica utente (GUI), conoscenza e matematica, comprendendo sia compiti di percezione diretta che di ragionamento complesso. AdaptMMBench utilizza una metrica del coefficiente di correlazione di Matthews (MCC) per valutare la razionalità della selezione delle diverse modalità di ragionamento, isolando questa abilità di meta-cognizione identificando dinamicamente le difficoltà dei task in base ai limiti di capacità dei modelli. Inoltre, AdaptMMBench facilita una valutazione multidimensionale del processo che considera la copertura dei passaggi chiave, l'efficacia degli strumenti e l'efficienza computazionale. La nostra valutazione rivela che, sebbene la selezione modale adattiva scalì con la capacità del modello, essa si discosta notevolmente dall'accuratezza finale. Al contrario, la copertura dei passaggi chiave si allinea con le prestazioni, sebbene l'efficacia degli strumenti rimanga altamente inconsistente tra le diverse architetture di modelli.
Determinare una miscela di dati efficace è un fattore chiave nella pre-addestramento dei Large Language Model (LLM), dove i modelli devono bilanciare competenze generali con la padronanza di compiti complessi come la matematica e la programmazione. Tuttavia, identificare una miscela ottimale rimane una sfida aperta, poiché gli approcci esistenti si basano su esperimenti proxy su piccola scala inaffidabili o richiedono esplorazioni su larga scala proibitivamente costose. Per affrontare questo problema, proponiamo Decouple Searching from Training Mix (DeMix), un nuovo framework che sfrutta il merging di modelli per prevedere i rapporti ottimali dei dati. Invece di addestrare modelli proxy per ogni miscela campionata, DeMix addestra modelli componenti su dataset candidati su larga scala e deriva i proxy della miscela di dati tramite il merging ponderato dei modelli. Questo paradigma disaccoppia la ricerca dai costi di addestramento, consentendo la valutazione di miscele campionate illimitate senza oneri addizionali di training e facilitando così una migliore scoperta della miscela attraverso più prove di ricerca. Esperimenti estensivi dimostrano che DeMix supera il compromesso tra sufficienza, accuratezza ed efficienza, ottenendo la miscela ottimale con prestazioni benchmark superiori a costi di ricerca inferiori. Inoltre, rilasciamo i DeMix Corpora, un dataset completo da 22T di token comprendente dati di pre-addestramento di alta qualità con miscele validate per facilitare la ricerca aperta. Il nostro codice e i DeMix Corpora sono disponibili su https://github.com/Lucius-lsr/DeMix.
La proliferazione di modelli linguistici di grandi dimensioni (LLM) a contesto lungo rivela un collo di bottiglia fondamentale: l'espansione rapida della cache chiave-valore durante la decodifica, che comporta costi significativi in termini di memoria e latenza. Sebbene approcci recenti tentino di alleviare questo problema condividendo un unico insieme di token cruciali tra i layer, una condivisione così granulare compromette le prestazioni del modello trascurando la diversità funzionale delle teste di attenzione. Per affrontare questa limitazione, proponiamo LycheeDecode, un metodo di decodifica efficiente incentrato su un meccanismo di attenzione ibrida a granularità fine che impiega una strategia di selezione top-k efficiente dal punto di vista hardware. Nello specifico, il nuovo meccanismo basato su HardKuma suddivide le teste di attenzione in un piccolo sottoinsieme di teste di recupero, che identificano dinamicamente i token cruciali, e una maggioranza di teste sparse che li riutilizzano per un calcolo efficiente. Attraverso esperimenti estesi su modelli all'avanguardia come Llama3 e Qwen3, condotti su benchmark diversificati per la comprensione di contesti lunghi (ad es. LongBench, RULER) e il ragionamento complesso (ad es. AIME24, OlympiadBench), dimostriamo che LycheeDecode raggiunge una qualità generativa paragonabile, e in alcuni casi superiore, persino al baseline di attenzione completa. Crucialmente, questo risultato è ottenuto con un speedup fino a 2,7x per una lunghezza di contesto di 128K. Preservando la diversità funzionale delle teste di attenzione, la nostra strategia a granularità fine supera i colli di bottiglia prestazionali dei metodi esistenti, fornendo un percorso validato e potente per un'inferenza LLM efficiente e di alta qualità in contesti lunghi.
La specializzazione dei ruoli nei sistemi multi-agente basati su LLM è spesso realizzata tramite l'approccio multi-LoRA, dove gli agenti condividono un'architettura preaddestrata e differiscono solo attraverso adattatori leggeri. Nonostante la condivisione dei pesi del modello base, ogni agente costruisce e memorizza indipendentemente la propria cache KV per le stesse traiettorie lunghe e potenziate da strumenti, comportando un sovraccarico significativo di memoria e calcolo. I metodi esistenti per la condivisione della cache KV trascurano in larga misura questo scenario multi-LoRA. Osserviamo che, tra gli agenti, le differenze nella cache sono dominate dagli output degli adattatori, mentre le attivazioni provenienti dall'architettura preaddestrata condivisa rimangono altamente simili. Sulla base di questa osservazione, proponiamo LRAgent, un framework per la condivisione della cache KV per agenti multi-LoRA che scompone la cache in una componente base condivisa (dai pesi preaddestrati) e una componente dipendente dall'adattatore (dai pesi LoRA). LRAgent riduce il sovraccarico di memoria condividendo la componente base e memorizzando la componente dell'adattatore nella sua forma intrinsecamente low-rank, e riduce ulteriormente il sovraccarico computazionale, reso possibile dalle architetture multi-LoRA con componente-A condivisa, condividendo anche la cache low-rank ed evitando calcoli ridondanti per contesti già elaborati da altri agenti. Per ricostruire efficientemente i contributi degli adattatori a runtime, introduciamo Flash-LoRA-Attention, un kernel che riordina il calcolo dell'attenzione per evitare di materializzare la cache low-rank nella sua dimensione completa. LRAgent raggiunge una velocità di elaborazione (throughput) e una latenza per il primo token (time-to-first-token) prossime a quelle della cache completamente condivisa, preservando al contempo un'accuratezza vicina al baseline della cache non condivisa in vari benchmark di question-answering agentivo.
Comprendere la cultura richiede un ragionamento che attraversa contesto, tradizione e conoscenza sociale implicita, andando ben oltre il semplice richiamo di fatti isolati. Tuttavia, la maggior parte dei benchmark per question answering (QA) a focus culturale si basa su domande a singolo passaggio, che potrebbero consentire ai modelli di sfruttare indizi superficiali piuttosto che dimostrare un'autentica capacità di ragionamento culturale. In questo lavoro, presentiamo ID-MoCQA, il primo dataset su larga scala di QA multi-hop per valutare la comprensione culturale dei grandi modelli linguistici (LLM), ancorato alle tradizioni indonesiane e disponibile sia in inglese che in indonesiano. Introduciamo un nuovo framework che trasforma sistematicamente domande culturali a singolo passaggio in catene di ragionamento multi-hop che abbracciano sei tipi di indizi (ad esempio, senso comune, temporali, geografici). La nostra pipeline di convalida multi-stadio, che combina una revisione esperta e un filtraggio basato su LLM come giudice, garantisce coppie domanda-risposta di alta qualità. La nostra valutazione su modelli all'avanguardia rivela lacune sostanziali nel ragionamento culturale, in particolare nei compiti che richiedono inferenze sfumate. ID-MoCQA fornisce un benchmark impegnativo ed essenziale per far progredire le competenze culturali degli LLM.
La capacità di seguire la modalità rappresenta l'abilità dei modelli linguistici multimodali di grandi dimensioni (MLLM) di utilizzare selettivamente i contesti multimodali in base alle istruzioni dell'utente. Questa capacità è fondamentale per garantire sicurezza e affidabilità nelle implementazioni nel mondo reale. Tuttavia, i meccanismi sottostanti che governano questo processo decisionale rimangono poco compresi. In questo articolo, ne investigiamo il meccanismo di funzionamento attraverso una lente del flusso informativo. Le nostre scoperte rivelano che i token di istruzione funzionano come ancore strutturali per l'arbitraggio delle modalità: gli strati di attenzione superficiali eseguono un trasferimento di informazioni non selettivo, instradando gli indizi multimodali verso queste ancore come un buffer latente; la competizione tra modalità viene risolta all'interno degli strati di attenzione profondi guidati dall'intento dell'istruzione, mentre gli strati MLP mostrano inerzia semantica, agendo come una forza avversaria. Inoltre, identifichiamo un insieme sparso di teste di attenzione specializzate che guidano questo arbitraggio. Interventi causali dimostrano che manipolare appena il 5% di queste teste critiche può ridurre il rapporto di aderenza alla modalità del 60% tramite blocco, o aumentarlo del 60% attraverso un'amplificazione mirata dei campioni falliti. Il nostro lavoro rappresenta un passo significativo verso la trasparenza del modello e offre una struttura basata su principi per l'orchestrazione delle informazioni multimodali negli MLLM.
Il ragionamento integrato alla ricerca consente agli agenti linguistici di trascendere la conoscenza parametrica statica interrogando attivamente fonti esterne. Tuttavia, l'addestramento di questi agenti tramite apprendimento per rinforzo è ostacolato dal problema di assegnazione del credito multi-scala: i metodi esistenti si basano tipicamente su ricompense sparse a livello di traiettoria che non distinguono tra ragionamento di alta qualità e ipotesi fortuite, portando a comportamenti di ricerca ridondanti o fuorvianti. Per affrontare ciò, proponiamo Search-R2, un innovativo framework di collaborazione Attore-Affinatore che migliora il ragionamento attraverso un'intervento mirato, con entrambi i componenti ottimizzati congiuntamente durante l'addestramento. Il nostro approccio scompone il processo di generazione in un Attore, che produce traiettorie di ragionamento iniziali, e un Meta-Affinatore, che diagnostica selettivamente e ripara i passaggi difettosi tramite un meccanismo di "taglia e rigenera". Per fornire una supervisione granulare, introduciamo un design ibrido delle ricompense che accoppia la correttezza del risultato con una ricompensa densa del processo che quantifica la densità informativa delle evidenze recuperate. Teoricamente, formalizziamo l'interazione Attore-Affinatore come una politica di miscela regolarizzata, dimostrando che la correzione selettiva produce guadagni prestazionali rigorosi rispetto a baseline solide. Esperimenti estesi su vari dataset di QA generali e multi-hop dimostrano che Search-R2 supera costantemente le solide baseline basate su RAG e RL attraverso diverse scale di modelli, raggiungendo un'accuratezza di ragionamento superiore con overhead minimo.
Introduciamo WorldVQA, un benchmark progettato per valutare la conoscenza atomica del mondo visivo dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM). A differenza delle valutazioni attuali, che spesso confondono il recupero di conoscenze visive con il ragionamento, WorldVQA disaccoppia queste capacità per misurare rigorosamente "ciò che il modello memorizza". Il benchmark valuta la capacità atomica di riconoscere e denominare entità visive attraverso una tassonomia stratificata, che spazia da oggetti comuni delle classi principali a rarità di coda lunga. Ci aspettiamo che WorldVQA serva come test rigoroso per la fattualità visiva, stabilendo così uno standard per valutare l'ampiezza enciclopedica e i tassi di allucinazione dei modelli di frontiera attuali e di prossima generazione.
Man mano che i Large Language Model (LLM) passano da dataset di addestramento curati ad ambienti real-world aperti, emerge una limitazione fondamentale: l'addestramento statico non riesce a tenere il passo con i cambiamenti continui dell'ambiente di deployment. Il potenziamento del calcolo in fase di addestramento e di inferenza migliora le capacità statiche, ma non colma questo divario train-deploy. Sosteniamo che per affrontare questa limitazione sia necessario un nuovo asse di scalabilità: l'evoluzione. I metodi di adattamento esistenti durante il deployment, che si tratti di fine-tuning parametrico o di accumulo euristico in memoria, mancano dell'agentività strategica necessaria per diagnosticare i fallimenti e produrre miglioramenti duraturi. La nostra posizione è che l'evoluzione agenziale rappresenti il futuro inevitabile dell'adattamento degli LLM, elevando l'evoluzione stessa da una pipeline fissa a un agente evolutore autonomo. Istanziamo questa visione in un framework generale, A-Evolve, che tratta il miglioramento in fase di deployment come un processo di ottimizzazione deliberato e orientato a obiettivi, operante su uno stato di sistema persistente. Proponiamo inoltre l'ipotesi della scalabilità evolutiva: la capacità di adattamento scala con la potenza di calcolo allocata all'evoluzione, posizionando l'evoluzione agenziale come un percorso scalabile verso un adattamento sostenuto e aperto nel mondo reale.
I recenti progressi nei grandi modelli linguistici (LLM) hanno aperto nuove strade per accelerare la ricerca scientifica. Sebbene i modelli siano sempre più capaci di assistere in compiti di routine, la loro abilità di contribuire a scoperte matematiche nuove e di livello esperto è meno compresa. Presentiamo una raccolta di studi di caso che dimostrano come i ricercatori abbiano collaborato con successo con modelli di IA avanzati, in particolare i modelli basati su Gemini di Google (in particolare Gemini Deep Think e le sue varianti avanzate), per risolvere problemi aperti, confutare congetture e generare nuove dimostrazioni in diverse aree dell'informatica teorica, nonché in altri campi come l'economia, l'ottimizzazione e la fisica. Sulla base di queste esperienze, estraiamo tecniche comuni per una collaborazione efficace uomo-IA nella ricerca teorica, come il perfezionamento iterativo, la scomposizione dei problemi e il trasferimento di conoscenze interdisciplinari. Sebbene la maggior parte dei nostri risultati derivi da questa metodologia interattiva e conversazionale, evidenziamo anche casi specifici che vanno oltre le interfacce di chat standard. Questi includono l'utilizzo del modello come un rigoroso revisore avversario per rilevare errori sottili in dimostrazioni esistenti e la sua integrazione in un ciclo "neuro-simbolico" che scrive ed esegue autonomamente codice per verificare derivazioni complesse. Insieme, questi esempi evidenziano il potenziale dell'IA non solo come strumento per l'automazione, ma come un partner versatile e genuino nel processo creativo della scoperta scientifica.
Recentemente, si è registrato un notevole interesse della ricerca nell'addestramento di grandi modelli linguistici (LLM) con apprendimento per rinforzo (RL) su compiti del mondo reale, come la generazione di codice multi-turn. Sebbene l'RL online tenda a performare meglio dell'RL offline, i suoi costi di addestramento più elevati e l'instabilità ne ostacolano un'ampia adozione. In questo articolo, partendo dall'osservazione che la generazione di codice multi-turn può essere formulata come un processo decisionale di Markov a un passo e recuperabile, proponiamo l'apprendimento bandit contestuale con traiettorie offline (Cobalt), un nuovo metodo che combina i vantaggi dell'RL online e offline. Cobalt raccoglie inizialmente traiettorie di generazione di codice utilizzando un LLM di riferimento e le suddivide in traiettorie parziali da utilizzare come prompt contestuali. Successivamente, durante l'apprendimento bandit online, l'LLM viene addestrato a completare ogni prompt di traiettoria parziale attraverso una generazione di codice a singolo passo. Cobalt supera due baseline di RL online multi-turn basate su GRPO e VeRPO e migliora sostanzialmente R1-Distill 8B e Qwen3 8B fino a 9,0 e 6,2 punti assoluti di Pass@1 su LiveCodeBench. Inoltre, analizziamo i comportamenti di reward hacking in-context degli LLM e potenziamo l'addestramento Cobalt con traiettorie perturbate per mitigare questo problema. Nel complesso, i nostri risultati dimostrano che Cobalt è una soluzione promettente per compiti decisionali iterativi come la generazione di codice multi-turn. Il nostro codice e i nostri dati sono disponibili all'indirizzo https://github.com/OSU-NLP-Group/cobalt.
L'allineamento di oggetti con le corrispondenti descrizioni testuali è una sfida fondamentale e un requisito realistico nella comprensione visivo-linguistica. Sebbene i recenti modelli di embedding multimodali eccellano nell'allineamento globale immagine-testo, spesso faticano con l'allineamento granulare tra regioni dell'immagine e frasi specifiche. In questo lavoro, presentiamo ObjEmbed, un innovativo modello di embedding MLLM che scompone l'immagine di input in più embedding regionali, ciascuno corrispondente a un singolo oggetto, insieme a embedding globali. Supporta un'ampia gamma di compiti di comprensione visiva come il grounding visivo, il retrieval di immagini locali e il retrieval di immagini globali. ObjEmbed possiede tre proprietà chiave: (1) Rappresentazione Orientata agli Oggetti: Cattura sia gli aspetti semantici che spaziali degli oggetti generando due embedding complementari per ogni regione: un embedding d'oggetto per il matching semantico e un embedding IoU che predice la qualità della localizzazione. Il punteggio finale di matching dell'oggetto combina la similarità semantica con l'IoU predetto, consentendo un retrieval più accurato. (2) Versatilità: Gestisce senza soluzione di continuità sia compiti a livello di regione che a livello di immagine. (3) Codifica Efficiente: Tutti gli oggetti in un'immagine, insieme all'immagine completa, vengono codificati in un singolo passaggio in avanti per un'elevata efficienza. Le prestazioni superiori su 18 benchmark diversificati ne dimostrano la forte discriminazione semantica.
Gli agenti autonomi alimentati da grandi modelli linguistici (LLM) promettono di accelerare la scoperta scientifica end-to-end, ma valutare rigorosamente la loro capacità di compiere scoperte verificabili rimane una sfida centrale. Gli attuali benchmark presentano un compromesso: si basano pesantemente su valutazioni LLM-as-judge di output di ricerca generati automaticamente oppure ottimizzano metriche di performance convenienti ma isolate, che forniscono proxy grossolani per l'intuizione scientifica. Per colmare questa lacuna, introduciamo FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), un benchmark che valuta gli agenti attraverso la riscoperta di risultati consolidati da recenti ricerche ad alto impatto nel machine learning. Agli agenti viene fornita solo una domanda di ricerca di alto livello estratta da uno studio pubblicato e verificato, e devono esplorare autonomamente idee, progettare esperimenti, implementare codice, eseguire i propri piani e derivare conclusioni supportate da evidenze empiriche. Valutiamo una gamma di agenti all'avanguardia con architetture LLM di frontiera come gpt-5 su FIRE-Bench. I nostri risultati mostrano che la ricerca scientifica a ciclo completo rimane impegnativa per gli attuali sistemi di agenti: anche gli agenti più potenti ottengono un successo di riscoperta limitato (<50 F1), mostrano un'elevata varianza tra le esecuzioni e presentano modalità di fallimento ricorrenti nella progettazione sperimentale, nell'esecuzione e nel ragionamento basato su evidenze. FIRE-Bench fornisce un framework rigoroso e diagnostico per misurare i progressi verso una scoperta scientifica affidabile guidata da agenti.
Comprendere il funzionamento dei componenti transformer nei modelli linguistici di grandi dimensioni (LLM) è fondamentale, poiché costituisce il nucleo dei recenti progressi tecnologici nell'intelligenza artificiale. In questo lavoro, esaminiamo nuovamente le sfide associate all'interpretabilità dei moduli feed-forward (FFN) e proponiamo MemoryLLM, che mira a disaccoppiare gli FFN dall'auto-attenzione e ci permette di studiare gli FFN disaccoppiati come una memoria neurale di recupero contesto-indipendente e basata sui token. Nel dettaglio, investigiamo come i token di input accedono alle locazioni di memoria all'interno dei parametri degli FFN e l'importanza della memoria degli FFN in diversi task downstream. MemoryLLM realizza FFN contesto-indipendenti addestrandoli isolatamente dall'auto-attenzione, utilizzando direttamente gli embedding dei token. Questo approccio consente di pre-calcolare gli FFN come lookup basati sui token (ToL), permettendo un trasferimento on-demand tra la VRAM e lo storage, migliorando inoltre l'efficienza inferenziale. Introduciamo anche Flex-MemoryLLM, posizionandolo tra un design transformer convenzionale e MemoryLLM. Questa architettura colma il divario prestazionale causato dall'addestramento degli FFN con embedding contesto-indipendenti basati sui token.
I modelli linguistici di piccole dimensioni sono sempre più considerati un approccio promettente ed economicamente vantaggioso all'IA agenziale, con i sostenitori che affermano siano sufficientemente capaci per i flussi di lavoro agentici. Tuttavia, sebbene gli agenti più piccoli possano eguagliare da vicino quelli più grandi su compiti semplici, rimane poco chiaro come le loro prestazioni scalino con la complessità del compito, quando diventano necessari modelli di grandi dimensioni e come sfruttare meglio gli agenti piccoli per carichi di lavoro a lungo orizzonte. In questo lavoro, dimostriamo empiricamente che le prestazioni degli agenti piccoli non riescono a scalare con la complessità del compito in attività di ricerca approfondita e di programmazione, e introduciamo le *Strategy Auctions for Workload Efficiency* (SALE), un framework per agenti ispirato alle piattaforme di lavoro autonomo. In SALE, gli agenti partecipano a un'asta presentando brevi piani strategici, che vengono valutati da un meccanismo sistematico di costo-valore e raffinati tramite una memoria condivisa dell'asta, consentendo un instradamento per singolo compito e un continuo auto-miglioramento senza dover addestrare un router separato o eseguire tutti i modelli fino al completamento. Su compiti di ricerca approfondita e di programmazione di varia complessità, SALE riduce la dipendenza dall'agente più grande del 53%, abbassa il costo complessivo del 35% e migliora costantemente il pass@1 dell'agente più grande, con un sovraccarico trascurabile oltre all'esecuzione della traccia finale. Al contrario, i router consolidati che si basano sulle descrizioni dei compiti hanno prestazioni inferiori all'agente più grande o non riescono a ridurre i costi – spesso entrambe le cose – sottolineando la loro scarsa adattabilità ai flussi di lavoro agentici. Questi risultati suggeriscono che, sebbene gli agenti piccoli possano essere insufficienti per carichi di lavoro complessi, possono essere efficacemente "scalati" attraverso un'allocazione coordinata dei compiti e un auto-miglioramento in fase di test. Più in generale, motivano una visione a livello di sistema dell'IA agenziale, in cui i guadagni prestazionali derivano meno da modelli individuali sempre più grandi e più da meccanismi di coordinamento ispirati al mercato che organizzano agenti eterogenei in ecosistemi efficienti e adattivi.
Lo screening pan-tumorale su larga scala nelle scansioni TC rimane una sfida per i metodi di IA esistenti, principalmente a causa della difficoltà di localizzare diversi tipi di piccole lesioni in grandi volumi TC. L'estremo squilibrio tra primo piano e sfondo ostacola significativamente la capacità dei modelli di concentrarsi sulle regioni affette da patologia, mentre un'attenzione ridondante sulle regioni sane non solo diminuisce l'efficienza ma aumenta anche i falsi positivi. Ispirati dalla strategia diagnostica di "sguardo rapido" (glance) e "focus" dei radiologi, introduciamo GF-Screen, un framework di apprendimento per rinforzo Glance e Focus per lo screening pan-tumorale. GF-Screen utilizza un modello Glance per localizzare le regioni patologiche e un modello Focus per segmentare con precisione le lesioni, dove i risultati della segmentazione del modello Focus vengono utilizzati per premiare il modello Glance tramite Apprendimento per Rinforzo (RL). Nello specifico, il modello Glance ritaglia un gruppo di sotto-volumi dall'intero volume TC e impara a selezionare i sotto-volumi contenenti lesioni affinché il modello Focus li segmenti. Considerando che l'operazione di selezione non è differenziabile per l'addestramento alla segmentazione, proponiamo di utilizzare i risultati della segmentazione per premiare il modello Glance. Per ottimizzare il modello Glance, introduciamo un nuovo paradigma di apprendimento relativo di gruppo, che utilizza un confronto relativo di gruppo per dare priorità alle previsioni ad alto vantaggio e scartare quelle a basso vantaggio all'interno dei gruppi di sotto-volumi, migliorando non solo l'efficienza ma anche riducendo i falsi positivi. In questo modo, per la prima volta, estendiamo efficacemente le tecniche all'avanguardia di RL per affrontare le sfide specifiche dello screening pan-tumorale. Esperimenti estesi su 16 dataset interni e 7 esterni relativi a 9 tipi di lesione hanno dimostrato l'efficacia di GF-Screen. Degno di nota, GF-Screen guida la classifica di validazione pubblica della challenge pan-tumorale MICCAI FLARE25, superando di ampio margine la soluzione campione di FLARE24 (+25.6% DSC e +28.2% NSD).
La fondazione dell'interfaccia grafica utente (GUI) mira a tradurre le istruzioni in linguaggio naturale in coordinate schermo eseguibili, consentendo l'interazione automatizzata con la GUI. Tuttavia, una fondazione errata può comportare azioni costose e difficilmente reversibili (ad esempio, approvazioni di pagamento errate), sollevando preoccupazioni sull'affidabilità del modello. In questo articolo, introduciamo SafeGround, un framework consapevole dell'incertezza per i modelli di fondazione GUI che abilita previsioni risk-aware attraverso calibrazioni prima del testing. SafeGround utilizza un metodo di quantificazione dell'incertezza distribution-aware per catturare la dispersione spaziale di campioni stocastici dagli output di qualsiasi modello dato. Successivamente, attraverso il processo di calibrazione, SafeGround deriva una soglia decisionale al momento del test con un controllo del tasso di falsi scoperti (FDR) garantito statisticamente. Applichiamo SafeGround su molteplici modelli di fondazione GUI per il benchmark impegnativo ScreenSpot-Pro. I risultati sperimentali mostrano che la nostra misura di incertezza supera costantemente i baseline esistenti nel distinguere le previsioni corrette da quelle errate, mentre la soglia calibrata consente in modo affidabile un rigoroso controllo del rischio e il potenziale di sostanziali miglioramenti dell'accuratezza a livello di sistema. Su molteplici modelli di fondazione GUI, SafeGround migliora l'accuratezza a livello di sistema fino a 5,38 punti percentuali rispetto all'inferenza basata solo su Gemini.
I modelli linguistici di grandi dimensioni (LLM) e i modelli visione-linguaggio (VLM) hanno dimostrato capacità notevoli. Tuttavia, il loro utilizzo è ostacolato da costi computazionali significativi. I metodi di pruning strutturato esistenti, sebbene efficienti per l'hardware, spesso soffrono di una significativa degradazione dell'accuratezza. In questo articolo, sosteniamo che questo fallimento deriva da un approccio al pruning indipendente dallo stadio, che trascura i ruoli asimmetrici tra la fase di prefill e quella di decodifica. Introducendo un meccanismo di gate virtuale, la nostra analisi di importanza rivela che gli strati profondi sono critici per la predizione del token successivo (decodifica) ma largamente ridondanti per la codifica del contesto (prefill). Sfruttando questa intuizione, proponiamo il Prefill-Only Pruning (POP), una strategia di inferenza consapevole dello stadio che omette in sicurezza gli strati profondi durante la fase computazionalmente intensiva del prefill, conservando il modello completo per la fase sensibile della decodifica. Per abilitare la transizione tra le fasi, introduciamo proiezioni Chiave-Valore (KV) indipendenti per mantenere l'integrità della cache e una strategia di gestione del confine per garantire l'accuratezza del primo token generato. Esperimenti estensivi su Llama-3.1, Qwen3-VL e Gemma-3 su diverse modalità dimostrano che POP raggiunge un miglioramento fino a 1,37 volte nella latenza del prefill con una perdita di prestazione minima, superando efficacemente i limiti del compromesso accuratezza-efficienza dei metodi di pruning strutturato esistenti.
Nonostante i recenti progressi nei modelli visione-linguaggio (VLM), gli approcci esistenti spesso falliscono nel generare risposte personalizzate basate sulle esperienze specifiche dell'utente, poiché mancano della capacità di associare input visivi con il contesto visivo-testuale accumulato dall'utente. Formalizziamo questa sfida come *personalizzazione visiva contestualizzata*, che richiede il riconoscimento visivo e il recupero testuale delle esperienze visive personalizzate da parte dei VLM durante l'interpretazione di nuove immagini. Per affrontare questo problema, proponiamo CoViP, un framework unificato che tratta la creazione di didascalie per immagini personalizzate come un compito fondamentale per la personalizzazione visiva contestualizzata e migliora questa capacità attraverso un post-addestramento basato su apprendimento per rinforzo e una generazione potenziata dalle didascalie. Introduciamo inoltre valutazioni diagnostiche che escludono esplicitamente soluzioni basate su scorciatoie testuali e verificano se i VLM sfruttano veramente il contesto visivo. Esperimenti estensivi dimostrano che i VLM open-source e proprietari esistenti presentano limitazioni sostanziali, mentre CoViP non solo migliora la creazione di didascalie personalizzate, ma produce anche guadagni olistici attraverso i compiti di personalizzazione downstream. Questi risultati evidenziano CoViP come una fase cruciale per abilitare una personalizzazione visiva contestualizzata robusta e generalizzabile.
In questo lavoro, esaminiamo nuovamente l'ottimizzazione dei Transformer attraverso la lente della geometria del secondo ordine e stabiliamo una connessione diretta tra la progettazione architetturale, la scala delle attivazioni, la matrice Hessiana e il tasso di apprendimento massimo tollerabile. Introduciamo una semplice strategia di normalizzazione, denominata SimpleNorm, che stabilizza per costruzione le scale delle attivazioni intermedie. Successivamente, analizzando l'Hessiana della loss rispetto alle attivazioni della rete, mostriamo teoricamente che SimpleNorm riduce significativamente la norma spettrale dell'Hessiana, permettendo così tassi di apprendimento stabili più elevati. Convalidiamo i nostri risultati teorici attraverso esperimenti estesi su modelli GPT di grandi dimensioni a scale parametriche di 1B, 1.4B, 7B e 8B. Empiricamente, SimpleGPT, la nostra rete basata su SimpleNorm, tollera tassi di apprendimento da 3 a 10 volte maggiori rispetto allo standard convenzionale, dimostra costantemente una forte stabilità di ottimizzazione e raggiunge prestazioni sostanzialmente migliori rispetto ai baseline consolidati. Nello specifico, addestrando modelli di scala 7B per 60K passi, SimpleGPT raggiunge una loss di addestramento inferiore di 0.08 rispetto a LLaMA2 con QKNorm, riducendo la loss da 2.290 a 2.208. Il nostro codice sorgente sarà rilasciato su https://github.com/Ocram7/SimpleGPT.
La riconoscimento facciale che preserva la privacy basato su trasformazioni (PPFR) mira a verificare le identità nascondendo i dati facciali ad attaccanti e fornitori di servizi malevoli. Le valutazioni esistenti considerano per lo più la privacy come resistenza alla ricostruzione a livello di pixel, misurata tramite PSNR e SSIM. Dimostriamo che questa visione incentrata sulla ricostruzione è fallace. Presentiamo FaceLinkGen, un attacco di estrazione dell'identità che esegue collegamento/abbinamento e rigenerazione facciale direttamente dai template protetti, senza recuperare i pixel originali. Su tre recenti sistemi PPFR, FaceLinkGen raggiunge un'accuratezza di abbinamento superiore al 98,5% e un successo di rigenerazione superiore al 96%, e mantiene comunque valori superiori al 92% nell'abbinamento e al 94% nella rigenerazione in uno scenario di conoscenza quasi nulla. Questi risultati rivelano uno scarto strutturale tra le metriche di distorsione pixel, ampiamente utilizzate nella valutazione PPFR, e la privacy reale. Dimostriamo che l'offuscamento visivo lascia le informazioni d'identità ampiamente esposte sia a intrusi esterni che a fornitori di servizi non attendibili.
Con l'avvento dei Large Language Model (LLM), gli agenti a scopo generale hanno registrato progressi fondamentali. Tuttavia, la valutazione di questi agenti presenta sfide uniche che li distinguono dai benchmark statici di domanda-risposta. Osserviamo che gli attuali benchmark per agenti sono fortemente confusi da fattori estranei, inclusi i prompt di sistema, le configurazioni del set di strumenti e le dinamiche ambientali. Le valutazioni esistenti spesso si basano su framework frammentati e specifici del ricercatore, in cui l'ingegneria dei prompt per il ragionamento e l'uso degli strumenti varia significativamente, rendendo difficile attribuire i miglioramenti delle prestazioni al modello stesso. Inoltre, la mancanza di dati ambientali standardizzati porta a errori non tracciabili e risultati non riproducibili. Questa mancanza di standardizzazione introduce una sostanziale iniquità e opacità nel campo. Proponiamo che un framework di valutazione unificato sia essenziale per il progresso rigoroso della valutazione degli agenti. A tal fine, presentiamo una proposta finalizzata a standardizzare la valutazione degli agenti.
La segmentazione di immagini mediche sta evolvendo da modelli specifici per task verso framework generalizzabili. Ricerche recenti sfruttano i Modelli Linguistici Multimodali (MLLM) come agenti autonomi, impiegando il reinforcement learning con ricompensa verificabile (RLVR) per orchestrare strumenti specializzati come il Segment Anything Model (SAM). Tuttavia, questi approcci spesso si basano su strategie di interazione rigide e a turno singolo, e mancano di supervisione a livello di processo durante l'addestramento, il che ne limita la capacità di sfruttare appieno il potenziale dinamico degli strumenti interattivi e porta ad azioni ridondanti. Per colmare questa lacuna, proponiamo MedSAM-Agent, un framework che riformula la segmentazione interattiva come un processo decisionale autonomo multi-step. In primo luogo, introduciamo una strategia di prompting ibrida per la generazione di traiettorie curate da esperti, consentendo al modello di interiorizzare euristiche decisionali simili a quelle umane e strategie di raffinamento adattive. Inoltre, sviluppiamo una pipeline di addestramento a due stadi che integra una verifica end-to-end multi-turno dei risultati con un design di ricompensa di processo a fedeltà clinica, per promuovere la parsimonia interattiva e l'efficienza decisionale. Esperimenti estesi su 6 modalità mediche e 21 dataset dimostrano che MedSAM-Agent raggiunge prestazioni allo stato dell'arte, unificando efficacemente il ragionamento medico autonomo con un'ottimizzazione iterativa e robusta. Il codice è disponibile https://github.com/CUHK-AIM-Group/MedSAM-Agent{qui}.
Il miglioramento delle capacità di ragionamento dei grandi modelli linguistici (LLM) si basa tipicamente sulla capacità del modello di campionare una soluzione corretta da rinforzare o sull'esistenza di un modello più forte in grado di risolvere il problema. Tuttavia, molti problemi complessi rimangono intrattabili anche per i modelli all'avanguardia attuali, impedendo l'estrazione di segnali di addestramento validi. Un'alternativa promettente è sfruttare soluzioni umane esperte di alta qualità, ma l'imitazione ingenua di questi dati fallisce perché è fondamentalmente fuori distribuzione: le soluzioni esperte sono tipicamente didattiche e contengono lacune di ragionamento implicite pensate per lettori umani piuttosto che per modelli computazionali. Inoltre, le soluzioni esperte di alta qualità sono costose, rendendo necessari metodi di addestramento efficienti dal punto di vista del campionamento e generalizzabili. Proponiamo la Distribuzione Aligned Imitation Learning (DAIL), un metodo in due fasi che colma il divario distribuzionale trasformando prima le soluzioni esperte in tracce di ragionamento dettagliate e in-distribuzione, per poi applicare un obiettivo contrastivo per concentrare l'apprendimento sulle intuizioni e le metodologie esperte. Troviamo che DAIL possa sfruttare meno di 1000 soluzioni esperte di alta qualità per ottenere guadagni del 10-25% in pass@k sui modelli Qwen2.5-Instruct e Qwen3, migliorare l'efficienza del ragionamento da 2 a 4 volte e abilitare la generalizzazione fuori dominio.
I sistemi di raccomandazione multimodali integrano tipicamente il comportamento degli utenti con i dati multimodali degli elementi, catturando così preferenze utente più accurate. Contemporaneamente, con l'ascesa dei grandi modelli (LM), la raccomandazione multimodale sta sfruttando sempre più i loro punti di forza nella comprensione semantica e nel ragionamento contestuale. Tuttavia, le rappresentazioni dei LM sono intrinsecamente ottimizzate per compiti semantici generali, mentre i modelli di raccomandazione fanno molto affidamento sulle caratteristiche identificate (ID) uniche e sparse di utenti/elementi. I lavori esistenti trascurano la divergenza rappresentazionale fondamentale tra i grandi modelli e i sistemi di raccomandazione, risultando in rappresentazioni multimodali incompatibili e prestazioni di raccomandazione subottimali. Per colmare questa lacuna, proponiamo RecGOAT, un nuovo ma semplice framework di allineamento semantico duale per la raccomandazione multimodale potenziata da LLM, che offre una capacità di allineamento teoricamente garantita. RecGOAT impiega prima le reti di attenzione su grafo per arricchire la semantica collaborativa modellando le relazioni elemento-elemento, utente-elemento e utente-utente, sfruttando le rappresentazioni LM di utenti/elementi e la cronologia delle interazioni. Inoltre, progettiamo un framework di allineamento progressivo multimodalità-ID a granularità duale, che raggiunge l'allineamento semantico a livello di istanza e a livello di distribuzione rispettivamente tramite l'apprendimento contrastivo cross-modale (CMCL) e il trasporto ottimale adattivo (OAT). Teoricamente, dimostriamo che le rappresentazioni unificate derivate dal nostro framework di allineamento mostrano una consistenza e completezza semantica superiori. Esperimenti estesi su tre benchmark pubblici mostrano che il nostro RecGOAT raggiunge prestazioni all'avanguardia, convalidando empiricamente le nostre intuizioni teoriche. Inoltre, l'implementazione su una piattaforma di advertising online su larga scala conferma l'efficacia e la scalabilità del modello negli scenari di raccomandazione industriale. Codice disponibile all'indirizzo https://github.com/6lyc/RecGOAT-LLM4Rec.
Le relazioni tra oggetti e linguaggio sono fondamentali per una comunicazione significativa tra esseri umani e IA e per un'intelligenza incarnata praticamente utile. Introduciamo HieraNav, un'attività di navigazione verso obiettivi multi-granularità e vocabolario aperto in cui gli agenti interpretano istruzioni in linguaggio naturale per raggiungere target a quattro livelli semantici: scena, stanza, regione e istanza. A tal fine, presentiamo Language as a Map (LangMap), un benchmark su larga scala costruito su scansioni 3D indoor del mondo reale con annotazioni complete verificate da esseri umani e compiti che abbracciano questi livelli. LangMap fornisce etichette di regione, descrizioni di regione discriminative, descrizioni di istanza discriminative che coprono 414 categorie di oggetti e oltre 18.000 attività di navigazione. Ogni target presenta sia descrizioni concise che dettagliate, consentendo la valutazione su diversi stili di istruzione. LangMap raggiunge una qualità di annotazione superiore, superando GOAT-Bench del 23,8% in accuratezza discriminativa utilizzando quattro volte meno parole. Valutazioni complete di modelli zero-shot e supervisionati su LangMap rivelano che un contesto e una memoria più ricchi migliorano il successo, mentre obiettivi a coda lunga, piccoli, dipendenti dal contesto e distanti, così come il completamento multi-obiettivo, rimangono sfide aperte. HieraNav e LangMap stabiliscono un banco di prova rigoroso per far progredire la navigazione incarnata guidata dal linguaggio. Progetto: https://bo-miao.github.io/LangMap
Le interfacce cervello-testo cliniche sono progettate per pazienti paralizzati che non possono fornire registrazioni di addestramento estese. Il pre-addestramento migliora la generalizzazione efficiente dei dati apprendendo prior statistici tra soggetti, ma questi prior dipendono criticamente dal contesto. Mentre il linguaggio naturale potrebbe svilupparsi gradualmente nell'arco di minuti, la maggior parte dei metodi utilizza pre-addestramento con solo pochi secondi di contesto. Pertanto, proponiamo MEG-XL, un modello pre-addestrato con 2,5 minuti di contesto MEG per campione, da 5 a 300 volte più lungo rispetto ai lavori precedenti, equivalente a 191k token, catturando così un contesto neurale esteso. Addestrando il modello sul compito di decodifica delle parole dai dati cerebrali, MEG-XL raggiunge prestazioni equivalenti a quelle supervisionate con una frazione dei dati (ad esempio 1 ora vs 50 ore) e supera i modelli foundation cerebrali. Abbiamo riscontrato che i modelli pre-addestrati con contesti più lunghi apprendono rappresentazioni che si trasferiscono meglio alla decodifica delle parole. I nostri risultati indicano che il pre-addestramento con contesto lungo aiuta a sfruttare il contesto neurale esteso che altri metodi scartano inutilmente. Codice, pesi del modello e istruzioni sono disponibili su https://github.com/neural-processing-lab/MEG-XL.
Un feedback di alta qualità è essenziale per un'efficace interazione uomo-IA. Esso colma lacune conoscitive, corregge divagazioni e modella il comportamento del sistema, sia durante l'interazione che lungo tutto lo sviluppo del modello. Tuttavia, nonostante la sua importanza, il feedback umano fornito all'IA è spesso poco frequente e di bassa qualità. Questa discrepanza motiva un esame critico del feedback umano durante le interazioni con le IA. Per comprendere e superare le sfide che impediscono agli utenti di fornire un feedback di alta qualità, abbiamo condotto due studi che esaminano le dinamiche di feedback tra esseri umani e agenti conversazionali (CA). Il nostro studio formativo, attraverso la lente delle massime di Grice, ha identificato quattro Barriere al Feedback — Terreno Comune, Verificabilità, Comunicazione e Informatività — che impediscono agli utenti di fornire un feedback di alta qualità. Sulla base di questi risultati, abbiamo derivato tre desiderata progettuali e dimostrato che i sistemi che incorporano impalcature allineate con questi desiderata hanno consentito agli utenti di fornire un feedback di qualità superiore. Infine, dettagliamo un appello all'azione per la più ampia comunità dell'IA, affinché si compiano progressi nelle capacità dei Modelli Linguistici di Grande Scala per superare le Barriere al Feedback.
Molti sistemi di apprendimento automatico hanno accesso a fonti multiple di evidenza per lo stesso obiettivo predittivo, tuttavia queste fonti spesso differiscono in affidabilità e informatività tra i diversi input. Nella classificazione bioacustica, l'identità della specie può essere dedotta sia dal segnale acustico che dal contesto spaziotemporale come localizzazione e stagione; sebbene l'inferenza bayesiana motivi una combinazione moltiplicativa delle evidenze, in pratica di solito disponiamo solo di predittori discriminativi piuttosto che di modelli generativi calibrati. Introduciamo Fusion under INdependent Conditional Hypotheses (FINCH), un framework adattivo di fusione delle evidenze log-lineare che integra un classificatore audio pre-addestrato con un predittore spaziotemporale strutturato. FINCH apprende una funzione di gating per campione che stima l'affidabilità dell'informazione contestuale da statistiche di incertezza e informatività. La famiglia di fusione risultante contiene il classificatore solo-audio come caso speciale e delimita esplicitamente l'influenza dell'evidenza contestuale, producendo una classe di ipotesi a rischio contenuto con un fallback interpretabile basato sul solo audio. Su diversi benchmark, FINCH supera costantemente la fusione a pesi fissi e i baseline solo-audio, migliorando robustezza e compromessi di errore anche quando l'informazione contestuale è debole isolatamente. Raggiungiamo prestazioni state-of-the-art su CBI e prestazioni competitive o migliorate su diversi sottoinsiemi di BirdSet utilizzando un approccio leggero, interpretabile e basato sull'evidenza. Il codice è disponibile: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{repository-anonimo}}
La cache Key-Value (KV) dei Large Language Model (LLM) è basata sui prefissi, rendendola altamente inefficiente per l'elaborazione di contesti recuperati in ordine arbitrario. È stato proposto il Position-Independent Caching (PIC) per consentire il riutilizzo della KV senza vincoli posizionali; tuttavia, gli approcci esistenti comportano spesso un degrado sostanziale dell'accuratezza, limitandone l'adozione pratica. Per risolvere questo problema, proponiamo il PIC nativo reintroducendo l'encoder nei diffusi LLM a solo decoder e addestrandolo esplicitamente per supportare il PIC. Sviluppiamo inoltre COMB, un sistema di caching consapevole del PIC che si integra perfettamente con i framework di inferenza esistenti. I risultati sperimentali mostrano che COMB riduce il Time-to-First-Token (TTFT) del 51-94% e aumenta il throughput di 3 volte con un'accuratezza comparabile. Inoltre, il miglioramento qualitativo ottenuto utilizzando DeepSeek-V2-Lite-Chat dimostra l'applicabilità di COMB ad altri tipi di LLM a solo decoder. Il nostro codice è disponibile all'indirizzo https://github.com/shijuzhao/Comb.