Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo MiroThinker v1.0, un agente di ricerca open-source progettato per far progredire le capacità di ragionamento aumentato da strumenti e di ricerca di informazioni. A differenza degli agenti precedenti che si limitano a scalare le dimensioni del modello o la lunghezza del contesto, MiroThinker esplora lo scaling interattivo a livello di modello, addestrando sistematicamente il modello a gestire interazioni agente-ambiente più profonde e frequenti come terza dimensione del miglioramento delle prestazioni. A differenza dello scaling al tempo di test degli LLM, che opera in isolamento e rischia il degrado con catene di ragionamento più lunghe, lo scaling interattivo sfrutta il feedback ambientale e l'acquisizione di informazioni esterne per correggere errori e perfezionare le traiettorie. Attraverso l'apprendimento per rinforzo, il modello raggiunge uno scaling interattivo efficiente: con una finestra contestuale di 256K, può eseguire fino a 600 chiamate a strumenti per task, consentendo un ragionamento multi-turno prolungato e flussi di lavoro di ricerca complessi nel mondo reale. Attraverso quattro benchmark rappresentativi - GAIA, HLE, BrowseComp e BrowseComp-ZH - la variante da 72B raggiunge rispettivamente una precisione fino all'81,9%, 37,7%, 47,1% e 55,6%, superando i precedenti agenti open-source e avvicinandosi alle controparti commerciali come GPT-5-high. La nostra analisi rivela che MiroThinker beneficia dello scaling interattivo in modo coerente: le prestazioni di ricerca migliorano in modo prevedibile man mano che il modello si impegna in interazioni agente-ambiente più profonde e frequenti, dimostrando che la profondità di interazione mostra comportamenti di scaling analoghi alle dimensioni del modello e alla lunghezza del contesto. Questi risultati stabiliscono lo scaling interattivo come una terza dimensione critica per la costruzione di agenti di ricerca open di prossima generazione, complementare alla capacità del modello e alle finestre contestuali.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli in diversi domini, ma il loro addestramento rimane dispendioso in termini di risorse e tempo, richiedendo una potenza di calcolo massiccia e un'attenta orchestrazione delle procedure di training. Il *model souping* – la pratica di mediare i pesi di più modelli con la stessa architettura – è emersa come una tecnica promettente, applicabile prima e dopo l'addestramento, in grado di migliorare le prestazioni senza costosi riaddestramenti. In questo articolo, introduciamo *Soup Of Category Experts* (SoCE), un approccio metodologico al *model souping* che utilizza la composizione dei benchmark per identificare i candidati ottimali e applica una media pesata non uniforme per massimizzare le prestazioni. Contrariamente ai precedenti approcci di media uniforme, il nostro metodo sfrutta l'osservazione che le categorie di benchmark spesso mostrano basse inter-correlazioni nelle prestazioni del modello. SoCE identifica modelli "esperti" per ogni cluster di categorie debolmente correlate e li combina utilizzando una media pesata ottimizzata invece di pesi uniformi. Dimostriamo che il metodo proposto migliora le prestazioni e la robustezza in molteplici domini, incluse le capacità multilingue, l'utilizzo di strumenti (*tool calling*) e la matematica, e raggiunge risultati allo stato dell'arte sul Berkeley Function Calling Leaderboard.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno spostato la frontiera dalla risoluzione di enigmi al ragionamento di livello scientifico, il tipo necessario per affrontare problemi le cui risposte devono resistere alla prova della natura, non semplicemente adattarsi a una griglia di valutazione. La fisica rappresenta il test più rigoroso di questo cambiamento, poiché lega i simboli alla realtà in modo fondamentale, fungendo da pietra angolare della maggior parte delle tecnologie moderne. In questo lavoro, riusciamo a far avanzare la ricerca in fisica sviluppando modelli linguistici di grandi dimensioni con eccezionali capacità di ragionamento fisico, particolarmente abili nella risoluzione di problemi di fisica di livello olimpico. Introduciamo P1, una famiglia di modelli open-source per il ragionamento fisico addestrati interamente attraverso l'apprendimento per rinforzo (RL). Tra questi, P1-235B-A22B è il primo modello open-source con prestazioni da medaglia d'oro alla più recente Olimpiade Internazionale di Fisica (IPhO 2025), vincendo 12 medaglie d'oro su 13 competizioni internazionali/regionali di fisica nel 2024/2025. Anche P1-30B-A3B supera quasi tutti gli altri modelli open-source su IPhO 2025, ottenendo una medaglia d'argento. Ulteriormente potenziato da un framework agentico chiamato PhysicsMinions, P1-235B-A22B+PhysicsMinions raggiunge il primo posto assoluto su IPhO 2025 e ottiene il punteggio medio più alto nelle 13 competizioni di fisica. Oltre alla fisica, i modelli P1 dimostrano anche ottime prestazioni in altre attività di ragionamento come la matematica e la programmazione, mostrando la grande generalizzabilità della serie P1.
Presentiamo Uni-MoE 2.0 della famiglia Lychee. In quanto modello large omnimodale (OLM) completamente open-source, avanza significativamente la serie Uni-MoE di Lychee nella comprensione, ragionamento e generazione multimodale incentrata sul linguaggio. Basandoci sull'architettura densa Qwen2.5-7B, costruiamo Uni-MoE-2.0-Omni da zero attraverso tre contributi fondamentali: un design Mixture-of-Experts (MoE) a capacità dinamica, una strategia di training progressivo potenziata con una strategia di reinforcement iterativa, e una tecnica accuratamente curata di abbinamento dati multimodali. Il modello è capace di comprensione omnimodale, nonché di generare immagini, testo e parlato. Architetturalmente, il nostro nuovo framework MoE bilancia efficienza computazionale e capacità per 10 input cross-modali utilizzando esperti condivisi, instradati e nulli, mentre la nostra Omni-Modality 3D RoPE assicura un allineamento spazio-temporale cross-modale nel livello di self-attention. Per il training, dopo il pre-training cross-modale, utilizziamo una strategia di fine-tuning supervisionato progressivo che attiva esperti specifici per modalità ed è potenziata da una composizione dati bilanciata e da un metodo GSPO-DPO iterativo per stabilizzare il training RL e migliorare il ragionamento. Dal punto di vista dei dati, il modello base, addestrato su circa 75B token di dati multimodali open-source, è equipaggiato con token speciali per la generazione di parlato e immagini, permettendogli di apprendere questi compiti generativi condizionando i suoi output su indizi linguistici. Una valutazione estesa su 85 benchmark dimostra che il nostro modello raggiunge prestazioni SOTA o altamente competitive rispetto ai principali OLM, superando Qwen2.5-Omni (addestrato con 1.2T di token) su oltre 50 dei 76 benchmark. I punti di forza chiave includono la comprensione video (+7% media su 8 benchmark), la comprensione omnimodale (+7% media su 4 benchmark) e il ragionamento audiovisivo (+4%). Avanza inoltre nell'elaborazione di parlato di forma lunga (riducendo il WER del 4.2%) e guida in 5 metriche relative all'elaborazione immagini di basso livello e alla generazione controllabile.
Introduciamo Part-X-MLLM, un modello linguistico multimodale 3D nativo che unifica compiti 3D diversificati formulandoli come programmi in una grammatica strutturata ed eseguibile. Dati una nuvola di punti RGB e un prompt in linguaggio naturale, il nostro modello genera in modo autoregressivo una singola sequenza di token coerente che codifica bounding box a livello di parte, descrizioni semantiche e comandi di modifica. Questo output strutturato funge da interfaccia versatile per pilotare moduli downstream consapevoli della geometria per la generazione e modifica basate su parti. Disaccoppiando la pianificazione simbolica dalla sintesi geometrica, il nostro approccio consente a qualsiasi motore geometrico compatibile di essere controllato tramite un unico frontend nativo linguistico. Pre-addestriamo un'architettura a doppio encoder per separare la struttura dalla semantica e ottimizziamo il modello tramite instruction-tuning su un dataset di larga scala incentrato sulle parti. Gli esperimenti dimostrano che il nostro modello eccelle nella produzione di piani strutturati di alta qualità, consentendo prestazioni allo stato dell'arte in Q&A contestuale, generazione compositiva e modifica localizzata attraverso un'unica interfaccia unificata. Pagina del progetto: https://chunshi.wang/Part-X-MLLM/
Mentre la generazione consapevole del ragionamento mira a migliorare le prestazioni su compiti complessi, identifichiamo una modalità di fallimento critica in cui gli approcci sequenziali autoregressivi esistenti possono paradossalmente degradare le prestazioni a causa della propagazione degli errori. Per analizzare sistematicamente questo problema, proponiamo ParaBench, un nuovo benchmark progettato per valutare sia le modalità di output testuale che visivo. La nostra analisi condotta con ParaBench rivela che questo degrado delle prestazioni è fortemente correlato a uno scarso allineamento tra il ragionamento generato e l'immagine finale. Per risolvere ciò, proponiamo un framework di diffusione multimodale parallelo, MMaDA-Parallel, che abilita un'interazione continua e bidirezionale tra testo e immagini lungo l'intera traiettoria di denoising. MMaDA-Parallel viene addestrato con fine-tuning supervisionato e poi ulteriormente ottimizzato tramite Parallel Reinforcement Learning (ParaRL), una strategia innovativa che applica ricompense semantiche lungo la traiettoria per imporre la consistenza cross-modale. Gli esperimenti convalidano che il nostro modello migliora significativamente l'allineamento cross-modale e la coerenza semantica, ottenendo un miglioramento del 6,9% nell'Allineamento dell'Output su ParaBench rispetto al modello state-of-the-art Bagel, stabilendo un paradigma più robusto per la sintesi di immagini consapevole del ragionamento. Il nostro codice è open-source all'indirizzo https://github.com/tyfeld/MMaDA-Parallel.
I moderni modelli di diffusione per la rimozione del rumore non "eliminano il rumore" nel senso classico del termine, ovvero non prevedono direttamente immagini pulite. Piuttosto, le reti neurali prevedono il rumore o una quantità rumorosa. In questo articolo, suggeriamo che prevedere dati puliti e prevedere quantità rumorose siano fondamentalmente diversi. Secondo l'ipotesi della varietà, i dati naturali dovrebbero giacere su una varietà a bassa dimensionalità, mentre le quantità rumorose non lo fanno. Partendo da questo presupposto, sosteniamo l'uso di modelli che prevedano direttamente i dati puliti, il che consente a reti apparentemente sotto-dimensionate di operare efficacemente in spazi ad altissima dimensionalità. Dimostriamo che semplici Transformer con patch di grandi dimensioni applicati ai pixel possono essere potenti modelli generativi: senza l'uso di tokenizer, senza pre-addestramento e senza perdite aggiuntive. Il nostro approccio è concettualmente niente più che "Semplici Transformer su immagini", o JiT, come li chiamiamo. Riferiamo risultati competitivi utilizzando JiT con dimensioni di patch pari a 16 e 32 su ImageNet a risoluzioni di 256 e 512, casi in cui la previsione di quantità rumorose ad alta dimensionalità può fallire in modo catastrofico. Con le nostre reti che riportano il mapping ai principi fondamentali della varietà, la nostra ricerca torna alle basi e persegue un paradigma autonomo per la diffusione basata su Transformer applicata a dati naturali grezzi.
I modelli linguistici di grandi dimensioni hanno dimostrato un forte potenziale come sistemi di riordinamento per migliorare le prestazioni complessive dei sistemi RAG. Tuttavia, i paradigmi di riordinamento esistenti sono limitati da un dilemma teorico e pratico fondamentale: i metodi Pointwise, sebbene semplici e altamente flessibili, valutano i documenti in modo indipendente, rendendoli inclini alla Trappola della Miopia del Ranking (Ranking Myopia Trap), trascurando l'importanza relativa tra i documenti. Al contrario, i metodi Listwise possono percepire il contesto globale del ranking, ma soffrono di un'interna Rigidità di Lista (List Rigidity), che porta a gravi problemi di scalabilità e flessibilità quando si gestiscono grandi insiemi di candidati. Per affrontare queste sfide, proponiamo Groupwise, un nuovo paradigma di riordinamento. In questo approccio, la query e un gruppo di documenti candidati vengono forniti congiuntamente al modello, che esegue confronti all'interno del gruppo per assegnare punteggi di rilevanza individuali a ciascun documento. Questo design mantiene la flessibilità dei metodi Pointwise consentendo al contempo la capacità comparativa dei metodi Listwise. Adottiamo inoltre il GRPO per l'addestramento del modello, equipaggiato con una funzione di reward eterogenea che integra metriche di ranking con un reward distribuzionale mirato ad allineare le distribuzioni dei punteggi tra i gruppi. Per superare il collo di bottiglia causato dalla scarsità di dati etichettati di alta qualità, proponiamo ulteriormente una pipeline innovativa per sintetizzare dati di retrieval e ranking di alta qualità. I dati risultanti possono essere sfruttati non solo per addestrare il sistema di riordinamento, ma anche per addestrare il sistema di recupero. Esperimenti estensivi convalidano l'efficacia del nostro approccio su due benchmark di retrieval ad alta intensità di ragionamento, BRIGHT e R2MED.
La modellazione 3D si sta evolvendo da rappresentazioni visive statiche verso risorse fisiche e articolate che possono essere utilizzate direttamente nella simulazione e nell'interazione. Tuttavia, la maggior parte dei metodi di generazione 3D esistenti trascura le proprietà fisiche e di articolazione fondamentali, limitandone così l'utilità nell'AI incarnata. Per colmare questa lacuna, introduciamo PhysX-Anything, il primo framework generativo 3D fisico pronto per la simulazione che, data una singola immagine in condizioni reali, produce risorse 3D di alta qualità con geometria, articolazione e attributi fisici espliciti. Nello specifico, proponiamo il primo modello generativo 3D fisico basato su VLM, insieme a una nuova rappresentazione 3D che tokenizza efficientemente la geometria. Questo approccio riduce il numero di token di 193 volte, consentendo l'apprendimento esplicito della geometria entro i budget standard di token VLM senza introdurre token speciali durante il fine-tuning e migliorando significativamente la qualità generativa. Inoltre, per superare la limitata diversità dei dataset 3D fisici esistenti, abbiamo costruito un nuovo dataset, PhysX-Mobility, che espande le categorie di oggetti dei precedenti dataset 3D fisici di oltre 2 volte e include più di 2.000 oggetti comuni del mondo reale con ricche annotazioni fisiche. Esperimenti estensivi su PhysX-Mobility e immagini in condizioni reali dimostrano che PhysX-Anything offre prestazioni generative solide e una robusta generalizzazione. Inoltre, esperimenti basati sulla simulazione in un ambiente di tipo MuJoCo convalidano che le nostre risorse pronte per la simulazione possono essere utilizzate direttamente per l'apprendimento di policy robotiche ad alto contatto. Riteniamo che PhysX-Anything possa potenziare sostanzialmente un'ampia gamma di applicazioni a valle, specialmente nell'AI incarnata e nella simulazione basata sulla fisica.
La rapida evoluzione dei modelli generativi video ha spostato il loro focus dalla produzione di risultati visivamente plausibili all'affrontare compiti che richiedono plausibilità fisica e coerenza logica. Tuttavia, nonostante le recenti svolte come il ragionamento a catena di frame di Veo 3, rimane poco chiaro se questi modelli possano esibire capacità di ragionamento simili a quelle dei grandi modelli linguistici (LLM). I benchmark esistenti valutano prevalentemente la fedeltà visiva e la coerenza temporale, non riuscendo a cogliere le abilità di ragionamento di ordine superiore. Per colmare questa lacuna, proponiamo TiViBench, un benchmark gerarchico progettato specificamente per valutare le capacità di ragionamento dei modelli di generazione da immagine a video (I2V). TiViBench valuta sistematicamente il ragionamento lungo quattro dimensioni: i) Ragionamento Strutturale e Ricerca, ii) Ragionamento su Pattern Spaziali e Visivi, iii) Ragionamento Simbolico e Logico, e iv) Pianificazione delle Azioni ed Esecuzione dei Compiti, coprendo 24 scenari di task diversi su 3 livelli di difficoltà. Tramite valutazioni estensive, mostriamo che i modelli commerciali (ad es., Sora 2, Veo 3.1) dimostrano un potenziale di ragionamento più forte, mentre i modelli open-source rivelano un potenziale inespresso che rimane ostacolato da una scala di addestramento e una diversità dei dati limitate. Per sbloccare ulteriormente questo potenziale, introduciamo VideoTPO, una strategia semplice ma efficace da applicare al momento del test, ispirata all'ottimizzazione delle preferenze. Eseguendo un'auto-analisi tramite LLM sui candidati generati per identificarne punti di forza e debolezze, VideoTPO migliora significativamente le prestazioni di ragionamento senza richiedere addestramento aggiuntivo, dati aggiuntivi o modelli di reward. Insieme, TiViBench e VideoTPO aprono la strada alla valutazione e al progresso del ragionamento nei modelli di generazione video, ponendo una base per la futura ricerca in questo campo emergente.
I framework di red teaming automatizzato per i Large Language Model (LLM) sono diventati sempre più sofisticati, ma condividono una limitazione fondamentale: la loro logica di jailbreak è confinata alla selezione, combinazione o raffinamento di strategie di attacco preesistenti. Ciò vincola la loro creatività e impedisce loro di inventare autonomamente meccanismi di attacco completamente nuovi. Per superare questa lacuna, introduciamo EvoSynth, un framework autonomo che sposta il paradigma dalla pianificazione degli attacchi alla sintesi evolutiva dei metodi di jailbreak. Invece di perfezionare prompt, EvoSynth utilizza un sistema multi-agente per progettare, evolvere ed eseguire autonomamente nuovi algoritmi di attacco basati su codice. Crucialmente, include un ciclo di autocorrezione a livello di codice, che gli consente di riscrivere iterativamente la propria logica di attacco in risposta ai fallimenti. Attraverso esperimenti estesi, dimostriamo che EvoSynth non solo stabilisce un nuovo stato dell'arte raggiungendo un Attack Success Rate (ASR) dell'85,5% contro modelli altamente robusti come Claude-Sonnet-4.5, ma genera anche attacchi significativamente più diversificati rispetto ai metodi esistenti. Rilasciamo il nostro framework per facilitare la ricerca futura in questa nuova direzione della sintesi evolutiva dei metodi di jailbreak. Il codice è disponibile all'indirizzo: https://github.com/dongdongunique/EvoSynth.
Gli agenti basati su grandi modelli linguistici (LLM) stanno trasformando i dispositivi digitali da strumenti passivi in collaboratori intelligenti e proattivi. Tuttavia, la maggior parte dei framework esistenti rimane confinata a un singolo sistema operativo o dispositivo, rendendo i flussi di lavoro cross-device fragili e in gran parte manuali. Presentiamo UFO³, un sistema che unisce endpoint eterogenei - desktop, server, dispositivi mobili e edge - in un unico tessuto di orchestrazione. UFO³ modella ogni richiesta dell'utente come una TaskConstellation mutabile: un DAG distribuito di sottocompiti atomici (TaskStar) con dipendenze esplicite di controllo e dati (TaskStarLines). La TaskConstellation si evolve continuamente man mano che i risultati fluiscono dai dispositivi distribuiti, abilitando l'esecuzione asincrona, il recupero adattivo e l'ottimizzazione dinamica. Un Constellation Orchestrator esegue i compiti in modo sicuro e asincrono applicando aggiornamenti dinamici del DAG, mentre il Protocollo di Interazione Agente (AIP) fornisce canali persistenti a bassa latenza per l'invio affidabile dei compiti e lo streaming dei risultati. Questi progetti dissolvono i tradizionali confini tra dispositivi e piattaforme, consentendo agli agenti di collaborare perfettamente e amplificare la loro intelligenza collettiva. Valutiamo UFO³ su NebulaBench, un benchmark di 55 attività cross-device distribuite su 5 macchine e 10 categorie. UFO³ raggiunge un tasso di completamento dei sottocompiti dell'83,3%, un successo complessivo del 70,9%, sfrutta il parallelismo con una larghezza media di 1,72 e riduce la latenza end-to-end del 31% rispetto a una baseline sequenziale. Esperimenti di iniezione di guasti dimostrano un degrado e un recupero graduali in caso di guasti temporanei e permanenti degli agenti. Questi risultati mostrano che UFO³ raggiunge un'orchestrazione dei compiti accurata, efficiente e resiliente su dispositivi eterogenei, unendo agenti isolati in un tessuto computazionale coerente e adattivo che si estende attraverso il panorama dell'ubiquitous computing.
I modelli visione-linguaggio-azione (VLA) hanno recentemente dimostrato prestazioni promettenti in una varietà di compiti embodied, ma risultano ancora carenti in termini di affidabilità e generalizzazione, specialmente quando vengono impiegati in diverse embodiment o ambienti del mondo reale. In questo lavoro, introduciamo NORA-1.5, un modello VLA costruito a partire dal backbone pre-addestrato di NORA aggiungendovi un esperto d'azione basato sul flow matching. Questo singolo miglioramento architetturale produce sostanziali guadagni prestazionali, consentendo a NORA-1.5 di superare NORA e diversi modelli VLA all'avanguardia sia in benchmark simulati che del mondo reale. Per migliorare ulteriormente la robustezza e il successo dei compiti, sviluppiamo una serie di modelli di reward per il post-training delle politiche VLA. I nostri reward combinano (i) un modello del mondo (WM) condizionato all'azione che valuta se le azioni generate conducono verso l'obiettivo desiderato, e (ii) un'euristica di deviazione dalla ground truth che distingue le azioni buone da quelle scadenti. Utilizzando questi segnali di reward, costruiamo dataset di preferenze e adattiamo NORA-1.5 a embodiment specifici tramite l'ottimizzazione diretta delle preferenze (DPO). Valutazioni estensive mostrano che il post-training guidato dal reward migliora costantemente le prestazioni sia in simulazione che in contesti con robot reali, dimostrando significativi guadagni nell'affidabilità dei modelli VLA attraverso modelli di reward semplici ma efficaci. I nostri risultati evidenziano NORA-1.5 e il post-training guidato dal reward come un percorso percorribile verso agenti embodied più affidabili e adatti per il deployment nel mondo reale.
La famiglia di modelli Segment Anything (SAM) è diventata un modello di fondazione visivo ampiamente adottato, ma la sua capacità di controllare la granularità della segmentazione rimane limitata. Gli utenti spesso devono affinare manualmente i risultati - aggiungendo ulteriori prompt o selezionando tra maschere pre-generate - per ottenere il livello di dettaglio desiderato. Questo processo può essere ambiguo, poiché lo stesso prompt può corrispondere a diverse maschere plausibili, e raccogliere annotazioni dense su tutte le granularità è proibitivamente costoso, rendendo impraticabili soluzioni supervisionate. Per affrontare questa limitazione, introduciamo UnSAMv2, che consente di segmentare qualsiasi cosa a qualsiasi granularità senza annotazioni umane. UnSAMv2 estende la strategia divide-et-impera di UnSAM scoprendo coppie maschera-granularità abbondanti e introducendo un nuovo embedding di controllo della granularità che consente un controllo preciso e continuo sulla scala di segmentazione. Notevolmente, con soli 6K immagini non etichettate e lo 0.02% di parametri aggiuntivi, UnSAMv2 migliora sostanzialmente SAM-2, raggiungendo la segmentazione di qualsiasi cosa a qualsiasi granularità attraverso compiti di segmentazione interattiva, d'immagine intera e video. Valutato su oltre 11 benchmark, UnSAMv2 migliora NoC₉₀ (5.69 → 4.75), 1-IoU (58.0 → 73.1) e AR₁₀₀₀ (49.6 → 68.3), dimostrando che piccole quantità di dati non etichettati con un metodo di auto-apprendimento consapevole della granularità possono sbloccare il potenziale dei modelli di fondazione visivi.
Recentemente, gli agenti multimodali basati su LLM hanno dimostrato capacità impressionanti nella navigazione web, consentendo di completare attività di navigazione complesse in diversi domini. Tuttavia, gli agenti attuali incontrano difficoltà con errori ripetitivi e mancano della capacità di apprendere dalle esperienze passate tra diverse sessioni, limitando la loro robustezza a lungo termine e l'efficienza campionaria. Introduciamo WebCoach, un framework auto-evolutivo indipendente dal modello che fornisce agli agenti di navigazione web una memoria persistente trans-sessione, consentendo un miglioramento nella pianificazione a lungo termine, nella riflessione e nell'apprendimento continuo senza necessità di riaddestramento. WebCoach è composto da tre componenti chiave: (1) un WebCondenser, che standardizza i log di navigazione grezzi in riepiloghi concisi; (2) un External Memory Store, che organizza le traiettorie complete come esperienze episodiche; e (3) un Coach, che recupera esperienze rilevanti basandosi su similarità e recentezza, e decide se iniettare consigli specifici per il compito nell'agente tramite hook di runtime. Questo design permette agli agenti web di accedere a una memoria a lungo termine che va oltre la loro finestra di contesto nativa, migliorando la robustezza in compiti di navigazione complessi. Inoltre, WebCoach raggiunge l'auto-evoluzione curando continuamente la memoria episodica da nuove traiettorie di navigazione, permettendo agli agenti di migliorare nel tempo senza riaddestramento. Le valutazioni sul benchmark WebVoyager dimostrano che WebCoach migliora costantemente le prestazioni degli agenti che utilizzano il browser su tre diversi backbone LLM. Con un modello da 38B, aumenta il tasso di successo dei compiti dal 47% al 61%, riducendo o mantenendo il numero medio di passi. Notevolmente, modelli base più piccoli equipaggiati con WebCoach raggiungono prestazioni paragonabili allo stesso agente web che utilizza GPT-4o.
Earth observation data presents a unique challenge: it is spatial like images, sequential like video or text, and highly multimodal. We present OlmoEarth: a multimodal, spatio-temporal foundation model that employs a novel self-supervised learning formulation, masking strategy, and loss all designed for the Earth observation domain. OlmoEarth achieves state-of-the-art performance compared to 12 other foundation models across a variety of research benchmarks and real-world tasks from external partners. When evaluating embeddings OlmoEarth achieves the best performance on 15 out of 24 tasks, and with full fine-tuning it is the best on 19 of 29 tasks. We deploy OlmoEarth as the backbone of an end-to-end platform for data collection, labeling, training, and inference of Earth observation models. The OlmoEarth Platform puts frontier foundation models and powerful data management tools into the hands of non-profits and NGOs working to solve the world's biggest problems. OlmoEarth source code, training data, and pre-trained weights are available at https://github.com/allenai/olmoearth_pretrain{https://github.com/allenai/olmoearth_pretrain}.
I Large Language Model (LLM) stanno rimodellando quasi tutti i settori, inclusa l'ingegneria del software. Negli ultimi anni, sono stati proposti numerosi agenti basati su LLM per risolvere problemi software del mondo reale. Tali agenti software sono tipicamente dotati di una suite di strumenti di codifica e possono decidere autonomamente le azioni successive per formare traiettorie complete e risolvere compiti software end-to-end. Sebbene promettenti, richiedono tipicamente una progettazione dedicata e potrebbero comunque essere subottimali, poiché esplorare esaustivamente l'intero spazio di progettazione dell'architettura dell'agente può essere estremamente impegnativo e costoso. Riconoscendo che gli agenti software sono intrinsecamente software essi stessi, che possono essere ulteriormente affinati/modificati, i ricercatori hanno recentemente proposto numerosi agenti software capaci di auto-miglioramento, incluso il Darwin-Gödel Machine (DGM). Tuttavia, tali agenti auto-miglioranti richiedono un costoso addestramento offline su benchmark specifici e potrebbero non generalizzare bene su diversi LLM o benchmark. In questo articolo, proponiamo Live-SWE-agent, il primo agente software "live" in grado di evolversi autonomamente e continuamente on-the-fly durante l'esecuzione, mentre risolve problemi software reali. Nello specifico, Live-SWE-agent inizia con l'architettura di agente più basilare, con accesso solamente a strumenti bash (ad esempio, mini-SWE-agent), ed evolve autonomamente la propria implementazione architetturale mentre risolve problemi software del mondo reale. La nostra valutazione sul noto benchmark SWE-bench Verified mostra che Live-SWE-agent può raggiungere un impressionante tasso di risoluzione del 75.4% senza scalabilità al momento del test, superando tutti gli agenti software open-source esistenti e avvicinandosi alle prestazioni della migliore soluzione proprietaria. Inoltre, Live-SWE-agent supera gli agenti software all'avanguardia progettati manualmente sul recente benchmark SWE-Bench Pro, raggiungendo il miglior tasso di risoluzione noto del 45.8%.
L'apprendimento in contesto (ICL) – la capacità di un modello di inferire e applicare schemi astratti da esempi forniti all'interno del suo input – è stato ampiamente studiato nei grandi modelli linguistici addestrati per la predizione del token successivo su testo umano. In effetti, lavori precedenti attribuiscono spesso questo comportamento emergente a proprietà statistiche distintive del linguaggio umano. Ciò solleva una questione fondamentale: l'ICL può emergere organicamente in altri domini sequenziali, puramente attraverso un addestramento predittivo su larga scala? Per esplorare questa possibilità, ci rivolgiamo alle sequenze genomiche, un dominio simbolico alternativo ricco di struttura statistica. Nello specifico, studiamo il modello genomico Evo2, addestrato prevalentemente sulla predizione del nucleotide successivo (A/T/C/G), su una scala paragonabile a modelli linguistici di medie dimensioni. Sviluppiamo un framework sperimentale controllato che comprende compiti di ragionamento simbolico istanziati sia in forma linguistica che genomica, consentendo un confronto diretto dell'ICL tra modelli genomici e linguistici. I nostri risultati mostrano che i modelli genomici, analogamente alle loro controparti linguistiche, mostrano miglioramenti log-lineari nell'induzione di pattern all'aumentare del numero di dimostrazioni in contesto. Per quanto a nostra conoscenza, questa è la prima evidenza di ICL emergentemente organico in sequenze genomiche, a supporto dell'ipotesi che l'ICL emerga come conseguenza della modellazione predittiva su larga scala su dati ricchi. Questi risultati estendono il meta-apprendimento emergente oltre il linguaggio, indicando una visione unificata e modale-agnostica dell'apprendimento in contesto.
I modelli linguistici di grandi dimensioni (LLM) hanno notevolmente fatto progredire il question answering su grafi di conoscenza (KGQA), tuttavia i sistemi esistenti sono tipicamente ottimizzati per restituire risposte altamente pertinenti ma prevedibili. Una capacità mancante ma desiderabile è quella di sfruttare gli LLM per suggerire risposte sorprendenti e innovative ("serendipitose"). In questo articolo, definiamo formalmente il compito di KGQA con consapevolezza della serendipità e proponiamo il framework SerenQA per valutare la capacità degli LLM di scoprire intuizioni inaspettate in compiti di KGQA scientifici. SerenQA include una metrica rigorosa per la serendipità basata su rilevanza, novità e sorpresa, insieme a un benchmark annotato da esperti derivato dal Clinical Knowledge Graph, incentrato sul riposizionamento di farmaci. Inoltre, presenta una pipeline di valutazione strutturata che comprende tre sottocompiti: recupero della conoscenza, ragionamento su sottografi ed esplorazione della serendipità. I nostri esperimenti rivelano che, sebbene gli LLM allo stato dell'arte performino bene nel recupero delle informazioni, essi faticano ancora a identificare scoperte genuinamente sorprendenti e di valore, sottolineando un margine di miglioramento significativo per il futuro. Le nostre risorse curate e la versione estesa sono rilasciate all'indirizzo: https://cwru-db-group.github.io/serenQA.
I modelli visione-linguaggio (VLM) eccellono nell'inferenza zero-shot ma spesso si degradano in presenza di variazioni di dominio durante il test. Per questo motivo, le strategie di adattamento episodico al test-time sono recentemente emerse come tecniche potenti per adattare i VLM a singole immagini non etichettate. Tuttavia, le strategie di adattamento esistenti, come la sintonizzazione dei prompt al test-time, richiedono tipicamente la retropropagazione attraverso pesi encoder di grandi dimensioni o l'alterazione di componenti fondamentali del modello. In questo lavoro, introduciamo Spectrum-Aware Test-Time Steering (STS), un framework di adattamento leggero che estrae un sottospazio spettrale dagli embedding testuali per definire direzioni semantiche principali e impara a orientare le rappresentazioni latenti in modo consapevole dello spettro, adattando un piccolo numero di parametri di scostamento per campione per minimizzare l'entropia tra viste aumentate. STS opera interamente in inferenza nello spazio latente, senza retropropagazione attraverso gli encoder congelati e senza modificarli. Basandoci su protocolli di valutazione standard, i nostri esperimenti completi dimostrano che STS supera ampiamente o si confronta favorevolmente con i metodi di adattamento al test-time all'avanguardia, introducendo solo una manciata di parametri aggiuntivi e raggiungendo velocità di inferenza fino a 8 volte superiori con un'impronta di memoria 12 volte inferiore rispetto alla convenzionale sintonizzazione dei prompt al test-time. Il codice è disponibile all'indirizzo https://github.com/kdafnis/STS.
Multimodal Large Language Models are increasingly applied to biomedical imaging, yet scientific reasoning for microscopy remains limited by the scarcity of large-scale, high-quality training data. We introduce MicroVQA++, a three-stage, large-scale and high-quality microscopy VQA corpus derived from the BIOMEDICA archive. Stage one bootstraps supervision from expert-validated figure-caption pairs sourced from peer-reviewed articles. Stage two applies HiCQA-Graph, a novel heterogeneous graph over images, captions, and QAs that fuses NLI-based textual entailment, CLIP-based vision-language alignment, and agent signals to identify and filter inconsistent samples. Stage three uses a MultiModal Large Language Model (MLLM) agent to generate multiple-choice questions (MCQ) followed by human screening. The resulting release comprises a large training split and a human-checked test split whose Bloom's level hard-sample distribution exceeds the MicroVQA benchmark. Our work delivers (i) a quality-controlled dataset that couples expert literature with graph-based filtering and human refinement; (ii) HiCQA-Graph, the first graph that jointly models (image, caption, QA) for cross-modal consistency filtering; (iii) evidence that careful data construction enables 4B-scale MLLMs to reach competitive microscopy reasoning performance (e.g., GPT-5) and achieve state-of-the-art performance among open-source MLLMs. Code and dataset will be released after the review process concludes.
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni notevoli in un'ampia gamma di compiti, eppure la maggior parte dei modelli ad alte prestazioni rimane a sorgente chiuso o parzialmente aperto, limitando la trasparenza e la riproducibilità. In questo lavoro, presentiamo Instella, una famiglia di modelli linguistici da tre miliardi di parametri completamente aperti, addestrati interamente su dati e codebase pubblicamente disponibili. Sviluppato grazie alla potenza delle GPU AMD Instinct MI300X, Instella è stato creato attraverso un pre-addestramento su larga scala, un tuning per istruzioni di carattere generale e un allineamento con le preferenze umane. Nonostante l'utilizzo di un numero di token per il pre-addestramento sostanzialmente inferiore rispetto a molti modelli contemporanei, Instella ottiene risultati all'avanguardia tra i modelli completamente aperti ed è competitivo con i principali modelli a pesi aperti di dimensioni comparabili. Rilasciamo inoltre due varianti specializzate: Instella-Long, in grado di gestire contesti fino a 128.000 token, e Instella-Math, un modello focalizzato sul ragionamento potenziato attraverso fine-tuning supervisionato e apprendimento per rinforzo su compiti matematici. Nel loro insieme, questi contributi stabiliscono Instella come un'alternativa trasparente, performante e versatile per la comunità, avanzando l'obiettivo di una ricerca sui modelli linguistici aperta e riproducibile.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno dimostrato impressionanti capacità di ragionamento e di seguire istruzioni, tuttavia il loro spazio modale ampliato introduce nuovi rischi per la sicurezza composizionale che emergono da complesse interazioni testo-immagine. Tali accoppiamenti cross-modali possono produrre semantiche non sicure anche quando i singoli input sono benigni, rivelando la fragile consapevolezza della sicurezza degli MLLM attuali. Mentre lavori recenti migliorano la sicurezza guidando i modelli a ragionare sui rischi potenziali, tracce di ragionamento non regolamentate possono compromettere l'allineamento; sebbene l'ottimizzazione della politica relativa al gruppo (GRPO) offra un perfezionamento auto-remunerato senza supervisione umana, manca di segnali verificabili per la sicurezza del ragionamento. Per affrontare ciò, proponiamo SafeGRPO, un framework di allineamento della sicurezza multimodale auto-remunerato che integra una costruzione della ricompensa governata da regole nel GRPO, abilitando un'ottimizzazione interpretabile e verificabile della sicurezza del ragionamento. Basato sul dataset costruito SafeTag-VL-3K con etichette di sicurezza esplicite visive, testuali e combinate, SafeGRPO esegue un pensiero di sicurezza guidato a step per imporre un ragionamento strutturato e un allineamento comportamentale, migliorando sostanzialmente la consapevolezza della sicurezza multimodale, la robustezza composizionale e la stabilità del ragionamento attraverso diversi benchmark senza sacrificare le capacità generali.
L'allineamento delle rappresentazioni provenienti da diverse modalità ha recentemente dimostrato di fornire informazioni sulle similarità strutturali e sulle capacità di elaborazione a valle di diversi encoder in vari tipi di dati. Sebbene siano stati compiuti progressi significativi nell'allineamento di immagini e testo, la natura temporale dei dati video rimane in gran parte inesplorata in questo contesto. In questo lavoro, conduciamo il primo studio completo sull'allineamento delle rappresentazioni video-testo, analizzando le capacità dei moderni encoder video e linguistici. I nostri risultati rivelano diverse intuizioni chiave. In primo luogo, dimostriamo che l'allineamento cross-modale dipende fortemente dalla ricchezza dei dati visivi (immagini statiche vs. video multi-frame) e testuali (singola didascalia vs. una raccolta) forniti al momento del test, specialmente quando si utilizzano encoder video allo stato dell'arte. Proponiamo leggi di scaling parametriche al test time che catturano questo comportamento e mostrano un notevole potere predittivo rispetto alle osservazioni empiriche. In secondo luogo, investigiamo la correlazione tra allineamento semantico e prestazioni su task downstream sia semantici che non semantici, fornendo evidenze iniziali che un forte allineamento con gli encoder testuali possa essere collegato a rappresentazioni video e comprensione di carattere generale. Infine, correliamo il ragionamento temporale con l'allineamento cross-modale, fornendo un banco di prova impegnativo per i modelli di visione e linguaggio. Nel complesso, il nostro lavoro introduce l'allineamento video-testo come metodo informativo zero-shot per analizzare il potere rappresentativo di diversi encoder per dati spazio-temporali. La pagina del progetto è disponibile all'indirizzo https://video-prh.github.io/
Man mano che i modelli linguistici di grandi dimensioni (LLM) evolvono in agenti autonomi sofisticati capaci di compiti complessi di sviluppo software, diventa fondamentale valutarne le capacità nel mondo reale. Sebbene benchmark esistenti come LoCoBench~qiu2025locobench valutino la comprensione del codice in contesti lunghi, si concentrano su valutazioni a turno singolo e non riescono a catturare la natura interattiva multi-turno, i modelli di utilizzo degli strumenti e il ragionamento adattivo richiesti dagli agenti di codifica reali. Introduciamo LoCoBench-Agent, un framework di valutazione completo progettato specificamente per valutare gli agenti basati su LLM in flussi di lavoro realistici di ingegneria del software con contesti lunghi. Il nostro framework estende gli 8.000 scenari di LoCoBench in ambienti interattivi per agenti, consentendo una valutazione sistematica di conversazioni multi-turno, efficienza nell'uso degli strumenti, recupero dagli errori e coerenza architetturale durante sessioni di sviluppo prolungate. Introduciamo inoltre una metodologia di valutazione con 9 metriche che coprono le dimensioni della comprensione e dell'efficienza. Il nostro framework fornisce agli agenti 8 strumenti specializzati (operazioni sui file, ricerca, analisi del codice) e li valuta in contesti di lunghezza compresa tra 10.000 e 1 milione di token, permettendo una valutazione precisa delle prestazioni in contesti lunghi. Attraverso una valutazione sistematica dei modelli più all'avanguardia, riveliamo diversi risultati chiave: (1) gli agenti mostrano una notevole robustezza in contesti lunghi; (2) esiste un trade-off comprensione-efficienza con correlazione negativa, dove un'esplorazione approfondita aumenta la comprensione ma riduce l'efficienza; e (3) l'efficienza conversazionale varia notevolmente tra i modelli, con modelli strategici di utilizzo degli strumenti che differenziano gli agenti dalle prestazioni elevate. In quanto primo benchmark per agenti LLM in contesti lunghi dedicato all'ingegneria del software, LoCoBench-Agent stabilisce una base rigorosa per misurare le capacità degli agenti, identificare i gap prestazionali e far progredire lo sviluppo software autonomo su larga scala.
Il dialogo persuasivo orientato a uno scopo, esemplificato da applicazioni come il telemarketing, richiede una sofisticata pianificazione a più turni e una rigorosa fedeltà fattuale, che rimane una sfida significativa anche per i più avanzati Modelli Linguistici di Grande Dimensione (LLM). La mancanza di dati specifici per il compito ha spesso limitato i lavori precedenti, e l'applicazione diretta degli LLM soffre di fragilità strategica e allucinazioni fattuali. In questo articolo, prima costruiamo e rilasciamo TeleSalesCorpus, il primo dataset di dialogo radicato nel mondo reale per questo dominio. Proponiamo quindi AI-Salesman, un framework innovativo caratterizzato da un'architettura a doppio stadio. Per la fase di addestramento, progettiamo un algoritmo di apprendimento per rinforzo bayesiano-supervisionato che apprende strategie di vendita robuste da dialoghi rumorosi. Per la fase di inferenza, introduciamo l'Agente Guidato da Schema Dinamico (DOGA), che sfrutta una libreria di script pre-costruita per fornire una guida strategica dinamica, turno per turno. Inoltre, progettiamo un framework di valutazione completo che combina metriche granulari per le competenze chiave di vendita con il paradigma LLM-as-a-Judge. I risultati sperimentali dimostrano che il nostro AI-Salesman supera significativamente i modelli di base sia nelle metriche automatiche che nelle valutazioni umane complete, dimostrando la sua efficacia in scenari persuasivi complessi.
Gli attuali sistemi di generazione aumentata per recupero informazioni (RAG) adottano generalmente un'architettura centralizzata, comportando elevati costi di raccolta, integrazione e gestione dei dati, oltre a preoccupazioni relative alla privacy. Si avverte pertanto la forte necessità di un sistema RAG decentralizzato che consenta ai modelli di base di utilizzare informazioni direttamente dai proprietari dei dati, i quali mantengono il controllo completo sulle proprie fonti. Tuttavia, la decentralizzazione presenta una sfida: le numerose fonti dati indipendenti presentano un'affidabilità estremamente variabile, che può compromettere l'accuratezza del recupero e la qualità delle risposte. Per affrontare questo problema, il nostro sistema RAG decentralizzato integra un innovativo meccanismo di punteggio dell'affidabilità che valuta dinamicamente ciascuna fonte in base alla qualità delle risposte da essa fornite, privilegiando le fonti di alta qualità durante il recupero. Per garantire trasparenza e fiducia, il processo di valutazione è gestito in modo sicuro attraverso smart contract basati su blockchain, creando record di affidabilità verificabili e a prova di manomissione senza dipendere da un'autorità centrale. Abbiamo valutato il nostro sistema decentralizzato con due modelli Llama (3B e 8B) in due ambienti simulati dove sei fonti dati presentano diversi livelli di affidabilità. Il nostro sistema raggiunge un miglioramento prestazionale del +10,7% rispetto alla controparte centralizzata in ambienti dati non affidabili simili a scenari reali. Significativamente, si avvicina alle prestazioni massime dei sistemi centralizzati in ambienti dati idealmente affidabili. L'infrastruttura decentralizzata consente una gestione sicura e affidabile del punteggio, ottenendo un risparmio di costo marginale di circa il 56% attraverso operazioni di aggiornamento in batch. Il nostro codice e sistema sono open-source su github.com/yining610/Reliable-dRAG.
L'ecografia (US) è una delle modalità di imaging medico più diffuse, grazie al suo basso costo, portabilità, feedback in tempo reale e assenza di radiazioni ionizzanti. Tuttavia, l'interpretazione delle immagini ecografiche rimane fortemente dipendente dall'operatore e varia significativamente in base alle regioni anatomiche, ai protocolli di acquisizione e ai tipi di dispositivo. Queste variazioni, insieme a sfide uniche come il rumore di speckle, il basso contrasto e le limitate annotazioni standardizzate, ostacolano lo sviluppo di modelli di IA per ecografia generalizzabili ed efficienti dal punto di vista delle etichette. In questo articolo, proponiamo OpenUS, il primo modello foundation open-source e riproducibile per ecografia, costruito su un'ampia raccolta di dati pubblici. OpenUS utilizza una backbone vision Mamba, in grado di catturare sia le dipendenze locali che quelle globali a lungo raggio nell'immagine. Per estrarre feature ricche durante il pre-training, introduciamo un innovativo framework di masking auto-adattativo che combina l'apprendimento contrastivo con la modellazione di immagini mascherate. Questa strategia integra la mappa di attenzione del teacher con la loss di ricostruzione dello studente, affinando in modo adattivo il masking clinicamente rilevante per migliorare l'efficacia del pre-training. OpenUS applica inoltre una pianificazione dell'apprendimento dinamica per regolare progressivamente la difficoltà del processo di pre-training. Per sviluppare il modello foundation, abbiamo compilato il più grande dataset pubblico di ecografie fino ad oggi, comprendente oltre 308.000 immagini provenienti da 42 dataset pubblicamente disponibili, che coprono diverse regioni anatomiche, istituzioni, dispositivi di imaging e tipologie di patologie. Il nostro modello OpenUS pre-addestrato può essere facilmente adattato a specifici task downstream fungendo da backbone per un fine-tuning efficiente in termini di etichette. Il codice è disponibile all'indirizzo https://github.com/XZheng0427/OpenUS.