Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo LongCat-Flash-Thinking-2601, un modello di ragionamento open-source Mixture-of-Experts (MoE) da 560 miliardi di parametri, dotato di capacità di ragionamento agentico superiore. LongCat-Flash-Thinking-2601 raggiunge prestazioni all'avanguardia tra i modelli open-source su un'ampia gamma di benchmark agentici, inclusi la ricerca agentica, l'uso di strumenti agentici e il ragionamento con integrazione di strumenti. Oltre alle prestazioni nei benchmark, il modello dimostra una forte generalizzazione per interazioni complesse con strumenti e un comportamento robusto in ambienti real-world rumorosi. La sua capacità avanzata deriva da un framework di training unificato che combina un addestramento parallelo per dominio degli esperti con una successiva fusione, unito a una co-progettazione end-to-end della costruzione dei dati, degli ambienti, degli algoritmi e dell'infrastruttura, che spazia dal pre-training al post-training. In particolare, la forte capacità di generalizzazione del modello nell'uso complesso di strumenti è guidata dalla nostra esplorazione approfondita dello scaling degli ambienti e della costruzione di task basata su principi. Per ottimizzare le interazioni agentiche multi-turno e la generazione con distribuzione lunga e asimmetrica, e per consentire un addestramento stabile su oltre 10.000 ambienti che coprono più di 20 domini, estendiamo sistematicamente il nostro framework di reinforcement learning asincrono, DORA, per un addestramento su larga scala multi-ambiente stabile ed efficiente. Inoltre, riconoscendo che i compiti del mondo reale sono intrinsecamente rumorosi, conduciamo un'analisi sistematica e una scomposizione dei pattern di rumore real-world, e progettiamo procedure di addestramento mirate per incorporare esplicitamente tali imperfezioni nel processo di training, ottenendo una robustezza migliorata per le applicazioni reali. Per migliorare ulteriormente le prestazioni su compiti di ragionamento complessi, introduciamo una modalità Heavy Thinking che consente uno scaling efficace al momento del test espandendo congiuntamente la profondità e l'ampiezza del ragionamento attraverso un pensiero parallelo intensivo.
Gli agenti LLM hanno dimostrato notevoli capacità nello sviluppo software, ma le loro prestazioni sono ostacolate da contesti di interazione lunghi, che comportano elevati costi API e latenza. Sebbene siano emersi vari approcci di compressione del contesto come LongLLMLingua per affrontare questa sfida, questi si basano tipicamente su metriche fisse come il PPL, ignorando la natura specifica del compito nella comprensione del codice. Di conseguenza, spesso alterano la struttura sintattica e logica e non riescono a conservare i dettagli implementativi critici. In questo articolo, proponiamo SWE-Pruner, un framework di potatura del contesto auto-adattivo progettato specificamente per agenti di programmazione. Traendo ispirazione dal modo in cui i programmatori umani "sfogliano selettivamente" il codice sorgente durante lo sviluppo e il debugging, SWE-Pruner esegue una potatura adattiva consapevole del compito per contesti lunghi. Dato il compito corrente, l'agente formula un obiettivo esplicito (ad esempio, "concentrarsi sulla gestione degli errori") come suggerimento per guidare i target di potatura. Uno skimmer neurale leggero (0,6 miliardi di parametri) viene addestrato per selezionare dinamicamente le righe rilevanti dal contesto circostante in base all'obiettivo. Le valutazioni su quattro benchmark e modelli multipli convalidano l'efficacia di SWE-Pruner in vari scenari, raggiungendo una riduzione del 23-54% dei token su compiti di agente come SWE-Bench Verified e fino a 14,84x di compressione su compiti a turno singolo come LongCodeQA con un impatto minimo sulle prestazioni.
I modelli standard Vision-Language-Action (VLA) tipicamente mettono a punto in modo fine (fine-tune) un backbone monolitico di un modello visione-linguaggio (VLM) esplicitamente per il controllo robotico. Tuttavia, questo approccio crea una tensione critica tra il mantenimento di una comprensione semantica generale di alto livello e l'apprendimento di abilità sensorimotorie di basso livello e granulari, portando spesso a un "oblio catastrofico" delle capacità open-world del modello. Per risolvere questo conflitto, introduciamo TwinBrainVLA, un'architettura innovativa che coordina un VLM generalista, che conserva la comprensione semantica universale, e un VLM specialista, dedicato alla propriocezione embodied, per il controllo robotico congiunto. TwinBrainVLA sinergizza un "Cervello Sinistro" congelato (frozen), che mantiene un solido ragionamento visivo generale, con un "Cervello Destro" addestrabile, specializzato nella percezione embodied, attraverso un nuovo meccanismo di Asymmetric Mixture-of-Transformers (AsyMoT). Questo design permette al Cervello Destro di interrogare dinamicamente la conoscenza semantica dal Cervello Sinistro congelato e di fondere questa conoscenza con gli stati propriocettivi, fornendo un condizionamento ricco per un Action Expert basato sul Flow Matching per generare controlli continui e precisi. Esperimenti estensivi sui benchmark SimplerEnv e RoboCasa dimostrano che TwinBrainVLA raggiunge prestazioni di manipolazione superiori rispetto ai baseline state-of-the-art, preservando esplicitamente le capacità di comprensione visiva completa del VLM pre-addestrato, offrendo una direzione promettente per la costruzione di robot a scopo generale che raggiungono simultaneamente un'elevata comprensione semantica e una destrezza fisica di basso livello.
I moderni Vision-Language Models (VLM) rimangono scarsamente caratterizzati nelle interazioni visive multi-step, in particolare per quanto riguarda la loro capacità di integrare percezione, memoria e azione su orizzonti temporali lunghi. Introduciamo VisGym, una palestra di 17 ambienti per valutare e addestrare i VLM. La suite spazia da puzzle simbolici, comprensione di immagini reali, navigazione e manipolazione, e fornisce controlli flessibili su difficoltà, rappresentazione dell'input, orizzonte di pianificazione e feedback. Forniamo anche risolutori multi-step che generano dimostrazioni strutturate, abilitando il fine-tuning supervisionato. Le nostre valutazioni mostrano che tutti i modelli all'avanguardia hanno difficoltà in contesti interattivi, raggiungendo bassi tassi di successo sia nelle configurazioni facili (46,6%) che in quelle difficili (26,0%). I nostri esperimenti rivelano limitazioni notevoli: i modelli faticano a sfruttare efficacemente contesti lunghi, ottenendo performance peggiori con una cronologia illimitata rispetto a finestre troncate. Inoltre, scopriamo che diversi compiti simbolici basati su testo diventano sostanzialmente più difficili una volta resi visivamente. Tuttavia, l'osservazione esplicita degli obiettivi, il feedback testuale e le dimostrazioni esplorative in ambienti parzialmente osservabili o a dinamiche sconosciute per il fine-tuning supervisionato producono guadagni consistenti, evidenziando modalità di fallimento concrete e percorsi per migliorare il processo decisionale visivo multi-step. Codice, dati e modelli sono disponibili al seguente indirizzo: https://visgym.github.io/.
I recenti modelli diffusivi video-to-video fondamentali hanno ottenuto risultati impressionanti nell'editing di video forniti dall'utente, modificando l'aspetto, il movimento o lo spostamento della telecamera. Tuttavia, l'editing video nel mondo reale è spesso un processo iterativo, in cui gli utenti affinano i risultati attraverso più round di interazione. In questo contesto multi-turn, gli editor video attuali faticano a mantenere la cross-consistenza tra le modifiche sequenziali. In questo lavoro, affrontiamo per la prima volta il problema della cross-consistenza nell'editing video multi-turn e introduciamo Memory-V2V, un framework semplice ma efficace che potenzia i modelli video-to-video esistenti con una memoria esplicita. Dato una cache esterna di video precedentemente modificati, Memory-V2V impiega strategie di retrieval accurato e tokenizzazione dinamica per condizionare l'attuale fase di editing sui risultati precedenti. Per mitigare ulteriormente la ridondanza e il sovraccarico computazionale, proponiamo un compressore di token apprendibile all'interno del backbone DiT che comprime i token di condizionamento ridondanti preservando al contempo gli indizi visivi essenziali, ottenendo un'accelerazione complessiva del 30%. Validiamo Memory-V2V su compiti impegnativi, inclusi la sintesi di nuove viste video e l'editing di video lunghi condizionato da testo. Esperimenti estensivi dimostrano che Memory-V2V produce video significativamente più cross-consistenti con un sovraccarico computazionale minimo, mantenendo o addirittura migliorando le prestazioni specifiche del compito rispetto ai baseline state-of-the-art. Pagina del progetto: https://dohunlee1.github.io/MemoryV2V
L'apprendimento per rinforzo (RL) è fondamentale per potenziare le capacità di ragionamento complesso dei grandi modelli linguistici (LLM). Tuttavia, le pipeline di addestramento RL esistenti sono computazionalmente inefficienti e ad alto consumo di risorse, con la fase di rollout che rappresenta oltre il 70% del tempo totale di addestramento. L'addestramento RL quantizzato, in particolare l'utilizzo della precisione FP8, offre un approccio promettente per mitigare questo collo di bottiglia. Una strategia comunemente adottata applica la precisione FP8 durante il rollout mantenendo la precisione BF16 per l'addestramento. In questo lavoro, presentiamo il primo studio completo sull'addestramento RL in FP8 e dimostriamo che la strategia ampiamente utilizzata di addestramento in BF16 + rollout in FP8 soffre di una grave instabilità di addestramento e di un collasso catastrofico dell'accuratezza in scenari con rollout a lungo orizzonte e task complessi. La nostra analisi mostra che questi fallimenti originano dalla natura *off-policy* dell'approccio, che introduce una sostanziale discrepanza numerica tra addestramento e inferenza. Sulla base di queste osservazioni, proponiamo Jet-RL, un framework di addestramento RL in FP8 che abilita un'ottimizzazione RL robusta e stabile. L'idea chiave è adottare un flusso di precisione FP8 unificato sia per l'addestramento che per il rollout, minimizzando così le discrepanze numeriche ed eliminando la necessità di una inefficiente calibrazione inter-step. Esperimenti estensivi convalidano l'efficacia di Jet-RL: il nostro metodo raggiunge un incremento di velocità fino al 33% nella fase di rollout, fino al 41% nella fase di addestramento e un incremento di velocità end-to-end del 16% rispetto all'addestramento BF16, mantenendo al contempo una convergenza stabile in tutti gli scenari e subendo una degradazione dell'accuratezza trascurabile.
I recenti progressi negli Agenti di Ricerca Profonda (DRA) stanno trasformando la scoperta automatizzata della conoscenza e la risoluzione dei problemi. Sebbene la maggior parte degli sforzi esistenti si concentri sul potenziamento delle capacità decisionali (*policy*) tramite post-addestramento, noi proponiamo un paradigma alternativo: l'auto-evoluzione delle capacità dell'agente attraverso la verifica iterativa degli output del modello decisionale, guidata da rubriche meticolosamente elaborate. Questo approccio dà origine al *scaling* al tempo di inferenza della verifica, in cui un agente si auto-migliora valutando le risposte generate per produrre feedback e perfezionamenti iterativi. </think>Deriviamo le rubriche basandoci su una Tassonomia degli Errori dei DRA costruita automaticamente, che classifica sistematicamente i fallimenti degli agenti in cinque categorie principali e tredici sottocategorie. </think>Presentiamo DeepVerifier, un verificatore di ricompensa basato su outcome e rubriche che sfrutta l'asimmetria della verifica e supera i baseline di giudizio con agente standard (*vanilla agent-as-judge*) e giudizio LLM del 12%-48% nel punteggio F1 di meta-valutazione. </think>Per abilitare un'auto-evoluzione pratica, DeepVerifier si integra come modulo *plug-and-play* durante l'inferenza al tempo di test. Il verificatore produce un feedback dettagliato basato sulle rubriche, che viene reimmesso nell'agente per un *bootstrapping* iterativo, affinando le risposte senza addestramento aggiuntivo. Questo *scaling* al tempo di test fornisce guadagni di accuratezza dall'8% all'11% su sottoinsiemi complessi di GAIA e XBench-DeepResearch quando alimentato da LLM proprietari capaci. </think>Infine, per supportare l'avanzamento dell'open-source, rilasciamo DeepVerifier-4K, un dataset curato di *fine-tuning* supervisionato di 4.646 step di agente di alta qualità focalizzati sulla verifica dei DRA. Questi esempi enfatizzano la riflessione e l'auto-critica, consentendo ai modelli open di sviluppare solide capacità di verifica.
Gli ambienti rappresentano il collo di bottiglia per gli agenti capaci di auto-miglioramento. I benchmark per terminale attuali sono stati costruiti per la valutazione, non per l'addestramento; l'apprendimento per rinforzo richiede una pipeline scalabile, non solo un dataset. Introduciamo Endless Terminals, una pipeline completamente autonoma che genera proceduralmente compiti di utilizzo del terminale senza annotazione umana. La pipeline si articola in quattro fasi: generazione di descrizioni di compiti diversificate, creazione e convalida di ambienti containerizzati, produzione di test di completamento e filtraggio per la risolvibilità. Da questa pipeline otteniamo 3255 compiti che spaziano dalle operazioni sui file alla gestione dei log, all'elaborazione dei dati, allo scripting e alle operazioni sui database. Addestriamo gli agenti utilizzando PPO standard con ricompense binarie a livello di episodio e un ciclo di interazione minimale: niente retrieval, coordinamento multi-agente o strumenti specializzati. Nonostante questa semplicità, i modelli addestrati su Endless Terminals mostrano miglioramenti sostanziali: sul nostro set di sviluppo tenuto da parte, Llama-3.2-3B passa dal 4.0% al 18.2%, Qwen2.5-7B dal 10.7% al 53.3% e Qwen3-8B-openthinker-sft dal 42.6% al 59.0%. Questi miglioramenti si trasferiscono a benchmark curati da umani: i modelli addestrati su Endless Terminals mostrano guadagni sostanziali su benchmark tenuti da parte e curati da umani: su TerminalBench 2.0, Llama-3.2-3B passa dallo 0.0% al 2.2%, Qwen2.5-7B dal 2.2% al 3.4% e Qwen3-8B-openthinker-sft dall'1.1% al 6.7%, superando in ogni caso approcci alternativi, inclusi modelli con architetture agentiche più complesse. Questi risultati dimostrano che un RL semplice ha successo quando gli ambienti sono scalabili.
I Diffusion Transformer hanno recentemente dimostrato prestazioni notevoli nella generazione video. Tuttavia, le lunghe sequenze in input comportano un'elevata latenza computazionale a causa della complessità quadratica dell'attenzione completa. Sono stati proposti vari meccanismi di attenzione sparsa. L'attenzione sparsa senza addestramento è limitata da una sparsità ridotta e offre quindi un'accelerazione modesta, mentre i metodi basati su addestramento possono raggiungere una sparsità molto più elevata ma richiedono dati e calcolo sostanziali per l'allenamento. In questo lavoro, proponiamo SALAD, introducendo un ramo di attenzione lineare leggero in parallelo all'attenzione sparsa. Incorporando un meccanismo di gating dipendente dall'input per bilanciare finemente i due rami, il nostro metodo raggiunge il 90% di sparsità e un'accelerazione inferenziale di 1,72x, mantenendo una qualità di generazione comparabile al baseline di attenzione completa. Inoltre, il nostro processo di fine-tuning è altamente efficiente, richiedendo solo 2.000 campioni video e 1.600 step di addestramento con un batch size di 8.
Sebbene l'intelligenza artificiale (IA) si sia profondamente integrata in varie fasi del flusso di lavoro della ricerca e abbia ottenuto progressi notevoli, la replica accademica rimane una sfida significativa e poco esplorata. Ciò accade perché la replica è un processo complesso di comunicazione strategica in condizioni di forte asimmetria informativa, piuttosto che un semplice dibattito tecnico. Di conseguenza, gli approcci attuali risultano inefficaci in quanto imitano prevalentemente la linguistica superficiale, tralasciando l'elemento essenziale dell'assunzione di prospettiva necessario per una persuasione efficace. In questo articolo presentiamo RebuttalAgent, il primo framework che fonda la replica accademica sulla Teoria della Mente (ToM), implementata attraverso una pipeline ToM-Strategia-Risposta (TSR) che modella lo stato mentale del revisore, formula una strategia persuasiva e genera una risposta ancorata alla strategia. Per addestrare il nostro agente, abbiamo costruito RebuttalBench, un dataset su larga scala sintetizzato mediante un innovativo approccio di critica e affinamento. Il processo di addestramento si articola in due fasi: una prima fase di fine-tuning supervisionato per dotare l'agente di capacità di analisi basate sulla ToM e di pianificazione strategica, seguita da una fase di apprendimento per rinforzo che sfrutta un meccanismo di auto-ricompensa per un miglioramento autonomo e scalabile. Per una valutazione automatica affidabile ed efficiente, abbiamo inoltre sviluppato Rebuttal-RM, un valutatore specializzato addestrato su oltre 100.000 campioni di dati replicativi multi-sorgente, che raggiunge una coerenza di valutazione con le preferenze umane superiore a quella del potente giudice GPT-4.1. Esperimenti estensivi dimostrano che RebuttalAgent supera significativamente il modello base di una media del 18,3% sulle metriche automatiche, oltre a superare modelli proprietari avanzati sia nelle valutazioni automatiche che in quelle umane. Dichiarazione di non responsabilità: i contenuti delle repliche generate sono forniti solo a scopo di riferimento per ispirare gli autori e assistere nella stesura. Non intendono sostituire l'analisi critica e la risposta autonoma dell'autore.
La presa di decisioni strategiche in ambienti multi-agente rappresenta una sfida cruciale per i grandi modelli linguistici (LLM), specialmente quando il coordinamento e la negoziazione devono svilupparsi in conversazioni prolungate. Sebbene recenti lavori abbiano esplorato l'uso degli LLM in compiti decisionali isolati, è stata data poca attenzione all'ottimizzazione di obiettivi a lungo termine attraverso il dialogo. Introduciamo GameTalk, un framework per addestrare LLM a prendere decisioni strategiche mediante interazioni multi-turno. A differenza dei lavori precedenti, che si concentrano su obiettivi a turno singolo o sulla previsione di azioni statiche, noi addestriamo gli LLM a ottimizzare un obiettivo globale lungo intere conversazioni. Raggiungiamo questo risultato adattando metodi di fine-tuning come GRPO, DPO e STaR per incorporare segnali di ricompensa che dipendono dall'intera interazione. Valutiamo questo approccio su una serie di giochi di complessità crescente, progettati per sollecitare diversi aspetti del ragionamento, del coordinamento e della modellazione dell'avversario. I nostri risultati dimostrano che GameTalk supera significativamente i modelli non addestrati, specialmente con il reward shaping, e che il DPO produce costantemente i migliori guadagni. Questi risultati posizionano il fine-tuning conversazionale come una strada promettente affinché gli LLM possano ragionare, negoziare e agire in ambienti interattivi.
I recenti progressi hanno ampliato il ruolo dei Large Language Model nei giochi da tavolo, trasformandoli da semplici agenti di gioco a co-progettisti creativi. Tuttavia, rimane una lacuna critica: i sistemi attuali non possiedono la capacità di offrire critiche costruttive basate sull'esperienza utente emergente. Colmare questa lacuna è fondamentale per armonizzare la collaborazione Uomo-IA, poiché permette ai progettisti di affinare le loro creazioni attraverso prospettive esterne, guidando al contempo i modelli lontano da esiti distorti o imprevedibili. Automatizzare la critica per i giochi da tavolo presenta due sfide: inferire le dinamiche latenti che collegano le regole al gameplay senza un motore esplicito e modellare l'eterogeneità soggettiva di diversi gruppi di giocatori. Per affrontarle, abbiamo curato un dataset di 1.727 regolamenti strutturalmente corretti e 150.000 recensioni selezionate mediante punteggi di qualità e campionamento basato su aspetti specifici. Abbiamo arricchito questi dati con il ragionamento Meccaniche-Dinamiche-Estetica (MDA) per colmare esplicitamente il divario causale tra regole scritte ed esperienza del giocatore. Inoltre, distilliamo i profili dei giocatori e introduciamo MeepleLM, un modello specializzato che interiorizza schemi di ragionamento specifici per persona per simulare accuratamente il feedback soggettivo di diversi archetipi di giocatore. Gli esperimenti dimostrano che MeepleLM supera significativamente i più recenti modelli commerciali (ad es. GPT-5.1, Gemini3-Pro) nell'allineamento alla comunità e nella qualità della critica, raggiungendo un tasso di preferenza del 70% in studi utente che valutano l'utilità. MeepleLM funge da playtester virtuale affidabile per sistemi interattivi generali, segnando un passo cruciale verso una collaborazione Uomo-IA allineata al pubblico e consapevole dell'esperienza.
Il ragionamento sui grafici è una capacità critica per i modelli linguistici visivi (VLM). Tuttavia, lo sviluppo di modelli open-source è gravemente ostacolato dalla mancanza di dati di addestramento di alta qualità. I dataset esistenti presentano una duplice sfida: i grafici sintetici sono spesso semplicistici e ripetitivi, mentre le coppie domanda-risposta associate sono soggette a allucinazioni e mancano della profondità di ragionamento necessaria per compiti complessi. Per colmare questa lacuna, proponiamo ChartVerse, un framework scalabile progettato per sintetizzare grafici complessi e dati di ragionamento affidabili da zero. (1) Per affrontare il collo di bottiglia degli schemi semplici, introduciamo innanzitutto l'Entropia Posteriore di Rollout (RPE), una nuova metrica che quantifica la complessità del grafico. Guidati da RPE, sviluppiamo un chart coder consapevole della complessità per sintetizzare autonomamente grafici diversificati e ad alta complessità tramite programmi eseguibili. (2) Per garantire il rigore del ragionamento, sviluppiamo una sintesi inversa di QA ancorata alla verità. Diversamente dalla generazione standard, adottiamo un paradigma answer-first: estraiamo risposte deterministiche direttamente dal codice sorgente, generiamo domande condizionate a questi ancoraggi e applichiamo una verifica di coerenza rigorosa. Per aumentare ulteriormente la difficoltà e la profondità di ragionamento, filtriamo i campioni in base al tasso di fallimento del modello e distilliamo ragionamenti a catena del pensiero (CoT) di alta qualità. Abbiamo curato ChartVerse-SFT-600K e ChartVerse-RL-40K utilizzando Qwen3-VL-30B-A3B-Thinking come insegnante. I risultati sperimentali dimostrano che ChartVerse-8B raggiunge prestazioni all'avanguardia, superando notevolmente il suo insegnante e competendo con il più potente Qwen3-VL-32B-Thinking.
Gli agenti di data science promettono di accelerare la scoperta e la generazione di insight trasformando i dati in analisi e risultati eseguibili. Tuttavia, gli attuali benchmark di data science presentano carenze a causa di interfacce di valutazione frammentate che rendono difficile il confronto trasversale, di una copertura limitata dei compiti e della mancanza di un rigoroso ancoraggio ai dati. In particolare, dimostriamo che una porzione significativa dei compiti negli attuali benchmark può essere risolta senza utilizzare i dati effettivi. Per affrontare queste limitazioni, introduciamo DSGym, un framework standardizzato per valutare e addestrare agenti di data science in ambienti di esecuzione autonomi. A differenza dei benchmark statici, DSGym fornisce un'architettura modulare che semplifica l'aggiunta di compiti, scaffold per agenti e strumenti, configurandolo come un banco di prova vivente ed estensibile. Curiamo DSGym-Tasks, una suite di compiti olistica che standardizza e affina i benchmark esistenti attraverso filtri di qualità e di risolvibilità per scorciatoie. Estendiamo ulteriormente la copertura con (1) DSBio: compiti di bioinformatica derivati da esperti e basati sulla letteratura, e (2) DSPredict: compiti predittivi impegnativi che spaziano in domini come la computer vision, la predizione molecolare e le perturbazioni a cellula singola. Oltre alla valutazione, DSGym consente l'addestramento degli agenti attraverso una pipeline di sintesi dati verificata dall'esecuzione. Come caso di studio, abbiamo costruito un set di addestramento di 2.000 esempi e addestrato un modello da 4B in DSGym che supera GPT-4o su benchmark di analisi standardizzati. In sintesi, DSGym consente una misurazione rigorosa end-to-end della capacità degli agenti di pianificare, implementare e convalidare analisi dei dati in contesti scientifici realistici.
I Modelli Linguistici di Grande Dimensione (LLM) affrontano la sfida del "limite conoscitivo" (knowledge cutoff), per cui la loro memoria parametrica congelata impedisce l'interiorizzazione diretta di nuove informazioni. Sebbene l'Addestramento Supervisionato Fine-Tuning (SFT) sia comunemente utilizzato per aggiornare le conoscenze del modello, spesso aggiorna i contenuti fattuali senza migliorare in modo affidabile la capacità del modello di utilizzare le nuove informazioni incorporate per rispondere a domande o prendere decisioni. L'Apprendimento per Rinforzo (RL) è essenziale per acquisire abilità di ragionamento; tuttavia, il suo elevato costo computazionale lo rende impraticabile per un'adattamento online efficiente. Osserviamo empiricamente che gli aggiornamenti dei parametri indotti da SFT e RL sono quasi ortogonali. Sulla base di questa osservazione, proponiamo il Trasferimento di Abilità Parametriche (Parametric Skill Transfer, PaST), un framework che supporta il trasferimento modulare delle abilità per un adattamento della conoscenza efficiente ed efficace. Estraendo un Vettore di Abilità (Skill Vector) indipendente dal dominio da un dominio sorgente, possiamo iniettare linearmente le abilità di manipolazione della conoscenza in un modello target dopo che questo ha subito un SFT leggero su nuovi dati. Esperimenti su benchmark di QA per l'incorporazione di conoscenze (SQuAD, LooGLE) e di uso strumentale agentico (ToolBench) dimostrano l'efficacia del nostro metodo. Su SQuAD, PaST supera la baseline SFT di auto-modifica allo stato dell'arte fino a 9,9 punti. PaST si scala ulteriormente al QA a contesto lungo su LooGLE con un guadagno assoluto di accuratezza di 8,0 punti e migliora i tassi di successo zero-shot su ToolBench in media di +10,3 punti, con guadagni consistenti tra le categorie di strumenti, indicando una forte scalabilità e trasferibilità cross-dominio del Vettore di Abilità.
Questo articolo presenta i modelli Mecellem, un framework per lo sviluppo di modelli linguistici specializzati per il dominio legale turco attraverso strategie di adattamento di dominio. Forniamo due contributi principali: (1) Modello Encoder Pre-addestrato da Zero: encoder bidirezionali basati su ModernBERT pre-addestrati su un corpus a predominanza turca di 112,7 miliardi di token. Implementiamo una strategia di selezione dei checkpoint che valuta le prestazioni di retrieval a valle durante l'addestramento, rivelando che i checkpoint ottimali raggiungono i migliori punteggi di retrieval prima che la loss di pre-addestramento raggiunga il suo minimo. I nostri modelli encoder si posizionano tra i primi 3 nella classifica leaderboard del retrieval per il turco, con modelli più piccoli (155 milioni di parametri) che raggiungono prestazioni comparabili a modelli di riferimento più grandi (307-567 milioni di parametri). Il nostro approccio raggiunge un'efficienza produttiva del 92,36% rispetto ai modelli state-of-the-art (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), classificandosi al quarto posto nonostante richieda meno risorse computazionali. I modelli SOTA si basano su pipeline di addestramento multi-stage e computazionalmente intensive, rendendo il nostro approccio di pre-addestramento single-stage seguito da un efficiente post-addestramento un'alternativa economicamente vantaggiosa; (2) Modello Decoder con Pre-addestramento Continuo (CPT): modelli Qwen3-1.7B e Qwen3-4B adattati al dominio legale turco attraverso un apprendimento curriculare controllato. Un CPT in quattro fasi con rapporti di campionamento ottimali consente una transizione graduale dalla conoscenza linguistica generale alla terminologia legale specializzata e al ragionamento a contesto lungo. Questo approccio raggiunge una riduzione della perplessità del 36,2% su testo legale turco, dimostrando i vantaggi dell'adattamento di dominio.
La segmentazione semantica accurata delle immagini istopatologiche è cruciale per l'analisi quantitativa dei tessuti e la modellizzazione clinica derivata. I recenti modelli fondazionali per la segmentazione hanno migliorato la generalizzazione attraverso pre-addestramento su larga scala, ma rimangono poco allineati con le esigenze della patologia poiché trattano la segmentazione come un compito di predizione visiva statico. Qui presentiamo VISTA-PATH, un modello fondazionale interattivo e class-aware per la segmentazione in patologia, progettato per risolvere strutture eterogenee, incorporare il feedback degli esperti e produrre segmentazioni a livello di pixel direttamente significative per l'interpretazione clinica. VISTA-PATH condiziona congiuntamente la segmentazione sul contesto visivo, su descrizioni semantiche dei tessuti e su prompt spaziali opzionali forniti dall'esperto, consentendo una segmentazione multi-classe precisa su immagini patologiche eterogenee. Per supportare questo paradigma, abbiamo curato VISTA-PATH Data, un corpus su larga scala per la segmentazione in patologia comprendente oltre 1,6 milioni di triplette immagine-maschera-testo che coprono 9 organi e 93 classi di tessuto. In un'ampia serie di benchmark esterni e non visti durante l'addestramento, VISTA-PATH supera costantemente i modelli fondazionali di segmentazione esistenti. È importante sottolineare che VISTA-PATH supporta un raffinamento dinamico con l'uomo nel ciclo, propagando il feedback di annotazione tramite bounding box a livello di patch, anche sparse, in una segmentazione dell'intero vetrino. Infine, dimostriamo che l'elevata fedeltà e la segmentazione class-aware prodotta da VISTA-PATH la rendono un modello preferibile per la patologia computazionale. Essa migliora l'analisi del microambiente tissutale attraverso il proposto Tumor Interaction Score (TIS), che mostra associazioni forti e significative con la sopravvivenza del paziente. Nel complesso, questi risultati stabiliscono VISTA-PATH come un modello fondazionale che eleva la segmentazione delle immagini patologiche da una predizione statica a una rappresentazione interattiva e clinicamente fondata per la patologia digitale. Il codice sorgente e una demo sono disponibili all'indirizzo https://github.com/zhihuanglab/VISTA-PATH.
I modelli linguistici di grandi dimensioni (LLM) sono oggi ampiamente utilizzati per vari tipi di attività di ingegneria del software, principalmente per la generazione di codice. Ricerche precedenti hanno dimostrato come un'adeguata *prompt engineering* possa aiutare gli sviluppatori a migliorare i propri prompt per la generazione di codice. Tuttavia, finora, non esistono linee guida specifiche che guidino gli sviluppatori nella scrittura di prompt adatti per la generazione di codice. In questo lavoro, deriviamo e valutiamo linee guida specifiche per lo sviluppo per l'ottimizzazione dei prompt. In primo luogo, utilizziamo un approccio iterativo e *test-driven* per perfezionare automaticamente i prompt di generazione del codice e analizziamo l'esito di questo processo per identificare gli elementi di miglioramento del prompt che portano al superamento dei test. Utilizziamo tali elementi per ricavare 10 linee guida per il miglioramento dei prompt, relative a una migliore specificazione di input/output, condizioni pre-post, fornitura di esempi, vari tipi di dettagli o chiarimento di ambiguità. Effettuiamo una valutazione con 50 professionisti, che riportano il loro utilizzo degli schemi di miglioramento dei prompt ricavati, nonché la loro percezione di utilità, che non sempre corrisponde all'utilizzo effettivo prima di conoscere le nostre linee guida. I nostri risultati portano a implicazioni non solo per i professionisti e gli educatori, ma anche per coloro che mirano a creare strumenti di sviluppo software migliori assistiti dagli LLM.