Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren LongCat-Flash-Thinking-2601, een open-source Mixture-of-Experts (MoE) redeneermodel met 560 miljard parameters en superieure agent-gebaseerde redeneercapaciteiten. LongCat-Flash-Thinking-2601 behaalt state-of-the-art prestaties onder open-source modellen op een breed scala aan agent-gebaseerde benchmarks, waaronder agent-gebaseerd zoeken, het gebruik van tools door agents en tool-geïntegreerd redeneren. Naast benchmarkprestaties toont het model sterke generalisatie naar complexe toolinteracties en robuust gedrag onder rumoerige, real-world omstandigheden. Deze geavanceerde capaciteit zijn het resultaat van een uniform trainingsraamwerk dat domein-parallelle experttraining combineert met latere fusie, samen met een end-to-end co-design van dataconstructie, omgevingen, algoritmen en infrastructuur, uitgespreid van pre-training tot post-training. In het bijzonder wordt de sterke generalisatiecapaciteit van het model bij complex toolgebruik aangedreven door onze diepgaande verkenning van omgevingsschaling en principiële taakconstructie. Om langstaartige, scheve generatie en multi-turn agent-interacties te optimaliseren, en om stabiele training over meer dan 10.000 omgevingen verspreid over meer dan 20 domeinen mogelijk te maken, breiden we ons asynchrone reinforcement learning-raamwerk, DORA, systematisch uit voor stabiele en efficiënte grootschalige multi-omgevingstraining. Verder, erkennend dat real-world taken inherent rumoerig zijn, voeren we een systematische analyse en decompositie uit van real-world ruispatronen en ontwerpen we gerichte trainingsprocedures om dergelijke imperfecties expliciet in het trainingsproces op te nemen, wat resulteert in verbeterde robuustheid voor real-world toepassingen. Om de prestaties op complexe redeneertaken verder te verbeteren, introduceren we een Heavy Thinking-modus die effectieve schaling tijdens testtijd mogelijk maakt door gezamenlijk de redeneerdiepte en -breedte uit te breiden via intensief parallel denken.
LLM-agents hebben opmerkelijke capaciteiten getoond in softwareontwikkeling, maar hun prestaties worden belemmerd door lange interactiecontexten, die hoge API-kosten en latentie met zich meebrengen. Hoewel diverse contextcompressiebenaderingen zoals LongLLMLingua zijn ontstaan om deze uitdaging aan te pakken, baseren deze zich doorgaans op vaste metrieken zoals PPL, waarbij de taakspecifieke aard van codebegrip wordt genegeerd. Hierdoor verstoren ze veelal de syntactische en logische structuur en slagen ze er niet in kritieke implementatiedetails te behouden. In dit artikel stellen we SWE-Pruner voor, een zelf-adaptief contextpruningframework toegesneden op coderingsagents. Geïnspireerd door hoe menselijke programmeurs broncode "selectief skimmen" tijdens ontwikkeling en debugging, voert SWE-Pruner taakbewuste adaptieve pruning uit voor lange contexten. Gegeven de huidige taak formuleert de agent een expliciet doel (bijvoorbeeld "focus op foutafhandeling") als hint om de pruningdoelen te sturen. Een lichtgewicht neurale skimmer (0.6B parameters) wordt getraind om dynamisch relevante regels uit de omringende context te selecteren gegeven het doel. Evaluaties over vier benchmarks en meerdere modellen valideren de effectiviteit van SWE-Pruner in diverse scenario's, met een tokenreductie van 23-54% op agenttaken zoals SWE-Bench Verified en tot 14.84x compressie op enkelvoudige taken zoals LongCodeQA met minimale prestatie-impact.
Standaard Vision-Language-Action (VLA)-modellen fine-tunen doorgaans een monolithisch Vision-Language Model (VLM)-backbone expliciet voor robotbesturing. Deze aanpak creëert echter een kritieke spanning tussen het behouden van hoogwaardig algemeen semantisch begrip en het aanleren van laagwaardige, fijnmazige sensomotorische vaardigheden, wat vaak leidt tot 'catastrofale vergetelheid' van de open-wereldcapaciteiten van het model. Om dit conflict op te lossen, introduceren wij TwinBrainVLA, een nieuwe architectuur die een generalistische VLM die universeel semantisch begrip behoudt, coördineert met een gespecialiseerde VLM die is toegewijd aan belichaamde proprioceptie voor gezamenlijke robotbesturing. TwinBrainVLA brengt een bevroren "Linker Hersenhelft", die robuuste algemene visuele redeneervaardigheden behoudt, synergetisch samen met een trainbare "Rechter Hersenhelft", gespecialiseerd in belichaamde perceptie, via een nieuw Asymmetrisch Mixture-of-Transformers (AsyMoT)-mechanisme. Dit ontwerp stelt de Rechter Hersenhelft in staat om dynamisch semantische kennis op te vragen uit de bevroren Linker Hersenhelft en deze te versmelten met proprioceptieve toestanden, wat een rijke conditionering biedt voor een Flow-Matching Actie-Expert om precieze continue besturingen te genereren. Uitgebreide experimenten op de SimplerEnv- en RoboCasa-benchmarks tonen aan dat TwinBrainVLA superieure manipulatieresultaten behaalt in vergelijking met state-of-the-art baseline-modellen, terwijl het expliciet de uitgebreide visuele begripscapaciteiten van het vooraf getrainde VLM behoudt. Dit biedt een veelbelovende richting voor het bouwen van robots voor algemene toepassingen die gelijktijdig hoogwaardig semantisch begrip en laagwaardige fysieke behendigheid bereiken.
Moderne Vision-Language Models (VLMs) blijven slecht gekarakteriseerd in multi-stap visuele interacties, met name in hoe ze perceptie, geheugen en actie over lange tijdshorizons integreren. Wij introduceren VisGym, een gymnasium van 17 omgevingen voor het evalueren en trainen van VLMs. De suite omvat symbolische puzzels, begrip van echte afbeeldingen, navigatie en manipulatie, en biedt flexibele controle over moeilijkheidsgraad, inputrepresentatie, planningshorizon en feedback. Wij bieden ook multi-stap oplossers die gestructureerde demonstraties genereren, wat supervised finetuning mogelijk maakt. Onze evaluaties tonen aan dat alle frontier-modellen moeite hebben in interactieve settings, met lage slagingspercentages in zowel de makkelijke (46,6%) als moeilijke (26,0%) configuraties. Onze experimenten onthullen opmerkelijke beperkingen: modellen hebben moeite om lange context effectief te benutten en presteren slechter met een onbegrensde geschiedenis dan met afgeknotte vensters. Verder stellen wij vast dat verschillende op tekst gebaseerde symbolische taken aanzienlijk moeilijker worden zodra ze visueel worden weergegeven. Expliciete doelwaarnemingen, tekstuele feedback en verkennende demonstraties in gedeeltelijk waarneembare of onbekende-dynamica settings voor supervised finetuning leveren echter consistente verbeteringen op, wat concrete faalwijzen en verbeterpaden voor multi-stap visuele besluitvorming belicht. Code, data en modellen zijn te vinden op: https://visgym.github.io/.
Recente fundamentele video-naar-video diffusiemodellen hebben indrukwekkende resultaten behaald bij het bewerken van door gebruikers aangeleverde video's door het uiterlijk, de beweging of camerabeweging aan te passen. Echter, videobewerking in de praktijk is vaak een iteratief proces, waarbij gebruikers resultaten verfijnen over meerdere interactierondes. In deze multi-turn setting hebben huidige videobewerkers moeite om cross-consistentie tussen opeenvolgende bewerkingen te behouden. In dit werk pakken we, voor het eerst, het probleem van cross-consistentie bij multi-turn videobewerking aan en introduceren Memory-V2V, een eenvoudig maar effectief framework dat bestaande video-naar-video modellen uitbreidt met expliciet geheugen. Gegeven een externe cache van eerder bewerkte video's, gebruikt Memory-V2V accurate retrieval- en dynamische tokenisatiestrategieën om de huidige bewerkingsstap te conditioneren op eerdere resultaten. Om redundantie en computationele overhead verder te verminderen, stellen we een leerbare tokencompressor voor binnen de DiT-backbone die redundante conditioneringstokens comprimeert terwijl essentiële visuele aanwijzingen behouden blijven, wat een algehele versnelling van 30% oplevert. We valideren Memory-V2V op uitdagende taken, waaronder novel view synthesis van video's en tekst-geconditioneerde bewerking van lange video's. Uitgebreide experimenten tonen aan dat Memory-V2V video's produceert die aanzienlijk cross-consistenter zijn met minimale computationele overhead, terwijl de taakspecifieke prestaties worden behouden of zelfs verbeterd ten opzichte van state-of-the-art baselines. Projectpagina: https://dohunlee1.github.io/MemoryV2V
Versterkend leren (RL) is essentieel voor het verbeteren van de complexe redeneervaardigheden van grote taalmodellen (LLM's). Bestaande RL-trainingspijplijnen zijn echter rekenkundig inefficiënt en resource-intensief, waarbij de rollout-fase meer dan 70% van de totale trainingstijd in beslag neemt. Gekwantiseerde RL-training, met name het gebruik van FP8-precisie, biedt een veelbelovende aanpak om dit knelpunt te verlichten. Een veelgebruikte strategie past FP8-precisie toe tijdens de rollout, maar behoudt BF16-precisie voor de training. In dit werk presenteren we de eerste uitgebreide studie naar FP8 RL-training en tonen we aan dat de veelgebruikte BF16-training + FP8-rollout-strategie lijdt onder ernstige trainingsinstabiliteit en een catastrofale nauwkeurigheidsdaling bij lange rollouts en uitdagende taken. Onze analyse toont aan dat deze mislukkingen voortkomen uit het off-policy karakter van de aanpak, die een aanzienlijke numerieke mismatch tussen training en inferentie introduceert. Gemotiveerd door deze observaties stellen we Jet-RL voor, een FP8 RL-trainingsraamwerk dat robuuste en stabiele RL-optimalisatie mogelijk maakt. Het kernidee is om een uniforme FP8-precisiestroom aan te nemen voor zowel training als rollout, waardoor numerieke discrepanties worden geminimaliseerd en de behoefte aan inefficiënte inter-step-kalibratie wordt geëlimineerd. Uitgebreide experimenten valideren de effectiviteit van Jet-RL: onze methode bereikt een versnelling tot 33% in de rollout-fase, tot 41% versnelling in de trainingsfase en een end-to-end versnelling van 16% ten opzichte van BF16-training, terwijl stabiele convergentie in alle instellingen wordt behouden en met een verwaarloosbare nauwkeurigheidsafname.
Recente ontwikkelingen in Deep Research Agents (DRA's) transformeren geautomatiseerde kennisontdekking en probleemoplossing. Hoewel de meeste bestaande inspanningen zich richten op het verbeteren van beleidsmogelijkheden via post-training, stellen wij een alternatief paradigma voor: het zelf laten evolueren van het vermogen van de agent door de uitvoer van het beleidsmodel iteratief te verifiëren, geleid door zorgvuldig opgestelde rubrics. Deze aanpak leidt tot de inferentie-tijd schaalvergroting van verificatie, waarbij een agent zichzelf verbetert door zijn gegenereerde antwoorden te evalueren om iteratieve feedback en verfijningen te produceren. Wij leiden de rubrics af op basis van een automatisch geconstrueerde DRA Foutentaxonomie, die agentfouten systematisch classificeert in vijf hoofdcategorieën en dertien subcategorieën. Wij presenteren DeepVerifier, een op rubrics gebaseerde uitkomstbeloningsverificateur die de asymmetrie van verificatie benut en de baseline-methoden van gewone agent-as-judge en LLM-judge met 12%-48% overtreft in F1-score voor meta-evaluatie. Om praktische zelfevolutie mogelijk te maken, integreert DeepVerifier als een plug-and-play module tijdens inferentie op testtijd. De verificateur produceert gedetailleerde, op rubrics gebaseerde feedback, die wordt teruggevoerd naar de agent voor iteratieve bootstrapping, waarbij antwoorden worden verfijnd zonder aanvullende training. Deze schaalvergroting op testtijd levert 8%-11% nauwkeurigheidswinst op op uitdagende subsets van GAIA en XBench-DeepResearch wanneer wordt aangedreven door capabele closed-source LLM's. Ten slotte, ter ondersteuning van de vooruitgang van open source, publiceren wij DeepVerifier-4K, een gecureerde supervised fine-tuning dataset van 4.646 hoogwaardige agentstappen gericht op DRA-verificatie. Deze voorbeelden benadrukken reflectie en zelfkritiek, waardoor open modellen robuuste verificatiemogelijkheden kunnen ontwikkelen.
Omgevingen vormen de bottleneck voor zelfverbeterende agents. Huidige terminalbenchmarks werden gebouwd voor evaluatie, niet voor training; reinforcement learning vereist een schaalbare pijplijn, niet slechts een dataset. Wij introduceren Endless Terminals, een volledig autonome pijplijn die procedureel terminaltaken genereert zonder menselijke annotatie. De pijplijn kent vier fasen: het genereren van diverse taakbeschrijvingen, het bouwen en valideren van gecontaineriseerde omgevingen, het produceren van voltooiingstests en het filteren op oplosbaarheid. Via deze pijplijn verkrijgen we 3255 taken op het gebied van bestandsbewerkingen, logbeheer, gegevensverwerking, scripting en databaseoperaties. We trainen agents met standaard PPO met binaire beloningen op episodeniveau en een minimale interactielus: geen retrieval, multi-agentcoördinatie of gespecialiseerde tools. Ondanks deze eenvoud tonen modellen getraind op Endless Terminals aanzienlijke vooruitgang: op onze afgezonderde ontwikkelset verbetert Llama-3.2-3B van 4,0% naar 18,2%, Qwen2.5-7B van 10,7% naar 53,3% en Qwen3-8B-openthinker-sft van 42,6% naar 59,0%. Deze verbeteringen transfereren naar door mensen samengestelde benchmarks: modellen getraind op Endless Terminals tonen aanzienlijke winst op afgezonderde, door mensen gecureerde benchmarks: op TerminalBench 2.0 verbetert Llama-3.2-3B van 0,0% naar 2,2%, Qwen2.5-7B van 2,2% naar 3,4% en Qwen3-8B-openthinker-sft van 1,1% naar 6,7%, waarbij ze in elk geval alternatieve benaderingen overtreffen, inclusief modellen met complexere agent-scaffolds. Deze resultaten tonen aan dat eenvoudige reinforcement learning slaagt wanneer omgevingen schalen.
Diffusion Transformers hebben recentelijk opmerkelijke prestaties getoond bij videogeneratie. De lange invoersequenties resulteren echter in een hoge computationele latentie door de kwadratische complexiteit van volledige aandacht. Diverse sparse aandachtmechanismen zijn voorgesteld. Trainingsvrije sparse aandacht wordt beperkt door beperkte sparsiteit en biedt daardoor bescheiden versnelling, terwijl trainingsgebaseerde methoden een veel hogere sparsiteit kunnen bereiken maar aanzienlijke data en rekenkracht voor training vereisen. In dit werk stellen we SALAD voor, waarbij een lichtgewicht lineaire aandachtstak parallel wordt geïntroduceerd aan de sparse aandacht. Door een invoerafhankelijk gatingmechanisme te incorporeren om de twee takken fijn af te stemmen, bereikt onze methode 90% sparsiteit en een 1,72x versnelling van de inferentie, waarbij de generatiekwaliteit vergelijkbaar blijft met de volledige aandacht-basislijn. Bovendien is ons fine-tuningproces zeer efficiënt, met slechts 2.000 videovoorbeelden en 1.600 trainingstappen met een batchgrootte van 8.
Hoewel kunstmatige intelligentie (KI) diep is geïntegreerd in diverse fasen van de onderzoeksworkflow en opmerkelijke vooruitgang heeft geboekt, blijft academische weerlegging een significante en onderbelichte uitdaging. Dit komt doordat weerlegging een complex proces van strategische communicatie is onder ernstige informatie-asymmetrie, in plaats van een eenvoudig technisch debat. Als gevolg hiervan worstelen huidige benaderingen, omdat ze voornamelijk oppervlakkige linguïstiek imiteren en het essentiële element van perspectiefinneming dat nodig is voor effectieve overreding missen. In dit artikel introduceren we RebuttalAgent, het eerste raamwerk dat academische weerlegging verankert in de Theory of Mind (ToM), geoperationaliseerd via een ToM-Strategie-Respons (TSR)-pijplijn die de mentale staat van de reviewer modelleert, een overredingsstrategie formuleert en een op strategie gebaseerd antwoord genereert. Om onze agent te trainen, construeren we RebuttalBench, een grootschalige dataset gesynthetiseerd via een nieuwe kritiek-en-verfijn-aanpak. Ons trainingsproces bestaat uit twee fasen, beginnend met een supervised fine-tuning fase om de agent te voorzien van ToM-gebaseerde analyse- en strategische planningscapaciteiten, gevolgd door een reinforcement learning fase die gebruikmaakt van het zelfbeloningsmechanisme voor schaalbare zelfverbetering. Voor betrouwbare en efficiënte geautomatiseerde evaluatie ontwikkelen we verder Rebuttal-RM, een gespecialiseerde beoordelaar getraind op meer dan 100K samples van multi-bron weerleggingsdata, die een scoreconsistentie met menselijke voorkeuren bereikt die de krachtige beoordelaar GPT-4.1 overtreft. Uitgebreide experimenten tonen aan dat RebuttalAgent de basis-model significant overtreft met gemiddeld 18.3% op geautomatiseerde metrieken, terwijl het ook geavanceerde propriëtaire modellen overtreft in zowel geautomatiseerde als menselijke evaluaties. Disclaimer: de gegenereerde weerleggingsinhoud is alleen bedoeld als referentie om auteurs te inspireren en te assisteren bij het opstellen. Het is niet bedoeld om de eigen kritische analyse en reactie van de auteur te vervangen.
Strategische besluitvorming in multi-agentomgevingen is een centrale uitdaging voor grote taalmodellen (LLM's), vooral wanneer coördinatie en onderhandeling zich moeten ontvouwen over langere gesprekken. Hoewel recent onderzoek het gebruik van LLM's in geïsoleerde besluitvormingstaken heeft verkend, is er weinig aandacht geweest voor het optimaliseren van langetermijndoelen via dialoog. Wij introduceren GameTalk, een raamwerk voor het trainen van LLM's om strategische beslissingen te nemen via multi-turn interacties. In tegenstelling tot eerder werk dat zich richt op single-turn doelstellingen of statische actievoorspelling, trainen wij LLM's om een globaal doel te optimaliseren over volledige conversaties. Wij bereiken dit door fine-tuningmethoden zoals GRPO, DPO en STaR aan te passen om beloningssignalen op te nemen die afhankelijk zijn van de gehele interactie. Wij evalueren deze aanpak op een reeks steeds complexere spellen, ontworpen om verschillende aspecten van redenering, coördinatie en modellering van tegenstanders te belasten. Onze resultaten tonen aan dat GameTalk aanzienlijk beter presteert dan niet-getrainde modellen, vooral bij 'reward shaping', waarbij DPO consequent de grootste verbeteringen oplevert. Deze bevindingen positioneren conversationele fine-tuning als een veelbelovende weg voor LLM's om te redeneren, onderhandelen en handelen in interactieve omgevingen.
Recente ontwikkelingen hebben de rol van grote taalmodel(len) in bordspellen uitgebreid van spelende agenten tot creatieve co-ontwerpers. Er blijft echter een kritieke kloof bestaan: huidige systemen missen het vermogen om constructieve kritiek te geven die is gebaseerd op de emergente gebruikerservaring. Het overbruggen van deze kloof is fundamenteel voor het harmoniseren van mens-AI-samenwerking, omdat het ontwerpers in staat stelt hun creaties te verfijnen via externe perspectieven en tegelijkertijd modellen wegstuurt van bevooroordeelde of onvoorspelbare uitkomsten. Het automatiseren van kritiek voor bordspellen kent twee uitdagingen: het afleiden van de onderliggende dynamiek die regels aan gameplay verbindt zonder een expliciete engine, en het modelleren van de subjectieve heterogeniteit van diverse spelersgroepen. Om deze aan te pakken, hebben we een dataset samengesteld van 1.727 structureel gecorrigeerde spelregelboekjes en 150.000 beoordelingen, geselecteerd via kwaliteitsscores en facetbewuste steekproeven. We verrijken deze data met Mechanics-Dynamics-Aesthetics (MDA)-redenering om de causale kloof tussen geschreven regels en spelerservaring expliciet te overbruggen. Verder destilleren we spelerspersona's en introduceren we MeepleLM, een gespecialiseerd model dat persona-specifieke redeneerpatronen internaliseert om de subjectieve feedback van diverse spelersarchetypen nauwkeurig te simuleren. Experimenten tonen aan dat MeepleLM aanzienlijk beter presteert dan de nieuwste commerciële modellen (zoals GPT-5.1, Gemini3-Pro) op het gebied van community-alignering en kritiekkwaliteit, met een voorkeurspercentage van 70% in gebruikersstudies die de bruikbaarheid beoordelen. MeepleLM dient als een betrouwbare virtuele playtester voor algemene interactieve systemen, wat een cruciale stap markeert richting publieksgerichte, ervaringsbewuste mens-AI-samenwerking.
Grafiekredenering is een cruciale vaardigheid voor Vision Language Models (VLM's). De ontwikkeling van open-source modellen wordt echter ernstig belemmerd door een gebrek aan hoogwaardige trainingsdata. Bestaande datasets kampen met een dubbele uitdaging: synthetische grafieken zijn vaak simplistisch en repetitief, terwijl de bijbehorende vraag-antwoordparen gevoelig zijn voor hallucinaties en het ontbreekt ze aan de redeneerdiepte die nodig is voor complexe taken. Om deze kloof te overbruggen, stellen we ChartVerse voor, een schaalbaar framework ontworpen om complexe grafieken en betrouwbare redeneerdata vanaf nul te synthetiseren. (1) Om het knelpunt van eenvoudige patronen aan te pakken, introduceren we eerst Rollout Posterior Entropy (RPE), een nieuwe maatstaf die de complexiteit van een grafiek kwantificeert. Geleid door RPE ontwikkelen we een complexiteitsbewuste grafiekcoder om autonoom diverse, hoogcomplexe grafieken te synthetiseren via uitvoerbare programma's. (2) Om de redeneerrigeur te garanderen, ontwikkelen we een waarheid-verankerde inverse QA-synthese. In tegenstelling tot standaardgeneratie hanteren we een antwoord-eerst paradigma: we extraheren deterministische antwoorden rechtstreeks uit de broncode, genereren vragen conditioneel op deze ankers en voeren strikte consistentieverificatie af. Om de moeilijkheidsgraad en redeneerdiepte verder te verhogen, filteren we samples op basis van model-faalkans en destilleren we hoogwaardige Chain-of-Thought (CoT)-redenering. We hebben ChartVerse-SFT-600K en ChartVerse-RL-40K samengesteld met Qwen3-VL-30B-A3B-Thinking als de leraar. Experimentele resultaten tonen aan dat ChartVerse-8B state-of-the-art prestaties bereikt, waarbij het opvallend genoeg zijn leraar overtreft en kan wedijveren met de sterkere Qwen3-VL-32B-Thinking.
Data science-agents beloven de ontdekking en generatie van inzichten te versnellen door data om te zetten in uitvoerbare analyses en bevindingen. Toch schieten bestaande data science-benchmarks tekort door gefragmenteerde evaluatie-interfaces die kruisbenchmarkvergelijking bemoeilijken, beperkte taakdekking en een gebrek aan rigoureuze datagronding. We tonen aan dat een aanzienlijk deel van de taken in huidige benchmarks opgelost kan worden zonder de werkelijke data te gebruiken. Om deze beperkingen aan te pakken, introduceren we DSGym, een gestandaardiseerd raamwerk voor het evalueren en trainen van data science-agents in zelfstandige uitvoeringsomgevingen. In tegenstelling tot statische benchmarks biedt DSGym een modulaire architectuur die het eenvoudig maakt om taken, agent-scaffolds en tools toe te voegen, waardoor het zich positioneert als een levende, uitbreidbare testomgeving. We hebben DSGym-Tasks samengesteld, een holistische takenreeks die bestaande benchmarks standaardiseert en verfijnt via kwaliteits- en shortcut-oplosbaarheidsfiltering. We breiden de dekking verder uit met (1) DSBio: expert-afgeleide bioinformatica-taken gegrond in literatuur en (2) DSPredict: uitdagende voorspellingstaken over domeinen zoals computervisie, moleculaire voorspelling en single-cell perturbatie. Naast evaluatie maakt DSGym agent-training mogelijk via een uitvoeringsgeverifieerde datasynthesepijplijn. Als casestudy bouwden we een trainingsset van 2.000 voorbeelden en trainden een 4B-model in DSGym dat beter presteert dan GPT-4o op gestandaardiseerde analysebenchmarks. Over het geheel genomen stelt DSGym rigoureuze end-to-end meting in staat van of agents data-analyses kunnen plannen, implementeren en valideren in realistische wetenschappelijke contexten.
Grote Taalmodellen (GTM's) kampen met het "kennisafsluitingsprobleem", waarbij hun bevroren parametrische geheugen verhindert dat nieuwe informatie direct wordt geïnternaliseerd. Hoewel Supervised Fine-Tuning (SFT) vaak wordt gebruikt om modelkennis bij te werken, actualiseert het meestal feitelijke inhoud zonder het vermogen van het model om de nieuw geïncorporeerde informatie te gebruiken voor vraagbeantwoording of besluitvorming betrouwbaar te verbeteren. Reinforcement Learning (RL) is essentieel voor het verwerven van redeneervaardigheden; de hoge rekenkosten maken het echter onpraktisch voor efficiënte online-aanpassing. Wij observeren empirisch dat de parameterupdates veroorzaakt door SFT en RL bijna orthogonaal zijn. Gebaseerd op deze observatie stellen wij Parametric Skill Transfer (PaST) voor, een raamwerk dat modulaire vaardigheidsoverdracht ondersteunt voor efficiënte en effectieve kennisaanpassing. Door een domein-agnostische Skill Vector uit een brondomein te extraheren, kunnen wij kennismanipulatievaardigheden lineair injecteren in een doelmodel nadat het een lichtgewicht SFT op nieuwe gegevens heeft ondergaan. Experimenten op het gebied van kennisincorporatie-vraagbeantwoording (SQuAD, LooGLE) en agent-gebaseerde tool-gebruik benchmarks (ToolBench) demonstreren de effectiviteit van onze methode. Op SQuAD presteert PaST tot 9,9 punten beter dan de state-of-the-art zelf-editerende SFT-basislijn. PaST schaalt verder naar vraagbeantwoording met lange context op LooGLE met een absolute nauwkeurigheidswinst van 8,0 punten, en verbetert de zero-shot ToolBench-succespercentages gemiddeld met +10,3 punten met consistente winsten across toolcategorieën, wat duidt op sterke schaalbaarheid en cross-domein overdraagbaarheid van de Skill Vector.
Dit artikel presenteert Mecellem-modellen, een raamwerk voor het ontwikkelen van gespecialiseerde taalmodellen voor het Turkse juridische domein via domeinadaptatiestrategieën. Wij leveren twee bijdragen: (1) Encoder-model van Scratch Voorgetraind: Bidirectionele encoders op basis van ModernBERT, voorgetraind op een Turks-dominant corpus van 112,7 miljard tokens. Wij implementeren een checkpoint-selectiestrategie die de downstream-retrievalprestatie gedurende de training evalueert, waaruit blijkt dat optimale checkpoints de beste retrievalscores behalen voordat de voortrainingsverlies zijn minimum bereikt. Onze encodermodellen behalen top-3 posities op het Turkse retrieval leaderboard, waarbij kleinere modellen (155M parameters) vergelijkbare prestaties leveren als grotere referentiemodellen (307M-567M parameters). Onze aanpak bereikt een productie-efficiëntie van 92,36% in vergelijking met state-of-the-art modellen (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), en eindigt daarmee op de vierde plaats overall, ondanks het lagere computationele resourceverbruik. SOTA-modellen zijn afhankelijk van meerfasige, computationeel intensieve trainingspijplijnen, waardoor onze aanpak van eenfasige voortraining gevolgd door efficiënte natraining een kosteneffectief alternatief vormt; (2) Decoder-model met Continue Voorpretraining (CPT): Qwen3-1.7B en Qwen3-4B modellen aangepast aan het Turkse juridische domein via gecontroleerd curriculumleren. Vierfasige CPT met optimale sample-ratio's maakt een geleidelijke overgang mogelijk van algemene taalkennis naar gespecialiseerde juridische terminologie en redenering over lange contexten. Deze aanpak bereikt een perplexiteitsreductie van 36,2% op Turkse juridische tekst, wat de winst van domeinadaptatie aantoont.
Nauwkeurige semantische segmentatie van histopathologiebeelden is cruciaal voor kwantitatieve weefselanalyse en daaropvolgende klinische modellering. Recente segmentatiefoundationmodellen hebben de generalisatie verbeterd door grootschalige voorafgaande training, maar sluiten nog steeds slecht aan bij de pathologie omdat ze segmentatie behandelen als een statische visuele voorspeltaak. Hier presenteren we VISTA-PATH, een interactief, klassebewust pathologiesegmentatiefoundationmodel dat is ontworpen om heterogene structuren op te lossen, expertfeedback te incorporeren en pixelgewijze segmentaties te produceren die direct betekenisvol zijn voor klinische interpretatie. VISTA-PATH conditioneert segmentatie gezamenlijk op visuele context, semantische weefselbeschrijvingen en optionele door experts verstrekte ruimtelijke prompts, waardoor nauwkeurige multiklasse-segmentatie over heterogene pathologiebeelden mogelijk wordt. Om dit paradigma te ondersteunen, hebben we VISTA-PATH Data samengesteld, een grootschalig pathologiesegmentatiecorpus bestaande uit meer dan 1,6 miljoen beeld-masker-tekst triplets verspreid over 9 organen en 93 weefselklassen. Over uitgebreide achtergehouden en externe benchmarks presteert VISTA-PATH consistent beter dan bestaande segmentatiefoundationmodellen. Belangrijk is dat VISTA-PATH dynamische verfijning met menselijke interactie ondersteunt door schaarse, patchgewijze bounding-box annotatiefeedback te propageren naar whole-slide-segmentatie. Ten slotte tonen we aan dat de hoogwaardige, klassebewuste segmentatie geproduceerd door VISTA-PATH een voorkeursmodel is voor computationele pathologie. Het verbetert weefselmicro-omgevingsanalyse door de voorgestelde Tumor Interactie Score (TIS), die sterke en significante associaties vertoont met patiëntoverleving. Samen vestigen deze resultaten VISTA-PATH als een foundationmodel dat pathologiebeeldsegmentatie verheft van een statische voorspelling naar een interactieve en klinisch onderbouwde representatie voor digitale pathologie. Broncode en demo zijn beschikbaar op https://github.com/zhihuanglab/VISTA-PATH.
Groottaalmodellen (LLM's) worden tegenwoordig uitgebreid ingezet voor diverse soorten software-engineeringtaken, voornamelijk codegeneratie. Eerder onderzoek heeft aangetoond hoe geschikte promptengineering ontwikkelaars kan helpen bij het verbeteren van hun codegeneratie-prompts. Tot op heden bestaan er echter geen specifieke richtlijnen die ontwikkelaars leiden naar het schrijven van geschikte prompts voor codegeneratie. In dit werk leiden we ontwikkelingsspecifieke richtlijnen voor promptoptimalisatie af en evalueren we deze. Ten eerste gebruiken we een iteratieve, testgedreven aanpak om codegeneratie-prompts automatisch te verfijnen, en we analyseren de uitkomst van dit proces om promptverbeteringspunten te identificeren die leiden tot geslaagde tests. We gebruiken deze elementen om 10 richtlijnen voor promptverbetering af te leiden, gerelateerd aan het beter specificeren van I/O, pre- en postcondities, het verstrekken van voorbeelden, diverse soorten details, of het ophelderen van ambiguïteiten. We voeren een evaluatie uit met 50 praktijkbeoefenaars, die hun gebruik van de afgeleide promptverbeteringspatronen rapporteren, evenals hun ervaren nuttigheid, wat niet altijd overeenkomt met het daadwerkelijke gebruik voordat zij onze richtlijnen kenden. Onze resultaten leiden tot implicaties niet alleen voor praktijkbeoefenaars en opleiders, maar ook voor hen die gericht zijn op het creëren van betere met LLM's ondersteunde software-ontwikkeltools.