Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks de recente snelle vooruitgang in de terminale capaciteiten van grote taalmodel(len), blijven de trainingsdatastrategieën achter state-of-the-art terminale agents grotendeels onbekend. Wij vullen deze leemte in met een systematische studie naar data-engineeringpraktijken voor terminale agents, waarbij wij twee belangrijke bijdragen leveren: (1) Terminal-Task-Gen, een lichtgewicht pijplijn voor de generatie van synthetische taken die seed-gestuurde en vaardigheidsgebaseerde taakconstructie ondersteunt, en (2) een uitgebreide analyse van data- en trainingsstrategieën, waaronder filtering, curriculum learning, training voor lange contexten en schaalgedrag. Onze pijplijn levert Terminal-Corpus op, een grootschalige open-source dataset voor terminaltaken. Met behulp van deze dataset trainen wij Nemotron-Terminal, een familie van modellen geïnitialiseerd vanuit Qwen3(8B, 14B, 32B), die aanzienlijke verbeteringen laten zien op Terminal-Bench 2.0: Nemotron-Terminal-8B verbetert van 2,5% naar 13,0%, Nemotron-Terminal-14B verbetert van 4,0% naar 20,2%, en Nemotron-Terminal-32B verbetert van 3,4% naar 27,4%, waarmee het de prestaties evenaart van aanzienlijk grotere modellen. Om onderzoek in dit domein te versnellen, open-sourcen wij onze modelcheckpoints en het grootste deel van onze synthetische datasets op https://huggingface.co/collections/nvidia/nemotron-terminal.
Gebaseerd op de bestaande analyse van retrieval heads in grote taalmodellen, stellen we een alternatief herrangkader voor dat modellen traint om de relevantie van passage-query's in te schatten met behulp van de aandachtsscores van geselecteerde heads. Deze aanpak biedt een listwise-oplossing die gebruikmaakt van holistische informatie binnen de gehele kandidaat-shortlist tijdens het rangschikken. Tegelijkertijd produceert het op natuurlijke wijze continue relevantiescores, waardoor training op willekeurige retrievadata mogelijk is zonder toezicht van Likert-schalen. Ons kader is lichtgewicht en effectief; er zijn slechts kleinschalige modellen (bijv. 4B parameters) nodig om sterke prestaties te behalen. Uitgebreide experimenten tonen aan dat onze methode de bestaande state-of-the-art pointwise- en listwise-herrankers overtreft in meerdere domeinen, waaronder Wikipedia en lange narratieve datasets. Het vestigt verder een nieuwe state-of-the-art op de LoCoMo-benchmark, die de capaciteiten voor dialoogbegrip en geheugengebruik beoordeelt. We tonen verder aan dat ons kader flexibele uitbreidingen ondersteunt. Zo verbetert het verrijken van kandidaatpassages met contextuele informatie de rangschikkingsnauwkeurigheid verder, terwijl het trainen van aandacht heads uit middelste lagen de efficiëntie verhoogt zonder in te leveren op prestaties.
Versterkend leren voor agentische multimodale modellen lijdt vaak onder interactie-instorting, waarbij modellen leren om toolgebruik en meerfasig redeneren te verminderen, wat de voordelen van agentisch gedrag beperkt. Wij introduceren PyVision-RL, een raamwerk voor versterkend leren voor open-gewicht multimodale modellen dat de training stabiliseert en interactie in stand houdt. Onze aanpak combineert een oversampling-filtering-ranking rollout-strategie met een cumulatieve toolbeloning om instorting te voorkomen en meerfasig toolgebruik te stimuleren. Met behulp van een uniforme trainingspijplijn ontwikkelen we PyVision-Image en PyVision-Video voor beeld- en videobegrip. Voor videoredenering gebruikt PyVision-Video contextconstructie op aanvraag, waarbij tijdens het redeneren selectief taakrelevante frames worden bemonsterd om het gebruik van visuele tokens aanzienlijk te verminderen. Experimenten tonen sterke prestaties en verbeterde efficiëntie aan, wat aantoont dat volgehouden interactie en visuele verwerking op aanvraag cruciaal zijn voor schaalbare multimodale agents.
Test-time training (TTT) met KV-binding als sequentiemodelleerlaag wordt vaak geïnterpreteerd als een vorm van online meta-leren die een key-value-mapping onthoudt tijdens de testfase. Onze analyse onthult echter meerdere fenomenen die in tegenspraak zijn met deze op geheugen gebaseerde interpretatie. Gemotiveerd door deze bevindingen, herzien we de formulering van TTT en tonen we aan dat een brede klasse van TTT-architecturen kan worden uitgedrukt als een vorm van geleerde lineaire aandachtoperator. Naast het verklaren van voorheen raadselachtige modelgedragingen, levert dit perspectief meerdere praktische voordelen op: het maakt principiële architectonische vereenvoudigingen mogelijk, staat volledig parallelle formuleringen toe die de prestaties behouden terwijl de efficiëntie verbetert, en biedt een systematische reductie van diverse TTT-varianten tot een standaard lineaire aandachtvorm. Over het geheel genomen herformuleren onze resultaten TTT niet als testtijd-geheugen, maar als geleerde lineaire aandacht met een verbeterde representatiecapaciteit.
Het begrijpen van de fysieke structuur is essentieel voor praktische toepassingen zoals belichaamde agenten, interactief ontwerp en manipulatie op lange termijn. Toch richten gangbare evaluaties van Vision-Language Models (VLM's) zich nog steeds op structuuronafhankelijke, enkelvoudige opzetten (bijvoorbeeld VQA), die niet het vermogen beoordelen van agenten om te redeneren over hoe geometrie, contact- en ondersteuningsrelaties gezamenlijk beperken welke acties mogelijk zijn in een dynamische omgeving. Om deze kloof te dichten, introduceren we de Causal Hierarchy of Actions and Interactions (CHAIN) benchmark, een interactieve 3D, fysica-gestuurde testomgeving ontworpen om te evalueren of modellen gestructureerde actiereeksen, gebaseerd op fysieke beperkingen, kunnen begrijpen, plannen en uitvoeren. CHAIN verschuift de evaluatie van passieve waarneming naar actief probleemoplossen, met taken zoals in elkaar grijpende mechanische puzzels en 3D-stapelen en inpakken. We voeren een uitgebreide studie uit van state-of-the-art VLM's en op diffusie gebaseerde modellen in uniforme interactieve settings. Onze resultaten tonen aan dat toonaangevende modellen nog steeds moeite hebben om fysieke structuur en causale beperkingen te internaliseren, vaak falen in het produceren van betrouwbare lange-termijnplannen en niet robuust waargenomen structuur kunnen vertalen naar effectieve acties. Het project is beschikbaar op https://social-ai-studio.github.io/CHAIN/.
Wij bestuderen efficiënte multi-vector-retrieval voor late interactie in elke modaliteit. Late interactie is uitgegroeid tot een dominant paradigma voor informatie-retrieval in tekst, afbeeldingen, visuele documenten en video's, maar de reken- en opslagkosten nemen lineair toe met de documentlengte, wat het kostbaar maakt voor corpora rijk aan afbeeldingen, video's en audio. Om deze beperking aan te pakken, onderzoeken we query-agnostische methoden voor het comprimeren van multi-vector-documentrepresentaties onder een constant vectorbudget. Wij introduceren vier benaderingen voor indexcompressie: sequentiegrootte-aanpassing, geheugentokens, hiërarchische pooling en een nieuwe aandacht-gestuurde clustering (AGC). AGC gebruikt een aandacht-gestuurd mechanisme om de meest semantisch saillante regio's van een document te identificeren als clustercentroïden en om tokenaggregatie te wegen. Door deze methoden te evalueren op retrievaltaken in tekst (BEIR), visuele documenten (ViDoRe) en video (MSR-VTT, MultiVENT 2.0), tonen we aan dat aandacht-gestuurde clustering consistent beter presteert dan andere geparametriseerde compressiemethoden (sequentiegrootte-aanpassing en geheugentokens), meer flexibiliteit biedt in indexgrootte dan niet-parametrische hiërarchische clustering, en competitieve of verbeterde prestaties bereikt vergeleken met een volledige, ongecomprimeerde index. De broncode is beschikbaar op: github.com/hanxiangqin/omni-col-press.
Vision-language-action (VLA)-modellen verenigen perceptie, taal en controle voor belichaamde agents, maar worden geconfronteerd met aanzienlijke uitdagingen bij praktische inzet door snel toenemende reken- en geheugeneisen, vooral naarmate modellen worden opgeschaald naar langere tijdshorizons en grotere backbones. Om deze knelpunten aan te pakken, introduceren wij QuantVLA, een trainingsvrij *post-training quantization* (PTQ)-raamwerk dat, voor zover wij weten, de eerste PTQ-aanpak voor VLA-systemen is en de eerste die met succes een *diffusion transformer* (DiT)-actiehoofd kwantiseert. QuantVLA bevat drie geschaalde-gekalibreerde componenten: (1) een selectief kwantiseringslayout dat alle lineaire lagen in zowel de taal-backbone als de DiT integer maakt, terwijl aandachtprojecties in drijvende komma worden gehouden om het oorspronkelijke operatorschema te behouden; (2) *attention temperature matching*, een lichtgewicht schaalmechanisme per hoofd dat aandachtlogits stabiliseert en tijdens inferentie wordt opgenomen in de dekwantisatieschalen; en (3) *output head balancing*, een per-laagresiduinterfacekalibratie die energie-drift na projectie vermindert. Het raamwerk vereist geen extra training, gebruikt slechts een kleine ongekalibreerde buffer en ondersteunt integerkernels voor gewichten en activaties met laag bitgetal, terwijl de architectuur ongewijzigd blijft. Op representatieve VLA-modellen op LIBERO overtreft QuantVLA de taaksuccespercentages van *full-precision* basislijnen, realiseert ongeveer 70% relatieve geheugenbesparing op de gekwantiseerde componenten en levert een 1.22x versnelling in end-to-end inferentielatentie, waarmee een praktisch pad wordt geboden naar schaalbare belichaamde intelligentie met laag bitgetal onder strikte reken-, geheugen- en stroombeperkingen.
Deep Research Agents genereren rapporten van analistenkwaliteit, maar de evaluatie ervan blijft uitdagend door het ontbreken van een enkele grondwaarheid en de multidimensionale aard van onderzoekskwaliteit. Recente benchmarks stellen verschillende methodologieën voor, maar lijden aan de *Mirage of Synthesis*, waarbij sterke oppervlakkige vlotheid en citatenaansluiting onderliggende feitelijke en redeneerfouten kunnen verhullen. Wij karakteriseren deze kloof door een taxonomie over vier verticalen te introduceren die een kritieke capaciteitsmismatch blootlegt: statische evaluatoren missen inherent de tool-use capaciteiten die nodig zijn om temporele geldigheid en feitelijke juistheid te beoordelen. Om dit aan te pakken, stellen wij DREAM voor (Deep Research Evaluation with Agentic Metrics), een raamwerk dat het principe van *capability parity* instantieert door evaluatie zelf agentisch te maken. DREAM structureert de beoordeling via een evaluatieprotocol dat query-agnostische metrieken combineert met adaptieve metrieken gegenereerd door een tool-aanroepende agent, waardoor tijdsonafhankelijke dekking, gegronde verificatie en systematische redeneerprobes mogelijk worden. Gecontroleerde evaluaties tonen aan dat DREAM significant gevoeliger is voor feitelijk en temporeel verval dan bestaande benchmarks, en biedt zo een schaalbaar, referentievrij evaluatieparadigma.
Ondanks recente vooruitgang in diffusiemodellen bevatten door AI gegenereerde afbeeldingen vaak nog visuele artefacten die de realistische uitstraling aantasten. Hoewel grondigere voorafgaande training en grotere modellen artefacten kunnen verminderen, is er geen garantie dat ze volledig geëlimineerd kunnen worden, wat artefactmitigatie tot een cruciaal onderzoeksgebied maakt. Eerdere artefactbewuste methodologieën zijn afhankelijk van door mensen gelabelde artefactdatasets, die kostbaar en moeilijk op te schalen zijn, wat de behoefte aan een geautomatiseerde aanpak benadrukt om op betrouwbare wijze artefactgeannoteerde datasets te verkrijgen. In dit artikel stellen we ArtiAgent voor, dat efficiënt paren van echte en met artefacten geïnjecteerde afbeeldingen creëert. Het bestaat uit drie agents: een perceptie-agent die entiteiten en subentiteiten uit echte afbeeldingen herkent en lokaliseert, een synthese-agent die artefacten introduceert via artefactinjectietools door middel van nieuwe patchgewijze embeddingmanipulatie binnen een diffusietransformer, en een curatie-agent die de gesynthetiseerde artefacten filtert en zowel lokale als globale verklaringen voor elke instantie genereert. Met ArtiAgent synthetiseren we 100K afbeeldingen met rijke artefactannotaties en demonstreren we zowel effectiviteit als veelzijdigheid in diverse toepassingen. Code is beschikbaar op link.
Recente vooruitgang in AI-gestuurd programmeren heeft agents in staat gesteld om complexe workflows uit te voeren via opdrachtregelinterfaces. Bestaande benchmarks worden echter beperkt door korte taakhorizons, datacontaminatie door scraping van GitHub, en een gebrek aan fijnmazige evaluatiemetrics, waardoor ze niet in staat zijn om de planning- en uitvoeringscapaciteiten op lange termijn, die essentieel zijn voor realistische software-engineering, rigoureus te evalueren. Om deze tekortkomingen aan te pakken, introduceren we LongCLI-Bench, een uitgebreide benchmark die is ontworpen om agent-capaciteiten te evalueren bij realistische taken met een lange horizon. We hebben 20 hoogwaardige, langlopende taken geselecteerd uit meer dan 1.000 computerwetenschappelijke opdrachten en real-world workflows, verdeeld over vier technische categorieën: from scratch, feature addition, bug fixing en refactoring. We stellen een dual-set testprotocol voor voor LongCLI-Bench, dat zowel de vervulling van vereisten (fail-to-pass) als het vermijden van regressie (pass-to-pass) meet, en dat stap-voor-stap scoring incorporeert om uitvoeringsfouten te lokaliseren. Uitgebreide experimenten tonen aan dat zelfs state-of-the-art agents slagingspercentages halen onder de 20% in LongCLI-Bench. Analyse op stapniveau geeft verder aan dat de meerderheid van de taken stagneert bij minder dan 30% voltooiing, wat aantoont dat kritieke fouten vaak in de vroege fasen optreden. Hoewel zelfcorrectie marginale verbeteringen biedt, leidt mens-agent samenwerking via planinjectie en interactieve begeleiding tot aanzienlijk hogere verbeteringen. Deze resultaten benadrukken dat toekomstig onderzoek de ontwikkeling van synergetische mens-agent workflows moet benadrukken, naast vooruitgang in de planning- en uitvoeringscapaciteiten van agents, om de belangrijkste uitdagingen in de prestaties van taken met een lange horizon te overwinnen.
De meeste aanbevelingsbenchmarks evalueren hoe goed een model gebruikersgedrag imiteert. In financiële advisering kunnen waargenomen acties echter ruis bevatten of kortzichtig zijn door marktvolatiliteit, en kunnen botsen met de langetermijndoelen van een gebruiker. Het behandelen van wat gebruikers kozen als de enige grondwaarheid verwart daarom gedragsimitatie met beslissingskwaliteit. Wij introduceren Conv-FinRe, een conversationele en longitudinale benchmark voor aandelenaanbevelingen die LLM's evalueert voorbij gedragsnabootsing. Op basis van een intakegesprek, stapsgewijze marktcontext en adviserende dialogen moeten modellen ranglijsten genereren over een vaste beleggingshorizon. Cruciaal is dat Conv-FinRe multi-view referenties biedt die beschrijvend gedrag onderscheiden van normatieve nuttigheid, geworteld in beleggerspecifieke risicovoorkeuren. Dit maakt een diagnose mogelijk of een LLM rationele analyse volgt, gebruikersruis imiteert, of wordt gedreven door marktmomentum. Wij bouwden de benchmark op basis van echte marktdata en menselijke beslissingstrajecten, concretiseerden gecontroleerde adviesgesprekken, en evalueerden een reeks state-of-the-art LLM's. Resultaten tonen een hardnekkige spanning tussen rationele beslissingskwaliteit en gedragsafstemming: modellen die goed presteren op nutsgebaseerde rangschikking, slagen er vaak niet in gebruikerskeuzes te evenaren, terwijl gedragsafgestemde modellen kunnen overfitten op kortetermijnruis. De dataset is openbaar vrijgegeven op Hugging Face, en de codebase is beschikbaar op GitHub.
LLM-agents worden steeds vaker verwacht te functioneren als algemene systemen die in staat zijn open-einde gebruikersverzoeken op te lossen. Hoewel bestaande benchmarks zich richten op domeinbewuste omgevingen voor het ontwikkelen van gespecialiseerde agents, vereist het evalueren van algemene agents realistischer instellingen die hen uitdagen om te opereren over meerdere vaardigheden en tools heen binnen een uniforme omgeving. Wij introduceren General AgentBench, een benchmark die zo'n uniform kader biedt voor het evalueren van algemene LLM-agents binnen de domeinen zoeken, programmeren, redeneren en toolgebruik. Met General AgentBench bestuderen we systematisch schaalgedrag tijdens testen onder sequentiële schaling (iteratieve interactie) en parallelle schaling (bemonstering van meerdere trajecten). Evaluatie van tien toonaangevende LLM-agents toont een substantiële prestatievermindering wanneer wordt overgegaan van domeinspecifieke evaluaties naar deze algemene agent-setting. Bovendien constateren we dat geen van beide schaalmethodieken in de praktijk effectieve prestatieverbeteringen oplevert, vanwege twee fundamentele beperkingen: de contextlimiet bij sequentiële schaling en de verificatiekloof bij parallelle schaling. Code is openbaar beschikbaar op https://github.com/cxcscmu/General-AgentBench.
Test-time schaling kan modelprestaties verbeteren door stochastische redeneertrajecten te aggregeren. Het bereiken van sample-efficiënte test-time zelfconsistentie onder een beperkt budget blijft echter een onopgeloste uitdaging. Wij introduceren PETS (Principled and Efficient Test-Time Self-Consistency), dat een principieel onderzoek naar trajectallocatie initieert via een optimalisatiekader. Centraal in onze aanpak staat de zelfconsistentiegraad, een nieuwe maatstaf gedefinieerd als de overeenstemming met de meerderheidsstemming bij een oneindig budget. Deze formulering maakt sample-efficiënte test-time allocatie theoretisch onderbouwd en vatbaar voor rigoureuze analyse. Wij bestuderen zowel offline als online settings. In het offline regime, waar alle vragen vooraf bekend zijn, verbinden we trajectallocatie met crowdsourcing, een klassiek en goed ontwikkeld gebied, door redeneersporen te modelleren als werkers. Dit perspectief stelt ons in staat om gebruik te maken van bestaande rijke theorie, wat leidt tot theoretische garanties en een efficiënt op meerderheidsstemming gebaseerd allocatie-algoritme. In het online streaming regime, waar vragen sequentieel arriveren en allocaties direct moeten worden gemaakt, stellen we een nieuwe methode voor, geïnspireerd door het offline kader. Onze aanpast budgets aan de moeilijkheidsgraad van vragen, terwijl sterke theoretische garanties en computationele efficiëntie behouden blijven. Experimenten tonen aan dat PETS consistent beter presteert dan uniforme allocatie. Op GPQA bereikt PETS perfecte zelfconsistentie in beide settings, terwijl het steekproefbudget met tot 75% (offline) en 55% (online) wordt verminderd ten opzichte van uniforme allocatie. Code is beschikbaar op https://github.com/ZDCSlab/PETS.
Taalmodelagenten (LM-agenten) hebben opmerkelijke capaciteiten getoond bij het oplossen van taken die meerdere interacties met de omgeving vereisen. Ze blijven echter kwetsbaar in omgevingen waar een enkele fout vaak leidt tot onherstelbaar falen, vooral onder strikte haalbaarheidsbeperkingen. We analyseren bestaande agentframeworks systematisch en identificeren imperfecte planning en stochastische uitvoering als de primaire oorzaken. Om deze uitdagingen aan te pakken, stellen we Tool-guided Adaptive Planning with constrained Execution (TAPE) voor. TAPE verbetert de planningscapaciteit door meerdere plannen in een graaf samen te voegen en een externe solver in te zetten om een haalbaar pad te identificeren. Tijdens de uitvoering gebruikt TAPE constrained decoding om steekproefruis te verminderen, terwijl het adaptief opnieuw plant wanneer omgevingsfeedback afwijkt van de beoogde staat. Experimenten met Sokoban, ALFWorld, MuSiQue en GSM8K-Hard tonen aan dat TAPE consistent beter presteert dan bestaande frameworks, met bijzonder grote verbeteringen in moeilijke settings: het verbetert de slagingspercentages gemiddeld met 21,0 procentpunten op moeilijke settings, en gemiddeld met 20,0 procentpunten voor zwakkere basismodellen. Code en gegevens beschikbaar op hier.
Grote Taalmodellen (LLM's) hebben consistent baat bij geschaalde Chain-of-Thought (CoT) redeneerprocessen, maar lijden ook onder een zware computationele last. Om dit probleem aan te pakken, streeft efficiënt redeneren naar het stimuleren van korte maar accurate denkprocessen, meestal via *reward shaping* met Reinforcement Learning (RL). In dit artikel onderzoeken we systematisch de mechanismen van efficiënt redeneren voor LLM's. Voor een uitgebreide evaluatie pleiten we voor meer gedetailleerde metrieken, waaronder de lengteverdeling afhankelijk van de correctheid en de prestaties over een breed spectrum van tokenbudgets, variërend van 2k tot 32k. Ten eerste onthullen we dat het trainingsproces een tweefasenparadigma volgt: lengte-aanpassing en redeneerverfijning. Daarna voeren we uitgebreide experimenten uit (ongeveer 0.2 miljoen GPU-uren) in een uniform protocol, waarbij we trainingsprompts en rollouts, *reward shaping* en optimalisatiestrategieën deconstrueren. Een cruciale bevinding is in het bijzonder het trainen op relatief eenvoudigere prompts, om de dichtheid van positieve *reward*-signalen te waarborgen en zodoende lengte-implosie te voorkomen. Tegelijkertijd kan de aangeleerde lengtevooringenomenheid worden gegeneraliseerd over domeinen heen. We distilleren alle bevindingen tot waardevolle inzichten en praktische richtlijnen, en valideren deze verder over de Qwen3-serie, variërend van 0.6B tot 30B, wat de robuustheid en generalisatie aantoont.
Retrievalalgoritmen zoals BM25 en query likelihood met Dirichlet-afvlakking blijven krachtige en efficiënte eerste-fase-rankers, maar verbeteringen zijn tot nu toe voornamelijk gebaseerd op parameterafstemming en menselijke intuïtie. Wij onderzoeken of een groot taalmodel, geleid door een evaluator en evolutionaire zoekopdrachten, automatisch verbeterde lexicale retrievalalgoritmen kan ontdekken. Wij introduceren RankEvolve, een programma-evolutieopzet gebaseerd op AlphaEvolve, waarin kandidaat-rankalgoritmen worden vertegenwoordigd als uitvoerbare code en iteratief worden gemuteerd, gecombineerd en geselecteerd op basis van retrievalscores op 12 IR-datasets van BEIR en BRIGHT. RankEvolve start vanaf twee beginprogramma's: BM25 en query likelihood met Dirichlet-afvlakking. De geëvolueerde algoritmen zijn nieuw, effectief en tonen veelbelovende generalisatie naar de volledige BEIR- en BRIGHT-benchmarks evenals naar TREC DL 19 en 20. Onze resultaten suggereren dat door een evaluator geleide LLM-programma-evolutie een praktische weg is naar de automatische ontdekking van nieuwe rankalgoritmen.
Wij rapporteren de prestaties van Aletheia (Feng et al., 2026b), een wiskundig onderzoeksagent aangedreven door Gemini 3 Deep Think, op de eerste FirstProof-uitdaging. Binnen de toegestane tijdspanne van de challenge loste Aletheia autonoom 6 problemen (2, 5, 7, 8, 9, 10) van de 10 op volgens de meerderheid van de expertbeoordelingen; wij merken op dat de experts alleen voor Probleem 8 niet unaniem waren. Voor volledige transparantie lichten wij onze interpretatie van FirstProof toe en delen wij details over onze experimenten en onze evaluatie. Onbewerkte prompts en uitvoer zijn beschikbaar op https://github.com/google-deepmind/superhuman/tree/main/aletheia.
Het efficiënt verwerken van lange sequenties met Transformer-modellen vereist doorgaans het splitsen van berekeningen over accelerators via context-parallelisme. De dominante benaderingen in deze methodenfamilie, zoals Ring Attention of DeepSpeed Ulysses, maken schaling over de contextdimensie mogelijk, maar richten zich niet op geheugenefficiëntie, wat de ondersteunde sequentielengtes beperkt. Geavanceerdere technieken, zoals Fully Pipelined Distributed Transformer of het uitbesteden van activaties, kunnen de mogelijke contextlengte verder verlengen ten koste van de trainingsdoorvoer. In dit artikel presenteren we UPipe, een eenvoudige maar effectieve context-parallelismetechniek die fijnmazige segmentatie op het niveau van de aandachtskoppen uitvoert. Deze techniek vermindert het geheugengebruik van zelf-attentie aanzienlijk, doorbreekt de barrière van activatiegeheugen en maakt veel langere contextlengtes mogelijk. Onze aanpak vermindert het geheugengebruik van tussenliggende tensoren in de attentielaag met maar liefst 87,5% voor 32B Transformers, terwijl dezelfde trainingssnelheid als eerdere context-parallelismetechnieken wordt gehandhaafd. UPipe kan een contextlengte van 5M tokens ondersteunen bij het trainen van Llama3-8B op een enkele 8×H100-node, een verbetering van meer dan 25% ten opzichte van eerdere methoden.
Op discrete diffusie gebaseerde taalmodel(len) hebben brede belangstelling gewekt vanwege hun potentieel om snellere generatie te bieden dan autoregressieve modellen. In de praktijk vertonen ze echter een sterke degradatie van de steekproefkwaliteit in het few-step regime, waardoor deze belofte niet wordt waargemaakt. Hier tonen we aan dat taalmodel(len) die gebruikmaken van flow-gebaseerde continue denoisering, discrete diffusie kunnen overtreffen in zowel kwaliteit als snelheid. Door de fundamenten van flows over discrete modaliteiten opnieuw te bekijken, bouwen we een flow-gebaseerd taalmodel (FLM) dat Euclidische denoisering uitvoert op one-hot token coderingen. We laten zien dat het model getraind kan worden door de schone data te voorspellen via een cross-entropy doelstelling, waarbij we een eenvoudige tijdherparameterisatie introduceren die de trainingsstabiliteit en generatiekwaliteit aanzienlijk verbetert. Door FLM te destilleren in zijn geassocieerde flow map, verkrijgen we een gedestilleerd flow map taalmodel (FMLM) dat in staat is tot few-step generatie. Op de LM1B en OWT taaldatasets bereikt FLM een generatiekwaliteit die overeenkomt met state-of-the-art discrete diffusiemodellen. Met FMLM overtreft onze aanpak recente few-step taalmodel(len) op alle fronten, waarbij generatie in één stap hun 8-staps kwaliteit overstijgt. Ons werk trekt de wijdverbreide hypothese in twijfel dat discrete diffusieprocessen noodzakelijk zijn voor generatieve modellering over discrete modaliteiten, en baant de weg naar versnelde flow-gebaseerde taalmodellering op grote schaal. Code is beschikbaar op https://github.com/david3684/flm.
Echte verzoeken aan AI-agenten zijn fundamenteel ondergespecificeerd. Menselijke communicatie steunt op gedeelde context en onuitgesproken beperkingen die sprekers verwachten dat luisteraars kunnen afleiden. Huidige benchmarks voor agenten testen het opvolgen van expliciete instructies, maar evalueren niet of agenten kunnen redeneren over impliciete vereisten zoals toegankelijkheidsbehoeften, privacygrenzen, catastrofale risico's en contextuele beperkingen. Wij presenteren Impliciete Intelligentie, een evaluatiekader dat test of AI-agenten verder kunnen gaan dan prompt-volgen om echte doelstellingsvervullers te worden, samen met Agent-as-a-World (AaW), een raamwerk waarin interactieve werelden worden gedefinieerd in menselijk leesbare YAML-bestanden en gesimuleerd door taalmodelen. Onze scenario's kenmerken zich door schijnbare eenvoud in gebruikersverzoeken, verborgen complexiteit in correcte oplossingen, en ontdekbaarheid van beperkingen door omgevingsexploratie. Na evaluatie van 16 voorhoede- en open-weight modellen over 205 scenario's, blijkt dat zelfs het best presterende model slechts 48,3% scenariosucces behaalt, wat een aanzienlijke verbeteringsruimte onthult in het overbruggen van de kloof tussen letterlijke instructie-opvolging en mensachtig contextueel redeneren.
Belichaamde grote taalmodelmodellen (LLM's) bieden robots een hoog niveau van taakredenering, maar ze kunnen niet reflecteren op wat er misging of waarom, waardoor implementatie verandert in een reeks onafhankelijke pogingen waarbij fouten zich herhalen in plaats van zich opstapelen tot ervaring. Geïnspireerd door menselijke reflectieve beoefenaars, introduceren wij Reflectief Testtijdplanning, dat twee vormen van reflectie integreert: reflectie-in-handeling, waarbij de agent testtijd-schaling gebruikt om meerdere kandidaat-acties te genereren en scoren met interne reflecties vóór uitvoering; en reflectie-op-handeling, die testtijd-training gebruikt om zowel zijn interne reflectiemodel als zijn actiebeleid bij te werken op basis van externe reflecties na uitvoering. We voegen ook retrospectieve reflectie toe, waardoor de agent eerdere beslissingen kan herevalueren en modelupdates kan uitvoeren met terugwerkende kracht voor een correcte krediettoewijzing op lange termijn. Experimenten op onze nieuw ontworwen Long-Horizon Household benchmark en de MuJoCo Cupboard Fitting benchmark tonen significante verbeteringen ten opzichte van basismodellen, waarbij ablatiestudies de complementaire rollen van reflectie-in-handeling en reflectie-op-handeling valideren. Kwalitatieve analyses, inclusief proeven met echte robots, benadrukken gedragscorrectie door reflectie.
Discrete beeld-tokenizers zijn naar voren gekomen als een cruciaal onderdeel van moderne visuele en multimodale systemen, waarbij ze een sequentiële interface bieden voor op transformers gebaseerde architecturen. De meeste bestaande benaderingen blijven echter voornamelijk geoptimaliseerd voor reconstructie en compressie, wat vaak tokens oplevert die lokale textuur vastleggen in plaats van semantische structuur op objectniveau. Geïnspireerd door het incrementele en compositionele karakter van menselijke communicatie, introduceren wij COMmunication inspired Tokenization (COMiT), een raamwerk voor het leren van gestructureerde discrete visuele tokenreeksen. COMiT construeert een latent bericht binnen een vast tokenbudget door iteratief gelokaliseerde beelduitsneden te observeren en zijn discrete representatie recurrent bij te werken. Bij elke stap integreert het model nieuwe visuele informatie terwijl het de bestaande tokenreeks verfijnt en reorganiseert. Na verschillende encoderingsiteraties conditioneert het uiteindelijke bericht een flow-matching decoder die het volledige beeld reconstrueert. Zowel codering als decodering worden geïmplementeerd binnen een enkel transformer-model en end-to-end getraind met een combinatie van flow-matching reconstructie- en semantische representatie-alignmentverliezen. Onze experimenten tonen aan dat, hoewel semantische alignment voor grounding zorgt, aandachtige sequentiële tokenisering cruciaal is voor het induceren van een interpreteerbare, objectgerichte tokenstructuur en voor een substantiële verbetering van compositionele generalisatie en relationeel redeneren ten opzichte van eerdere methoden.
Het voorspellen van de verblijftijd van importcontainers (ICDT) is een kerntaak voor het verbeteren van de productiviteit in containerterminals, aangezien accurate voorspellingen het mogelijk maken om de herstelbewerkingen door stapelkranen te verminderen. Het bereiken van dit doel vereist een nauwkeurige voorspelling van de verblijftijd van individuele containers. De belangrijkste bepalende factoren voor de verblijftijd – eigenaarsinformatie en goedereninformatie – zijn echter vastgelegd als ongestructureerde tekst, wat hun effectieve gebruik in machine learning-modellen beperkt. Deze studie lost deze beperking op door een collaboratief raamwerk voor te stellen dat generatieve kunstmatige intelligentie (Gen AI) integreert met machine learning. Het voorgestelde raamwerk gebruikt Gen AI om ongestructureerde informatie te standaardiseren in standaard internationale codes, waarbij dynamische hervoorspelling wordt geactiveerd door updates van de elektronische gegevensuitwisseling (EDI). Dit stelt het machine learning-model in staat om de ICDT nauwkeurig te voorspellen. Uitgebreide experimenten met echte data van een containerterminal tonen aan dat de voorgestelde methodologie een verbetering van 13,88% in de gemiddelde absolute fout bereikt in vergelijking met conventionele modellen die geen gebruik maken van gestandaardiseerde informatie. Bovendien leidt de toepassing van de verbeterde voorspellingen op containerstapelstrategieën tot een vermindering van het aantal herplaatsingen tot wel 14,68%, waardoor het potentieel van Gen AI om de productiviteit in containerterminaloperaties te verhogen empirisch wordt bevestigd. Over het geheel genomen biedt deze studie zowel technische als methodologische inzichten in de adoptie van Gen AI in havenlogistiek en de effectiviteit daarvan.
Het modelleren van spinale beweging is fundamenteel voor het begrip van de menselijke biomechanica, maar blijft onderbelicht binnen de computer vision vanwege de complexe multi-gewrichtskinematica van de wervelkolom en het ontbreken van grootschalige 3D-annotaties. Wij presenteren een biomechanica-bewust kader voor keypoint-simulatie dat bestaande datasets voor humane houdingen verrijkt met anatomisch consistente 3D-spinale keypoints afgeleid van musculoskeletale modellering. Met dit kader creëren we de eerste open dataset, genaamd SIMSPINE, die schaarse 3D-annotaties op wervelniveau biedt voor natuurlijke volledige lichaamsbewegingen in een indoor multi-camera opstelling zonder externe beperkingen. Met 2,14 miljoen frames maakt dit data-gedreven leren van vertebrale kinematica mogelijk vanuit subtiele houdingsvariaties en overbrugt het de kloof tussen musculoskeletale simulatie en computer vision. Daarnaast publiceren we voorgetrainde basislijnen die verfijnde 2D-detectoren, monoculaire 3D-houdingliftmodellen en multi-view reconstructiepijplijnen omvatten, waarmee een uniforme benchmark wordt gevestigd voor biomechanisch valide schatting van wervelkolombeweging. Specifiek verbeteren onze 2D-wervelkolombasislijnen de state-of-the-art van 0,63 naar 0,80 AUC in gecontroleerde omgevingen, en van 0,91 naar 0,93 AP voor wervelkolomtracking in natuurlijke omstandigheden. Samen bevorderen het simulatiekader en de SIMSPINE-dataset het onderzoek in visie-gestuurde biomechanica, bewegingsanalyse en digitale mensmodellering door reproduceerbare, anatomisch onderbouwde 3D-schatting van de wervelkolom onder natuurlijke condities mogelijk te maken.
Uniform-state discrete diffusiemodellen blinken uit in generatie met weinig stappen en begeleiding dankzij hun vermogen tot zelfcorrectie, waardoor ze de voorkeur genieten boven autoregressieve of gemaskeerde diffusiemodellen in deze settings. Hun samplekwaliteit bereikt echter een plateau bij ancestrale samplers naarmate het aantal stappen toeneemt. Wij introduceren een familie van Predictor-Corrector (PC) samplers voor discrete diffusie die eerdere methoden generaliseren en toepasbaar zijn op willekeurige ruisprocessen. Wanneer gekoppeld aan uniform-state diffusie, overtreffen onze samplers ancestrale sampling bij zowel taal- als beeldmodellering, met een lagere generatieve perplexiteit bij gelijke unigram-entropie op OpenWebText en betere FID/IS-scores op CIFAR10. Cruciaal is dat onze PC-methoden, in tegenstelling tot conventionele samplers, blijven verbeteren met meer samplingstappen. Deze bevindingen zetten de aanname dat gemaskeerde diffusie de onvermijdelijke toekomst is van diffusiegebaseerde taalmodellering op losse schroeven. Naast sampling ontwikkelen we een geheugenefficiënt curriculum voor de Gaussische relaxatietrainingsfase, waardoor de traintijd met 25% en het geheugengebruik met 33% wordt verminderd ten opzichte van Duo, terwijl vergelijkbare perplexiteit op OpenWebText en LM1B en sterke downstream-prestaties behouden blijven. We publiceren code, checkpoints en een videotutorial op: https://s-sahoo.com/duo-ch2
Optische tekenherkenning (OCR) heeft een snelle vooruitgang geboekt dankzij deep learning en multimodale modellen, maar de meeste methoden richten zich op goed ondersteunde schriften zoals Latijns en Chinees. Etnische minderheidstalen blijven onderbelicht vanwege complexe schriftsystemen, schaarse annotaties en diverse historische en moderne vormen, wat generalisatie in low-resource of zero-shot situaties uitdagend maakt. Om deze problemen aan te pakken, presenteren we OmniOCR, een universeel framework voor etnische minderheidsschriften. OmniOCR introduceert Dynamic Low-Rank Adaptation (Dynamic LoRA) om modelcapaciteit over lagen en schriften toe te wijzen, waardoor effectieve aanpassing mogelijk is terwijl kennis behouden blijft. Een sparsity-regularisatie snoeit overbodige updates en zorgt voor compacte en efficiënte aanpassing zonder extra inferentiekosten. Evaluaties op TibetanMNIST, Shui, oud Yi en Dongba tonen aan dat OmniOCR zero-shot foundationmodellen en standaard post-training overtreft, met state-of-the-art nauwkeurigheid en superieure parameter efficiëntie. Vergeleken met de state-of-the-art basismodellen verbetert het de nauwkeurigheid met 39%-66% op deze vier datasets. Code: https://github.com/AIGeeksGroup/OmniOCR.
Grootschalige Vision-Language Modellen (VLM's) hebben aanzienlijk potentieel getoond voor complexe visuele begripstaken door middel van iteratieve optimalisatiemethoden. Deze modellen missen echter over het algemeen effectieve zelfcorrectiemechanismen, waardoor het voor hen moeilijk is om cognitieve vertekeningen onafhankelijk te rectificeren. Bijgevolg vervallen ze tijdens meervoudige revisies vaak in repetitieve en inefficiënte pogingen, wat niet leidt tot stabiele verbeteringen in de antwoordkwaliteit. Om dit probleem aan te pakken, stellen we een nieuw iteratief zelfcorrectieraamwerk voor dat modellen twee cruciale capaciteiten verleent: Capaciteitsreflectie en Geheugenreflectie. Dit raamwerk leidt het model ertoe om eerst fouten te diagnosticeren en een correctieplan te genereren via Capaciteitsreflectie, vervolgens Geheugenreflectie te benutten om eerdere pogingen te evalueren om herhaling te voorkomen en nieuwe oplossingen te verkennen, en ten slotte het antwoord te optimaliseren door middel van rigoureus herredeneren. Experimenten op de uitdagende OCRBench v2-benchmark tonen aan dat OCR-Agent het huidige open-source SOTA-model InternVL3-8B overtreft met +2,0 punten op de Engelse en +1,2 punten op de Chinese subset, terwijl het state-of-the-art resultaten behaalt in Visueel Begrip (79,9) en Redeneren (66,5) - en daarmee zelfs grotere fijn afgestemde modellen overstijgt. Onze methode toont aan dat gestructureerde, zelfbewuste reflectie de redeneerrobuustheid van VLM's aanzienlijk kan verbeteren zonder aanvullende training. Code: https://github.com/AIGeeksGroup/OCR-Agent.
Het anonimiseren van tekstuele documenten is een sterk contextgevoelig probleem: de juiste balans tussen privacybescherming en behoud van bruikbaarheid varieert per datadomein, privacydoelstellingen en downstream-toepassingen. Bestaande anonimiseringsmethoden vertrouwen echter op statische, handmatig ontworpen strategieën die de flexibiliteit missen om zich aan te passen aan uiteenlopende vereisten en die vaak niet generaliseren over domeinen heen. Wij introduceren adaptieve tekstanonimisering, een nieuwe taakformulering waarbij anonimiseringsstrategieën automatisch worden aangepast aan specifieke privacy-bruikbaarheidseisen. Wij presenteren een raamwerk voor taakspecifieke promptoptimalisatie dat automatisch anonimiseringsinstructies voor taalmodellen construeert, waardoor aanpassing aan verschillende privacy-doelen, domeinen en downstream-gebruikspatronen mogelijk wordt. Ter evaluatie van onze aanpak presenteren we een benchmark die vijf datasets omvat met uiteenlopende domeinen, privacybeperkingen en bruikbaarheidsdoelen. In alle geëvalueerde settings behaalt ons raamwerk consistent een betere privacy-bruikbaarheid-balans dan bestaande baseline-methoden, waarbij het rekenkundig efficiënt blijft en effectief werkt op open-source taalmodellen, met prestaties die vergelijkbaar zijn met grotere closed-source modellen. Daarnaast tonen we aan dat onze methode nieuwe anonimiseringsstrategieën kan ontdekken die verschillende punten langs de privacy-bruikbaarheid-grens verkennen.
Visuele Tekstweergave (VTR) blijft een kritieke uitdaging in tekst-naar-beeld-generatie, waarbij zelfs geavanceerde modellen vaak tekst produceren met structurele anomalieën zoals vervorming, wazigheid en uitlijningfouten. Wij constateren echter dat toonaangevende MLLM's en gespecialiseerde OCR-modellen deze structurele anomalieën grotendeels niet waarnemen, wat een kritieke knelpunt vormt voor zowel VTR-evaluatie als op reinforcement learning (RL) gebaseerde optimalisatie. Hierdoor worstelen zelfs state-of-the-art-generatoren (zoals SeedDream4.0, Qwen-Image) nog steeds met het weergeven van structureel correcte tekst. Om dit aan te pakken, stellen wij TextPecker voor, een plug-and-play RL-strategie die structurele anomalieën waarneemt, ruis in beloningssignalen vermindert en met elke tekst-naar-beeld-generator werkt. Om deze mogelijkheid te realiseren, construeren we een herkenningsdataset met annotaties van structurele anomalieën op tekenniveau en ontwikkelen we een synthese-engine op basis van streekbewerking om de dekking van structurele fouten te vergroten. Experimenten tonen aan dat TextPecker consistente verbeteringen oplevert bij diverse tekst-naar-beeld-modellen; zelfs op de reeds goed geoptimaliseerde Qwen-Image levert het significante gemiddelde winsten op van 4% in structurele betrouwbaarheid en 8.7% in semantische uitlijning voor Chinese tekstweergave, waarmee een nieuwe state-of-the-art wordt gevestigd in hoogwaardige VTR. Ons werk vult een leemte in VTR-optimalisatie en vormt een fundamentele stap richting betrouwbare en structureel correcte visuele tekstgeneratie.
Dit artikel introduceert LaS-Comp, een zero-shot en categorie-onafhankelijke methode die gebruikmaakt van de rijke geometrische a priori-kennis van 3D-foundationmodellen om 3D-vormcompletie mogelijk te maken voor diverse soorten partiële observaties. Onze bijdragen zijn drievoudig: Ten eerste benut onze aanpak deze krachtige generatieve a priori-kennis voor completie via een complementair tweestapsontwerp: (i) een expliciete vervangingsfase die de geometrie van de partiële observatie behoudt om een getrouwe completie te garanderen; en (ii) een impliciete verfijningsfase die naadloze overgangen tussen de waargenomen en gesynthetiseerde regio's waarborgt. Ten tweede is ons framework trainingsvrij en compatibel met verschillende 3D-foundationmodellen. Ten derde introduceren we Omni-Comp, een uitgebreide benchmark die real-world en synthetische data combineert met diverse en uitdagende partiële patronen, wat een grondigere en realistischer evaluatie mogelijk maakt. Zowel kwantitatieve als kwalitatieve experimenten tonen aan dat onze aanpak eerdere state-of-the-art methoden overtreft. Onze code en data zullen beschikbaar zijn op https://github.com/DavidYan2001/LaS-Comp.
De groeiende vraag naar grote taalmodellen (LLM's) vereist dat serversystemen veel gelijktijdige verzoeken met uiteenlopende service level objectives (SLO's) kunnen verwerken. Dit verergert head-of-line (HoL)-blokkering tijdens de rekenintensieve prefill-fase, waarbij langlopende verzoeken middelen monopoliseren en verzoeken met een hogere prioriteit vertragen, wat leidt tot wijdverbreide schendingen van de time-to-first-token (TTFT)-SLO. Hoewel chunked prefill onderbreekbaarheid mogelijk maakt, introduceert het een inherente afweging tussen responsiviteit en doorvoer: het verkleinen van de chunkgrootte verbetert de responstijd maar verslechtert de rekenkundige efficiëntie, terwijl het vergroten van de chunkgrootte de doorvoer maximaliseert maar blokkering verergert. Dit vereist een adaptief preemptiemechanisme. Het dynamisch afwegen van uitvoeringsgranulariteit tegen planningsoverhead blijft echter een grote uitdaging. In dit artikel stellen we FlowPrefill voor, een TTFT-goodput-geoptimaliseerd serversysteem dat dit conflict oplost door preemptiegranulariteit te ontkoppelen van planningsfrequentie. Om adaptieve prefill-planning te bereiken, introduceert FlowPrefill twee belangrijke innovaties: 1) Operator-Level Preemptie, dat operatorgrenzen benut om fijnmazige uitvoeringsonderbreking mogelijk te maken zonder het efficiëntieverlies van vaste kleine chunking; en 2) Event-Driven Planning, dat planningsbeslissingen alleen activeert bij aankomst- of voltooiingsgebeurtenissen van verzoeken, waardoor efficiënte preemptieresponsiviteit wordt ondersteund terwijl de control-plane-overhead wordt geminimaliseerd. Evaluatie op real-world productietraces toont aan dat FlowPrefill de maximale goodput met tot 5,6 keer verbetert in vergelijking met state-of-the-art systemen, terwijl heterogene SLO's worden nageleefd.
Het detecteren van LLM-trainingsdata wordt over het algemeen geformuleerd als een membership inference attack (MIA)-probleem. Conventionele MIA's opereren echter passief op vaste modelgewichten, waarbij gebruik wordt gemaakt van log-waarschijnlijkheden of gegenereerde tekst. In dit werk introduceren we Active Data Reconstruction Attack (ADRA), een familie van MIA's die actief een model induceert om een gegeven tekst te reconstrueren door middel van training. Wij veronderstellen dat trainingsdata beter reconstrueerbaar zijn dan niet-lidteksten, en dat het verschil in reconstrueerbaarheid kan worden benut voor membership inference. Gemotiveerd door bevindingen dat reinforcement learning (RL) gedrag dat reeds in de gewichten gecodeerd is aanscherpt, benutten we on-policy RL om actief datareconstructie op te roepen door een policy te finetunen die geïnitialiseerd is vanuit het doelmodel. Om RL effectief te gebruiken voor MIA, ontwerpen we reconstructiemetrieken en contrastieve beloningen. De resulterende algoritmen, ADRA en zijn adaptieve variant ADRA+, verbeteren zowel de reconstructie als de detectie gegeven een verzameling kandidaatdata. Experimenten tonen aan dat onze methoden consistent superieur presteren aan bestaande MIA's in het detecteren van pre-training, post-training en distillatiedata, met een gemiddelde verbetering van 10,7% ten opzichte van de vorige runner-up. In het bijzonder verbetert \MethodPlus~met 18,8% ten opzichte van Min-K%++ op BookMIA voor pre-training-detectie en met 7,6% op AIME voor post-training-detectie.