Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In de zoektocht naar wetenschappelijke vooruitgang is het communiceren van onderzoek even essentieel als de ontdekking zelf. Toch worden onderzoekers vaak afgeleid door de handmatige, repetitieve taak om projectwebpagina's te bouwen om hun complexe artikelen toegankelijk te maken. Hoewel automatisering statische dia's en posters heeft aangepakt, is het dynamische, interactieve karakter van webpagina's een onopgeloste uitdaging gebleven. Om deze kloof te overbruggen, herformuleren we het probleem en beargumenteren we dat de oplossing niet ligt in één enkele opdracht, maar in een collaboratief, hiërarchisch proces. We introduceren AutoPage, een nieuw multi-agent systeem dat deze filosofie belichaamt. AutoPage deconstrueert het creëren van pagina's uit artikelen in een pipeline van grof naar fijn, van narratieve planning tot multimodale contentgeneratie en interactieve weergave. Om AI-hallucinaties tegen te gaan, verifiëren toegewijde "Checker"-agents elke stap aan de hand van het bronartikel, terwijl optionele menselijke controlepunten ervoor zorgen dat het eindproduct perfect aansluit bij de visie van de auteur. Dit transformeert het systeem van een louter instrument naar een krachtige collaboratieve assistent. Om onze aanpak rigoureus te valideren, construeren we ook PageBench, de eerste benchmark voor deze nieuwe taak. Experimenten tonen aan dat AutoPage niet alleen hoogwaardige, visueel aantrekkelijke pagina's genereert, maar dit ook doet met opmerkelijke efficiëntie: in minder dan 15 minuten voor minder dan $0,1. Code en dataset zullen worden vrijgegeven op https://mqleet.github.io/AutoPage_ProjectPage/{Webpage}$.
Speculatief Decoderen (SD) versnelt de inferentie van grote taalmodel(len) door een klein draft-model te gebruiken om voorspellingen te genereren, die vervolgens worden geverifieerd door een groter doelmodel. De effectiviteit van SD hangt af van de afstemming tussen deze modellen, wat doorgaans wordt verbeterd door Knowledge Distillation (KD). Conventionele KD-methoden hebben echter als doel de KL-divergentie tussen de draft- en doelmodellen voor alle tokens te minimaliseren, een doelstelling die niet in lijn is met het werkelijke doel van SD, namelijk het maximaliseren van het tokenacceptatiepercentage. Daardoor hebben draft-modellen vaak moeite om de kennis van het doelmodel volledig te assimileren vanwege capaciteitsbeperkingen, wat leidt tot suboptimale prestaties. Om deze uitdaging aan te pakken, stellen we AdaSPEC voor, een nieuwe methode die selectieve tokenfiltering integreert in het KD-proces. AdaSPEC gebruikt een referentiemodel om moeilijk aan te passen tokens te identificeren en eruit te filteren, waardoor de distillatie van een draft-model mogelijk wordt dat beter is afgestemd op het doelmodel voor eenvoudigere tokens. Deze aanpak verbetert het algehele tokenacceptatiepercentage zonder de generatiekwaliteit aan te tasten. We evalueren AdaSPEC voor diverse taken, waaronder rekenkundig redeneren, instructie-opvolging, codering en samenvatting, met modelconfiguraties van 31M/1.4B en 350M/2.7B parameters. Onze resultaten tonen aan dat AdaSPEC consistent de state-of-the-art DistillSpec-methode overtreft, met hogere acceptatiepercentages voor alle taken (tot 15%). De code is openbaar beschikbaar op https://github.com/yuezhouhu/adaspec.
De meeste videoredeneermodellen genereren alleen tekstuele redeneersporen zonder aan te geven wanneer en waar het belangrijkste bewijs verschijnt. Recente modellen zoals OpenAI-o3 hebben brede interesse gewekt in bewijsgericht redeneren voor afbeeldingen, maar het uitbreiden van deze mogelijkheid naar video's is uitdagender, omdat dit gezamenlijke temporele tracking en ruimtelijke lokalisatie in dynamische scènes vereist. Wij introduceren Open-o3 Video, een non-agent framework dat expliciete spatio-temporele bewijzen integreert in videoredenering, en verzorgen zorgvuldig trainingsdata en ontwerpen trainingsstrategieën om de genoemde uitdagingen aan te pakken. Het model markeert cruciale tijdstippen, objecten en begrenzingskaders naast zijn antwoorden, waardoor redenering kan worden verankerd in concrete visuele observaties. Om deze functionaliteit mogelijk te maken, cureren en bouwen we eerst twee hoogwaardige datasets: STGR-CoT-30k voor SFT en STGR-RL-36k voor RL, met zorgvuldig geconstrueerde temporele en ruimtelijke annotaties, aangezien de meeste bestaande datasets ofwel temporele spans voor video's ofwel ruimtelijke kaders op afbeeldingen bieden, maar uniforme spatio-temporele supervisie en redeneersporen ontbreekt. Vervolgens hanteren we een koude-start reinforcement learning-strategie met meerdere speciaal ontworpen beloningen die gezamenlijk antwoornauwkeurigheid, temporele uitlijning en ruimtelijke precisie stimuleren. Op de V-STAR-benchmark behaalt Open-o3 Video state-of-the-art prestaties, waarbij de mAM met 14.4% en de mLGM met 24.2% stijgt ten opzichte van de Qwen2.5-VL-baseline. Consistente verbeteringen worden ook waargenomen op een breed scala aan videobegripbenchmarks, waaronder VideoMME, WorldSense, VideoMMMU en TVGBench. Naast nauwkeurigheid bieden de redeneersporen gegenereerd door Open-o3 Video ook waardevolle signalen voor test-time scaling, waardoor vertrouwensbewuste verificatie mogelijk wordt en de antwoordbetrouwbaarheid verbetert.
State-of-the-art tekst-naar-video-modellen blinken uit in het genereren van geïsoleerde clips, maar schieten tekort in het creëren van coherente, multi-shot verhalen, de essentie van storytelling. Wij overbruggen deze "narratieve kloof" met HoloCine, een model dat complete scènes holistisch genereert om globale consistentie van de eerste tot de laatste shot te garanderen. Onze architectuur bereikt precieze regiecontrole via een Window Cross-Attention-mechanisme dat tekstprompts lokaliseert naar specifieke shots, terwijl een Sparse Inter-Shot Self-Attention-patroon (dicht binnen shots maar spaarzaam ertussen) de vereiste efficiëntie waarborgt voor generatie op minuutschaal. Naast het vestigen van een nieuwe state-of-the-art in narratieve coherentie, ontwikkelt HoloCine opmerkelijke emergentie-vaardigheden: een persistent geheugen voor personages en scènes, en een intuïtief begrip van filmtechnieken. Ons werk markeert een cruciale verschuiving van clipsynthese naar geautomatiseerde filmproductie, waardoor end-to-end cinematische creatie een tastbare toekomst wordt. Onze code is beschikbaar op: https://holo-cine.github.io/.
Diffusion Transformer-modellen kunnen afbeeldingen genereren met opmerkelijke nauwkeurigheid en detail, maar het trainen ervan op ultra-hoge resoluties blijft extreem kostbaar vanwege de kwadratische schaalbaarheid van het self-attention-mechanisme met het aantal beeldtokens. In dit artikel introduceren we Dynamic Position Extrapolation (DyPE), een nieuwe, trainingsvrije methode die vooraf getrainde diffusion transformers in staat stelt om afbeeldingen te synthetiseren bij resoluties ver buiten hun trainingsbereik, zonder extra steekproefkosten. DyPE maakt gebruik van de spectrale progressie die inherent is aan het diffusieproces, waarbij laagfrequente structuren vroeg convergeren, terwijl hogere frequenties meer stappen vergen om zich te ontwikkelen. Concreet past DyPE dynamisch de positionele codering van het model aan bij elke diffusiestap, waarbij het frequentiespectrum wordt afgestemd op de huidige fase van het generatieve proces. Deze aanpak stelt ons in staat om afbeeldingen te genereren bij resoluties die de trainingsresolutie aanzienlijk overstijgen, bijvoorbeeld 16 miljoen pixels met FLUX. Op meerdere benchmarks verbetert DyPE consequent de prestaties en behaalt het state-of-the-art nauwkeurigheid bij ultra-hoge-resolutie beeldgeneratie, waarbij de winst nog duidelijker wordt bij hogere resoluties. De projectpagina is beschikbaar op https://noamissachar.github.io/DyPE/.
Discrete diffusiemodellen bieden een veelbelovend alternatief voor autoregressieve generatie door middel van parallel decoderen, maar zij lijden onder een sampling-muur: zodra categorische sampling plaatsvindt, stort rijke distributionele informatie ineen tot one-hot vectoren en kan deze niet worden doorgegeven tussen stappen, waardoor volgende stappen met beperkte informatie moeten werken. Om dit probleem te verlichten, introduceren wij Loopholing, een nieuw en eenvoudig mechanisme dat deze informatie bewaart via een deterministisch latent pad, wat leidt tot Loopholing Discrete Diffusiemodellen (LDDM's). Getraind met een efficiënte zelf-conditioneringsstrategie behalen LDDM's aanzienlijke winst: zij verminderen de generatieve perplexiteit met tot 61% ten opzichte van eerdere baseline-modellen, dichten (en overtreffen in sommige gevallen) de kloof met autoregressieve modellen, en produceren coherentere tekst. Toegepast op redeneertaken verbeteren LDDM's ook de prestaties op rekenkundige benchmarks zoals Countdown en Game of 24. Deze resultaten geven eveneens aan dat loopholing inactieve stappen en oscillaties vermindert, en biedt zo een schaalbare weg naar hoogwaardige niet-autoregressieve tekstgeneratie.
De ontwikkeling van embodied AI-agenten vereist schaalbare trainingsomgevingen die een balans vinden tussen inhoudsdiversiteit en natuurkundige nauwkeurigheid. Wereldsimulators bieden dergelijke omgevingen, maar kampen met specifieke beperkingen: op video gebaseerde methoden genereren diverse inhoud maar missen real-time natuurkundige feedback voor interactief leren, terwijl op natuurkunde gebaseerde engines accurate dynamica bieden maar schaalbaarheidsbeperkingen ondervinden door kostbare handmatige creatie van assets. Wij presenteren Seed3D 1.0, een foundation-model dat vanuit enkele afbeeldingen simulatie-klare 3D-assets genereert, waardoor de schaalbaarheidsuitdaging wordt aangepakt terwijl de natuurkundige nauwkeurigheid behouden blijft. In tegenstelling tot bestaande 3D-generatiemodellen produceert ons systeem assets met accurate geometrie, goed uitgelijnde texturen en realistische, op natuurkunde gebaseerde materialen. Deze assets kunnen met minimale configuratie direct worden geïntegreerd in physics engines, waardoor inzet mogelijk wordt in robotmanipulatie en simulatietraining. Naast individuele objecten schaalt het systeem naar complete scènegeneratie door objecten samen te voegen tot samenhangende omgevingen. Door schaalbare creatie van simulatie-klare inhoud mogelijk te maken, legt Seed3D 1.0 een basis voor de verdere ontwikkeling van op natuurkunde gebaseerde wereldsimulators. Seed3D 1.0 is nu beschikbaar op https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seed3d-1-0-250928&tab=Gen3D.
Kennisbewerking biedt een efficiënte manier om modelkennis bij te werken zonder volledige hertraining, maar eerder werk concentreerde zich bijna uitsluitend op tekstuele of visuele modaliteiten. Wij introduceren SAKE, de eerste benchmark die specifiek ontworpen is voor het bewerken van kennis over auditieve attributen in Grote Audio-Taalmodellen (GAT-modellen). In tegenstelling tot feitelijke updates, richt SAKE zich op verschillende abstracte auditieve attributen, waarbij kennissoorten worden vastgelegd die verder gaan dan conventionele tekstuele en visuele domeinen. Wij testen zeven bewerkingsmethoden op twee GAT-modellen langs vier dimensies: betrouwbaarheid, generaliseerbaarheid, audio/tekst-localiteit en overdraagbaarheid. Resultaten belichten uitdagingen zoals het behouden van intra-attribuutkennis die niet gerelateerd is aan de bewerking, het generaliseren van bewerkingen naar multimodale redenering, en het behouden van bewerkingen bij sequentiële updates. SAKE biedt een principieel kader om te bestuderen hoe kennisbewerking zich uitstrekt tot de auditieve modaliteiten, wat nieuwe richtingen opent voor het onderhouden en aanpassen van GAT-modellen in meer diverse realistische scenario's.
Wij presenteren Reinforcement Learning with Explicit Human Values (RLEV), een methode die de optimalisatie van Large Language Models (LLM) direct afstemt op kwantificeerbare menselijke waardesignalen. Hoewel Reinforcement Learning with Verifiable Rewards (RLVR) modellen effectief traint in objectieve domeinen met behulp van binaire correctheidsbeloningen, houdt het geen rekening met het feit dat niet alle taken even belangrijk zijn. RLEV breidt dit raamwerk uit door menselijk gedefinieerde waardesignalen direct in de beloningsfunctie te integreren. Gebruikmakend van examenachtige data met expliciete ground-truth waardelabels, presteert RLEV consistent beter dan uitsluitend op correctheid gebaseerde basislijnen over meerdere RL-algoritmen en modelschalen. Cruciaal is dat RLEV-beleid niet alleen de waardegedragen nauwkeurigheid verbetert, maar ook een waardegevoelig beëindigingsbeleid aanleert: beknopt voor prompts met lage waarde, grondig voor prompts met hoge waarde. Wij tonen aan dat dit gedrag voortkomt uit waardegedragen gradiëntversterking op end-of-sequence tokens. Ablatiestudies bevestigen dat de winnt causaal verband houdt met waarde-afstemming. RLEV blijft robuust onder ruisende waardesignalen, zoals op moeilijkheidsgraad gebaseerde labels, wat aantoont dat optimaliseren voor een expliciete nutsfunctie een praktische weg biedt om LLM's af te stemmen op menselijke prioriteiten.
Grote audio-taalmodellen (LALMs) breiden tekstgebaseerde grote taalmodellen uit met auditief begrip, wat nieuwe mogelijkheden biedt voor multimodale toepassingen. Hoewel hun waarneming, redeneervermogen en taakprestaties uitgebreid zijn bestudeerd, blijft hun veiligheidsafstemming onder paralinguïstische variatie onderbelicht. Dit werk onderzoekt systematisch de rol van sprekersemotie. We construeren een dataset van kwaadaardige spraakinstructies uitgedrukt in verschillende emoties en intensiteiten, en evalueren verschillende state-of-the-art LALMs. Onze resultaten onthullen aanzienlijke veiligheidsinconsistenties: verschillende emoties lokken uiteenlopende niveaus van onveilige reacties uit, en het effect van intensiteit is niet-monotoon, waarbij medium expressies vaak het grootste risico vormen. Deze bevindingen belichten een over het hoofd geziene kwetsbaarheid in LALMs en pleiten voor afstemmingsstrategieën die expliciet zijn ontworpen om robuustheid onder emotionele variatie te waarborgen, een vereiste voor betrouwbare inzet in realistische situaties.
Versterkend leren met verifieerbare beloningen (RLVR) is de mainstreamtechniek geworden voor het trainen van LLM-agents. RLVR is echter sterk afhankelijk van goed geformuleerde taakquery's en bijbehorende grond-waarheid-antwoorden om nauwkeurige beloningen te bieden, wat enorme menselijke inspanningen vereist en de RL-schaalprocessen belemmert, vooral in agent-scenario's. Hoewel enkele recente werken taaksynthesemethoden onderzoeken, is de moeilijkheidsgraad van gegenereerde agent-taken nauwelijks te controleren om effectieve RL-trainingsvoordelen te bieden. Om agent-RLVR met hogere schaalbaarheid te bereiken, onderzoeken we self-play training voor deep search agents, waarbij het lerende LLM multi-turn zoekmachine-aanroepen gebruikt en tegelijkertijd optreedt als zowel een taakvoorsteller als een probleemoplosser. De taakvoorsteller streeft ernaar deep search query's te genereren met goed gedefinieerde grond-waarheid-antwoorden en toenemende taakmoeilijkheid. De probleemoplosser probeert de gegenereerde zoekquery's af te handelen en correcte antwoordvoorspellingen te outputten. Om ervoor te zorgen dat elke gegenereerde zoekquery een accurate grond-waarheid heeft, verzamelen we alle zoekresultaten uit het traject van de voorsteller als externe kennis, en voeren we retrieval-augmented generation (RAG) uit om te testen of de voorgestelde query correct kan worden beantwoord wanneer alle benodigde zoekdocumenten worden verstrekt. In dit search self-play (SSP) spel evolueren de voorsteller en de oplosser hun agent-capaciteiten gezamenlijk door zowel competitie als samenwerking. Uit uitgebreide experimentele resultaten blijkt dat SSP de prestaties van zoekagents significant en uniform kan verbeteren op diverse benchmarks, zonder enige supervisie, in zowel from-scratch als doorlopende RL-trainingsopzetten. De code staat op https://github.com/Alibaba-Quark/SSP.
Wij presenteren de Massive Legal Embedding Benchmark (MLEB), de grootste, meest diverse en meest uitgebreide open-source benchmark voor juridische informatie-retrieval tot op heden. MLEB bestaat uit tien door experts geannoteerde datasets die meerdere rechtsgebieden omvatten (de VS, het VK, de EU, Australië, Ierland en Singapore), documenttypen (rechtspraak, wetgeving, regelgevende richtsnoeren, contracten en literatuur) en taaktypen (zoeken, zero-shot classificatie en vraag-antwoordtaken). Zeven van de datasets in MLEB werden nieuw geconstrueerd om de domein- en jurisdictiegerelateerde hiaten in het open-source landschap voor juridische informatie-retrieval op te vullen. Wij documenteren onze methodologie voor het opbouwen van MLEB en het creëren van de nieuwe samenstellende datasets, en stellen onze code, resultaten en data openbaar beschikbaar om reproduceerbare evaluaties te ondersteunen.
Natuurlijke taal heeft menselijke samenwerking lang mogelijk gemaakt, maar haar verliesgevoelige, dubbelzinnige en indirecte aard beperkt het potentieel van collectieve intelligentie. Hoewel machines niet aan deze beperkingen onderhevig zijn, vertrouwen de meeste op LLM gebaseerde multi-agent systemen nog steeds uitsluitend op natuurlijke taal, waarbij ze tokens of hun embedding uitwisselen. Om voorbij taal te gaan, introduceren we een nieuw paradigma: gedachtencommunicatie, waarmee agenten direct van geest tot geest kunnen interacteren, vergelijkbaar met telepathie. Om deze latente gedachten op een principiële manier bloot te leggen, formaliseren we het proces als een algemeen latent variabelenmodel, waarbij agenttoestanden gegenereerd worden door een onbekende functie van onderliggende gedachten. We bewijzen dat in een non-parametrische setting zonder aanvullende informatie, zowel gedeelde als privé latente gedachten tussen elk paar agenten geïdentificeerd kunnen worden. Bovendien kan de globale structuur van gedachtendeling, inclusief welke agenten welke gedachten delen en hoe deze relaties gestructureerd zijn, eveneens worden hersteld met theoretische garanties. Geleid door de gevestigde theorie ontwikkelen we een raamwerk dat latente gedachten van alle agenten extraheert vóór communicatie en elke agent de relevante gedachten toekent, samen met hun deelpatronen. Dit paradigma strekt zich van nature uit voorbij LLM's naar alle modaliteiten, aangezien de meeste observationele data voortkomen uit verborgen generatieve processen. Experimenten op zowel synthetische als real-world benchmarks valideren de theorie en demonstreren de collaboratieve voordelen van gedachtencommunicatie. We hopen dat dit werk het potentieel belicht van het benutten van de verborgen wereld, aangezien vele uitdagingen onoplosbaar blijven via oppervlakkige observatie alleen, ongeacht de rekenkracht of dataschaal.
Videoredeneneren, dat multi-staps deductie tussen frames vereist, blijft een grote uitdaging voor multimodale grote taalmodellen (MLLM's). Hoewel op reinforcement learning (RL) gebaseerde methoden de redeneervaardigheden verbeteren, vertrouwen ze vaak op tekstuele ketens die tot ongegronde of verzonnen conclusies leiden. Frame-retrievalbenaderingen introduceren daarentegen visuele verankering, maar worstelen nog steeds met onnauwkeurige lokalisatie van bewijs. Om deze uitdagingen aan te pakken, presenteren we Conan, een raamwerk voor gegrond multi-staps videoredeneneren. Conan identificeert contextuele en bewijsframes, redeneert over aanwijzingen tussen frames en beslist adaptief wanneer moet worden geconcludeerd of verder moet worden verkend. Om dit te bereiken, (1) construeren we Conan-91K, een grootschalige dataset van automatisch gegenereerde redeneersporen die frame-identificatie, bewijsredenering en actiebeslissing omvat, en (2) ontwerpen we een multi-staps progressieve koudstartstrategie gecombineerd met een Identificatie-Redenering-Actie (IRA) RLVR-trainingsraamwerk om multi-staps visueel redeneren gezamenlijk te verbeteren. Uitgebreide experimenten op zes multi-staps redeneerbenchmarks tonen aan dat Conan de baseline Qwen2.5-VL-7B-Instruct gemiddeld met meer dan 10% in nauwkeurigheid overtreft, wat resulteert in state-of-the-art prestaties. Bovendien generaliseert Conan effectief naar lang-video-begriptaken, wat de sterke schaalbaarheid en robuustheid ervan valideert.
Ondanks hun indrukwekkende visuele kwaliteit missen bestaande gepersonaliseerde generatieve modellen interactieve controle over de ruimtelijke compositie en schalen ze slecht naar meerdere onderwerpen. Om deze beperkingen aan te pakken, presenteren we LayerComposer, een interactief raamwerk voor gepersonaliseerde, multi-onderwerp tekst-naar-beeld generatie. Onze aanpak introduceert twee belangrijke bijdragen: (1) een gelaagd canvas, een nieuwe representatie waarin elk onderwerp op een aparte laag wordt geplaatst, wat een samenstelling zonder occlusie mogelijk maakt; en (2) een vergrendelingsmechanisme dat geselecteerde lagen met hoge nauwkeurigheid behoudt, terwijl de overige lagen flexibel kunnen worden aangepast aan de omringende context. Vergelijkbaar met professionele beeldbewerkingssoftware stelt het voorgestelde gelaagde canvas gebruikers in staat om invoeronderwerpen te plaatsen, te vergroten/verkleinen of te vergrendelen via intuïtieve laagmanipulatie. Ons veelzijdige vergrendelingsmechanisme vereist geen architectuurwijzigingen, maar steunt in plaats daarvan op inherente positionele inbeddingen gecombineerd met een nieuwe complementaire data-samplingstrategie. Uitgebreide experimenten tonen aan dat LayerComposer superieure ruimtelijke controle en identiteitsbehoud bereikt in vergelijking met de state-of-the-art methoden voor multi-onderwerp gepersonaliseerde beeldgeneratie.
Wij introduceren een nieuw paradigma voor beeldsegmentatie op basis van autoregressieve generatie (ARGenSeg), dat multimodale interpretatie en pixel-level perceptie verenigt binnen een uniform raamwerk. Bestaande methoden die beeldsegmentatie integreren in multimodale grote taalmodellen (MLLM's) maken typisch gebruik van óf grenspuntrepresentaties óf gespecialiseerde segmentatiekoppen. Deze methoden steunen op discrete representaties of semantische prompts die aan taakspecifieke decoders worden gevoed, wat het vermogen van het MLLM om fijnmazige visuele details te vatten beperkt. Om deze uitdagingen aan te pakken, introduceren we een op beeldgeneratie gebaseerd segmentatieraamwerk voor MLLM's, dat op natuurlijke wijze dichte maskers voor doelobjecten produceert. We benutten het MLLM om visuele tokens uit te voeren en deze met een universele VQ-VAE te detokeniseren naar beelden, waardoor de segmentatie volledig afhangt van het pixel-level begrip van het MLLM. Om de inferentielatentie te reduceren, gebruiken we een next-scale-voorspellingsstrategie om de vereiste visuele tokens parallel te genereren. Uitgebreide experimenten tonen aan dat onze methode de staat-van-de-kunst benaderingen op meerdere segmentatiedatasets overtreft met een opmerkelijke versnelling van de inferentiesnelheid, terwijl sterke interpretatiecapaciteiten behouden blijven.
Betrouwbare verwerking van codeverschillen (diffs) is cruciaal voor agents die repositories op grote schaal bewerken en refactoren. Wij introduceren Diff-XYZ, een compacte benchmark voor het begrijpen van codeverschillen met drie begeleide taken: *apply* (oude code + diff → nieuwe code), *anti-apply* (nieuwe code - diff → oude code) en *diff-generatie* (nieuwe code - oude code → diff). Instanties in de benchmark zijn triples ⟨oude code, nieuwe code, diff⟩ afkomstig uit echte commits in CommitPackFT, voorzien van automatische metrieken en een duidelijk evaluatieprotocol. Wij gebruiken de benchmark voor een gerichte empirische studie naar het unified diff-formaat en voeren een cross-format vergelijking uit van verschillende diff-representaties. Onze bevindingen tonen aan dat afhankelijk van de use case en modelgrootte verschillende formaten gebruikt moeten worden. Zo is het representeren van diffs in search-replace-formaat geschikt voor grotere modellen in het diff-generatiescenario, maar minder geschikt voor diff-analyse en kleinere modellen. De Diff-XYZ benchmark is een herbruikbare basis voor het beoordelen en verbeteren van diff-verwerking in LLM's, die toekomstige ontwikkeling van diff-formaten en modellen voor codebewerking kan ondersteunen. De dataset is gepubliceerd op de HuggingFace Hub: https://huggingface.co/datasets/JetBrains-Research/diff-xyz.
Grote Taalmodellen (LLM's) zijn opgekomen als veelbelovende assistenten voor wetenschappelijk schrijven. Er zijn echter zorgen gerezen over de kwaliteit en betrouwbaarheid van de gegenereerde tekst, waaronder de nauwkeurigheid en geloofwaardigheid van citaten. Hoewel recent werk voornamelijk steunt op methoden zoals 'LLM-als-Rechter', wordt ook de betrouwbaarheid van enkel een LLM-als-Rechter in twijfel getrokken. In dit werk herformuleren we de evaluatie van citaten als een probleem van citatentoewijzingsalignatie: het beoordelen of door een LLM gegenereerde citaten overeenkomen met de citaten die een menselijke auteur zou opnemen voor dezelfde tekst. Wij stellen CiteGuard voor, een retrieval-bewust agentraamwerk dat is ontworpen om een geloofwaardigere basis te bieden voor citatenvalidatie. CiteGuard verbetert de vorige baseline met 12,3% en behaalt een nauwkeurigheid van tot 65,4% op de CiteME-benchmark, wat vergelijkbaar is met menselijke prestaties (69,7%). Het maakt ook de identificatie van alternatieve maar geldige citaten mogelijk.
MeanFlow is recent naar voren gekomen als een krachtig raamwerk voor few-step generatieve modellering die vanaf nul wordt getraind, maar het succes ervan is nog niet volledig begrepen. In dit werk tonen we aan dat de MeanFlow-doelfunctie zich van nature opdeelt in twee delen: trajectstroommatching en trajectconsistentie. Via gradientanalyse stellen we vast dat deze termen sterk negatief gecorreleerd zijn, wat leidt tot optimalisatieconflict en trage convergentie. Gemotiveerd door deze inzichten introduceren we alpha-Flow, een brede familie van doelfuncties die trajectstroommatching, Shortcut Model en MeanFlow verenigt onder één formulering. Door een curriculumstrategie toe te passen die soepel overgaat van trajectstroommatching naar MeanFlow, ontwart alpha-Flow de conflicterende doelen en bereikt het betere convergentie. Wanneer het vanaf nul wordt getraind op klasse-conditionele ImageNet-1K 256x256 met standaard DiT-backbones, presteert alpha-Flow consistent beter dan MeanFlow across schalen en instellingen. Ons grootste alpha-Flow-XL/2+ model behaalt nieuwe state-of-the-art resultaten met standaard DiT-backbones, met FID-scores van 2,58 (1-NFE) en 2,15 (2-NFE).
Het schalen van het aantal parameters en de omvang van de trainingsdata is een effectieve strategie gebleken om de prestaties van grote taalmmodellen (LLM's) te verbeteren. Naarmate deze modellen echter krachtiger en breder ingezet worden, zijn de kosten voor inferentie een urgent probleem geworden. Ondanks het belang ervan, blijft de afweging tussen modelnauwkeurigheid en inferentie-efficiëntie onderbelicht. In dit werk onderzoeken we hoe belangrijke architectuurfactoren – de grootte van de verborgen lagen, de verdeling van parameters tussen MLP en attention (de mlp-to-attention-ratio) en grouped-query attention (GQA) – zowel de inferentiekosten als de nauwkeurigheid beïnvloeden. We introduceren een voorwaardelijke schaalwet die het Chinchilla-framework uitbreidt met architectuurinformatie, samen met een zoekraamwerk om architecturen te identificeren die gelijktijdig inference-efficiënt en nauwkeurig zijn. Om onze aanpak te valideren, trainen we meer dan 200 modellen variërend van 80M tot 3B parameters en 8B tot 100B trainingstokens, en fitten we de voorgestelde voorwaardelijke schaalwet. Onze resultaten tonen aan dat de voorwaardelijke schaalwet betrouwbaar optimale architectuurkeuzes voorspelt en dat de resulterende modellen bestaande open-source-baselines overtreffen. Onder hetzelfde trainingsbudget behalen geoptimaliseerde architecturen tot 2,1% hogere nauwkeurigheid en 42% grotere inferentie-doorvoer in vergelijking met LLaMA-3.2.
Dit is geen gebruikelijke overzichtstudie van wereldmodellen; het is een gids voor hen die werelden willen bouwen. Wij beogen niet om elk artikel dat ooit een "wereldmodel" heeft genoemd te catalogiseren. In plaats daarvan volgen wij één duidelijke route: van vroege gemaskeerde modellen die representatieleren over modaliteiten heen verenigden, naar geünificeerde architecturen die een enkel paradigma delen, vervolgens naar interactieve generatieve modellen die de actie-waarnemingslus sluiten, en tenslotte naar met geheugen verrijkte systemen die consistente werelden in de tijd in stand houden. Wij omzeilen losjes verwante takken om ons te concentreren op de kern: de generatieve hartslag, de interactieve lus en het geheugensysteem. Wij tonen aan dat dit het meest veelbelovende pad is naar echte wereldmodellen.
De neiging om "shortcuts" te vinden en te benutten om taken te voltooien, vormt aanzienlijke risico's voor een betrouwbare beoordeling en inzet van grote taalmodellen (LLM's). Een LLM-agent met toegang tot unittests kan er bijvoorbeeld voor kiezen om falende tests te verwijderen in plaats van de onderliggende bug te repareren. Dit gedrag ondermijnt zowel de geldigheid van benchmarkresultaten als de betrouwbaarheid van praktische implementaties van LLM-codeerassistenten. Om dergelijk gedrag te kwantificeren, bestuderen en mitigeren, introduceren wij ImpossibleBench, een benchmarkraamwerk dat systematisch de neiging van LLM-agenten om testcases te exploiteren meet. ImpossibleBench creëert "onmogelijke" varianten van taken uit bestaande benchmarks zoals LiveCodeBench en SWE-bench door directe tegenstrijdigheden te introduceren tussen de specificatie in natuurlijke taal en de unittests. Wij meten het "bedrogpercentage" van een agent als diens slagingspercentage op deze onmogelijke taken, waarbij elke geslaagde taak noodzakelijkerwijs een shortcut impliceert die de specificatie schendt. Als een praktisch raamwerk is ImpossibleBench niet alleen een evaluatie, maar ook een veelzijdig hulpmiddel. Wij tonen de bruikbaarheid ervan aan voor: (1) het bestuderen van modelgedrag, waarbij fijnmazigere details van bedrog worden blootgelegd, van eenvoudige testmodificatie tot complexe operator overloading; (2) context engineering, waarbij wordt getoond hoe de prompt, testtoegang en feedbackloop het bedrogpercentage beïnvloeden; en (3) het ontwikkelen van monitoringtools, door een testomgeving te bieden met geverifieerde misleidende oplossingen. Wij hopen dat ImpossibleBench zal dienen als een nuttig raamwerk voor het bouwen van robuustere en betrouwbaardere LLM-systemen. Onze implementatie is te vinden op https://github.com/safety-research/impossiblebench.
Op transformers gebaseerde grote taalmodellen (LLM's) hebben opmerkelijke successen geboekt, maar hun standaard aandachtmechanisme veroorzaakt kwadratische reken- en geheugenkosten ten opzichte van de sequentielengte, wat een grote bottleneck vormt voor training met lange context. Eerder werk pakte deze uitdaging aan langs twee richtingen: (1) kernel-level optimalisaties, die dichte en sparse aandachtoperators versnellen; en (2) module-level strategieën, vaak aangeduid als gedistribueerde aandacht of context-parallelle training, die aandacht schalen over meerdere apparaten. Systematische evaluatie blijft echter beperkt: operator-level vergelijkingen zijn vaak incompleet, terwijl context-parallelle strategieën typisch frameworkspecifiek zijn, met onduidelijke prestatie-analyse across contexten. Om deze lacunes aan te pakken, stellen we een uniforme benchmark voor die representatieve aandachtkernels en context-parallelle mechanismen integreert met een modulaire en uitbreidbare interface voor evaluatie. De benchmark evalueert methoden langs twee kritieke dimensies: (1) aandachtmaskerpatronen, die de efficiëntie, schaalbaarheid en bruikbaarheid sterk beïnvloeden, en (2) sequentielengte en gedistribueerde schaal, die de prestaties onder extreme lange-context training bepalen. Door middel van uitgebreide experimenten op een cluster van maximaal 96 GPU's stelt onze benchmark reproduceerbare vergelijkingen in staat, benadrukt methode-specifieke afwegingen, en biedt praktische richtlijnen voor het ontwerpen en inzetten van aandachtmechanismen bij lange-context LLM-training.
Teamwork voor complexe taken vereist diverse communicatiestrategieën, maar huidige multi-agent LLM-systemen missen systematische kaders voor taakgerichte communicatie. Wij introduceren Communication to Completion (C2C), een schaalbaar framework dat deze leemte opvult via twee innovaties: (1) de Alignment Factor (AF), een nieuwe metriek die taakafstemming tussen agents kwantificeert en directe impact heeft op werkefficiëntie, en (2) een Sequential Action Framework dat stapsgewijze uitvoering integreert met intelligente communicatiebeslissingen. C2C stelt agents in staat kostbewuste communicatiekeuzes te maken, waarbij taakbegrip dynamisch verbetert via gerichte interacties. We evalueerden C2C op realistische codeerworkflows across drie complexiteitsniveaus en teamgroottes van 5 tot 17 agents, vergeleken met baseline zonder communicatie en met vaste stappen. De resultaten tonen aan dat C2C de taakvoltooiingstijd met ongeveer 40% reduceert tegen aanvaardbare communicatiekosten. Het framework voltooit alle taken succesvol in standaardconfiguraties en behoudt effectiviteit bij opschaling. C2C biedt zowel een theoretische basis voor het meten van communicatie-effectiviteit in multi-agent systemen als een praktisch framework voor complexe collaboratieve taken.
Wij introduceren MSC-Bench, een grootschalige benchmark voor het evalueren van multi-hop, end-to-end tool-orchestratie door LLM-agents in een hiërarchisch Model-Context Protocol (MCP) ecosysteem. Bestaande benchmarks evalueren tools vaak in isolatie, waarbij uitdagingen zoals functionele overlap en cross-server orchestratie worden genegeerd, wat leidt tot overdreven optimistische beoordelingen. MSC-Bench adresseert deze tekortkomingen door de grondwaarheid te construeren met 'gelijke functiesets', waardoor objectieve metrieken zoals de F1-score mogelijk worden en de afhankelijkheid van LLM-als-rechter evaluatie wordt verminderd. Georganiseerd als een curriculum met vijf niveaus, test het systematisch de capaciteiten van agents, van single-tool orchestratie tot complexe cross-server planning, en robuustheid tegen out-of-scope verzoeken. Experimenten tonen aan dat rigide hiërarchieën de prestaties kunnen belemmeren zonder mede-ontworpen strategieën, en dat zelfs state-of-the-art agents systemische zwakheden in robuustheid vertonen. MSC-Bench biedt een diagnostisch kader om deze beperkingen bloot te leggen en de ontwikkeling van krachtigere en efficiëntere tool-gebruikende agents te sturen. De benchmark en bronnen zijn publiekelijk beschikbaar op https://github.com/snooow1029/MSC_Bench.
Grote taalmodellen (LLM's) ondersteunen tegenwoordig contextvensters van honderdduizenden tot miljoenen tokens, wat toepassingen mogelijk maakt zoals samenvatting van lange documenten, grootschalige codesynthese, vraag-antwoord over meerdere documenten en aanhoudende dialogen met meerdere beurten. Deze uitgebreide contexten verergeren echter de kwadratische kosten van zelf-attentie, wat leidt tot ernstige latentie bij autoregressieve decodering. Bestaande methoden voor sparse aandacht verminderen deze kosten, maar zijn afhankelijk van heuristische patronen die moeite hebben met het terugvinden van cruciale sleutel-waarde-paren voor elke query, wat resulteert in nauwkeurigheidsverlies. Wij introduceren Adamas, een lichtgewicht maar uiterst nauwkeurig sparse-attentiemechanisme ontworpen voor inferentie met lange context. Adamas past de Hadamard-transformatie, bucketisatie en 2-bit compressie toe om compacte representaties te produceren, en benut Manhattan-afstandschatting voor efficiënte top-k selecties. Experimenten tonen aan dat Adamas de nauwkeurigheid van volledige aandacht evenaart met slechts een budget van 64 tokens, bijna verliesvrije prestaties bereikt bij 128 tokens, en tot 8x hogere sparseheid ondersteunt dan eerdere state-of-the-art (SOTA) methoden, terwijl het tot 4,4x versnelling in zelf-attentie en 1,5x end-to-end versnelling biedt op sequenties van 32K lengte. Opmerkelijk is dat Adamas vergelijkbare of zelfs lagere perplexiteit bereikt dan volledige aandacht, wat de effectiviteit ervan onder agressieve sparseheid benadrukt.
Sinds de opkomst van verschillende vooraf getrainde grote taalmodellen heeft het extraheren van gestructureerde kennis uit wetenschappelijke tekst een revolutionaire verandering ondergaan in vergelijking met traditionele machine learning- of natuurlijke-taalverwerkingstechnieken. Ondanks deze vooruitgang blijven toegankelijke geautomatiseerde tools die gebruikers in staat stellen datasets te construeren, valideren en visualiseren op basis van extractie uit wetenschappelijke literatuur schaars. Daarom ontwikkelden wij ComProScanner, een autonoom multi-agentplatform dat de extractie, validatie, classificatie en visualisatie van machineleesbare chemische samenstellingen en eigenschappen vergemakkelijkt, geïntegreerd met synthesedata uit wetenschappelijke artikelen voor de creatie van uitgebreide databases. Wij evalueerden ons raamwerk met behulp van 100 wetenschappelijke artikelen tegen 10 verschillende grote taalmodellen, zowel open-source als propriëtaire modellen, om zeer complexe samenstellingen gerelateerd aan keramische piëzo-elektrische materialen en bijbehorende piëzo-elektrische vervormingscoëfficiënten (d33) te extraheren, gemotiveerd door het ontbreken van een grote dataset voor dergelijke materialen. DeepSeek-V3-0324 presteerde beter dan alle modellen met een significante algemene nauwkeurigheid van 0,82. Dit raamwerk biedt een eenvoudig, gebruiksvriendelijk, direct bruikbaar pakket voor het extraheren van zeer complexe experimentele data die verborgen zijn in de literatuur, om datasets voor machine learning of deep learning op te bouwen.
Recente verkennende studies tonen aan dat grote taalmodellen lineaire deelruimtes vertonen die ware van onware uitspraken scheiden, maar het mechanisme achter hun ontstaan is onduidelijk. Wij introduceren een transparant, éénlaags transformer-speelgoedmodel dat dergelijke waarheidsdeelruimtes end-to-end reproduceert en een concrete route blootlegt waarop ze kunnen ontstaan. Wij bestuderen een eenvoudige setting waarin waarheidscodering kan opkomen: een gegevensverdeling waarbij feitelijke uitspraken samengaan met andere feitelijke uitspraken (en vice versa), wat het model aanmoedigt om dit onderscheid te leren om het LM-verlies op toekomstige tokens te verlagen. Wij bevestigen dit patroon met experimenten in vooraf getrainde taalmodellen. Tenslotte observeren we in de speelgoedsetting een tweefasig leerproces: netwerken memoriseren eerst individuele feitelijke associaties in enkele stappen, om vervolgens – over een langere periode – te leren om ware van onware uitspraken lineair te scheiden, wat op zijn beurt het taalmodelleringsverlies verlaagt. Samen bieden deze resultaten zowel een mechanistische demonstratie als een empirische motivatie voor hoe en waarom lineaire waarheidsrepresentaties kunnen ontstaan in taalmodellen.