Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Onder strikt gecontroleerde pre-trainingsomstandigheden observeren we een crossover: wanneer unieke data beperkt is, overtreffen diffusion language models (DLM's) autoregressieve (AR) modellen consequent door gedurende meer epochs te trainen. De crossover verschuift naar later bij meer of hogerkwaliteitsdata, naar eerder bij grotere modellen, en blijft bestaan across dense en sparse architecturen. We schrijven de winst toe aan drie samenhangende factoren: (1) any-order modeling, (2) super-dense compute door iteratieve bidirectionele denoisering, en (3) ingebouwde Monte Carlo-augmentatie; input- of parameterruis verbetert AR onder databeperking maar kan de kloof niet dichten. Op schaal overtreft een 1.7B DLM, getraind met een ~1.5T-token compute budget op 10B unieke Python tokens, een AR-coder die met strikt gelijke instellingen is getraind. Bovendien behaalt een DLM met 1B parameters een nauwkeurigheid van >56% op HellaSwag en >33% op MMLU met slechts 1B tokens, zonder speciale trucs, enkel door standaard pre-trainingsdata te herhalen. We tonen ook aan dat een stijgende validatie-kruisentropie in dit regime niet wijst op verslechterde downstream-prestaties.
Door het ontbreken van effectieve cross-modale modellering vertonen bestaande open-source audio-videogeneratiemethoden vaak gebrekkige lipsynchronisatie en onvoldoende semantische consistentie. Om deze tekortkomingen te verhelpen, stellen we UniAVGen voor, een uniform kader voor gezamenlijke audio- en videogeneratie. UniAVGen is verankerd in een dual-branch gezamenlijke synthese-architectuur, waarin twee parallelle Diffusion Transformers (DiTs) zijn geïntegreerd om een coherente cross-modale latente ruimte op te bouwen. De kern wordt gevormd door een Asymmetrisch Cross-Modaal Interactiemechanisme, dat bidirectionele, temporeel uitgelijnde cross-attentie mogelijk maakt, waardoor precieze spatiotemporele synchronisatie en semantische consistentie worden gegarandeerd. Versterkt wordt deze cross-modale interactie door een Face-Aware Modulatiemodule, die dynamisch prioriteit geeft aan salientiegebieden tijdens het interactieproces. Om de generatieve kwaliteit tijdens inferentie te verbeteren, introduceren we bovendien Modality-Aware Classifier-Free Guidance, een nieuwe strategie die cross-modale correlatiesignalen expliciet versterkt. Opmerkelijk is dat UniAVGen's robuuste gezamenlijke synthese-ontwerp naadloze unificatie van cruciale audio-videotaken binnen één enkel model mogelijk maakt, zoals gezamenlijke audio-videogeneratie en -voortzetting, video-naar-audio-nasynchronisatie en audio-gestuurde videosynthese. Uitgebreide experimenten valideren dat UniAVGen, met aanzienlijk minder trainingsvoorbeelden (1,3M vs. 30,1M), algemene voordelen biedt op het gebied van audio-videosynchronisatie, timbreconsistentie en emotieconsistentie.
Ondanks recente vooruitgang in het gebruik van grote taalmodellen (LLM's) voor het automatisch genereren van 3D-scènes, ontbreekt het gegenereerde scènes vaak aan realistische ruimtelijke indelingen en objectattributen die in de echte wereld voorkomen. Aangezien dit probleem voortkomt uit onvoldoende gedetailleerde, grofkorrelige instructies, wordt het cruciaal om de synthese van 3D-scènes te bevorderen die wordt geleid door meer gedetailleerde, fijnmazige instructies die de echte wereld weerspiegelen. Zonder dergelijke realistische scènes kan het trainen van belichaamde agents in onrealistische omgevingen ertoe leiden dat ze vooronderstellingen leren die sterk afwijken van de fysica en semantiek van de echte wereld, wat hun prestaties bij inzet verslechtert. Het verifiëren van de afstemming tussen de fijnmazige instructie en de gegenereerde scène is daarom essentieel voor effectief leren. Huidige evaluatiemethoden, zoals CLIPScore en vision-language modellen (VLM's), slagen er echter vaak niet in om deze afstemming betrouwbaar te beoordelen. Dit gebrek komt vooral voort uit hun oppervlakkige begrip van 3D-scènes, wat vaak leidt tot slecht gefundeerde scènecomponenten. Om dit aan te pakken, introduceren we LEGO-Eval, een evaluatieraamwerk uitgerust met diverse tools die zijn ontworpen om scènecomponenten expliciet te funderen, waardoor nauwkeurigere afstemmingsevaluaties mogelijk worden. We presenteren ook LEGO-Bench, een benchmark met gedetailleerde instructies die complexe lay-outs en attributen van realistische omgevingen specificeren. Experimenten tonen aan dat LEGO-Eval VLM-as-a-judge overtreft met een 0,41 hogere F1-score bij het beoordelen van scène-instructie-afstemming. Benchmarken met LEGO-Bench onthult aanzienlijke beperkingen in huidige generatiemethoden. Over alle geëvalueerde benaderingen bereikten de slagingspercentages maximaal 10% voor het genereren van scènes die volledig voldoen aan fijnmazige instructies.
Huidige evaluaties van Large Language Model (LLM)-agenten leggen voornamelijk de nadruk op taakvoltooiing, waarbij resource-efficiëntie en aanpasbaarheid vaak over het hoofd worden gezien. Dit negeert een cruciale capaciteit: het vermogen van agenten om kostenefficiënte plannen te bedenken en aan te passen in reactie op veranderende omgevingen. Om deze kloof te overbruggen, introduceren we CostBench, een schaalbare, kostengerichte benchmark die is ontworpen om het economisch redeneervermogen en de herplanningcapaciteiten van agenten te evalueren. Geplaatst in het domein van reisplanning, bestaat CostBench uit taken die oplosbaar zijn via meerdere reeksen van atomische en samengestelde tools met uiteenlopende, aanpasbare kosten. Het ondersteunt ook vier soorten dynamische blokkeringsevenementen, zoals toolstoringen en kostwijzigingen, om real-world onvoorspelbaarheid te simuleren en agenten te dwingen zich in realtime aan te passen. Evaluatie van toonaangevende open-source en propriëtaire modellen met CostBench onthult een aanzienlijke kloof in kostbewust plannen: agenten slagen er vaak niet in kostoptimale oplossingen te identificeren in statische settings, waarbij zelfs GPT-5 minder dan 75% exacte treffers behaalt op de moeilijkste taken, en de prestaties verder met ongeveer 40% dalen onder dynamische omstandigheden. Door deze zwakke punten te diagnosticeren, legt CostBench de basis voor de ontwikkeling van toekomstige agenten die zowel economisch rationeel als robuust zijn.
Tabelgegevens blijven het overheersende formaat voor praktijktoepassingen. Toch blijft de ontwikkeling van effectieve neurale modellen voor tabelgegevens een uitdaging vanwege heterogene functietypes en complexe interacties die op meerdere schalen optreden. Recente vooruitgang in in-context leren (ICL) voor tabellen, zoals TabPFN en TabICL, heeft state-of-the-art prestaties bereikt die vergelijkbaar zijn met gradient-boosted trees (GBTs) zonder taakspecifieke fine-tuning. Huidige architecturen vertonen echter belangrijke beperkingen: (1) verwerking van kenmerken op één schaal die hiërarchische afhankelijkheden over het hoofd ziet, (2) dichte aandacht met kwadratische schaling in tabelbreedte, en (3) strikt sequentiële verwerking van componenten die iteratieve verfijning van representaties en communicatie tussen componenten verhindert. Om deze uitdagingen aan te pakken, introduceren wij Orion-MSP, een tabellarisch ICL-architectuur met drie belangrijke innovaties: (1) multi-schaalverwerking om hiërarchische kenmerkinteracties vast te leggen; (2) blokschaarse aandacht die venster-, globale- en willekeurige patronen combineert voor schaalbare efficiëntie en connectiviteit over lange afstand; en (3) een Perceiver-stijl geheugen dat veilige bidirectionele informatiestroom tussen componenten mogelijk maakt. In diverse benchmarks evenaart of overtreft Orion-MSP de state-of-the-art prestaties, terwijl het effectief schaalt naar hoogdimensionale tabellen, en stelt zo een nieuwe standaard voor efficiënt in-context leren voor tabellen. Het model is openbaar beschikbaar op https://github.com/Lexsi-Labs/Orion-MSP.
Tabellaire foundation-modellen vormen een groeiend paradigma in het leren van gestructureerde gegevens, waarbij de voordelen van grootschalige voorafgaande training worden uitgebreid naar tabellaire domeinen. Hun adoptie blijft echter beperkt door heterogene preprocessing-pipelines, gefragmenteerde API's, inconsistente fine-tuning procedures en het ontbreken van gestandaardiseerde evaluatie voor implementatiegerichte metrieken zoals calibratie en eerlijkheid. Wij presenteren TabTune, een uniforme bibliotheek die de complete workflow voor tabellaire foundation-modellen standaardiseert via een enkele interface. TabTune biedt consistente toegang tot zeven state-of-the-art modellen die meerdere aanpassingsstrategieën ondersteunen, waaronder zero-shot inferentie, meta-learning, supervised fine-tuning (SFT) en parameter-efficiënte fine-tuning (PEFT). Het framework automatiseert modelbewuste preprocessing, beheert architecturale heterogeniteit intern en integreert evaluatiemodules voor prestaties, calibratie en eerlijkheid. Ontworpen voor uitbreidbaarheid en reproduceerbaarheid, stelt TabTune consistente benchmarking van aanpassingsstrategieën voor tabellaire foundation-modellen in staat. De bibliotheek is open source en beschikbaar op https://github.com/Lexsi-Labs/TabTune.
Een diepgaand begrip van kinematische structuren en beweegbare componenten is essentieel om robots in staat te stellen objecten te manipuleren en hun eigen gearticuleerde vormen te modelleren. Dit inzicht wordt vastgelegd via gearticuleerde objectmodellen, die onmisbaar zijn voor taken zoals fysieke simulatie, bewegingsplanning en beleidsleren. Het creëren van dergelijke modellen, vooral voor objecten met een hoge mate van vrijheid (DoF), blijft echter een aanzienlijke uitdaging. Bestaande methodes zijn doorgaans afhankelijk van bewegingsreeksen of sterke aannames uit handmatig samengestelde datasets, wat de schaalbaarheid belemmert. In dit artikel introduceren we Kinematify, een geautomatiseerd raamwerk dat gearticuleerde objecten direct synthetiseert uit willekeurige RGB-beelden of tekstuele beschrijvingen. Onze methode adresseert twee kernuitdagingen: (i) het afleiden van kinematische topologieën voor hoog-DoF-objecten en (ii) het schatten van gewrichtsparameters vanuit statische geometrie. Om dit te bereiken, combineren we MCTS-zoekalgoritmen voor structurele inferentie met geometriegestuurde optimalisatie voor gewichtsredenering, wat fysisch consistente en functioneel valide beschrijvingen oplevert. We evalueren Kinematify op diverse invoer uit zowel synthetische als real-world omgevingen en tonen verbeteringen aan in registratienauwkeurigheid en kinematische topologie ten opzichte van eerder werk.
Grote taalmodellen (LLM's) leveren sterke prestaties op diverse benchmarks – van kennisquizzen en wiskundig redeneren tot web-agenttaken – maar deze tests vinden plaats in statische omgevingen, zonder echte dynamiek en onzekerheid. Hierdoor evalueren ze geïsoleerd redeneer- of probleemoplossend vermogen in plaats van besluitvorming onder onzekerheid. Om dit aan te pakken, introduceren we LiveTradeBench, een live handelsomgeving voor het evalueren van LLM-agenten in realistische en zich ontwikkelende markten. LiveTradeBench volgt drie ontwerpprincipes: (i) Live datastromen van marktprijzen en nieuws, waardoor afhankelijkheid van offline backtesting wordt geëlimineerd en informatielekken worden voorkomen, terwijl real-time onzekerheid wordt vastgelegd; (ii) een portefeuillebeheerabstractie die de controle uitbreidt van acties met één asset naar allocatie van multiple assets, waarbij risicobeheer en cross-asset redeneren worden geïntegreerd; en (iii) multi-marktevaluatie in structureel verschillende omgevingen – Amerikaanse aandelen en Polymarket voorspellingsmarkten – die verschillen in volatiliteit, liquiditeit en informatiestroom. Bij elke stap observeert een agent prijzen, nieuws en zijn portefeuille, en geeft vervolgens percentageallocaties uit die risico en rendement in balans brengen. Met LiveTradeBench voerden we 50-daagse live evaluaties uit van 21 LLM's uit verschillende modelfamilies. Resultaten tonen aan dat (1) hoge LMArena-scores niet wijzen op superieure handelsresultaten; (2) modellen verschillende portefeuillestijlen vertonen die risicobereidheid en redeneerdynamiek reflecteren; en (3) sommige LLM's effectief gebruikmaken van live signalen om beslissingen aan te passen. Deze bevindingen leggen een kloof bloot tussen statische evaluatie en competentie in de echte wereld, wat de motivatie vormt voor benchmarks die sequentiële besluitvorming en consistentie onder live onzekerheid testen.
Naarmate redeneermodellen zich snel ontwikkelen, komt de essentiële rol van multimodaliteit in de menselijke cognitie steeds scherper in beeld, wat de groeiende behoefte aandrijft om visie-gestuurde cognitieve gedragingen te onderzoeken. Toch leggen bestaande multimodale benchmarks ofwel een te grote nadruk op tekstueel redeneren, ofwel schieten ze tekort in het systematisch vastleggen van visie-gestuurde cognitieve gedragingen, waardoor het cognitieve vermogen van MLLMs onvoldoende wordt beoordeeld. Om deze beperking aan te pakken, introduceren wij MME-CC (Multi-Modal Evaluation benchmark of Cognitive Capacity), een visueel verankerde benchmark die 11 representatieve redeneertaken organiseert in drie fundamentele categorieën van visuele informatie: ruimtelijk, geometrisch en kennisgebaseerd redeneren, en die fijnmazige analyses verschaft van het cognitieve vermogen van MLLMs binnen deze dimensies. Gebaseerd op MME-CC voeren we uitgebreide experimenten uit met 16 representatieve MLLMs. Onze studie toont aan dat gesloten-bronmodellen momenteel algemeen de leiding hebben (bijvoorbeeld 42,66 voor Gemini-2.5-Pro versus 30,45 voor GLM-4.5V), terwijl ruimtelijk en geometrisch redeneren breed genomen zwak blijven (minder dan of gelijk aan 30%). We identificeren verder veelvoorkomende foutpatronen, waaronder oriëntatiefouten, kwetsbare cross-view identiteitspersistentie en slechte naleving van counterfactuele instructies, en observeren dat Chain-of-Thought doorgaans een driestappenproces volgt (extraheren -> redeneren -> verifiëren) met een sterke afhankelijkheid van visuele extractie. We hopen dat dit werk een katalysator vormt voor een verschuiving naar het behandelen van het cognitieve vermogen van MLLMs als centraal in zowel evaluatie als modelontwerp.
Wij herzien test-time scaling voor redeneervaardigheden van taalmodelen en stellen een fundamentele vraag: bij een gelijk budget aan tokens en rekenkracht, is het dan beter om meerdere onafhankelijke ketens parallel uit te voeren, of om minder ketens uit te voeren die iteratief verbeteren via sequentiële stappen? Door middel van een uitgebreide evaluatie over 5 state-of-the-art open-source modellen en 3 uitdagende redeneerbenchmarks, constateren wij dat sequentiële scaling, waarbij ketens expliciet voortbouwen op eerdere pogingen, consistent beter presteert dan het dominante parallelle zelfconsistentie-paradigma in 95,6% van de configuraties, met nauwkeurigheidswinst tot 46,7%. Verder introduceren wij inverse-entropy gewogen stemming, een nieuwe trainingsvrije methode om de nauwkeurigheid van sequentiële scaling verder te verbeteren. Door antwoorden te wegen in verhouding tot de inverse entropie van hun redeneerketens, verhogen wij ons slagingspercentage ten opzichte van parallelle meerderheidsstemming en vestigen wij deze methode als de optimale test-time scaling strategie. Onze bevindingen tarten fundamenteel de orthodoxie van parallel redeneren die de test-time scaling domineert sinds de zelfconsistentie-decodering van Wang et al. (Wang et al., 2022), en positioneren sequentiële verfijning als de robuuste standaard voor modern LLM-redeneren. Dit vereist een paradigmaverschuiving in hoe wij optimalisatie tijdens de inferentie benaderen.
Collaboratieve dialoog berust op deelnemers die geleidelijk aan gemeenschappelijke grond vestigen, maar in asymmetrische settings kunnen zij menen dat zij het eens zijn terwijl zij naar verschillende entiteiten verwijzen. Wij introduceren een perspectivistisch annotatieschema voor het HCRC MapTask-corpus (Anderson et al., 1991) dat de geïndividualiseerde, door de spreker en de aangesprokene verankerde interpretaties voor elke referentie-expressie apart vastlegt. Dit stelt ons in staat te traceren hoe begrip ontstaat, uiteenloopt en zich herstelt in de tijd. Met behulp van een schema-gestroomlijnd LLM-annotatieproces verkrijgen we 13.000 geannoteerde referentie-expressies met betrouwbaarheidsschattingen en analyseren we de resulterende begripstoestanden. De resultaten tonen aan dat volledige misverstanden zeldzaam zijn zodra lexicale varianten zijn gestandaardiseerd, maar dat multipliciteitsverschillen systematisch divergentie veroorzaken. Dit onthult hoe schijnbare afstemming referentiële misalignering kan maskeren. Ons raamwerk biedt zowel een bron als een analytische lens voor de studie van verankerde misverstanden en voor het evalueren van het vermogen van (V)LLM's om perspectiefafhankelijke afstemming in collaboratieve dialoog te modelleren.
Query-augmentatie maakt zoekopdrachten betekenisvoller door aanvullende informatie aan de queries toe te voegen om relevante documenten te vinden. Recente studies hebben embedders voorgesteld op basis van Large Language Models (LLM's), die representatie voor embedding en generatie voor query-augmentatie leren in een multi-task aanpak door gebruik te maken van de generatieve capaciteiten van LLM's. Tijdens inferentie hebben deze gezamenlijk getrainde embedders query-augmentatie gevolgd door embedding uitgevoerd, met effectieve resultaten. Het augmenteren van elke query leidt echter tot aanzienlijke embeddinglatentie en kan voor sommige queries nadelig zijn voor de prestaties. Bovendien zijn eerdere methoden niet onderzocht in multimodale omgevingen. Om deze problemen aan te pakken, stellen we M-Solomon voor, een universele multimodale embedder die adaptief kan bepalen wanneer queries geaugmenteerd moeten worden. Onze aanpak deelt eerst de queries van de trainingsdatasets op datasetniveau in twee groepen in. De ene groep bevat queries die augmentatie vereisen en de andere queries die dat niet doen. Vervolgens introduceren we een syntheseproces dat geschikte augmentaties genereert voor queries die deze nodig hebben, met behulp van een krachtige Multimodal LLM (MLLM). Daarna presenteren we adaptieve query-augmentatie. Door deze stap kan M-Solomon query-augmentatie alleen uitvoeren wanneer nodig, door te leren synthetische augmentaties te genereren met het prefix /augment voor queries die deze vereisen, en de eenvoudige string /embed voor andere queries. Experimentele resultaten toonden aan dat M-Solomon niet alleen de baseline zonder augmentatie met een grote marge overtrof, maar ook de baseline die altijd augmentatie gebruikte outperformeerde, met een aanzienlijk snellere embeddinglatentie.
Het begrijpen van de huidige mogelijkheden en risico's van AI Scientist-systemen is essentieel om betrouwbare en duurzame, door AI aangedreven wetenschappelijke vooruitgang te waarborgen, terwijl de integriteit van het academische ecosysteem behouden blijft. Hiertoe ontwikkelen we Jr. AI Scientist, een state-of-the-art autonoom AI-wetenschapssysteem dat de kernwerkstroom van een beginnende student-onderzoeker nabootst: uitgaande van een basispaper van een menselijke mentor analyseert het de beperkingen daarvan, formuleert het nieuwe hypotheses voor verbetering, toetst deze via rigoureus experimenteel onderzoek en schrijft het een paper met de resultaten. In tegenstelling tot eerdere benaderingen die uitgaan van volledige automatisering of werken op kleine codeschaal, volgt Jr. AI Scientist een goed gedefinieerde onderzoekswerkstroom en maakt het gebruik van moderne codeer-agents om complexe, multi-file implementaties te hanteren, wat leidt tot wetenschappelijk waardevolle bijdragen. Voor de evaluatie hebben we automatische beoordelingen uitgevoerd met AI Reviewers, evaluaties door de auteurs zelf, en indieningen bij Agents4Science, een platform gewijd aan AI-gedreven wetenschappelijke bijdragen. De bevindingen tonen aan dat Jr. AI Scientist papers genereert die hogere beoordelingsscores ontvangen dan bestaande volledig geautomatiseerde systemen. Desalniettemin identificeren we belangrijke beperkingen vanuit zowel de auteursevaluatie als de Agents4Science-beoordelingen, wat wijst op de potentiële risico's van het direct toepassen van huidige AI Scientist-systemen en de belangrijkste uitdagingen voor toekomstig onderzoek. Ten slotte rapporteren we uitgebreid over verschillende risico's die tijdens de ontwikkeling zijn geïdentificeerd. We hopen dat deze inzichten het begrip van de huidige voortgang en risico's in de AI Scientist-ontwikkeling zullen verdiepen.