Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Rotary Position Embedding (RoPE) in Transformer-modellen kent inherente beperkingen die de lengte-extrapolatie verzwakken. We herinterpreteren de aandachtmatrix met positionele codering als een ruisachtige kenmerkmatrix en stellen Denoising Positional Encoding (DoPE) voor, een trainingsvrije methode gebaseerd op getrunceerde matrixentropie om uitbijterfrequentiebanden in de kenmerkmatrix te detecteren. Door gebruik te maken van de ruiskarakteristieken van de kenmerkmatrix, herparameteriseren we deze verder met een parameterloze Gaussische verdeling om robuuste extrapolatie te bereiken. Onze methode onthult theoretisch de onderliggende oorzaak van het aandachtssink-fenomeen en de connectie ervan met getrunceerde matrixentropie. Experimenten met naald-in-een-hooiberg- en veelvoudige in-context-leertaken tonen aan dat DoPE de retrievalsnauwkeurigheid en redeneerstabiliteit aanzienlijk verbetert over uitgebreide contexten (tot 64K tokens). De resultaten laten zien dat de ruisonderdrukkingsstrategie voor positionele embeddings aandachtssinks effectief vermindert en gebalanceerde aandachtspatronen herstelt, wat een eenvoudige maar krachtige oplossing biedt voor het verbeteren van lengtegeneralizatie. Onze projectpagina is Project: https://The-physical-picture-of-LLMs.github.io.
Recente vooruitgang in verenigde multimodale modellen (UMM's) heeft indrukwekkende vooruitgang mogelijk gemaakt in visueel begrip en generatie. Bestaande datasets en benchmarks richten zich echter voornamelijk op enkelvoudige interacties, waardoor ze de meerzijdige, contextafhankelijke aard van echte beeldcreatie en -bewerking niet vastleggen. Om deze leemte aan te pakken, presenteren wij WEAVE, de eerste suite voor in-context interleaved begrip en generatie over modaliteiten heen. Onze suite bestaat uit twee complementaire onderdelen. WEAVE-100k is een grootschalige dataset van 100K verweven samples, verspreid over meer dan 370K dialoogbeurten en 500K afbeeldingen, die taken omvat voor begrip, bewerking en generatie die redeneren over historische context vereisen. WEAVEBench is een door mensen geannoteerde benchmark met 100 taken gebaseerd op 480 afbeeldingen, voorzien van een hybride evaluatieraamwerk met een VLM-beoordelaar die zowel op de referentieafbeelding als op de combinatie van de originele afbeelding met bewerkingsinstructies is gebaseerd. Dit beoordeelt de capaciteiten van modellen op het gebied van meerzijdige generatie, visueel geheugen en redeneren met wereldkennis across diverse domeinen. Experimenten tonen aan dat training op WEAVE-100k mogelijkheden biedt voor visueel begrip, beeldbewerking en samenwerking tussen begrip en generatie. Bovendien stelt het UMM's in staat om emergent visueel-geheugencapaciteiten te ontwikkelen, terwijl uitgebreide evaluaties op WEAVEBench de hardnekkige beperkingen en uitdagingen van huidige benaderingen in meerzijdige, contextbewuste beeldgeneratie en -bewerking blootleggen. Wij geloven dat WEAVE een perspectief en een basis biedt voor de studie van in-context verweven begrip en generatie voor de multimodale gemeenschap.
Wij introduceren Virtual Width Networks (VWN), een raamwerk dat de voordelen van bredere representaties biedt zonder de kwadratische kosten van het vergroten van de verborgen grootte. VWN ontkoppelt de representatiebreedte van de backbonebreedte, waardoor de embeddingruimte wordt uitgebreid terwijl de rekenkracht van de backbone nagenoeg constant blijft. In ons grootschalige experiment versnelt een 8-voudige uitbreiding de optimalisatie met meer dan 2 keer voor next-token- en 3 keer voor next-2-tokenvoorspelling. Het voordeel versterkt zich tijdens de training, aangezien zowel het verliesverschil groeit als de convergentieversnellingsratio toeneemt, wat aantoont dat VWN niet alleen token-efficiënt is, maar ook steeds effectiever wordt met schaalgrootte. Bovendien identificeren we een bijna log-lineaire schaalrelatie tussen virtuele breedte en verliesreductie, wat een eerste empirische basis en motivatie biedt voor het verkennen van virtuele-breedte-schaling als een nieuwe dimensie van grote-model-efficiëntie.
De opkomst van Unified Multimodal Models (UMM's) markeert een paradigmaverschuiving in de kunstmatige intelligentie, waarbij de focus verschuift van passieve perceptie naar actieve, cross-modale generatie. Ondanks hun ongekende vermogen om informatie te synthetiseren, blijft er een kritieke kloof bestaan in de evaluatie: bestaande benchmarks beoordelen voornamelijk discriminerend begrip of onbeperkte beeldgeneratie afzonderlijk, en meten niet het geïntegreerde cognitieve proces van generatief redeneren. Om deze kloof te overbruggen, stellen wij voor dat geometrische constructie een ideale testomgeving biedt, omdat het van nature een fusie vereist van taalbegrip en precieze visuele generatie. Wij introduceren GGBench, een benchmark die specifiek is ontworpen om geometrisch generatief redeneren te evalueren. Het biedt een uitgebreid kader om systematisch het vermogen van een model te diagnosticeren om niet alleen te begrijpen en te redeneren, maar ook om actief een oplossing te construeren, waardoor een strengere standaard wordt gezet voor de volgende generatie intelligente systemen. Projectwebsite: https://opendatalab-raiser.github.io/GGBench/.
Gebruikersinterface (UI)-programmering is een kernonderdeel maar ook zeer complex aspect van moderne software-ontwikkeling. Recente vooruitgang in visuele taalmodelen (VTM'en) benadrukt het potentieel van automatische UI-codering, maar huidige methoden kampen met twee belangrijke beperkingen: multimodale codeercapaciteiten zijn nog onderontwikkeld, en enkelvoudige interactieparadigma's maken weinig gebruik van iteratieve visuele feedback. Wij pakken deze uitdagingen aan met een interactief UI-naar-code-paradigma dat realistische workflows beter weerspiegelt en de bovengrens van haalbare prestaties verhoogt. Binnen dit paradigma presenteren wij UI2Code^N, een visueel taalmodel getraind door gefaseerde voorpretraining, finetuning en reinforcement learning om fundamentele verbeteringen in multimodale codering te bereiken. Het model verenigt drie cruciale capaciteiten: UI-naar-code-generatie, UI-bewerking en UI-afwerking. Wij onderzoeken verder testtijd-schaling voor interactieve generatie, waardoor systematisch gebruik van meervoudige feedback mogelijk wordt. Experimenten op UI-naar-code- en UI-afwerkingsbenchmarks tonen aan dat UI2Code^N een nieuwe state-of-the-art vestigt onder open-sourcemodellen en prestaties bereikt die vergelijkbaar zijn met toonaangevende closed-sourcemodellen zoals Claude-4-Sonnet en GPT-5. Onze code en modellen zijn beschikbaar op https://github.com/zai-org/UI2Code_N.
Het landschap van videogeneratie is aan het verschuiven: van een focus op het genereren van visueel aantrekkelijke clips naar het bouwen van virtuele omgevingen die interactie ondersteunen en fysieke plausibiliteit behouden. Deze ontwikkelingen wijzen op de opkomst van videofoundationmodellen die niet alleen functioneren als visuele generators, maar ook als impliciete wereldmodellen: modellen die de fysieke dynamiek, interacties tussen agenten en omgeving, en taakplanning simuleren die echte of verbeelde werelden beheersen. Dit overzichtsartikel biedt een systematisch beeld van deze evolutie en conceptualiseert moderne videofoundationmodellen als de combinatie van twee kerncomponenten: een impliciet wereldmodel en een videorenderer. Het wereldmodel codeert gestructureerde kennis over de wereld, inclusief fysieke wetten, interactiedynamiek en gedrag van agenten. Het fungeert als een latente simulatie-engine die coherent visueel redeneren, consistente temporaliteit op lange termijn en doelgedreven planning mogelijk maakt. De videorenderer transformeert deze latente simulatie naar realistische visuele observaties, en produceert effectief video's als een "venster" in de gesimuleerde wereld. Wij volgen de voortgang van videogeneratie door vier generaties heen, waarbij de kerncapaciteiten stap voor stap vorderen en uiteindelijk culmineren in een wereldmodel, gebouwd op een videogeneratiemodel, dat intrinsieke fysieke plausibiliteit, real-time multimodale interactie en planningscapaciteiten over meerdere ruimtelijk-temporele schalen belichaamt. Voor elke generatie definiëren wij de kernkenmerken, belichten representatieve werken en onderzoeken hun toepassingsdomeinen, zoals robotica, autonoom rijden en interactief gamen. Ten slotte bespreken wij open uitdagingen en ontwerpprincipes voor wereldmodellen van de volgende generatie, inclusief de rol van agentintelligentie bij het vormgeven en evalueren van deze systemen. Een actuele lijst van gerelateerde werken wordt bijgehouden via deze link.
Diffusion Transformers, met name voor videogeneratie, bereiken opmerkelijke kwaliteit maar lijden onder kwadratische aandachtcomplexiteit, wat leidt tot onhoudbare latentie. Bestaande versnellingsmethoden kampen met een fundamentele afweging: het dynamisch schatten van sparse aandachtpatronen bij elke denoisestap veroorzaakt hoge rekenkosten en schattingsfouten, terwijl statische sparse patronen onveranderd blijven en vaak suboptimaal zijn gedurende het hele denoiseproces. Wij identificeren een cruciale structurele eigenschap van diffusie-aandacht: de sparse patronen vertonen sterke temporele coherentie over de denoisestappen heen. Tiles die op stap t als niet-essentieel worden beschouwd, blijven dat doorgaans ook op stap t+δ. Gebruikmakend van dit inzicht introduceren wij LiteAttention, een methode die temporele coherentie benut om evolutionaire rekensprongen over de denoisereeks mogelijk te maken. Door niet-essentiële tiles vroegtijdig te markeren en overslaan-beslissingen vooruit te propaganderen, elimineert LiteAttention overbodige aandachtberekeningen zonder herhaalde profileringsoverhead, en combineert zo de aanpasbaarheid van dynamische methoden met de efficiëntie van statische. Wij implementeren een sterk geoptimaliseerde LiteAttention-kernel bovenop FlashAttention en tonen aanzienlijke snelheidswinsten aan bij productie-videodiffusiemodellen, zonder kwaliteitsverlies. De code en implementatiedetails zullen openbaar worden vrijgegeven.
De ontdekking van nieuwe ionische vloeistoffen (IL's) wordt belemmerd door kritieke uitdagingen in de voorspelling van eigenschappen, waaronder beperkte data, onnauwkeurige modellen en gefragmenteerde workflows. Gebruikmakend van de kracht van Large Language Models (LLM's), introduceren wij AIonopedia, voor zover wij weten de eerste LLM-agent voor de ontdekking van IL's. Aangedreven door een met een LLM versterkt multimodaal domeinfoundationmodel voor IL's, maakt AIonopedia nauwkeurige eigenschapsvoorspellingen mogelijk en bevat het een hiërarchische zoekarchitectuur voor moleculaire screening en ontwerp. Ons model, getraind en geëvalueerd op een nieuw samengestelde en uitgebreide IL-dataset, levert superieure prestaties. Als aanvulling op deze resultaten tonen evaluaties op in de literatuur gerapporteerde systemen aan dat de agent effectieve IL-modificatie kan uitvoeren. Voorbij offline tests gaand, werd de praktische effectiviteit verder bevestigd door validatie in een echte laboratoriumsetting, waarbij de agent uitzonderlijke generalisatiecapaciteiten demonstreerde bij uitdagende out-of-distribution taken, wat zijn vermogen onderstreept om de ontdekking van IL's in de praktijk te versnellen.
Multimodale grote taalmodellen (MLLM's) hebben opmerkelijke vooruitgang geboekt in visie-taaltaken, maar ze blijven moeite houden met ruimtelijk begrip. Bestaande ruimtelijke MLLM's zijn vaak afhankelijk van expliciete 3D-invoer of architectuurspecifieke aanpassingen, en worden beperkt door grootschalige datasets of schaarse supervisie. Om deze beperkingen aan te pakken, introduceren we SpatialThinker, een 3D-bewuste MLLM getraind met RL om gestructureerde ruimtelijke verankering te integreren met meerstaps redeneren. Het model simuleert mensachtige ruimtelijke perceptie door het construeren van een scènegraph van taakrelevante objecten en ruimtelijke relaties, en redeneert via dichte ruimtelijke beloningen naar een antwoord. SpatialThinker bestaat uit twee belangrijke bijdragen: (1) een datasynthesepijplijn die STVQA-7K genereert, een hoogwaardige ruimtelijke VQA-dataset, en (2) online RL met een multi-objectieve dichte ruimtelijke beloning die ruimtelijke verankering afdwingt. SpatialThinker-7B presteert beter dan supervised fine-tuning en de baseline met schaarse RL op ruimtelijk begrip en real-world VQA benchmarks, verdubbelt bijna de winst van het basismodel vergeleken met schaarse RL, en overtreft GPT-4o. Deze resultaten tonen de effectiviteit aan van het combineren van ruimtelijke supervisie met beloningsgealigneerd redeneren om robuust 3D-ruimtelijk begrip mogelijk te maken met beperkte data en MLLM's naar menselijk niveau van visueel redeneren te brengen.
Recente vooruitgang in grote taalmodellen (LLM's) wordt gedreven door reinforcement learning met verifieerbare beloningen (RLVR) en schaling tijdens tests. De beperkte uitvoerlengte van LLM's beperkt echter de redeneerdiepte die in één inferentieproces haalbaar is. Multi-agent redeneersystemen bieden een veelbelovend alternatief door meerdere agents in te zetten, zoals een Oplosser, Verificateur en Corrector, om oplossingen iteratief te verfijnen. Hoewel effectief in gesloten modellen zoals Gemini 2.5 Pro, generaliseren ze moeilijk naar open-source modellen vanwege onvoldoende kritische beoordelings- en correctiecapaciteiten. Om dit aan te pakken, stellen we MarsRL voor, een nieuw reinforcement learning-framework met parallelle agent-pipelineverwerking, ontworpen om alle agents in het systeem gezamenlijk te optimaliseren. MarsRL introduceert agent-specifieke beloningsmechanismen om ruis in beloningen te verminderen en gebruikt pipeline-geïnspireerde training om de efficiëntie bij het verwerken van lange trajecten te verbeteren. Toegepast op Qwen3-30B-A3B-Thinking-2507 verbetert MarsRL de AIME2025-nauwkeurigheid van 86,5% naar 93,3% en BeyondAIME van 64,9% naar 73,8%, waarmee het zelfs Qwen3-235B-A22B-Thinking-2507 overtreft. Deze resultaten onderstrepen het potentieel van MarsRL om multi-agent redeneersystemen vooruit te helpen en hun toepasbaarheid over diverse redeneertaken te verbreden.
Open-vocabulary-detectoren behalen indrukwekkende prestaties op COCO, maar slagen er vaak niet in om te generaliseren naar real-world datasets met out-of-distribution klassen die doorgaans niet in hun pre-training voorkomen. In plaats van simpelweg een zwaarwegend vision-language-model (VLM) voor nieuwe domeinen te fine-tunen, introduceren wij RF-DETR, een lichtgewicht specialistische detection transformer die Pareto-curves voor nauwkeurigheid en latentie ontdekt voor elke doeldataset met neural architecture search (NAS) met gewichtsdeling. Onze aanpaste fine-tunt een voorgetraind basisnetwerk op een doeldataset en evalueert duizenden netwerkconfiguraties met verschillende nauwkeurigheid-latentie afwegingen zonder hertraining. Verder herzien wij de "afstembare knoppen" voor NAS om de overdraagbaarheid van DETRs naar diverse doeldomeinen te verbeteren. Opmerkelijk is dat RF-DETR aanzienlijk verbetert ten opzichte van eerdere state-of-the-art real-time methoden op COCO en Roboflow100-VL. RF-DETR (nano) behaalt 48.0 AP op COCO, wat D-FINE (nano) met 5.3 AP verslaat bij vergelijkbare latentie, en RF-DETR (2x-large) presteert 1.2 AP beter dan GroundingDINO (tiny) op Roboflow100-VL terwijl het 20x zo snel draait. Voor zover wij weten, is RF-DETR (2x-large) de eerste real-time detector die de 60 AP op COCO overschrijdt. Onze code staat op https://github.com/roboflow/rf-detr.
Om een uniforme en flexibele oplossing te bieden voor de dagelijkse communicatie van slechthorenden, introduceren we het Omni-Model-paradigma in de hulptechnologie en presenteren HI-TransPA, een instructiegestuurde audiovisuele persoonlijke assistent. Het model integreert onduidelijke spraak met lipdynamiek met een hoog framesnelheid, waardoor zowel vertaling als dialoog binnen één multimodaal kader mogelijk wordt. Om de uitdagingen van ruwe, lawaaierige en heterogene data en de beperkte aanpasbaarheid van bestaande Omni-Modellen aan slechthorende spraak aan te pakken, ontwikkelden we een uitgebreide pijplijn voor gegevensvoorbewerking en -curatie. Deze detecteert gezichtslandmarken, isoleert en stabiliseert het lippengebied, en beoordeelt kwantitatief de kwaliteit van multimodale samples. Deze kwaliteitsscores sturen een curriculumleerstrategie aan die eerst traint op schone, hoogwaardige samples en geleidelijk complexere gevallen incorporeert om de robuustheid van het model te versterken. Verder gebruiken we een SigLIP-encoder gecombineerd met een Unified 3D-Resampler om lipbewegingen met hoge framesnelheid efficiënt te coderen. Experimenten op onze speciaal samengestelde HI-Dialogue-dataset tonen aan dat HI-TransPA state-of-the-art prestaties levert in zowel letterlijke nauwkeurigheid als semantische trouw. Dit werk legt een basis voor de toepassing van Omni-Modellen in ondersteunende communicatietechnologie, en biedt een end-to-end modelleerkader en essentiële verwerkingstools voor toekomstig onderzoek.
Het optimaliseren van aanbevelingssystemen voor doelstellingen die verder gaan dan nauwkeurigheid, zoals diversiteit, nieuwigheid en personalisatie, is cruciaal voor langdurige gebruikers tevredenheid. Hiertoe hebben praktijkmensen in de industrie grote hoeveelheden gestructureerde domeinkennis opgebouwd, die wij human priors noemen (bijvoorbeeld itemtaxonomieën, temporele patronen). Deze kennis wordt doorgaans toegepast via post-hoc aanpassingen tijdens het rangschikken of na-rangschikken. Deze aanpak blijft echter losstaan van de kernmodeltraining, wat vooral ongewenst is nu de industrie overgaat op end-to-end generatieve aanbevelingsfoundationmodellen. Anderzijds vereisen veel methoden die zich richten op deze doelstellingen voorbij nauwkeurigheid vaak architectuurspecifieke aanpassingen en negeren ze deze waardevolle human priors door gebruikersintentie op een volledig onbewaakte manier te leren. In plaats van de human priors die door jarenlange praktijk zijn opgebouwd te negeren, introduceren wij een backbone-agnostisch raamwerk dat deze human priors naadloos integreert in de end-to-end training van generatieve aanbevelingssystemen. Met lichte, prior-geconditioneerde adapterkoppen, geïnspireerd door efficiënte LLM-decoderingstrategieën, leidt onze aanpak het model om gebruikersintentie te ontwarren langs voor mensen begrijpelijke assen (bijvoorbeeld interactietypes, lange- versus kortetermijnbelangen). Wij introduceren ook een hiërarchische compositiestrategie voor het modelleren van complexe interacties tussen verschillende prior-typen. Uitgebreide experimenten op drie grootschalige datasets tonen aan dat onze methode zowel de nauwkeurigheid als de doelstellingen voorbij nauwkeurigheid aanzienlijk verbetert. Wij tonen ook aan dat human priors het backbone-model in staat stellen effectiever gebruik te maken van langere contextlengtes en grotere modelgroottes.
De evaluatie van vertalingen op discoursniveau in expert-domeinen blijft ontoereikend, ondanks het centrale belang ervan voor kennisdisseminatie en grensoverschrijdende wetenschappelijke communicatie. Hoewel deze vertalingen coherentie op discoursniveau en strikte terminologische precisie vereisen, richten huidige evaluatiemethoden zich voornamelijk op nauwkeurigheid en vlotheid op segmentniveau. Om deze beperking aan te pakken, introduceren wij DiscoX, een nieuwe benchmark voor Chinees-Engelse vertaling op discours- en expertniveau. Deze omvat 200 professioneel samengestelde teksten uit 7 domeinen, met een gemiddelde lengte van meer dan 1700 tokens. Om de prestaties op DiscoX te evalueren, ontwikkelden wij ook Metric-S, een referentievrij systeem dat gedetailleerde automatische beoordelingen biedt voor nauwkeurigheid, vlotheid en toepasselijkheid. Metric-S vertoont een sterke consistentie met menselijke beoordelingen en presteert aanzienlijk beter dan bestaande metrieken. Onze experimenten tonen een opmerkelijke prestatiekloof: zelfs de meest geavanceerde taalmodel(len) blijven achter bij menselijke experts bij deze taken. Deze bevinding bevestigt de moeilijkheidsgraad van DiscoX en benadrukt de uitdagingen die blijven bestaan bij het bereiken van professionele machinevertaling. De voorgestelde benchmark en evaluatiesysteem bieden een robuust kader voor strengere evaluatie, wat toekomstige vooruitgang in op taalmodellen gebaseerde vertaling zal vergemakkelijken.
Het mogelijk maken dat agent-gebaseerde AI-systemen hun probleemoplossende aanpak kunnen aanpassen op basis van interacties na de training blijft een fundamentele uitdaging. Hoewel systemen zijn voorgesteld die tijdens de inferentiefase een geheugen bijwerken en onderhouden, sturen bestaande ontwerpen het systeem alleen aan door tekstuele input naar een taalmodel of agent aan te passen. Dit betekent dat ze geen steekproefparameters kunnen wijzigen, tools kunnen verwijderen, systeemprompts kunnen aanpassen, of kunnen schakelen tussen agent-gebaseerde en workflow-paradigma's. Aan de andere kant vereisen systemen die flexibeler adapteren offline-optimalisatie en blijven ze statisch na implementatie. Wij presenteren de Experience-Guided Reasoner (EGuR), die op maat gemaakte strategieën – complete computationele procedures met LLM-aanroepen, tools, steekproefparameters en controlelogica – dynamisch genereert tijdens de inferentiefase, gebaseerd op opgebouwde ervaring. Wij bereiken dit met een op LLM gebaseerde metastrategie – een strategie die strategieën genereert – waardoor aanpassing van alle strategiecomponenten (prompts, steekproefparameters, toolconfiguraties en controlelogica) mogelijk wordt. EGuR werkt via twee componenten: een Gids genereert meerdere kandidaat-strategieën gebaseerd op het huidige probleem en een gestructureerd geheugen van eerdere ervaringen, terwijl een Consolidator uitvoeringsfeedback integreert om toekomstige strategiegeneratie te verbeteren. Dit produceert complete, direct uitvoerbare strategieën die zijn geoptimaliseerd voor elk probleem, welke naar behoefte kunnen worden gecached, opgehaald en uitgevoerd zonder verspilling van resources. Over vijf uitdagende benchmarks (AIME 2025, 3-SAT en drie Big Bench Extra Hard-taken) behaalt EGuR tot 14% nauwkeurigheidsverbetering ten opzichte van de sterkste baseline, terwijl de computationele kosten met tot 111x worden verminderd. Beide metrieken verbeteren naarmate het systeem ervaring opdoet.
Emotie speelt een cruciale rol in videogebaseerde expressie, maar bestaande videogeneratiesystemen richten zich voornamelijk op visuele metrieken op laag niveau en verwaarlozen de affectieve dimensies. Hoewel emotie-analyse vooruitgang heeft geboekt in het visuele domein, ontbreekt het de videogemeenschap aan toegewijde bronnen om emotiebegrip met generatieve taken te verbinden, vooral voor gestileerde en niet-realistische contexten. Om deze kloof te dichten, introduceren we EmoVid, de eerste multimodale, emotie-geannoteerde videodataset die specifiek is ontworpen voor creatieve media, waaronder tekenfilmanimaties, filmfragmenten en geanimeerde stickers. Elke video is geannoteerd met emotielabels, visuele attributen (helderheid, kleurrijkheid, tint) en tekstuele bijschriften. Door systematische analyse onthullen we ruimtelijke en temporele patronen die visuele kenmerken verbinden met emotionele percepties in diverse videovormen. Op basis van deze inzichten ontwikkelen we een emotie-geconditioneerde videogeneratietechniek door het Wan2.1-model te fine-tunen. De resultaten tonen een significante verbetering in zowel kwantitatieve metrieken als de visuele kwaliteit van gegenereerde video's voor tekst-naar-video en beeld-naar-video taken. EmoVid vestigt een nieuwe benchmark voor affectieve videoverwerking. Ons werk biedt niet alleen waardevolle inzichten in visuele emotie-analyse in artistiek gestileerde video's, maar levert ook praktische methoden voor het versterken van emotionele expressie in videogeneratie.
Tool-augmented Language Models (TaLMs) kunnen externe tools aanroepen om problemen op te lossen die buiten hun parametrische capaciteit vallen. Het blijft echter onduidelijk of deze door tools gegenereerde verbeteringen betrouwbare redenering weerspiegelen. Met de focus op de Code Interpreter-tool tonen we aan dat TaLMs, zelfs wanneer tools correct worden geselecteerd en uitgevoerd, tooluitvoer behandelen als vervanging voor redenering. Hierdoor produceren ze oplossingen die correct lijken, maar coherente rechtvaardiging missen. We noemen deze faalmodus Tool-Induced Myopia (TIM) en bestuderen deze met behulp van PYMATH, een benchmark met 1.679 wiskundige problemen op competitieniveau waarvoor Python-code nuttig maar niet voldoende is. We ontwikkelen verder een multidimensionale evaluatiesuite om de achteruitgang in redenering bij TaLMs te kwantificeren in vergelijking met hun tegenhangers zonder tools. Onze bevindingen onthullen dat hoewel TaLMs een verbetering tot 19,3 procentpunt in nauwkeurigheid van het eindantwoord bereiken, hun redeneergedrag consistent verslechtert (bijvoorbeeld: LLMs zonder tools winnen tot 41,5% vaker in paarsgewijze vergelijkingen van het redeneerproces). Deze achteruitgang intensiveert met toolgebruik; hoe vaker een model tools aanroept, hoe minder coherent zijn redenering wordt. Bovendien verschuift toolgebruik fouten van rekenkundige fouten naar globale redeneerfouten (logica, aannames, creativiteit); TIM is aanwezig in ~55% van de hoog-risicogevallen. Ten slotte stellen we een op voorkeursoptimalisatie gebaseerd framework voor dat TaLMs herpositioneert om tools als ondersteunend bewijs te gebruiken, waardoor zowel de nauwkeurigheid van het eindantwoord als de redeneerdiepte verbetert bij toolgebruik. Code en data zijn beschikbaar op: https://github.com/megagonlabs/TIM.
Het genereren van wetenschappelijke ideeën vormt de kern van wetenschappelijke ontdekkingen en heeft de menselijke vooruitgang aangedreven – hetzij door het oplossen van onopgeloste problemen, hetzij door het voorstellen van nieuwe hypothesen om onbekende fenomenen te verklaren. In tegenstelling tot standaard wetenschappelijke redenering of algemene creatieve generatie, is ideeëngeneratie in de wetenschap een multi-objectieve en open-ended taak, waarbij de nieuwswaarde van een bijdrage even essentieel is als haar empirische degelijkheid. Grote taalmodelen (LLM's) zijn recentelijk naar voren gekomen als veelbelovende generatoren van wetenschappelijke ideeën, die in staat zijn tot coherente en feitelijke output met verrassend intuïtie en aanvaardbare redenering, maar hun creatieve capaciteit blijft inconsistent en slecht begrepen. Dit overzicht biedt een gestructureerde synthese van methoden voor LLM-gedreven wetenschappelijke ideevorming, waarbij wordt onderzocht hoe verschillende benaderingen creativiteit combineren met wetenschappelijke degelijkheid. We categoriseren bestaande methoden in vijf complementaire families: Externe kennisaanvulling, Prompt-gebaseerde distributionele sturing, Schaling tijdens inferentie, Multi-agent samenwerking, en Parameter-niveau aanpassing. Om hun bijdragen te interpreteren, gebruiken we twee complementaire kaders: Boden's taxonomie van Combinatorische, Exploratoire en Transformationele creativiteit om het niveau van ideeën te karakteriseren dat elke familie naar verwachting genereert, en Rhodes' 4P-kader – Persoon, Proces, Press en Product – om het aspect of de bron van creativiteit te lokaliseren dat elke methode benadrukt. Door methodologische vooruitgang af te stemmen op creativiteitskaders, verduidelijkt dit overzicht de stand van zaken en schetst het belangrijke richtingen voor betrouwbare, systematische en transformerende toepassingen van LLM's in wetenschappelijke ontdekkingen.
Wij voeren een grondige analyse uit van de formele en informele beweringen in de miniF2F-benchmark vanuit het perspectief van een AI-systeem dat de taak heeft deel te nemen aan een wiskunde-olympiade bestaande uit de problemen in miniF2F. In een dergelijke setting moet het model de problemen in natuurlijke taal lezen en begrijpen, ze formaliseren in de Lean-taal, vervolgens doorgaan met het bewijzen van de problemen, en het krijgt punten voor elk probleem als het formele bewijs overeenkomt met de oorspronkelijke informele bewering die aan het model werd voorgelegd. Onze evaluatieresultaten tonen aan dat de beste nauwkeurigheid van een dergelijke pijplijn ongeveer 36% kan zijn bij gebruik van de state-of-the-art modellen in de literatuur, aanzienlijk lager dan de individuele state-of-the-art nauwkeurigheden van 97% en 69% die gerapporteerd worden in de literatuur over autoformalizatie en stellingbewijzen. Door de faalwijzen te analyseren, herleiden we een aanzienlijk deel van deze daling naar discrepanties tussen de formele en informele beweringen voor meer dan de helft van de problemen in miniF2F. Wij gaan vervolgens over tot het corrigeren van alle fouten, discrepanties en vereenvoudigingen in de formele en informele beweringen, en presenteren miniF2F-v2 met volledig geverifieerde formele en informele beweringen en bewijzen. Evaluatie van de volledige stellingbewijspijplijn op miniF2F-v2 leidt tot een beste nauwkeurigheid van 70%, een significante verbetering ten opzichte van de 40% op de originele miniF2F, maar wijst toch op een aanzienlijke mismatch tussen de autoformalizatiemodellen en stellingbewijzers. Onze diepgaande analyse suggereert dat een benchmark van hogere kwaliteit de gemeenschap kan helpen om de vooruitgang op het gebied van formeel redeneren beter te evalueren en ook de faal- en succeswijzen van autoformalizatie- en stellingbewijzermodellen beter te diagnosticeren. Onze dataset is beschikbaar op https://github.com/roozbeh-yz/miniF2F_v2.
Dit artikel presenteert een nieuwe benadering voor de categorisering van moderne werklastplanners. Wij geven beschrijvingen van drie klassen planners: procesplanners in besturingssystemen, jobplanners in clustersystemen en big data-planners. Wij beschrijven hun evolutie van vroege toepassingen tot moderne implementaties, waarbij zowel het gebruik als de kenmerken van algoritmen in beschouwing worden genomen. Samenvattend bespreken wij de verschillen tussen alle gepresenteerde klassen van planners en behandelen wij hun chronologische ontwikkeling. Ter afsluiting belichten wij de overeenkomsten in de focus van het ontwerp van planningsstrategieën, die van toepassing zijn op zowel lokale als gedistribueerde systemen.
De toenemende inzet van autonome AI-agenten op het web wordt belemmerd door een fundamentele misalignering: agenten moeten affordances afleiden uit mensgerichte gebruikersinterfaces, wat leidt tot brosse, inefficiënte en onveilige interacties. Om dit aan te pakken, introduceren we VOIX, een web-native framework dat websites in staat stelt om betrouwbare, controleerbare en privacybeschermende mogelijkheden voor AI-agenten bloot te leggen via eenvoudige, declaratieve HTML-elementen. VOIX introduceert de `<tool>` en `<context>` tags, waarmee ontwikkelaars expliciet beschikbare acties en relevante staat kunnen definiëren, en zo een duidelijke, machineleesbare overeenkomst voor agentgedrag kunnen creëren. Deze aanpak verschuift de controle naar de website-ontwikkelaar en behoudt tegelijkertijd de gebruikersprivacy door de conversationele interacties los te koppelen van de website. We evalueerden de praktische bruikbaarheid, aanleerbaarheid en expressiviteit van het framework in een driedaagse hackathon-studie met 16 ontwikkelaars. De resultaten tonen aan dat deelnemers, ongeacht hun ervaring, in staat waren om snel diverse en functionele webapplicaties met agentondersteuning te bouwen. Uiteindelijk biedt dit werk een fundamenteel mechanisme voor de verwezenlijking van het Agentic Web, wat een toekomst mogelijk maakt van naadloze en veilige mens-AI-samenwerking op het web.
Dit artikel presenteert een strategie voor het toewijzen van diensten op een cloudsysteem zonder nodes te overbelasten en de systeemstabiliteit te handhaven tegen minimale kosten. Wij specificeren een abstract model van cloudresourcegebruik, waarbij meerdere soorten resources worden meegenomen evenals overwegingen voor de migratiekosten van diensten. Een prototype meta-heuristische loadbalancer wordt gedemonstreerd en experimentele resultaten worden gepresenteerd en besproken. Wij stellen ook een nieuw genetisch algoritme voor, waarbij de populatie wordt geïnitieerd met de uitvoer van andere meta-heuristische algoritmen.
Vehicle-to-Vehicle (V2V)-coöperatieve perceptie heeft een groot potentieel om de prestaties van autonoom rijden te verbeteren door beperkingen in de waarneming te overwinnen in complexe, ongunstige verkeersscenario's (Complex Adverse Traffic Scenarios, CATS). Tegelijkertijd vormen data de fundamentele infrastructuur voor moderne AI-systemen voor autonoom rijden. Vanwege de strenge eisen voor datacollectie richten bestaande datasets zich echter voornamelijk op gewone verkeerssituaties, wat de voordelen van coöperatieve perceptie beperkt. Om deze uitdaging aan te pakken, introduceren wij CATS-V2V, de eerste real-world dataset in zijn soort voor V2V-coöperatieve perceptie onder complexe, ongunstige verkeersomstandigheden. De dataset werd verzameld door twee hardwarematig tijdsgesynchroniseerde voertuigen, waarbij 10 weers- en lichtomstandigheden in 10 verschillende locaties zijn vastgelegd. De dataset bestaat uit 100 clips met 60.000 frames van 10 Hz LiDAR-puntenwolken en 1,26 miljoen multi-view 30 Hz camerabeelden, samen met 750.000 geanonimiseerde maar hoogprecisie RTK-gefixeerde GNSS- en IMU-records. Hierbij leveren wij tijdsconsistente 3D bounding box-annotaties voor objecten, evenals statische scènes om een 4D BEV-representatie (Bird’s-Eye View) te construeren. Op basis hiervan stellen wij een op doelen gebaseerde temporele alignatiemethode voor, die ervoor zorgt dat alle objecten nauwkeurig zijn uitgelijnd across alle sensormodaliteiten. Wij hopen dat CATS-V2V, de grootste, meest ondersteunende en hoogst kwalitatieve dataset in zijn soort tot op heden, de autonome rijgemeenschap zal ondersteunen bij gerelateerde taken.