Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Geheugensystemen zijn essentiële componenten die AI-systemen zoals LLM's en AI-agenten in staat stellen tot langetermijnleren en aanhoudende interactie. Tijdens de opslag en het ophalen van geheugens vertonen deze systemen echter vaak geheugenhallucinaties, waaronder verzinsels, fouten, tegenstrijdigheden en weglatingen. Bestaande evaluaties van geheugenhallucinaties zijn voornamelijk end-to-end vraag-antwoordtests, waardoor het moeilijk is om de operationele fase binnen het geheugensysteem te lokaliseren waar hallucinaties ontstaan. Om dit aan te pakken, introduceren we de Hallucinatie in Geheugen Benchmark (HaluMem), de eerste hallucinatie-evaluatiebenchmark op operationeel niveau die is afgestemd op geheugensystemen. HaluMem definieert drie evaluatietaken (geheugenextractie, geheugenbijwerking en geheugenvraag-antwoord) om hallucinatiegedrag in verschillende operationele fasen van interactie uitgebreid in kaart te brengen. Ter ondersteuning van de evaluatie construeren we gebruikersgerichte, multi-turn mens-AI-interactiedatasets: HaluMem-Medium en HaluMem-Long. Beide bevatten ongeveer 15.000 geheugenpunten en 3.500 vragen van meerdere typen. De gemiddelde dialooglengte per gebruiker bedraagt respectievelijk 1.500 en 2.600 beurten, met contextlengtes van meer dan 1 miljoen tokens, waardoor evaluatie van hallucinaties over verschillende contextschalen en taakcomplexiteiten mogelijk wordt. Empirische studies op basis van HaluMem tonen aan dat bestaande geheugensystemen de neiging hebben hallucinaties te genereren en op te stapelen tijdens de extractie- en bijwerkfasen, die vervolgens fouten doorgeven aan de vraag-antwoordfase. Toekomstig onderzoek moet zich richten op het ontwikkelen van interpreteerbare en gekaderde geheugenoperatiemechanismen die hallucinaties systematisch onderdrukken en de geheugenbetrouwbaarheid verbeteren.
Recente vooruitgang in diepgaande onderzoeksagentschappen toont belofte voor autonome kennisconstructie door middel van dynamisch redeneren over externe bronnen. Bestaande methoden vertrouwen echter op een mono-contextueel paradigma dat alle informatie accumuleert in een enkel, uitdijend contextvenster, wat leidt tot contextverstikking en ruisvervuiling die de effectiviteit bij langetermijntaken beperkt. Wij introduceren IterResearch, een nieuw iteratief dieponderzoeksparadigma dat langetermijnonderzoek herformuleert als een Markov-beslissingsproces met strategische werkruimtereconstructie. Door een evoluerend rapport als geheugen aan te houden en inzichten periodiek te synthetiseren, behoudt onze aanpak consistente redeneercapaciteit over willekeurige verkenningdieptes. Wij ontwikkelen verder Efficiency-Aware Policy Optimization (EAPO), een reinforcement learning-raamwerk dat efficiënte exploratie aanmoedigt via geometrische beloningskorting en stabiele gedistribueerde training mogelijk maakt via adaptieve downsampling. Uitgebreide experimenten tonen aan dat IterResearch substantiële verbeteringen bereikt ten opzichte van bestaande open-source agentschappen met gemiddeld +14,5 procentpunt over zes benchmarks, en de kloof met frontier propriëtaire systemen verkleint. Opmerkelijk is dat ons paradigma ongekende interactieschaling vertoont, tot 2048 interacties reikt met dramatische prestatieverbeteringen (van 3,5% naar 42,5%), en dient als een effectieve promptingstrategie die frontiermodellen met tot 19,2 procentpunt verbetert ten opzichte van ReAct bij langetermijntaken. Deze bevindingen positioneren IterResearch als een veelzijdige oplossing voor langetermijnredenering, effectief zowel als getraind agentschap als promptingparadigma voor frontiermodellen.
Recente reasoning-first modellen (zoals OpenAI o1, DeepSeek R1) hebben een hernieuwde interesse in RLVR (Reinforcement Learning from Verifier Feedback) aangewakkerd. Desalniettemin worden de vooruitgang gedomineerd door wiskunde (bijv. AIME), waarbij codegeneratie voor competitive programming onderbelicht blijft en datacuratie minder aandacht krijgt dan het ontwerp van RL-algoritmen. Wij onderzoeken hoe RLVR-datasets (d.w.z. RL-prompts) kunnen worden samengesteld en presenteren praktische trainingstechnieken die sterke prestaties opleveren voor codegeneratie bij competitive programming. Onze pijplijn begint met supervised fine-tuning (SFT) gedistilleerd uit sterke open-source modellen, aangevuld met algemene en reasoning-intensieve data. Vervolgens volgt RL een tweefasenproces met uitvoerbare, testgeval-gestuurde beloningen: eerst training op een grote, uniform verdeelde set competitive-programmingproblemen met Group Relative Policy Optimization (GRPO) met 8 rollouts per prompt en een relatief kort antwoordgeneratievenster (bijv. 32k tijdens SFT en 24k in deze fase) om de entropie te vergroten en herhaling en afkapping tegen te gaan; ten tweede voeren we Pre-GRPO uit: updaten op een kleine, hoogwaardige set uitdagende problemen met een groot rollout-budget (64 rollouts per prompt) volgens een hard-focus curriculum dat de moeilijkste instanties continu behoudt gedurende de training. Wij implementeren onze methode op Qwen2.5-32B en evalueren op LeetCode en Codeforces wekelijkse wedstrijden om datalekken te voorkomen. Het resulterende model bereikt state-of-the-art prestaties onder modellen van vergelijkbare schaal en is vergelijkbaar met toonaangevende systemen zoals DeepSeek v3.1 en Doubao-1.5-Thinking. Wij onderzoeken ook schaalbaarheidstrends en observeren sterke RL-schaling op een intern grootschalig MoE-model. Onze studie destilleert beknopte best practices voor datacuratie, entropie-uitbreiding en curriculumontwerp in RLVR voor codegeneratie bij competitive programming.
Wij introduceren de STATION, een open-wereld multi-agent omgeving die een miniatuurwetenschappelijk ecosysteem modelleert. Door gebruik te maken van hun uitgebreide contextvensters kunnen agents in de Station lange wetenschappelijke trajecten aangaan, waaronder het lezen van papers van collega's, het formuleren van hypothesen, het indienen van code, het uitvoeren van analyses en het publiceren van resultaten. Cruciaal is dat er geen gecentraliseerd systeem is dat hun activiteiten coördineert - agents zijn vrij om hun eigen acties te kiezen en hun eigen verhalen te ontwikkelen binnen de Station. Experimenten tonen aan dat AI-agents in de Station een nieuwe state-of-the-art prestatie bereiken op een breed scala aan benchmarks, van wiskunde tot computationele biologie en machine learning, waarbij ze met name AlphaEvolve overtreffen in circle packing. Er ontstaat een rijk tapijt van verhalen terwijl agents onafhankelijk onderzoek verrichten, interacteren met peers en verder bouwen op een cumulatieve geschiedenis. Uit deze emergente verhalen ontstaan op organische wijze nieuwe methoden, zoals een nieuw dichtheidsadaptief algoritme voor scRNA-seq batch-integratie. De Station markeert een eerste stap naar autonome wetenschappelijke ontdekking gedreven door emergent gedrag in een open-wereld omgeving, en vertegenwoordigt een nieuw paradigma dat verder gaat dan rigide optimalisatie.
Wij introduceren PhysWorld, een raamwerk dat robotleren mogelijk maakt via videogeneratie door middel van fysieke wereldmodellering. Recente videogeneratiemodellen kunnen fotorealistische visuele demonstraties synthetiseren vanuit taalcommando's en afbeeldingen, wat een krachtige maar onderbenutte bron van trainingssignalen voor robotica biedt. Echter, het direct vertalen van pixelbewegingen uit gegenereerde video's naar robots negeert de natuurkunde, wat vaak tot onnauwkeurige manipulaties leidt. PhysWorld lost deze beperking op door videogeneratie te koppelen aan reconstructie van de fysieke wereld. Gegeven een enkele afbeelding en een taakcommando genereert onze methode taakgeconditioneerde video's en reconstrueert de onderliggende fysieke wereld vanuit de video's. De gegenereerde videobewegingen worden vervolgens verankerd in fysiek nauwkeurige acties door objectgecentreerd residueel reinforcement learning met het fysieke wereldmodel. Deze synergie transformeert impliciete visuele begeleiding naar fysiek uitvoerbare robottrajecten, waardoor de noodzaak voor echte robotdatacollectie wordt geëlimineerd en zero-shot generaliseerbare robotmanipulatie mogelijk wordt. Experimenten met diverse real-world taken tonen aan dat PhysWorld de manipulatienauwkeurigheid aanzienlijk verbetert in vergelijking met eerdere benaderingen. Bezoek https://pointscoder.github.io/PhysWorld_Web/ voor details.
Tekst-naar-beeldmodellen zijn snel geëvolueerd van informele creatieve tools naar professionele systemen, waarbij ze een ongekend niveau van beeldkwaliteit en realisme bereiken. Toch zijn de meeste modellen getraind om korte prompts om te zetten in gedetailleerde beelden, wat een kloof creëert tussen schaarse tekstuele input en rijke visuele output. Deze discrepantie vermindert de bestuurbaarheid, aangezien modellen vaak ontbrekende details willekeurig invullen, wat leidt tot een bias naar gemiddelde gebruikersvoorkeuren en de precisie voor professioneel gebruik beperkt. Wij pakken deze beperking aan door het eerste open-source tekst-naar-beeldmodel te trainen op lange gestructureerde bijschriften, waarbij elke trainingssample geannoteerd is met dezelfde set fijnmazige attributen. Dit ontwerp maximaliseert de expressieve dekking en maakt ontvlochten controle over visuele factoren mogelijk. Om lange bijschriften efficiënt te verwerken, stellen we DimFusion voor, een fusiemechanisme dat intermediare tokens van een lichtgewicht LLM integreert zonder de tokenlengte te vergroten. We introduceren ook het Text-as-a-Bottleneck Reconstruction (TaBR)-evaluatieprotocol. Door te beoordelen hoe goed echte beelden gereconstrueerd kunnen worden via een captioning-generatielus, meet TaBR directe bestuurbaarheid en expressiviteit, zelfs voor zeer lange bijschriften waar bestaande evaluatiemethoden falen. Ten slotte demonstreren we onze bijdragen door het grootschalige model FIBO te trainen, waarmee state-of-the-art promptafstemming onder open-source modellen wordt bereikt. Modelgewichten zijn openbaar beschikbaar op https://huggingface.co/briaai/FIBO.
Sparse Mixture-of-Experts (MoE) wordt tegenwoordig veel toegepast in grote taalmodellen, omdat het de modelcapaciteit efficiënt kan vergroten zonder de inferentiekosten te verhogen. Evaluaties op een breed scala aan downstreamtaken tonen echter een consistente suboptimaliteit aan van de routers in bestaande MoE-LLM's, wat resulteert in een aanzienlijk prestatieverschil (bijv. 10-20% in nauwkeurigheid) ten opzichte van optimale routing. In dit artikel tonen we aan dat het afstemmen van de variëteit (manifold) van de routeringsgewichten op die van de taakinbedding deze kloof effectief kan verkleinen en de generalisatieprestatie van MoE-LLM's kan verbeteren. Onze methode, "Routing Manifold Alignment (RoMA)", introduceert een aanvullende manifold-regularisatieterm in de post-trainingdoelstelling en vereist alleen een lichtgewicht finetunen van de routers (terwijl andere parameters bevroren blijven). Specifiek moedigt de regularisatie aan dat de routeringsgewichten van elk voorbeeld dicht bij die van zijn succesvolle buren (wiens routeringsgewichten tot correcte antwoorden leiden) in een taakinbeddingsruimte liggen. Hierdoor zullen voorbeelden die op vergelijkbare taken zijn gericht, vergelijkbare expertkeuzes over verschillende lagen delen. Het opbouwen van dergelijke verbindingen tussen taken en experts over verschillende voorbeelden is essentieel om een betere generalisatie te bereiken. Bovendien toont RoMA het voordeel aan van het verenigen van taakbegrip (door inbeddingsmodellen) met oplossingsgeneratie (door MoE-LLM's). In experimenten finetunen we de routers in OLMoE, DeepSeekMoE en Qwen3-MoE met RoMA. Evaluaties op diverse benchmarks en uitgebreide vergelijkingen met baseline-methoden tonen de substantiële verbetering aan die door RoMA wordt gebracht.
Als een belangrijk medium voor menselijke interactie en informatie-uitwisseling vormen sociale netwerkdiensten (SNS) unieke uitdagingen voor grote taalmodelen (LLM's): heterogene werklasten, snel veranderende normen en slang, en meertalige, cultureel diverse corpora die een sterke distributieverschuiving veroorzaken. Supervised fine-tuning (SFT) kan modellen specialiseren, maar leidt vaak tot een wip-effect tussen verbeteringen binnen de verdeling en robuustheid erbuiten, vooral bij kleinere modellen. Om deze uitdagingen aan te pakken, introduceren we RedOne 2.0, een SNS-gericht LLM getraind met een progressief, op reinforcement learning (RL) geprioriteerd post-trainingsparadigma, ontworpen voor snelle en stabiele aanpassing. De pijplijn bestaat uit drie fasen: (1) Explorerend Leren op gecureerde SNS-corpora om een initiële afstemming tot stand te brengen en systematische zwaktes te identificeren; (2) Gerichte Fine-Tuning die selectief SFT toepast op de gediagnosticeerde hiaten, terwijl een kleine fractie algemene data wordt gemengd om vergeten tegen te gaan; en (3) Verfijningsleren dat RL opnieuw toepast met SNS-gerichte signalen om verbeteringen te consolideren en afwegingen tussen taken te harmoniseren. Over verschillende taken verdeeld over drie categorieën heen, behaalt ons model van 4B schaal gemiddeld een verbetering van ongeveer 2,41 punten ten opzichte van de suboptimale 7B-basislijn. Daarnaast realiseert RedOne 2.0 een gemiddelde prestatieverbetering van ongeveer 8,74 ten opzichte van het basismodel met minder dan de helft van de data die de SFT-gerichte methode RedOne vereiste, wat superieure data-efficiëntie en stabiliteit op compacte schaal aantoont. Over het geheel genomen vestigt RedOne 2.0 een competitieve, kosteneffectieve basislijn voor domeinspecifieke LLM's in het SNS-scenario, waarbij capaciteit wordt vergroot zonder robuustheid op te offeren.
De opkomst van Multimodale Large Language Models (MLLM's) heeft de mogelijkheden van AI uitgebreid naar visuele modaliteiten, maar bestaande evaluatiebenchmarks blijven beperkt tot het begrip van enkele video's. Hierbij wordt de kritische behoefte aan begrip van meerdere video's in realistische scenario's (zoals sportanalyse en autonoom rijden) over het hoofd gezien. Om deze significante leemte aan te pakken, introduceren wij MVU-Eval, de eerste uitgebreide benchmark voor het evalueren van Multi-Video Understanding voor MLLM's. Concreet beoordeelt onze MVU-Eval voornamelijk acht kerncompetenties aan de hand van 1.824 zorgvuldig samengestelde vraag-antwoordparen, verspreid over 4.959 video's uit diverse domeinen. Hierbij worden zowel fundamentele perceptietaken als taken voor hogere-orde-redenering aangepakt. Deze capaciteiten zijn rigoureus afgestemd op realistische toepassingen zoals multi-sensorsynthese in autonome systemen en sportanalyse vanuit verschillende hoeken. Door uitgebreide evaluatie van state-of-the-art open-source en closed-source modellen, onthullen we significante prestatieverschillen en beperkingen in het huidige vermogen van MLLM's om begrip over meerdere video's te demonstreren. De benchmark zal publiekelijk beschikbaar worden gesteld om toekomstig onderzoek te bevorderen.
Het oplossen van complexe taken vereist doorgaans dat grote taalmodelen (LLM's) lange, meerstaps redeneerketens genereren. Eerder onderzoek heeft aangetoond dat het verifiëren van de correctheid van individuele redeneerstappen de prestaties en efficiëntie van LLM's bij dergelijke taken verder kan verbeteren en de interpreteerbaarheid van oplossingen kan vergroten. Bestaande verificatiebenaderingen, zoals Process Reward Models (PRM's), zijn echter ofwel rekenkundig kostbaar, beperkt tot specifieke domeinen, of vereisen grootschalige door mensen of modellen gegenereerde annotaties. Daarom stellen we een lichtgewicht alternatief voor voor verificatie op redeneerstapniveau, gebaseerd op data-gedreven onzekerheidsscores. We trainen transformer-gebaseerde onzekerheidskwantificeringsmodules (UHeads) die de interne toestanden van een bevroren LLM gebruiken om de onzekerheid van diens redeneerstappen tijdens generatie in te schatten. De aanpak is volledig automatisch: doel-labels worden gegenereerd door een ander, groter LLM (bijvoorbeeld DeepSeek R1) of op een zelfgesuperviseerde manier door het oorspronkelijke model zelf. UHeads zijn zowel effectief als lichtgewicht, met minder dan 10M parameters. In meerdere domeinen, waaronder wiskunde, planning en algemene kennisvragen, evenaren ze de prestaties van PRM's die tot 810x groter zijn, of overtreffen deze zelfs. Onze bevindingen suggereren dat de interne toestanden van LLM's hun onzekerheid coderen en kunnen dienen als betrouwbare signalen voor redeneerverificatie, wat een veelbelovende richting biedt naar schaalbare en generaliseerbare introspectieve LLM's.
Recente vooruitgang in diepte-recurrente taalmodel(len) toont aan dat recurrentie de rekentijd tijdens training en het aantal parameters kan ontkoppelen van de rekentijd tijdens het testen. In dit werk onderzoeken we hoe bestaande voorgetrainde niet-recurrente taalmodel(len) kunnen worden omgezet in diepte-recurrente modellen. Wij stellen vast dat het gebruik van een curriculum van recurrenties om de effectieve diepte van het model gedurende de training te vergroten, de prestaties behoudt terwijl de totale rekenkosten worden verlaagd. In onze experimenten, uitgevoerd op wiskundige taken, observeren we dat het omzetten van voorgetrainde modellen naar recurrentie modellen resulteert in betere prestaties bij een bepaald rekenbudget dan simpelweg post-training van het oorspronkelijke niet-recurrente taalmodel.
Het soft-thinking-paradigma voor redeneren met Large Language Models (LLM) kan in sommige scenario's superieur presteren aan de conventionele redeneerpatronen met discrete tokens, zoals Chain-of-Thought (CoT), wat de onderzoeks- en toepassingswaarde ervan onderstreept. Het discrete-token CoT-redeneerpatroon kan echter worden versterkt via beleidsoptimalisatie-algoritmen zoals group relative policy optimization (GRPO), terwijl het uitbreiden van het soft-thinking-patroon met Reinforcement Learning (RL) een uitdaging blijft. Deze moeilijkheid vloeit voort uit de complexiteit van het injecteren van stochasticiteit in soft-thinking-tokens en het dienovereenkomstig bijwerken van soft-thinking-beleid. Als gevolg daarvan presteren eerdere pogingen om soft-thinking met GRPO te combineren doorgaans minder goed dan hun tegenhangers met discrete-token GRPO. Om het volledige potentieel van soft-thinking te ontsluiten, presenteert dit artikel een nieuw beleidsoptimalisatie-algoritme, SofT-GRPO, om LLM's te versterken onder het soft-thinking-redeneerpatroon. SofT-GRPO injecteert Gumbel-ruis in logits, gebruikt de Gumbel-Softmax-techniek om te voorkomen dat soft-thinking-tokens buiten de vooraf getrainde embeddingruimte vallen, en benut de reparameterisatietruc in de beleidsgradiënt. Wij voeren experimenten uit met basis-LLM's variërend van 1,5B tot 7B parameters, en resultaten tonen aan dat SofT-GRPO soft-thinking-LLM's in staat stelt om discrete-token GRPO licht te overtreffen op Pass@1 (+0,13% gemiddelde nauwkeurigheid), terwijl het een aanzienlijke verbetering vertoont op Pass@32 (+2,19% gemiddelde nauwkeurigheid). Code en gewichten zijn beschikbaar op https://github.com/zz1358m/SofT-GRPO-master.
Wij introduceren Reinforcement Learning (RL) met Adaptieve Verifieerbare Omgevingen (RLVE), een aanpak die gebruikmaakt van verifieerbare omgevingen die procedureel problemen genereren en algoritmisch verifieerbare beloningen bieden, om RL voor taalmodel(len) (TM's) op te schalen. RLVE stelt elke verifieerbare omgeving in staat om de moeilijkheidsverdeling van haar problemen dynamisch aan te passen aan de capaciteiten van het beleidsmodel naarmate de training vordert. Statische dataverdelingen leiden daarentegen vaak tot vervagende leer-signalen wanneer problemen ofwel te gemakkelijk ofwel te moeilijk zijn voor het beleid. Om RLVE te implementeren, hebben wij RLVE-Gym ontwikkeld, een grootschalige suite van 400 zorgvuldig door middel van handmatige omgevings-engineering ontwikkelde, verifieerbare omgevingen. Met behulp van RLVE-Gym tonen wij aan dat omgevingsschaling, d.w.z. het uitbreiden van de collectie trainingsomgevingen, de generaliseerbare redeneervermogens consistent verbetert. RLVE met gezamenlijke training over alle 400 omgevingen in RLVE-Gym resulteert in een absolute gemiddelde verbetering van 3,37% over zes redeneerbenchmarks, uitgaande van een van de krachtigste 1,5B redeneer-TM's. Ter vergelijking: het voortzetten van de oorspronkelijke RL-training van dit TM levert slechts een gemiddelde absolute winst van 0,49% op, ondanks het gebruik van meer dan 3x zoveel rekenkracht. Wij stellen onze code openbaar beschikbaar.
Autonome agenten aangedreven door Large Language Models (LLM's) hebben een revolutie teweeggebracht in redeneren en probleemoplossing, maar blijven statisch na de training en zijn niet in staat om te groeien door ervaring, zoals intelligente wezens dat doen tijdens inzet. Wij introduceren Forward Learning with EXperience (FLEX), een gradiëntvrij leerparadigma dat LLM-agenten in staat stelt om continu te evolueren door opgebouwde ervaring. Concreet kweekt FLEX schaalbare en erfelijke evolutie door het construeren van een gestructureerde ervaringsbibliotheek via continue reflectie op successen en mislukkingen tijdens interactie met de omgeving. FLEX levert substantiële verbeteringen op bij wiskundig redeneren, chemische retrosynthese en eiwitfitnessvoorspelling (tot 23% op AIME25, 10% op USPTO50k en 14% op ProteinGym). Verder identificeren we een duidelijke schaalwet voor ervaringsgroei en het fenomeen van ervaringsoverdracht tussen agenten, wat een stap betekent in de richting van schaalbare en erfelijke continue agentevolutie. Projectpagina: https://flex-gensi-thuair.github.io.
Wij introduceren llama-embed-nemotron-8b, een tekst-embeddingmodel met open gewichten dat state-of-the-art prestaties behaalt op de Multilingual Massive Text Embedding Benchmark (MMTEB) leaderboard per 21 oktober 2025. Hoewel recente modellen sterke prestaties vertonen, zijn hun trainingsdata of methodologieën vaak niet volledig openbaar. Wij streven ernaar dit aan te pakken door een volledig open-source model te ontwikkelen, de gewichten en gedetailleerde ablatiestudies openbaar vrij te geven, en van plan te zijn de samengestelde train datasets te delen. Ons model toont superieure prestaties voor alle belangrijke embeddingtaken – waaronder retrieval, classificatie en semantische tekstuele gelijkenis (STS) – en blinkt uit in uitdagende meertalige scenario's, zoals talen met weinig bronnen en cross-linguale opzettingen. Deze state-of-the-art prestaties worden aangedreven door een nieuwe datamix van 16,1 miljoen query-document paren, verdeeld over 7,7 miljoen voorbeelden uit publieke datasets en 8,4 miljoen synthetisch gegenereerde voorbeelden van verschillende open-weight LLM's. Een van onze belangrijkste bijdragen is een gedetailleerde ablatiestudie die kernontwerpkeuzes analyseert, waaronder een vergelijking van contrastief loss-implementaties, een evaluatie van strategieën voor synthetische datageneratie (SDG), en de impact van modelmerging. De llama-embed-nemotron-8b is een instruction-aware model, dat door de gebruiker gedefinieerde instructies ondersteunt om de prestaties voor specifieke use-cases te verbeteren. Deze combinatie van top prestaties, brede toepasbaarheid en gebruikersgestuurde flexibiliteit stelt het in staat te fungeren als een universele tekst-embeddingoplossing.
Het genereren van bewerkbare 3D CAD-modellen op basis van natuurlijke taal blijft een uitdaging, omdat bestaande tekst-naar-CAD-systemen ofwel meshes produceren of afhankelijk zijn van schaarse ontwerpgeschiedenisdata. Wij presenteren NURBGen, het eerste framework dat hoogfidèle 3D CAD-modellen direct vanuit tekst genereert met behulp van Non-Uniform Rational B-Splines (NURBS). Om dit te bereiken, fine-tunen we een groot taalmodel (LLM) om vrije tekst te vertalen naar JSON-representaties die NURBS-oppervlakparameters bevatten (d.w.z. controlepunten, knot-vectoren, graden en rationale gewichten), welke direct kunnen worden omgezet naar BRep-formaat met Python. Wij introduceren verder een hybride representatie die ongetrimde NURBS combineert met analytische primitieven om getrimde oppervlakken en gedegenereerde regio's robuuster te verwerken, terwijl de tokencomplexiteit wordt verminderd. Daarnaast introduceren we partABC, een gecureerde subset van de ABC-dataset bestaande uit individuele CAD-componenten, geannoteerd met gedetailleerde bijschriften via een geautomatiseerd annotatiepijplijn. NURBGen toont sterke prestaties op diverse prompts en overtreft eerdere methoden in geometrische fideliteit en dimensionale nauwkeurigheid, zoals bevestigd door expertbeoordelingen. Code en dataset zullen openbaar worden vrijgegeven.
Hoewel Reinforcement Learning for Verifiable Rewards (RLVR) een krachtige methode is voor het trainen van grote redeneermodellen, schuilt er in de trainingsdynamiek een kritieke uitdaging: RL-overfitting, waarbij modellen trainingsbeloningen verwerven maar hun generalisatievermogen verliezen. Onze analyse toont aan dat dit wordt veroorzaakt door over-specialisatie van het beleid en catastrofale vergetelheid van de diverse oplossingen die tijdens de training worden gegenereerd. Standaard optimalisatie verwerpt deze waardevolle diversiteit in beleid tussen stappen. Om dit aan te pakken, introduceren we RLoop, een zelfverbeterend raamwerk gebaseerd op iteratieve beleidsinitialisatie. RLoop transformeert het standaard trainingsproces in een vicieuze cirkel ten goede: het gebruikt eerst RL om de oplossingsruimte te verkennen vanuit een gegeven beleid, filtert vervolgens de succesvolle trajecten om een expertdataset te creëren. Deze dataset wordt via Rejection-sampling Fine-Tuning (RFT) gebruikt om het initiële beleid te verfijnen, waardoor een superieur startpunt voor de volgende iteratie ontstaat. Deze lus van exploratie en exploitatie via iteratieve herinitialisatie zet tijdelijke beleidsvariaties effectief om in robuuste prestatieverbeteringen. Onze experimenten tonen aan dat RLoop vergetelheid vermindert en de generalisatie aanzienlijk verbetert, met een gemiddelde nauwkeurigheidsverbetering van 9% en een pass@32-stijging van meer dan 15% vergeleken met standaard RL.
Versterkend leren (RL) wordt vaak genoemd als methode die het redeneervermogen en de generalisatie van taalmodellen verbetert, ten koste van gememoriseerde kennis. Wij betwisten dit verhaal door de observatie dat met RL verbeterde modellen consequent beter presteren dan hun basis- en supervised fine-tuned (SFT) tegenhangers bij pure kennisrecall-taken, vooral bij taken die het doorlopen van hiërarchische, gestructureerde kennis vereisen (bijv. medische codes). Wij veronderstellen dat deze winst niet voortkomt uit nieuw verworven data, maar uit verbeterde procedurele vaardigheden in het navigeren en doorzoeken van bestaande kennishiërarchieën binnen de modelparameters. Om deze hypothese te ondersteunen, tonen we aan dat gestructureerde prompting, waarbij SFT-modellen expliciet worden begeleid bij hiërarchische traversering, het grootste deel van het prestatieverschil wegneemt (van 24 procentpunt naar 7 procentpunt op MedConceptsQA voor DeepSeek-V3/R1). Verder constateren we dat hoewel prompting de nauwkeurigheid van het eindantwoord verbetert, RL-verbeterde modellen een superieur vermogen behouden om de juiste procedurele paden te herinneren bij diepe-retrieval-taken. Ten slotte toont onze laaggewijze analyse van interne activaties aan dat hoewel feitelijke representaties (bijv. activaties voor de stelling "code 57.95 verwijst naar urineweginfectie") een hoge cosinusgelijkenis behouden tussen SFT- en RL-modellen, queryrepresentaties (bijv. "wat is code 57.95") merkbaar divergeren. Dit geeft aan dat RL vooral verandert hoe modellen kennis doorlopen, en niet de kennisrepresentatie zelf.
Recente vooruitgang in multimodale redeneervaardigheden wordt grotendeels aangedreven door niet-openbaar gemaakte datasets en propriëtaire datasynthese-recepten, waardoor vragen onbeantwoord blijven over hoe men op een systematische manier grootschalige, visueel-centrische redeneerdatasets kan opbouwen, in het bijzonder voor taken die verder gaan dan visuele wiskunde. In dit werk introduceren we een nieuw kader voor het genereren van redeneerdata, dat diverse vaardigheden en complexiteitsniveaus omvat met meer dan 1 miljoen hoogwaardige synthetische, visueel-centrische vragen. De dataset omvat ook preferentiedata en instructieprompts die zowel offline als online RL ondersteunen. Ons syntheseframework verloopt in twee fasen: (1) schaal; en (2) complexiteit. Redeneersporen worden vervolgens gesynthetiseerd via een proces in twee stappen dat gebruikmaakt van VLM's en redeneer-LLM's, waarbij CoT-sporen voor VLM's worden geproduceerd die de rijkdom en diverse cognitieve gedragingen vastleggen die worden aangetroffen in geavanceerde redeneermodellen. Opmerkelijk is dat we aantonen dat het finetunen van Qwen2.5-VL-7B op onze data alle open-data-baselines overtreft op alle geëvalueerde visueel-centrische benchmarks, en zelfs sterke closed-data-modellen zoals MiMo-VL-7B-RL overstijgt op V* Bench, CV-Bench en MMStar-V. Wellicht het meest verrassend is dat onze data, ondanks dat ze volledig visueel-centrisch is, positief transferreert naar uitsluitend tekstueel redeneren (MMLU-Pro) en audio-redeneren (MMAU), wat de effectiviteit ervan aantoont. Evenzo, ondanks het ontbreken van video's of belichaamde visuele data, observeren we aanzienlijke verbeteringen bij evaluatie op een benchmark voor belichaamde vraag-antwoordtaken met enkelvoudig bewijs (NiEH). Ten slotte gebruiken we onze data om de gehele VLM-post-trainingspipeline te analyseren. Onze empirische analyse benadrukt dat (i) SFT op hoogwaardige data met niet-lineaire redeneersporen essentieel is voor effectieve online RL, (ii) gefaseerde offline RL de prestaties van online RL evenaart terwijl de rekenbehoefte afneemt, en (iii) zorgvuldige SFT op hoogwaardige data de out-of-domain, cross-modaliteit transfer aanzienlijk kan verbeteren.
AI-agenten die gebruikersinterfaces kunnen besturen, hebben het potentieel om de menselijke interactie met digitale apparaten te transformeren. Om deze transformatie te versnellen zijn twee fundamentele bouwstenen essentieel: hoogwaardige datasets die agenten in staat stellen complexe en voor mensen relevante doelen te bereiken, en robuuste evaluatiemethoden die onderzoekers en professionals in staat stellen de prestaties van agenten snel te verbeteren. In dit artikel introduceren we DigiData, een grootschalige, hoogwaardige, diverse en multimodale dataset die is ontworpen voor het trainen van mobiele besturingsagenten. In tegenstelling tot bestaande datasets, waarvan de doelen zijn afgeleid van ongestructureerde interacties, is DigiData nauwkeurig opgebouwd door middel van uitgebreide verkenning van app-functies, wat resulteert in een grotere diversiteit en hogere doelcomplexiteit. Daarnaast presenteren we DigiData-Bench, een benchmark voor het evalueren van mobiele besturingsagenten op complexe taken uit de praktijk. We tonen aan dat de veelgebruikte stapnauwkeurigheidsmetriek tekortschiet in het betrouwbaar beoordelen van mobiele besturingsagenten en stellen, om dit aan te pakken, dynamische evaluatieprotocollen en AI-gestuurde evaluaties voor als rigoureuze alternatieven voor agentbeoordeling. Onze bijdragen zijn erop gericht de ontwikkeling van mobiele besturingsagenten aanzienlijk vooruit te helpen, waardoor de weg wordt geëffend voor meer intuïtieve en effectieve mens-apparaatinteracties.
Muziekgeïnduceerd schilderen is een unieke artistieke praktijk waarbij visuele kunstwerken worden gecreëerd onder invloed van muziek. Het evalueren of een schilderij de inspirerende muziek trouw weerspiegelt, vormt een uitdagende perceptuele beoordelingstaak. Bestaande methodes vertrouwen voornamelijk op emotieherkenningsmodellen om de gelijkenis tussen muziek en schilderij te beoordelen, maar dergelijke modellen introduceren aanzienlijke ruis en negeren bredere perceptuele signalen buiten emotie om. Om deze beperkingen aan te pakken, stellen we een nieuw raamwerk voor voor de evaluatie van muziekgeïnduceerde schilderijen dat direct de perceptuele samenhang tussen muziek en visuele kunst modelleert. We introduceren MPD, de eerste grootschalige dataset van muziek-schilderij paren geannoteerd door domeinexperts op basis van perceptuele coherentie. Om beter om te gaan met ambigue gevallen, verzamelen we verder paarsgewijze voorkeursannotaties. Op basis van deze dataset presenteren we MPJudge, een model dat muziekkenmerken integreert in een visuele encoder via een op modulatie gebaseerd fusiemechanisme. Om effectief te leren van ambigue gevallen, nemen we Direct Preference Optimization over voor de training. Uitgebreide experimenten tonen aan dat onze methode superieur presteert ten opzichte van bestaande benaderingen. Kwalitatieve resultaten tonen verder aan dat ons model nauwkeuriger muziekrelevante regio's in schilderijen identificeert.
De snelle vooruitgang van grote taalmodellen (LLM's) heeft talloze toepassingen mogelijk gemaakt, maar efficiënte inferentie in enkele batches blijft van cruciaal belang voor on-device intelligentie. Hoewel FPGA's fijnmazige datacontrole en hoge energie-efficiëntie bieden, hebben recente GPU-optimalisaties hun voordeel verkleind, vooral bij rekenkundige berekeningen. Om dit te overwinnen, benutten we de overvloedige on-chip geheugens van FPGA's om LLM-inferentie te verschuiven van rekenkundige naar geheugengestuurde berekening via tabelzoekacties. Wij presenteren LUT-LLM, de eerste FPGA-versneller die inferentie voor LLM's van 1B+ parameters mogelijk maakt via vector-gekwantiseerde geheugenoperaties. Onze analyse identificeert co-kwantisatie van activaties en gewichten als het meest effectieve schema, ondersteund door (1) bandbreedtebewuste parallelle centroid-zoekacties, (2) efficiënte 2D-tabelzoekacties en (3) een ruimtelijk-tijdelijk hybride ontwerp dat datacaching minimaliseert. Geïmplementeerd op een AMD V80 FPGA voor een aangepast Qwen 3 1.7B-model behaalt LUT-LLM 1,66x lagere latentie dan de AMD MI210 en 1,72x hogere energie-efficiëntie dan de NVIDIA A100, met schaalbaarheid naar 32B-modellen en een efficiëntiewinst van 2,16x ten opzichte van de A100.
Vanwege hun vermogen om natuurlijke taal instructies te volgen, winnen vision-language-action (VLA) modellen steeds meer aan populariteit in de wereld van 'embodied AI', na het wijdverspreide succes van hun voorgangers – grote taalmodellen (LLM's) en vision-language modellen (VLM's). In dit artikel bespreken we 10 belangrijke mijlpalen in de doorlopende ontwikkeling van VLA-modellen: multimodaliteit, redeneren, data, evaluatie, cross-robot actiegeneralizatie, efficiëntie, coördinatie van het gehele lichaam, veiligheid, agents, en coördinatie met mensen. Verder bespreken we de opkomende trends van het gebruik van ruimtelijk begrip, het modelleren van werelddynamica, post-training en datasynthese – allemaal gericht op het bereiken van deze mijlpalen. Door middel van deze discussies hopen we de aandacht te vestigen op onderzoeksrichtingen die de ontwikkeling van VLA-modellen kunnen versnellen naar een bredere acceptatie.
Tekst-naar-beeld diffusiemodellen leveren hoogwaardige afbeeldingen, maar het afstemmen ervan op menselijke voorkeuren blijft een uitdaging. Wij herbezien diffusiegebaseerde Direct Preference Optimization (DPO) voor deze modellen en identificeren een kritieke pathologie: het vergroten van de voorkeursmarge verbetert niet noodzakelijkerwijs de generatiekwaliteit. In het bijzonder kan het standaard Diffusion-DPO-doel de reconstructiefout van zowel de winnaar- als de verliezertakken vergroten. Hierdoor kan de degradatie van de minder gewenste uitvoer zo ernstig worden dat de voorkeurstak ook nadelig wordt beïnvloed, zelfs wanneer de marge groter wordt. Om dit aan te pakken, introduceren wij Diffusion-SDPO, een beveiligde updateregel die de winnaar behoudt door de verliezergradiënt adaptief te schalen op basis van de afstemming met de winnergradiënt. Een eerste-orde analyse levert een gesloten-vorm schalingscoëfficiënt op die garandeert dat de fout van de geprefereerde uitvoer bij elke optimalisatiestap niet toeneemt. Onze methode is eenvoudig, model-agnostisch, breed compatibel met bestaande DPO-stijl afstemmingsframeworks en voegt slechts een marginale rekenkundige overhead toe. Over standaard tekst-naar-beeld benchmarks heen levert Diffusion-SDPO consistente verbeteringen op ten opzichte van voorkeursleer-basislijnen voor geautomatiseerde voorkeurs-, esthetische- en promptafstemmingsmetriek. Code is openbaar beschikbaar op https://github.com/AIDC-AI/Diffusion-SDPO.
Wij presenteren DIMO, een generatieve aanpak die in staat is om diverse 3D-bewegingen voor willekeurige objecten te genereren vanuit een enkele afbeelding. De kern van onze werkwijze is het benutten van de rijke voorkennis in goed getrainde videomodellen om de algemene bewegingspatronen te extraheren en deze vervolgens in te bedden in een gedeelde laagdimensionale latente ruimte. Concreet genereren we eerst meerdere video's van hetzelfde object met uiteenlopende bewegingen. Vervolgens embedden we elke beweging in een latente vector en trainen we een gedeelde bewegingdecoder om de verdeling van bewegingen te leren, gerepresenteerd door een gestructureerde en compacte bewegingsrepresentatie: neurale sleutelpunt-trajecten. De canonieke 3D-gaussiaanse verdelingen worden vervolgens aangestuurd door deze sleutelpunten en samengesmolten om de geometrie en het uiterlijk te modelleren. Tijdens de inferentiefase, met de geleerde latente ruimte, kunnen we direct diverse 3D-bewegingen bemonsteren in één enkele voorwaartse passage en ondersteunen we verschillende interessante toepassingen, waaronder 3D-bewegingsinterpolatie en taalgestuurde beweginggeneratie. Onze projectpagina is beschikbaar op https://linzhanm.github.io/dimo.
Hoewel Vision-Language Models (VLM's) die nageoefend zijn met Reinforcement Learning (RL) indrukwekkend algemeen redeneervermogen vertonen, is hun evaluatie vaak beperkt tot taakgebieden waar taal dominant is (bijv. wiskunde). Dit roept een kritische vraag op: kan RL-natraining daadwerkelijk de inherente capaciteitsgrens van een basis-VLM verleggen, met name voor visueel-gecentreerde ruimtelijke taken waarbij deze initieel faalt? Om dit te onderzoeken introduceren we Ariadne, een raamwerk dat gebruikmaakt van synthetische doolhoven voor multi-stap ruimtelijk redeneren, waarbij de taakmoeilijkheid (bijv. padlengte, bochten) precies gecontroleerd wordt. We benutten deze controleerbare omgeving om VLM's te trainen met Reinforcement Learning met Geverifieerde Beloningen (RLVR) volgens een moeilijkheidsbewust curriculum. Verrassend genoeg behaalt de VLM na RLVR-training een nauwkeurigheid van meer dan 50% op een probleemset waar het basismodel 0% scoorde, wat aantoont dat onze aanpak de initiële capaciteitsgrens van het model verruimt. Om de praktische bruikbaarheid te beoordelen, evalueren we out-of-distribution (OOD) generalisatie op praktische benchmarks. Ondanks uitsluitende training op synthetische doolhofvoorbeelden, behaalt Ariadne significante zero-shot verbeteringen, gemiddeld 16% op MapBench (bijv. museumnavigatie) en 24% op ReasonMap (overstaptaken in de metro). Deze resultaten bevestigen dat onze methode niet alleen de fundamentele limieten van het model verbreedt, maar ook de generalisatie naar real-world ruimtelijk redeneren verbetert. We erkennen dat onze studie beperkt is tot de natrainingsfase, gezien de ondoorzichtigheid van pre-trainingsdata, en hopen dat ons onderzoek verder werk aan gespecialiseerde, capaciteitsverruimende afstemming stimuleert.
Het optimaliseren van de prestaties van grootschalige softwarerepositories vereist expertise in coderedenering en software engineering (SWE) om de runtime te verkorten terwijl de programmacorrectheid behouden blijft. De meeste benchmarks leggen echter de nadruk op wát er moet worden gerepareerd in plaats van hóé code moet worden gerepareerd. Wij introduceren SWE-fficiency, een benchmark voor het evalueren van prestatieoptimalisatie op repositoryniveau bij echte workloads. Onze suite bevat 498 taken verdeeld over negen veelgebruikte data science, machine learning en HPC repositories (zoals numpy, pandas, scipy): gegeven een complete codebase en een trage workload moet een agent de codesemantiek onderzoeken, knelpunten en relevante tests lokaliseren, en een patch produceren die de expertsnelheidsverbetering evenaart of overtreft, terwijl dezelfde unittests worden doorstaan. Om deze evaluatie van hóé te repareren mogelijk te maken, verzamelt onze geautomatiseerde pijplijn GitHub pull requests voor prestatieverbeterende bewerkingen, waarbij keyword filtering, statische analyse, coverage tooling en uitvoeringsvalidatie worden gecombineerd om zowel expertsnelheidsverbeteringsbaselines te bevestigen als relevante repository unittests te identificeren. Empirische evaluatie van state-of-the-art agents toont een significante ondermaatse prestatie. Gemiddeld behalen agents minder dan 0,15x de expertsnelheidsverbetering: agents worstelen met het lokaliseren van optimalisatiemogelijkheden, het redeneren over uitvoering tussen functies, en het handhaven van correctheid in voorgestelde bewerkingen. Wij publiceren de benchmark en de bijbehorende datapijplijn om onderzoek naar geautomatiseerde prestatie-engineering en langetermijn softwareredenering te faciliteren.
Video-anomaliebegrip (VAU) beoogt een gedetailleerde interpretatie en semantisch begrip van afwijkende gebeurtenissen in video's te bieden, en gaat daarmee de beperkingen van traditionele methoden te boven die zich uitsluitend richten op het detecteren en lokaliseren van anomalieën. Bestaande benaderingen negeren echter vaak de diepere causale relaties en interacties tussen objecten, die cruciaal zijn voor het begrijpen van afwijkend gedrag. In dit artikel presenteren we VADER, een LLM-gedreven framework voor Video Anomaly unDErstanding, dat relationele objectkenmerken van keyframes integreert met visuele aanwijzingen om het anomaliebegrip vanuit video's te verbeteren. Concreet past VADER eerst een Anomalie Scorer toe om per frame een anomaliescore toe te kennen, gevolgd door een Context-AwarE Sampling (CAES)-strategie om de causale context van elke afwijkende gebeurtenis vast te leggen. Een Relation Feature Extractor en een COntrastive Relation Encoder (CORE) modelleren gezamenlijk de dynamische objectinteracties, en produceren compacte relationele representaties voor downstream redeneertaken. Deze visuele en relationele aanwijzingen worden geïntegreerd met LLM's om gedetailleerde, causaal onderbouwde beschrijvingen te genereren en robuuste antwoorden op anomaliegerelateerde vragen te ondersteunen. Experimenten op meerdere real-world VAU-benchmarks tonen aan dat VADER sterke resultaten behaalt voor taken zoals anomaliebeschrijving, -verklaring en causaal redeneren, waardoor de grenzen van verklaarbare video-anomalieanalyse worden verlegd.
Emotieherkenning in conversaties (ERC) is een cruciale taak voor het begrijpen van menselijke emoties en het mogelijk maken van natuurlijke mens-computerinteractie. Hoewel grote taalmodel(len (LLM's) recentelijk groot potentieel hebben getoond op dit gebied, blijft hun vermogen om de intrinsieke verbanden tussen expliciete en impliciete emoties te vatten beperkt. Wij stellen een nieuw ERC-trainingsraamwerk voor, PRC-Emo, dat promptengineering, demonstratieretrieval en curriculumleren integreert, met als doel te onderzoeken of LLM's effectief emoties in conversationele contexten kunnen waarnemen. Specifiek ontwerpen we emotiegevoelige promptsjablonen gebaseerd op zowel expliciete als impliciete emotionele signalen om het model beter te begeleiden bij het begrijpen van de psychologische toestanden van de spreker. We construeren de eerste toegewijde demonstratieretrievalrepository voor ERC, die trainingsvoorbeelden bevat van veelgebruikte datasets, evenals hoogwaardige dialoogvoorbeelden gegenereerd door LLM's en handmatig geverifieerd. Bovendien introduceren we een curriculumleerstrategie in het LoRA-finetuningproces, waarbij gewogen emotionele verschuivingen tussen uitingen van dezelfde spreker en verschillende sprekers worden geïntegreerd om moeilijkheidsgraden aan dialoogvoorbeelden toe te kennen, die vervolgens in een van-makkelijk-naar-moeilijk trainingsvolgorde worden georganiseerd. Experimentele resultaten op twee benchmarkdatasets – IEMOCAP en MELD – tonen aan dat onze methode nieuwe state-of-the-art (SOTA) prestaties bereikt, wat de effectiviteit en generaliseerbaarheid van onze aanpak aantoont bij het verbeteren van op LLM gebaseerd emotiebegrip.
Grote taalmodel(len) (LLM's) hebben onlangs indrukwekkende resultaten behaald in spraakherkenning over meerdere modaliteiten, waaronder Auditieve Spraakherkenning (ASR), Visuele Spraakherkenning (VSR) en Audio-Visuele Spraakherkenning (AVSR). Ondanks deze vooruitgang paken huidige op LLM's gebaseerde benaderingen doorgaans elke taak onafhankelijk aan, waarbij afzonderlijke modellen worden getraind die het computationele en implementatiegebruik verhogen en mogelijke synergieën tussen taken mislopen. Ze vertrouwen ook op vaste compressie van tokens, wat de flexibiliteit beperkt om nauwkeurigheid en efficiëntie in evenwicht te brengen. Deze beperkingen benadrukken de behoefte aan een uniform kader dat ASR, VSR en AVSR kan ondersteunen en tegelijkertijd elastische inferentie mogelijk maakt. Hiertoe presenteren wij Omni-AVSR, een uniform audio-visueel LLM dat efficiënte training op meerdere granulariteiten combineert met parameter-efficiënte adaptatie. Specifiek passen we het matroesjka-representatieleerparadigma aan om efficiënt over meerdere auditieve en visuele granulariteiten te trainen, waardoor het inherente gebruik van trainingsbronnen wordt verminderd. Verder onderzoeken we drie op LoRA gebaseerde strategieën om het backbone-LLM aan te passen, waarbij gedeelde en taakspecifieke specialisatie in evenwicht worden gebracht. Experimenten op LRS2 en LRS3 tonen aan dat Omni-AVSR een vergelijkbare of superieure nauwkeurigheid bereikt in vergelijking met state-of-the-art basislijnen, terwijl een enkel model wordt getraind met aanzienlijk lager gebruik van trainings- en implementatiebronnen. Het model blijft ook robuust onder akoestische ruis, en we analyseren het schaalgedrag naarmate de LLM-grootte toeneemt, wat inzichten biedt in de afweging tussen prestaties en efficiëntie.