Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement Learning from Verifier Rewards (RLVR) is een veelgebruikte benadering geworden voor het na-trainen van grote taalmodellen voor redeneertaken, waarbij groepsgebaseerde methoden zoals GRPO en zijn varianten breed worden toegepast. Deze methoden steunen op groepsrelatieve schatting van het voordeel om geleerde critics te vermijden, maar de theoretische eigenschappen ervan zijn nog steeds slecht begrepen. In dit werk leggen we een fundamenteel probleem bloot van groepsgebaseerde RL: de groepsrelatieve voordeelschatting is inherent bevooroordeeld ten opzichte van het werkelijke (verwachte) voordeel. Wij presenteren de eerste theoretische analyse die aantoont dat het systematisch de voordelen voor moeilijke prompts onderschat en voor makkelijke prompts overschat, wat leidt tot een onevenwichtige verkenning en exploitatie. Om dit probleem aan te pakken, stellen wij History-Aware Adaptive Difficulty Weighting (HA-DW) voor, een adaptief herwegingsschema dat de voordeelschattingen aanpast op basis van een evoluerende moeilijkheidsanker en trainingsdynamiek. Zowel theoretische analyse als experimenten op vijf wiskundige redeneerbenchmarks tonen aan dat HA-DW consequent de prestaties verbetert wanneer het geïntegreerd wordt in GRPO en zijn varianten. Onze resultaten suggereren dat het corrigeren van bevooroordeelde voordeelschatting cruciaal is voor robuuste en efficiënte RLVR-training.
Versterkend Leren met Verifieerbare Beloningen (RLVR) heeft aanzienlijke vooruitgang geboekt in domeinen die intensief redeneren vereisen, zoals wiskunde. Het optimaliseren van open-eindgeneratie blijft echter een uitdaging vanwege het ontbreken van een grondwaarheid. Hoewel rubricagestuurde evaluatie een gestructureerde proxy voor verificatie biedt, kampen bestaande methoden met schaalbaarheidsproblemen en grove criteria, wat leidt tot een plafondeffect in de supervisie. Om dit aan te pakken, stellen we een geautomatiseerd Coarse-to-Fine Rubric Generation-framework voor. Door principegestuurde synthese, multi-modelaggregatie en moeilijkheidsevolutie te combineren, produceert onze aanpak uitgebreide en hoogst onderscheidende criteria die in staat zijn subtiele nuances te vangen. Gebaseerd op dit framework introduceren we RubricHub, een grootschalige (∼110k) en multidomein dataset. We valideren de bruikbaarheid ervan via een tweefasen post-trainingspijplijn bestaande uit Rubric-based Rejection Sampling Fine-Tuning (RuFT) en Versterkend Leren (RuRL). Experimentele resultaten tonen aan dat RubricHub significante prestatieverbeteringen mogelijk maakt: onze nageschoolde Qwen3-14B behaalt state-of-the-art (SOTA) resultaten op HealthBench (69.3), en overtreft daarmee propriëtaire frontier-modellen zoals GPT-5. De code en data zullen binnenkort worden vrijgegeven.
De integratie van AI-agenten in economische markten verandert het landschap van strategische interactie fundamenteel. Wij onderzoeken de economische implicaties van het uitbreiden van de reeks beschikbare technologieën in drie klassieke speltheoretische situaties: onderhandelingen (verdeling van middelen), onderhandelingen met asymmetrische informatie (handel) en overtuiging (strategische informatieoverdracht). Wij constateren dat het simpelweg vergroten van de keuze aan AI-afgevaardigden de evenwichtsuitkomsten en regelgevingsresultaten drastisch kan doen verschuiven, wat vaak prikkels creëert voor toezichthouders om proactief technologieën te ontwikkelen en vrij te geven. Omgekeerd identificeren wij een strategisch fenomeen, het "Vergiftigde Appel"-effect genaamd: een agent kan een nieuwe technologie vrijgeven die noch hij, noch zijn tegenstander uiteindelijk gebruikt, uitsluitend om de keuze van de toezichthouder voor marktontwerp in zijn voordeel te manipuleren. Deze strategische vrijgave verbetert het welzijn van de vrijgever ten koste van de tegenstander en de eerlijkheidsdoelstellingen van de toezichthouder. Onze bevindingen tonen aan dat statische regelgevingskaders kwetsbaar zijn voor manipulatie via technologische expansie, wat de noodzaak aantoont van dynamische marktontwerpen die zich aanpassen aan het evoluerende landschap van AI-mogelijkheden.
Het mogelijk maken voor Large Language Models (LLM's) om effectief gebruik te maken van tools in meerdaagse interacties is essentieel voor het bouwen van capabele autonome agents. Het verwerven van diverse en realistische meerdaagse toolgebruiksdata blijft echter een aanzienlijke uitdaging. In dit werk stellen wij een nieuw tekstgebaseerd paradigma voor. Wij observeren dat tekstuele corpora van nature rijke, meerstaps probleemoplossende ervaringen bevatten, die kunnen dienen als een onbenutte, schaalbare en authentieke databron voor meerdaagse toolgebruikstaken. Gebaseerd op dit inzicht introduceren wij GEM, een datasynthesepijplijn die de generatie en extractie van meerdaagse toolgebruikstrajecten uit tekstcorpora mogelijk maakt via een vierstappenproces: relevantiefiltering, workflow- & tool extractie, trajectverankering en complexiteitsverfijning. Om de rekenkosten te verlagen, trainen wij verder een gespecialiseerde Traject Synthesizer via supervised fine-tuning. Dit model distilleert de complexe generatiepijplijn tot een efficiënte, end-to-end trajectgenerator. Experimenten tonen aan dat onze GEM-32B een verbetering van 16,5% behaalt op de BFCL V3 Multi-turn benchmark. Onze modellen overtreffen gedeeltelijk de prestaties van modellen getraind op τ-bench (Airline en Retail) domein-specifieke data, wat de superieure generalisatiecapaciteit benadrukt die voortkomt uit ons tekstgebaseerde syntheseparadigma. Opmerkelijk is dat onze Traject Synthesizer de kwaliteit van de volledige pijplijn evenaart, terwijl de inferentielatentie en -kosten aanzienlijk worden verminderd.
Autonome agents gebaseerd op grote taalmodellen (LLM's) vertonen veelzijdige capaciteiten om substantieel bij te dragen aan economische productie. Bestaande benchmarks richten zich echter nog steeds op één enkele agent-capaciteit, waardoor ze geen langetermijn, realistische scenario's kunnen vastleggen. Bovendien creëert de afhankelijkheid van menselijke feedback (human-in-the-loop) voor realistische taken een schaalbaarheidsprobleem, wat de geautomatiseerde verzameling en evaluatie van rollouts belemmert. Om deze kloof te overbruggen, introduceren wij AgencyBench, een uitgebreide benchmark afgeleid van dagelijks AI-gebruik, die 6 kernagent-capaciteiten evalueert in 32 realistische scenario's, bestaande uit 138 taken met specifieke queries, deliverables en beoordelingsrubrics. Deze scenario's vereisen gemiddeld 90 tool-aanroepen, 1 miljoen tokens en uren uitvoeringstijd om op te lossen. Om geautomatiseerde evaluatie mogelijk te maken, gebruiken wij een gebruikerssimulatie-agent om iteratieve feedback te geven en een Docker-sandbox om visuele en functionele beoordelingen op basis van rubrics uit te voeren. Experimenten tonen aan dat closed-source modellen open-source modellen significant overtreffen (48,4% vs. 32,1%). Verdere analyse onthult aanzienlijke verschillen tussen modellen wat betreft resource-efficiëntie, feedback-gestuurde zelfcorrectie en specifieke tool-gebruikvoorkeuren. Ten slotte onderzoeken wij de impact van agent-scaffolds, waarbij we vaststellen dat propriëtaire modellen superieure prestaties vertonen binnen hun eigen ecosystemen (bijv. Claude-4.5-Opus via Claude-Agent-SDK), terwijl open-source modellen duidelijke prestatiepieken vertonen, wat wijst op potentiële optimalisatie voor specifieke uitvoeringsframeworks. AgencyBench dient als een kritieke testomgeving voor de volgende generatie agents en benadrukt de noodzaak van co-optimalisatie van modelarchitectuur met agent-frameworks. Wij zijn van mening dat dit werk licht werpt op de toekomstige richting van autonome agents, en wij geven de volledige benchmark en evaluatietoolkit vrij op https://github.com/GAIR-NLP/AgencyBench.
Gepersonaliseerde grote taalmodellen (LLM's) passen het modelgedrag aan individuele gebruikers aan om de gebruikerservaring te verbeteren, maar personalisatie kan onbedoeld de feitelijke redenering verstoren. Wij tonen aan dat wanneer gepersonaliseerde LLM's worden geconfronteerd met feitelijke vragen, er een fenomeen optreedt waarbij het model antwoorden genereert die zijn afgestemd op de eerdere geschiedenis van een gebruiker in plaats van op de objectieve waarheid. Dit resulteert in personalisatie-geïnduceerde hallucinaties die de feitelijke betrouwbaarheid aantasten en onjuiste overtuigingen kunnen verspreiden, als gevolg van verstrengeling tussen gepersonaliseerde en feitelijke representaties. Om dit probleem aan te pakken, stellen wij Feitelijkheid-Bewarende Gepersonaliseerde Sturing (FPPS) voor, een lichtgewicht benadering tijdens inferentie die personalisatie-geïnduceerde feitelijke vervormingen vermindert terwijl gepersonaliseerd gedrag behouden blijft. Wij introduceren verder PFQABench, de eerste benchmark die is ontworpen om feitelijke en gepersonaliseerde vraagbeantwoording onder personalisatie gezamenlijk te evalueren. Experimenten met verschillende LLM-backbones en personalisatiemethoden tonen aan dat FPPS de feitelijke nauwkeurigheid aanzienlijk verbetert terwijl de gepersonaliseerde prestaties behouden blijven.
Vision-Language-Action (VLA)-modellen zijn naar voren gekomen als essentiële generalistische robotbeleidsregels voor uiteenlopende manipulatietaken, waarbij conventioneel wordt vertrouwd op het direct vertalen van multimodale invoer naar acties via Vision-Language Model (VLM)-inbeddingen. Recente vooruitgang heeft expliciete intermediaire redenering geïntroduceerd, zoals subtaakvoorspelling (taal) of doelbeeldsynthese (visie), om actiegeneratie te sturen. Deze tussentijdse redenering is echter vaak indirect en inherent beperkt in haar vermogen om de volledige, gedetailleerde informatie over te brengen die nodig is voor precieze actie-uitvoering. In plaats daarvan stellen wij dat de meest effectieve vorm van redenering er een is die rechtstreeks in de actieruimte delibereert. Wij introduceren Action Chain-of-Thought (ACoT), een paradigma waarbij het redeneerproces zelf wordt geformuleerd als een gestructureerde reeks grove actie-intenties die het uiteindelijke beleid sturen. In dit artikel stellen wij ACoT-VLA voor, een nieuwe architectuur die het ACoT-paradigma materialiseert. Specifiek introduceren wij twee complementaire componenten: een Explicit Action Reasoner (EAR) en een Implicit Action Reasoner (IAR). De eerste stelt grove referentietrajecten voor als expliciete redeneringsstappen op actieniveau, terwijl de laatste latente actie-priors extraheert uit interne representaties van multimodale invoer, die samen een ACoT vormen die de downstream actiekop conditioneert om gegrond beleidsleren mogelijk te maken. Uitgebreide experimenten in real-world en simulatie-omgevingen tonen de superioriteit van onze voorgestelde methode aan, die respectievelijk 98,5%, 84,1% en 47,4% behaalt op LIBERO, LIBERO-Plus en VLABench.
Recente vooruitgang in 3D-vormgeneratie heeft indrukwekkende resultaten geboekt, maar de meeste bestaande methoden steunen op schone, onbedekte en goed gesegmenteerde invoer. Dergelijke omstandigheden komen in praktijkscenario's zelden voor. Wij presenteren ShapeR, een nieuwe aanpak voor conditionele 3D-vormgeneratie van objecten uit casual vastgelegde sequenties. Gegeven een beeldsequentie benutten we kant-en-klare visueel-inertiële SLAM, 3D-detectiealgoritmen en vision-language modellen om voor elk object een set van sparse SLAM-punten, geposeerde multi-view beelden en machine-gegenereerde bijschriften te extraheren. Een rectified flow transformer, getraind om effectief conditionering op deze modaliteiten toe te passen, genereert vervolgens hoogwaardige metrische 3D-vormen. Om robuustheid te waarborgen tegen de uitdagingen van casual vastgelegde data, zetten we een reeks technieken in, waaronder on-the-fly compositionele augmentaties, een curriculumtrainingsschema dat object- en scène-level datasets omvat, en strategieën om achtergrondrommel te hanteren. Daarnaast introduceren we een nieuwe evaluatiebenchmark bestaande uit 178 *in-the-wild* objecten verspreid over 7 real-world scènes met geometrie-annotaties. Experimenten tonen aan dat ShapeR bestaande benaderingen in deze uitdagende setting significant overtreft, met een verbetering van 2,7x in Chamfer-afstand vergeleken met de state-of-the-art.
Toekomstige bewegingsrepresentaties, zoals optische stroming, bieden enorme waarde voor besturings- en generatieve taken. Het voorspellen van generaliseerbare ruimtelijk dichte bewegingsrepresentaties blijft echter een grote uitdaging, en het leren van dergelijke voorspellingen vanuit ruwe, real-world gegevens is relatief onontgonnen gebied. Wij introduceren FOFPred, een nieuwe taalgeconditioneerd model voor het voorspellen van optische stroming, met een uniforme Vision-Language Model (VLM) en Diffusion-architectuur. Deze unieke combinatie maakt sterke multimodale reasoning mogelijk met pixel-level generatieve nauwkeurigheid voor toekomstige bewegingsvoorspelling. Ons model wordt getraind op web-schaal menselijke activiteitendata – een zeer schaalbare maar ongestructureerde bron. Om zinvolle signalen uit deze ruwe video-bijschriftdata te extraheren, gebruiken we cruciale gegevensvoorverwerkingstechnieken en onze uniforme architectuur met sterke image pretraining. Het getrainde model wordt vervolgens uitgebreid om twee verschillende downstreamtaken in besturing en generatie aan te pakken. Evaluaties op het gebied van robotmanipulatie en videogeneratie onder taalgestuurde condities tonen de domeinoverschrijdende veelzijdigheid van FOFPred aan, wat de waarde bevestigt van een uniforme VLM-Diffusion-architectuur en schaalbaar leren vanuit diverse webgegevens voor toekomstige voorspelling van optische stroming.
Op RL gebaseerd agent-gericht zoeken stelt LLM's in staat om complexe vragen op te lossen via dynamische planning en extern zoeken. Hoewel deze aanpak de nauwkeurigheid aanzienlijk verbetert met agent-beleid geoptimaliseerd via grootschalige reinforcement learning, identificeren we een kritieke kloof in betrouwbaarheid: deze agenten herkennen hun redeneergrenzen niet en geven zelden toe ``IK WEET HET NIET'' (IDK), zelfs wanneer bewijs ontoereikend is of de redenering haar limiet bereikt. Dit gebrek aan betrouwbaarheid leidt vaak tot plausibele maar onbetrouwbare antwoorden, wat aanzienlijke risico's met zich meebrengt in veel realistische scenario's. Daarom stellen wij Boundary-Aware Policy Optimization (BAPO) voor, een nieuw RL-raamwerk ontworpen om betrouwbaar grenswaarnemingsvermogen te ontwikkelen zonder in te boeten aan nauwkeurigheid. BAPO introduceert twee kernelementen: (i) een op groepen gebaseerde beloning die grenswaarneming aanmoedigt, waarbij een IDK-reactie alleen wordt gestimuleerd wanneer de redenering haar limiet bereikt, en (ii) een adaptieve beloningsmodulator die deze beloning strategisch opschort tijdens vroege verkenning, om te voorkomen dat het model IDK als een kortsluiting gaat exploiteren. Uitgebreide experimenten op vier benchmarks tonen aan dat BAPO de algehele betrouwbaarheid van agent-gericht zoeken substantieel verbetert.
De generatie van menselijke bewegingen op basis van tekstprompts heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. Bestaande methoden zijn echter voornamelijk gebaseerd op beschrijvingen op sequentieniveau of actieniveau, vanwege het ontbreken van fijnmazige, op lichaamsdelen gerichte bewegingsannotaties. Dit beperkt hun bestuurbaarheid over individuele lichaamsdelen. In dit werk construeren we een hoogwaardige bewegingsdataset met atomische, temporeel bewuste tekstannotaties op deel-niveau, waarbij we gebruikmaken van de redeneercapaciteiten van grote taalmmodellen (LLM's). In tegenstelling tot eerdere datasets die ofwel gesynchroniseerde deelbeschrijvingen met vaste tijdsegmenten bieden, of uitsluitend vertrouwen op globale sequentielabels, legt onze dataset asynchrone en semantisch verschillende deelbewegingen vast met een fijne temporele resolutie. Gebaseerd op deze dataset introduceren we een op diffusie gebaseerd, deelbewust bewegingsgeneratieraamwerk, genaamd FrankenMotion, waarbij elk lichaamsdeel wordt gestuurd door zijn eigen temporeel gestructureerde tekstprompt. Dit is, voor zover ons bekend, het eerste werk dat atomische, temporeel bewuste annotaties op deel-niveau biedt en een model heeft dat bewegingen kan genereren met zowel ruimtelijke (lichaamsdeel) als temporele (atomische actie) controle. Experimenten tonen aan dat FrankenMotion alle eerdere basismodellen overtreft die voor onze setting zijn aangepast en hertraind, en dat ons model bewegingen kan samenstellen die niet tijdens de training zijn gezien. Onze code en dataset zullen na publicatie openbaar beschikbaar worden gesteld.
Het inzetten van Large Language Models (LLM's) brengt twee gekoppelde uitdagingen met zich mee: (1) monitoring - het inschatten waar een model onderpresteert naarmate verkeer en domeinen veranderen - en (2) verbetering - het prioriteren van data-acquisitie om de grootste prestatiekloof te dichten. Wij testen of een signaal tijdens de inferentiefase de nauwkeurigheid op snipperniveau onder domeinverschuiving kan schatten. Voor elk antwoord berekenen we een uitvoer-entropieprofiel op basis van de next-token-kansverdelingen in de laatste laag (afgeleid van top-k logprobs) en vatten dit samen met elf statistieken. Een lichtgewicht classificatiemodel voorspelt de correctheid per instantie, en het middelen van de voorspelde kansen levert een schatting van de nauwkeurigheid op domeinniveau op. We evalueren de methode op tien STEM-redeneerbenchmarks met uitgebreide train/test-combinaties (k in {1,2,3,4}; alle "10 choose k" combinaties), over negen LLM's uit zes families (3B-20B). De schattingen volgen vaak de verborgen benchmarknauwkeurigheid, en verschillende modellen vertonen een bijna-monotone ordening van domeinen. Uitvoer-entropieprofielen vormen dus een toegankelijk signaal voor schaalbare monitoring en voor het gericht aansturen van data-acquisitie.
Supervised fine-tuning (SFT) is een fundamentele post-trainingstrategie om Large Language Models (LLM's) af te stemmen op menselijke intenties. Traditionele SFT negeert echter vaak het één-op-veel-karakter van taal door de afstemming te forceren op een enkel referentieantwoord, wat leidt tot overfitting van het model aan niet-kernachtige uitdrukkingen. Hoewel onze empirische analyse suggereert dat het introduceren van meerdere referentieantwoorden dit probleem kan verzachten, maken de buitensporige data- en rekenkosten een strategische verschuiving noodzakelijk: het prioriteren van het beperken van overfitting door een enkel referentieantwoord boven de kostbare zoektocht naar antwoorddiversiteit. Om dit te bereiken, onthullen we de intrinsieke verbinding tussen tokenwaarschijnlijkheid en semantisch belang: tokens met een hoge waarschijnlijkheid dragen het kernlogische raamwerk, terwijl tokens met een lage waarschijnlijkheid grotendeels vervangbare uitdrukkingen zijn. Gebaseerd op dit inzicht stellen we ProFit voor, dat selectief tokens met een lage waarschijnlijkheid maskeert om overfitting aan het oppervlakteniveau te voorkomen. Uitgebreide experimenten bevestigen dat ProFit consistent beter presteert dan traditionele SFT-baselines op algemene redeneer- en wiskundige benchmarks.
Grote taalmodellen hebben opmerkelijke capaciteiten bereikt in diverse domeinen, maar de mechanismen die ten grondslag liggen aan geavanceerd redeneren blijven ongrijpbaar. Recente redeneermodellen presteren beter dan vergelijkbare instructie-afgestemde modellen bij complexe cognitieve taken, wat wordt toegeschreven aan uitgebreidere berekeningen via langere denkketens. Hier tonen we aan dat verbeterd redeneren niet alleen voortkomt uit uitgebreidere berekening, maar uit het simuleren van multi-agent-achtige interacties – een *samenleving van denken* – die diversificatie en debat mogelijk maakt tussen interne cognitieve perspectieven die worden gekenmerkt door onderscheidende persoonlijkheidstrekken en domeinexpertise. Door middel van kwantitatieve analyse en mechanistische interpreteerbaarheidsmethoden toegepast op redeneersporen, vinden we dat redeneermodellen zoals DeepSeek-R1 en QwQ-32B een veel grotere perspectiefdiversiteit vertonen dan instructie-afgestemde modellen, waarbij ze een breder conflict activeren tussen heterogene, met persoonlijkheid en expertise verbonden kenmerken tijdens het redeneren. Deze multi-agentstructuur manifesteert zich in conversationeel gedrag, waaronder vraag-antwoordinteracties, perspectiefwisselingen en het verzoenen van tegenstrijdige opvattingen, en in sociaal-emotionele rollen die scherpe heen-en-weergesprekken kenmerken, wat gezamenlijk het nauwkeurigheidsvoordeel bij redeneertaken verklaart. Gecontroleerde reinforcement learning-experimenten onthullen dat basismodellen conversationeel gedrag versterken wanneer ze uitsluitend worden beloond voor redeneernauwkeurigheid, en het finetunen van modellen met conversationele ondersteuning versnelt de verbetering in redeneren ten opzichte van basismodellen. Deze bevindingen geven aan dat de sociale organisatie van denken effectieve verkenning van oplossingsruimten mogelijk maakt. Wij suggereren dat redeneermodellen een computationeel equivalent vormen voor collectieve intelligentie in menselijke groepen, waar diversiteit superieure probleemoplossing mogelijk maakt wanneer deze systematisch gestructureerd is, wat nieuwe mogelijkheden suggereert voor agentorganisatie om de wijsheid van de menigte te benutten.
Fysische principes zijn fundamenteel voor realistische visuele simulatie, maar blijven een significante tekortkoming in transformator-gebaseerde videogeneratie. Deze kloof benadrukt een kritische beperking in het weergeven van starre-lichamenbeweging, een kernprincipe van de klassieke mechanica. Terwijl computergraphics en fysica-gebaseerde simulators dergelijke botsingen eenvoudig kunnen modelleren met Newton-formules, verwerpen moderne pretrain-finetune paradigma's het concept van starre lichamen tijdens pixelgewijze globale denoising. Zelfs perfect correcte wiskundige beperkingen worden behandeld als suboptimale oplossingen (d.w.z. condities) tijdens modeloptimalisatie na training, wat de fysische realiteit van gegenereerde video's fundamenteel beperkt. Gemotiveerd door deze overwegingen introduceren wij, voor het eerst, een fysica-bewust reinforcement learning paradigma voor videogeneratiemodellen dat fysische botsingsregels direct afdwingt in hoogdimensionale ruimten, zodat fysicakennis strikt wordt toegepast in plaats van behandeld als condities. Vervolgens breiden we dit paradigma uit naar een uniform raamwerk, genaamd Mimicry-Discovery Cycle (MDcycle), dat substantiële fine-tuning mogelijk maakt terwijl het vermogen van het model om fysica-gebaseerde feedback te benutten volledig behouden blijft. Om onze aanpak te valideren, construeren we de nieuwe benchmark PhysRVGBench en voeren we uitgebreide kwalitatieve en kwantitatieve experimenten uit om de effectiviteit grondig te beoordelen.
Outputdiversiteit is cruciaal voor grote taalmodellen omdat het pluralisme en creativiteit ondersteunt. In dit werk tonen we aan dat het controleren van de taal die wordt gebruikt tijdens het denken van het model - de 'denktaal' - een nieuwe en structurele bron van outputdiversiteit biedt. Onze voorlopige studie toont aan dat verschillende denktalen afzonderlijke regio's innemen in de denkruimte van een model. Op basis van deze observatie bestuderen we twee herhaalde steekproefstrategieën onder meertalig denken: 'Enkele-Taal Steekproefname' en 'Gemengde-Taal Steekproefname', en voeren we diversiteitsevaluaties uit op outputs die gecontroleerd zijn om in het Engels te zijn, ongeacht de gebruikte denktaal. Uit uitgebreide experimenten blijkt dat het wisselen van de denktaal van Engels naar niet-Engelse talen consistent de outputdiversiteit verhoogt, met een duidelijke en consistente positieve correlatie waarbij talen die verder van het Engels af liggen in de denkruimte grotere winsten opleveren. We tonen verder aan dat het samenvoegen van steekproeven over meerdere denktalen extra verbeteringen oplevert door compositionele effecten, en dat het opschalen van steekproefname met linguïstische heterogeniteit de diversiteitslimiet van het model verruimt. Tot slot laten we zien dat deze bevindingen vertaald worden naar praktische voordelen in pluralistische afstemmingsscenario's, wat leidt tot een bredere dekking van culturele kennis en waarderichtingen in LLM-outputs. Onze code is openbaar beschikbaar op https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.
De mogelijkheden van geavanceerde taalmodeltechnologie verbeteren snel. Daarom zijn sterkere maatregelen nodig om misbruik van deze krachtigere systemen door kwaadwillenden te voorkomen. Eerder onderzoek heeft aangetoond dat activatietests een veelbelovende techniek kunnen zijn om misbruik tegen te gaan, maar wij identificeren een belangrijk resterend probleem: deze tests generaliseren niet goed onder essentiële distributieverschuivingen in productieomgevingen. Met name de overgang van invoer met korte context naar invoer met lange context blijkt moeilijk voor bestaande testarchitecturen. Wij stellen verschillende nieuwe testarchitecturen voor die deze distributieverschuiving voor lange context aanpakken. Wij evalueren deze tests binnen het cyberoffensieve domein en toetsen hun robuustheid tegen verschillende productiegerelateerde verschuivingen, waaronder meerzijdige gesprekken, statische jailbreaks en adaptieve red teaming. Onze resultaten tonen aan dat hoewel multimax de contextlengte adresseert, een combinatie van architectuurkeuze en training op diverse distributies nodig is voor brede generalisatie. Daarnaast laten wij zien dat het combineren van tests met geprompte classificatoren optimale nauwkeurigheid bereikt tegen lage kosten dankzij de computationele efficiëntie van tests. Deze bevindingen hebben bijgedragen aan de succesvolle implementatie van misbruikpreventietests in gebruikersgerichte instanties van Gemini, Google's geavanceerde taalmodel. Tenslotte constateren wij eerste positieve resultaten met AlphaEvolve voor het automatiseren van verbeteringen in zowel testarchitectuurzoektochten als adaptieve red teaming, wat aantoont dat automatisering van sommig AI-veiligheidsonderzoek reeds mogelijk is.
Hoewel GUI-agenten sterke prestaties leveren bij expliciete en complete instructies, vereist real-world implementatie afstemming op de complexere impliciete intenties van gebruikers. In dit werk belichten we Hiërarchische Impliciete Intentie-Afstemming voor Gepersonaliseerde GUI-Agenten (PersonalAlign), een nieuwe agententaak die vereist dat agenten langetermijngebruikersgegevens als persistente context benutten om weggelaten voorkeuren in vage instructies op te lossen en latente routines te anticiperen op basis van de gebruikersstatus voor proactieve ondersteuning. Om deze studie te faciliteren, introduceren we AndroidIntent, een benchmark ontworpen om het vermogen van agenten te evalueren in het oplossen van vage instructies en het bieden van proactieve suggesties door redeneren over langetermijngebruikersgegevens. We hebben 775 gebruikersspecifieke voorkeuren en 215 routines geannoteerd uit 20.000 langetermijngegevens van verschillende gebruikers voor evaluatie. Verder introduceren we de Hiërarchische Intentie-Geheugen-Agent (HIM-Agent), die een continu bijgewerkt persoonlijk geheugen onderhoudt en gebruikersvoorkeuren en routines hiërarchisch organiseert voor personalisatie. Ten slotte evalueren we een reeks GUI-agenten op AndroidIntent, waaronder GPT-5, Qwen3-VL en UI-TARS. De resultaten tonen aan dat HIM-Agent zowel de uitvoerings- als proactieve prestaties significant verbetert met respectievelijk 15,7% en 7,3%.
Grote Vision-Taalmodellen (LVLM's) hebben opmerkelijke capaciteiten getoond, maar hun vaardigheid in het begrijpen en redeneren over meerdere afbeeldingen blijft grotendeels ononderzocht. Hoewel bestaande benchmarks de evaluatie van multi-image modellen hebben ingezet, ontbreekt het nog steeds aan een uitgebreide analyse van hun kernzwaktes en de oorzaken daarvan. In dit werk introduceren we MIMIC (Multi-Image Model Insights and Challenges), een nieuwe benchmark die ontworpen is om de multi-image capaciteiten van LVLM's rigoureus te evalueren. Met behulp van MIMIC voeren we een reeks diagnostische experimenten uit die alomtegenwoordige problemen blootleggen: LVLM's falen vaak in het aggregeren van informatie over afbeeldingen heen en hebben moeite met het volgen of aandacht schenken aan meerdere concepten tegelijkertijd. Om deze tekortkomingen aan te pakken, stellen we twee nieuwe complementaire oplossingen voor. Aan de data-kant presenteren we een procedurele strategie voor datageneratie die annotaties van enkele afbeeldingen samenstelt tot rijke, gerichte multi-image trainingsvoorbeelden. Aan de optimalisatie-kant analyseren we aandachtspatronen per laag en leiden we een aandacht-maskeringsschema af dat is toegesneden op multi-image invoer. Experimenten verbeterden de aggregatie tussen afbeeldingen aanzienlijk, terwijl ook de prestaties op bestaande multi-image benchmarks verbeterden, waarbij eerdere state-of-the-art resultaten op verschillende taken werden overtroffen. Data en code zullen beschikbaar worden gesteld op https://github.com/anurag-198/MIMIC.
Recente vooruitgang in agent-gestuurde grote taalmodellen (LLM's) heeft hen gepositioneerd als generalistische planners die kunnen redeneren en handelen in uiteenlopende taken. Bestaande benchmarks voor agents richten zich echter grotendeels op symbolische of zwak gegronde omgevingen, waardoor hun prestaties in fysiek beperkte, realistische domeinen onderbelicht blijven. Wij introduceren AstroReason-Bench, een uitgebreide benchmark voor het evalueren van agent-gestuurd plannen in Ruimteplanningsproblemen (SPP), een familie van hoog-risicoproblemen met heterogene doelstellingen, strikte fysieke beperkingen en besluitvorming over lange tijdshorizons. AstroReason-Bench integreert meerdere planningsregimes, inclusief communicatie met grondstations en flexibele aardobservatie, en biedt een uniform, agent-georiënteerd interactieprotocol. Evaluatie van een reeks state-of-the-art agent-gestuurde LLM-systemen, zowel open-source als closed-source, toont aan dat huidige agents aanzienlijk onderpresteren in vergelijking met gespecialiseerde oplossers. Dit benadrukt cruciale beperkingen van generalistisch plannen onder realistische beperkingen. AstroReason-Bench biedt een uitdagende en diagnostische testomgeving voor toekomstig agent-gericht onderzoek.
Recente op diffusie gebaseerde videogeneratiemodellen kunnen visueel plausibele video's synthetiseren, maar worstelen vaak met het voldoen aan fysische randvoorwaarden. Een belangrijke reden is dat de meeste bestaande benaderingen enkelstaps blijven: zij verstrengelen hoogwaardig fysisch begrip met laagwaardige visuele synthese, waardoor het lastig is om inhoud te genereren die expliciete fysische redenering vereist. Om deze beperking aan te pakken, stellen wij een trainingsvrije driestaps pijplijn voor, PhyRPR: PhyReason–PhyPlan–PhyRefine, die fysisch begrip ontkoppelt van visuele synthese. Concreet gebruikt PhyReason een groot multimodaal model voor fysische toestandsredenering en een beeldgenerator voor keyframe-synthese; PhyPlan synthetiseert deterministisch een bestuurbaar grof bewegingsraamwerk; en PhyRefine injecteert dit raamwerk via een latente fusiestrategie in diffusiebemonstering om de verschijning te verfijnen terwijl de geplande dynamiek behouden blijft. Deze gefaseerde ontwerp maakt expliciete fysische controle tijdens generatie mogelijk. Uitgebreide experimenten onder fysische randvoorwaarden tonen aan dat onze methode consistent de fysische plausibiliteit en bewegingsbestuurbaarheid verbetert.
Wij bestuderen datacuratie voor multimodale redeneervaardigheden via de NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) challenge, waarbij datasetselectie wordt geïsoleerd door het model en trainingsprotocol vast te leggen. Met behulp van een compacte, gecureerde dataset, voornamelijk afgeleid van Walton Multimodal Cold Start, eindigde onze inzending als eerste in de challenge. Via post-competitie ablatiestudies tonen we aan dat selectie van voorbeelden op basis van moeilijkheidsgraad in een uitgelijnde basisdataset de belangrijkste drijvende kracht is voor prestatieverbetering. Het vergroten van de datasetgrootte verbetert de gemiddelde nauwkeurigheid niet betrouwbaar onder het vaste trainingsrecept, maar vermindert voornamelijk de run-to-run variantie, terwijl veelgebruikte heuristieken voor diversiteit en synthetische augmentatie geen extra voordeel bieden en vaak de prestaties verslechteren. Deze resultaten karakteriseren DCVLR als een evaluatie in het verzadigingsregime en benadrukken de centrale rol van uitlijning en moeilijkheidsgraad bij data-efficiënt multimodaal redeneren.