Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel onderzoeken we recente vooruitgang in Reinforcement Learning (RL) voor redeneren met Large Language Models (LLMs). RL heeft opmerkelijke successen geboekt in het verleggen van de grenzen van LLM-mogelijkheden, met name bij het aanpakken van complexe logische taken zoals wiskunde en programmeren. Hierdoor is RL uitgegroeid tot een fundamentele methodologie voor het transformeren van LLMs in LRMs. Met de snelle vooruitgang in dit vakgebied wordt verdere schaalvergroting van RL voor LRMs nu geconfronteerd met fundamentele uitdagingen, niet alleen op het gebied van rekenbronnen, maar ook in algoritmeontwerp, trainingsdata en infrastructuur. Daarom is het tijd om de ontwikkeling van dit domein opnieuw te bekijken, de trajecten te herzien en strategieën te verkennen om de schaalbaarheid van RL richting Artificial SuperIntelligence (ASI) te verbeteren. In het bijzonder onderzoeken we onderzoek dat RL toepast op LLMs en LRMs voor redeneervaardigheden, vooral sinds de release van DeepSeek-R1, inclusief fundamentele componenten, kernproblemen, trainingsbronnen en downstream-toepassingen, om toekomstige kansen en richtingen voor dit snel evoluerende gebied te identificeren. We hopen dat deze review toekomstig onderzoek naar RL voor bredere redeneermodellen zal bevorderen. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
Beloningsmodellen (RMs) zijn cruciaal voor het verbeteren van generatiemodellen via Reinforcement Learning (RL), maar het schaalparadigma van RMs in visuele generatie blijft grotendeels onontgonnen. Dit komt voornamelijk door fundamentele beperkingen in bestaande benaderingen: CLIP-gebaseerde RMs lijden onder architectonische en inputmodaliteitsbeperkingen, terwijl veelgebruikte Bradley-Terry-verliezen fundamenteel niet in lijn zijn met het volgende-token-voorspellingsmechanisme van Vision-Language Models (VLMs), wat effectieve schaalbaarheid belemmert. Nog kritischer is dat het RLHF-optimalisatieproces wordt geplaagd door het probleem van "Reward Hacking", waarbij modellen gebreken in het beloningssignaal uitbuiten zonder de werkelijke kwaliteit te verbeteren. Om deze uitdagingen aan te pakken, introduceren we RewardDance, een schaalbaar beloningsmodelraamwerk dat deze barrières overwint via een nieuw generatief beloningsparadigma. Door de beloningsscore te herformuleren als de waarschijnlijkheid van het model om een "ja"-token te voorspellen, wat aangeeft dat de gegenereerde afbeelding een referentieafbeelding overtreft volgens specifieke criteria, stemt RewardDance de beloningsdoelen intrinsiek af op VLM-architecturen. Deze afstemming maakt schaalbaarheid mogelijk in twee dimensies: (1) Modelschaal: Systematische schaalbaarheid van RMs tot 26 miljard parameters; (2) Contextschaal: Integratie van taakspecifieke instructies, referentievoorbeelden en chain-of-thought (CoT)-redenering. Uitgebreide experimenten tonen aan dat RewardDance state-of-the-art methoden aanzienlijk overtreft in tekst-naar-afbeelding, tekst-naar-video en afbeelding-naar-video generatie. Cruciaal is dat we het hardnekkige probleem van "reward hacking" oplossen: Onze grootschalige RMs vertonen en behouden een hoge beloningsvariantie tijdens RL-finetuning, wat hun weerstand tegen hacking en hun vermogen om diverse, hoogwaardige outputs te produceren bewijst. Dit verlicht het modus-collapse-probleem dat kleinere modellen teistert aanzienlijk.
Het ontwikkelen van autonome LLM-agenten die in staat zijn een reeks intelligente beslissingen te nemen om complexe, real-world taken op te lossen, is een snel evoluerend onderzoeksgebied. Net als bij menselijke cognitieve ontwikkeling, wordt verwacht dat agenten kennis en vaardigheden verwerven door exploratie en interactie met de omgeving. Ondanks vooruitgang ontbreekt het de gemeenschap nog aan een uniform, interactief reinforcement learning (RL) raamwerk dat dergelijke agenten effectief van scratch kan trainen — zonder te vertrouwen op supervised fine-tuning (SFT) — in diverse en realistische omgevingen. Om deze kloof te overbruggen, introduceren we AgentGym-RL, een nieuw raamwerk om LLM-agenten te trainen voor multi-turn interactieve besluitvorming via RL. Het raamwerk kenmerkt zich door een modulaire en ontkoppelde architectuur, wat zorgt voor hoge flexibiliteit en uitbreidbaarheid. Het omvat een breed scala aan real-world scenario's en ondersteunt mainstream RL-algoritmen. Bovendien stellen we ScalingInter-RL voor, een trainingsbenadering die is ontworpen voor een balans tussen exploratie en exploitatie en stabiele RL-optimalisatie. In de vroege fasen legt het de nadruk op exploitatie door het aantal interacties te beperken, en verschuift het geleidelijk naar exploratie met grotere horizonnen om diverse probleemoplossende strategieën aan te moedigen. Op deze manier ontwikkelt de agent meer diverse gedragingen en is hij minder gevoelig voor instorting bij lange horizonnen. We voeren uitgebreide experimenten uit om de stabiliteit en effectiviteit van zowel het AgentGym-RL raamwerk als de ScalingInter-RL benadering te valideren. Onze agenten evenaren of overtreffen commerciële modellen op 27 taken in diverse omgevingen. We bieden belangrijke inzichten en zullen het complete AgentGym-RL raamwerk — inclusief code en datasets — open source maken om de onderzoeksgemeenschap in staat te stellen de volgende generatie intelligente agenten te ontwikkelen.
Wereldmodellering is een hoeksteen geworden in AI-onderzoek, waardoor agentsystemen de dynamische omgevingen waarin ze opereren kunnen begrijpen, representeren en voorspellen. Hoewel eerder werk zich vooral richtte op generatieve methoden voor 2D-beeld- en videodata, wordt het snel groeiende onderzoek dat gebruikmaakt van native 3D- en 4D-representaties zoals RGB-D-beelden, occupancy grids en LiDAR-puntenwolken voor grootschalige scènemodellering vaak over het hoofd gezien. Tegelijkertijd heeft het ontbreken van een gestandaardiseerde definitie en taxonomie voor "wereldmodellen" geleid tot gefragmenteerde en soms inconsistente claims in de literatuur. Deze survey behandelt deze leemtes door de eerste uitgebreide review te presenteren die expliciet gewijd is aan 3D- en 4D-wereldmodellering en -generatie. We stellen nauwkeurige definities vast, introduceren een gestructureerde taxonomie die video-gebaseerde (VideoGen), occupancy-gebaseerde (OccGen) en LiDAR-gebaseerde (LiDARGen) benaderingen omvat, en vatten systematisch datasets en evaluatiemetrices samen die zijn toegespitst op 3D/4D-instellingen. Daarnaast bespreken we praktische toepassingen, identificeren we open uitdagingen en belichten we veelbelovende onderzoeksrichtingen, met als doel een coherent en fundamenteel referentiekader te bieden voor de verdere ontwikkeling van het vakgebied. Een systematische samenvatting van de bestaande literatuur is beschikbaar op https://github.com/worldbench/survey.
Het segmenteren van 3D-assets in hun samenstellende onderdelen is cruciaal voor het verbeteren van 3D-begrip, het vergemakkelijken van modelhergebruik en het ondersteunen van diverse toepassingen zoals onderdeelgeneratie. Huidige methoden hebben echter beperkingen, zoals een gebrek aan robuustheid bij het omgaan met complexe objecten en kunnen het proces niet volledig automatiseren. In dit artikel stellen we een native 3D punt-promptbaar onderdeelsegmentatiemodel voor, genaamd P3-SAM, dat is ontworpen om de segmentatie van elk 3D-object in componenten volledig te automatiseren. Geïnspireerd door SAM bestaat P3-SAM uit een feature-extractor, meerdere segmentatiekoppen en een IoU-voorspeller, wat interactieve segmentatie voor gebruikers mogelijk maakt. We stellen ook een algoritme voor om automatisch maskers te selecteren en samen te voegen die door ons model zijn voorspeld voor onderdeelinstantiesegmentatie. Ons model is getraind op een nieuw gebouwde dataset die bijna 3,7 miljoen modellen bevat met redelijke segmentatielabels. Vergelijkingen tonen aan dat onze methode nauwkeurige segmentatieresultaten en sterke robuustheid op elk complex object bereikt, wat resulteert in state-of-the-art prestaties. Onze code zal binnenkort worden vrijgegeven.
Het opschalen van rekenkracht tijdens testen, door het genereren van meerdere onafhankelijke oplossingen en het selecteren of aggregeren daarvan, is een centrale paradigma geworden voor het verbeteren van grote taalmodellen (LLMs) op uitdagende redeneertaken. Hoewel de meeste eerdere werken vertrouwen op eenvoudige meerderheidsstemming of rangschikking door beloningsmodellen om oplossingen te aggregeren, kunnen deze benaderingen slechts beperkte voordelen opleveren. In dit werk stellen we voor om aggregatie te leren als een expliciete redeneervaardigheid: gegeven een set kandidaatoplossingen, trainen we een aggregatiemodel om een definitief, correct antwoord te beoordelen, af te stemmen en samen te stellen met behulp van reinforcement learning op basis van verifieerbare beloningen. Een belangrijk ingrediënt is het zorgvuldig balanceren van eenvoudige en moeilijke trainingsvoorbeelden, waardoor het model zowel kan leren om minderheidsmaar-correcte antwoorden te herstellen als eenvoudige meerderheidscorrecte antwoorden. Empirisch vinden we dat onze methode, AggLM, zowel sterke op regels gebaseerde als beloningsmodel-baselines overtreft, over meerdere benchmarks. Bovendien generaliseert het effectief naar oplossingen van verschillende modellen, inclusief sterkere dan die in de trainingsdata zijn opgenomen, terwijl het aanzienlijk minder tokens vereist dan meerderheidsstemming met een groter aantal oplossingen.
In dit rapport introduceren we Hunyuan-MT-7B, ons eerste open-source meertalige vertaalmodel, dat bidirectionele vertaling ondersteunt voor 33 belangrijke talen, met een speciale nadruk op vertaling tussen Mandarijn en verschillende etnische minderheidstalen en dialecten. Bovendien introduceren we, om diverse vertaal scenario's te bedienen en de modelprestaties tijdens het testen te verbeteren, Hunyuan-MT-Chimera-7B, een vertaalmodel geïnspireerd door de langzame denkmodus. Dit model integreert meerdere uitvoeren gegenereerd door het Hunyuan-MT-7B-model onder verschillende parameterinstellingen, waardoor het prestaties bereikt die superieur zijn aan die van conventionele langzaam-denkende modellen gebaseerd op Chain-of-Thought (CoT). De ontwikkeling van onze modellen volgt een holistisch trainingsproces specifiek ontworpen voor meertalige vertaling, dat begint met algemene en MT-gerichte vooropleiding om fundamentele capaciteiten op te bouwen, doorgaat met Supervised Fine-Tuning (SFT) voor taakspecifieke aanpassing, en culmineert in geavanceerde afstemming via Reinforcement Learning (RL) en zwak-naar-sterk RL. Door uitgebreide experimenten tonen we aan dat zowel Hunyuan-MT-7B als Hunyuan-MT-Chimera-7B aanzienlijk beter presteren dan alle vertaalspecifieke modellen van vergelijkbare parameteromvang en de meeste SOTA grote modellen, met name bij de taak van vertaling tussen Mandarijn en minderheidstalen en dialecten. In de WMT2025 gedeelde taak (General Machine Translation) demonstreren onze modellen state-of-the-art prestaties, waarbij ze de eerste plaats behalen in 30 van de 31 taalparen. Dit resultaat benadrukt de robuustheid van onze modellen over een diverse linguïstische spectrum, variërend van hoog-resource talen zoals Chinees, Engels en Japans, tot laag-resource talen zoals Tsjechisch, Marathi, Ests en IJslands.
Moderne Large Language Models (LLMs) zijn uitstekend in het genereren van synthetische data. Hun prestaties in gevoelige domeinen zoals tekstdetoxicatie hebben echter niet de nodige aandacht gekregen van de wetenschappelijke gemeenschap. Dit artikel onderzoekt de mogelijkheid om door LLM gegenereerde synthetische giftige data te gebruiken als alternatief voor door mensen gegenereerde data voor het trainen van modellen voor detoxicatie. Met behulp van Llama 3 en Qwen activation-patched modellen hebben we synthetische giftige tegenhangers gegenereerd voor neutrale teksten uit de ParaDetox- en SST-2 datasets. Onze experimenten tonen aan dat modellen die zijn afgestemd op synthetische data consistent slechter presteren dan die getraind op menselijke data, met een prestatieverlies van tot 30% in gezamenlijke metrieken. De oorzaak wordt geïdentificeerd als een kritieke kloof in lexicale diversiteit: LLM's genereren giftige inhoud met een kleine, repetitieve woordenschat van beledigingen die de nuances en variatie van menselijke toxiciteit niet vastleggen. Deze bevindingen benadrukken de beperkingen van huidige LLM's in dit domein en onderstrepen het voortdurende belang van diverse, door mensen geannoteerde data voor het bouwen van robuuste detoxicatiesystemen.
Generatieve Kunstmatige Intelligentie ontwikkelt zich als een belangrijke technologie, die veelbelovend is om transformerend te werken in diverse domeinen. Tegelijkertijd zijn generatieve AI-technieken gebaseerd op steekproeven uit probabilistische modellen, en standaard bieden ze geen garanties over correctheid, veiligheid, eerlijkheid of andere eigenschappen. Statistische methoden bieden een veelbelovende potentiële aanpak om de betrouwbaarheid van generatieve AI-technieken te verbeteren. Daarnaast zijn statistische methoden ook veelbelovend voor het verbeteren van de kwaliteit en efficiëntie van AI-evaluatie, evenals voor het ontwerpen van interventies en experimenten in AI. In dit artikel bespreken we een deel van het bestaande werk over deze onderwerpen, waarbij we zowel de algemene statistische technieken uitleggen als hun toepassingen op generatieve AI. We bespreken ook beperkingen en mogelijke toekomstige richtingen.
De brede beschikbaarheid van open-source repositories heeft geleid tot een uitgebreide verzameling herbruikbare softwarecomponenten, maar het gebruik ervan blijft handmatig, foutgevoelig en losstaand. Ontwikkelaars moeten documentatie doornemen, API's begrijpen en integratiecode schrijven, wat aanzienlijke barrières creëert voor efficiënt softwarehergebruik. Om dit aan te pakken, presenteren we EnvX, een framework dat gebruikmaakt van Agentic AI om GitHub repositories te 'agentiseren', waardoor ze worden omgevormd tot intelligente, autonome agents die in staat zijn tot natuurlijke taalinteractie en inter-agent samenwerking. In tegenstelling tot bestaande benaderingen die repositories behandelen als statische codebronnen, herdefinieert EnvX ze als actieve agents via een drietrapsproces: (1) TODO-gestuurde omgevingsinitialisatie, die de benodigde afhankelijkheden, data en validatiedatasets opzet; (2) mensgericht agentic automatisering, waardoor repository-specifieke agents autonoom real-world taken kunnen uitvoeren; en (3) het Agent-to-Agent (A2A) protocol, dat meerdere agents in staat stelt om samen te werken. Door de mogelijkheden van grote taalmodellen te combineren met gestructureerde toolintegratie, automatiseert EnvX niet alleen codegeneratie, maar het hele proces van begrijpen, initialiseren en operationaliseren van repositoryfunctionaliteit. We evalueren EnvX op de GitTaskBench-benchmark, waarbij we 18 repositories gebruiken in domeinen zoals beeldverwerking, spraakherkenning, documentanalyse en videomanipulatie. Onze resultaten laten zien dat EnvX een uitvoeringsvoltooiingspercentage van 74,07% en een taakvoltooiingspercentage van 51,85% behaalt, wat beter is dan bestaande frameworks. Casestudies tonen verder aan dat EnvX in staat is om samenwerking tussen meerdere repositories mogelijk te maken via het A2A-protocol. Dit werk markeert een verschuiving van het behandelen van repositories als passieve codebronnen naar intelligente, interactieve agents, wat een grotere toegankelijkheid en samenwerking binnen het open-source ecosysteem bevordert.
Naarmate mensen meer taken en beslissingen delegeren aan kunstmatige intelligentie (AI), lopen we het risico de controle over onze individuele en collectieve toekomst te verliezen. Relatief eenvoudige algoritmische systemen sturen nu al menselijke besluitvorming, zoals sociale media-feedalgoritmen die mensen ertoe leiden om onbedoeld en gedachteloos door engagement-geoptimaliseerde inhoud te scrollen. In dit artikel ontwikkelen we het idee van menselijk handelingsvermogen door filosofische en wetenschappelijke theorieën over handelingsvermogen te integreren met AI-ondersteunde evaluatiemethoden: we gebruiken grote taalmodelen (LLM's) om gebruikersvragen te simuleren en te valideren en om AI-reacties te evalueren. We ontwikkelen HumanAgencyBench (HAB), een schaalbare en adaptieve benchmark met zes dimensies van menselijk handelingsvermogen gebaseerd op typische AI-gebruiksscenario's. HAB meet de neiging van een AI-assistent of -agent om Verhelderende Vragen te Stellen, Waardemanipulatie te Vermijden, Misinformatie te Corrigeren, Belangrijke Beslissingen uit te Stellen, Leren te Stimuleren en Sociale Grenzen te Handhaven. We constateren een laag tot matig niveau van ondersteuning voor handelingsvermogen bij hedendaagse LLM-gebaseerde assistenten en aanzienlijke variatie tussen systeemontwikkelaars en dimensies. Zo ondersteunen Anthropic LLM's het menselijk handelingsvermogen over het algemeen het meest, maar zijn ze de minst ondersteunende LLM's op het gebied van Waardemanipulatie Vermijden. Ondersteuning voor handelingsvermogen lijkt niet consistent voort te komen uit toenemende LLM-capaciteiten of instructievolgend gedrag (bijv. RLHF), en we pleiten voor een verschuiving naar robuustere veiligheids- en afstemmingsdoelen.