Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Graphical User Interface (GUI) grounding koppelt natuurlijke taal instructies aan precieze interface locaties voor autonome interactie. Huidige reinforcement learning benaderingen gebruiken binaire beloningen die elementen behandelen als hit-or-miss doelen, wat schaarse signalen creëert die het continue karakter van ruimtelijke interacties negeren. Geïnspireerd door menselijk klikgedrag dat van nature Gaussische distributies vormt die gecentreerd zijn op doelelementen, introduceren we GUI Gaussian Grounding Rewards (GUI-G^2), een principieel beloningskader dat GUI-elementen modelleert als continue Gaussische distributies over het interfacevlak. GUI-G^2 omvat twee synergetische mechanismen: Gaussische puntbeloningen modelleren precieze lokalisatie via exponentieel vervallende distributies gecentreerd op elementcentroïden, terwijl dekkingbeloningen ruimtelijke uitlijning beoordelen door de overlap tussen voorspelde Gaussische distributies en doelregio's te meten. Om diverse elementschalen te hanteren, ontwikkelen we een adaptief variantiemechanisme dat beloningsdistributies kalibreert op basis van elementafmetingen. Dit kader transformeert GUI grounding van schaarse binaire classificatie naar dichte continue optimalisatie, waarbij Gaussische distributies rijke gradiëntsignalen genereren die modellen naar optimale interactieposities leiden. Uitgebreide experimenten over de ScreenSpot, ScreenSpot-v2 en ScreenSpot-Pro benchmarks tonen aan dat GUI-G^2 aanzienlijk beter presteert dan de state-of-the-art methode UI-TARS-72B, met de meest significante verbetering van 24,7% op ScreenSpot-Pro. Onze analyse toont aan dat continue modellering superieure robuustheid biedt tegen interfacevariaties en verbeterde generalisatie naar onbekende lay-outs, wat een nieuw paradigma vestigt voor ruimtelijk redeneren in GUI-interactietaken.
Grote taalmodellen zijn recentelijk geëvolueerd van vloeiende tekstgeneratie naar geavanceerd redeneren over diverse domeinen, wat heeft geleid tot redeneertaalmodellen. Binnen deze domeinen dient wiskundig redeneren als een representatieve benchmark, omdat het precieze, meerstapslogica en abstract redeneren vereist, wat kan worden gegeneraliseerd naar andere taken. Hoewel closed-source RLMs zoals GPT-o3 indrukwekkende redeneervaardigheden demonstreren, beperkt hun propriëtaire aard de transparantie en reproduceerbaarheid. Hoewel veel open-sourceprojecten ernaar streven deze kloof te dichten, ontbreekt het de meeste aan voldoende openheid door het weglaten van kritieke bronnen zoals datasets en gedetailleerde trainingsconfiguraties, wat de reproduceerbaarheid belemmert. Om bij te dragen aan meer transparantie in de ontwikkeling van RLMs, introduceren we de MiroMind-M1-serie, een set volledig open-source RLMs gebouwd op het Qwen-2.5-backbone die de prestaties van bestaande open-source RLMs evenaren of overtreffen. Specifiek worden onze modellen in twee fasen getraind: SFT op een zorgvuldig samengesteld corpus van 719K wiskundige redeneerproblemen met geverifieerde CoT-trajecten, gevolgd door RLVR op 62K uitdagende en verifieerbare problemen. Om de robuustheid en efficiëntie van het RLVR-proces te verbeteren, introduceren we Context-Aware Multi-Stage Policy Optimization, een algoritme dat lengteprogressieve training integreert met een adaptieve herhalingsstraf om contextbewuste RL-training te stimuleren. Ons model behaalt state-of-the-art of competitieve prestaties en superieure token-efficiëntie onder Qwen-2.5-gebaseerde open-source 7B en 32B modellen op de AIME24, AIME25 en MATH benchmarks. Om reproduceerbaarheid te bevorderen, geven we de complete stack vrij: modellen (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); datasets (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); en alle trainings- en evaluatieconfiguraties. We hopen dat deze bronnen verder onderzoek zullen ondersteunen en de gemeenschapsvooruitgang zullen bevorderen.
Recente ontwikkelingen in grote redeneermodellen benadrukken Reinforcement Learning met Verifieerbare Beloningen (RLVR) als een veelbelovende methode om de mogelijkheden van AI te verbeteren, met name bij het oplossen van complexe logische taken. Het blijft echter onduidelijk of RLVR daadwerkelijk de redeneergrens van een model verlegt of slechts hoogbeloonde uitvoer versterkt die het basismodel al kent voor verbeterde precisie. Deze studie presenteert een theoretisch en empirisch onderzoek dat nieuwe inzichten biedt in de mogelijke beperkingen van RLVR. Ten eerste bieden we een nieuw theoretisch perspectief dat RLVR wordt beperkt door de ondersteuning van het basismodel—niet in staat om oplossingen te bemonsteren met een aanvankelijke kans van nul—en fungeert als een conservatief herwegingmechanisme dat de ontdekking van volledig originele oplossingen kan beperken. We identificeren ook een entropie-beloning trade-off: hoewel RLVR betrouwbaar de precisie verbetert, kan het geleidelijk aan de exploratie verkleinen en mogelijk correcte maar ondervertegenwoordigde oplossingen over het hoofd zien. Uitgebreide empirische experimenten valideren dat, hoewel RLVR consistent pass@1 verbetert, de krimp van de empirische ondersteuning over het algemeen zwaarder weegt dan de uitbreiding van de empirische ondersteuning onder grotere bemonsteringsbudgetten, waardoor correcte antwoorden die eerder toegankelijk waren voor het basismodel niet worden hersteld. Interessant is dat we ook observeren dat, hoewel RLVR soms de entropie op tokenniveau verhoogt, wat resulteert in grotere onzekerheid bij elke generatiestap, de entropie op antwoordniveau afneemt, wat aangeeft dat deze schijnbaar onzekere paden uiteindelijk convergeren naar een kleinere set van verschillende antwoorden. Samen genomen onthullen deze bevindingen de potentiële beperkingen van RLVR in het uitbreiden van redeneerhorizons. Het doorbreken van deze onzichtbare beperking kan toekomstige algoritmische innovaties vereisen, zoals expliciete exploratiemechanismen of hybride strategieën die waarschijnlijkheidsmassa toevoegen aan ondervertegenwoordigde oplossingsregio's.
De opkomst van agents aangedreven door Large Language Models (LLM) heeft een revolutie teweeggebracht in kunstmatige intelligentie door oplossingen mogelijk te maken voor complexe, open-einde taken via webgebaseerde informatiezoekcapaciteiten (IS). Het gebrek aan hoogwaardige trainingsdata heeft de ontwikkeling van IS-agents beperkt. Bestaande benaderingen hanteren doorgaans een informatiegedreven paradigma waarbij eerst webdata wordt verzameld en vervolgens vragen worden gegenereerd op basis van de retrieval. Dit kan echter leiden tot inconsistentie tussen informatiestructuur en redeneerstructuur, vraag en antwoord. Om dit te verhelpen, stellen we een formalisatiegedreven IS-datasynthesisframework voor, genaamd WebShaper, om een dataset te construeren. WebShaper formaliseert IS-taken systematisch via verzamelingenleer. Centraal in de formalisatie staat het concept van Knowledge Projections (KP), dat precieze controle over de redeneerstructuur mogelijk maakt door KP-operatiecomposities. Tijdens de synthese beginnen we met het creëren van seed-taken, waarna we een meerstaps uitbreidingsproces gebruiken. Bij elke stap breidt een agentische Expander de huidige formele vraag verder uit met behulp van retrieval- en validatietools op basis van onze formalisatie. We trainen ons model op de gesynthetiseerde dataset. Experimentele resultaten tonen aan dat WebShaper state-of-the-art prestaties behaalt onder open-source IS-agents op de GAIA en WebWalkerQA benchmarks.
Recente vooruitgang in generatieve modellering maakt beeldbewerkingsassistenten mogelijk die natuurlijke taal instructies volgen zonder aanvullende gebruikersinvoer. Hun gesuperviseerde training vereist miljoenen triplets: origineel beeld, instructie, bewerkt beeld. Het delven van pixel-accurate voorbeelden is echter moeilijk. Elke bewerking moet alleen de door de prompt gespecificeerde regio's beïnvloeden, stilistische samenhang behouden, fysieke geloofwaardigheid respecteren en visuele aantrekkelijkheid behouden. Het ontbreken van robuuste geautomatiseerde kwaliteitsmetrieken voor bewerkingen belemmert betrouwbare automatisering op grote schaal. We presenteren een geautomatiseerde, modulaire pijplijn die hoogwaardige triplets delft over domeinen, resoluties, instructiecomplexiteiten en stijlen. Gebouwd op openbare generatieve modellen en werkend zonder menselijke tussenkomst, gebruikt ons systeem een taakafgestemde Gemini-validator om instructienaleving en esthetiek direct te beoordelen, waardoor de noodzaak voor segmentatie- of grondingsmodellen wordt weggenomen. Inversie en compositionele bootstrapping vergroten de gedolven set met ongeveer 2,2x, waardoor grootschalige hoogwaardige trainingsdata mogelijk wordt. Door de meest repetitieve annotatiestappen te automatiseren, maakt de aanpak een nieuwe schaal van training mogelijk zonder menselijke labelinspanning. Om onderzoek in dit resource-intensieve gebied te democratiseren, geven we NHR-Edit vrij: een open dataset van 358k hoogwaardige triplets. In de grootste cross-dataset evaluatie overtreft het alle openbare alternatieven. We geven ook Bagel-NHR-Edit vrij, een open-source fijn afgestemd Bagel-model, dat state-of-the-art metrieken behaalt in onze experimenten.
We rapporteren onze recente voortgang in het ontwikkelen van generalistische robotbeleidsmodellen, met de ontwikkeling van GR-3. GR-3 is een grootschalig vision-language-action (VLA) model. Het toont uitzonderlijke mogelijkheden in het generaliseren naar nieuwe objecten, omgevingen en instructies die abstracte concepten omvatten. Bovendien kan het efficiënt worden afgestemd met minimale menselijke trajectgegevens, waardoor snelle en kosteneffectieve aanpassing aan nieuwe situaties mogelijk is. GR-3 blinkt ook uit in het uitvoeren van langetermijn- en behendigheidstaken, inclusief taken die bi-manipulatie en mobiele beweging vereisen, en toont robuuste en betrouwbare prestaties. Deze mogelijkheden worden bereikt door een veelzijdig trainingsrecept dat co-training met web-schaal vision-language gegevens, efficiënte afstemming van menselijke trajectgegevens verzameld via VR-apparaten, en effectieve imitatieleren met robottrajectgegevens omvat. Daarnaast introduceren we ByteMini, een veelzijdige bi-manuele mobiele robot die is ontworpen met uitzonderlijke flexibiliteit en betrouwbaarheid, en die in staat is een breed scala aan taken uit te voeren wanneer geïntegreerd met GR-3. Door uitgebreide experimenten in de echte wereld tonen we aan dat GR-3 de state-of-the-art baseline-methode, pi_0, overtreft op een breed scala aan uitdagende taken. We hopen dat GR-3 een stap kan zijn in de richting van het bouwen van generalistische robots die mensen kunnen assisteren in het dagelijks leven.
Video Object Segmentation (VOS) is een kerntaak in computervisie, waarbij modellen doelobjecten moeten volgen en segmenteren over videoframes. Ondanks aanzienlijke vooruitgang door recente inspanningen, blijven huidige technieken achter bij menselijke capaciteiten in het omgaan met drastische visuele variaties, occlusies en complexe scènewijzigingen. Deze beperking ontstaat door hun afhankelijkheid van uiterlijke overeenkomsten, waarbij het mensachtige conceptuele begrip van objecten dat robuuste identificatie over temporele dynamiek mogelijk maakt, wordt verwaarloosd. Gemotiveerd door deze kloof, stellen we Segment Concept (SeC) voor, een conceptgedreven segmentatieraamwerk dat verschuift van conventionele kenmerkmatching naar de progressieve constructie en benutting van hoogwaardige, objectgerichte representaties. SeC maakt gebruik van Large Vision-Language Models (LVLMs) om visuele aanwijzingen over diverse frames te integreren, waardoor robuuste conceptuele prioriteiten worden geconstrueerd. Tijdens inferentie vormt SeC een uitgebreide semantische representatie van het doelobject op basis van verwerkte frames, waardoor robuuste segmentatie van vervolgframes wordt gerealiseerd. Bovendien balanceert SeC adaptief LVLM-gebaseerde semantische redenering met verbeterde kenmerkmatching, waarbij rekeninspanningen dynamisch worden aangepast op basis van scènecomplexiteit. Om VOS-methoden rigoureus te evalueren in scenario's die hoogwaardige conceptuele redenering en robuust semantisch begrip vereisen, introduceren we de Semantic Complex Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS bestaat uit 160 handmatig geannoteerde multi-scènariovideo's die ontworpen zijn om modellen uit te dagen met aanzienlijke uiterlijke variaties en dynamische scènetransformaties. In het bijzonder behaalt SeC een verbetering van 11,8 punten ten opzichte van SAM 2.1 op SeCVOS, waarmee een nieuwe state-of-the-art wordt gevestigd in conceptbewuste video-objectsegmentatie.
Recente vooruitgang in 3D neurale representaties en modellen voor bewerking op instantieniveau hebben de efficiënte creatie van hoogwaardige 3D-inhoud mogelijk gemaakt. Het bereiken van precieze lokale 3D-bewerkingen blijft echter een uitdaging, vooral voor Gaussian Splatting, vanwege inconsistente multi-view 2D-onderdeelsegmentaties en de inherente ambiguïteit van de Score Distillation Sampling (SDS) loss. Om deze beperkingen aan te pakken, stellen we RoMaP voor, een nieuw raamwerk voor lokale 3D Gaussian-bewerkingen dat precieze en drastische wijzigingen op onderdeelniveau mogelijk maakt. Ten eerste introduceren we een robuuste 3D-maskergeneratiemodule met onze 3D-Geometry Aware Label Prediction (3D-GALP), die sferische harmonische (SH) coëfficiënten gebruikt om view-afhankelijke labelvariaties en soft-label eigenschappen te modelleren, wat resulteert in nauwkeurige en consistente onderdeelsegmentaties over verschillende gezichtspunten. Ten tweede stellen we een geregulariseerde SDS loss voor die de standaard SDS loss combineert met aanvullende regularizers. In het bijzonder wordt een L1 anchor loss geïntroduceerd via onze Scheduled Latent Mixing and Part (SLaMP) bewerkingsmethode, die hoogwaardige 2D-afbeeldingen met bewerkte onderdelen genereert en wijzigingen beperkt tot het doelgebied terwijl contextuele samenhang behouden blijft. Aanvullende regularizers, zoals Gaussian prior removal, verbeteren de flexibiliteit verder door wijzigingen mogelijk te maken buiten de bestaande context, en robuuste 3D-masking voorkomt ongewenste bewerkingen. Experimentele resultaten tonen aan dat onze RoMaP state-of-the-art lokale 3D-bewerkingen bereikt op zowel gereconstrueerde als gegenereerde Gaussian-scènes en -objecten, zowel kwalitatief als kwantitatief, wat het mogelijk maakt voor robuustere en flexibelere onderdeelniveau 3D Gaussian-bewerkingen. Code is beschikbaar op https://janeyeon.github.io/romap.
We introduceren Being-H0, een behendig Vision-Language-Action model (VLA) getraind op grootschalige menselijke video’s. Bestaande VLA’s hebben moeite met complexe manipulatietaken die een hoge behendigheid vereisen en generaliseren slecht naar nieuwe scenario’s en taken, voornamelijk vanwege hun afhankelijkheid van synthetische data met aanzienlijke sim-to-real verschillen of teleoperatieve demonstraties die schaal en diversiteit missen. Om dit dataknelpunt aan te pakken, stellen we voor om menselijke handen als fundamentele manipulator te benutten, waarbij we gebruikmaken van de rijke behendigheid en schaalbaarheid die aanwezig zijn in webdata. Onze aanpak richt zich op fysieke instructie-afstemming, een nieuw trainingsparadigma dat grootschalige VLA-voorafgaande training van menselijke video’s combineert, fysieke ruimte-uitlijning voor 3D-redenering, en post-training aanpassing voor robotica-taken. Daarnaast introduceren we een methode voor tokenisatie van bewegingen op deel-niveau, die een millimeter-nauwkeurige reconstructie bereikt om precieze handtrajectoria voor actieleren te modelleren. Om ons voorgestelde paradigma te ondersteunen, ontwikkelen we verder een uitgebreide datacuratiepijplijn die heterogene bronnen integreert – inclusief motion capture, VR en RGB-video’s – in een grootschalige dataset met miljoenen op beweging gebaseerde instructiegevallen. We tonen empirisch de uitmuntendheid van Being-H0 aan in het genereren van handbewegingen en het volgen van instructies, en het schaalt ook goed met model- en datagroottes. Belangrijk is dat we de verwachte verbeteringen van Being-H0 observeren in real-world robotmanipulatie wanneer fysieke instructie-afstemming wordt toegepast. Meer details zijn beschikbaar op https://beingbeyond.github.io/Being-H0.
Gesproken Taalmodellen (SLMs) zijn ontworpen om spraakinvoer te verwerken en gesproken reacties te genereren. Huidige SLMs hebben echter niet het vermogen om een intern, onuitgesproken denkproces uit te voeren voordat ze reageren. In tegenstelling tot mensen, die doorgaans complexe mentale redeneringen intern uitvoeren, waardoor ze ideeën duidelijk en beknopt kunnen communiceren. Het integreren van een onuitgesproken denkproces in SLMs is daarom zeer wenselijk. Hoewel het naïef genereren van een volledige keten-van-gedachten (CoT) redenering voordat men begint te praten, denken voor SLMs mogelijk maakt, introduceert dit extra latentie voor de spraakreactie, aangezien de CoT-redenering willekeurig lang kan zijn. Om dit probleem op te lossen, stellen we Stitch voor, een nieuwe generatiemethode die afwisselt tussen het genereren van onuitgesproken redeneringssegmenten en gesproken reactiesegmenten. Omdat de audioduur van een gesproken reactiesegment veel langer is dan de tijd die nodig is om de tokens in een gesproken reactiesegment te genereren, gebruiken we de resterende vrije tijd om de onuitgesproken redeneringstokens te genereren. Wanneer een audiosegment aan de gebruiker wordt afgespeeld, blijft het model het volgende onuitgesproken redeneringssegment genereren, waardoor gelijktijdig denken en praten wordt bereikt. Opmerkelijk is dat Stitch de latentie van baseline-modellen die geen onuitgesproken CoT kunnen genereren door ontwerp evenaart, terwijl het deze baseline-modellen met 15% overtreft op wiskundige redeneerdatasets; Stitch presteert ook even goed op niet-redeneerdatasets als die baseline-modellen. Enkele animaties en demonstraties zijn te vinden op de projectpagina: https://d223302.github.io/STITCH.
We construeren evaluatietaken waarbij het verlengen van de redeneerlengte van Large Reasoning Models (LRMs) de prestaties verslechtert, wat een omgekeerde schaalrelatie tussen testtijdberekening en nauwkeurigheid laat zien. Onze evaluatietaken beslaan vier categorieën: eenvoudige telopdrachten met afleiders, regressietaken met irrelevante kenmerken, deductietaken met beperkingen, en geavanceerde AI-risico's. We identificeren vijf verschillende faalmodi wanneer modellen langer redeneren: 1) Claude-modellen raken steeds meer afgeleid door irrelevante informatie; 2) OpenAI o-serie modellen weerstaan afleiders maar overfitten aan probleemformuleringen; 3) modellen verschuiven van redelijke aannames naar irrelevante correlaties; 4) alle modellen hebben moeite met het vasthouden van focus bij complexe deductietaken; en 5) uitgebreid redeneren kan zorgwekkend gedrag versterken, waarbij Claude Sonnet 4 meer uitingen van zelfbehoud laat zien. Deze bevindingen suggereren dat hoewel het schalen van testtijdberekening veelbelovend blijft voor het verbeteren van modelcapaciteiten, het onbedoeld problematische redeneerpatronen kan versterken. Onze resultaten tonen het belang aan van het evalueren van modellen over diverse redeneerlengtes om deze faalmodi in LRMs te identificeren en aan te pakken.
3D Gaussian splatting (3DGS) heeft zijn gedetailleerde expressieve vermogen en zeer efficiënte renderingsnelheid aangetoond in de taak van novel view synthesis (NVS). De toepassing op inverse rendering blijft echter verschillende uitdagingen kennen, aangezien het discrete karakter van Gaussiaanse primitieven het moeilijk maakt om geometrie-beperkingen toe te passen. Recente werken introduceren het signed distance field (SDF) als een extra continue representatie om de geometrie gedefinieerd door Gaussiaanse primitieven te regulariseren. Dit verbetert de decompositiekwaliteit, maar gaat ten koste van een hoger geheugengebruik en een complexere training. In tegenstelling tot deze werken introduceren wij een gediscretiseerd SDF om het continue SDF op een discrete manier weer te geven door het te coderen binnen elke Gaussiaan met behulp van een bemonsterde waarde. Deze aanpak stelt ons in staat om het SDF te koppelen aan de Gaussiaanse doorzichtigheid via een SDF-naar-doorzichtigheidstransformatie, waardoor het mogelijk wordt om het SDF te renderen via splatting en de rekenkosten van ray marching te vermijden. De belangrijkste uitdaging is om de discrete samples te regulariseren zodat ze consistent zijn met het onderliggende SDF, aangezien de discrete representatie moeilijk gradient-gebaseerde beperkingen kan toepassen (bijv. Eikonal-verlies). Hiervoor projecteren we Gaussiaanse primitieven op de nul-niveau-set van het SDF en dwingen we af dat ze uitgelijnd zijn met het oppervlak dat door splatting wordt gegenereerd, namelijk een projectie-gebaseerd consistentieverlies. Dankzij het gediscretiseerde SDF bereikt onze methode een hogere herverlichtingskwaliteit, terwijl er geen extra geheugen nodig is buiten GS en complexe handmatig ontworpen optimalisatie wordt vermeden. De experimenten tonen aan dat onze methode de bestaande Gaussiaanse-gebaseerde inverse rendering-methoden overtreft. Onze code is beschikbaar op https://github.com/NK-CS-ZZL/DiscretizedSDF.
Menselijke intelligentie vereist correctheid en robuustheid, waarbij de eerste de basis vormt voor de laatste. In videobegrip zorgt correctheid voor een nauwkeurige interpretatie van visuele inhoud, en robuustheid behoudt consistente prestaties onder uitdagende omstandigheden. Ondanks vooruitgang in video large language models (video LLM's) weerspiegelen bestaande benchmarks onvoldoende het verschil tussen deze modellen en menselijke intelligentie in het handhaven van correctheid en robuustheid bij video-interpretatie. We introduceren de Video Thinking Test (Video-TT) om te beoordelen of video LLM's real-world video's net zo effectief kunnen interpreteren als mensen. Video-TT weerspiegelt echte hiaten in het begrijpen van complexe visuele verhalen en evalueert robuustheid tegen natuurlijke adversariële vragen. Video-TT bestaat uit 1.000 YouTube Shorts-video's, elk met één open-einde vraag en vier adversariële vragen die visuele en narratieve complexiteit onderzoeken. Onze evaluatie toont een significant verschil tussen de prestaties van video LLM's en die van mensen.
De snelle opkomst van intelligente agents gebaseerd op Large Language Models (LLM's) benadrukt de noodzaak van robuuste, schaalbare evaluatieframeworks. Bestaande methoden vertrouwen op statische benchmarks en arbeidsintensieve dataverzameling, wat de praktische beoordeling beperkt. Wij introduceren \oursystemname, een open-source Model Context Protocol (MCP)-gebaseerd framework dat end-to-end taakgeneratie en diepgaande evaluatie van LLM-agents in diverse domeinen automatiseert. MCPEval standaardiseert metrieken, integreert naadloos met native agenttools en elimineert handmatige inspanningen bij het bouwen van evaluatiepijplijnen. Empirische resultaten in vijf real-world domeinen tonen de effectiviteit ervan in het onthullen van genuanceerde, domeinspecifieke prestaties. Wij maken MCPEval publiekelijk beschikbaar op https://github.com/SalesforceAIResearch/MCPEval om reproduceerbare en gestandaardiseerde evaluatie van LLM-agents te bevorderen.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een effectieve na-trainingsmethode geworden om de redeneervaardigheden van Large Language Models (LLMs) te verbeteren, voornamelijk door hogere-orde gedragingen zoals reflectie en planning te vormen. Eerdere RLVR-algoritmen passen echter vaak uniforme trainingssignalen toe op alle tokens, zonder rekening te houden met de verschillende rollen van tokens met lage entropie die gerelateerd zijn aan kennis en tokens met hoge entropie die gerelateerd zijn aan redenering. Sommige recente methoden proberen deze tokentypen te scheiden door middel van gradientmaskering of asynchrone updates, maar deze benaderingen kunnen semantische afhankelijkheden in de modeloutput verstoren en effectief leren belemmeren. In dit werk stellen we Archer voor, een entropiebewuste RLVR-benadering met dubbele tokenbeperkingen en synchrone updates. Specifiek past onze methode zwakkere KL-regularisatie en hogere afkappingsdrempels toe op redeneringstokens om exploratie aan te moedigen, terwijl sterkere beperkingen worden gebruikt op kennistokens om feitelijke kennis te behouden. Experimentele resultaten op verschillende wiskundige redeneer- en codegeneratiebenchmarks laten zien dat onze aanpak aanzienlijk beter presteert dan eerdere RLVR-methoden, en de state-of-the-art prestaties bereikt of overtreft bij modellen van vergelijkbare grootte. De code is beschikbaar op https://github.com/wizard-III/ArcherCodeR.
Videogeneratiemodellen hebben opmerkelijke vooruitgang geboekt in het creëren van hoogwaardige, fotorealistische content. Hun vermogen om fysische fenomenen nauwkeurig te simuleren blijft echter een kritieke en onopgeloste uitdaging. Dit artikel introduceert PhyWorldBench, een uitgebreide benchmark ontworpen om videogeneratiemodellen te evalueren op basis van hun naleving van de natuurwetten. De benchmark bestrijkt meerdere niveaus van fysische fenomenen, variërend van fundamentele principes zoals objectbeweging en energiebehoud tot complexere scenario's met interacties tussen starre lichamen en bewegingen van mensen of dieren. Daarnaast introduceren we een nieuwe categorie genaamd "Anti-Fysica", waarbij prompts opzettelijk de natuurwetten schenden, wat het mogelijk maakt om te beoordelen of modellen dergelijke instructies kunnen volgen terwijl ze logische consistentie behouden. Naast grootschalige menselijke evaluatie ontwerpen we ook een eenvoudige maar effectieve methode die gebruikmaakt van huidige MLLM's om de fysische realiteit op een zero-shot manier te evalueren. We evalueren 12 state-of-the-art tekst-naar-videogeneratiemodellen, waaronder vijf open-source en vijf propriëtaire modellen, met een gedetailleerde vergelijking en analyse. We identificeren cruciale uitdagingen die modellen ondervinden bij het naleven van de natuurwetten. Door systematische tests van hun uitvoer over 1.050 zorgvuldig samengestelde prompts - variërend van fundamentele, samengestelde en anti-fysica scenario's - identificeren we cruciale uitdagingen die deze modellen ondervinden bij het naleven van de natuurwetten. We onderzoeken vervolgens grondig hun prestaties op diverse fysische fenomenen met verschillende prompttypes, en leiden gerichte aanbevelingen af voor het opstellen van prompts die de trouw aan fysische principes verbeteren.
Het waarnemen en reconstrueren van 4D ruimte-tijd geometrie uit video's is een fundamentele maar uitdagende computer vision-taak. Om interactieve en real-time toepassingen mogelijk te maken, stellen we een streaming 4D visuele geometrie transformer voor die een vergelijkbare filosofie deelt met autoregressieve grote taalmodellen. We onderzoeken een eenvoudig en efficiënt ontwerp en gebruiken een causale transformer-architectuur om de invoerreeks op een online manier te verwerken. We gebruiken temporele causale aandacht en cachen de historische sleutels en waarden als impliciet geheugen om efficiënte streaming langetermijn 4D-reconstructie mogelijk te maken. Dit ontwerp kan real-time 4D-reconstructie aan door historische informatie incrementeel te integreren terwijl hoogwaardige ruimtelijke consistentie behouden blijft. Voor efficiënte training stellen we voor om kennis te distilleren uit de dichte bidirectionele visuele geometrie-gebaseerde transformer (VGGT) naar ons causale model. Voor inferentie ondersteunt ons model de migratie van geoptimaliseerde efficiënte aandachtoperators (bijv. FlashAttention) uit het veld van grote taalmodellen. Uitgebreide experimenten op verschillende 4D geometrie-perceptiebenchmarks tonen aan dat ons model de inferentiesnelheid in online scenario's verhoogt terwijl het competitieve prestaties behoudt, wat de weg vrijmaakt voor schaalbare en interactieve 4D-visiesystemen. Code is beschikbaar op: https://github.com/wzzheng/StreamVGGT.
Meerbeurtenprobleemoplossing is cruciaal maar uitdagend voor Grote Redeneermodellen (LRMs) om na te denken over hun redenering en te herzien op basis van feedback. Bestaande Reinforcement Learning (RL)-methoden trainen grote redeneermodellen volgens een eenbeurtenparadigma met verifieerbare beloningen. We observeren echter dat modellen die getraind zijn met bestaande RL-paradigma's vaak hun vermogen verliezen om problemen over meerdere beurten op te lossen en moeite hebben om antwoorden te herzien op basis van contextuele feedback, wat leidt tot repetitieve reacties. We vragen ons af: kunnen LRMs leren om hun antwoorden te reflecteren in een meerbeurtencontext? In dit werk ontdekken we dat het trainen van modellen met meerbeurten RL met alleen unaire feedback (bijvoorbeeld "Laten we het opnieuw proberen") na foute antwoorden zowel de eenbeurtenprestaties als het meerbeurtenredeneren kan verbeteren. We introduceren Unaire Feedback als Observatie (UFO) voor reinforcement learning, waarbij minimale maar veelvoorkomende unaire gebruikersfeedback wordt gebruikt tijdens iteratieve probleemoplossing. Het kan eenvoudig worden toegepast op bestaande eenbeurten RL-trainingsopstellingen. Experimentele resultaten tonen aan dat RL-training met UFO de eenbeurtenprestaties behoudt en de nauwkeurigheid van meerbeurtenredeneren met tot wel 14% verbetert, waardoor taalmodellen beter kunnen reageren op feedback bij meerbeurtenprobleemoplossing. Om het aantal benodigde beurten voor een correct antwoord verder te minimaliseren en tegelijkertijd divers redeneren aan te moedigen wanneer fouten optreden, ontwerpen we beloningsstructuren die modellen aanmoedigen om zorgvuldige en weloverwogen antwoorden te produceren in elke beurt. Code: https://github.com/lichengliu03/unary-feedback
Ondanks hun fundamentele rol blijft het onduidelijk welke eigenschappen visuele tokenizers effectiever kunnen maken voor generatieve modellering. We observeren dat moderne generatieve modellen een conceptueel vergelijkbare trainingsdoelstelling delen — het reconstrueren van schone signalen uit verstoorde invoer, zoals Gaussische ruis of maskering — een proces dat we denoising noemen. Gemotiveerd door dit inzicht stellen we voor om tokenizer-embeddings rechtstreeks af te stemmen op het downstream denoising-doel, waardoor latente embeddings gemakkelijker kunnen worden gereconstrueerd, zelfs wanneer ze zwaar verstoord zijn. Om dit te bereiken introduceren we de Latent Denoising Tokenizer (l-DeTok), een eenvoudige maar effectieve tokenizer die is getraind om schone afbeeldingen te reconstrueren uit latente embeddings die zijn verstoord door interpolatieve ruis en willekeurige maskering. Uitgebreide experimenten op ImageNet 256x256 tonen aan dat onze tokenizer consistent beter presteert dan standaard tokenizers in zes representatieve generatieve modellen. Onze bevindingen benadrukken denoising als een fundamenteel ontwerpprincipe voor de ontwikkeling van tokenizers, en we hopen dat dit nieuwe perspectieven kan inspireren voor toekomstige tokenizer-ontwerpen.
Hoewel machine learning vooruitgang heeft geboekt door massale parallelisatie, identificeren we een kritieke blinde vlek: sommige problemen zijn fundamenteel sequentieel. Deze "intrinsiek seriële" problemen - van wiskundig redeneren tot fysische simulaties en sequentiële besluitvorming - vereisen afhankelijke rekenstappen die niet geparalleliseerd kunnen worden. Gebaseerd op complexiteitstheorie formaliseren we dit onderscheid en tonen we aan dat huidige parallel-gerichte architecturen fundamentele beperkingen hebben bij dergelijke taken. We beargumenteren dat het erkennen van het seriële karakter van berekeningen diepgaande implicaties heeft voor machine learning, modelontwerp en hardwareontwikkeling. Naarmate AI zich bezighoudt met steeds complexer redeneren, is het bewust opschalen van seriële berekeningen - niet alleen parallelle berekeningen - essentieel voor voortdurende vooruitgang.
Het genereren van consistente lange video's is een complexe uitdaging: hoewel op diffusie gebaseerde generatieve modellen visueel indrukwekkende korte clips kunnen genereren, leidt het uitbreiden hiervan naar langere duur vaak tot geheugenproblemen en inconsistentie op de lange termijn. In dit artikel introduceren we TokensGen, een nieuw tweestaps raamwerk dat gebruikmaakt van gecondenseerde tokens om deze problemen aan te pakken. Onze methode verdeelt het genereren van lange video's in drie kerntaken: (1) semantische controle binnen clips, (2) controle van consistentie op de lange termijn, en (3) soepele overgangen tussen clips. Eerst trainen we To2V (Token-to-Video), een kort video diffusiemodel dat wordt gestuurd door tekst- en videotokens, met een Video Tokenizer die korte clips omzet in semantisch rijke tokens. Vervolgens introduceren we T2To (Text-to-Token), een video token diffusie transformer die alle tokens in één keer genereert, waardoor globale consistentie tussen clips wordt gewaarborgd. Ten slotte wordt tijdens de inferentie een adaptieve FIFO-Diffusie strategie gebruikt om aangrenzende clips naadloos met elkaar te verbinden, waardoor randartefacten worden verminderd en soepele overgangen worden verbeterd. Experimentele resultaten tonen aan dat onze aanpak de temporele en inhoudelijke samenhang op de lange termijn aanzienlijk verbetert zonder een onoverkomelijke rekenkundige overhead te veroorzaken. Door gebruik te maken van gecondenseerde tokens en vooraf getrainde kort video modellen, biedt onze methode een schaalbare, modulaire oplossing voor het genereren van lange video's, wat nieuwe mogelijkheden opent voor verhalenvertelling, filmproductie en immersieve simulaties. Bezoek onze projectpagina op https://vicky0522.github.io/tokensgen-webpage/.
We presenteren de LLM Economist, een nieuw raamwerk dat agent-gebaseerd modelleren gebruikt om economisch beleid te ontwerpen en te evalueren in strategische omgevingen met hiërarchische besluitvorming. Op het lagere niveau kiezen beperkt rationele werknemer-agenten -- geïnstantieerd als persona-geconditioneerde prompts die zijn bemonsterd uit op de Amerikaanse volkstelling gekalibreerde inkomens- en demografische statistieken -- hun arbeidsaanbod om tekstgebaseerde nutsfuncties die in-context zijn geleerd te maximaliseren. Op het hogere niveau gebruikt een planner-agent in-context reinforcement learning om stuksgewijs lineaire marginale belastingtarieven voor te stellen, verankerd aan de huidige federale belastingschijven in de VS. Deze constructie voorziet economische simulaties van drie vereiste capaciteiten voor geloofwaardig fiscaal experimenteren: (i) optimalisatie van heterogene nutsfuncties, (ii) principiële generatie van grote, demografisch realistische agentpopulaties, en (iii) mechanism design -- het ultieme nudging-probleem -- volledig uitgedrukt in natuurlijke taal. Experimenten met populaties van tot honderd interagerende agenten tonen aan dat de planner convergeert naar Stackelberg-evenwichten die het algemene maatschappelijke welzijn verbeteren ten opzichte van Saez-oplossingen, terwijl een periodieke, persona-niveau stemprocedure deze winsten verder bevordert onder gedecentraliseerd bestuur. Deze resultaten demonstreren dat op grote taalmodellen gebaseerde agenten gezamenlijk complexe economische systemen kunnen modelleren, simuleren en besturen, en bieden een hanteerbare testomgeving voor beleidsevaluatie op maatschappelijke schaal om betere beschavingen te helpen bouwen.
Het evalueren van de wetenschappelijke ontdekkingscapaciteiten van op grote taalmodellen gebaseerde agents, met name hoe ze omgaan met variërende omgevingscomplexiteit en gebruikmaken van voorkennis, vereist gespecialiseerde benchmarks die momenteel ontbreken. Om deze leemte op te vullen, introduceren we PhysGym, een nieuwe benchmark suite en simulatieplatform voor het rigoureus beoordelen van wetenschappelijk redeneren op basis van grote taalmodellen in interactieve fysica-omgevingen. De primaire bijdrage van PhysGym ligt in de geavanceerde controle over het niveau van voorkennis dat aan de agent wordt verstrekt. Hierdoor kunnen onderzoekers de prestaties van de agent analyseren langs assen zoals de complexiteit van het probleem en de niveaus van voorkennis. De benchmark bestaat uit een reeks interactieve simulaties, waarbij agents actief omgevingen moeten verkennen, sequentieel gegevens moeten verzamelen onder beperkingen en hypothesen moeten formuleren over onderliggende fysische wetten. PhysGym biedt gestandaardiseerde evaluatieprotocollen en metrieken voor het beoordelen van de nauwkeurigheid van hypothesen en de betrouwbaarheid van modellen. We demonstreren het nut van de benchmark door resultaten te presenteren van baseline grote taalmodellen, waarbij we aantonen dat het in staat is om capaciteiten te onderscheiden op basis van variërende voorkennis en taakcomplexiteit.
Voortdurende voorafgaande training op kleinschalige, taakspecifieke gegevens is een effectieve methode om grote taalmodellen te verbeteren in nieuwe doelgebieden, maar het brengt het risico van catastrofaal verlies van hun oorspronkelijke capaciteiten met zich mee. Een veelgebruikte oplossing is het herverdelen van trainingsdatamengsels uit bron- en doelgebieden in een domeinruimte om een gebalanceerde prestaties te bereiken. Eerdere strategieën voor domeinherverdeling zijn gebaseerd op handmatige aanwijzingen met bepaalde heuristieken die voortkomen uit menselijke intuïtie of empirische resultaten. In dit werk tonen we aan dat meer algemene heuristieken geparametriseerd kunnen worden door de Data Mixing Agent voor te stellen, het eerste modelgebaseerde, end-to-end framework dat leert om domeinen te herverdelen. De agent leert generaliseerbare heuristieken door middel van reinforcement learning op grote hoeveelheden datamengtrajecten met bijbehorende feedback van een evaluatieomgeving. Experimenten met voortdurende voorafgaande training op wiskundig redeneren laten zien dat de Data Mixing Agent sterke baseline-methoden overtreft in het bereiken van gebalanceerde prestaties over bron- en doelgebiedbenchmarks. Bovendien generaliseert het goed over onbekende brongebieden, doelmodellen en domeinruimten zonder hertraining. Directe toepassing in het veld van codegeneratie geeft ook aan dat het aanpasbaar is over verschillende doeldomeinen. Verdere analyse toont aan dat de heuristieken van de agenten goed aansluiten bij menselijke intuïties en dat ze efficiënt zijn in het bereiken van superieure modelprestaties met minder gegevens uit het brongebied.
Cross-view localisatie, de taak om de 3-vrijheidsgraden (3-DoF) positie van een camera te schatten door grondniveau beelden uit te lijnen met satellietbeelden, is cruciaal voor grootschalige buitenapplicaties zoals autonome navigatie en augmented reality. Bestaande methoden zijn vaak gebaseerd op volledig gesuperviseerd leren, wat kostbare grondwaarheidspositieannotaties vereist. In dit werk stellen we GeoDistill voor, een Geometry guided zwak gesuperviseerd zelfdistillatie raamwerk dat teacher-student leren gebruikt met Field-of-View (FoV)-gebaseerde maskering om lokale kenmerken te verbeteren voor robuuste cross-view localisatie. In GeoDistill lokaliseert het teacher-model een panoramabeeld, terwijl het student-model locaties voorspelt vanuit een beperkt FoV tegenhanger gemaakt door FoV-gebaseerde maskering. Door de voorspellingen van de student uit te lijnen met die van de teacher, richt de student zich op belangrijke kenmerken zoals rijstroken en negeert textuurloze gebieden, zoals wegen. Dit resulteert in nauwkeurigere voorspellingen en verminderde onzekerheid, ongeacht of de querybeelden panorama's of beperkte FoV beelden zijn. Onze experimenten tonen aan dat GeoDistill de localisatieprestaties aanzienlijk verbetert over verschillende raamwerken. Daarnaast introduceren we een nieuw oriëntatieschatting netwerk dat relatieve oriëntatie voorspelt zonder precieze planaire positie grondwaarheid te vereisen. GeoDistill biedt een schaalbare en efficiënte oplossing voor real-world cross-view localisatie uitdagingen. Code en model zijn te vinden op https://github.com/tongshw/GeoDistill.
Grote Taalmodellen (LLM's) hebben sterke prestaties getoond bij programmeertaken, maar kunnen ze studentachtige code genereren zoals echte studenten - onvolmaakt, iteratief en stilistisch divers? Wij presenteren ParaStudent, een systematische studie van LLM-gebaseerde "studentachtige" codegeneratie in de context van een inleidende programmeercursus. Met behulp van een dataset van getimede studenteninleveringen over meerdere semesters ontwerpen we experimenten met lage en hoge resolutie om de voortgang van studenten te modelleren en code-uitvoer te evalueren langs semantische, functionele en stilistische dimensies. Onze resultaten tonen aan dat fine-tuning de afstemming met echte studenttrajecten aanzienlijk verbetert en foutpatronen, incrementele verbeteringen en stilistische variaties nauwkeuriger vastlegt. Deze studie laat zien dat het modelleren van realistische studentencode het vastleggen van leer dynamieken vereist door contextbewuste generatie, temporele modellering en multidimensionale evaluatie. Code voor experimenten en evaluatie is beschikbaar op https://github.com/mmiroyan/ParaStudent.
Nauwkeurige classificatie van computertomografie (CT)-beelden is essentieel voor diagnose en behandelplanning, maar bestaande methoden hebben vaak moeite met de subtiele en ruimtelijk diverse aard van pathologische kenmerken. Huidige benaderingen verwerken beelden doorgaans uniform, wat hun vermogen beperkt om gelokaliseerde afwijkingen te detecteren die gerichte analyse vereisen. Wij introduceren UGPL, een onzekerheidsgeleid progressief leerframework dat een globaal-naar-lokaal analyse uitvoert door eerst gebieden van diagnostische ambiguïteit te identificeren en vervolgens een gedetailleerd onderzoek van deze kritieke gebieden uit te voeren. Onze aanpak maakt gebruik van evidentieel deep learning om voorspellende onzekerheid te kwantificeren, wat de extractie van informatieve patches begeleidt via een non-maximum suppressiemechanisme dat ruimtelijke diversiteit behoudt. Deze progressieve verfijningsstrategie, gecombineerd met een adaptief fusiemechanisme, stelt UGPL in staat om zowel contextuele informatie als fijnmazige details te integreren. Experimenten over drie CT-datasets tonen aan dat UGPL consequent state-of-the-art methoden overtreft, met verbeteringen van 3,29%, 2,46% en 8,08% in nauwkeurigheid voor de detectie van nierafwijkingen, longkanker en COVID-19, respectievelijk. Onze analyse laat zien dat de onzekerheidsgeleide component aanzienlijke voordelen biedt, waarbij de prestaties aanzienlijk toenemen wanneer de volledige progressieve leerpipeline wordt geïmplementeerd. Onze code is beschikbaar op: https://github.com/shravan-18/UGPL