Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren T-pro 2.0, een open-weight Russisch taalmodel voor hybride redenering en efficiënte inferentie. Het model ondersteunt directe vraagbeantwoording en de generatie van redeneersporen, waarbij gebruik wordt gemaakt van een Cyrillisch-dichte tokenizer en een aangepast EAGLE-pijplijn voor speculatieve decodering om de latentie te verminderen. Om reproduceerbaar en uitbreidbaar onderzoek mogelijk te maken, publiceren we de modelgewichten, de T-Wix 500k-instructiecorpus, de T-Math-redeneerbenchmark en de EAGLE-gewichten op Hugging Face. Deze bronnen stellen gebruikers in staat om redenering in het Russisch te bestuderen en zowel het model als de inferentiepijplijn uit te breiden of aan te passen. Een openbare webdemo biedt toegang tot redenerende en niet-redenerende modi en illustreert de snelheidswinst die door onze inferentiestack wordt behaald in verschillende domeinen. T-pro 2.0 fungeert zo als een toegankelijk open systeem voor het bouwen en evalueren van efficiënte, praktische Russische taalmodeltoepassingen.
Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt bij het oplossen van complexe redeneertaken door Reinforcement Learning met Verifieerbare Beloningen (RLVR). Deze vooruitgang is ook onlosmakelijk verbonden met het toezicht dat wordt geautomatiseerd door betrouwbare verifiers. Huidige resultaatgebaseerde verifiers (OV's) zijn echter niet in staat om de onbetrouwbare tussenstappen in de lange redeneerketens (CoT's) te controleren. Tegelijkertijd hebben huidige procesgebaseerde verifiers (PV's) moeite om fouten in complexe lange CoT's betrouwbaar op te sporen, beperkt door de schaarste aan hoogwaardige annotaties als gevolg van de buitensporige kosten van menselijke annotaties. Daarom stellen we de Outcome-based Process Verifier (OPV) voor, die het redeneerproces van samengevatte uitkomsten uit lange CoT's verifieert om zowel nauwkeurige als efficiënte verificatie te bereiken en grootschalige annotatie mogelijk te maken. Om de voorgestelde verifier te versterken, nemen we een iteratief active learning-framework met expertannotaties over om de verificatiecapaciteit van OPV geleidelijk te verbeteren met minder annotatiekosten. Specifiek worden in elke iteratie de meest onzekere gevallen van de huidige beste OPV geannoteerd en vervolgens gebruikt om een nieuwe OPV te trainen via Rejection Fine-Tuning (RFT) en RLVR voor de volgende ronde. Uitgebreide experimenten tonen de superieure prestaties en brede toepasbaarheid van OPV aan. Het behaalt nieuwe state-of-the-art resultaten op onze achtergehouden \thisbench, en presteert beter dan veel grotere open-source modellen zoals Qwen3-Max-Preview met een F1-score van 83,1 tegenover 76,3. Bovendien detecteert OPV effectief false positives binnen synthetische datasets, wat nauw aansluit bij de beoordeling door experts. Bij samenwerking met policy-modellen levert OPV consistente prestatieverbeteringen op, bijvoorbeeld door de nauwkeurigheid van DeepSeek-R1-Distill-Qwen-32B te verhogen van 55,2% naar 73,3% op AIME2025 naarmate het rekenbudget toeneemt.
Versterkingsleren (RL), eerder al effectief bewezen voor grote taal- en multimodale modellen, is onlangs met succes uitgebreid naar het verbeteren van 2D-beeldgeneratie. Het toepassen van RL op 3D-generatie blijft echter grotendeels onontgonnen gebied vanwege de hogere ruimtelijke complexiteit van 3D-objecten, die een wereldwijd consistente geometrie en fijnmazige lokale texturen vereisen. Dit maakt 3D-generatie aanzienlijk gevoelig voor beloningsontwerpen en RL-algoritmen. Om deze uitdagingen aan te pakken, voeren we de eerste systematische studie uit naar RL voor tekst-naar-3D autoregressieve generatie over verschillende dimensies. (1) Beloningsontwerpen: We evalueren beloningsdimensies en modelkeuzes, en tonen aan dat afstemming met menselijke voorkeuren cruciaal is, en dat algemene multimodale modellen een robuust signaal leveren voor 3D-attributen. (2) RL-algoritmen: We bestuderen GRPO-varianten, belichten de effectiviteit van token-level optimalisatie, en onderzoeken verder de schaalvergroting van trainingsdata en iteraties. (3) Tekst-naar-3D Benchmarks: Aangezien bestaande benchmarks tekortschieten in het meten van impliciete redeneervermogens in 3D-generatiemodellen, introduceren we MME-3DR. (4) Geavanceerde RL-paradigma's: Gemotiveerd door de natuurlijke hiërarchie van 3D-generatie, stellen we Hi-GRPO voor, dat de globaal-naar-lokale hiërarchische 3D-generatie optimaliseert via toegewijde beloningsensembles. Op basis van deze inzichten ontwikkelen we AR3D-R1, het eerste RL-verbeterde tekst-naar-3D model, expert van grove vorm naar textuurverfijning. We hopen dat deze studie inzichten biedt in RL-gestuurd redeneren voor 3D-generatie. Code is vrijgegeven op https://github.com/Ivan-Tang-3D/3DGen-R1.
Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt bij het oplossen van complexe redeneertaken door Reinforcement Learning met Verifieerbare Beloningen (RLVR). Deze vooruitgang is eveneens onlosmakelijk verbonden met het toezicht geautomatiseerd door betrouwbare verifiers. Huidige resultaatgebaseerde verifiers (OV's) zijn echter niet in staat om de onbetrouwbare tussenstappen in de lange redeneerketens (CoT's) te controleren. Tegelijkertijd hebben huidige procesgebaseerde verifiers (PV's) moeite om fouten in complexe lange CoT's betrouwbaar op te sporen, beperkt door de schaarste aan hoogwaardige annotaties vanwege de buitensporige kosten van menselijke annotaties. Daarom stellen we de Outcome-based Process Verifier (OPV) voor, die het onderliggende redeneerproces van samengevatte uitkomsten uit lange CoT's verifieert om zowel nauwkeurige als efficiënte verificatie te bereiken en grootschalige annotatie mogelijk te maken. Om de voorgestelde verifier kracht bij te zetten, hanteren we een iteratief active learning-raamwerk met expertannotaties om de verificatiecapaciteit van OPV geleidelijk te verbeteren met minder annotatiekosten. Concreet worden in elke iteratie de meest onzekere gevallen van de huidige beste OPV geannoteerd en vervolgens gebruikt om een nieuwe OPV te trainen via Rejection Fine-Tuning (RFT) en RLVR voor de volgende ronde. Uitgebreide experimenten tonen de superieure prestaties en brede toepasbaarheid van OPV aan. Het behaalt nieuwe state-of-the-art resultaten op onze achtergehouden OPV-Bench, waarbij het grotere open-source modellen zoals Qwen3-Max-Preview overtreft met een F1-score van 83,1 tegenover 76,3. Bovendien detecteert OPV effectief false positives binnen synthetische datasets, in nauwe overeenstemming met expertbeoordeling. Bij samenwerking met policy-modellen levert OPV consistente prestatieverbeteringen op, bijvoorbeeld door de nauwkeurigheid van DeepSeek-R1-Distill-Qwen-32B te verhogen van 55,2% naar 73,3% op AIME2025 naarmate het rekenbudget toeneemt.
Grootschalige taalmodel (LLM) agenten vertonen sterke wiskundige probleemoplossende vermogens en kunnen zelfs problemen op het niveau van de Internationale Wiskunde Olympiade (IMO) oplossen met behulp van formele bewijssystemen. Echter, vanwege zwakke heuristieken voor hulpconstructies, wordt AI voor het oplossen van meetkundeproblemen nog steeds gedomineerd door expertmodellen zoals AlphaGeometry 2, die zwaar leunen op grootschalige datasynthese en zoekacties voor zowel training als evaluatie. In dit werk doen we een eerste poging om een LLM-agent op medaillewinnaarsniveau voor meetkunde te bouwen en presenteren InternGeometry. InternGeometry overwint de heuristische beperkingen in de meetkunde door iteratief proposities en hulpconstructies voor te stellen, deze te verifiëren met een symbolische engine, en te reflecteren op de feedback van de engine om volgende voorstellen te sturen. Een dynamisch geheugenmechanisme stelt InternGeometry in staat om meer dan tweehonderd interacties per probleem met de symbolische engine uit te voeren. Om het leren verder te versnellen, introduceren we Complexity-Boosting Reinforcement Learning (CBRL), dat geleidelijk de complexiteit van gesynthetiseerde problemen over trainingsfasen verhoogt. Gebouwd op InternThinker-32B, lost InternGeometry 44 van de 50 IMO-meetkundeproblemen (2000-2024) op, wat de gemiddelde score van een goudenmedaillewinnaar (40.9) overstijgt, met slechts 13K trainingsvoorbeelden, slechts 0.004% van de data gebruikt door AlphaGeometry 2. Dit demonstreert het potentieel van LLM-agenten voor expert-level meetkundetaken. InternGeometry kan ook nieuwe hulpconstructies voorstellen voor IMO-problemen die niet voorkomen in menselijke oplossingen. We zullen het model, de data en de symbolische engine vrijgeven om toekomstig onderzoek te ondersteunen.
Motion capture vormt tegenwoordig de basis voor contentcreatie ver buiten digitale mensen, maar de meeste bestaande pipelines blijven soort- of templatespecifiek. Wij formaliseren deze kloof als Categorie-Agnostische Motion Capture (CAMoCap): gegeven een monovideo en een willekeurig gerigde 3D-asset als prompt, is het doel een rotatiegebaseerde animatie (zoals BVH) te reconstrueren die de specifieke asset direct aanstuurt. Wij presenteren MoCapAnything, een referentiegeleid, gefactoriseerd framework dat eerst 3D-gewrichtstrajecten voorspelt en daarna asset-specifieke rotaties herstelt via constraint-aware inverse kinematica. Het systeem bevat drie leerbare modules en een lichtgewicht IK-stadium: (1) een Reference Prompt Encoder die per-gewricht queries extraheert uit de skeleton, mesh en gerenderde afbeeldingen van de asset; (2) een Video Feature Extractor die dichte visuele descriptors berekent en een grove 4D deformerende mesh reconstrueert om de kloof tussen video- en gewrichtsruimte te overbruggen; en (3) een Unified Motion Decoder die deze signalen fuseert om temporeel coherente trajecten te produceren. Wij stelden ook Truebones Zoo samen met 1038 motion clips, elk voorzien van een gestandaardiseerde skeleton-mesh-render triade. Experimenten op zowel in-domein benchmarks als in-the-wild video's tonen aan dat MoCapAnything hoogwaardige skeletanimaties levert en zinvolle cross-species retargeting vertoont over heterogene rigs, waardoor schaalbare, prompt-gestuurde 3D-motion capture voor willekeurige assets mogelijk wordt. Projectpagina: https://animotionlab.github.io/MoCapAnything/
Naarmate grote taalmodellen (LLM's) de overgang maken van onderzoeksprototypes naar productiesystemen, hebben beoefenaars vaak behoefte aan betrouwbare methoden om te verifiëren dat modeluitvoeren aan vereiste beperkingen voldoen. Hoewel op steekproeven gebaseerde schattingen een indicatie geven van het modelgedrag, bieden zij geen sluitende garanties. Wij presenteren BEAVER, het eerste praktische raamwerk voor het berekenen van deterministische, sluitende waarschijnlijkheidsgrenzen voor de beperkingsvoldoening van LLM's. Gegeven een willekeurige prefix-gesloten semantische beperking, verkent BEAVER systematisch de gegenereerde ruimte met behulp van nieuwe gegevenstructuren zoals de token-trie en de frontier, waarbij bij elke iteratie bewezen sluitende grenzen worden aangehouden. Wij formaliseren het verificatieprobleem, bewijzen de sluitendheid van onze aanpak en evalueren BEAVER op taken voor correctheidsverificatie, privacyverificatie en veilige codegeneratie voor meerdere state-of-the-art LLM's. BEAVER bereikt 6 tot 8 keer smallere waarschijnlijkheidsgrenzen en identificeert 3 tot 4 keer meer hoog-risico gevallen in vergelijking met baseline-methoden onder identieke rekenbudgetten, waardoor een precieze karakterisering en risicobeoordeling mogelijk wordt die losse grenzen of empirische evaluatie niet kunnen bieden.
Dit artikel introduceert het concept van Microscopische Spatiale Intelligentie (MiSI) – het vermogen om ruimtelijke relaties van onzichtbare microscopische entiteiten waar te nemen en te begrijpen, wat fundamenteel is voor wetenschappelijke ontdekkingen. Om het potentieel van Vision-Language Modellen (VLMs) op dit domein te beoordelen, stellen we een systematisch benchmarkraamwerk voor, MiSI-Bench. Dit raamwerk omvat meer dan 163.000 vraag-antwoordparen en 587.000 afbeeldingen, afgeleid van ongeveer 4.000 moleculaire structuren, en bestrijkt negen complementaire taken die vaardigheden evalueren, variërend van elementaire ruimtelijke transformaties tot complexe relationele identificaties. Experimentele resultaten tonen aan dat huidige state-of-the-art VLMs aanzienlijk onder het menselijk niveau presteren op deze benchmark. Een gefinetuned 7B-model toont echter aanzienlijk potentieel, en overtreft zelfs mensen in ruimtelijke transformatietaken, terwijl de zwakke prestaties in wetenschappelijk onderbouwde taken zoals waterstofbonderkenning de noodzaak aantonen om expliciete domeinkennis te integreren voor vooruitgang richting wetenschappelijke AGI. De datasets zijn beschikbaar op https://huggingface.co/datasets/zongzhao/MiSI-bench.
Het verenigen van multimodale begrips-, generatie- en reconstructierepresentatie in een enkele tokenizer blijft een belangrijke uitdaging bij het bouwen van uniforme modellen. Voorafgaand onderzoek probeerde dit voornamelijk aan te pakken binnen een dual encoder-paradigma, bijvoorbeeld door gebruik te maken van respectievelijk aparte encoders voor begrip en generatie, of door semantische representaties en low-level kenmerken in evenwicht te brengen met contrastief verlies. In dit artikel stellen we VQRAE voor, een Vector Quantization-versie van Representation AutoEncoders, die de eerste verkenning op het gebied van uniforme representatie pionierst om continue semantische kenmerken voor beeldbegrip en discrete tokens voor visuele generatie te produceren binnen een uniforme tokenizer. Specifiek bouwen we voort op voorgetrainde vision foundation-modellen met een symmetrische ViT-decoder en hanteren we een tweefasige trainingsstrategie: eerst wordt de encoder bevroren en wordt een hoogdimensionaal semantisch VQ-codeboek aangeleerd met een pixelreconstructiedoelstelling; vervolgens wordt de encoder gezamenlijk geoptimaliseerd met zelfdistillatiebeperkingen. Dit ontwerp maakt verwaarloosbaar semantisch informatieverlies mogelijk om het vermogen voor multimodaal begrip te behouden, en produceert discrete tokens die compatibel zijn voor generatie en fijnmazige reconstructie. Daarnaast identificeren we de intrigerende eigenschap bij het kwantiseren van semantische encoders dat zij afhankelijk zijn van een hoogdimensionaal codeboek, in tegenstelling tot de eerdere gangbare praktijk van een laagdimensionaal codeboek bij beeldreconstructie. Het semantische VQ-codeboek kan een benuttingsgraad van 100% bereiken bij een dimensie van 1536. VQRAE vertoont competitieve prestaties op verschillende benchmarks voor visueel begrip, generatie en reconstructie, met veelbelovende schaaleigenschappen in het autoregressieve paradigma vanwege zijn discrete voordelen.
Beeld-denken-paradigma's hebben een opmerkelijke visuele redeneercapaciteit getoond door visuele informatie als dynamische elementen te integreren in de Ketting-van-Gedachten (KvG). Het optimaliseren van vervlochten multimodale KvG (vMKvG) via reinforcement learning blijft echter uitdagend, omdat het afhangt van schaarse hoogwaardige redeneergegevens. In deze studie stellen we Zelf-aanroepende Ketting-van-Gedachten (zKvG) voor, een nieuw visueel redeneerparadigma dat vMKvG herformuleert als een taal-only KvG met zelf-aanroeping. Concreet deconstrueert een hoofdagent de complexe visuele redeneertaak tot atomische deeltaken en roept zijn virtuele replica's aan – parameters-delende subagenten – om deze in geïsoleerde context op te lossen. zKvG biedt aanzienlijke trainings-effectiviteit en -efficiëntie, omdat het geen expliciete vervlechting tussen modaliteiten vereist. zKvG gebruikt groep-gerelativeerde policy-optimalisatie om effectief redeneergedrag te versterken. Experimenten op HR-Bench 4K tonen aan dat zKvG de algemene redeneerprestatie met tot 1,9% verbetert met ∼75% minder GPU-uren vergeleken met sterke baseline-benaderingen. Code is beschikbaar op https://github.com/YWenxi/think-with-images-through-self-calling.
Generatieve wereldmodellen hebben een aanzienlijk potentieel voor het simuleren van interacties met visuomotore beleidsregels in uiteenlopende omgevingen. Frontier videomodellen kunnen het op een schaalbare en algemene manier mogelijk maken om realistische observaties en omgevingsinteracties te genereren. Het gebruik van videomodellen in de robotica is echter voornamelijk beperkt gebleven tot in-distributie-evaluaties, d.w.z. scenario's die vergelijkbaar zijn met die gebruikt voor het trainen van het beleid of het finetunen van het basisvideomodel. In dit rapport tonen we aan dat videomodellen kunnen worden gebruikt voor het volledige spectrum van beleidsevaluatietoepassingen in de robotica: van het beoordelen van de nominale prestaties tot out-of-distribution (OOD)-generalizatie, en het testen van fysieke en semantische veiligheid. We introduceren een generatief evaluatiesysteem gebouwd op een frontier videofoundationmodel (Veo). Het systeem is geoptimaliseerd om robotactieconditionering en multi-viewconsistentie te ondersteunen, terwijl het generatieve beeldbewerking en multi-viewcompletie integreert om realistische variaties van real-world scènes te synthetiseren langs meerdere generalisatie-assen. We demonstreren dat het systeem de basiscapaciteiten van het videomodel behoudt om nauwkeurige simulatie van scènes mogelijk te maken die zijn bewerkt om nieuwe interactieobjecten, nieuwe visuele achtergronden en nieuwe afleidingsobjecten te bevatten. Deze nauwkeurigheid maakt het mogelijk om de relatieve prestaties van verschillende beleidsregels in zowel nominale als OOD-omstandigheden nauwkeurig te voorspellen, de relatieve impact van verschillende generalisatie-assen op de beleidsprestaties te bepalen, en red teaming van beleidsregels uit te voeren om gedrag bloot te leggen dat inbreuk maakt op fysieke of semantische veiligheidsbeperkingen. We valideren deze capaciteiten door middel van meer dan 1600 evaluaties in de echte wereld van acht Gemini Robotics-beleidscheckpoints en vijf taken voor een bimanuele manipulator.
Wij introduceren StereoSpace, een op diffusie gebaseerd raamwerk voor monocular-to-stereo synthese dat geometrie puur modelleert door viewpoint-conditionering, zonder expliciete diepte of warping. Een canonieke, gerechtificeerde ruimte en de conditionering sturen de generator om op end-to-end wijze correspondenties af te leiden en disocclusies in te vullen. Om een eerlijke en lekvrije evaluatie te waarborgen, introduceren we een end-to-end protocol dat tijdens de testfase elke ground truth of proxy-geometrieschatting uitsluit. Het protocol benadrukt metrieken die downstream-relevantie weerspiegelen: iSQoE voor perceptueel comfort en MEt3R voor geometrische consistentie. StereoSpace overtreft andere methoden uit de categorieën warp & inpaint, latent-warping en warped-conditionering, en bereikt scherpe parallax en een sterke robuustheid op gelaagde en niet-Lambertiaanse scènes. Dit vestigt viewpoint-conditioned diffusie als een schaalbare, diepte-vrije oplossing voor stereogeneratie.
Hoewel normalisatielagen lange tijd werden beschouwd als onmisbare componenten van deep learning-architecturen, heeft de recente introductie van Dynamic Tanh (DyT) aangetoond dat alternatieven mogelijk zijn. De puntgewijze functie DyT beperkt extreme waarden voor stabiele convergentie en bereikt normalisatieniveau-prestaties; dit werk zoekt verder naar functieontwerpen die DyT kunnen overtreffen. We onderzoeken eerst hoe de intrinsieke eigenschappen van puntgewijze functies training en prestaties beïnvloeden. Voortbouwend op deze bevindingen, voeren we een grootschalige zoektocht uit naar een effectiever functieontwerp. Via deze verkenning introduceren we Derf(x) = erf(αx + s), waarbij erf(x) de herschaalde cumulatieve verdelingsfunctie van de Gaussverdeling is, en identificeren we dit als het meest presterende ontwerp. Derf overtreft LayerNorm, RMSNorm en DyT in een breed scala aan domeinen, waaronder vision (beeldherkenning en -generatie), spraakrepresentatie en DNA-sequentiemodellering. Onze bevindingen suggereren dat de prestatieverbeteringen van Derf grotendeels voortkomen uit verbeterde generalisatie in plaats van een sterkere aanpassingscapaciteit. Door zijn eenvoud en sterkere prestaties is Derf een praktische keuze voor normalisatievrije Transformer-architecturen.
De Video Question Answering (VideoQA)-taak fungeert als een cruciaal platform om te evalueren of foundation-modellen dynamische scenario's uit de echte wereld effectief kunnen waarnemen, begrijpen en interpreteren. Bestaande Multimodale Large Language Models (MLLM's) hebben echter moeite met het gelijktijdig modelleren van ruimtelijke relaties binnen videoframes en het begrijpen van de causale dynamiek van temporele evolutie bij complexe en reasoning-intensieve VideoQA-taken. In dit werk rusten we MLLM's uit met een uitgebreide en uitbreidbare Video Toolkit om hun ruimtelijk-temporele redeneervermogen te verbeteren en de harmonie tussen de hoeveelheid en diversiteit van tools te waarborgen. Om de aanroepvolgorde van tools beter te controleren en shortcut-problemen in de toolchain te vermijden, stellen we een Spatiotemporal Reasoning Framework (STAR) voor dat strategisch temporele en ruimtelijke tools inplant, waardoor het sleutelgebied in de video progressief gelokaliseerd wordt. Ons STAR-framework verbetert GPT-4o met lichtgewicht tools en behaalt een winst van 8,2% op VideoMME en 4,6% op LongVideoBench. Wij geloven dat onze voorgestelde Video Toolkit en STAR-framework een belangrijke stap vormen naar de ontwikkeling van autonome en intelligente video-analyse-assistenten. De code is openbaar beschikbaar op https://github.com/fansunqi/VideoTool.
Robots die manipulatievaardigheden leren uit alledaagse menselijke video's kunnen brede capaciteiten verwerven zonder tijdrovende robotdatacollectie. Wij stellen een video-naar-video vertaalraamwerk voor dat gewone video's van mens-objectinteracties omzet in bewegingconsistente robotmanipulatievideo's met realistische, fysiek onderbouwde interacties. Onze aanpak vereist geen gepaarde mens-robotvideo's voor training, alleen een set ongepaarde robotvideo's, waardoor het systeem eenvoudig schaalbaar is. Wij introduceren een overdraagbare representatie die de embodimentkloof overbrugt: door de robotarm in trainingsvideo's in te vullen om een schone achtergrond te verkrijgen en een eenvoudig visueel signaal te overlayen (een marker en pijl die de positie en oriëntatie van de grijper aangeven), kunnen we een generatief model conditioneren om de robotarm terug in de scène te plaatsen. Tijdens de testfase passen we hetzelfde proces toe op menselijke video's (invullen van de persoon en overlayen van menselijke pose-signalen) en genereren we hoogwaardige robotvideo's die de handelingen van de mens nabootsen. Wij fine-tunen een state-of-the-art videodiffusiemodel (Wan 2.2) op een in-context learning-manier om temporele coherentie te garanderen en gebruik te maken van zijn rijke voorkennis. Empirische resultaten tonen aan dat onze aanpak significant realistischere en beter onderbouwde robotbewegingen bereikt in vergelijking met baseline-methoden, wat wijst op een veelbelovende richting voor het opschalen van robotleren vanuit ongelabelde menselijke video's. Projectpagina: https://showlab.github.io/H2R-Grounder/
Wij introduceren The FACTS Leaderboard, een online leaderboard-suite en bijbehorende set benchmarks die het vermogen van taalmodellen om feitelijk accurate tekst te genereren in diverse scenario's uitgebreid evalueert. De suite biedt een holistische maatstaf voor feitelijkheid door de prestaties van modellen op vier afzonderlijke sub-leaderboards samen te voegen: (1) FACTS Multimodaal, dat de feitelijkheid van antwoorden op op afbeeldingen gebaseerde vragen meet; (2) FACTS Parametrisch, dat de wereldkennis van modellen beoordeelt door gesloten-boek feitenvragen uit interne parameters te beantwoorden; (3) FACTS Zoeken, dat de feitelijkheid evalueert in informatiezoek-scenario's, waarbij het model een zoek-API moet gebruiken; en (4) FACTS Grondslag (v2), dat beoordeelt of langere antwoorden zijn gebaseerd op verstrekte documenten, met aanzienlijk verbeterde beoordelaarsmodellen. Elke sub-leaderboard gebruikt geautomatiseerde beoordelaarsmodellen om modelantwoorden te scoren, en de uiteindelijke suitescore is een gemiddelde van de vier componenten, ontworpen om een robuuste en evenwichtige beoordeling van de algehele feitelijkheid van een model te bieden. De FACTS Leaderboard Suite zal actief worden onderhouden en bevat zowel publieke als private splits om externe deelname mogelijk te maken terwijl de integriteit wordt beschermd. De suite is te vinden op https://www.kaggle.com/benchmarks/google/facts.
Recente vooruitgang in 4D Gaussisch Splatten (4DGS) heeft de hoogwaardige renderprestaties van 3D Gaussisch Splatten (3DGS) uitgebreid naar het temporele domein, waardoor real-time weergave van dynamische scènes mogelijk wordt. Een van de grootste resterende uitdagingen ligt echter in het modelleren van dynamische video's met beweging over lange termijn, waarbij een naïeve uitbreiding van bestaande methodes leidt tot ernstig geheugenverbruik, temporele flikkering en het onvermogen om verschijnende of verdwijnende occlusies in de tijd te verwerken. Om deze uitdagingen aan te pakken, stellen we een nieuw 4DGS-raamwerk voor, gekenmerkt door een *Anchor Relay-based Bidirectional Blending* (ARBB)-mechanisme, genaamd MoRel, dat temporeel consistente en geheugenefficiënte modellering van dynamische scènes over lange termijn mogelijk maakt. Onze methode construeert progressief lokaal canonieke ankerruimtes op sleutelframe-tijdstippen en modelleert inter-frame vervormingen op ankerniveau, wat de temporele coherentie verbetert. Door bidirectionele vervormingen tussen de KfA's aan te leren en deze adaptief te blendend via leerbare doorzichtigheidscontrole, vermindert onze aanpak temporele discontinuïteiten en flikkerartefacten. We introduceren verder een *Feature-variance-guided Hierarchical Densification* (FHD)-schema dat de KfA's effectief verdicht met behoud van de renderkwaliteit, gebaseerd op een toegekend niveau van feature-variantie. Om het vermogen van ons model om real-world 4D-beweging over lange termijn te verwerken effectief te evalueren, stellen we een nieuwe dataset samen voor beweging over lange termijn, genaamd SelfCap_{LR}. Deze heeft een grotere gemiddelde dynamische bewegingsomvang en is vastgelegd in ruimtelijk bredere omgevingen vergeleken met eerdere dynamische videodatasets. Over het geheel genomen bereikt onze MoRel temporeel coherente en flikkervrije 4D-reconstructie over lange termijn, met behoud van een begrensd geheugengebruik, wat zowel schaalbaarheid als efficiëntie aantoont in op dynamische Gaussianen gebaseerde representaties.
Videogezamenlijke modellen vertonen sterke capaciteiten in begrip en generatie, maar worstelen met op redenering gebaseerde visuele bewerking, zelfs wanneer ze zijn uitgerust met krachtige interne vision-language modellen (VLM's). Wij schrijven deze kloof toe aan twee factoren: 1) bestaande datasets zijn ontoereikend voor het trainen en evalueren van redeneringsbewuste videobewerking, en 2) een inherente disconnectie tussen de redeneer- en bewerkingscapaciteiten van de modellen, waardoor de rijke begripsvorming het bewerkingsproces niet effectief kan aansturen. Het overbruggen van deze kloof vereist een geïntegreerd raamwerk dat redenering verbindt met visuele transformatie. Om deze kloof te dichten, introduceren wij de taak Reason-Informed Video Editing (RVE), die vereist dat er wordt geredeneerd over fysische plausibiliteit en causale dynamiek tijdens het bewerken. Om systematische evaluatie mogelijk te maken, construeren wij RVE-Bench, een uitgebreide benchmark met twee complementaire subsets: Reasoning-Informed Video Editing en In-Context Video Generation. Deze subsets beslaan diverse redeneerdimensies en real-world bewerkingsscenario's. Voortbouwend op deze basis stellen wij ReViSE voor, een Self-Reflective Reasoning (SRF) raamwerk dat generatie en evaluatie verenigt binnen een enkele architectuur. Het interne VLM van het model verschaft intrinsieke feedback door te beoordelen of de bewerkte video logisch gezien voldoet aan de gegeven instructie. De differentiële feedback verfijnt het redeneergedrag van de generator tijdens de training. Uitgebreide experimenten op RVE-Bench tonen aan dat ReViSE de bewerkingsnauwkeurigheid en visuele kwaliteit aanzienlijk verbetert, met een verbetering van 32% van de Overall score in de reasoning-informed videobewerkingssubset ten opzichte van state-of-the-art methoden.
Visuele conceptpersonalisatie heeft als doel om alleen specifieke beeldattributen, zoals identiteit, expressie, belichting en stijl, over te dragen naar ongeziene contexten. Bestaande methodes vertrouwen echter op holistische embeddings van algemene beeldencoders, die meerdere visuele factoren verstrengelen en het isoleren van een enkel attribuut bemoeilijken. Dit leidt vaak tot informatielekken en incoherente synthese. Om deze beperking aan te pakken, introduceren wij Omni-Attribute, de eerste open-vocabulary beeldattribuutencoder die is ontworpen om hoogfidelijke, attribuutspecifieke representaties te leren. Onze aanpak combineert het ontwerp van data en model: (i) we cureren semantisch gelinkte beeldparen geannoteerd met positieve en negatieve attributen om de encoder expliciet te leren wat te behouden of onderdrukken; en (ii) we hanteren een dual-objectief trainingsparadigma dat generatieve fidelijkheid balanceert met contrastieve ontwarring. De resulterende embeddings blijken effectief voor open-vocabulary attribuutretrieval, personalisatie en compositionele generatie, waarbij state-of-the-art prestaties worden behaald op meerdere benchmarks.
In de praktijk van AI-software-engineering zijn codeeragenten nodig die kunnen redeneren over enorme repositories, een duurzaam geheugen kunnen behouden over en binnen lange sessies, en robuust complexe toolchains kunnen coördineren tijdens tests. Bestaande open-source codeeragenten bieden transparantie, maar schieten vaak tekort bij industriële werklasten, terwijl propriëtaire codeeragenten wel sterke praktische prestaties leveren, maar beperkte uitbreidbaarheid, interpreteerbaarheid en bestuurbaarheid bieden. Wij presenteren de Confucius Code Agent (CCA), een open-source AI-software-ingenieur die op industriële schaal kan opereren. CCA is gebouwd op de Confucius SDK, een open-source platform voor agentontwikkeling, ontworpen rond drie complementaire perspectieven: Agent Experience (AX), User Experience (UX) en Developer Experience (DX). De SDK introduceert een uniforme orchestrator met hiërarchisch werkgeheugen voor redeneren met lange context, een persistent notitiesysteem voor continu leren over sessies heen, en een modulaire extensiemodule voor robuust toolgebruik. Bovendien automatiseert een meta-agent de synthese, evaluatie en verfijning van agentconfiguraties via een bouw-test-verbeter-cyclus, wat snelle agentontwikkeling voor nieuwe taken, omgevingen en toolstacks mogelijk maakt. Geïmplementeerd op de Confucius SDK met deze mechanismen, levert CCA sterke prestaties op praktische software-engineeringtaken. Op SWE-Bench-Pro behaalt CCA een state-of-the-art Resolve@1-prestatie van 54,3%, een aanzienlijke verbetering ten opzichte van eerdere codeeragenten. Samen bieden de Confucius SDK en CCA een transparante, uitbreidbare en reproduceerbare basis voor AI-agenten, overbruggen ze de kloof tussen onderzoeksprototypes en productiesystemen, en ondersteunen ze agentontwikkeling en -inzet op industriële schaal.
LLM-agents worden op grote schaal ingezet voor complexe interactieve taken, maar privacybeperkingen verhinderen vaak gecentraliseerde optimalisatie en co-evolutie in dynamische omgevingen. Hoewel Federated Learning (FL) zijn effectiviteit heeft bewezen bij statische datasets, blijft de uitbreiding naar de open-einde zelf-evolutie van agents onderbelicht. Het direct toepassen van standaard FL is uitdagend: heterogene taken en schaarse, trajectgebaseerde beloningen introduceren ernstige gradientconflicten, wat het globale optimalisatieproces destabiliseert. Om deze kloof te overbruggen, stellen wij Fed-SE voor, een Federated Self-Evolution raamwerk voor LLM-agents. Fed-SE introduceert een lokaal evolutie-globale aggregatie paradigma. Lokaal gebruiken agents parameter-efficiënte finetuning op gefilterde trajecten met hoge beloning om stabiele gradientupdates te bereiken. Globaal aggregeert Fed-SE updates binnen een laag- dimensionale deelruimte die omgevingsspecifieke dynamieken ontwart, waardoor negatieve kennisoverdracht tussen clients effectief wordt verminderd. Experimenten in vijf heterogene omgevingen tonen aan dat Fed-SE de gemiddelde taaksuccesratio met ongeveer 18% verbetert ten opzichte van federated baseline-methoden, wat de effectiviteit ervan bevestigt voor robuuste kennisoverdracht tussen omgevingen in privacy-gevoelige implementaties.
Rolspelende agenten (RPA's) moeten tegelijkertijd vele tegenstrijdige vaardigheden beheersen: het opvolgen van instructies over meerdere dialoogbeurten, het tonen van domeinkennis en het aannemen van een consistente linguïstische stijl. Bestaand werk maakt ofwel gebruik van supervised fine-tuning (SFT), die oppervlakkige cues overfit en lage diversiteit oplevert, of past reinforcement learning (RL) toe, die er niet in slaagt om meerdere dimensies te leren voor een alomvattende optimalisatie van RPA's. Wij presenteren MOA (Multi-Objective Alignment), een reinforcement learning-raamwerk dat multi-dimensionale, fijnmazige rubric-optimalisatie mogelijk maakt voor algemene RPA's. MOA introduceert een nieuwe multi-objectieve optimalisatiestrategie die simultaan traint op meerdere fijnmazige rubrics om de optimalisatieprestatie te verhogen. Daarnaast hebben we, om de problemen van outputdiversiteit en -kwaliteit van het model aan te pakken, ook thought-augmented rollout met off-policy guidance toegepast. Uitgebreide experimenten op uitdagende benchmarks zoals PersonaGym en RoleMRC tonen aan dat MOA een 8B-model in staat stelt om te evenaren of zelfs te overtreffen ten opzichte van sterke baselines zoals GPT-4o en Claude op tal van dimensies. Dit toont het grote potentieel van MOA aan bij het bouwen van RPA's die gelijktijdig kunnen voldoen aan de eisen van rolkennis, personastijl, diverse scenario's en complexe multi-turn gesprekken.
De vooruitgang in belichaamde AI heeft aanzienlijk potentieel ontsloten voor intelligente humanoïde robots. De voortgang in zowel Vision-Language-Action (VLA)-modellen als wereldmodellen wordt echter ernstig belemmerd door het gebrek aan grootschalige, diverse trainingsdata. Een veelbelovende oplossing is het "robotiseren" van web-schaal menselijke video's, waarvan de effectiviteit voor beleidstraining is bewezen. Deze oplossingen 'plakken' echter voornamelijk robotarmen over egocentrische video's heen, waardoor ze niet om kunnen gaan met complexe volledige lichaamsbewegingen en scène-occlusies in derdepersoonsvideo's, wat ze ongeschikt maakt voor het robotiseren van mensen. Om deze kloof te overbruggen, introduceren we X-Humanoid, een generatieve videobewerkingsaanpak die het krachtige Wan 2.2-model aanpast naar een video-naar-video structuur en het finetunt voor de taak van mens-naar-humanoid vertaling. Deze finetuning vereist gepaarde mens-humanoid video's, daarom ontwierpen we een schaalbare dataproductiepijplijn die community-assets omzet in meer dan 17 uur aan gepaarde synthetische video's met behulp van Unreal Engine. Vervolgens passen we ons getrainde model toe op 60 uur aan Ego-Exo4D-video's, waarbij we een nieuwe grootschalige dataset genereren en vrijgeven met meer dan 3,6 miljoen 'gerobotiseerde' humanoïde videoframes. Kwantitatieve analyse en gebruikersstudies bevestigen de superioriteit van onze methode ten opzichte van bestaande baseline-methoden: 69% van de gebruikers beoordeelde hem als de beste voor bewegingsconsistentie en 62,1% voor de correctheid van de belichaming.
Recente op vision-language models (VLM) gebaseerde benaderingen hebben indrukwekkende resultaten behaald bij SVG-generatie. Omdat ze echter alleen tekst genereren en visuele signalen tijdens het decoderen missen, hebben ze vaak moeite met complexe semantiek en produceren ze zelden visueel aantrekkelijke of geometrisch coherente SVG's. Wij introduceren DuetSVG, een uniform multimodaal model dat op een end-to-end manier zowel beeldtokens als bijbehorende SVG-tokens gezamenlijk genereert. DuetSVG wordt getraind op zowel beeld- als SVG-datasets. Tijdens de inferentie passen we een nieuwe test-time scaling-strategie toe die de inherente visuele voorspellingen van het model benut als leidraad om de SVG-decodeerkwaliteit te verbeteren. Uitgebreide experimenten tonen aan dat onze methode de bestaande methoden overtreft en visueel getrouwe, semantisch uitgelijnde en syntactisch zuivere SVG's produceert voor een breed scala aan toepassingen.