Dagelijks geselecteerde AI onderzoekspapers met vertalingen
OmniLottie is een veelzijdig framework dat hoogwaardige vectoranimaties genereert op basis van multimodale instructies. Voor flexibele controle over beweging en visuele inhoud richten we ons op Lottie, een lichtgewicht JSON-formaat voor de representatie van zowel vormen als animatiegedrag. De ruwe Lottie JSON-bestanden bevatten echter uitgebreide invariante structurele metadata en opmaaktokens, wat aanzienlijke uitdagingen vormt voor het aanleren van vectoranimatiegeneratie. Daarom introduceren we een goed ontworpen Lottie-tokenizer die JSON-bestanden omzet in gestructureerde sequenties van commando's en parameters die vormen, animatiefuncties en controleparameters vertegenwoordigen. Deze tokenizer stelt ons in staat OmniLottie te bouwen op vooraf getrainde vision-language modellen, om multimodale verweven instructies te volgen en hoogwaardige vectoranimaties te genereren. Om onderzoek naar vectoranimatiegeneratie verder te bevorderen, stellen we MMLottie-2M samen, een grootschalige dataset van professioneel ontworpen vectoranimaties gekoppeld aan tekstuele en visuele annotaties. Met uitgebreide experimenten valideren we dat OmniLottie levendige en semantisch uitgelijnde vectoranimaties kan produceren die nauw aansluiten bij multimodale menselijke instructies.
Image Chain-of-Thought (Image-CoT) is een test-time schaalparadigma dat beeldgeneratie verbetert door de inferentietijd te verlengen. De meeste Image-CoT-methoden richten zich op tekst-naar-beeld (T2I) generatie. In tegenstelling tot T2I-generatie is beeldbewerking doelgericht: de oplossingsruimte wordt beperkt door de bronafbeelding en de instructie. Deze mismatch veroorzaakt drie uitdagingen bij het toepassen van Image-CoT op bewerking: inefficiënte resource-toewijzing met vaste steekproefbudgetten, onbetrouwbare verificatie in de vroege fase met behulp van algemene MLLM-scores, en redundante bewerkte resultaten door grootschalige steekproefname. Om dit aan te pakken, stellen wij ADaptive Edit-CoT (ADE-CoT) voor, een on-demand test-time schaalraamwerk om de bewerkingsefficiëntie en -prestaties te verbeteren. Het omvat drie kernstrategieën: (1) een moeilijkheidsbewuste resource-toewijzing die dynamische budgetten toekent op basis van de geschatte bewerkingsmoeilijkheid; (2) bewerkingsspecifieke verificatie in vroege snoei die regiologalisatie en bijschriftconsistentie gebruikt om veelbelovende kandidaten te selecteren; en (3) diepte-eerst opportunistisch stoppen, geleid door een instancespecifieke verifier, dat beëindigt wanneer intentie-uitgelijnde resultaten worden gevonden. Uitgebreide experimenten op drie state-of-the-art bewerkingsmodellen (Step1X-Edit, BAGEL, FLUX.1 Kontext) over drie benchmarks tonen aan dat ADE-CoT superieure prestatie-efficiëntiecompromissen bereikt. Met vergelijkbare steekproefbudgetten behaalt ADE-CoT betere prestaties met een meer dan 2x versnelling ten opzichte van Best-of-N.
Software engineering agents (SWE) verbeteren snel, waarbij recente vooruitgang grotendeels wordt aangedreven door reinforcement learning (RL). De RL-training wordt echter beperkt door de schaarste aan grootschalige taakverzamelingen met reproduceerbare uitvoeringsomgevingen en betrouwbare testsuites. Hoewel er steeds meer benchmarks verschijnen, zijn datasets die geschikt zijn voor training nog steeds beperkt in schaal en diversiteit, of richten ze zich vaak op een beperkte set ecosysteem van hoogwaardige programmeertalen. Wij introduceren SWE-rebench V2, een taalagnostische geautomatiseerde pijplijn voor het oogsten van uitvoerbare real-world SWE-taken en het grootschalig construeren van RL-trainingsomgevingen. De pijplijn synthetiseert repositoriespecifieke installatie- en testprocedures via een interactieve setup-agent, en filtert ongeschikte instanties met behulp van een ensemble van LLM-beoordelaars, gevalideerd tegen door mensen geverifieerde SWE-bench annotaties. Met deze pijplijn construeren we een dataset van meer dan 32.000 taken, verspreid over 20 talen en meer dan 3.600 repositories, met vooraf gebouwde images voor reproduceerbare uitvoering. Om de trainingsdata verder op te schalen, geven we bovendien meer dan 120.000 taken vrij met installatie-instructies, fail-to-pass tests en uitgebreide metadata, waarbij de probleemstelling wordt gegenereerd op basis van de oorspronkelijke pull request-beschrijving. We valideren de verzamelde instanties via een diagnostische studie die een subset van taken in vijf programmeertalen bestrijkt, getest over zeven populaire modellen, en verstrekken instantieniveau-metadata die veelvoorkomende verstorende factoren markeren, zoals overdreven restrictieve tests en onvoldoende gespecificeerde beschrijvingen. We geven de datasets, de verzamel- en uitvoercode, en bijbehorende artefacten vrij om grootschalige training van SWE-agents over diverse talen en repositories mogelijk te maken.
Naarmate de afstemming van grote taalmodellen (LLM's) evolueert van eenvoudige tekstvoltooiing naar complexe, hoogwaardige generatie, verschuiven beloningsmodellen steeds meer naar rubriekgestuurde evaluatie om oppervlakkige vooroordelen te beperken. De onderzoeksgemeenschap beschikt echter over geen uniforme benchmark om dit evaluatieparadigma te toetsen, omdat bestaande benchmarks noch de vereiste onderscheidingscomplexiteit noch de gegronde rubrieksannotaties bevatten voor rigoureuze analyse. Om deze kloof te dichten, introduceren wij RubricBench: een zorgvuldig samengestelde benchmark met 1.147 paarsgewijze vergelijkingen, specifiek ontworpen om de betrouwbaarheid van rubriekgebaseerde evaluatie te beoordelen. Onze constructie hanteert een multidimensionaal filterproces om uitdagende voorbeelden te selecteren met genuanceerde invoercomplexiteit en misleidende oppervlakkige bias, aangevuld met door experts geannoteerde, atomische rubrieken die strikt uit instructies zijn afgeleid. Uitgebreide experimenten tonen een aanzienlijke kwaliteitskloof tussen door mensen geannoteerde en door modellen gegenereerde rubrieken, wat aangeeft dat zelfs state-of-the-art modellen moeite hebben om autonoom valide evaluatiecriteria te specificeren en daarmee aanzienlijk achterblijven bij door mensen geleide prestaties.
Grote Taalmodellen (LLM's) vertonen recentelijk opmerkelijke redeneervaardigheden, grotendeels mogelijk gemaakt door post-training met supervised fine-tuning (SFT) en reinforcement learning (RL) op hoogwaardige redeneergegevens. Het reproduceren en uitbreiden van deze capaciteiten in open en schaalbare settings wordt echter belemmerd door drie fundamentele, data-gerelateerde uitdagingen: (1) het koudstartprobleem, ontstaan door het ontbreken van seed-datasets met gedetailleerde, lange Chain-of-Thought (CoT)-trajecten die nodig zijn om redeneerbeleid te initialiseren; (2) beperkte domeindekking, aangezien de meeste bestaande open-source redeneerdatasets geconcentreerd zijn in de wiskunde, met beperkte dekking van bredere wetenschappelijke disciplines; en (3) het annotatieknelpunt, waarbij de moeilijkheidsgraad van redeneertaken op het hoogste niveau betrouwbare menselijke annotatie buitensporig duur of onuitvoerbaar maakt. Om deze uitdagingen aan te pakken, introduceren we CHIMERA, een compacte synthetische redeneerdataset bestaande uit 9K samples voor generaliseerbare cross-domein redenering. CHIMERA is geconstrueerd met drie kerneigenschappen: (1) het biedt rijke, lange CoT-redeneertrajecten gesynthetiseerd door state-of-the-art redeneermodellen; (2) het heeft een brede en gestructureerde dekking, die 8 grote wetenschappelijke disciplines en meer dan 1K fijnmazige onderwerpen omspant, georganiseerd via een model-gegenereerde hiërarchische taxonomie; en (3) het gebruikt een volledig geautomatiseerd, schaalbaar evaluatiepijplijn dat sterke redeneermodellen inzet om zowel de probleemgeldigheid als de antwoordcorrectheid te kruisvalideren. We gebruiken CHIMERA om een 4B Qwen3-model post-trainen. Ondanks de bescheiden omvang van de dataset, behaalt het resulterende model sterke prestaties op een reeks uitdagende redeneerbenchmarks, waaronder GPQA-Diamond, AIME 24/25/26, HMMT 25 en Humanity's Last Exam, waarbij het de redeneerprestaties van aanzienlijk grotere modellen zoals DeepSeek-R1 en Qwen3-235B benadert of evenaart.
OpenAutoNLU is een open-source automatische machine learning-bibliotheek voor natural language understanding (NLU)-taken, die zowel tekstclassificatie als herkenning van benoemde entiteiten (NER) omvat. In tegenstelling tot bestaande oplossingen introduceren wij een data-aware trainingsregimeselectie die geen handmatige configuratie door de gebruiker vereist. De bibliotheek biedt ook geïntegreerde data quality-diagnostiek, configureerbare out-of-distribution (OOD)-detectie en large language model (LLM)-functionaliteit, allemaal binnen een minimale lowcode-API. De demo-app is hier toegankelijk: https://openautonlu.dev.
Recente vooruitgang in de redeneervaardigheden van multimodale grote taalmmodellen (MLLM's) heeft hen in staat gesteld complexere taken aan te pakken, zoals wetenschappelijke analyse en wiskundig redeneren. Ondanks hun belofte blijven de redeneervaardigheden van MLLM's in verschillende real-life scenario's grotendeels onontgonnen en ontbreekt het aan gestandaardiseerde benchmarks voor evaluatie. Om deze leemte op te vullen, introduceren we MMR-Life, een uitgebreide benchmark die is ontworpen om de diverse multimodale redeneervaardigheden van MLLM's met meerdere afbeeldingen in real-life scenario's te evalueren. MMR-Life bestaat uit 2.646 multiple-choicevragen gebaseerd op 19.108 afbeeldingen, voornamelijk afkomstig uit real-world contexten, en behandelt uitgebreid zeven redeneertypen: abductief, analogisch, causaal, deductief, inductief, ruimtelijk en temporeel. In tegenstelling tot bestaande redeneerbenchmarks, vertrouwt MMR-Life niet op domeinspecifieke expertise, maar vereist het dat modellen informatie over meerdere afbeeldingen integreren en diverse redeneervaardigheden toepassen. De evaluatie van 37 geavanceerde modellen benadrukt de aanzienlijke uitdaging die MMR-Life vormt. Zelfs topmodellen zoals GPT-5 behalen slechts 58% nauwkeurigheid en vertonen aanzienlijke variatie in prestaties tussen de redeneertypen. Bovendien analyseren we de redeneerparadigma's van bestaande MLLM's en onderzoeken we hoe factoren zoals denklengte, redeneermethode en redeneertype hun prestaties beïnvloeden. Samenvattend legt MMR-Life een uitgebreide basis voor het evalueren, analyseren en verbeteren van de volgende generatie multimodale redeneersystemen.
Huidige multi-view 3D-objectdetectoren voor binnenruimtes zijn afhankelijk van kostbare sensorgeometrie (d.w.z. nauwkeurig gekalibreerde cameraposes voor meerdere viewpoints) om multi-view informatie te integreren in een globale scènerepresentatie, wat de inzet in real-world scenario's beperkt. Wij richten ons op een praktischer instelling: Sensor-Geometrie-Vrije (SG-Vrije) multi-view 3D-objectdetectie voor binnenruimtes, waarbij er geen door de sensor verstrekte geometrische invoeren zijn (multi-view poses of diepte). De recente Visual Geometry Grounded Transformer (VGGT) toont aan dat sterke 3D-aanwijzingen rechtstreeks uit afbeeldingen kunnen worden afgeleid. Voortbouwend op dit inzicht presenteren we VGGT-Det, het eerste framework dat is toegesneden op SG-Vrije multi-view 3D-objectdetectie voor binnenruimtes. In plaats van slechts VGGT-voorspellingen te consumeren, integreren we de VGGT-encoder in een op transformers gebaseerde pijplijn. Om zowel de semantische als geometrische prioren vanuit VGGT effectief te benutten, introduceren we twee nieuwe kerncomponenten: (i) Attention-Guided Query Generation (AG): benut VGGT-attentiemappen als semantische prioren om objectqueries te initialiseren, waardoor de lokalisatie verbetert door te focussen op objectregio's terwijl de globale ruimtelijke structuur behouden blijft; (ii) Query-Driven Feature Aggregation (QD): een leerbare See-Query interageert met objectqueries om te 'zien' wat ze nodig hebben, en aggregeert vervolgens dynamisch multi-level geometrische features over VGGT-lagen heen die 2D-features progressief optillen naar 3D. Experimenten tonen aan dat VGGT-Det de best presterende methode in de SG-Vrije setting significant overtreft met respectievelijk 4.4 en 8.6 mAP@0.25 op ScanNet en ARKitScenes. Een ablatiestudie toont aan dat de intern aangeleerde semantische en geometrische prioren van VGGT effectief kunnen worden benut door onze AG en QD.
Hoewel modellen voor muziekgeneratie zijn geëvolueerd om complexe multimodale invoer te verwerken die tekst, songteksten en referentieaudio combineert, zijn evaluatiemechanismen achtergebleven. In dit artikel overbruggen we deze kritieke kloof door een uitgebreid ecosysteem te creëren voor muziekbeloningsmodellering onder Compositionele Multimodale Instructie (CMI), waarbij de gegenereerde muziek kan worden geconditioneerd op tekstbeschrijvingen, songteksten en audioprompts. We introduceren eerst CMI-Pref-Pseudo, een grootschalige voorkeursdataset met 110k pseudo-gelabelde samples, en CMI-Pref, een hoogwaardige, door mensen geannoteerde corpus toegesneden op fijnmazige aligneertaken. Om het evaluatielandschap te standaardiseren, stellen we CMI-RewardBench voor, een uniform benchmark die muziekbeloningsmodellen evalueert op heterogene samples op het gebied van musicaliteit, tekst-muziek-alignering en compositorische instructie-alignering. Gebruikmakend van deze bronnen ontwikkelen we CMI-beloningsmodellen (CMI-RMs), een parameter-efficiënte familie van beloningsmodellen die heterogene invoer kan verwerken. We evalueren hun correlatie met menselijke beoordelingsscores voor musicaliteit en alignering op CMI-Pref samen met eerdere datasets. Verdere experimenten tonen aan dat CMI-RM niet alleen sterk correleert met menselijke oordelen, maar ook effectieve inferentie-tijdsschaling mogelijk maakt via top-k-filtering. De benodigde trainingsdata, benchmarks en beloningsmodellen zijn openbaar beschikbaar.
Het ontwikkelen van multi-turn interactieve tool-use agents is uitdagend omdat gebruikersbehoeften in de praktijk vaak complex en ambigu zijn, terwijl agents deterministische acties moeten uitvoeren om deze te vervullen. Om deze kloof te overbruggen, introduceren we CoVe (Constraint-Verification), een post-training data-synthese framework ontworpen voor het trainen van interactieve tool-use agents met waarborging van zowel datacomplexiteit als -correctheid. CoVe begint met het definiëren van expliciete taakrestricties, die een dubbele rol vervullen: ze sturen de generatie van complexe trajecten en fungeren als deterministische verificatiemiddelen voor het beoordelen van trajectkwaliteit. Dit maakt de creatie van hoogwaardige trainings-trajecten voor supervised fine-tuning (SFT) en de afleiding van accurate beloningssignalen voor reinforcement learning (RL) mogelijk. Onze evaluatie op de uitdagende τ²-bench benchmark toont de effectiviteit van het framework aan. Opmerkelijk is dat ons compacte CoVe-4B-model slagingspercentages behaalt van respectievelijk 43,0% en 59,4% in de Airline- en Retail-domeinen; de algehele prestaties overtreffen significant sterke baseline-modellen van vergelijkbare schaal en blijven competitief met modellen tot 17 keer zo groot. Deze resultaten tonen aan dat CoVe een effectief en efficiënt pad biedt voor het synthetiseren van trainingsdata voor state-of-the-art interactieve tool-use agents. Om toekomstig onderzoek te ondersteunen, open-sourcen we onze code, het getrainde model en de volledige set van 12K hoogwaardige trajecten gebruikt voor training.
Wij presenteren LLaDA-o, een effectief en lengte-adaptief omni-diffusiemodel voor multimodale interpretatie en generatie. LLaDA-o is gebouwd op een Mixture of Diffusion (MoD) raamwerk dat discrete gemaskeerde diffusie voor tekstinterpretatie en continue diffusie voor visuele generatie ontkoppelt, terwijl ze worden gekoppeld via een gedeelde, eenvoudige en efficiënte attention-backbone die overbodige berekeningen voor vaste condities reduceert. Voortbordurend op MoD introduceren we verder een data-gedreven lengte-adaptatiestrategie die flexibele-lengte-decodering in multimodale settings mogelijk maakt zonder architectuurwijzigingen. Uitgebreide experimenten tonen aan dat LLaDA-o state-of-the-art prestaties bereikt onder omni-diffusiemodellen op multimodale interpretatie- en generatiebenchmarks, en een score van 87.04 behaalt op DPG-Bench voor tekst-naar-beeld-generatie, wat de effectiviteit van uniforme omni-diffusiemodellering ondersteunt. Code is beschikbaar op https://github.com/ML-GSAI/LLaDA-o.
Persoonlijke fotoalbums zijn niet louter verzamelingen statische beelden, maar levende, ecologische archieven gedefinieerd door temporele continuïteit, sociale verwevenheid en rijke metadata, wat gepersonaliseerde fotoretrieval geen triviale opgave maakt. Bestaande retrievalbenchmarks vertrouwen echter sterk op contextgeïsoleerde websnapshots, waardoor ze niet in staat zijn het multi-source redeneren te vatten dat nodig is om authentieke, intentiegedreven gebruikersvragen op te lossen. Om deze kloof te overbruggen, introduceren wij PhotoBench, de eerste benchmark die is opgebouwd uit authentieke, persoonlijke albums. Deze is ontworpen om het paradigma te verschuiven van visuele matching naar gepersonaliseerd, intentiegedreven redeneren met meerdere bronnen. Gebaseerd op een rigoureuz multi-source profileringkader, dat visuele semantiek, ruimtelijk-temporele metadata, sociale identiteit en temporele gebeurtenissen voor elke afbeelding integreert, synthetiseren we complexe intentiegedreven vragen geworteld in gebruikerslevenslopen. Uitgebreide evaluatie op PhotoBench legt twee kritieke beperkingen bloot: de modaliteitskloof, waarbij unified embedding-modellen falen bij niet-visuele beperkingen, en de source fusion-paradox, waarbij agent-systemen slecht presteren in tool-orchestratie. Deze bevindingen indiceren dat de volgende grens in persoonlijke multimodale retrieval voorbij unified embeddings ligt, en robuuste agent-redeneersystemen vereist die in staat zijn tot precieze constraint-satisfactie en multi-source fusie. Onze PhotoBench is beschikbaar.
Recente vooruitgang in fundamentele Video Diffusiemodellen (VDM's) heeft aanzienlijke vooruitgang opgeleverd. Desalniettemin blijft het reconstrueren van consistente 3D-scènes uit deze gegenereerde video's een uitdaging, ondanks de opmerkelijke visuele kwaliteit. Dit komt door beperkte camera-bestuurbaarheid en inconsistente gegenereerde inhoud wanneer deze vanuit verschillende cameratrajecten wordt bekeken. In dit artikel stellen we WorldStereo voor, een nieuw raamwerk dat camera-gestuurde videogeneratie en 3D-reconstructie verbindt via twee toegewijde geometrische geheugenmodules. Formeel gezien stelt het globaal-geometrisch geheugen precieze camerabesturing mogelijk, terwijl het grove structurele priors injecteert door middel van incrementeel bijgewerkte puntenwolken. Bovendien beperkt het ruimtelijk-stereo geheugen de aandachtreceptieve velden van het model met 3D-correspondentie om zich te concentreren op fijnmazige details uit de geheugenbank. Deze componenten stellen WorldStereo in staat om multi-view consistente video's te genereren onder precieze camerabesturing, wat hoogwaardige 3D-reconstructie vergemakkelijkt. Verder toont de flexibele, op controlevertakkingen gebaseerde WorldStereo indrukwekkende efficiëntie, profiterend van de VDM-backbone gedestilleerd via distributie-matching zonder gezamenlijke training. Uitgebreide experimenten op zowel camera-gestuurde videogeneratie- als 3D-reconstructiebenchmarks demonstreren de effectiviteit van onze aanpak. Opmerkelijk is dat we aantonen dat WorldStereo fungeert als een krachtig wereldmodel, dat diverse scènegeneratietaken aanpakt (of het nu start vanuit perspectief- of panoramabeelden) met hoogwaardige 3D-resultaten. De modellen zullen worden vrijgegeven.
Generatieve foundationmodellen worden in toenemende mate opgeschaald in zowel breedte als diepte, wat aanzienlijke uitdagingen vormt voor stabiele feature learning en betrouwbare hyperparameter (HP) transfer tussen modelgroottes. Hoewel maximale update-parameterisatie (μP) een principiële oplossing bood voor beide problemen bij breedteschaling, blijven bestaande uitbreidingen naar het gezamenlijke breedte-diepte-schalingsregime gefragmenteerd, architectuur- en optimizer-specifiek, en vaak gebaseerd op technisch complexe theorieën. In dit werk ontwikkelen we een eenvoudig en verenigd spectraal kader voor μP onder gezamenlijke breedte-diepte-schaling. Door residuale netwerken met variërende blokdieptes te beschouwen, introduceren we eerst een spectrale μP-voorwaarde die precies karakteriseert hoe de normen van gewichten en hun per-stap updates moeten schalen met breedte en diepte, waarbij eerder disparate μP-formuleringen worden verenigd als speciale gevallen. Voortbouwend op deze voorwaarde, leiden we vervolgens een algemeen recept af voor de implementatie van μP over een brede klasse van optimizers door de spectrale restricties te vertalen naar concrete HP-parameterisaties. Deze aanpak herstelt niet alleen bestaande μP-formuleringen (bijv. voor SGD en AdamW), maar breidt zich ook natuurlijk uit naar een groter scala aan optimizers. Ten slotte tonen experimenten met GPT-2-stijl taalmodelen aan dat de voorgestelde spectrale μP-voorwaarde stabiele feature learning behoudt en robuuste HP-transfer mogelijk maakt onder breedte-diepte-schaling.
Versterkend leren (RL) speelt een centrale rol bij het verbeteren van het redeneervermogen en de afstemming van grote taalmodel(len), maar de efficiëntie ervan hangt cruciaal af van de selectie van trainingsgegevens. Bestaande online selectiestrategieën zijn voornamelijk gebaseerd op moeilijkheidsheuristieken, waarbij de voorkeur uitgaat naar datapunten met intermediaire slagingspercentages. Hierbij wordt moeilijkheid impliciet gelijkgesteld aan informatiewaarde en wordt epistemische onzekerheid als gevolg van beperkte evidentie verwaarloosd. Wij introduceren InSight, een INformatie-gestuurde data-Samplingsmethode voor RL-training, gebaseerd op een gewogen wederzijds informatie-doelstelling. Door data-uitkomsten te modelleren met Bayesiaanse latente slagingspercentages, tonen we aan dat verwachte onzekerheidsreductie zich ontbindt in complementaire, moeilijkheids- en evidentie-afhankelijke componenten, wat een fundamentele beperking van uitsluitend op moeilijkheid gebaseerde selectie blootlegt. Gebruikmakend van deze observatie construeert InSight een stabiele acquisitiescore op basis van het gemiddelde geloof in het succes van datapunten in plaats van op lawaaierige, bemonsterde uitkomsten, en breidt het zich natuurlijk uit naar multi-rollout instellingen die gebruikelijk zijn in reinforcement learning met verifieerbare beloningen (RLVR). Uitgebreide experimenten tonen aan dat InSight consistent state-of-the-art prestaties levert en de trainingsefficiëntie verbetert, waaronder een gemiddelde winst van +1.41 op Planning & Wiskunde benchmarks, een verbetering van +1.01 op algemeen redeneren, en een versnelling tot ~2.2x, met verwaarloosbare extra computationele overhead.
Grote taalmodellen (LLM's) vormen steeds vaker de basis voor autonome agents die tools kunnen gebruiken om complexe taken op te lossen. Reinforcement learning (RL) is een gangbare benadering geworden om dergelijke agent-mogelijkheden in te brengen, maar gebeurt doorgaans onder strikt gecontroleerde trainingsopstellingen. Het is vaak afhankelijk van zorgvuldig geconstrueerde taak-oplossingsparen en aanzienlijk menselijk toezicht, wat een fundamentele belemmering vormt voor open-einde zelf-evolutie richting superintelligente systemen. In dit artikel stellen we het Tool-R0-framework voor voor het trainen van algemene tool-aanroepende agents vanaf nul met self-play RL, onder een nul-data-aanname. Geïnitialiseerd vanuit hetzelfde basis-LLM, laat Tool-R0 een Generator en een Solver co-evolueren met complementaire beloningen: de ene stelt gerichte uitdagende taken voor aan de grenzen van de competentie van de andere, en de andere leert deze op te lossen met echte tool-aanroepingen. Dit creëert een zelf-evoluerende cyclus die geen bestaande taken of datasets vereist. Evaluatie op verschillende tool-gebruik benchmarks toont aan dat Tool-R0 een relatieve verbetering van 92,5% oplevert ten opzichte van het basismodel en volledig gesuperviseerde tool-aanroep-baselines onder dezelfde omstandigheden overtreft. Ons werk biedt verder empirische inzichten in self-play LLM-agents door co-evolutie, curriculumdynamiek en schaalgedrag te analyseren.
Versterkend leren (RL) voor wiskundig redeneren kan last hebben van schaarse beloningen: bij uitdagende problemen slaagt het taalmodel er niet in om correcte trajecten te genereren, waardoor RL geen zinvolle positieve feedback ontvangt. Tegelijkertijd zijn er vaak door mensen geschreven referentieoplossingen beschikbaar bij het probleem (bijvoorbeeld problemen van AoPS), maar het direct finetunen op deze oplossingen biedt geen voordeel, omdat modellen vaak niet in staat zijn om menselijke bewijzen te imiteren die buiten hun eigen redeneerdistributie vallen. Wij introduceren Reference-Guided Fine-Tuning (ReGFT), een eenvoudige en effectieve methode die gebruikmaakt van door mensen geschreven referentieoplossingen om positieve trajecten te synthetiseren voor moeilijke problemen en hierop te trainen vóór RL. Voor elk probleem bieden we het model een gedeeltelijke referentieoplossing aan en laten we het zijn eigen redeneerspoor genereren. Dit zorgt ervoor dat de resulterende trajecten binnen de redeneerruimte van het model blijven, terwijl ze toch profiteren van de referentierichtlijn. Finetunen op deze referentie-gestuurde trajecten verhoogt het aantal oplosbare problemen en produceert een checkpoint dat tijdens RL meer positieve beloningen ontvangt. Op drie benchmarks (AIME24, AIME25, BeyondAIME) verbetert ReGFT consistent de supervised nauwkeurigheid, versnelt het de DAPO-training en verhoogt het het uiteindelijke prestatieplateau van RL. Onze resultaten tonen aan dat ReGFT schaarse beloningen effectief overwint en sterker op RL gebaseerd wiskundig redeneren mogelijk maakt.
Kunnen LLM-agenten codebases verkennen en redeneren over codesemantiek zonder de code uit te voeren? Wij bestuderen deze capaciteit, die wij agent-gebaseerd coderedeneren noemen, en introduceren semi-formeel redeneren: een gestructureerde promptingmethodologie die agenten vereist expliciete premissen te construeren, uitvoeringspaden te traceren en formele conclusies af te leiden. In tegenstelling tot ongestructureerde chain-of-thought fungeert semi-formeel redeneren als een certificaat: de agent kan geen gevallen overslaan of ongefundeerde beweringen doen. Wij evalueren dit aan de hand van drie taken (patch-equivalentieverificatie, foutlokalisatie en codevraagbeantwoording) en tonen aan dat semi-formeel redeneren consistent de nauwkeurigheid bij alle taken verbetert. Voor patchequivalentie verbetert de nauwkeurigheid van 78% naar 88% bij gecureerde voorbeelden en bereikt 93% bij real-world door agenten gegenereerde patches, waarmee het de betrouwbaarheid benadert die nodig is voor uitvoeringsvrije RL-beloningssignalen. Voor codevraagbeantwoording op RubberDuckBench Mohammad et al. (2026) behaalt semi-formeel redeneren 87% nauwkeurigheid. Voor foutlokalisatie op Defects4J Just et al. (2014) verbetert semi-formeel redeneren de Top-5-nauwkeurigheid met 5 procentpunten ten opzichte van standaardredenering. Deze resultaten tonen aan dat gestructureerd agent-gebaseerd redeneren zinvolle semantische code-analyse zonder uitvoering mogelijk maakt, wat praktische toepassingen opent in RL-trainingspipelines, codereviews en statische programma-analyse.
Reinforcement Learning (RL) wordt steeds vaker gebruikt om medische Vision-Language Models (VLMs) na te trainen, maar het is nog onduidelijk of RL het medisch visueel redeneren verbetert of voornamelijk gedrag aanscherpt dat al door supervised fine-tuning (SFT) is aangeleerd. Wij presenteren een gecontroleerde studie die deze effecten ontwart langs drie assen: visie, SFT en RL. Met MedMNIST als multimodaal testplatform onderzoeken we visuele perceptie door VLM-visietorens te benchmarken tegen visie-only basislijnen, kwantificeren we redeneerondersteuning en steekproefefficiëntie via Accuracy@1 versus Pass@K, en evalueren we wanneer RL de ondersteuningskloof dicht en hoe winsten zich over modaliteiten heen overdragen. Wij constateren dat RL het meest effectief is wanneer het model reeds een aanzienlijke ondersteuning (hoge Pass@K) heeft: het verscherpt voornamelijk de uitvoerverdeling, verbetert Acc@1 en de steekproefefficiëntie, terwijl SFT de ondersteuning vergroot en RL effectief maakt. Gebaseerd op deze bevindingen stellen we een grenswaarde-bewuste aanpak voor en concretiseren deze door een met OctoMed geïnitialiseerd model na te trainen met RL op een kleine, gebalanceerde subset van PMC multiple-choice VQA, waarbij sterke gemiddelde prestaties worden behaald op zes medische VQA benchmarks.
Wij introduceren Legal RAG Bench, een benchmark en evaluatiemethodologie voor het beoordelen van de end-to-end prestaties van juridische RAG-systemen. Als benchmark bestaat Legal RAG Bench uit 4.876 passages uit het Victorian Criminal Charge Book, samen met 100 complexe, handmatig opgestelde vragen die expertkennis van strafrecht en -proces vereisen. Er worden zowel uitgebreide antwoorden als ondersteunende passages geleverd. Als evaluatiemethodologie maakt Legal RAG Bench gebruik van een volledig factorieel ontwerp en een nieuw hiërarchisch kader voor foutdecompositie, waardoor appels-met-appels vergelijkingen mogelijk worden van de bijdragen van retrieval- en redeneermodellen in RAG. Wij evalueren drie state-of-the-art embeddingmodellen (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001 en OpenAI's Text Embedding 3 Large) en twee frontier LLM's (Gemini 3.1 Pro en GPT-5.2), en concluderen dat informatie-retrieval de primaire drijvende kracht is van juridische RAG-prestaties, waarbij LLM's een gematigder effect hebben op correctheid en gegrondheid. Met name Kanon 2 Embedder had de grootste positieve impact op de prestaties, door de gemiddelde correctheid met 17,5 punten te verbeteren, gegrondheid met 4,5 punten en retrievalsucces met 34 punten. Wij observeren dat veel fouten die worden toegeschreven aan hallucinaties in juridische RAG-systemen in feite worden veroorzaakt door retrievalfouten, en concluderen dat retrieval de bovengrens bepaalt voor de prestaties van veel moderne juridische RAG-systemen. Wij documenteren waarom en hoe wij Legal RAG Bench hebben gebouwd, naast de resultaten van onze evaluaties. Wij geven onze code en data ook openbaar vrij om de reproductie van onze bevindingen te ondersteunen.
Wij presenteren FireRed-OCR, een systematisch raamwerk om algemene Vision-Language Models (VLMs) te specialiseren tot hoogwaardige OCR-modellen. Grote Vision-Language Models (VLMs) hebben indrukwekkende algemene capaciteiten getoond, maar lijden vaak aan "structurele hallucinatie" bij het verwerken van complexe documenten, wat hun bruikbaarheid in industriële OCR-toepassingen beperkt. In dit artikel introduceren we FireRed-OCR, een nieuw raamwerk ontworpen om algemene VLMs (gebaseerd op Qwen3-VL) om te vormen tot pixelprecieze experts in structurele documentparsing. Om het gebrek aan hoogwaardige gestructureerde data aan te pakken, construeren we een "Geometrie + Semantiek" Data Factory. In tegenstelling tot traditionele willekeurige steekproeven, benut onze pijplijn geometrische kenmerkclustering en multidimensionale tagging om een zeer gebalanceerde dataset te synthetiseren en samen te stellen, die effectief omgaat met long-tail lay-outs en zeldzame documenttypen. Verder stellen we een Drie-fasen Progressieve Trainingsstrategie voor die het model begeleidt van pixelperceptie naar logische structuurgeneratie. Deze leerlijn omvat: (1) Multi-task Pre-alignment om het begrip van het model voor documentstructuur te gronden; (2) Gespecialiseerde SFT voor het standaardiseren van volledig-beeld Markdown-output; en (3) Format-Constrained Group Relative Policy Optimization (GRPO), dat reinforcement learning gebruikt om strikte syntactische geldigheid en structurele integriteit af te dwingen (bijv. tabelafsluiting, formulesyntax). Uitgebreide evaluaties op OmniDocBench v1.5 tonen aan dat FireRed-OCR state-of-the-art prestaties bereikt met een algemene score van 92,94%, wat aanzienlijk beter is dan sterke baselines zoals DeepSeek-OCR 2 en OCRVerse op tekst-, formule-, tabel- en leesvolgordemetrieken. Wij maken onze code en modelgewichten open source om het paradigma "Algemene VLM naar Gespecialiseerde Structurele Expert" te faciliteren.
Test-time reinforcement learning (TTRL) is naar voren gekomen als een veelbelovend paradigma voor zelf-evoluerende grote redeneermodellen (LRM's), waarmee online aanpassing op ongelabelde testinputs mogelijk wordt via zelf-geïnduceerde beloningen door middel van meerderheidsstemming. Een onterechte maar hoogfrequente, onverifieerde consensus kan echter een bevooroordeeld en versterkt beloningssignaal worden, wat leidt tot incorrecte mode-collaps. Wij pakken deze faalwijze aan met T^3RL (Tool-Verification for Test-Time Reinforcement Learning), dat toolverificatie tijdens de testfase introduceert in de beloningsschatting. Concreet gebruikt een verifier een externe tool als bewijs (bijvoorbeeld van code-uitvoering) om geverifieerde rollouts zwaarder te laten meetellen in een verificatiebewuste stemming, wat betrouwbaardere pseudo-labels voor training oplevert. Over diverse wiskundeniveaus (MATH-500, AMC en AIME 2024) en verschillende backbone-typen heen, verbetert T^3RL significant ten opzichte van TTRL, met grotere vooruitgang op moeilijkere problemen. In bredere zin kan T^3RL worden gezien als geverifieerde online datasynthese, wat toolverificatie tijdens de testfase benadrukt als een sleutelmechanisme voor het stabiliseren van zelf-evolutie.
Think-Answer-redeneerders zoals DeepSeek-R1 hebben aanzienlijke vooruitgang geboekt door gebruik te maken van interpreteerbare interne redenering. Ondanks de frequente aanwezigheid van zelfreflectieve signalen zoals "Oeps!", blijven ze echter kwetsbaar voor uitvoerfouten tijdens enkelvoudige inferentie. Om deze beperking aan te pakken, stellen we een efficiënt Recursief Think-Answer-Proces (R-TAP) voor, dat modellen in staat stelt om iteratieve redeneercycli uit te voeren en nauwkeurigere antwoorden te genereren, voorbij conventionele enkelvoudige benaderingen. Centraal in deze aanpak staat een vertrouwensgenerator die de zekerheid van modelresponses evalueert en verdere verbeteringen begeleidt. Door twee complementaire beloningen te incorporeren - de Recursieve Vertrouwens-Toename Beloning en de Finale Antwoord-Vertrouwens Beloning - tonen we aan dat R-TAP-verbeterde modellen consequent conventionele enkelvoudige methoden overtreffen, zowel voor grote taalmodel(len (LLM's) als voor visie-taalmodel(len (VLM's). Bovendien blijkt uit analyse van de frequentie van "Oeps"-achtige uitdrukkingen in modelresponses dat R-TAP-toegepaste modellen aanzienlijk minder zelfreflectieve patronen vertonen, wat resulteert in stabielere en snellere redenering tijdens inferentie. We hopen dat R-TAP de weg effent naar de evolutie van efficiënte en verfijnde methoden om de redeneerprocessen van toekomstige AI te verbeteren.
Aandachtsturing is een belangrijke techniek voor het beheersen van modelfocus, waardoor mogelijkheden zoals promptaccentuering worden gerealiseerd, waarbij het model door de gebruiker gespecificeerde tekst prioriteert. Bestaande methoden voor aandachtsturing vereisen echter de expliciete opslag van de volledige aandachtmatrix, waardoor ze onverenigbaar zijn met geheugenefficiënte implementaties zoals FlashAttention. Wij introduceren Spectral Editing Key Amplification (SEKA), een trainingsvrije stuurmethode die dit aanpakt door sleutel-embeddingen direct te bewerken vóór de aandachtsscoreberekening. SEKA gebruikt spectrale decompositie om sleutel-embeddingen te sturen naar latente richtingen die de aandachtsscores voor bepaalde tokens versterken. Wij breiden dit uit naar Adaptive SEKA (AdaSEKA), een query-adaptieve variant die een trainingsvrij routeringsmechanisme gebruikt om dynamisch meerdere expert-deelruimten te combineren op basis van de semantische intentie van de prompt. Onze experimenten tonen aan dat beide methoden significant sterker presteren dan sterke baselines op standaard stuurbenchmarks, terwijl ze aanzienlijk minder latentie en geheugenoverhead toevoegen, in compatibiliteit met geoptimaliseerde aandacht.
Wij introduceren V-SONAR, een visie-taal inbedruimte die is uitgebreid vanuit de uitsluitend op tekst gebaseerde inbedruimte SONAR (Omnilingual Embeddings Team et al., 2026), welke 1500 teksttalen en 177 spreektalen ondersteunt. Voor de constructie van V-SONAR stellen wij een post-hoc aligneringspijplijn voor die de representaties van een bestaande visie-encoder afbeeldt op de SONAR-ruimte. Wij evalueren V-SONAR grondig en tonen aan dat de inbeddingen competitieve prestaties leveren voor tekst-naar-video-retrieval. Uitgerust met de OMNISONAR tekstdecoder, overtreft V-SONAR verder de state-of-the-art visie-taalmodellen bij videobeschrijvingstaken, waaronder DREAM-1K (BLEU 23,9 vs. 19,6) en PE-VIDEO (BLEU 39,0 vs. 30,0). Door gebruik te maken van V-SONAR, demonstreren wij eerst dat het Large Concept Model (LCM; LCM team et al. 2024), dat opereert in SONAR en uitsluitend met Engelse tekst is getraind, zowel enkelvoudig als meervoudig visueel begrip kan uitvoeren op een zero-shot-manier. Ten slotte introduceren wij V-LCM, dat de LCM uitbreidt met visie-taal instructie-afstemming. V-LCM codeert visuele en talige invoer in een verenigde reeks latente inbeddingen via V-SONAR en SONAR, en wordt getraind met hetzelfde latente diffusiedoel voor volgende-inbedding-voorspelling als in de uitsluitend tekstgebaseerde pre-training van LCM. Experimenten op een grootschalige, meertalige en multimodale mix van instructie-afstemmingsdata benadrukken het potentieel van V-LCM: V-LCM evenaart state-of-the-art visie-taalmodellen bij taken zoals beeld/video-beschrijving en vraag-antwoord, en presteert significant beter in 61 rijke tot arme talen van de in totaal 62 geteste talen.
Wanneer een tekstbeschrijving wordt uitgebreid met een extra detail, zou de beeld-tekstovereenkomst moeten dalen als dat detail onjuist is. Wij tonen aan dat CLIP-stijl dual encoders vaak tegen deze intuïtie ingaan: het toevoegen van een plausibel maar incorrect object of een relatie aan een verder correcte beschrijving kan de similariteitsscore verhogen. Wij noemen dergelijke gevallen halve waarheden. Op COCO prefereert CLIP slechts 40,6% van de tijd de correcte kortere beschrijving, en de prestaties dalen tot 32,9% wanneer het toegevoegde detail een relatie is. Wij herleiden deze kwetsbaarheid tot zwak toezicht op onderdelen van bijschriften: contrastieve training aligneert volledige zinnen, maar legt niet expliciet op dat individuele entiteiten en relaties gegrond zijn. Wij stellen CS-CLIP (Component-Supervised CLIP) voor, dat bijschriften ontleedt in eenheidsentiteiten en relaties, een minimaal bewerkte afleider voor elke eenheid construeert, en het model fine-tunt om de correcte eenheid hoger te scoren dan zijn afleider, terwijl standaard dual-encoder inferentie behouden blijft. CS-CLIP verhoogt de nauwkeurigheid voor halve waarheden tot 69,3% en verbetert de gemiddelde prestatie op gevestigde compositionele benchmarks met 5,7 punten, wat suggereert dat het verminderen van halve-waarheidfouten samenhangt met bredere winst in compositioneel begrip. Code is openbaar beschikbaar op: https://github.com/kargibora/CS-CLIP
Dit rapport presenteert CharacterFlywheel, een iteratief vliegwielproces voor het verbeteren van grote taalmodellen (LLM's) in productie-omgevingen voor sociale chattoepassingen op Instagram, WhatsApp en Messenger. Uitgaande van LLaMA 3.1, verfijnden we modellen over 15 generaties heen met gegevens afkomstig van zowel intern als extern reëel gebruikersverkeer. Via continue implementaties van juli 2024 tot april 2025 voerden we gecontroleerde A/B-tests van 7 dagen uit, die consistente verbeteringen in betrokkenheid toonden: 7 van de 8 nieuw geïmplementeerde modellen leverden een positieve stijging op ten opzichte van de basislijn, waarbij de beste presteerders verbeteringen bereikten van tot 8,8% in de breedte van betrokkenheid en 19,4% in de diepte van betrokkenheid. We observeerden ook aanzienlijke vooruitgang in stuurbaarheid: het opvolgen van instructies steeg van 59,2% naar 84,8% en het overtreden van instructies daalde van 26,6% naar 5,8%. We beschrijven het CharacterFlywheel-proces in detail, waarbij datacuratie, beloningsmodellering om het landschap van betrokkenheidsstatistieken te schatten en te interpoleren, supervised fine-tuning (SFT), reinforcement learning (RL), en zowel offline als online evaluatie worden geïntegreerd om betrouwbare vooruitgang bij elke optimalisatiestap te waarborgen. We bespreken tevens onze methoden voor het voorkomen van overfitting en het navigeren door productiedynamiek op grote schaal. Deze bijdragen bevorderen de wetenschappelijke nauwkeurigheid en het begrip van LLM's in sociale toepassingen die miljoenen gebruikers bedienen.
LLM's hebben dichte retrieval fundamenteel getransformeerd door de ruggengraat te upgraden van discriminerende encoders naar generatieve architecturen. Er blijft echter een kritieke kloof bestaan: hoewel LLM's over sterke redeneervermogen beschikken, gebruiken huidige retrievers hen voornamelijk als statische encoders, waardoor hun potentieel voor complex redeneren onbenut blijft. Om dit aan te pakken, nemen bestaande benaderingen typisch *rewrite-then-retrieve* pipelines aan om expliciete CoT-redeneringen te genereren vóór de retrieval. Dit brengt echter onaanvaardbare latentie met zich mee. In dit artikel stellen we LaSER voor, een nieuw zelf-distillatiekader dat expliciet redeneren internaliseert in de latente ruimte van dichte retrievers. Opererend op een gedeelde LLM-ruggegraat introduceert LaSER een dual-view trainingsmechanisme: een Expliciete view die grondwaarheid-redeneerpaden expliciet encodeert, en een Latente view die impliciet latent denken uitvoert. Om de kloof tussen deze views te overbruggen, ontwerpen we een multi-granulaire aligneringsstrategie. Naast standaard output-alignment introduceren we een traject-alignmentmechanisme dat de intermediaire latente toestanden van het latente pad synchroniseert met de semantische progressie van de expliciete redeneersegmenten. Hierdoor kan de retriever stil en effectief denken zonder autoregressieve tekstgeneratie. Uitgebreide experimenten op zowel in-domein als out-of-domein redeneer-intensieve benchmarks tonen aan dat LaSER state-of-the-art baseline-methoden significant overtreft. Verder valideren analyses over diverse ruggegraten en modelschalen de robuustheid van onze aanpak, wat bevestigt dat ons verenigd leerkader essentieel is voor het opwekken van effectief latent denken. Onze methode combineert met succes de redeneerdiepte van expliciete CoT-pipelines met de inferentie-efficiëntie van standaard dichte retrievers.
Wij identificeren occlusieredenering als een fundamenteel maar over het hoofd gezien aspect voor 3D-lay-out-geconditioneerde generatie. Het is essentieel voor het synthetiseren van gedeeltelijk verborgen objecten met diepteconsistente geometrie en schaal. Hoewel bestaande methodes realistische scènes kunnen genereren die de invoerlay-outs volgen, slagen zij er vaak niet in precieze inter-object occlusies te modelleren. Wij stellen SeeThrough3D voor, een model voor 3D-lay-out-geconditioneerde generatie dat occlusies expliciet modelleert. Wij introduceren een occlusiebewuste 3D-scènevoorstelling (OSCR), waarbij objecten worden afgebeeld als doorschijnende 3D-boxen die in een virtuele omgeving zijn geplaatst en worden gerenderd vanuit een gewenst camerastandpunt. De transparantie codeert verborgen objectregio's, waardoor het model over occlusies kan redeneren, terwijl het gerenderde standpunt expliciete cameracontrole biedt tijdens de generatie. Wij conditioneren een voorgetraind op flow gebaseerd tekst-naar-beeld generatiemodel door een reeks visuele tokens geïntroduceerd die zijn afgeleid van onze gerenderde 3D-voorstelling. Verder passen wij gemaskeerde zelf-attentie toe om elk objectbegrenzingsvlak nauwkeurig te binden aan de bijbehorende tekstuele beschrijving, wat nauwkeurige generatie van meerdere objecten zonder menging van objectattributen mogelijk maakt. Om het model te trainen, construeren wij een synthetische dataset met diverse multi-object scènes met sterke inter-object occlusies. SeeThrough3D generaliseert effectief naar onzichtbare objectcategorieën en maakt precieze 3D-lay-outcontrole mogelijk met realistische occlusies en consistente cameracontrole.
Training op verifieerbare symbolische data is een veelbelovende manier om de redeneergrens van taalmodellen te verleggen voorbij wat standaard pre-trainingscorpora bieden. Toch baseren bestaande procedurele generators zich vaak op vaste puzzels of sjablonen en bieden ze niet de vereiste distributionele breedte op schaal. Wij introduceren Reasoning Core, een schaalbare suite die procedureel verifieerbare symbolische redeneerdata genereert over kernformele domeinen: PDDL-planning over gerandomiseerde domeinen, eerstelogica met gelijkheid, contextvrije grammatica-parsing en -generatie, causaal redeneren over willekeurige Bayesiaanse netwerken, en stelsels van vergelijkingen. Elke taak is gekoppeld aan een externe solver voor rigoureuze verificatie en staat continue moeilijkheidscontrole toe voor curriculumontwerp. Voorbeelden kunnen optioneel door de solver afgeleide redeneersporen bevatten, wat supervised training vanaf de vroegste pre-trainingsfasen mogelijk maakt, en dezelfde interface biedt verifieerbare beloningsfuncties voor reinforcement learning. Onze experimenten tonen aan dat het mengen van Reasoning Core-data in pre-training de downstream-redenering verbetert, terwijl de kwaliteit van taalmodellering behouden blijft of licht verbetert. Zero-shot evaluaties bevestigen dat deze taken uitdagend zijn voor frontiermodellen zoals GPT-5. De code en data zijn publiekelijk beschikbaar onder de MIT-licentie.
Wij introduceren Classroom Final Exam (CFE), een multimodaal benchmark voor het evalueren van de redeneercapaciteiten van grote taalmodellen in meer dan 20 STEM-domeinen. CFE is samengesteld uit herhaaldelijk gebruikte, authentieke universitaire huiswerk- en examenopgaven, samen met referentieoplossingen die door cursusdocenten zijn verstrekt. CFE vormt een aanzienlijke uitdaging, zelfs voor toonaangevende modellen: het nieuw uitgebrachte Gemini-3.1-pro-preview behaalt een algemene nauwkeurigheid van 59,69%, terwijl het op een na beste model, Gemini-3-flash-preview, 55,46% bereikt, wat aanzienlijke ruimte voor verbetering laat. Naast de leaderboard-resultaten voeren we een diagnostische analyse uit door referentieoplossingen op te splitsen in redeneerstromen. Wij constateren dat toonaangevende modellen vaak wel de juiste antwoorden kunnen geven op tussentijdse deelvragen, maar moeite hebben om gedurende meerstapsoplossingen betrouwbaar correcte tussenstadia af te leiden en te behouden. Verder observeren we dat door modellen gegenereerde oplossingen doorgaans meer redeneerstappen hebben dan die van de docent, wat wijst op suboptimale stapefficiëntie en een hoger risico op foutaccumulatie. De data en code zijn beschikbaar op https://github.com/Analogy-AI/CFE_Bench.
Wij introduceren Synthetic Visual Genome 2 (SVG2), een grootschalige panoptische videoscènegrafiekdataset. SVG2 bevat meer dan 636.000 video's met 6,6 miljoen objecten, 52,0 miljoen attributen en 6,7 miljoen relaties, wat een orde van grootte meer schaal en diversiteit biedt vergeleken met eerdere spatio-temporele scènegrafiekdatasets. Voor de creatie van SVG2 ontwikkelden we een volledig geautomatiseerde pijplijn die multi-schaal panoptische segmentatie, online-offline trajecttracking met automatische detectie van nieuwe objecten, semantische parsing per traject en op GPT-5 gebaseerde spatio-temporele relatie-inferentie combineert. Gebaseerd op deze bron trainen we TRaSER, een model voor het genereren van videoscènegrafen. TRaSER breidt VLMs uit met een mechanisme voor traject-uitgelijnde tokenarrangering en nieuwe modules: een object-traject herbemonsteraar en een tijdvenster-herbemonsteraar om ruwe video's en panoptische trajecten in één enkele forward pass om te zetten in compacte spatio-temporele scènegrafen. De tijdvenster-herbemonsteraar koppelt visuele tokens aan korte trajectsegmenten om lokale beweging en temporele semantiek te behouden, terwijl de object-traject herbemonsteraar volledige trajecten aggregeert om de globale context voor objecten te behouden. Op de PVSG-, VIPSeg-, VidOR- en SVG2-testdatasets verbetert TRaSER relatiedetectie met +15 tot 20%, objectvoorspelling met +30 tot 40% ten opzichte van de sterkste open-source basislijnen en met +13% ten opzichte van GPT-5, en attribuutvoorspelling met +15%. Wanneer de door TRaSER gegenereerde scènegrafen naar een VLM worden gestuurd voor video question answering, levert dit een absolute nauwkeurigheidswinst op van +1,5 tot 4,6% ten opzichte van het gebruik van alleen video of video aangevuld met door Qwen2.5-VL gegenereerde scènegrafen, wat het nut aantoont van expliciete spatio-temporele scènegrafen als een intermediaire representatie.
Recente tekst-naar-beeld (T2I) diffusiemodellen bereiken opmerkelijke realisme, maar getrouwe prompt-beeld-afstemming blijft een uitdaging, vooral voor complexe prompts met meerdere objecten, relaties en fijnmazige attributen. Bestaande trainingsvrije inferentie-tijd schalingsmethoden vertrouwen op vaste iteratiebudgetten die zich niet kunnen aanpassen aan de moeilijkheidsgraad van de prompt, terwijl reflectie-afgestemde modellen zorgvuldig samengestelde reflectiedatasets en uitgebreide gezamenlijke fine-tuning van diffusie- en vision-language modellen vereisen, wat vaak leidt tot overfitting op reflectiepaddata en gebrek aan overdraagbaarheid tussen modellen. Wij introduceren RAISE (Requirement-Adaptive Self-Improving Evolution), een trainingsvrij, eis-gestuurd evolutionair raamwerk voor adaptieve T2I-generatie. RAISE formuleert beeldgeneratie als een eis-gestuurd adaptief schalingsproces, waarbij een populatie van kandidaten tijdens inferentie wordt geëvolueerd via een diverse set van verfijningsacties - inclusief promptherschrijving, ruisherbemonstering en instructionele bewerking. Elke generatie wordt geverifieerd aan de hand van een gestructureerde checklist van eisen, waardoor het systeem dynamisch onbevredigde items kan identificeren en verdere berekening alleen toewijst waar nodig. Dit resulteert in adaptieve testtijd-schaling die de rekeninspanning afstemt op de semantische querycomplexiteit. Op GenEval en DrawBench behaalt RAISE state-of-the-art afstemming (0.94 overall GenEval) met minder gegenereerde samples (30-40% reductie) en VLM-aanroepen (80% reductie) dan eerdere schalings- en reflectie-afgestemde baseline-methoden, wat efficiënte, generaliseerbare en model-agnostische multi-round zelfverbetering aantoont. Code is beschikbaar op https://github.com/LiyaoJiang1998/RAISE.
Kennisgebaseerd visueel vraag-antwoord (KB-VQA) toont aanzienlijk potentieel voor het afhandelen van kennisintensieve taken. Er ontstaan echter conflicten tussen de statische parametrische kennis in visuele-taalmodelen (VLM's) en dynamisch opgehaalde informatie, als gevolg van de statische modelkennis uit de voorafgaande training. De uitvoer negeert ofwel de opgehaalde contexten, of vertoont een inconsistente integratie met parametrische kennis, wat aanzienlijke uitdagingen vormt voor KB-VQA. Huidige methoden om kennisconflicten te verzachten zijn voornamelijk aangepast vanuit taalkundige benaderingen en richten zich op conflicten op contextniveau via geëngineerde promptstrategieën of contextbewuste decodeermechanismen. Deze methoden verwaarlozen echter de cruciale rol van visuele informatie bij conflicten en hebben last van redundante opgehaalde contexten, wat een accurate conflictidentificatie en effectieve mitigatie belemmert. Om deze beperkingen aan te pakken, stellen we CC-VQA voor: een nieuwe trainingsvrije, conflict- en correlatiebewuste methode voor KB-VQA. Onze methode omvat twee kerncomponenten: (1) Visie-centraal contextueel conflictredeneren, dat visueel-semantische conflictanalyse uitvoert over interne en externe kenniscontexten; en (2) Correlatie-gestuurd coderen en decoderen, met positionele coderingscompressie voor uitspraken met lage correlatie en adaptief decoderen met behulp van correlatie-gewogen conflictscores. Uitgebreide evaluaties op de E-VQA, InfoSeek en OK-VQA benchmarks tonen aan dat CC-VQA state-of-the-art prestaties bereikt, met absolute nauwkeurigheidsverbeteringen van 3,3% tot 6,4% in vergelijking met bestaande methoden. Code is beschikbaar op https://github.com/cqu-student/CC-VQA.
Het creëren van interactieve digitale omgevingen voor gaming, robotica en simulatie is afhankelijk van gearticuleerde 3D-objecten waarvan de functionaliteit voortkomt uit hun onderdeelgeometrie en kinematische structuur. Bestaande benaderingen kennen echter fundamentele beperkingen: op optimalisatie gebaseerde reconstructiemethoden vereisen trage, per-object gewrichtsaanpassing en behandelen doorgaans alleen eenvoudige objecten met één gewricht, terwijl op retrievable gebaseerde methoden onderdelen assembleren uit een vaste bibliotheek, wat leidt tot repetitieve geometrie en slechte generalisatie. Om deze uitdagingen aan te pakken, introduceren we ArtLLM, een nieuw raamwerk voor het genereren van hoogwaardige gearticuleerde assets rechtstreeks uit complete 3D-meshes. De kern ervan is een 3D multimodaal groot taalmodel, getraind op een grootschalige articulatiedataset samengesteld uit bestaande articulatie-datasets en procedureel gegenereerde objecten. In tegenstelling tot eerder werk, voorspelt ArtLLM autoregressief een variabel aantal onderdelen en gewrichten, waarbij het hun kinematische structuur op een uniforme manier afleidt uit de pointcloud van het object. Deze articulatiebewuste lay-out conditioneert vervolgens een 3D-generatief model om hoogwaardige onderdeelgeometrieën te synthetiseren. Experimenten op de PartNet-Mobility dataset tonen aan dat ArtLLM state-of-the-art methoden significant overtreft in zowel nauwkeurigheid van de onderdelenlay-out als gewrichtsvoorspelling, terwijl het robuust generaliseert naar objecten uit de echte wereld. Tot slot demonstreren we de bruikbaarheid ervan bij het construeren van digitale twins, wat het potentieel voor schaalbare robotleren benadrukt.
Recente vooruitgang in videogeneratie heeft nieuwe mogelijkheden geopend voor macroscopische simulatie van complexe dynamische systemen, maar hun toepassing op microscopische fenomenen is grotendeels onontgonnen. Microschaal-simulatie houdt grote belofte in voor biomedische toepassingen zoals geneesmiddelenontdekking, organen-op-een-chip-systemen en onderzoek naar ziekte mechanismen, terwijl het ook potentieel toont in onderwijs en interactieve visualisatie. In dit werk introduceren we MicroWorldBench, een op meerdere niveaus gebaseerde rubric-maatstaf voor microschaal-simulatietaken. MicroWorldBench maakt systematische, rubric-gestuurde evaluatie mogelijk via 459 unieke, door experts geannoteerde criteria die zich uitstrekken over meerdere microschaal-simulatietaken (bijv. orgaanniveau-processen, cellulaire dynamiek en subcellulaire moleculaire interacties) en evaluatiedimensies (bijv. wetenschappelijke nauwkeurigheid, visuele kwaliteit, instructie-opvolging). MicroWorldBench onthult dat huidige state-of-the-art videogeneratiemodellen tekortschieten in microschaal-simulatie, met schendingen van natuurwetten, temporele inconsistentie en afwijkingen van expertcriteria. Om deze beperkingen aan te pakken, construeren we MicroSim-10K, een hoogwaardige, door experts geverifieerde simulatie-dataset. Gebruikmakend van deze dataset trainen we MicroVerse, een videogeneratiemodel toegesneden op microschaal-simulatie. MicroVerse kan complexe microschaal-mechanismen nauwkeurig reproduceren. Ons werk introduceert voor het eerst het concept van Micro-Wereld Simulatie en presenteert een proof of concept, waarmee de weg wordt geëffend voor toepassingen in biologie, onderwijs en wetenschappelijke visualisatie. Ons werk demonstreert het potentieel van educatieve microschaal-simulaties van biologische mechanismen. Onze data en code zijn openbaar beschikbaar op https://github.com/FreedomIntelligence/MicroVerse.
De ontwikkeling van automatische spraakherkenningssystemen (ASR) voor talen met weinig bronnen wordt belemmerd door de schaarste aan getranscribeerde corpora. Deze proof-of-concept studie onderzoekt liedjes als een onconventionele maar veelbelovende gegevensbron voor Kazachse ASR. Wij stellen een dataset samen van 3.013 audio-tekst paren (ongeveer 4,5 uur) afkomstig van 195 liedjes van 36 artiesten, gesegmenteerd op tekstregelniveau. Met Whisper als basisherkenner fine-tunen we modellen onder zeven trainingsscenario's waarbij Liedjes, het Common Voice Corpus (CVC) en FLEURS worden gebruikt, en evalueren we deze op drie benchmarks: CVC, FLEURS en het Kazakh Speech Corpus 2 (KSC2). Resultaten tonen aan dat fine-tuning op basis van liedjes de prestaties verbetert in vergelijking met zero-shot uitgangspunten. Whisper Large-V3 Turbo, getraind op een mix van Liedjes, CVC en FLEURS, behaalt bijvoorbeeld een genormaliseerde WER van 27,6% op CVC en 11,8% op FLEURS, terwijl de fout op KSC2 wordt gehalveerd (39,3% versus 81,2%) ten opzichte van het zero-shot model. Hoewel deze verbeteringen achterblijven bij die van modellen die op het 1.100-uur durende KSC2-corpus zijn getraind, tonen ze aan dat zelfs bescheiden mengsels van liedjes en spraak zinvolle aanpassingsverbeteringen kunnen opleveren bij ASR met weinig bronnen. De dataset is vrijgegeven op Hugging Face voor onderzoeksdoeleinden onder een beperkte, niet-commerciële licentie.
Federated Instruction Tuning (FIT) maakt gezamenlijke instructie-afstemming van grote taalmodellen mogelijk tussen meerdere organisaties (cliënten) in een cross-silo setting, zonder dat privé-instructies gedeeld hoeven te worden. Recente bevindingen over natuurlijke achterdeuren en de bestaande methode voor het verzamelen van trainingsdata suggereren dat vergiftigde samples wijdverspreid kunnen zijn en onbedoeld ingebed kunnen zijn in real-world datasets, mogelijk verdeeld over alle cliënten, zelfs als de cliënten goedaardig zijn. Dit werk onderzoekt deze dreiging systematisch in FIT en toont aan dat bestaande verdedigingen ondoeltreffend zijn wanneer vergiftigde data verspreid zijn over alle cliënten. Het aanpakken van deze uitdaging brengt twee grote moeilijkheden met zich mee: het identificeren van de onderscheidende kenmerken van vergiftigde samples bij elke cliënt, en het mogelijk maken van een gezamenlijke verdediging wanneer sommige cliënten sterk gedomineerd worden door vergiftigde samples. Om deze moeilijkheden het hoofd te bieden, identificeren we gradients in het frequentiedomein als een robuust signaal om vergiftigde data te onderscheiden. We stellen verder een globaal secundair clusteringmechanisme voor dat de gezamenlijke identificatie van vergiftigde samples tussen cliënten vergemakkelijkt. Samenvattend introduceert dit artikel ProtegoFed, het eerste achterdeurvrije FIT-framework dat verspreide vergiftigde data tussen cliënten tijdens de training nauwkeurig detecteert, verwijdert en zelfs zuivert. Experimentele resultaten op vier FL-datasets tonen aan dat ProtegoFed 92.00% tot 100.00% van de vergiftigde samples identificeert, de aanvalssuccesratio reduceert tot bijna nul, en de functionaliteit voor de hoofdtaak behoudt. Code is beschikbaar op https://github.com/dongdongzhaoUP/ProtegoFed.
Geo-Foundation Models (GFM's) zijn geëvalueerd voor uiteenlopende aardobservatietaken, waaronder meerdere domeinen, en hebben een sterk potentieel getoond voor het produceren van betrouwbare kaarten, zelfs met schaarse labels. Het benchmarken van GFM's voor cryosfeertoepassingen is echter beperkt gebleven, voornamelijk door een gebrek aan geschikte evaluatiedatasets. Om deze leemte op te vullen, introduceren we Cryo-Bench, een benchmark samengesteld om de prestaties van GFM's voor belangrijke cryosfeercomponenten te evalueren. Cryo-Bench omvat met puin bedekte gletsjers, gletsjermeren, zee-ijs en afkalvingsfronten, verspreid over meerdere sensoren en brede geografische regio's. We evalueren 14 GFM's naast UNet- en ViT-baselines om hun voordelen, beperkingen en optimale gebruikersstrategieën te beoordelen. Met een bevroren encoder behaalt UNet het hoogste gemiddelde mIoU van 66,38, gevolgd door TerraMind met 64,02 over de vijf evaluatiedatasets in Cryo-Bench. In een few-shot setting (10% van de invoergegevens) presteren GFM's zoals DOFA en TerraMind beter dan UNet, met mIoU-scores van respectievelijk 59,53, 56,62 en 56,60, vergeleken met 56,60 voor U-Net. Bij volledig finetunen van GFM's observeren we inconsistente prestaties tussen datasets en modellen. Het afstemmen van de leer-snelheid in combinatie met finetunen verbetert de GFM-prestaties echter aanzienlijk. Evaluatie op twee representatieve datasets (GLID en CaFFe) toont bijvoorbeeld een gemiddelde relatieve verbetering van 12,77%. Ondanks minimale representatie van de cryosfeer in hun pre-trainingsdata, vertonen GFM's opmerkelijke domeinaanpassingscapaciteiten en produceren ze zinvolle resultaten voor verschillende taken. Op basis van onze bevindingen bevelen we encoder-finetuning aan met hyperparameteroptimalisatie om de best mogelijke prestaties te bereiken, terwijl bevroren encoders gebruikt kunnen worden wanneer gebruikers snelle resultaten nodig hebben zonder uitgebreide experimenten (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
De melkprestatie van Saanen-melkgeiten, bekend om hun hoge melkproductie, hangt intrinsiek samen met hun lichaamsgrootte, waardoor nauwkeurige 3D-lichaamsmetingen essentieel zijn voor het inschatten van het melkproductiepotentieel. Bestaande reconstructiemethoden beschikken echter niet over geit-specifieke, authentieke 3D-data. Om deze beperking aan te pakken, stellen we de FemaleSaanenGoat-dataset samen, die gesynchroniseerde acht-view RGBD-video's bevat van 55 vrouwelijke Saanen-geiten (6-18 maanden). Met behulp van multi-view DynamicFusion fuseren we ruisachtige, niet-rigide puntenwolksequenties tot hoogwaardige 3D-scans, waarbij we problemen door onregelmatige oppervlakken en snelle beweging overwinnen. Op basis van deze scans ontwikkelen we SaanenGoat, een parametrisch 3D-vormmodel specifiek ontworpen voor vrouwelijke Saanen-geiten. Dit model beschikt over een verfijnd template met 41 skeletgewrichten en een verbeterde representatie van het uier, geregistreerd met onze scandata. Een uitgebreide vormruimte, opgebouwd uit 48 geiten, maakt een precieze weergave van diverse individuele variaties mogelijk. Met behulp van het SaanenGoat-model verkrijgen we hoogprecisie 3D-reconstructie vanuit enkelvoudige RGBD-input en bereiken we geautomatiseerde meting van zes kritieke lichaamsafmetingen: lichaamslengte, schofthoogte, borstbreedte, borstomvang, heupbreedte en kruishoogte. Experimentele resultaten tonen de superieure nauwkeurigheid van onze methode aan in zowel 3D-reconstructie als lichaamsmeting, en presenteren een nieuw paradigma voor grootschalige 3D-visietoepassingen in de precisieveehouderij.
Observationeel leren vereist dat een agent een taak leert uitvoeren door alleen te verwijzen naar observaties van de uitgevoerde taak. Dit onderzoek bestudeert de equivalente setting in robotleren in de echte wereld, waarbij geen toegang wordt verondersteld tot handmatig ontworpen beloningen of demonstratoracties. Om deze data-arme setting aan te pakken, presenteert dit werk een op planning gebaseerd Inverse Reinforcement Learning (IRL)-algoritme voor wereldmodellering, uitsluitend gebaseerd op observatie en interactie. Experimenten die volledig in de echte wereld zijn uitgevoerd, tonen aan dat dit paradigma effectief is voor het leren van op beelden gebaseerde manipulatietaken vanaf nul in minder dan een uur, zonder voorafgaande kennis, voorafgaande training of gegevens van welke aard dan ook buiten taakobservaties. Bovendien toont dit werk aan dat de geleerde wereldmodelrepresentatie in staat is tot online transferleren in de echte wereld vanaf nul. In vergelijking met bestaande benaderingen, waaronder IRL, RL en Behavior Cloning (BC), die restrictievere aannames hebben, toont de voorgestelde aanpak een aanzienlijk grotere steekproefefficiëntie en slagingspercentages, wat een praktisch pad vooruit biedt voor online wereldmodellering en planning op basis van observatie en interactie. Video's en meer op: https://uwrobotlearning.github.io/mpail2/.