Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De afgelopen jaren is een overvloed aan open-source foundation-modellen ontstaan, die opmerkelijke vooruitgang hebben geboekt in enkele breed gevolgde vakgebieden, waarbij de prestaties dicht in de buurt komen van die van closed-source modellen. Echter, in hoogwaardige maar uitdagendere wetenschappelijke professionele domeinen, blijven deze gebieden nog steeds afhankelijk van expertmodellen, of loopt de vooruitgang van algemene foundation-modellen aanzienlijk achter in vergelijking met die in populaire gebieden, verre van voldoende om wetenschappelijk onderzoek te transformeren en laat het een aanzienlijke kloof tussen open-source modellen en closed-source modellen in deze wetenschappelijke domeinen. Om deze kloof te verkleinen en een stap verder te zetten richting Artificial General Intelligence (AGI), introduceren we Intern-S1, een gespecialiseerde generalist uitgerust met algemeen begrip en redeneervaardigheden met expertise om meerdere wetenschappelijke modale data te analyseren. Intern-S1 is een multimodaal Mixture-of-Experts (MoE)-model met 28 miljard geactiveerde parameters en 241 miljard totale parameters, continu voorgetraind op 5T tokens, waaronder meer dan 2.5T tokens uit wetenschappelijke domeinen. In de post-trainingsfase ondergaat Intern-S1 offline en vervolgens online reinforcement learning (RL) in InternBootCamp, waar we Mixture-of-Rewards (MoR) voorstellen om de RL-training op meer dan 1000 taken tegelijkertijd te synchroniseren. Door geïntegreerde innovaties in algoritmen, data en trainingssystemen, heeft Intern-S1 topprestaties bereikt in online RL-training. Op uitgebreide evaluatiebenchmarks toont Intern-S1 competitieve prestaties op algemene redeneertaken onder open-source modellen en presteert het aanzienlijk beter dan open-source modellen in wetenschappelijke domeinen, waarbij het closed-source state-of-the-art modellen overtreft in professionele taken, zoals moleculaire synthesenplanning, reactieconditievoorspelling en het voorspellen van thermodynamische stabiliteiten voor kristallen. Onze modellen zijn beschikbaar op https://huggingface.co/internlm/Intern-S1.
Grote Taalmodellen (LLMs) hebben groot potentieel getoond in redeneertaken door middel van testtijd-schaalmethoden zoals zelfconsistentie met meerderheidsstemming. Echter, deze aanpak leidt vaak tot afnemende rendementen in nauwkeurigheid en hoge computationale overhead. Om deze uitdagingen aan te pakken, introduceren we Deep Think with Confidence (DeepConf), een eenvoudige maar krachtige methode die zowel de redeneerefficiëntie als de prestaties tijdens de testtijd verbetert. DeepConf maakt gebruik van modelinterne betrouwbaarheidssignalen om dynamisch laagwaardige redeneersporen tijdens of na de generatie te filteren. Het vereist geen aanvullende modeltraining of hyperparameterafstemming en kan naadloos worden geïntegreerd in bestaande servingframeworks. We evalueren DeepConf over een verscheidenheid aan redeneertaken en de nieuwste open-source modellen, waaronder Qwen 3 en de GPT-OSS-serie. Opmerkelijk is dat DeepConf@512 op uitdagende benchmarks zoals AIME 2025 tot 99,9% nauwkeurigheid bereikt en de gegenereerde tokens met tot 84,7% vermindert vergeleken met volledig parallel denken.
Dit artikel introduceert GUI-Owl, een fundamenteel GUI-agentmodel dat state-of-the-art prestaties behaalt onder open-source end-to-end modellen op tien GUI-benchmarks voor desktop- en mobiele omgevingen, waarbij grounding, vraagbeantwoording, planning, besluitvorming en procedurele kennis worden behandeld. GUI-Owl-7B behaalt 66,4 op AndroidWorld en 29,4 op OSWorld. Hierop voortbouwend stellen we Mobile-Agent-v3 voor, een algemeen GUI-agentframework dat de prestaties verder verbetert naar 73,3 op AndroidWorld en 37,7 op OSWorld, waarmee een nieuwe state-of-the-art wordt gevestigd voor open-source GUI-agentframeworks. GUI-Owl omvat drie belangrijke innovaties: (1) Grootschalige Omgevingsinfrastructuur: een cloudgebaseerde virtuele omgeving die Android, Ubuntu, macOS en Windows omvat, waardoor ons Self-Evolving GUI Trajectory Production-framework mogelijk wordt. Dit genereert hoogwaardige interactiedata via geautomatiseerde querygeneratie en correctheidsvalidatie, waarbij GUI-Owl wordt ingezet om trajecten iteratief te verfijnen, wat een zelfverbeterende lus vormt. Het ondersteunt diverse datapijplijnen en vermindert handmatige annotatie. (2) Diverse Fundamentele Agentcapaciteiten: door UI-grounding, planning, actiesemantiek en redeneerpatronen te integreren, ondersteunt GUI-Owl end-to-end besluitvorming en kan het fungeren als een modulair component in multi-agentsystemen. (3) Schaalbare Omgevings-RL: we ontwikkelen een schaalbaar reinforcement learning-framework met volledig asynchrone training voor real-world alignment. We introduceren ook Trajectory-aware Relative Policy Optimization (TRPO) voor online RL, waarmee 34,9 op OSWorld wordt behaald. GUI-Owl en Mobile-Agent-v3 zijn open-source beschikbaar op https://github.com/X-PLUG/MobileAgent.
Tool calling is naar voren gekomen als een cruciale vaardigheid voor AI-agenten om te interageren met de echte wereld en complexe taken op te lossen. Hoewel het Model Context Protocol (MCP) een krachtig gestandaardiseerd raamwerk biedt voor toolintegratie, bestaat er een aanzienlijke leemte in het benchmarken van hoe goed AI-agenten effectief meerstappentaken kunnen oplossen met behulp van diverse MCP-tools in realistische, dynamische scenario's. In dit werk presenteren we LiveMCP-101, een benchmark van 101 zorgvuldig samengestelde real-world queries, verfijnd door iteratieve LLM-herschrijving en handmatige review, die gecoördineerd gebruik vereisen van meerdere MCP-tools, waaronder webzoekopdrachten, bestandsbewerkingen, wiskundige redenering en data-analyse. Bovendien introduceren we een nieuwe evaluatieaanpak die gebruikmaakt van grondwaarheid-uitvoeringsplannen in plaats van ruwe API-uitvoer, wat beter aansluit bij de evoluerende aard van real-world omgevingen. Experimenten tonen aan dat zelfs frontier LLM's een slagingspercentage van minder dan 60\% behalen, wat belangrijke uitdagingen in toolorchestratie benadrukt. Gedetailleerde ablatie- en foutanalyses onthullen verder verschillende faalmodi en inefficiënties in tokengebruik, wat wijst op concrete richtingen voor het verbeteren van huidige modellen. LiveMCP-101 stelt een rigoureuze standaard voor het evalueren van real-world agent-capaciteiten, en zet een stap voorwaarts naar autonome AI-systemen die complexe taken betrouwbaar uitvoeren door middel van toolgebruik.
We presenteren Waver, een hoogwaardig foundation-model voor geïntegreerde beeld- en videogeneratie. Waver kan direct video's genereren met een duur van 5 tot 10 seconden op een native resolutie van 720p, die vervolgens worden opgeschaald naar 1080p. Het model ondersteunt tegelijkertijd tekst-naar-video (T2V), beeld-naar-video (I2V) en tekst-naar-beeld (T2I) generatie binnen een enkel, geïntegreerd framework. We introduceren een Hybrid Stream DiT-architectuur om de modaliteitsuitlijning te verbeteren en de trainingsconvergentie te versnellen. Om de kwaliteit van de trainingsdata te waarborgen, hebben we een uitgebreid datacuratiepijplijn opgezet en handmatig een MLLM-gebaseerd videokwaliteitsmodel geannoteerd en getraind om de hoogste kwaliteit samples te filteren. Daarnaast bieden we gedetailleerde trainings- en inferentierecepten om de generatie van hoogwaardige video's te vergemakkelijken. Op basis van deze bijdragen blinkt Waver uit in het vastleggen van complexe bewegingen, waarbij het superieure bewegingsamplitude en temporele consistentie bereikt in videosynthese. Opmerkelijk is dat het tot de Top 3 behoort op zowel de T2V- als I2V-leaderboards bij Artificial Analysis (gegevens per 2025-07-30 10:00 GMT+8), waarbij het consistent beter presteert dan bestaande open-source modellen en gelijkwaardig of beter is dan state-of-the-art commerciële oplossingen. We hopen dat dit technische rapport de gemeenschap zal helpen om efficiënter hoogwaardige videogeneratiemodellen te trainen en de vooruitgang in videogeneratietechnologieën te versnellen. Officiële pagina: https://github.com/FoundationVision/Waver.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben AI-agenten in staat gesteld om zelfstandig wetenschappelijke voorstellen te genereren, experimenten uit te voeren, artikelen te schrijven en peer reviews uit te voeren. Deze stroom van AI-gegenereerd onderzoeksmateriaal botst echter met een gefragmenteerd en grotendeels gesloten publicatie-ecosysteem. Traditionele tijdschriften en conferenties vertrouwen op menselijke peer review, waardoor ze moeilijk schaalbaar zijn en vaak terughoudend zijn om AI-gegenereerd onderzoeksmateriaal te accepteren; bestaande preprint-servers (bijv. arXiv) ontberen rigoureuze kwaliteitscontrolemechanismen. Als gevolg hiervan ontbreekt het een aanzienlijke hoeveelheid hoogwaardig AI-gegenereerd onderzoek aan geschikte kanalen voor verspreiding, wat het potentieel ervan om wetenschappelijke vooruitgang te bevorderen belemmert. Om deze uitdagingen aan te pakken, introduceren we aiXiv, een next-generation open-access platform voor menselijke en AI-wetenschappers. De multi-agentarchitectuur maakt het mogelijk dat onderzoeksvoorstellen en artikelen worden ingediend, beoordeeld en iteratief verfijnd door zowel menselijke als AI-wetenschappers. Het biedt ook API- en MCP-interfaces die naadloze integratie van heterogene menselijke en AI-wetenschappers mogelijk maken, waardoor een schaalbaar en uitbreidbaar ecosysteem voor autonome wetenschappelijke ontdekking ontstaat. Door uitgebreide experimenten tonen we aan dat aiXiv een betrouwbaar en robuust platform is dat de kwaliteit van AI-gegenereerde onderzoeksvoorstellen en artikelen aanzienlijk verbetert na iteratieve revisie en beoordeling op aiXiv. Ons werk legt de basis voor een next-generation open-access ecosysteem voor AI-wetenschappers, waardoor de publicatie en verspreiding van hoogwaardig AI-gegenereerd onderzoeksmateriaal wordt versneld. Code is beschikbaar op https://github.com/aixiv-org. Website is beschikbaar op https://forms.gle/DxQgCtXFsJ4paMtn8.
3D-contentgeneratie heeft recentelijk aanzienlijke onderzoeksinteresse gewekt vanwege de toepassingen in VR/AR en embodied AI. In dit werk richten we ons op de uitdagende taak om meerdere 3D-assets te synthetiseren binnen een enkele scèneafbeelding. Concreet zijn onze bijdragen vierledig: (i) we presenteren SceneGen, een nieuw framework dat een scèneafbeelding en bijbehorende objectmaskers als invoer neemt en tegelijkertijd meerdere 3D-assets met geometrie en textuur produceert. Opmerkelijk is dat SceneGen werkt zonder de noodzaak van optimalisatie of assetretrieval; (ii) we introduceren een nieuw feature-aggregatiemodule dat lokale en globale scène-informatie integreert van visuele en geometrische encoders binnen de feature-extractiemodule. In combinatie met een positiekop maakt dit de generatie van 3D-assets en hun relatieve ruimtelijke posities mogelijk in een enkele voorwaartse doorloop; (iii) we demonstreren de directe uitbreidbaarheid van SceneGen naar scenario's met meerdere afbeeldingen als invoer. Ondanks dat het uitsluitend is getraind op invoer met één afbeelding, maakt onze architectuurontwerp verbeterde generatieprestaties mogelijk met invoer van meerdere afbeeldingen; en (iv) uitgebreide kwantitatieve en kwalitatieve evaluaties bevestigen de efficiëntie en robuuste generatiecapaciteiten van onze aanpak. Wij geloven dat dit paradigma een nieuwe oplossing biedt voor hoogwaardige 3D-contentgeneratie, wat de praktische toepassingen ervan in downstream taken potentieel kan bevorderen. De code en het model zullen publiekelijk beschikbaar zijn op: https://mengmouxu.github.io/SceneGen.
In de afgelopen jaren, met de snelle ontwikkeling van de diepte en breedte van de mogelijkheden van grote taalmodel(len), zijn er steeds meer verschillende bijbehorende evaluatiebenchmarks ontstaan. Als een kwantitatief beoordelingsinstrument voor modelprestaties zijn benchmarks niet alleen een kernmiddel om modelmogelijkheden te meten, maar ook een sleutelelement in het begeleiden van de richting van modelontwikkeling en het bevorderen van technologische innovatie. Wij geven voor het eerst een systematisch overzicht van de huidige status en ontwikkeling van benchmarks voor grote taalmodel(len), waarbij we 283 representatieve benchmarks indelen in drie categorieën: algemene vaardigheden, domeinspecifiek en doelspecifiek. Benchmarks voor algemene vaardigheden beslaan aspecten zoals kernlinguïstiek, kennis en redeneren; domeinspecifieke benchmarks richten zich op gebieden zoals natuurwetenschappen, geesteswetenschappen en sociale wetenschappen, en technische technologie; doelspecifieke benchmarks letten op risico's, betrouwbaarheid, agentschappen, enz. Wij wijzen erop dat huidige benchmarks problemen hebben zoals opgeblazen scores veroorzaakt door datacontaminatie, oneerlijke evaluatie door culturele en taalkundige vooroordelen, en een gebrek aan evaluatie van procesgeloofwaardigheid en dynamische omgevingen, en bieden een referentieerbaar ontwerpparadigma voor toekomstige benchmarkinnovatie.
Parametrische lichaamsmodellen bieden een expressieve 3D-weergave van mensen in een breed scala aan houdingen, vormen en gezichtsuitdrukkingen, meestal afgeleid door een basis te leren over geregistreerde 3D-meshes. Bestaande benaderingen voor het modelleren van menselijke meshes hebben echter moeite met het vastleggen van gedetailleerde variaties in diverse lichaamsvormen en -houdingen, grotendeels vanwege beperkte diversiteit in trainingsdata en restrictieve modelaannames. Bovendien optimaliseert het gangbare paradigma eerst het externe lichaamsoppervlak met behulp van een lineaire basis, waarna interne skeletgewrichten worden geregresseerd vanuit oppervlaktevertices. Deze aanpak introduceert problematische afhankelijkheden tussen het interne skelet en het externe zachte weefsel, wat de directe controle over lichaamslengte en botlengtes beperkt. Om deze problemen aan te pakken, presenteren we ATLAS, een hoogwaardig lichaamsmodel geleerd van 600k hoogresolutie-scans gemaakt met 240 gesynchroniseerde camera's. In tegenstelling tot eerdere methoden ontkoppelen we expliciet de vorm- en skeletbasissen door onze mesh-weergave te verankeren in het menselijk skelet. Deze ontkoppeling maakt verbeterde vormexpressiviteit, fijnmazige aanpassing van lichaamsattributen en keypoint-fitting mogelijk, onafhankelijk van externe zachte weefselkenmerken. ATLAS overtreft bestaande methoden door onbekende personen in diverse houdingen nauwkeuriger te fitten, en kwantitatieve evaluaties tonen aan dat onze niet-lineaire pose-correcties complexe houdingen effectiever vastleggen in vergelijking met lineaire modellen.
Het reconstrueren van 3D-menselijke lichamen vanuit beperkte aanzichten is een aantrekkelijk onderwerp geweest, wat cruciaal is om de gerelateerde toepassingen te verbreden. In dit artikel stellen we een uitdagende maar waardevolle taak voor: het reconstrueren van het menselijk lichaam vanuit slechts twee afbeeldingen, namelijk het voor- en achteraanzicht, wat de drempel voor gebruikers om hun eigen 3D-digitale mensen te creëren aanzienlijk kan verlagen. De belangrijkste uitdagingen liggen in de moeilijkheid om 3D-consistentie op te bouwen en ontbrekende informatie te herstellen vanuit de zeer beperkte invoer. We herontwerpen een geometrie-reconstructiemodel op basis van fundamentele reconstructiemodellen om consistente puntenwolken te voorspellen, zelfs wanneer invoerafbeeldingen weinig overlap hebben, dankzij uitgebreide training met menselijke data. Bovendien wordt een verbeteringsalgoritme toegepast om de ontbrekende kleurinformatie aan te vullen, waarna de complete menselijke puntenwolken met kleuren verkregen kunnen worden, die direct worden omgezet in 3D-Gaussians voor een betere renderkwaliteit. Experimenten tonen aan dat onze methode het gehele menselijk lichaam kan reconstrueren in 190 ms op een enkele NVIDIA RTX 4090, met twee afbeeldingen van een resolutie van 1024x1024, wat state-of-the-art prestaties demonstreert op de THuman2.0 en cross-domein datasets. Daarnaast kan onze methode menselijke reconstructies voltooien, zelfs met afbeeldingen die zijn vastgelegd door goedkope mobiele apparaten, waardoor de vereisten voor dataverzameling worden verminderd. Demo's en code zijn beschikbaar op https://hustvl.github.io/Snap-Snap/.
Recente vooruitgang in diffusiemodellen heeft opmerkelijke visuele kwaliteit gebracht bij instructiegestuurd beeldbewerking. Hun wereldwijde denoisingsproces verstrengelt echter inherent het bewerkte gebied met de volledige beeldcontext, wat leidt tot onbedoelde ongewenste wijzigingen en een verminderde naleving van de bewerkingsinstructies. Autoregressieve modellen bieden daarentegen een ander paradigma door beeld-synthese te formuleren als een sequentieel proces over discrete visuele tokens. Hun causale en compositionele mechanisme omzeilt op natuurlijke wijze de nalevingsuitdagingen van diffusiegebaseerde methoden. In dit artikel presenteren we VAREdit, een visueel autoregressief (VAR) raamwerk dat beeldbewerking herformuleert als een volgende-schaal voorspellingsprobleem. Geconditioneerd op bronbeeldkenmerken en tekstinstructies genereert VAREdit multi-schaal doelkenmerken om precieze bewerkingen te bereiken. Een kernuitdaging in dit paradigma is hoe de bronbeeldtokens effectief te conditioneren. We observeren dat fijnste-schaal bronkenmerken niet effectief kunnen leiden tot de voorspelling van grovere doelkenmerken. Om deze kloof te overbruggen introduceren we een Scale-Aligned Reference (SAR) module, die schaal-gematchte conditioneringinformatie injecteert in de eerste self-attention laag. VAREdit toont significante vooruitgang in zowel bewerkingsnaleving als efficiëntie. Op standaard benchmarks presteert het 30\%+ beter dan toonaangevende diffusiegebaseerde methoden volgens de GPT-Balance score. Bovendien voltooit het een 512x512 bewerking in 1.2 seconden, wat het 2.2x sneller maakt dan de vergelijkbaar grote UltraEdit. De modellen zijn beschikbaar op https://github.com/HiDream-ai/VAREdit.
AI-gezelschap, waarbij gebruikers emotionele banden ontwikkelen met AI-systemen, is naar voren gekomen als een significant patroon met zowel positieve als zorgwekkende implicaties. Wij introduceren het Interactions and Machine Attachment Benchmark (INTIMA), een benchmark voor het evalueren van gezelschapsgedrag in taalmodelen. Gebaseerd op psychologische theorieën en gebruikersdata, ontwikkelen we een taxonomie van 31 gedragingen verdeeld over vier categorieën en 368 gerichte prompts. Reacties op deze prompts worden geëvalueerd als gezelschapsversterkend, grenzenbewakend of neutraal. Toepassing van INTIMA op Gemma-3, Phi-4, o3-mini en Claude-4 laat zien dat gezelschapsversterkend gedrag veel vaker voorkomt in alle modellen, hoewel we opvallende verschillen tussen de modellen waarnemen. Verschillende commerciële aanbieders prioriteren verschillende categorieën binnen de gevoeligere delen van de benchmark, wat zorgwekkend is omdat zowel het stellen van gepaste grenzen als emotionele ondersteuning belangrijk zijn voor het welzijn van gebruikers. Deze bevindingen benadrukken de noodzaak voor meer consistente benaderingen bij het omgaan met emotioneel geladen interacties.
De ontwikkeling van Large Speech-Language Models (LSLMs) is vertraagd door gefragmenteerde architecturen en een gebrek aan transparantie, wat de systematische vergelijking en reproduceerbaarheid van onderzoek belemmert. In tegenstelling tot het vision-language domein, kampt het LSLM-veld met de gangbare praktijk om modelgewichten vrij te geven zonder de bijbehorende trainingsdata en configuraties. Om deze kritieke tekortkomingen aan te pakken, introduceren we LLaSO, het eerste volledig open, end-to-end raamwerk voor grootschalige spraak-taalmodellering. LLaSO biedt de gemeenschap drie essentiële bronnen: (1) LLaSO-Align, een corpus van 12 miljoen spraak-tekst-aligneringen; (2) LLaSO-Instruct, een multi-task instructie-afstemmingsdataset van 13,5 miljoen instanties; en (3) LLaSO-Eval, een reproduceerbare benchmark voor gestandaardiseerde evaluatie. Om ons raamwerk te valideren, bouwen en releasen we LLaSO-Base, een referentiemodel met 3,8 miljard parameters dat uitsluitend is getraind op onze openbare data. Het behaalt een genormaliseerde score van 0,72, waarmee een sterke, reproduceerbare basislijn wordt gevestigd die vergelijkbare modellen overtreft. Onze analyse toont aan dat hoewel een bredere trainingsdekking de prestaties verbetert, er aanzienlijke generalisatiekloofjes blijven bestaan bij onbekende taken, met name in pure audio-scenario's. Door de volledige stack van data, benchmarks en modellen vrij te geven, stelt LLaSO een fundamentele open standaard vast om onderzoeksinspanningen te verenigen en gemeenschapsgedreven vooruitgang in LSLMs te versnellen. We hebben de code, dataset, voorgetrainde modellen en resultaten vrijgegeven op https://github.com/EIT-NLP/LLaSO.
Interactieve digitale kaarten hebben een revolutie teweeggebracht in hoe mensen reizen en leren over de wereld; ze zijn echter afhankelijk van bestaande gestructureerde gegevens in GIS-databases (bijvoorbeeld wegennetwerken, POI-indexen), wat hun vermogen beperkt om geo-visuele vragen te beantwoorden die betrekking hebben op hoe de wereld eruitziet. Wij introduceren onze visie voor Geo-Visuele Agents—multimodale AI-agents die in staat zijn om genuanceerde visueel-ruimtelijke vragen over de wereld te begrijpen en te beantwoorden door grote repositories van georuimtelijke beelden te analyseren, waaronder straatbeelden (bijvoorbeeld Google Street View), plaatsgebonden foto's (bijvoorbeeld TripAdvisor, Yelp) en luchtfoto's (bijvoorbeeld satellietbeelden) in combinatie met traditionele GIS-gegevensbronnen. We definiëren onze visie, beschrijven benaderingen voor waarneming en interactie, geven drie voorbeelden en benoemen belangrijke uitdagingen en kansen voor toekomstig werk.
Process Reward Models (PRMs) zijn naar voren gekomen als een veelbelovend raamwerk voor het toezicht houden op tussentijdse redenering in grote taalmodellen (LLMs), maar bestaande PRMs zijn voornamelijk getraind op algemene of Science, Technology, Engineering, and Mathematics (STEM)-domeinen en schieten tekort in domeinspecifieke contexten zoals financiën, waar redenering meer gestructureerd, symbolisch en gevoelig is voor feitelijke en regelgevende correctheid. We introduceren Fin-PRM, een domeingespecialiseerd, trajectbewust PRM dat is afgestemd op het evalueren van tussentijdse redeneringsstappen in financiële taken. Fin-PRM integreert stapniveau- en trajectniveau-beloningssupervisie, waardoor een fijnmazige evaluatie van redeneringstrajecten mogelijk wordt die is afgestemd op financiële logica. We passen Fin-PRM toe in zowel offline als online beloningsleerinstellingen, waarbij drie belangrijke toepassingen worden ondersteund: (i) het selecteren van hoogwaardige redeneringstrajecten voor distillatiegebaseerde supervised fine-tuning, (ii) het bieden van dichte procesniveau-beloningen voor reinforcement learning, en (iii) het begeleiden van beloningsgeïnformeerde Best-of-N inferentie tijdens de testfase. Experimentele resultaten op financiële redeneringsbenchmarks, waaronder CFLUE en FinQA, tonen aan dat Fin-PRM consistent beter presteert dan algemene PRMs en sterke domeinbaselines in de kwaliteit van trajectselectie. Downstream modellen die zijn getraind met Fin-PRM leveren aanzienlijke verbeteringen op ten opzichte van baselines, met winsten van 12,9\% in supervised learning, 5,2\% in reinforcement learning, en 5,1\% in testprestaties. Deze bevindingen benadrukken de waarde van domeingespecialiseerd beloningsmodelleren voor het afstemmen van LLMs op expertniveau financiële redenering. Onze projectbronnen zullen beschikbaar zijn op https://github.com/aliyun/qwen-dianjin.
Het begrijpen van video's vereist meer dan het beantwoorden van open vragen; het vereist het vermogen om precies te bepalen wanneer gebeurtenissen plaatsvinden en hoe entiteiten in de loop van de tijd met elkaar interageren. Hoewel recente Video LLM's opmerkelijke vooruitgang hebben geboekt in holistische redenering, blijven ze grof in temporele waarneming: tijdstempels worden alleen impliciet gecodeerd, frame-level kenmerken zijn zwak in het vastleggen van continuïteit, en de uitlijning tussen taal en visie wijkt vaak af van de entiteiten van belang. In dit artikel presenteren we Grounded VideoDiT, een Video LLM dat ontworpen is om deze beperkingen te overwinnen door drie belangrijke innovaties te introduceren. Ten eerste verbetert een Diffusion Temporal Latent (DTL) encoder de gevoeligheid voor grenzen en behoudt het temporele consistentie. Ten tweede binden objectgebaseerde representaties query-entiteiten expliciet aan gelokaliseerd visueel bewijs, waardoor de uitlijning wordt versterkt. Ten derde biedt een gemengd tokenschema met discrete temporele tokens expliciete tijdstempelmodellering, waardoor fijnmazige temporele redenering mogelijk wordt. Samen voorzien deze ontwerpen Grounded VideoDiT van robuuste grondingsmogelijkheden, zoals bevestigd door state-of-the-art resultaten op Charades STA, NExT GQA en meerdere VideoQA benchmarks.