Dagelijks geselecteerde AI onderzoekspapers met vertalingen
OCR voor Arabische documenten blijft een uitdagende taak vanwege het cursieve schrift, de diverse lettertypen, diakritische tekens en de rechts-naar-links oriëntatie van de taal. Hoewel moderne Multimodale Large Language Models (MLLMs) het documentbegrip voor talen met veel bronnen hebben verbeterd, blijft hun prestaties op Arabisch beperkt. In dit werk introduceren we Baseer, een vision-language model dat specifiek is afgestemd voor OCR van Arabische documenten. Door gebruik te maken van een grootschalige dataset die synthetische en real-world documenten combineert, wordt Baseer getraind met een decoder-only fine-tuning strategie om een vooraf getraind MLLM aan te passen terwijl algemene visuele kenmerken behouden blijven. We presenteren ook Misraj-DocOCR, een hoogwaardige, door experts geverifieerde benchmark ontworpen voor rigoureuze evaluatie van Arabische OCR-systemen. Onze experimenten tonen aan dat Baseer aanzienlijk beter presteert dan bestaande open-source en commerciële oplossingen, met een WER van 0.25 en daarmee een nieuwe state-of-the-art vestigt in het domein van OCR voor Arabische documenten. Onze resultaten benadrukken de voordelen van domeinspecifieke aanpassing van algemene MLLMs en leggen een sterke basis voor hoogwaardige OCR op morfologisch rijke talen zoals het Arabisch.
De groeiende kloof tussen de exponentiële schaalvergroting van rekenbronnen en de beperkte groei van hoogwaardige tekstgegevens beperkt nu conventionele schaalbenaderingen voor grote taalmodellen (LLM's). Om deze uitdaging aan te pakken, introduceren we Reinforcement Learning on Pre-Training data (RLPT), een nieuwe trainingsschaalparadigma voor het optimaliseren van LLM's. In tegenstelling tot eerdere benaderingen die training voornamelijk schalen via supervised learning, stelt RLPT het beleid in staat om autonoom betekenisvolle trajecten te verkennen om te leren van pre-trainingsgegevens en zijn capaciteit te verbeteren via reinforcement learning (RL). Terwijl bestaande RL-strategieën zoals reinforcement learning from human feedback (RLHF) en reinforcement learning with verifiable rewards (RLVR) afhankelijk zijn van menselijke annotatie voor beloningsconstructie, elimineert RLPT deze afhankelijkheid door beloningssignalen rechtstreeks uit pre-trainingsgegevens af te leiden. Specifiek neemt het een next-segment reasoning doelstelling aan, waarbij het beleid wordt beloond voor het nauwkeurig voorspellen van opeenvolgende tekstsegmenten op basis van de voorgaande context. Deze formulering maakt het mogelijk om RL te schalen op pre-trainingsgegevens, wat de verkenning van rijkere trajecten over bredere contexten aanmoedigt en daardoor meer generaliseerbare redeneervaardigheden bevordert. Uitgebreide experimenten op zowel algemene domein- als wiskundige redeneerbenchmarks over meerdere modellen valideren de effectiviteit van RLPT. Bijvoorbeeld, wanneer toegepast op Qwen3-4B-Base, levert RLPT absolute verbeteringen op van 3.0, 5.1, 8.1, 6.0, 6.6 en 5.3 op respectievelijk MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 en AIME25. De resultaten tonen verder een gunstig schaalgedrag, wat suggereert dat er een sterk potentieel is voor verdere winsten met meer rekenkracht. Daarnaast biedt RLPT een solide basis, die de redeneergrenzen van LLM's uitbreidt en de prestaties van RLVR verbetert.
Imitation-learning-gebaseerde visuomotorische beleidsregels worden veel gebruikt in robotmanipulatie, waarbij zowel visuele waarnemingen als proprioceptieve toestanden doorgaans samen worden toegepast voor precieze controle. In deze studie ontdekken we echter dat deze gangbare praktijk het beleid te afhankelijk maakt van de proprioceptieve toestandsinvoer, wat leidt tot overfitting aan de trainingspaden en resulteert in slechte ruimtelijke generalisatie. Daarentegen stellen we het State-free Policy voor, waarbij de proprioceptieve toestandsinvoer wordt verwijderd en acties alleen worden voorspeld op basis van visuele waarnemingen. Het State-free Policy is opgebouwd in de relatieve actieruimte van de eindeffector en moet zorgen voor volledige taakrelevante visuele waarnemingen, hier geleverd door dubbele groothoek polscamera's. Empirische resultaten tonen aan dat het State-free Policy aanzienlijk betere ruimtelijke generalisatie bereikt dan het state-based policy: in real-world taken zoals pick-and-place, uitdagend hemd-opvouwen en complexe whole-body manipulatie, die meerdere robotconfiguraties omvatten, verbetert het gemiddelde slagingspercentage van 0\% naar 85\% in hoogtegeneralisatie en van 6\% naar 64\% in horizontale generalisatie. Bovendien tonen ze ook voordelen in data-efficiëntie en cross-embodiment-aanpassing, wat hun praktische bruikbaarheid voor real-world implementatie vergroot.
Multimodale Large Language Models (MLLMs) maken een snelle ontwikkeling door en vertegenwoordigen de voorhoede van AI-ontwikkeling. Echter, hun trainings- en inferentie-efficiëntie zijn naar voren gekomen als een kernbelemmering om MLLMs toegankelijker en schaalbaarder te maken. Om deze uitdagingen aan te pakken, presenteren we MiniCPM-V 4.5, een model met 8B parameters dat is ontworpen voor hoge efficiëntie en sterke prestaties. We introduceren drie kernverbeteringen in modelarchitectuur, datastrategie en trainingsmethode: een geünificeerde 3D-Resampler-modelarchitectuur voor zeer compacte codering van afbeeldingen en video's, een geünificeerd leerparadigma voor documentkennis en tekstherkenning zonder zware data-engineering, en een hybride reinforcement learning-strategie voor vaardigheid in zowel korte als lange redeneermodi. Uitgebreide experimentele resultaten in de OpenCompass-evaluatie laten zien dat MiniCPM-V 4.5 veelgebruikte propriëtaire modellen zoals GPT-4o-latest overtreft, en aanzienlijk grotere open-source modellen zoals Qwen2.5-VL 72B. Opmerkelijk is dat de sterke prestaties worden bereikt met opmerkelijke efficiëntie. Zo behaalt MiniCPM-V 4.5 op het veelgebruikte VideoMME-benchmark state-of-the-art prestaties onder modellen kleiner dan 30B, met slechts 46,7\% GPU-geheugenkosten en 8,7\% inferentietijd van Qwen2.5-VL 7B.
Het begrijpen en redeneren over volledige software repositories is een essentiële vaardigheid voor intelligente software-engineeringtools. Hoewel bestaande benchmarks zoals CoSQA en CodeQA het vakgebied hebben vooruitgebracht, richten deze zich voornamelijk op kleine, zelfstandige codefragmenten. Deze opzet slaagt er niet in de complexiteit van real-world repositories te vangen, waar effectief begrip en redeneren vaak vereisen dat men meerdere bestanden doorloopt, de softwarearchitectuur begrijpt en antwoorden verankert in langere codeafhankelijkheden. In dit artikel presenteren we SWE-QA, een repository-level code question answering (QA)-benchmark die is ontworpen om onderzoek naar geautomatiseerde QA-systemen in realistische code-omgevingen te faciliteren. SWE-QA omvat 576 hoogwaardige vraag-antwoordparen die diverse categorieën bestrijken, waaronder intentiebegrip, cross-file redenering en multi-hop afhankelijkheidsanalyse. Om SWE-QA te construeren, hebben we eerst 77.100 GitHub-issues uit 11 populaire repositories gecrawld. Op basis van een analyse van natuurlijk voorkomende ontwikkelaarsvragen die uit deze issues zijn geëxtraheerd, hebben we een tweedelige taxonomie van repository-level vragen ontwikkeld en een set startvragen voor elke categorie opgesteld. Voor elke categorie hebben we vragen handmatig samengesteld en gevalideerd en de bijbehorende antwoorden verzameld. Als prototypeapplicatie ontwikkelen we verder SWE-QA-Agent, een agentisch framework waarin LLM-agents redeneren en handelen om automatisch antwoorden te vinden. We evalueren zes geavanceerde LLM's op SWE-QA onder verschillende contextaugmentatiestrategieën. Experimentele resultaten benadrukken de belofte van LLM's, met name ons SWE-QA-Agent-framework, bij het aanpakken van repository-level QA, terwijl ze ook openstaande uitdagingen blootleggen en toekomstige onderzoeksrichtingen aanwijzen.
Visueel-ruimtelijk redeneren (VSR) is een kernmenselijke cognitieve vaardigheid en een kritische vereiste voor het bevorderen van belichaamde intelligentie en autonome systemen. Ondanks recente vooruitgang in Vision-Language Models (VLMs) blijft het bereiken van menselijk niveau VSR zeer uitdagend vanwege de complexiteit van het representeren en redeneren over driedimensionale ruimte. In dit artikel presenteren we een systematisch onderzoek naar VSR in VLMs, waarbij we bestaande methodologieën bespreken op het gebied van invoermodaliteiten, modelarchitecturen, trainingsstrategieën en redeneermechanismen. Bovendien categoriseren we ruimtelijke intelligentie in drie niveaus van capaciteit, namelijk basisperceptie, ruimtelijk begrip, ruimtelijke planning, en stellen we SIBench samen, een benchmark voor ruimtelijke intelligentie die bijna 20 open-source datasets omvat over 23 taakinstellingen. Experimenten met state-of-the-art VLMs onthullen een opvallend gat tussen perceptie en redeneren, aangezien modellen competentie tonen in basisperceptietaken maar consistent onderpresteren in begrips- en planningstaken, met name in numerieke schatting, multi-view redeneren, temporele dynamiek en ruimtelijke verbeelding. Deze bevindingen onderstrepen de aanzienlijke uitdagingen die blijven bestaan bij het bereiken van ruimtelijke intelligentie, terwijl ze zowel een systematische routekaart als een uitgebreide benchmark bieden om toekomstig onderzoek in dit veld te stimuleren. De gerelateerde bronnen van deze studie zijn toegankelijk op https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
Recente vooruitgang in reinforcement learning voor foundation models, zoals Group Relative Policy Optimization (GRPO), heeft de prestaties van foundation models op redeneertaken aanzienlijk verbeterd. Met name de advantage-functie dient als een centraal mechanisme in GRPO voor het rangschikken van de belangrijkheid van trajecten. Bestaande onderzoeken kampen echter met zowel advantage-reversie als advantage-spiegelproblemen, die een redelijke advantage-toewijzing over verschillende querysamples belemmeren. In dit werk stellen we een eenvoudige maar effectieve GRPO-strategie voor, Mixed Advantage Policy Optimization (MAPO). We tonen aan dat trajecten met verschillende zekerheid verschijnen en introduceren de advantage-percentdeviatie voor samples met trajecten van hoge zekerheid. Bovendien herwegen we de advantage-functie dynamisch voor samples met uiteenlopende trajectzekerheid, waardoor de advantage-functie adaptief wordt geconfigureerd om rekening te houden met specifieke kenmerken van samples. Vergelijkingen met gerelateerde state-of-the-art methoden, samen met ablatiestudies op verschillende advantage-varianten, valideren de effectiviteit van onze aanpak.
Feed-forward 3D Gaussian Splatting (3DGS) is naar voren gekomen als een zeer effectieve oplossing voor de synthese van nieuwe gezichtspunten. Bestaande methoden zijn voornamelijk gebaseerd op een pixel-uitgelijnd Gaussisch voorspellingsparadigma, waarbij elke 2D-pixel wordt toegewezen aan een 3D Gaussische verdeling. Wij heroverwegen dit veelgebruikte formulering en identificeren verschillende inherente beperkingen: het maakt de gereconstrueerde 3D-modellen sterk afhankelijk van het aantal invoerbeelden, leidt tot gezichtspunt-gebiasde dichtheidsverdelingen en introduceert uitlijningsfouten, vooral wanneer bronbeelden occlusies of weinig textuur bevatten. Om deze uitdagingen aan te pakken, introduceren wij VolSplat, een nieuw multi-view feed-forward paradigma dat pixel-uitlijning vervangt door voxel-uitgelijnde Gaussische verdelingen. Door Gaussische verdelingen rechtstreeks te voorspellen vanuit een voorspelde 3D voxelgrid, overkomt het de afhankelijkheid van pixel-uitlijning op foutgevoelige 2D kenmerkovereenkomsten, wat zorgt voor robuuste multi-view consistentie. Bovendien maakt het adaptieve controle mogelijk over de Gaussische dichtheid op basis van de complexiteit van de 3D-scène, wat resulteert in nauwkeurigere Gaussische puntenwolken, verbeterde geometrische consistentie en een betere kwaliteit van de synthese van nieuwe gezichtspunten. Experimenten op veelgebruikte benchmarks zoals RealEstate10K en ScanNet tonen aan dat VolSplat state-of-the-art prestaties bereikt terwijl het plausibelere en gezichtspunt-consistente Gaussische reconstructies produceert. Naast superieure resultaten, biedt onze aanpak een schaalbaarder raamwerk voor feed-forward 3D-reconstructie met dichtere en robuustere representaties, wat de weg vrijmaakt voor verder onderzoek in bredere gemeenschappen. De videoresultaten, code en getrainde modellen zijn beschikbaar op onze projectpagina: https://lhmd.top/volsplat.
Het vermogen om virtuele omgevingen te genereren is cruciaal voor toepassingen die variëren van gaming tot fysieke AI-domeinen zoals robotica, autonoom rijden en industriële AI. Huidige op leren gebaseerde 3D-reconstructiemethoden zijn afhankelijk van de beschikbaarheid van vastgelegde real-world multi-view data, die niet altijd direct beschikbaar is. Recente vooruitgang in videodiffusiemodellen heeft opmerkelijke verbeeldingskracht getoond, maar hun 2D-natuur beperkt de toepassingen in simulaties waar een robot moet navigeren en interacteren met de omgeving. In dit artikel stellen we een zelfdistillatiekader voor dat ernaar streeft de impliciete 3D-kennis in videodiffusiemodellen te distilleren naar een expliciete 3D Gaussian Splatting (3DGS)-representatie, waardoor de behoefte aan multi-view trainingsdata wordt geëlimineerd. Specifiek verrijken we de typische RGB-decoder met een 3DGS-decoder, die wordt gesuperviseerd door de output van de RGB-decoder. In deze aanpak kan de 3DGS-decoder puur worden getraind met synthetische data gegenereerd door videodiffusiemodellen. Tijdens inferentie kan ons model 3D-scènes synthetiseren vanuit een tekstprompt of een enkele afbeelding voor real-time rendering. Ons kader breidt zich verder uit naar dynamische 3D-scènegeneratie vanuit een monocular invoervideo. Experimentele resultaten tonen aan dat ons kader state-of-the-art prestaties bereikt in zowel statische als dynamische 3D-scènegeneratie.
Grote redeneermodellen (LRMs) besteden aanzienlijke rekentijd tijdens het testen aan lange ketens van gedachten (CoT), maar wat een effectieve CoT *kenmerkt*, blijft onduidelijk. Hoewel eerder onderzoek winsten rapporteert door CoTs te verlengen en het herzien (terugkeren naar eerdere stappen) te vergroten via toegevoegde *wacht*-tokens, suggereren recente studies dat korter denken langere sporen kan overtreffen. Daarom voeren we een systematische evaluatie uit over tien LRMs op wiskundig en wetenschappelijk redeneren. In tegenstelling tot het "langer-is-beter"-verhaal, vinden we dat zowel naïef verlengen van CoTs als een verhoogd herzien geassocieerd zijn met *lagere* nauwkeurigheid. Terwijl CoT stap voor stap ontvouwt, kunnen token-niveau metriek verbaalheid verwarren met proceskwaliteit. We introduceren een grafische weergave van CoT om structuur te extraheren en identificeren één statistiek—de *Failed-Step Fraction (FSF)*, het deel van stappen in verlaten takken—die consistent beter voorspelt dan lengte en herzieningsratio voor correctheid over modellen. Om causaliteit te onderzoeken, ontwerpen we twee interventies. Ten eerste rangschikken we kandidaat-CoTs op basis van elke metriek tijdens het testen, waarbij FSF de grootste pass@1-winsten oplevert; ten tweede bewerken we CoTs om mislukte takken te verwijderen, wat de nauwkeurigheid aanzienlijk verbetert, wat aangeeft dat mislukte takken het vervolgredeneren beïnvloeden. Samen karakteriseren deze resultaten effectieve CoTs als die welke *minder falen* en ondersteunen *structuurbewuste* schaling tijdens het testen in plaats van lukraak lange CoTs te genereren.
Unified multimodale modellen hebben recentelijk aanzienlijke aandacht getrokken vanwege hun opmerkelijke vermogen om diverse inhoud gezamenlijk te begrijpen en te genereren. Echter, naarmate contexten steeds meer verweven multimodale tokens integreren, leggen de iteratieve processen van diffusie-ontruisening en autoregressieve decodering een aanzienlijke rekenkundige belasting op. Om dit aan te pakken, stellen we Hyper-Bagel voor, een unified versnellingsframework ontworpen om zowel multimodale begrips- als generatietaken gelijktijdig te versnellen. Onze aanpak gebruikt een verdeel-en-heers-strategie, waarbij speculatieve decodering wordt ingezet voor next-token-voorspelling en een meerfasen-distillatieproces voor diffusie-ontruisening. Het framework levert aanzienlijke prestatieverbeteringen op, met een meer dan 2x versnelling in multimodaal begrip. Voor generatieve taken biedt ons resulterende verliesvrije 6-NFE-model een 16,67x versnelling in tekst-naar-beeldgeneratie en een 22x versnelling in beeldbewerking, terwijl de hoge kwaliteit van het oorspronkelijke model behouden blijft. We ontwikkelen verder een zeer efficiënt 1-NFE-model dat bijna real-time interactieve bewerking en generatie mogelijk maakt. Door geavanceerde adversariële distillatie te combineren met leren via menselijke feedback, bereikt dit model ultieme kosteneffectiviteit en responsiviteit, waardoor complexe multimodale interacties naadloos en direct worden.
Dit artikel introduceert CommonForms, een web-schaal dataset voor het detecteren van formuliervelden. Het behandelt het probleem van formulierveld-detectie als objectdetectie: gegeven een afbeelding van een pagina, voorspel de locatie en het type (Tekstinvoer, Keuzeknop, Handtekening) van formuliervelden. De dataset is samengesteld door Common Crawl te filteren om PDF's te vinden die invulbare elementen bevatten. Beginnend met 8 miljoen documenten, wordt het filterproces gebruikt om te komen tot een uiteindelijke dataset van ongeveer 55k documenten die meer dan 450k pagina's bevatten. Analyse toont aan dat de dataset een diverse mix van talen en domeinen bevat; een derde van de pagina's is niet-Engels, en onder de 14 geclassificeerde domeinen maakt geen enkel domein meer dan 25% van de dataset uit. Daarnaast presenteert dit artikel een familie van formulierveld-detectoren, FFDNet-Klein en FFDNet-Groot, die een zeer hoge gemiddelde precisie behalen op de CommonForms-testset. Elk model kostte minder dan $500 om te trainen. Ablatieresultaten tonen aan dat invoer met hoge resolutie cruciaal is voor hoogwaardige formulierveld-detectie, en dat het schoonmaakproces de data-efficiëntie verbetert ten opzichte van het gebruik van alle PDF's met invulbare velden in Common Crawl. Een kwalitatieve analyse laat zien dat ze een populaire, commercieel beschikbare PDF-lezer die formulieren kan voorbereiden, overtreffen. In tegenstelling tot de meest populaire commercieel beschikbare oplossingen, kan FFDNet naast tekst- en handtekeningvelden ook selectievakjes voorspellen. Dit is, voor zover wij weten, de eerste grootschalige dataset die is vrijgegeven voor formulierveld-detectie, evenals de eerste open source modellen. De dataset, modellen en code zullen worden vrijgegeven op https://github.com/jbarrow/commonforms.
Het gebruik van continue in plaats van discrete tokens tijdens de Chain-of-Thought (CoT)-fase van redeneren in grote taalmodelen (LLMs) heeft recentelijk aandacht gekregen, gebaseerd op de intuïtie dat een continue mengeling van discrete tokens een superpositie van meerdere redeneerpaden tegelijk zou kunnen simuleren. Theoretische resultaten hebben formeel bewezen dat continue tokens een veel grotere expressiviteit hebben en specifieke problemen efficiënter kunnen oplossen. Het praktische gebruik van continue tokens is echter beperkt door sterke trainingsmoeilijkheden: eerdere werken gebruiken continue tokens alleen tijdens de inferentie op een vooraf getraind model met discrete tokens, of moeten de continue CoT destilleren uit grondwaarheid discrete CoTs en kampen met rekenkosten die de CoT beperken tot zeer weinig tokens. Dit is het eerste werk dat een schaalbare methode introduceert om continue CoTs te leren via reinforcement learning (RL), zonder te destilleren uit referentie discrete CoTs. We gebruiken "zachte" tokens: mengsels van tokens samen met ruis op de invoer-embedding om RL-exploratie mogelijk te maken. De rekenkundige overhead is minimaal, waardoor we continue CoTs met honderden tokens kunnen leren. Op wiskundige redeneerbenchmarks met Llama- en Qwen-modellen tot 8B presteert training met continue CoTs even goed als discrete-token CoTs voor pass@1 en overtreft ze voor pass@32, wat een grotere diversiteit in CoT laat zien. In systematische vergelijkingen blijkt het best presterende scenario te zijn om te trainen met continue CoT-tokens en vervolgens discrete tokens te gebruiken voor inferentie, wat betekent dat de "zachte" modellen op een standaard manier kunnen worden ingezet. Tot slot laten we zien dat continue CoT RL-training de voorspellingen van het basismodel beter behoudt voor taken buiten het domein, waardoor een zachtere aanpassing aan het basismodel wordt geboden.
Onlangs is 3D Gaussian Splatting (3DGS) naar voren gekomen als een krachtig alternatief voor NeRF-gebaseerde benaderingen, waardoor real-time, hoogwaardige synthese van nieuwe gezichtspunten mogelijk wordt gemaakt via expliciete, optimaliseerbare 3D Gaussians. Echter, 3DGS kampt met een aanzienlijk geheugenoverhead vanwege de afhankelijkheid van per-Gaussian parameters om view-dependent effecten en anisotrope vormen te modelleren. Hoewel recente werken voorstellen om 3DGS te comprimeren met neurale velden, hebben deze methoden moeite om hoogfrequente ruimtelijke variaties in Gaussian eigenschappen vast te leggen, wat leidt tot een verslechterde reconstructie van fijne details. Wij presenteren Hybrid Radiance Fields (HyRF), een nieuwe scène-representatie die de sterke punten van expliciete Gaussians en neurale velden combineert. HyRF deelt de scène op in (1) een compacte set van expliciete Gaussians die alleen kritieke hoogfrequente parameters opslaan en (2) grid-gebaseerde neurale velden die de overige eigenschappen voorspellen. Om de representatiecapaciteit te vergroten, introduceren we een ontkoppelde neurale veldarchitectuur, die apart geometrie (schaal, opaciteit, rotatie) en view-dependent kleur modelleert. Daarnaast stellen we een hybride renderingschema voor dat Gaussian splatting combineert met een door een neuraal veld voorspelde achtergrond, waardoor beperkingen in de representatie van verre scènes worden aangepakt. Experimenten tonen aan dat HyRF state-of-the-art renderingkwaliteit bereikt terwijl het modelformaat met meer dan 20 keer wordt verkleind in vergelijking met 3DGS en real-time prestaties behoudt. Onze projectpagina is beschikbaar op https://wzpscott.github.io/hyrf/.
Dialecten vormen een belangrijk onderdeel van de menselijke cultuur en komen voor in alle regio's van de wereld. In Duitsland spreekt meer dan 40% van de bevolking een regionaal dialect (Adler en Hansen, 2022). Ondanks hun culturele belang worden individuen die dialecten spreken echter vaak geconfronteerd met negatieve maatschappelijke stereotypen. Wij onderzoeken of dergelijke stereotypen worden weerspiegeld door grote taalmodelen (LLM's). We putten uit de sociolinguïstische literatuur over dialectperceptie om eigenschappen te analyseren die vaak worden geassocieerd met dialectsprekers. Op basis van deze eigenschappen beoordelen we de dialectnaamvoorkeur en dialectgebruiksvooroordelen die door LLM's worden uitgedrukt in twee taken: een associatietaak en een beslissingstaak. Om de dialectgebruiksvooroordelen van een model te beoordelen, construeren we een nieuw evaluatiecorpus dat zinnen uit zeven regionale Duitse dialecten (bijv. Alemannisch en Beiers) koppelt aan hun standaard Duitse tegenhangers. We constateren dat: (1) in de associatietaak alle geëvalueerde LLM's significante dialectnaamvoorkeur en dialectgebruiksvooroordelen vertonen tegen Duitse dialectsprekers, wat tot uiting komt in negatieve bijvoeglijke-naamwoordassociaties; (2) alle modellen deze dialectnaamvoorkeur en dialectgebruiksvooroordelen reproduceren in hun besluitvorming; en (3) in tegenstelling tot eerder onderzoek dat minimale vooroordelen toonde bij expliciete demografische vermeldingen, vinden we dat het expliciet labelen van linguïstische demografieën—Duitse dialectsprekers—de vooroordelen meer versterkt dan impliciete signalen zoals dialectgebruik.
Conditionele generatieve modellering heeft als doel een conditionele dataverdeling te leren van steekproeven die data-voorwaarde-paren bevatten. Hiervoor hebben diffusie- en stroomgebaseerde methoden overtuigende resultaten behaald. Deze methoden gebruiken een geleerd (stroom)model om een initiële standaard Gaussische ruis die de voorwaarde negeert, te transporteren naar de conditionele dataverdeling. Het model moet dus zowel massatransport als conditionele injectie leren. Om de eisen aan het model te verlichten, stellen we Condition-Aware Reparameterization for Flow Matching (CAR-Flow) voor -- een lichtgewicht, geleerde verschuiving die de bron-, de doel-, of beide verdelingen conditioneert. Door deze verdelingen te verplaatsen, verkort CAR-Flow het waarschijnlijkheidspad dat het model moet leren, wat in de praktijk tot snellere training leidt. Op laagdimensionale synthetische data visualiseren en kwantificeren we de effecten van CAR. Op hogerdimensionale natuurlijke beelddata (ImageNet-256) reduceert het uitrusten van SiT-XL/2 met CAR-Flow de FID van 2.07 naar 1.68, terwijl er minder dan 0.6% extra parameters worden geïntroduceerd.
Dataschaarste blijft een van de meest beperkende factoren bij het bevorderen van vooruitgang in robotica. De hoeveelheid beschikbare robotica-data in het wild groeit echter exponentieel, wat nieuwe mogelijkheden creëert voor grootschalige datagebruik. Betrouwbare voorspelling van temporele taakvoltooiing zou kunnen helpen om deze data automatisch te annoteren en te cureren op grote schaal. De Generative Value Learning (GVL)-benadering is recentelijk voorgesteld, waarbij de kennis in vision-language models (VLMs) wordt benut om taakvoortgang te voorspellen op basis van visuele observaties. Op basis van GVL stellen we OpenGVL voor, een uitgebreide benchmark voor het schatten van taakvoortgang over diverse uitdagende manipulatietaken waarbij zowel robotische als menselijke belichamingen betrokken zijn. We evalueren de mogelijkheden van openbaar beschikbare open-source foundation-modellen en laten zien dat open-source modelfamilies aanzienlijk onderpresteren in vergelijking met closed-source tegenhangers, waarbij ze slechts ongeveer 70% van hun prestaties behalen op taken voor temporele voortgangsvoorspelling. Bovendien demonstreren we hoe OpenGVL kan dienen als een praktisch hulpmiddel voor geautomatiseerde datacuratie en -filtering, waardoor efficiënte kwaliteitsbeoordeling van grootschalige robotica-datasets mogelijk wordt. We publiceren de benchmark samen met de volledige codebase op github.com/budzianowski/opengvl{OpenGVL}.
Recente ontwikkelingen in multimodale grote taalmodellen (MLLMs) hebben de mogelijkheden voor videobegrip aanzienlijk verbeterd, wat nieuwe mogelijkheden opent voor praktische toepassingen. Toch richten huidige videobenchmarks zich voornamelijk op binnenomgevingen of kortdurende buitenactiviteiten, waardoor de uitdagingen die gepaard gaan met langeafstandsreizen grotendeels onontgonnen blijven. Het beheersen van uitgebreide geospatiale-temporele trajecten is cruciaal voor de volgende generatie MLLMs, wat de basis vormt voor real-world taken zoals embodied-AI planning en navigatie. Om deze kloof te overbruggen, presenteren we VIR-Bench, een nieuwe benchmark bestaande uit 200 reisvideo's die het reconstrueren van reisroutes als een uitdagende taak vormgeeft, ontworpen om de geospatiale-temporele intelligentie van MLLMs te evalueren en verder te ontwikkelen. Experimentele resultaten laten zien dat state-of-the-art MLLMs, inclusief propriëtaire modellen, moeite hebben om hoge scores te behalen, wat de moeilijkheid onderstreept van het verwerken van video's die zich uitstrekken over uitgebreide ruimtelijke en temporele schalen. Bovendien voeren we een diepgaande casestudy uit waarin we een prototype van een reisplanningsagent ontwikkelen die gebruikmaakt van de inzichten verkregen uit VIR-Bench. De aanzienlijk verbeterde reisadviezen van de agent bevestigen dat ons evaluatieprotocol niet alleen effectief modellen benchmarkt, maar ook vertaalt naar concrete prestatieverbeteringen in gebruikersgerichte toepassingen.
Simultane spraak-naar-tekst vertaling (SimulST) systemen moeten een balans vinden tussen vertaalkwaliteit en latentie--de vertraging tussen spraakinvoer en de vertaalde uitvoer. Hoewel kwaliteitsevaluatie goed is ingeburgerd, blijft nauwkeurige latentiemeting een uitdaging. Bestaande metrieken leveren vaak inconsistente of misleidende resultaten op, vooral in de veelgebruikte short-form setting, waarbij spraak kunstmatig vooraf is gesegmenteerd. In dit artikel presenteren we de eerste uitgebreide analyse van SimulST latentiemetrieken over taalparen, systemen en zowel short- als long-form regimes. We ontdekken een structurele bias in huidige metrieken gerelateerd aan segmentatie die eerlijke en zinvolle vergelijkingen ondermijnt. Om dit aan te pakken, introduceren we YAAL (Yet Another Average Lagging), een verfijnde latentiemetriek die nauwkeurigere evaluaties biedt in het short-form regime. We breiden YAAL uit naar LongYAAL voor ongesegmenteerde audio en stellen SoftSegmenter voor, een nieuw resegmentatietool gebaseerd op woordniveau-uitlijning. Onze experimenten tonen aan dat YAAL en LongYAAL populaire latentiemetrieken overtreffen, terwijl SoftSegmenter de uitlijningskwaliteit in long-form evaluatie verbetert, waardoor samen betrouwbaardere beoordelingen van SimulST systemen mogelijk worden.
Het reconstrueren van nauwkeurige oppervlakken met stralingsvelden heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. Echter worden heersende benaderingen, voornamelijk gebaseerd op Gaussian Splatting, steeds meer beperkt door representatieproblemen. In dit artikel introduceren we GeoSVR, een expliciet voxelgebaseerd raamwerk dat het onderbenutte potentieel van sparse voxels verkent en uitbreidt om nauwkeurige, gedetailleerde en complete oppervlakreconstructie te bereiken. Als sterke punten ondersteunen sparse voxels het behoud van dekking en geometrische duidelijkheid, terwijl er ook uitdagingen ontstaan door ontbrekende scènebeperkingen en lokaliteit in oppervlakverfijning. Om een correcte scèneconvergentie te garanderen, stellen we eerst een Voxel-Onzekerheidsdiepte Beperking voor die het effect van monoculaire dieptesignalen maximaliseert, terwijl een voxelgeoriënteerde onzekerheid wordt gepresenteerd om kwaliteitsverlies te voorkomen, waardoor effectieve en robuuste scènebeperkingen mogelijk worden gemaakt terwijl zeer nauwkeurige geometrieën behouden blijven. Vervolgens is Sparse Voxel Surface Regularisatie ontworpen om geometrische consistentie voor kleine voxels te verbeteren en de voxelgebaseerde vorming van scherpe en nauwkeurige oppervlakken te vergemakkelijken. Uitgebreide experimenten tonen onze superieure prestaties aan in vergelijking met bestaande methoden in diverse uitdagende scenario's, waarbij we uitblinken in geometrische nauwkeurigheid, detailbehoud en reconstructiecompleetheid, terwijl een hoge efficiëntie wordt behouden. Code is beschikbaar op https://github.com/Fictionarry/GeoSVR.
We introduceren RadEval, een uniform, open-source raamwerk voor het evalueren van radiologische teksten. RadEval integreert een breed scala aan metrieken, van klassieke n-gram overlap (BLEU, ROUGE) en contextuele maatstaven (BERTScore) tot klinische concept-gebaseerde scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) en geavanceerde LLM-gebaseerde evaluatoren (GREEN). We verfijnen en standaardiseren de implementaties, breiden GREEN uit om meerdere beeldvormingsmodaliteiten te ondersteunen met een lichter model, en pretrainen een domeinspecifieke radiologie-encoder, die sterke zero-shot retrieval-prestaties demonstreert. We publiceren ook een rijk geannoteerde expertdataset met meer dan 450 klinisch significante foutlabels en laten zien hoe verschillende metrieken correleren met de beoordeling van radiologen. Tot slot biedt RadEval statistische testtools en baseline modelevaluaties over meerdere publiek beschikbare datasets, wat reproduceerbaarheid en robuuste benchmarking in radiologie-rapportgeneratie bevordert.
Robotic manipulatiebeleidsregels falen vaak in generalisatie omdat ze tegelijkertijd moeten leren waar ze aandacht aan moeten besteden, welke acties ze moeten ondernemen en hoe ze deze moeten uitvoeren. Wij stellen dat hoogwaardige redenering over waar en wat kan worden overgedragen aan vision-language modellen (VLMs), waardoor beleidsregels zich kunnen specialiseren in hoe te handelen. Wij presenteren PEEK (Policy-agnostic Extraction of Essential Keypoints), dat VLMs fine-tunt om een uniforme, op punten gebaseerde tussenliggende representatie te voorspellen: 1. eindeffectorpaden die specificeren welke acties moeten worden ondernomen, en 2. taakrelevante maskers die aangeven waarop gefocust moet worden. Deze annotaties worden direct over robotobservaties gelegd, waardoor de representatie beleidsagnostisch en overdraagbaar is tussen architecturen. Om schaalbare training mogelijk te maken, introduceren we een automatische annotatiepijplijn, die gelabelde gegevens genereert over meer dan 20 robotdatasets die 9 verschillende uitvoeringen omvatten. In real-world evaluaties verbetert PEEK consistent zero-shot generalisatie, inclusief een 41,4-voudige verbetering in de echte wereld voor een 3D-beleidsregel die alleen in simulatie is getraind, en 2-3,5-voudige verbeteringen voor zowel grote VLAs als kleine manipulatiebeleidsregels. Door VLMs de semantische en visuele complexiteit te laten absorberen, voorziet PEEK manipulatiebeleidsregels van de minimale signalen die ze nodig hebben—waar, wat en hoe. Website op https://peek-robot.github.io/.
Multi-spectrale beeldvorming speelt een cruciale rol in diverse Remote Sensing-toepassingen, waaronder landgebruikclassificatie, milieumonitoring en stadsplanning. Deze beelden worden veelvuldig gebruikt omdat hun aanvullende spectrale banden sterk correleren met fysieke materialen op de grond, zoals ijs, water en vegetatie. Dit maakt een nauwkeurigere identificatie mogelijk, en hun publieke beschikbaarheid vanuit missies zoals Sentinel-2 en Landsat verhoogt hun waarde nog verder. Momenteel wordt de automatische analyse van dergelijke data voornamelijk uitgevoerd door machine learning-modellen die specifiek zijn getraind voor multi-spectrale input, wat kostbaar is om te trainen en te onderhouden. Bovendien kunnen, hoewel ze veel nut bieden voor Remote Sensing, dergelijke aanvullende inputs niet worden gebruikt met krachtige generalistische grote multimodale modellen, die in staat zijn om veel visuele problemen op te lossen, maar niet in staat zijn om gespecialiseerde multi-spectrale signalen te begrijpen. Om dit aan te pakken, stellen we een trainingsvrije benadering voor die nieuwe multi-spectrale data introduceert in een Zero-Shot-modus, als inputs voor generalistische multimodale modellen die zijn getraind op alleen RGB-inputs. Onze benadering maakt gebruik van het begrip van de multimodale modellen van de visuele ruimte en stelt voor om inputs aan te passen aan die ruimte, en domeinspecifieke informatie als instructies in het model te injecteren. We illustreren dit idee met het Gemini2.5-model en observeren sterke Zero-Shot prestatieverbeteringen van de benadering op populaire Remote Sensing-benchmarks voor landbedekking en landgebruikclassificatie, en demonstreren de eenvoudige aanpasbaarheid van Gemini2.5 aan nieuwe inputs. Deze resultaten benadrukken het potentieel voor geospatiale professionals, die werken met niet-standaard gespecialiseerde inputs, om eenvoudig krachtige multimodale modellen zoals Gemini2.5 te benutten om hun werk te versnellen, waarbij ze profiteren van hun rijke redeneer- en contextuele mogelijkheden, gebaseerd op de gespecialiseerde sensordata.
We introduceren DRISHTIKON, een baanbrekende multimodale en meertalige benchmark die exclusief gericht is op de Indiase cultuur, ontworpen om het culturele begrip van generatieve AI-systemen te evalueren. In tegenstelling tot bestaande benchmarks met een generieke of mondiale scope, biedt DRISHTIKON diepgaande, gedetailleerde dekking van India's diverse regio's, waarbij 15 talen worden bestreken, alle staten en unieterritoria worden omvat, en meer dan 64.000 uitgelijnde tekst-beeldparen worden geïntegreerd. De dataset omvat rijke culturele thema's zoals festivals, kleding, keukens, kunstvormen en historisch erfgoed, naast vele andere. We evalueren een breed scala aan vision-language-modellen (VLMs), waaronder open-source kleine en grote modellen, propriëtaire systemen, VLMs gespecialiseerd in redeneren, en modellen gericht op Indiase talen, in zowel zero-shot- als chain-of-thought-instellingen. Onze resultaten onthullen belangrijke beperkingen in het vermogen van huidige modellen om te redeneren over cultureel verankerde, multimodale invoer, met name voor talen met weinig bronnen en minder gedocumenteerde tradities. DRISHTIKON vult een cruciaal gat in inclusief AI-onderzoek door een robuuste testomgeving te bieden om cultureel bewuste, multimodaal competente taaltechnologieën te bevorderen.