Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Net als studenten die moeilijke examen vragen krijgen, gokken grote taalmodellen soms wanneer ze onzeker zijn, waarbij ze plausibele maar incorrecte uitspraken produceren in plaats van onzekerheid toe te geven. Dergelijke "hallucinaties" blijven bestaan, zelfs in state-of-the-art systemen, en ondermijnen het vertrouwen. Wij stellen dat taalmodellen hallucineren omdat de trainings- en evaluatieprocedures gokken belonen boven het erkennen van onzekerheid, en we analyseren de statistische oorzaken van hallucinaties in de moderne trainingspijplijn. Hallucinaties hoeven niet mysterieus te zijn — ze ontstaan eenvoudigweg als fouten in binaire classificatie. Als incorrecte uitspraken niet kunnen worden onderscheiden van feiten, dan zullen hallucinaties in vooraf getrainde taalmodellen ontstaan door natuurlijke statistische druk. Vervolgens stellen we dat hallucinaties blijven bestaan vanwege de manier waarop de meeste evaluaties worden beoordeeld — taalmodellen zijn geoptimaliseerd om goede testmakers te zijn, en gokken bij onzekerheid verbetert de testprestaties. Deze "epidemie" van het bestraffen van onzekere antwoorden kan alleen worden aangepakt door een sociaal-technische mitigatie: het aanpassen van de scoring van bestaande benchmarks die verkeerd zijn uitgelijnd maar toch de leiderborden domineren, in plaats van aanvullende hallucinatie-evaluaties te introduceren. Deze verandering kan het veld sturen naar meer betrouwbare AI-systemen.
Autoregressieve taalmodellen voor next token prediction bieden krachtige mogelijkheden, maar worden in de praktijk geconfronteerd met aanzienlijke uitdagingen bij implementatie vanwege de hoge reken- en geheugenkosten van inferentie, met name tijdens het decoderingstraject. Wij introduceren Set Block Decoding (SBD), een eenvoudig en flexibel paradigma dat de generatie versnelt door standaard next token prediction (NTP) en masked token prediction (MATP) te integreren binnen een enkele architectuur. SBD stelt het model in staat om meerdere, niet noodzakelijk opeenvolgende, toekomstige tokens parallel te bemonsteren, een belangrijk onderscheid ten opzichte van eerdere versnellingsmethoden. Deze flexibiliteit maakt het gebruik van geavanceerde oplossers uit de discrete diffusieliteratuur mogelijk, wat aanzienlijke snelheidswinsten biedt zonder in te leveren op nauwkeurigheid. SBD vereist geen architectuurwijzigingen of extra trainingshyperparameters, behoudt compatibiliteit met exacte KV-caching, en kan worden geïmplementeerd door bestaande next token prediction-modellen te fine-tunen. Door Llama-3.1 8B en Qwen-3 8B te fine-tunen, demonstreren we dat SBD een reductie van 3-5x in het aantal forward passes die nodig zijn voor generatie mogelijk maakt, terwijl dezelfde prestaties worden behaald als bij equivalente NTP-training.
Grote taalmodellen (LLMs) blinken uit in programma-synthese, maar hun vermogen om symbolische grafische programma's (SGPs) te produceren die precieze visuele inhoud weergeven, blijft onderbelicht. Wij bestuderen symbolische grafische programmering, waarbij het doel is om een SGP te genereren vanuit een beschrijving in natuurlijke taal. Deze taak dient ook als een lens om te begrijpen hoe LLMs de visuele wereld interpreteren, door hen aan te zetten tot het genereren van afbeeldingen die worden weergegeven vanuit SGPs. Onder de verschillende SGPs houdt ons paper zich bezig met schaalbare vectorafbeeldingen (SVGs). We beginnen met het onderzoeken van de mate waarin LLMs SGPs kunnen genereren. Hiertoe introduceren we SGP-GenBench, een uitgebreide benchmark die objectgetrouwheid, scènegetrouwheid en compositionaliteit (attribuutbinding, ruimtelijke relaties, numeriek vermogen) omvat. Op SGP-GenBench ontdekken we dat toonaangevende propriëtaire modellen open-source modellen aanzienlijk overtreffen, en dat de prestaties goed correleren met algemene programmeervaardigheden. Gemotiveerd door deze kloof, streven we ernaar om het vermogen van LLMs om SGPs te genereren te verbeteren. We stellen een aanpak voor met reinforcement learning (RL) en verifieerbare beloningen, waarbij een formaatvalidatiepoort renderbare SVG's garandeert, en een cross-modale beloning tekst en de gerenderde afbeelding uitlijnt via sterke visuele encoders (bijvoorbeeld SigLIP voor tekst-afbeelding en DINO voor afbeelding-afbeelding). Toegepast op Qwen-2.5-7B, verbetert onze methode de kwaliteit en semantiek van SVG-generatie aanzienlijk, waardoor prestaties worden bereikt die vergelijkbaar zijn met toonaangevende systemen. We analyseren verder de trainingsdynamiek, waarbij we aantonen dat RL (i) een fijnere decompositie van objecten in beheersbare primitieven induceert en (ii) contextuele details die de scènecoherentie verbeteren. Onze resultaten tonen aan dat symbolische grafische programmering een precieze en interpreteerbare lens biedt op cross-modale gronding.
Het schatten van scèneverlichting vanuit een enkele afbeelding of video blijft een langdurige uitdaging in computervisie en grafische toepassingen. Op leren gebaseerde benaderingen worden beperkt door de schaarste aan grondwaarheid HDR-omgevingskaarten, die duur zijn om vast te leggen en beperkt in diversiteit. Hoewel recente generatieve modellen sterke aannames bieden voor beeld-synthese, blijft verlichtingsschatting moeilijk vanwege de afhankelijkheid van indirecte visuele aanwijzingen, de noodzaak om globale (niet-lokale) context af te leiden, en het herstel van hoog-dynamisch-bereik uitvoer. Wij stellen LuxDiT voor, een nieuwe data-gedreven aanpak die een video-diffusie-transformer fine-tunt om HDR-omgevingskaarten te genereren, geconditioneerd op visuele invoer. Getraind op een grote synthetische dataset met diverse verlichtingsomstandigheden, leert ons model verlichting af te leiden uit indirecte visuele aanwijzingen en generaliseert effectief naar real-world scènes. Om de semantische afstemming tussen de invoer en de voorspelde omgevingskaart te verbeteren, introduceren we een fine-tuningstrategie met lage rangaanpassing, gebruikmakend van een verzamelde dataset van HDR-panorama's. Onze methode produceert nauwkeurige verlichtingsvoorspellingen met realistische hoek-hoge-frequentie details, en overtreft bestaande state-of-the-art technieken in zowel kwantitatieve als kwalitatieve evaluaties.
Recente ontwikkelingen in Multimodale Grote Taalmodellen (MLLMs) hebben indrukwekkende capaciteiten getoond op diverse visie-taaltaken. Hun redeneervermogen in het domein van multimodale symbolische muziek blijft echter grotendeels onontgonnen. Wij introduceren WildScore, de eerste in-the-wild benchmark voor multimodale symbolische muziekredenering en -analyse, ontworpen om de capaciteit van MLLMs te evalueren om real-world muziekpartituren te interpreteren en complexe musicologische vragen te beantwoorden. Elk geval in WildScore is afkomstig uit authentieke muziekcomposities en wordt vergezeld door echte door gebruikers gegenereerde vragen en discussies, waardoor de complexiteit van praktische muziekanalyse wordt vastgelegd. Om systematische evaluatie te vergemakkelijken, stellen we een systematische taxonomie voor, bestaande uit zowel hoogwaardige als fijnmazige musicologische ontologieën. Bovendien formuleren we complexe muziekredenering als meerkeuzevragen, wat een gecontroleerde en schaalbare beoordeling van het symbolische muziekbegrip van MLLMs mogelijk maakt. Empirische benchmarking van state-of-the-art MLLMs op WildScore onthult intrigerende patronen in hun visueel-symbolische redenering, waarbij zowel veelbelovende richtingen als hardnekkige uitdagingen voor MLLMs in symbolische muziekredenering en -analyse aan het licht komen. We maken de dataset en code beschikbaar.
Recent onderzoek richt zich steeds meer op de ontwikkeling van 3D-wereldmodellen die complexe real-world scenario's simuleren. Wereldmodellen vinden brede toepassingen in verschillende domeinen, waaronder embodied AI, autonoom rijden, entertainment, enz. Een realistischere simulatie met nauwkeurige fysica zal de kloof tussen simulatie en realiteit effectief verkleinen en het mogelijk maken om op een handige manier rijke informatie over de echte wereld te verzamelen. Terwijl traditionele handmatige modellering de creatie van virtuele 3D-scènes mogelijk heeft gemaakt, hebben moderne benaderingen geavanceerde machine learning-algoritmen ingezet voor 3D-wereldgeneratie, waarbij de meest recente vooruitgang zich richt op generatieve methoden die virtuele werelden kunnen creëren op basis van gebruikersinstructies. Dit werk verkent een dergelijke onderzoeksrichting door LatticeWorld voor te stellen, een eenvoudig maar effectief 3D-wereldgeneratieframework dat de industriële productiepijplijn van 3D-omgevingen stroomlijnt. LatticeWorld maakt gebruik van lichtgewicht LLM's (LLaMA-2-7B) naast een industriële rendering-engine (bijv. Unreal Engine 5) om een dynamische omgeving te genereren. Ons voorgestelde framework accepteert tekstuele beschrijvingen en visuele instructies als multimodale invoer en creëert grootschalige 3D-interactieve werelden met dynamische agents, met competitieve multi-agent interactie, hoogwaardige fysicasimulatie en real-time rendering. We voeren uitgebreide experimenten uit om LatticeWorld te evalueren, waaruit blijkt dat het superieure nauwkeurigheid bereikt in het genereren van scènelay-outs en visuele kwaliteit. Bovendien behaalt LatticeWorld een meer dan 90-voudige toename in industriële productie-efficiëntie terwijl het een hoge creatieve kwaliteit behoudt in vergelijking met traditionele handmatige productiemethoden. Onze demovideo is beschikbaar op https://youtu.be/8VWZXpERR18.
We presenteren WinT3R, een feed-forward reconstructiemodel dat in staat is tot online voorspelling van nauwkeurige cameraposities en hoogwaardige puntenkaarten. Eerdere methoden kampen met een afweging tussen reconstructiekwaliteit en real-time prestaties. Om dit aan te pakken, introduceren we eerst een sliding window-mechanisme dat voldoende informatie-uitwisseling tussen frames binnen het venster garandeert, waardoor de kwaliteit van geometrische voorspellingen wordt verbeterd zonder grote rekenkracht. Daarnaast maken we gebruik van een compacte representatie van camera's en behouden we een globaal cameratokenpool, wat de betrouwbaarheid van camerapositieschatting verhoogt zonder de efficiëntie op te offeren. Deze ontwerpen stellen WinT3R in staat om state-of-the-art prestaties te behalen op het gebied van online reconstructiekwaliteit, camerapositieschatting en reconstructiesnelheid, zoals bevestigd door uitgebreide experimenten op diverse datasets. Code en model zijn publiekelijk beschikbaar op https://github.com/LiZizun/WinT3R.
Vooruitgang in veel taakdomeinen ontstaat door herhaalde revisies van eerdere oplossingspogingen. Het trainen van agents die betrouwbaar kunnen zelfverbeteren over dergelijke sequenties tijdens inferentie is een natuurlijk doel voor reinforcement learning (RL), maar de naïeve aanpak veronderstelt een vaste maximale iteratiediepte, wat zowel kostbaar als willekeurig kan zijn. Wij presenteren Exploratory Iteration (ExIt), een familie van autocurriculum RL-methoden die direct gebruikmaakt van de recurrente structuur van zelfverbeteringstaken om LLM's te trainen voor multi-staps zelfverbetering tijdens inferentie, terwijl alleen getraind wordt op de meest informatieve enkele-stap iteraties. ExIt breidt een taakruimte uit door selectief de meest informatieve tussenliggende, gedeeltelijke geschiedenissen die tijdens een episode worden tegengekomen te bemonsteren voor verdere iteratie, en behandelt deze startpunten als nieuwe zelfiteratietaakinstanties om een zelfverbeteringsbeleid te trainen. ExIt kan verder worden gecombineerd met expliciete exploratiemechanismen om een grotere taakdiversiteit te behouden. Over verschillende domeinen, waaronder competitiewiskunde, multi-turn tool-gebruik en machine learning engineering, demonstreren we dat ExIt-strategieën, startend vanuit een enkele of meerdere taakinstanties, beleidsregels kunnen produceren die sterke zelfverbetering tijdens inferentie vertonen op achtergehouden taakinstanties, en de mogelijkheid hebben om te itereren naar hogere prestaties over een stapbudget dat verder reikt dan de gemiddelde iteratiediepte die tijdens de training werd tegengekomen.
Huidige benchmarks voor Large Language Models (LLMs) richten zich voornamelijk op prestatiemetrics, waarbij vaak de genuanceerde gedragskenmerken die hen onderscheiden, over het hoofd worden gezien. Dit artikel introduceert een nieuw "Behavioral Fingerprinting"-raamwerk dat is ontworpen om verder te gaan dan traditionele evaluatie door een veelzijdig profiel te creëren van de intrinsieke cognitieve en interactieve stijlen van een model. Met behulp van een zorgvuldig samengestelde Diagnostic Prompt Suite en een innovatieve, geautomatiseerde evaluatiepijplijn waarin een krachtige LLM optreedt als onpartijdige beoordelaar, analyseren we achttien modellen over verschillende capaciteitsniveaus. Onze resultaten onthullen een kritieke divergentie in het LLM-landschap: terwijl kerncapaciteiten zoals abstract en causaal redeneren convergeren onder de topmodellen, variëren alignment-gerelateerde gedragingen zoals sycophantie en semantische robuustheid aanzienlijk. We documenteren verder een cross-model default persona clustering (ISTJ/ESTJ) die waarschijnlijk gemeenschappelijke alignment-prikkels weerspiegelt. Samen genomen suggereert dit dat de interactieve aard van een model geen emergent eigenschap is van zijn schaal of redeneervermogen, maar een direct gevolg van specifieke, en zeer variabele, ontwikkelaarsalignmentstrategieën. Ons raamwerk biedt een reproduceerbare en schaalbare methodologie om deze diepe gedragsverschillen bloot te leggen. Project: https://github.com/JarvisPei/Behavioral-Fingerprinting
Wij stellen U-Arm voor, een kosteneffectief en snel aanpasbaar leider-volger teleoperatiekader dat is ontworpen om te werken met de meeste commercieel beschikbare robotarmen. Ons systeem ondersteunt teleoperatie via drie structureel verschillende 3D-geprinte leiderarmen die consistente besturingslogica delen, waardoor naadloze compatibiliteit met diverse commerciële robotconfiguraties mogelijk wordt gemaakt. In vergelijking met eerdere open-source leider-volger interfaces hebben wij zowel het mechanische ontwerp als de servokeuze verder geoptimaliseerd, wat resulteert in een materiaalkosten (BOM) van slechts \50,5 voor de 6-DoF leiderarm en \56,8 voor de 7-DoF versie. Om de bruikbaarheid te verbeteren, verminderen wij de veelvoorkomende uitdaging bij het besturen van redundante vrijheidsgraden door mechanische en besturingsoptimalisaties. Experimentele resultaten tonen aan dat U-Arm een 39\% hogere efficiëntie in gegevensverzameling en vergelijkbare taaksuccespercentages behaalt in meerdere manipulatietaken in vergelijking met Joycon, een andere kosteneffectieve teleoperatie-interface. Wij hebben alle CAD-modellen van drie configuraties open-source gemaakt en ook simulatieondersteuning geboden voor het valideren van teleoperatieworkflows. Daarnaast hebben wij real-world manipulatiedata die met U-Arm is verzameld, open-source gemaakt. Het projectwebsite is te vinden op https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm.
De effectiviteit van Large Language Models (LLMs) wordt doorgaans geëvalueerd aan de hand van benchmarks zoals MMLU, ARC-C of HellaSwag, waarbij vragen in hun oorspronkelijke formulering worden gepresenteerd, en dus in een vastgesteld, gestandaardiseerd formaat. Echter, in praktijktoepassingen is er sprake van linguïstische variabiliteit, wat vereist dat modellen hun effectiviteit behouden bij diverse herformuleringen van dezelfde vraag of query. In deze studie evalueren we systematisch de robuustheid van LLMs ten opzichte van geparafraseerde benchmarkvragen en onderzoeken we of benchmarkgebaseerde evaluaties een betrouwbare maatstaf bieden voor modelcapaciteiten. We genereren systematisch verschillende parafrases van alle vragen uit zes veelgebruikte benchmarks en meten de resulterende variaties in effectiviteit van 34 state-of-the-art LLMs, van verschillende grootte en effectiviteit. Onze bevindingen laten zien dat hoewel de rangschikking van LLMs relatief stabiel blijft bij geparafraseerde invoer, de absolute effectiviteitsscores veranderen en aanzienlijk dalen. Dit suggereert dat LLMs moeite hebben met linguïstische variabiliteit, wat zorgen oproept over hun generalisatievermogen en evaluatiemethodologieën. Bovendien daagt de waargenomen prestatievermindering de betrouwbaarheid van benchmarkgebaseerde evaluaties uit, wat aangeeft dat hoge benchmarkscores mogelijk niet volledig de robuustheid van een model tegenover real-world invoervariaties weergeven. We bespreken de implicaties van deze bevindingen voor LLM-evaluatiemethodologieën en benadrukken de noodzaak van robuustheid-gevoelige benchmarks die praktijkimplementatiescenario's beter weerspiegelen.
Radiologische diagnostische fouten - onder meer leesfouten, onoplettendheid en communicatiestoornissen - blijven veelvoorkomend in de klinische praktijk. Deze problemen ontstaan vaak door gemiste lokale afwijkingen, beperkte globale context en variabiliteit in de taal van verslagen. Deze uitdagingen worden versterkt bij 3D-beeldvorming, waar clinici honderden plakjes per scan moeten beoordelen. Het aanpakken hiervan vereist systemen met nauwkeurige lokale detectie, globaal volume-niveau redeneren en semantisch consistente natuurlijke taalrapportage. Bestaande 3D vision-language modellen kunnen echter niet aan alle drie de eisen tegemoetkomen, omdat ze een gebrek hebben aan lokaal-globaal begrip voor ruimtelijk redeneren en moeite hebben met de variabiliteit en ruis van onbewerkte radiologieverslagen. Wij presenteren MedVista3D, een multi-schaal semantisch verrijkt vision-language vooraf getraind raamwerk voor 3D CT-analyse. Om gezamenlijke ziekte detectie en holistische interpretatie mogelijk te maken, voert MedVista3D lokale en globale beeld-tekst uitlijning uit voor fijnmazige representatie leren binnen de context van het volledige volume. Om de variabiliteit van verslagen aan te pakken, passen we taal model herschrijvingen toe en introduceren we een Radiology Semantic Matching Bank voor semantisch bewuste uitlijning. MedVista3D behaalt state-of-the-art prestaties op zero-shot ziekteclassificatie, verslag retrieval en medische visuele vraagbeantwoording, terwijl het goed overdraagbaar is naar orgaan segmentatie en prognose voorspelling. Code en datasets zullen worden vrijgegeven.