Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De taak van beeldgeolokalisatie heeft als doel de locatie waar een foto is genomen, waar ook ter wereld, te voorspellen aan de hand van visuele aanwijzingen. Bestaande benaderingen met grote visie-taalmodellen (LVLM's) maken gebruik van wereldkennis, redeneren in denkstappen en agent-capaciteiten, maar negeren een veelgebruikte strategie van mensen – het gebruik van kaarten. In dit werk rusten we het model eerst uit met het vermogen om te Denken met Kaarten en formuleren we dit als een agent-in-de-kaart-lus. We ontwikkelen hiervoor een optimalisatieschema in twee fasen, bestaande uit reinforcement learning (RL) voor de agent, gevolgd door parallel schalen tijdens de testfase (TTS). De RL versterkt de agent-capaciteit van het model om de steekproefefficiëntie te verbeteren, en de parallelle TTS stelt het model in staat om meerdere kandidaatpaden te verkennen voordat de uiteindelijke voorspelling wordt gedaan, wat cruciaal is voor geolokalisatie. Om onze methode te evalueren met actuele en real-world beelden, presenteren we verder MAPBench, een uitgebreide geolokalisatietrainings- en evaluatiestandaard die volledig bestaat uit beelden uit de echte wereld. Experimentele resultaten tonen aan dat onze methode de bestaande open- en closed-source modellen op de meeste metrieken overtreft, met name door Acc@500m te verbeteren van 8,0% naar 22,1% in vergelijking met Gemini-3-Pro met de ondersteunde Google Search/Map-modus.
Autoformalisering, die natuurlijketaalwiskunde vertaalt naar formele uitspraken om machineredenering mogelijk te maken, wordt in de praktijk geconfronteerd met fundamentele uitdagingen vanwege de multimodale aard van de fysieke wereld, waar de natuurkunde vereist dat verborgen beperkingen (bijvoorbeeld massa of energie) worden afgeleid uit visuele elementen. Om dit aan te pakken, stellen we MMFormalizer voor, dat autoformalisering uitbreidt voorbij tekst door adaptieve grounding te integreren met entiteiten uit de wiskundige en natuurkundige domeinen van de echte wereld. MMFormalizer construeert recursief formele proposities vanuit perceptueel verankerde primitieven door recursieve grounding en axiomasamenstelling, waarbij adaptieve recursieve beëindiging ervoor zorgt dat elke abstractie wordt ondersteund door visueel bewijs en verankerd is in dimensionale of axiomatische grounding. We evalueren MMFormalizer op een nieuwe benchmark, PhyX-AF, bestaande uit 115 geselecteerde samples van MathVerse, PhyX, Synthetische Meetkunde en Analytische Meetkunde, die diverse multimodale autoformaliseringstaken bestrijken. Resultaten tonen aan dat frontiermodellen zoals GPT-5 en Gemini-3-Pro de hoogste compilatie- en semantische nauwkeurigheid bereiken, waarbij GPT-5 uitblinkt in fysisch redeneren, terwijl meetkunde het meest uitdagende domein blijft. Over het algemeen biedt MMFormalizer een schaalbaar raamwerk voor verenigde multimodale autoformalisering, dat perceptie en formeel redeneren verbindt. Voor zover wij weten, is dit de eerste multimodale autoformaleringsmethode die klassieke mechanica (afgeleid van de Hamiltoniaan), evenals relativiteit, kwantummechanica en thermodynamica aankan. Meer details zijn beschikbaar op onze projectpagina: MMFormalizer.github.io
Wij introduceren een fotorealistisch en controleerbaar 3D-karikaturiseringsraamwerk voor gezichten. We beginnen met een op intrinsieke Gaussiaanse kromming gebaseerde techniek voor oppervlakte-exaggeratie, die in combinatie met textuur vaak te gladde weergaven produceert. Om dit op te lossen, nemen we onze toevlucht tot 3D Gaussian Splatting (3DGS), waarvan recent is aangetoond dat het realistische avatars vanuit vrij perspectief kan genereren. Gegeven een multiview-sequentie extraheren we een FLAME-mesh, lossen we een kromming-gewogen Poisson-vergelijking op en verkrijgen we de geëxaggerreerde vorm. Directe vervorming van de Gaussiaanse functies levert echter slechte resultaten op, wat de synthese van pseudo-ground-truth karikatuurbeelden noodzakelijk maakt door elk frame te vervormen naar zijn geëxaggerreerde 2D-representatie met behulp van lokale affiene transformaties. Vervolgens ontwerpen we een trainingsschema dat afwisselt tussen supervisie op echte en gesynthetiseerde beelden, waardoor een enkele Gaussiaanse verzameling zowel natuurlijke als geëxaggerreerde avatars kan vertegenwoordigen. Dit schema verbetert de geloofwaardigheid, ondersteunt lokale aanpassingen en maakt continue controle over de intensiteit van de karikatuur mogelijk. Om real-time vervormingen te bereiken, introduceren we een efficiënte interpolatie tussen de originele en de geëxaggerreerde oppervlakken. We analyseren verder en tonen aan dat deze een begrensde afwijking heeft ten opzichte van gesloten-vorm oplossingen. In zowel kwantitatieve als kwalitatieve evaluaties overtreffen onze resultaten eerder werk, en leveren ze fotorealistische, geometriegestuurde karikatuur-avatars.
Grote taalmodellen (LLM's) slagen er vaak niet in om effectieve lange redeneerketens (Long CoT) aan te leren door imitatie van menselijke of niet-Long-CoT LLM's. Om dit te begrijpen, stellen wij voor dat effectieve en aanleerbare Long CoT-trajecten in een uniforme weergave stabiele, molecuulachtige structuren vertonen, die worden gevormd door drie interactietypes: Diep Redeneren (covalent-achtig), Zelfreflectie (waterstofbrug-achtig) en Zelfverkenning (van der Waals-achtig). Analyse van gedistilleerde trajecten onthult dat deze structuren ontstaan uit Long CoT-finetuning, niet uit imitatie van sleutelwoorden. We introduceren Effectieve Semantische Isomeren en tonen aan dat alleen bindingen die snelle entropieconvergentie bevorderen, een stabiele Long CoT-aanleerbaarheid ondersteunen, terwijl structurele competitie de training belemmert. Gebaseerd op deze bevindingen presenteren we Mole-Syn, een distributie-overdrachtsgrafiek-methode die de synthese van effectieve Long CoT-structuren begeleidt, wat de prestaties en RL-stabiliteit op verschillende benchmarks aanzienlijk verbetert.
In dit rapport introduceren we de Qwen3-VL-Embedding- en Qwen3-VL-Reranker-modelreeksen, de nieuwste uitbreidingen van de Qwen-familie die zijn gebouwd op het Qwen3-VL-basismodel. Samen bieden ze een end-to-end-pijplijn voor hoogwaardige multimodale zoekopdrachten door verschillende modaliteiten, waaronder tekst, afbeeldingen, documentafbeeldingen en video, af te beelden naar een uniforme representatieruimte. Het Qwen3-VL-Embedding-model hanteert een meerfasen-trainingsparadigma, dat voortschrijdt van grootschalige contrastieve voortraining naar distillatie van het reranking-model, om semantisch rijke hoogdimensionale vectoren te genereren. Het ondersteunt Matryoshka Representation Learning, waardoor flexibele embeddingdimensies mogelijk zijn, en verwerkt inputs tot 32k tokens. Als aanvulling hierop voert Qwen3-VL-Reranker een fijnmazige relevantieschatting uit voor query-documentparen met behulp van een cross-encoder-architectuur met cross-attention-mechanismen. Beide modelreeksen erven de meertalige capaciteiten van Qwen3-VL, ondersteunen meer dan 30 talen en worden vrijgegeven in 2B- en 8B-parametergroottes om aan uiteenlopende implementatiebehoeften te voldoen. Empirische evaluaties tonen aan dat de Qwen3-VL-Embedding-reeks state-of-the-art-resultaten behaalt op diverse multimodale embedding-evaluatiebenchmarks. Specifiek behaalt Qwen3-VL-Embedding-8B een algemene score van 77,8 op MMEB-V2, waarmee het de eerste plaats inneemt onder alle modellen (per 8 januari 2025). Dit rapport presenteert de architectuur, trainingsmethodologie en praktische capaciteiten van de reeks, en toont hun effectiviteit aan bij diverse multimodale retrievaultaken, waaronder beeld-tekst-retrieval, visuele vraagbeantwoording en video-tekst-matching.
Versterkend leren (RL) is naar voren gekomen als een cruciale techniek voor het verbeteren van op LLM gebaseerde deep search agents. Bestaande benaderingen vertrouwen echter voornamelijk op beloningen met binaire uitkomsten, die de volledigheid en feitelijkheid van het redeneerproces van de agents niet vastleggen en vaak leiden tot ongewenst gedrag, zoals het benutten van shortcuts en hallucinaties. Om deze beperkingen aan te pakken, stellen wij Citation-aware Rubric Rewards (CaRR) voor, een fijnmazig beloningsraamwerk voor deep search agents dat de nadruk legt op redeneervolledigheid, feitelijke onderbouwing en verbondenheid van bewijs. CaRR ontleedt complexe vragen in verifieerbare enkelvoudige rubrics en verlangt van agents dat zij aan deze rubrics voldoen door verborgen entiteiten expliciet te identificeren, deze te ondersteunen met correcte citaten, en complete bewijsketens te construeren die naar het voorspelde antwoord leiden. Wij introduceren verder Citation-aware Group Relative Policy Optimization (C-GRPO), dat CaRR combineert met uitkomstbeloningen voor het trainen van robuuste deep search agents. Experimenten tonen aan dat C-GRPO consistent beter presteert dan standaard RL-baselines op basis van uitkomsten over meerdere deep search benchmarks. Onze analyse bevestigt ook dat C-GRPO effectief shortcut-exploitatie ontmoedigt, volledig, op bewijs gebaseerd redeneren bevordert en sterke generalisatie vertoont naar open-ended deep research taken. Onze code en data zijn beschikbaar op https://github.com/THUDM/CaRR.
Grote taalmodellen (LLM's) worden naar verwachting getraind om als agenten in diverse real-world omgevingen te functioneren, maar dit proces is afhankelijk van rijke en gevarieerde sandboxen voor toolinteractie. Toegang tot echte systemen is echter vaak beperkt; door LLM's gesimuleerde omgevingen zijn gevoelig voor hallucinaties en inconsistenties; en handmatig gebouwde sandboxen zijn moeilijk schaalbaar. In dit artikel stellen we EnvScaler voor, een geautomatiseerd framework voor schaalbare toolinteractie-omgevingen via programmatische synthese. EnvScaler bestaat uit twee componenten. Ten eerste construeert SkelBuilder diverse omgevingsskeletten via topic mining, logische modellering en kwaliteitsevaluatie. Vervolgens genereert ScenGenerator meerdere taakscenario's en op regels gebaseerde validatiefuncties voor trajecten voor elke omgeving. Met EnvScaler synthetiseren we 191 omgevingen en ongeveer 7.000 scenario's, en passen we deze toe op Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) voor Qwen3-seri modellen. Resultaten op drie benchmarks tonen aan dat EnvScaler het vermogen van LLM's om taken op te lossen in complexe omgevingen met multi-turn, multi-tool interacties significant verbetert. We geven onze code en data vrij op https://github.com/RUC-NLPIR/EnvScaler.
Recente vooruitgang in grote taalmmodellen (LLM's) maakt agent-systemen mogelijk die zijn getraind met reinforcement learning (RL) op multi-turn interactietrajecten. De praktische inzet wordt echter beperkt door snel groeiende tekstuele geschiedenissen, die tokenbudgetten en geheugengebruik opdrijven. Wij introduceren AgentOCR, een raamwerk dat de superieure informatiedichtheid van visuele tokens benut door de opgebouwde observatie-actiegeschiedenis weer te geven als een compact gerenderde afbeelding. Om multi-turn rollouts schaalbaar te maken, stelt AgentOCR *segment optical caching* voor. Door de geschiedenis op te delen in hasbare segmenten en een visuele cache te onderhouden, elimineert dit mechanisme redundante herhalingen van rendering. Naast vaste rendering introduceert AgentOCR *agentic self-compression*, waarbij de agent actief een compressieratio uitgeeft en wordt getraind met een compressiebewuste beloning om adaptief een balans te vinden tussen taaksucces en tokenefficiëntie. Wij voeren uitgebreide experimenten uit op uitdagende agent-gebaseerde benchmarks, ALFWorld en op zoekopdrachten gebaseerde vraag-antwoordtaken. Opmerkelijk is dat de resultaten aantonen dat AgentOCR meer dan 95% van de prestaties van op tekst gebaseerde agents behoudt, terwijl het het tokenverbruik aanzienlijk vermindert (>50%), wat resulteert in consistente token- en geheugenefficiëntie. Onze verdere analyse valideert een 20x versnelling van rendering door *segment optical caching* en het effectieve strategische evenwicht van zelfcompressie.
Autonome machine learning-agents hebben een revolutie teweeggebracht in wetenschappelijke ontdekkingen, maar blijven beperkt door een Generate-Execute-Feedback-paradigma. Eerdere methoden kampen met een ernstig *Execution Bottleneck*, omdat de evaluatie van hypothesen strikt afhankelijk is van dure fysieke uitvoering. Om deze fysieke beperkingen te omzeilen, internaliseren wij uitvoeringspriors om kostbare runtime-controles te vervangen door directe voorspellende redenering, geïnspireerd door *World Models*. In dit werk formaliseren wij de taak van *Data-centric Solution Preference* en construeren een uitgebreid corpus van 18.438 paarsgewijze vergelijkingen. Wij tonen aan dat *LLM's* significante voorspellende capaciteiten vertonen wanneer zij worden geprimed met een geverifieerd data-analyseverslag, met een nauwkeurigheid van 61,5% en robuuste kalibratie van betrouwbaarheid. Ten slotte implementeren wij dit raamwerk in FOREAGENT, een agent die een *Predict-then-Verify*-lus hanteert, wat een 6x versnelling in convergentie oplevert terwijl hij op uitvoering gebaseerde *baselines* met +6% overtreft. Onze code en dataset zullen binnenkort openbaar beschikbaar zijn op https://github.com/zjunlp/predict-before-execute.
Recente vooruitgang in videogeneratie wordt gedomineerd door diffusie- en flow-matching-modellen, die hoogwaardige resultaten opleveren maar rekenintensief blijven en moeilijk op te schalen zijn. In dit werk introduceren we VideoAR, het eerste grootschalige Visueel Autoregressieve (VAR) raamwerk voor videogeneratie dat multi-schaal volgende-frame-voorspelling combineert met autoregressieve modellering. VideoAR ontwart ruimtelijke en temporele afhankelijkheden door intra-frame VAR-modellering te integreren met causale volgende-frame-voorspelling, ondersteund door een 3D multi-schaal tokenizer die ruimtelijk-temporele dynamiek efficiënt encodeert. Om de consistentie op lange termijn te verbeteren, stellen we Multi-schaal Temporele RoPE, Cross-Frame Foutcorrectie en Random Frame Mask voor, die gezamenlijk foutpropagatie verminderen en temporele coherentie stabiliseren. Onze meerfasige voor-trainingspijplijn aligneert progressief ruimtelijk en temporeel leren over toenemende resoluties en duur. Empirisch behaalt VideoAR nieuwe state-of-the-art resultaten onder autoregressieve modellen, verbetert FVD op UCF-101 van 99.5 naar 88.6 terwijl de inferentiestappen met meer dan 10x worden verminderd, en bereikt een VBench-score van 81.74 – vergelijkbaar met op diffusie gebaseerde modellen die een orde van grootte groter zijn. Deze resultaten tonen aan dat VideoAR de prestatiekloof tussen autoregressieve en diffusieparadigma’s verkleint, en een schaalbaar, efficiënt en temporeel consistent fundament biedt voor toekomstig onderzoek naar videogeneratie.
Preferentie-afstemming stemt vooraf getrainde taalmodellen af op menselijke beoordelingen van kwaliteit, behulpzaamheid of veiligheid door te optimaliseren op expliciete voorkeurssignalen in plaats van alleen op waarschijnlijkheid. Eerder onderzoek heeft aangetoond dat preferentie-afstemming de prestaties vermindert en de behulpzaamheid aantast wanneer het wordt geëvalueerd buiten het trainingsdomein. De mate waarin adaptatiestrategieën deze domeinverschuiving mitigeren, is echter nog onontgonnen terrein. Wij pakken deze uitdaging aan door een uitgebreide en systematische studie uit te voeren naar de generalisatie van afstemming onder domeinverschuiving. We vergelijken vijf populaire afstemmingsdoelstellingen en verschillende adaptatiestrategieën van bron naar doel, waaronder supervised fine-tuning en pseudo-labeling in het doeldomein, voor samenvattings- en vraag-antwoordtaken gericht op behulpzaamheid. Onze bevindingen onthullen systematische verschillen in generalisatie tussen afstemmingsdoelstellingen onder domeinverschuiving. We tonen aan dat adaptatiestrategieën gebaseerd op pseudo-labeling de degradatie door domeinverschuiving aanzienlijk kunnen verminderen.
Naarmate grote taalmodelen (LLM's) steeds vaker in praktijksituaties worden ingezet, is correctheid alleen onvoldoende. Betrouwbare inzet vereist het handhaven van waarachtige overtuigingen onder contextuele verstoringen. Bestaande evaluaties vertrouwen grotendeels op puntgewijze betrouwbaarheidsmetingen zoals Self-Consistency, wat broze overtuigingen kan maskeren. Wij tonen aan dat zelfs feiten die met perfecte self-consistency worden beantwoord, snel kunnen instorten onder milde contextuele interferentie. Om deze kloof te dichten, stellen wij Neighbor-Consistency Belief (NCB) voor, een structurele maatstaf voor de robuustheid van overtuigingen die de antwoordcoherentie in een conceptuele nabijheid evalueert. Om de efficiëntie van NCB te valideren, introduceren wij een nieuw cognitief stresstestprotocol dat de stabiliteit van outputs onder contextuele interferentie onderzoekt. Experimenten met diverse LLM's tonen aan dat de prestaties van data met een hoge NCB relatief weerbaarder zijn tegen interferentie. Ten slotte presenteren wij Structure-Aware Training (SAT), dat de context-onafhankelijke overtuigingsstructuur optimaliseert en de broosheid van kennis in de lange staart met ongeveer 30% reduceert. Code zal beschikbaar zijn op https://github.com/zjunlp/belief.
Recente vooruitgang in videogeneratie heeft de ontwikkeling mogelijk gemaakt van "wereldmodellen" die potentiële toekomsten kunnen simuleren voor robotica en planning. Het specificeren van precieze doelen voor deze modellen blijft echter een uitdaging; tekstinstructies zijn vaak te abstract om fysieke nuances vast te leggen, terwijl doelafbeeldingen vaak onhaalbaar zijn om te specificeren voor dynamische taken. Om dit aan te pakken, introduceren we Goal Force, een nieuw raamwerk waarmee gebruikers doelen kunnen definiëren via expliciete krachtvectoren en tussenliggende dynamiek, vergelijkbaar met hoe mensen fysieke taken conceptualiseren. We trainen een videogeneratiemodel op een gecureerde dataset van synthetische causale primitieven – zoals elastische botsingen en vallende dominostenen – om het krachten door tijd en ruimte te leren voortplanten. Ondanks training op eenvoudige fysicadata vertoont ons model opmerkelijke zero-shot generalisatie naar complexe, realistische scenario's, inclusief gereedschapsmanipulatie en causale ketens met meerdere objecten. Onze resultaten suggereren dat door videogeneratie te verankeren in fundamentele fysieke interacties, modellen kunnen opkomen als impliciete neurale fysicasimulators, waardoor precieze, fysica-bewuste planning mogelijk wordt zonder afhankelijkheid van externe engines. We publiceren alle datasets, code, modelgewichten en interactieve videodemo's op onze projectpagina.
Grote taalmodellen hebben een snelle evolutie doorgemaakt en zijn uitgegroeid tot een cruciale technologie voor intelligentie in financiële operaties. Bestaande benchmarks worden echter vaak beperkt door valkuilen zoals afhankelijkheid van gesimuleerde of algemene steekproeven en een focus op enkelvoudige, offline statische scenario's. Hierdoor sluiten ze niet aan bij de vereisten voor authenticiteit en realtime responsiviteit in financiële diensten, wat leidt tot een aanzienlijke kloof tussen benchmarkprestaties en werkelijke operationele effectiviteit. Om dit aan te pakken, introduceren wij BizFinBench.v2, de eerste grootschalige evaluatiebenchmark gebaseerd op authentieke bedrijfsgegevens van zowel Chinese als Amerikaanse aandelenmarkten, geïntegreerd met online evaluatie. We voerden clusteranalyses uit op authentieke gebruikersvragen van financiële platforms, resulterend in acht fundamentele taken en twee online taken verspreid over vier kernbedrijfsscenario's, in totaal 29.578 expertniveau vraag-antwoordparen. Experimentele resultaten tonen aan dat ChatGPT-5 een opmerkelijke nauwkeurigheid van 61,5% behaalt in hoofd taken, hoewel een aanzienlijke kloof ten opzichte van financiële experts blijft bestaan; in online taken presteert DeepSeek-R1 beter dan alle andere commerciële grote taalmodellen. Foutenanalyse identificeert verder de specifieke capaciteitentekortkomingen van bestaande modellen binnen praktische financiële bedrijfscontexten. BizFinBench.v2 overstijgt de beperkingen van huidige benchmarks, bereikt een bedrijfsniveau deconstructie van financiële capaciteiten van grote taalmodellen en biedt een nauwkeurige basis voor het evalueren van effectiviteit bij de wijdverspreide inzet van grote taalmodellen binnen het financiële domein. De data en code zijn beschikbaar op https://github.com/HiThink-Research/BizFinBench.v2.
Monoculaire diepteschatting heeft als doel om de diepte-informatie van 3D-scènes te herstellen uit 2D-beelden. Recent onderzoek heeft aanzienlijke vooruitgang geboekt, maar de afhankelijkheid van grootschalige datasets en complexe decoders heeft de efficiëntie en generalisatievermogen beperkt. In dit artikel stellen we een lichtgewicht en data-gecentreerd raamwerk voor voor zero-shot monoculaire diepteschatting. Ten eerste gebruiken we DINOv3 als visuele encoder om hoogwaardige dense features te verkrijgen. Ten tweede, om de inherente nadelen van de complexe structuur van de DPT aan te pakken, ontwerpen we de Simple Depth Transformer (SDT), een compacte transformer-gebaseerde decoder. In vergelijking met de DPT gebruikt deze een enkelpad-fusieproces voor features en upsampling om de rekenkosten van kruis-schaal featurefusie te verminderen, waarbij een hogere nauwkeurigheid wordt bereikt terwijl het aantal parameters met ongeveer 85%-89% wordt gereduceerd. Verder stellen we een op kwaliteit gebaseerd filterstrategie voor om schadelijke samples eruit te filteren, waardoor de datasetgrootte wordt verkleind en de algehele trainingskwaliteit verbetert. Uitgebreide experimenten op vijf benchmarks tonen aan dat ons raamwerk de DPT in nauwkeurigheid overtreft. Dit werk benadrukt het belang van het balanceren van modelontwerp en data-kwaliteit voor het bereiken van efficiënte en generaliseerbare zero-shot diepteschatting. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
Grote taalmodellen (LLM's) worden inmiddels op grote schaal toegepast in diverse financiële domeinen. Omdat hun trainingsdata grotendeels afkomstig is uit door mensen geschreven corpora, kunnen LLM's een reeks menselijke vooroordelen overnemen. Gedragsmatige vooroordelen kunnen leiden tot instabiliteit en onzekerheid in de besluitvorming, met name bij de verwerking van financiële informatie. Bestaand onderzoek naar vooroordelen in LLM's heeft zich echter voornamelijk gericht op directe bevraging of vereenvoudigde, algemene settings, met beperkte aandacht voor de complexe financiële praktijkomgevingen en hoogrisico, contextgevoelige, meertalige taken voor het detecteren van financiële desinformatie (\mfmd). In dit werk stellen we \mfmdscen voor, een uitgebreide benchmark voor het evalueren van gedragsmatige vooroordelen van LLM's in \mfmd binnen uiteenlopende economische scenario's. In samenwerking met financiële experts construeren we drie soorten complexe financiële scenario's: (i) op rol en persoonlijkheid gebaseerde, (ii) op rol en regio gebaseerde, en (iii) op rol gebaseerde scenario's die etniciteit en religieuze overtuigingen incorporeren. We ontwikkelen verder een meertalige dataset voor financiële desinformatie, die Engels, Chinees, Grieks en Bengaals omvat. Door deze scenario's te integreren met desinformatie-claims maakt \mfmdscen een systematische evaluatie mogelijk van 22 mainstream LLM's. Onze bevindingen tonen aan dat uitgesproken gedragsmatige vooroordelen persistent aanwezig zijn in zowel commerciële als open-source modellen. Dit project zal beschikbaar zijn op https://github.com/lzw108/FMD.
Op large language models (LLM) gebaseerde zoekagentschappen hebben hun waarde bewezen bij het aanpakken van kennisintensieve problemen door informatiezoekmogelijkheden te integreren. Bestaand onderzoek richt zich voornamelijk op het optimaliseren van de redeneerparadigma's van zoekagentschappen, waarbij de kwaliteit van tussentijdse zoekquery's tijdens het redeneren vaak over het hoofd wordt gezien. Hierdoor blijven de gegenereerde query's vaak onnauwkeurig, wat leidt tot onverwachte zoekresultaten en uiteindelijk de algehele effectiviteit van zoekagentschappen beperkt. Om dit probleem te verhelpen, introduceren we SmartSearch, een raamwerk gebaseerd op twee belangrijke mechanismen: (1) Procesbeloningen, die gedetailleerd toezicht bieden op de kwaliteit van elke tussentijdse zoekquery via een Dual-Level Credit Assessment. (2) Query-verfijning, dat de optimalisatie van query-generatie bevordert door selectief zoekquery's van lage kwaliteit te verfijnen en daaropvolgende zoekrondes op basis van deze verfijningen opnieuw te genereren. Om het zoekagentschap in staat te stellen het vermogen om querykwaliteit te verbeteren geleidelijk te internaliseren onder begeleiding van procesbeloningen, hebben we een driedelig curriculumleren-raamwerk ontworpen. Dit raamwerk leidt het agentschap door een progressie van imitatie, naar afstemming, en uiteindelijk naar generalisatie. Experimentele resultaten tonen aan dat SmartSearch consistent de bestaande baseline-methoden overtreft, en aanvullende kwantitatieve analyses bevestigen verder de significante verbeteringen in zowel zoekefficiëntie als querykwaliteit. De code is beschikbaar op https://github.com/MYVAE/SmartSearch.
Dit werk presenteert Orient Anything V2, een verbeterd foundation-model voor het uniform begrijpen van de 3D-orientatie en rotatie van objecten vanuit enkele of gepaarde afbeeldingen. Voortbouwend op Orient Anything V1, dat orientatie definieert via een uniek voorvlak, breidt V2 deze mogelijkheid uit om objecten met diverse rotatiesymmetrieën te verwerken en relatieve rotaties direct te schatten. Deze verbeteringen worden mogelijk gemaakt door vier belangrijke innovaties: 1) Schaalbare 3D-assets gegenereerd door generatieve modellen, die zorgen voor brede categorie-dekking en een gebalanceerde dataverdeling; 2) Een efficiënt, model-in-the-loop annotatiesysteem dat robuust 0 tot N geldige voorvlakken voor elk object identificeert; 3) Een symmetrie-bewust, periodiek distributie-aanpassingsdoel dat alle plausibele voorwaarts gerichte oriëntaties vastlegt, waardoor objectrotatiesymmetrie effectief wordt gemodelleerd; 4) Een multi-frame architectuur die relatieve objectrotaties direct voorspelt. Uitgebreide experimenten tonen aan dat Orient Anything V2 state-of-the-art zero-shot prestaties bereikt voor oriëntatieschatting, 6DoF-pose-schatting en object-symmetrieherkenning op 11 veelgebruikte benchmarks. Het model demonstreert sterke generalisatie, waardoor de toepasbaarheid van oriëntatieschatting in diverse downstreamtaken aanzienlijk wordt verbreed.
Mixture-of-Experts (MoE) is een toonaangevend paradigma geworden voor het schalen van Large Language Models (LLM's). Parameter-efficiënte fine-tuning (PEFT), zoals LoRA, wordt veel gebruikt om vooraf getrainde MoE-LLM's aan te passen voor downstreamtaken. Bestaande benaderingen kennen echter identieke LoRA-rangen toe aan alle experts, waarbij de intrinsieke functionele specialisatie binnen MoE-LLM's over het hoofd wordt gezien. Deze uniforme toewijzing leidt tot een mismatch in middelen: taakrelevante experts krijgen onvoldoende capaciteit, terwijl minder relevante experts overbodige parameters ontvangen. Wij stellen een Dynamic Rank LoRA-raamwerk voor, genaamd DR-LoRA, dat tijdens de fine-tuning dynamisch de LoRA-rangen van experts verhoogt op basis van taakspecifieke behoeften. DR-LoRA gebruikt een Expert Saliency Scoring-mechanisme dat expert routeringsfrequentie en LoRA-rangbelang integreert om de vraag van elke expert naar extra capaciteit te kwantificeren. Experts met hogere saliency-scores krijgen prioriteit voor ranguitbreiding, waardoor de automatische vorming van een heterogene rangverdeling, afgestemd op de doeltaak, mogelijk wordt. Experimenten op meerdere benchmarks tonen aan dat DR-LoRA consequent superieur presteert ten opzichte van standaard LoRA en statische toewijzingsstrategieën onder hetzelfde parameterbudget, waarbij het superieure taakprestaties bereikt met efficiënter parametergebruik.
Zoek-augmented large language models (LLM's) blinken uit in kennisintensieve taken door integratie van externe retrievalsystemen. Ze vertonen echter vaak overmatig zoekgedrag – onnodig activeren van zoekfunctionaliteit zelfs wanneer dit de responskwaliteit niet verbetert, wat leidt tot computationele inefficiëntie en hallucinaties door opname van irrelevante context. In dit werk voeren we een systematische evaluatie uit van overmatig zoekgedrag langs meerdere dimensies, waaronder querytypes, modelcategorieën, retrievalcondities en multi-turn gesprekken. Onze bevindingen tonen aan: (i) zoeken verbetert over het algemeen de antwoordnauwkeurigheid bij beantwoordbare queries, maar schaast de terughoudendheid bij onbeantwoordbare queries; (ii) overmatig zoekgedrag is meer uitgesproken bij complexe redeneermodellen en diepgaande onderzoekssystemen, wordt versterkt door ruisrijke retrieval, en stapelt zich op over meerdere beurten in gesprekken; en (iii) de samenstelling van opgehaald bewijsmateriaal is cruciaal, aangezien de aanwezigheid van negatief bewijs de terughoudendheid verbetert. Om overmatig zoekgedrag te kwantificeren, introduceren we Tokens Per Correctness (TPC), een evaluatiemetriek die de prestatie-kostenafweging voor zoek-augmented LLM's vastlegt. Ten slotte onderzoeken we mitigatiebenaderingen op zowel query- als retrievalniveau en publiceren we OverSearchQA om voortgezet onderzoek naar efficiënte zoek-augmented LLM's te bevorderen.
Multi-Agent Systems (MAS) zijn een krachtig paradigma geworden voor het bouwen van hoogwaardige intelligente toepassingen. Binnen deze systemen speelt de router, die verantwoordelijk is voor het bepalen welke expert-agents een bepaalde query moeten afhandelen, een cruciale rol in de algehele prestaties. Bestaande routeringsstrategieën vallen grofweg in twee categorieën: prestatieroutering, die latentie en kosten afweegt tussen modellen van verschillende groottes, en taakroutering, die queries toewijst aan domeinspecifieke experts om de nauwkeurigheid te verbeteren. In real-world enterprise-toepassingen is taakroutering geschikter; de meeste bestaande benaderingen vertrouwen echter op statische enkelvoudige-labelbeslissingen, wat twee belangrijke beperkingen introduceert: (i) moeite om naadloos nieuwe agents te integreren naarmate bedrijfsdomeinen uitbreiden, en (ii) routeringsconflicten veroorzaakt door overlappende agentcapaciteiten, wat uiteindelijk de nauwkeurigheid en robuustheid aantast. Om deze uitdagingen aan te pakken, stellen we TCAndon-Router (TCAR) voor: een adaptieve redeneerrouter voor multi-agent samenwerking. In tegenstelling tot traditionele routers ondersteunt TCAR dynamische integratie van agents en genereert eerst een redeneerketen in natuurlijke taal voordat het een set kandidaat-agents voorspelt die de query kunnen afhandelen. Daarnaast ontwerpen we een collaboratief uitvoeringsproces waarin geselecteerde agents onafhankelijk antwoorden produceren, die vervolgens worden samengevoegd en verfijnd tot één hoogwaardig antwoord door een speciale Refining Agent. Experimenten op publieke datasets en echte bedrijfsgegevens tonen aan dat TCAR de routeringsnauwkeurigheid aanzienlijk verbetert, routeringsconflicten vermindert en robuust blijft in ambigue scenario's. We hebben TCAR vrijgegeven op https://huggingface.co/tencent/TCAndon-Router om toekomstig onderzoek naar verklaarbare en collaboratieve multi-agent routering te ondersteunen.
Grootschalige taalmodelen (LLM's) worden steeds vaker ingezet als intelligente agenten die redeneren, plannen en interacteren met hun omgeving. Voor een effectieve schaalvergroting naar scenario's met een lange tijdslijn is een cruciaal vermogen van dergelijke agenten een geheugenmechanisme dat eerdere ervaringen kan vasthouden, organiseren en ophalen om besluitvorming te ondersteunen. De meeste bestaande methoden organiseren en slaan geheugen echter op een vlakke manier op en vertrouwen op eenvoudige, op gelijkenis gebaseerde ophaaltechnieken. Zelfs wanneer gestructureerd geheugen wordt geïntroduceerd, worstelen bestaande methoden vaak met het expliciet vastleggen van de logische relaties tussen ervaringen of geheugeneenheden. Bovendien is geheugentoegang grotendeels losgekoppeld van de opgebouwde structuur en blijft deze afhankelijk van ondiepe semantische retrieval, wat agenten verhindert logisch te redeneren over afhankelijkheden op lange termijn. In dit werk stellen we CompassMem voor, een gebeurtenisgericht geheugenkader geïnspireerd op de Event Segmentation Theory. CompassMem organiseert geheugen als een gebeurtenisgraaf door ervaringen incrementeel te segmenteren in gebeurtenissen en deze via expliciete logische relaties te verbinden. Deze graaf dient als een logische kaart, waardoor agenten gestructureerde en doelgerichte navigatie door het geheugen kunnen uitvoeren, verdergaand dan oppervlakkige retrieval, en zo geleidelijk waardevolle herinneringen kunnen verzamelen om redeneringen op lange termijn te ondersteunen. Experimenten op LoCoMo en NarrativeQA tonen aan dat CompassMem consistent zowel de retrieval- als de redeneerprestaties verbetert over meerdere basismodellen heen.
Naarmate generatieve modellen alomtegenwoordig worden, is er een dringende behoefte aan gedetailleerde controle over het generatieproces. Toch, terwijl gecontroleerde generatiemethoden – van prompting tot fine-tuning – zich vermenigvuldigen, blijft een fundamentele vraag onbeantwoord: zijn deze modellen überhaupt wel echt controleerbaar? In dit werk bieden we een theoretisch kader om deze vraag formeel te beantwoorden. Door de mens-modelinteractie te formuleren als een controleproces, stellen we een nieuw algoritme voor om de controleerbare verzamelingen van modellen in een dialoogsetting te schatten. Opmerkelijk is dat we formele garanties bieden over de schattingsfout als functie van de sample complexiteit: we leiden probably-approximately correct grenzen af voor schattingen van controleerbare verzamelingen die distributievrij zijn, geen aannames gebruiken behalve begrensdheid van de output, en werken voor elk black-box niet-lineair controlesysteem (d.w.z. elk generatief model). We demonstreren het theoretische kader empirisch voor verschillende taken bij het controleren van dialoogprocessen, zowel voor taalmodel- als tekst-naar-beeldgeneratie. Onze resultaten tonen aan dat modelcontroleerbaarheid verrassend broos is en sterk afhankelijk van de experimentele setting. Dit benadrukt de noodzaak van een rigoureuze controleerbaarheidsanalyse, waarbij de focus verschuift van het simpelweg proberen te controleren naar het eerst begrijpen van de fundamentele grenzen ervan.
Afstemming van kunstmatige intelligentie (KI) omvat het normatieve probleem van het specificeren hoe KI-systemen zouden moeten handelen en het technische probleem van het waarborgen dat KI-systemen aan die specificaties voldoen. Tot op heden heeft KI-afstemming over het algemeen een belangrijke bron van kennis en praktijk voor het aanpakken van deze problemen over het hoofd gezien: het recht. In dit artikel willen we deze leemte opvullen door te onderzoeken hoe juridische regels, principes en methoden kunnen worden ingezet om problemen van afstemming aan te pakken en het ontwerp van KI-systemen die veilig en ethisch opereren te informeren. Dit opkomende vakgebied – juridische afstemming – richt zich op drie onderzoeksrichtingen: (1) het ontwerpen van KI-systemen om te voldoen aan de inhoud van juridische regels die via legitieme instituten en processen zijn ontwikkeld, (2) het aanpassen van methoden uit de juridische interpretatieleer om te sturen hoe KI-systemen redeneren en beslissingen nemen, en (3) het benutten van juridische concepten als blauwdruk voor het structureel aanpakken van uitdagingen rond betrouwbaarheid, vertrouwen en samenwerking in KI-systemen. Deze onderzoeksrichtingen werpen nieuwe conceptuele, empirische en institutionele vragen op, zoals het onderzoeken van het specifieke pakket wetten dat bepaalde KI-systemen moeten volgen, het creëren van evaluaties om hun wettelijke naleving in praktijksituaties te beoordelen, en het ontwikkelen van governancekaders om de implementatie van juridische afstemming in de praktijk te ondersteunen. Het aanpakken van deze vragen vereist expertise uit het recht, de informatica en andere disciplines, wat deze gemeenschappen de kans biedt om samen te werken aan het ontwerpen van KI voor het algemeen belang.
Recente vooruitgang in Reinforcement Learning met Verifieerbare Beloningen (RLVR) voor redeneren met Large Language Models (LLM) wordt belemmerd door een hardnekkige uitdaging: verkenningscollaps. De semantische homogeniteit van willekeurige rollouts zet modellen vaak vast in nauwe, overgeoptimaliseerde gedragspatronen. Hoewel bestaande methoden beleidsentropie benutten om exploratie aan te moedigen, kampen ze met inherente beperkingen. Globale entropieregularisatie is vatbaar voor 'reward hacking', wat tot betekenisloze breedsprakigheid kan leiden, terwijl lokale, token-selectieve updates worstelen met de sterke inductieve bias van voorgetrainde modellen. Om dit aan te pakken, stellen we Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO) voor, een nieuwe aanpak die exploratie verschuift van statistische perturbatie van tokenverdelingen naar topologische vertakking van redeneertrajecten. IIB-LPO activeert latente vertakkingen bij toestanden met hoge entropie om redeneerpaden te diversifiëren en gebruikt het Information Bottleneck-principe zowel als trajectfilter als een zelfbeloningsmechanisme, wat een beknopte en informatieve verzekert. Empirische resultaten op vier wiskundige redeneerbenchmarks tonen aan dat IIB-LPO state-of-the-art prestaties bereikt, en eerdere methoden overtreft met marges tot 5,3% in nauwkeurigheid en 7,4% in diversiteitsmetrieken.
Recente doorbraken in Large Language Models (LLM's) hebben hen naar voren geschoven als een veelbelovend paradigma voor agents, waarbij planning op lange termijn en besluitvorming naar voren komen als kernvaardigheden voor algemene toepassing om zich aan te passen aan diverse scenario's en taken. Real-time strategy (RTS)-spellen vormen een ideale testomgeving voor het evalueren van deze twee capaciteiten, omdat hun inherente gameplay zowel strategische planning op macroniveau als tactische aanpassing en actie-uitvoering op microniveau vereist. Bestaande op RTS-spellen gebaseerde omgevingen kampen ofwel met relatief hoge computationele eisen, ofwel ontbreekt het hen aan ondersteuning voor tekstuele observaties, wat het gebruik van RTS-spellen voor LLM-evaluatie heeft beperkt. Gemotiveerd door dit gegeven presenteren wij TowerMind, een nieuwe omgeving gebaseerd op het tower defense (TD)-subgenre van RTS-spellen. TowerMind behoudt de belangrijkste evaluatiestrekken van RTS-spellen voor het beoordelen van LLM's, terwijl het gekenmerkt wordt door lage computationele eisen en een multimodale observatieruimte, inclusief op pixels gebaseerde, tekstuele en gestructureerde spelstatusrepresentaties. Daarnaast ondersteunt TowerMind de evaluatie van modelhallucinaties en biedt het een hoge mate van aanpasbaarheid. Wij ontwerpen vijf benchmarkniveaus om verschillende veelgebruikte LLM's onder verschillende multimodale invoerinstellingen te evalueren. De resultaten tonen een duidelijke prestatiekloof aan tussen LLM's en menselijke experts, zowel op het gebied van capaciteiten als hallucinaties. De experimenten belichten verder cruciale beperkingen in het gedrag van LLM's, zoals onvoldoende validatie van planning, een gebrek aan multifinaliteit in besluitvorming en inefficiënt actiegebruik. Wij evalueren ook twee klassieke reinforcement learning-algoritmen: Ape-X DQN en PPO. Door een lichtgewicht en multimodaal ontwerp aan te bieden, complementeert TowerMind het bestaande landschap van op RTS-spellen gebaseerde omgevingen en introduceert het een nieuwe benchmark voor het AI-agentveld. De broncode is openbaar beschikbaar op GitHub (https://github.com/tb6147877/TowerMind).
Face Image Quality Assessment (FIQA) is essentieel voor betrouwbare gezichtsherkenningssystemen. Huidige benaderingen benutten voornamelijk alleen eindlaagrepresentaties, terwijl trainvrije methoden meerdere voorwaartse passes of backpropagatie vereisen. Wij stellen ViTNT-FIQA voor, een trainvrije aanpak die de stabiliteit meet van de evolutie van patch-embeddingen over tussenliggende Vision Transformer (ViT) blokken. Wij tonen aan dat hoogwaardige gezichtsafbeeldingen stabiele feature-verfijnings trajecten over de blokken vertonen, terwijl gedegradeerde afbeeldingen onregelmatige transformaties laten zien. Onze methode berekent Euclidische afstanden tussen L2-genormaliseerde patch-embeddingen van opeenvolgende transformerblokken en aggregeert deze tot kwaliteitsscores op afbeeldingsniveau. Wij valideren dit verband empirisch op een synthetische dataset met gecontroleerde degradatieniveaus en gelabelde kwaliteit. In tegenstelling tot bestaande trainvrije benaderingen, vereist ViTNT-FIQA slechts een enkele voorwaartse pass, zonder backpropagatie of aanpassingen aan de architectuur. Door middel van uitgebreide evaluatie op acht benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C) tonen wij aan dat ViTNT-FIQA competitieve prestaties bereikt met state-of-the-art methoden, waarbij reken efficiëntie en directe toepasbaarheid op elk vooraf getraind ViT-gebaseerd gezichtsherkenningsmodel behouden blijven.
Wij stellen een raamwerk voor dat de kosten van redeneren tijdens de inferentie amortiseert door vluchtige kritieken om te zetten in opvraagbare richtlijnen, via een op bestanden gebaseerd geheugensysteem en door een agent aangestuurde tool-aanroepen. Wij evalueren deze methode op de Rubric Feedback Bench, een nieuwe dataset voor rubric-gestuurd leren. Experimenten tonen aan dat onze uitgebreide LLM's snel de prestaties evenaren van pipelines voor verfijning tijdens de testfase, terwijl de inferentiekosten aanzienlijk worden verlaagd.
Real-time multimodale automatische aanvulling is essentieel voor digitale assistenten, chatbots, ontwerpgereedschappen en gezondheidsconsulten, waarbij gebruikersinvoer steunt op gedeelde visuele context. Wij introduceren Multimodale Auto-Completion (MAC), een taak die aankomende karakters in live chats voorspelt met behulp van gedeeltelijk getypte tekst en visuele aanwijzingen. In tegenstelling tot traditionele tekstuele automatische aanvulling (TAC), verankert MAC voorspellingen in multimodale context om gebruikersintentie beter te vatten. Om deze taak mogelijk te maken, passen we MMDialog en ImageChat aan om benchmarkdatasets te creëren. We evalueren toonaangevende vision-language modellen (VLM's) tegen sterke tekstuele baseline-modellen, waarbij we wisselwerkingen in nauwkeurigheid en efficiëntie belichten. We presenteren Router-Suggest, een routerframework dat dynamisch selecteert tussen tekstmodellen en VLM's op basis van dialoogcontext, samen met een lichtgewicht variant voor omgevingen met beperkte middelen. Router-Suggest behaalt een 2,3x tot 10x versnelling ten opzichte van de best presterende VLM. Een gebruikersstudie toont aan dat VLM's significant beter presteren dan tekstmodellen op gebruikers tevredenheid, met name door type-inspanning te besparen en de kwaliteit van aanvullingen in multi-turn gesprekken te verbeteren. Deze bevindingen onderstrepen de noodzaak van multimodale context in automatische aanvullingen, wat leidt tot slimmere, gebruikersbewuste assistenten.
Afrika herbergt meer dan een derde van alle talen ter wereld, maar blijft ondervertegenwoordigd in AI-onderzoek. Wij introduceren Afri-MCQA, de eerste meertalige culturele vraag-en-antwoordbenchmark met 7.500 vraag-antwoordparen in 15 Afrikaanse talen uit 12 landen. De benchmark biedt parallelle Engels-Afrikaanse vraag-antwoordparen in zowel tekst- als spraakmodaliteiten en werd volledig door moedertaalsprekers samengesteld. Evaluatie van grote taalmodellen (LLM's) op Afri-MCQA toont aan dat open-weight-modellen zwak presteren across verschillende culturen, met een nauwelijks boven nul liggende nauwkeurigheid bij open-einde VQA wanneer bevraagd in de moedertaal of via spraak. Om linguïstische competentie te evalueren, hebben we controle-experimenten opgenomen die dit specifieke aspect, los van culturele kennis, moeten beoordelen. We observeren significante prestatiekloof tussen moedertalen en Engels voor zowel tekst als spraak. Deze bevindingen benadrukken de noodzaak van spraakgerichte benaderingen, cultureel verankerde pretraining en cross-linguale culturele transfer. Om inclusievere multimodale AI-ontwikkeling voor Afrikaanse talen te ondersteunen, publiceren we onze Afri-MCQA onder een academische licentie of CC BY-NC 4.0 op HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
Personaconditionering kan worden beschouwd als een gedragsprior voor grote taalmodellen (LLM's) en wordt vaak verondersteld op een monotone wijze expertise te verlenen en de veiligheid te verbeteren. De effecten ervan op klinische besluitvorming met grote gevolgen blijven echter slecht gekarakteriseerd. Wij evalueren systematisch persona-gebaseerde controle in klinische LLM's en onderzoeken hoe professionele rollen (bijvoorbeeld arts op de Spoedeisende Hulp, verpleegkundige) en interactiestijlen (gedurfd versus voorzichtig) het gedrag beïnvloeden bij verschillende modellen en medische taken. We beoordelen de prestaties bij klinische triage- en patiëntveiligheidstaken met behulp van multidimensionale evaluaties die taaknauwkeurigheid, calibratie en veiligheidsgerelateerd risicogedrag vastleggen. We vinden systematische, contextafhankelijke en niet-monotone effecten: medische persona's verbeteren de prestaties bij kritieke zorgtaken, met winsten tot circa +20% in nauwkeurigheid en calibratie, maar verslechteren de prestaties in eerstelijnszorgsettings met vergelijkbare marges. Interactiestijl moduleert risicobereidheid en gevoeligheid, maar dit is sterk modelafhankelijk. Hoewel geaggregeerde LLM-beoordelaarsrangschikkingen medische persona's verkiezen boven niet-medische in veiligheidskritieke gevallen, vonden we dat menselijke clinici matige overeenstemming vertonen over veiligheidsnaleving (gemiddelde Cohen's κ = 0,43), maar een laag vertrouwen aangeven in 95,9% van hun antwoorden over redeneerkwaliteit. Ons werk toont aan dat persona's functioneren als gedragspriors die contextafhankelijke afwegingen introduceren in plaats van garanties voor veiligheid of expertise. De code is beschikbaar op https://github.com/rsinghlab/Persona_Paradox.