Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren DuPO, een dual learning-gebaseerd voorkeursoptimalisatiekader dat annotatievrije feedback genereert via een gegeneraliseerde dualiteit. DuPO adresseert twee belangrijke beperkingen: de afhankelijkheid van Reinforcement Learning with Verifiable Rewards (RLVR) van kostbare labels en de toepasbaarheid die beperkt is tot verifieerbare taken, en de beperking van traditionele dual learning tot strikt duale taakparen (bijvoorbeeld vertaling en terugvertaling). Specifiek deelt DuPO de invoer van een primaire taak op in bekende en onbekende componenten, en construeert vervolgens de duale taak om het onbekende deel te reconstrueren met behulp van de primaire uitvoer en bekende informatie (bijvoorbeeld het omkeren van wiskundige oplossingen om verborgen variabelen te herstellen), waardoor de toepasbaarheid wordt verbreed naar niet-inverteerbare taken. De kwaliteit van deze reconstructie dient als een zelfgesuperviseerde beloning om de primaire taak te optimaliseren, wat synergiseert met het vermogen van LLM's om beide taken te instantiëren via een enkel model. Empirisch behaalt DuPO aanzienlijke verbeteringen over diverse taken: het verhoogt de gemiddelde vertaalkwaliteit met 2.13 COMET over 756 richtingen, verhoogt de nauwkeurigheid van wiskundig redeneren met gemiddeld 6,4 punten op drie uitdagingsbenchmarks, en verbetert de prestaties met 9,3 punten als een inferentie-tijd herrangeringssysteem (waarbij rekencapaciteit wordt ingeruild voor nauwkeurigheid). Deze resultaten positioneren DuPO als een schaalbaar, algemeen en annotatievrij paradigma voor LLM-optimalisatie.
Toekomstvoorspelling is een complexe taak voor LLM-agents, die een hoog niveau van analytisch denken, informatievergaring, contextueel begrip en besluitvorming onder onzekerheid vereist. Agents moeten niet alleen grote hoeveelheden dynamische informatie verzamelen en interpreteren, maar ook diverse gegevensbronnen integreren, onzekerheden afwegen en voorspellingen aanpassen op basis van opkomende trends, net zoals menselijke experts doen in domeinen zoals politiek, economie en financiën. Ondanks het belang ervan bestaat er geen grootschalige benchmark voor het evalueren van agents op toekomstvoorspelling, voornamelijk vanwege de uitdagingen bij het verwerken van real-time updates en het verkrijgen van tijdige, accurate antwoorden. Om dit aan te pakken, introduceren we FutureX, een dynamische en live evaluatiebenchmark die specifiek is ontworpen voor LLM-agents die toekomstvoorspellingstaken uitvoeren. FutureX is de grootste en meest diverse live benchmark voor toekomstvoorspelling, die real-time dagelijkse updates ondersteunt en gegevensvervuiling elimineert via een geautomatiseerde pijplijn voor het verzamelen van vragen en antwoorden. We evalueren 25 LLM/agent-modellen, waaronder modellen met redeneervaardigheden, zoekmogelijkheden en integratie van externe tools, zoals het open-source Deep Research Agent en closed-source Deep Research-modellen. Deze uitgebreide evaluatie beoordeelt de adaptieve redeneervaardigheden en prestaties van agents in dynamische omgevingen. Daarnaast bieden we diepgaande analyses van de faalmodi en prestatievalkuilen van agents in toekomstgerichte taken, waaronder de kwetsbaarheid voor nepwebpagina's en de temporele geldigheid. Ons doel is om een dynamische, vervuilingvrije evaluatiestandaard te creëren die de ontwikkeling van LLM-agents stimuleert die kunnen presteren op het niveau van professionele menselijke analisten in complexe redenering en voorspellend denken.
Het reconstrueren van 3D-objecten naar bewerkbare programma's is cruciaal voor toepassingen zoals reverse engineering en vormbewerking. Bestaande methoden vertrouwen echter vaak op beperkte domeinspecifieke talen (DSL's) en kleinschalige datasets, wat hun vermogen om complexe geometrieën en structuren te modelleren beperkt. Om deze uitdagingen aan te pakken, introduceren we MeshCoder, een nieuw framework dat complexe 3D-objecten vanuit puntenwolken reconstrueert naar bewerkbare Blender Python-scripts. We ontwikkelen een uitgebreide set expressieve Blender Python API's die in staat zijn om ingewikkelde geometrieën te synthetiseren. Door gebruik te maken van deze API's, construeren we een grootschalige gepaarde object-code dataset, waarbij de code voor elk object wordt opgedeeld in afzonderlijke semantische delen. Vervolgens trainen we een multimodaal groot taalmodel (LLM) dat 3D-puntenwolken vertaalt naar uitvoerbare Blender Python-scripts. Onze aanpak behaalt niet alleen superieure prestaties in vorm-naar-code reconstructietaken, maar vergemakkelijkt ook intuïtieve geometrische en topologische bewerkingen door middel van handige codewijzigingen. Bovendien verbetert onze code-gebaseerde representatie de redeneercapaciteiten van LLM's in 3D-vormbegriptaken. Samen vestigen deze bijdragen MeshCoder als een krachtige en flexibele oplossing voor programmatische 3D-vormreconstructie en -begrip.
Grote Taalmodellen (LLM's) hebben potentie getoond voor financiële toepassingen, maar hun geschiktheid voor dit hoogrisicodomein is grotendeels onbewezen vanwege tekortkomingen in bestaande benchmarks. Bestaande benchmarks vertrouwen uitsluitend op evaluatie op scoringsniveau, waarbij de prestaties worden samengevat met een enkele score die een genuanceerd begrip van wat modellen werkelijk weten en hun precieze beperkingen verhult. Ze baseren zich ook op datasets die slechts een smalle subset van financiële concepten bestrijken, terwijl andere essentiële aspecten voor real-world toepassingen over het hoofd worden gezien. Om deze lacunes aan te pakken, introduceren we FinCDM, het eerste cognitieve diagnose-evaluatiekader dat is toegesneden op financiële LLM's, waardoor de evaluatie van LLM's op kennis- en vaardigheidsniveau mogelijk wordt. Hiermee kan worden vastgesteld welke financiële vaardigheden en kennis ze bezitten of missen op basis van hun antwoordpatronen bij taken die zijn gelabeld met vaardigheden, in plaats van een enkele geaggregeerde score. We construeren CPA-QKA, de eerste cognitief geïnformeerde financiële evaluatiedataset afgeleid van het Certified Public Accountant (CPA)-examen, met een uitgebreide dekking van real-world boekhoud- en financiële vaardigheden. Deze is rigoureus geannoteerd door domeinexperts, die vragen opstellen, valideren en annoteren met een hoge interannotatorovereenstemming en fijnmazige kennislabels. Onze uitgebreide experimenten met 30 propriëtaire, open-source en domeinspecifieke LLM's tonen aan dat FinCDM verborgen kennislacunes onthult, onderbelichte gebieden zoals belasting- en regelgevingsredenering identificeert die door traditionele benchmarks over het hoofd worden gezien, en gedragsclusters onder modellen blootlegt. FinCDM introduceert een nieuw paradigma voor de evaluatie van financiële LLM's door interpreteerbare, vaardigheidsbewuste diagnose mogelijk te maken die betrouwbaardere en gerichtere modelontwikkeling ondersteunt. Alle datasets en evaluatiescripts zullen openbaar worden vrijgegeven om verder onderzoek te ondersteunen.
Het Model Context Protocol is naar voren gekomen als een transformerende standaard voor het verbinden van grote taalmodellen met externe gegevensbronnen en tools, en wordt snel geadopteerd door grote AI-aanbieders en ontwikkelingsplatforms. Bestaande benchmarks zijn echter te simplistisch en slagen er niet in om echte toepassingsuitdagingen vast te leggen, zoals langetermijnredenering en grote, onbekende toolruimtes. Om dit kritieke gat te dichten, introduceren we MCP-Universe, de eerste uitgebreide benchmark die specifiek is ontworpen om LLM's te evalueren in realistische en moeilijke taken door interactie met echte MCP-servers. Onze benchmark omvat 6 kerngebieden die 11 verschillende MCP-servers beslaan: Locatienavigatie, Repositorybeheer, Financiële Analyse, 3D-ontwerp, Browserautomatisering en Webzoeken. Om een rigoureuze evaluatie te garanderen, implementeren we uitvoeringsgebaseerde evaluatoren, waaronder formaatevaluatoren voor naleving van agentformaten, statische evaluatoren voor tijdsonafhankelijke inhoudsvergelijking en dynamische evaluatoren die automatisch real-time grondwaarheden ophalen voor tijdgevoelige taken. Door uitgebreide evaluatie van toonaangevende LLM's, ontdekken we dat zelfs SOTA-modellen zoals GPT-5 (43,72%), Grok-4 (33,33%) en Claude-4.0-Sonnet (29,44%) aanzienlijke prestatiebeperkingen vertonen. Daarnaast vormt onze benchmark een aanzienlijke langetermijncontextuitdaging voor LLM-agents, aangezien het aantal invoertokens snel toeneemt met het aantal interactiestappen. Bovendien introduceert het een onbekende-tools-uitdaging, omdat LLM-agents vaak niet bekend zijn met het precieze gebruik van de MCP-servers. Opmerkelijk is dat enterprise-level agents zoals Cursor geen betere prestaties kunnen behalen dan standaard ReAct-frameworks. Naast evaluatie openbaren we ons uitbreidbare evaluatieframework met UI-ondersteuning, waardoor onderzoekers en praktijkmensen naadloos nieuwe agents en MCP-servers kunnen integreren en innovatie kunnen bevorderen in het snel evoluerende MCP-ecosysteem.
We introduceren Tinker, een veelzijdig raamwerk voor hoogwaardige 3D-bewerkingen dat werkt in zowel one-shot als few-shot regimes zonder enige per-scene finetuning. In tegenstelling tot eerdere technieken die uitgebreide per-scene optimalisatie vereisen om multi-view consistentie te garanderen of om tientallen consistente bewerkte invoerbeelden te produceren, levert Tinker robuuste, multi-view consistente bewerkingen vanaf slechts één of twee afbeeldingen. Deze mogelijkheid komt voort uit het hergebruik van vooraf getrainde diffusiemodellen, waardoor hun latente 3D-bewustzijn wordt ontsloten. Om onderzoek in dit domein te stimuleren, hebben we de eerste grootschalige multi-view bewerkingsdataset en datapijplijn samengesteld, die diverse scènes en stijlen omvat. Op basis van deze dataset ontwikkelen we ons raamwerk dat in staat is om multi-view consistente bewerkte beelden te genereren zonder per-scene training, en dat bestaat uit twee nieuwe componenten: (1) Refererende multi-view editor: Maakt precieze, referentiegestuurde bewerkingen mogelijk die coherent blijven over alle gezichtspunten. (2) Any-view-to-video synthesizer: Benut ruimtelijk-temporele prioriteiten van videodiffusie om hoogwaardige scènecompletering en novel-view generatie uit te voeren, zelfs vanuit schaarse invoer. Door uitgebreide experimenten reduceert Tinker de drempel voor generaliseerbare 3D-contentcreatie aanzienlijk en behaalt het state-of-the-art prestaties op het gebied van bewerkingen, novel-view synthese en renderingverbetering. Wij geloven dat Tinker een belangrijke stap vertegenwoordigt naar echt schaalbare, zero-shot 3D-bewerkingen. Projectwebpagina: https://aim-uofa.github.io/Tinker
We introduceren Nemotron-Nano-9B-v2, een hybride Mamba-Transformer taalmodel ontworpen om de doorvoersnelheid voor redeneertaken te verhogen terwijl het state-of-the-art nauwkeurigheid bereikt in vergelijking met modellen van vergelijkbare grootte. Nemotron-Nano-9B-v2 bouwt voort op de Nemotron-H architectuur, waarin het merendeel van de self-attention lagen in de gebruikelijke Transformer architectuur wordt vervangen door Mamba-2 lagen, om een verbeterde inferentiesnelheid te bereiken bij het genereren van de lange denksporen die nodig zijn voor redeneren. We creëren Nemotron-Nano-9B-v2 door eerst een model met 12 miljard parameters (Nemotron-Nano-12B-v2-Base) voor te trainen op 20 biljoen tokens met behulp van een FP8 trainingsrecept. Na het aligneren van Nemotron-Nano-12B-v2-Base, passen we de Minitron strategie toe om het model te comprimeren en te destilleren met als doel inferentie mogelijk te maken op tot 128k tokens op een enkele NVIDIA A10G GPU (22GiB geheugen, bfloat16 precisie). In vergelijking met bestaande modellen van vergelijkbare grootte (bijv. Qwen3-8B), laten we zien dat Nemotron-Nano-9B-v2 vergelijkbare of betere nauwkeurigheid bereikt op redeneerbenchmarks terwijl het tot 6x hogere inferentiedoorvoersnelheid bereikt in redeneerinstellingen zoals 8k invoer- en 16k uitvoertokens. We maken Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base, en Nemotron-Nano-9B-v2-Base checkpoints beschikbaar, samen met het merendeel van onze voor- en na-trainingsdatasets op Hugging Face.
Kunstmatige intelligentie (AI) hervormt wetenschappelijke ontdekkingen en evolueert van gespecialiseerde computationele tools naar autonome onderzoekspartners. We positioneren Agentic Science als een cruciaal stadium binnen het bredere AI for Science-paradigma, waarbij AI-systemen evolueren van gedeeltelijke ondersteuning naar volledige wetenschappelijke autonomie. Mogelijk gemaakt door grote taalmodelen (LLM's), multimodale systemen en geïntegreerde onderzoeksplatforms, toont agentic AI capaciteiten in hypothesegeneratie, experimenteel ontwerp, uitvoering, analyse en iteratieve verfijning -- gedragingen die ooit als uniek menselijk werden beschouwd. Dit overzicht biedt een domeingerichte review van autonome wetenschappelijke ontdekkingen in de levenswetenschappen, scheikunde, materiaalkunde en natuurkunde. We verenigen drie voorheen gefragmenteerde perspectieven -- procesgericht, autonomiegericht en mechanismegericht -- via een uitgebreid raamwerk dat fundamentele capaciteiten, kernprocessen en domeinspecifieke realisaties verbindt. Op basis van dit raamwerk (i) traceren we de evolutie van AI for Science, (ii) identificeren we vijf kerncapaciteiten die wetenschappelijke autonomie ondersteunen, (iii) modelleren we ontdekking als een dynamische vierfasen-workflow, (iv) bespreken we toepassingen in de bovengenoemde domeinen, en (v) synthetiseren we belangrijke uitdagingen en toekomstige kansen. Dit werk biedt een domeingerichte synthese van autonome wetenschappelijke ontdekkingen en positioneert Agentic Science als een gestructureerd paradigma voor het bevorderen van AI-gedreven onderzoek.
Recente ontwikkelingen in diffusie grote taalmodellen (dLLMs) hebben een veelbelovend alternatief geïntroduceerd voor autoregressieve (AR) LLMs bij taken voor natuurlijke taalgeneratie, waarbij gebruik wordt gemaakt van volledige aandacht en decodeerstrategieën gebaseerd op ruisvermindering. De implementatie van deze modellen op edge-apparaten blijft echter een uitdaging vanwege hun enorme parameterschaal en hoge resourcebehoeften. Hoewel post-training kwantisatie (PTQ) een veelgebruikte techniek is geworden voor het comprimeren van AR LLMs, is de toepasbaarheid ervan op dLLMs grotendeels onontgonnen. In dit werk presenteren we de eerste systematische studie naar het kwantiseren van diffusiegebaseerde taalmodellen. We beginnen met het identificeren van de aanwezigheid van activatie-uitbijters, gekenmerkt door abnormaal grote activatiewaarden die het dynamische bereik domineren. Deze uitbijters vormen een belangrijke uitdaging voor kwantisatie met een laag aantal bits, omdat het moeilijk is om de precisie voor de meerderheid van de waarden te behouden. Belangrijker nog, we implementeren state-of-the-art PTQ-methoden en voeren een uitgebreide evaluatie uit over meerdere taaktypen en modelvarianten. Onze analyse is gestructureerd langs vier belangrijke dimensies: bitbreedte, kwantisatiemethode, taakcategorie en modeltype. Door deze multi-perspectieve evaluatie bieden we praktische inzichten in het kwantisatiegedrag van dLLMs onder verschillende configuraties. We hopen dat onze bevindingen een basis bieden voor toekomstig onderzoek naar efficiënte implementatie van dLLMs. Alle codes en experimentele opstellingen zullen worden vrijgegeven ter ondersteuning van de gemeenschap.
We introduceren RynnEC, een multimodale grote taalmodellen voor video, ontworpen voor belichaamde cognitie. Gebouwd op een algemeen visie-taal basis model, integreert RynnEC een regio-encoder en een masker-decoder, waardoor flexibele regio-niveau video-interactie mogelijk wordt. Ondanks zijn compacte architectuur behaalt RynnEC state-of-the-art prestaties in het begrijpen van objecteigenschappen, objectsegmentatie en ruimtelijk redeneren. Conceptueel biedt het een regio-centrisch videoparadigma voor de hersenen van belichaamde agenten, wat een fijnmazige waarneming van de fysieke wereld mogelijk maakt en preciezere interacties faciliteert. Om het gebrek aan geannoteerde 3D-datasets te verlichten, stellen we een egocentrische video-gebaseerde pijplijn voor voor het genereren van belichaamde cognitiegegevens. Bovendien introduceren we RynnEC-Bench, een regio-gecentreerde benchmark voor het evalueren van belichaamde cognitieve vaardigheden. We verwachten dat RynnEC de ontwikkeling van algemene cognitieve kernen voor belichaamde agenten zal bevorderen en generalisatie over diverse belichaamde taken zal vergemakkelijken. De code, modelcheckpoints en benchmark zijn beschikbaar op: https://github.com/alibaba-damo-academy/RynnEC
Kunstmatige intelligentiesystemen transformeren wetenschappelijke ontdekkingen door specifieke onderzoeks taken te versnellen, van eiwitstructuurvoorspelling tot materiaalontwerp, maar blijven beperkt tot smalle domeinen die aanzienlijk menselijk toezicht vereisen. De exponentiële groei van wetenschappelijke literatuur en toenemende domeinspecialisatie beperken het vermogen van onderzoekers om kennis over disciplines heen te synthetiseren en unificerende theorieën te ontwikkelen, wat de verkenning van meer algemene AI-systemen voor wetenschap motiveert. Hier tonen we aan dat een domein-agnostisch, agentisch AI-systeem zelfstandig de wetenschappelijke workflow kan navigeren - van hypothesegeneratie via dataverzameling tot manuscriptvoorbereiding. Het systeem ontwierp en voerde autonoom drie psychologische studies uit over visueel werkgeheugen, mentale rotatie en levendigheid van verbeelding, voerde een nieuwe online dataverzameling uit met 288 deelnemers, ontwikkelde analysepijplijnen via coderingssessies van 8 uur of langer, en produceerde voltooide manuscripten. De resultaten demonstreren de capaciteit van AI-wetenschappelijke ontdekkingspijplijnen om niet-triviaal onderzoek uit te voeren met theoretische redenering en methodologische strengheid vergelijkbaar met ervaren onderzoekers, hoewel met beperkingen in conceptuele nuance en theoretische interpretatie. Dit is een stap naar belichaamde AI die hypothesen kan testen via experimenten in de echte wereld, waardoor ontdekkingen worden versneld door autonoom regio's van de wetenschappelijke ruimte te verkennen die menselijke cognitieve en resourcebeperkingen anders onontgonnen zouden laten. Het roept belangrijke vragen op over de aard van wetenschappelijk begrip en de toekenning van wetenschappelijke erkenning.
Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) zijn twee prominente post-trainingsparadigma's voor het verfijnen van de capaciteiten en het afstemmen van het gedrag van Large Language Models (LLMs). Bestaande benaderingen die SFT en RL integreren, lopen vaak het risico om gevestigde modelpatronen te verstoren en overfitting aan expertdata te veroorzaken. Om dit aan te pakken, presenteren we een nieuw onderzoek naar de verenigde visie van SFT en RL door een off-policy versus on-policy lens. We stellen CHORD voor, een framework voor de Controleerbare Harmonisatie van On- en Off-Policy Reinforcement Learning via Dynamische Weging, dat SFT niet als een aparte fase beschouwt, maar als een dynamisch gewogen hulpdoelstelling binnen het on-policy RL-proces. Op basis van een analyse van de invloed van off-policy expertdata op zowel holistisch als gedetailleerd niveau, incorporeren we een dual-control mechanisme in CHORD. Specifiek gebruikt het framework eerst een globale coëfficiënt om de overgang van off-policy imitatie naar on-policy exploratie holistisch te begeleiden, en past vervolgens een token-gewijze wegingstoepassing toe die gedetailleerd leren van experttokens mogelijk maakt, wat on-policy exploratie behoudt en verstoring door off-policy data vermindert. We voeren uitgebreide experimenten uit op veelgebruikte benchmarks, wat empirisch bewijs levert dat CHORD een stabiel en efficiënt leerproces bereikt. Door off-policy expertdata effectief te harmoniseren met on-policy exploratie, toont CHORD significante verbeteringen ten opzichte van baseline-methoden. We maken de implementatie beschikbaar op https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord om verder onderzoek te inspireren.
De kwadratische complexiteit van self-attention beperkt de toepasbaarheid en schaalbaarheid ervan op grote ongestructureerde meshes. We introduceren Fast Low-rank Attention Routing Engine (FLARE), een self-attentionmechanisme met lineaire complexiteit dat aandacht routeert door vaste-lengte latente sequenties. Elk aandachtshoofd voert globale communicatie uit tussen N tokens door de invoerreeks te projecteren op een vaste-lengte latente reeks van M ll N tokens met behulp van leerbare query-tokens. Door aandacht te routeren via een bottleneck-reeks, leert FLARE een low-rank vorm van aandacht die kan worden toegepast tegen O(NM)-kosten. FLARE schaalt niet alleen naar ongekende probleemgroottes, maar levert ook superieure nauwkeurigheid op vergeleken met state-of-the-art neurale PDE-surrogaten in diverse benchmarks. We brengen ook een nieuwe dataset voor additieve productie uit om verder onderzoek te stimuleren. Onze code is beschikbaar op https://github.com/vpuri3/FLARE.py.
Vision Language Models (VLMs) tonen opmerkelijke prestaties op Engelse multimodale taken, maar hun prestaties op talen met beperkte bronnen en authentiek multimodale educatieve inhoud blijven grotendeels onontgonnen. In dit werk testen we hoe VLMs presteren op Vietnamese educatieve toetsen, waarbij we onderzoeken of VLMs die voornamelijk op Engelse data zijn getraind, real-world cross-linguale multimodale redenering aankunnen. Ons werk presenteert de eerste uitgebreide evaluatie van VLM-capaciteiten op multimodale Vietnamese examens door ViExam voor te stellen, een benchmark met 2.548 multimodale vragen. We constateren dat state-of-the-art VLMs slechts 57,74% halen, terwijl open-source modellen een gemiddelde nauwkeurigheid van 27,70% behalen over 7 academische domeinen, waaronder Wiskunde, Natuurkunde, Scheikunde, Biologie, Aardrijkskunde, Rijbewijstest en IQ-test. De meeste VLMs presteren slechter dan de gemiddelde menselijke deelnemer (66,54%), waarbij alleen de denkende VLM o3 (74,07%) het gemiddelde menselijke prestatieniveau overtreft, maar nog steeds aanzienlijk achterblijft bij de beste menselijke prestaties (99,60%). Cross-linguale prompting met Engelse instructies terwijl de Vietnamese inhoud behouden blijft, verbetert de prestaties niet en verlaagt de nauwkeurigheid met 1 procentpunt voor state-of-the-art VLMs. Menselijke samenwerking in de loop kan de VLM-prestaties gedeeltelijk verbeteren met 5 procentpunten. Code en data zijn beschikbaar op: https://vi-exam.github.io.
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in redeneertaken dankzij methoden zoals keten-van-gedachten (CoT) redeneren. Echter, schieten ze vaak tekort in taken die precieze berekeningen vereisen. Tool-Geïntegreerd Redeneren (TIR) is naar voren gekomen als een oplossing door externe tools te integreren in het redeneerproces. Desalniettemin is de generalisatie van TIR in het verbeteren van het redeneervermogen van LLM nog steeds onduidelijk. Bovendien moet nog worden bestudeerd of TIR het redeneergedrag van het model heeft verbeterd en het model heeft geholpen om te denken. Wij introduceren ReasonZoo, een uitgebreide benchmark die negen diverse redeneercategorieën omvat, om de effectiviteit van TIR in verschillende domeinen te evalueren. Daarnaast stellen we twee nieuwe metrieken voor, Performance-Aware Cost (PAC) en Area Under the Performance-Cost Curve (AUC-PCC), om de redeneerefficiëntie te beoordelen. Onze empirische evaluatie toont aan dat TIR-geactiveerde modellen consistent beter presteren dan hun niet-TIR tegenhangers in zowel wiskundige als niet-wiskundige taken. Bovendien verbetert TIR de redeneerefficiëntie, zoals blijkt uit verbeterde PAC en AUC-PCC, wat wijst op minder overdenken en meer gestroomlijnd redeneren. Deze bevindingen onderstrepen de domein-generieke voordelen van TIR en het potentieel om de mogelijkheden van LLM in complexe redeneertaken te bevorderen.
Schaalvariatie is een fundamentele uitdaging in computervisie. Objecten van dezelfde klasse kunnen verschillende afmetingen hebben, en hun waargenomen grootte wordt verder beïnvloed door de afstand tot de camera. Deze variaties zijn lokaal aan de objecten, wat betekent dat verschillende objectgroottes binnen dezelfde afbeelding op verschillende manieren kunnen veranderen. Om schaalvariaties effectief te hanteren, introduceren we een deep equilibrium canonicalizer (DEC) om de lokale schaalequivariantie van een model te verbeteren. DEC kan eenvoudig worden geïntegreerd in bestaande netwerkarchitecturen en kan worden aangepast aan een vooraf getraind model. Opmerkelijk is dat we aantonen dat DEC op de competitieve ImageNet-benchmark zowel de modelprestaties als de lokale schaalconsistentie verbetert bij vier populaire vooraf getrainde deep-nets, zoals ViT, DeiT, Swin en BEiT. Onze code is beschikbaar op https://github.com/ashiq24/local-scale-equivariance.
Recente vooruitgang in redenering-versterkte Large Language Models (LLMs) heeft opmerkelijke capaciteiten getoond in complexe redeneertaken. Het mechanisme dat ten grondslag ligt aan hun gebruik van verschillende menselijke redeneervaardigheden blijft echter slecht onderzocht, vooral voor meertalig gezond verstand redeneren dat alledaagse kennis omvat over verschillende talen en culturen. Om deze kloof te dichten, stellen we een Meertalige en Schaalbare Benchmark voor Vaardigheidsgebaseerd Gezond Verstand Redeneren (mSCoRe) voor. Onze benchmark omvat drie belangrijke componenten die zijn ontworpen om de redeneercapaciteiten van LLM's systematisch te evalueren, waaronder: (1) een nieuwe taxonomie van redeneervaardigheden die een fijnmazige analyse van de redeneerprocessen van modellen mogelijk maakt, (2) een robuuste datasynthesepijplijn die specifiek is afgestemd op de evaluatie van gezond verstand redeneren, en (3) een complexiteitsschalingskader dat de taakmoeilijkheid dynamisch laat meeschalen met toekomstige verbeteringen in de capaciteiten van LLM's. Uitgebreide experimenten op acht state-of-the-art LLM's van verschillende grootten en trainingsbenaderingen tonen aan dat mSCoRe aanzienlijk uitdagend blijft voor huidige modellen, vooral op hogere complexiteitsniveaus. Onze resultaten onthullen de beperkingen van dergelijke redenering-versterkte modellen wanneer ze worden geconfronteerd met genuanceerd meertalig algemeen en cultureel gezond verstand. We bieden verder een gedetailleerde analyse van de redeneerprocessen van de modellen, wat toekomstige richtingen suggereert voor het verbeteren van meertalige gezond verstand redeneercapaciteiten.
Dit artikel presenteert een nieuwe benadering voor het berekenen van de Levenshtein (edit) afstand binnen het raamwerk van Fully Homomorphic Encryption (FHE), met specifieke aandacht voor derdegeneratieschema's zoals TFHE. Editafstandsberekeningen zijn essentieel in toepassingen binnen financiën en genomica, zoals DNA-sequentie-uitlijning. We introduceren een geoptimaliseerd algoritme, genaamd Leuvenshtein, dat de kosten van editafstandsberekeningen aanzienlijk reduceert. Dit algoritme vermindert specifiek het aantal benodigde programmeerbare bootstraps (PBS) per cel van de berekening, van ongeveer 94 operaties -- vereist door het conventionele Wagner-Fisher algoritme -- naar slechts 1. Daarnaast stellen we een efficiënte methode voor voor het uitvoeren van gelijkheidscontroles op karakters, waarbij ASCII-karaktervergelijkingen worden teruggebracht tot slechts 2 PBS-operaties. Tot slot onderzoeken we de mogelijkheid voor verdere prestatieverbeteringen door gebruik te maken van preprocessing wanneer een van de invoerstrings niet-versleuteld is. Onze Leuvenshtein bereikt tot 278 keer snellere prestaties vergeleken met de best beschikbare TFHE-implementatie en tot 39 keer sneller dan een geoptimaliseerde implementatie van het Wagner-Fisher algoritme. Bovendien, wanneer offline preprocessing mogelijk is vanwege de aanwezigheid van een niet-versleutelde invoer aan de serverzijde, kan een extra snelheidsverbetering van 3 keer worden bereikt.
Multi-modale aanbevelingssystemen richten zich op het benutten van rijke modale informatie (zoals afbeeldingen en tekstuele beschrijvingen) van items om de aanbevelingsprestaties te verbeteren. De huidige methoden hebben opmerkelijke successen behaald dankzij de krachtige structuurmodelleringscapaciteit van grafische neurale netwerken. Deze methoden worden echter vaak belemmerd door schaarse data in realistische scenario's. Hoewel contrastief leren en homografie (d.w.z. homogene grafieken) worden ingezet om de uitdaging van dataschaarste aan te pakken, lijden bestaande methoden nog steeds aan twee belangrijke beperkingen: 1) Eenvoudige contrasten van multi-modale kenmerken produceren geen effectieve representaties, wat resulteert in ruis in modaal-gedeelde kenmerken en verlies van waardevolle informatie in modaal-unieke kenmerken; 2) Het gebrek aan exploratie van de homografische relaties tussen gebruikersinteresses en item-co-voorkomens leidt tot onvolledige ontginning van de interactie tussen gebruikers en items. Om deze beperkingen aan te pakken, stellen we een nieuw framework voor voor het VERfijnen van multi-modAal contrastief leren en homografie-relaties (REARM). Specifiek vullen we multi-modale contrastieve leren aan door meta-netwerk en orthogonale beperkingsstrategieën te gebruiken, die ruis in modaal-gedeelde kenmerken filteren en aanbevelingsrelevante informatie in modaal-unieke kenmerken behouden. Om homogene relaties effectief te ontginnen, integreren we een nieuw geconstrueerde gebruikersinteresse-grafiek en een item-co-voorkomensgrafiek met de bestaande gebruikers-co-voorkomens- en itemsemantische grafieken voor grafisch leren. De uitgebreide experimenten op drie real-world datasets demonstreren de superioriteit van REARM ten opzichte van verschillende state-of-the-art baselines. Onze visualisatie toont verder een verbetering die REARM heeft gemaakt in het onderscheiden van modaal-gedeelde en modaal-unieke kenmerken. Code is beschikbaar op https://github.com/MrShouxingMa/REARM{hier}.