Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De toenemende adoptie van grote taalmodellen (LLM's) in softwareontwikkeling vereist een grondige beoordeling van de beveiliging van de gegenereerde code. Bestaande benchmarks schieten echter tekort, omdat ze zich richten op geïsoleerde codefragmenten, onstabiele evaluatiemethoden gebruiken die niet reproduceerbaar zijn, en geen verband leggen tussen de kwaliteit van de invoercontext en de beveiliging van de uitvoer. Om deze tekortkomingen aan te pakken, introduceren we A.S.E (AI Code Generation Security Evaluation), een benchmark voor het genereren van veilige code op repository-niveau. A.S.E construeert taken op basis van repositories uit de praktijk met gedocumenteerde CVE's, waarbij de volledige repositorycontext, zoals buildsystemen en afhankelijkheden tussen bestanden, behouden blijft. Het reproduceerbare, gecontaineriseerde evaluatieraamwerk maakt gebruik van door experts gedefinieerde regels om stabiele, controleerbare beoordelingen te geven van beveiliging, bouwkwaliteit en generatiestabiliteit. Onze evaluatie van toonaangevende LLM's op A.S.E onthult drie belangrijke bevindingen: (1) Claude-3.7-Sonnet behaalt de beste algehele prestaties. (2) Het beveiligingsgat tussen propriëtaire en open-source modellen is klein; Qwen3-235B-A22B-Instruct behaalt de hoogste beveiligingsscore. (3) Bondige, "sneldenkende" decodeerstrategieën presteren consistent beter dan complexe, "langzaamdenkende" redeneringen voor het patchen van beveiligingslekken.
Wetenschappelijke Large Language Models (Sci-LLMs) transformeren de manier waarop kennis wordt gerepresenteerd, geïntegreerd en toegepast in wetenschappelijk onderzoek, maar hun vooruitgang wordt gevormd door de complexe aard van wetenschappelijke data. Dit overzicht biedt een uitgebreide, data-centrische synthese die de ontwikkeling van Sci-LLMs herkadert als een co-evolutie tussen modellen en hun onderliggende datasubstraat. We formuleren een uniforme taxonomie van wetenschappelijke data en een hiërarchisch model van wetenschappelijke kennis, waarbij we de nadruk leggen op de multimodale, cross-schaal- en domeinspecifieke uitdagingen die wetenschappelijke corpora onderscheiden van algemene datasets voor natuurlijke taalverwerking. We bespreken systematisch recente Sci-LLMs, van algemene basis modellen tot gespecialiseerde modellen in diverse wetenschappelijke disciplines, naast een uitgebreide analyse van meer dan 270 pre-/post-trainingsdatasets, waaruit blijkt waarom Sci-LLMs specifieke eisen stellen — heterogene, multi-schaal, onzekerheidsbeladen corpora die representaties vereisen die domeininvariantie behouden en cross-modale redenering mogelijk maken. Bij evaluatie onderzoeken we meer dan 190 benchmarkdatasets en volgen we een verschuiving van statische examens naar proces- en ontdekkinggerichte beoordelingen met geavanceerde evaluatieprotocollen. Deze data-centrische analyses belichten hardnekkige problemen in de ontwikkeling van wetenschappelijke data en bespreken opkomende oplossingen waarbij semi-geautomatiseerde annotatiepijplijnen en expertvalidatie betrokken zijn. Tot slot schetsen we een paradigmaverschuiving naar gesloten-lus systemen waarin autonome agents gebaseerd op Sci-LLMs actief experimenteren, valideren en bijdragen aan een levende, evoluerende kennisbank. Collectief biedt dit werk een routekaart voor het bouwen van betrouwbare, voortdurend evoluerende kunstmatige intelligentie (AI) systemen die functioneren als een echte partner in het versnellen van wetenschappelijke ontdekkingen.
Multimodale Large Language Models (MLLMs) uitgerust met stap-voor-stap denkvaardigheden hebben opmerkelijke prestaties getoond bij complexe redeneerproblemen. Dit denkproces is echter overbodig voor eenvoudige problemen die zonder complex redeneren opgelost kunnen worden. Om deze inefficiëntie aan te pakken, stellen we R-4B voor, een auto-denkende MLLM, die adaptief kan beslissen wanneer er gedacht moet worden op basis van de complexiteit van het probleem. De centrale gedachte achter R-4B is om het model zowel denk- als niet-denkvaardigheden te geven door middel van bi-mode annealing, en Bi-mode Policy Optimization (BPO) toe te passen om de nauwkeurigheid van het model te verbeteren in het bepalen of het denkproces geactiveerd moet worden. Specifiek trainen we eerst het model op een zorgvuldig samengestelde dataset die verschillende onderwerpen beslaat en zowel voorbeelden uit de denk- als niet-denkmodus bevat. Vervolgens ondergaat het een tweede trainingsfase onder een verbeterd GRPO-framework, waarbij het beleidsmodel gedwongen wordt om voor elke invoervraag reacties uit beide modi te genereren. Experimentele resultaten tonen aan dat R-4B state-of-the-art prestaties behaalt op 25 uitdagende benchmarks. Het overtreft Qwen2.5-VL-7B in de meeste taken en bereikt prestaties die vergelijkbaar zijn met grotere modellen zoals Kimi-VL-A3B-Thinking-2506 (16B) op redeneerintensieve benchmarks, tegen lagere rekenkosten.
Het menselijk vermogen om naadloos multimodale redenering en fysieke interactie in de open wereld uit te voeren, is een kern doelstelling voor algemene, belichaamde intelligente systemen. Recente vision-language-action (VLA) modellen, die getraind zijn op grootschalige robot- en visueel-tekstgegevens, hebben aanzienlijke vooruitgang geboekt in algemene robotbesturing. Desondanks slagen ze er nog steeds niet in om menselijke flexibiliteit te bereiken in onderling verweven redenering en interactie. In dit werk introduceren we EO-Robotics, bestaande uit het EO-1 model en de EO-Data1.5M dataset. EO-1 is een verenigd belichaamd basis model dat superieure prestaties levert in multimodale belichaamde redenering en robotbesturing door middel van onderling verweven vision-text-action pre-training. De ontwikkeling van EO-1 is gebaseerd op twee belangrijke pijlers: (i) een verenigde architectuur die multimodale invoer zonder onderscheid verwerkt (afbeelding, tekst, video en actie), en (ii) een enorme, hoogwaardige multimodale belichaamde redeneringsdataset, EO-Data1.5M, die meer dan 1,5 miljoen samples bevat met nadruk op onderling verweven vision-text-action begrip. EO-1 wordt getraind door synergieën tussen auto-regressieve decodering en flow matching denoising op EO-Data1.5M, waardoor naadloze robotactiegeneratie en multimodale belichaamde redenering mogelijk worden. Uitgebreide experimenten tonen de effectiviteit aan van onderling verweven vision-text-action leren voor open-wereldbegrip en generalisatie, gevalideerd door een verscheidenheid aan langetermijn, behendige manipulatietaken over meerdere belichamingen. Dit artikel beschrijft in detail de architectuur van EO-1, de dataconstructiestrategie van EO-Data1.5M en de trainingsmethodologie, en biedt waardevolle inzichten voor de ontwikkeling van geavanceerde belichaamde basis modellen.
Schaalwetten hebben het succes en de belofte van modellen die getraind zijn op grote hoeveelheden data gevalideerd voor creatieve generatie in tekst-, beeld- en videodomeinen. Dit paradigma wordt echter geconfronteerd met een tekort aan data in het 3D-domein, aangezien er veel minder van beschikbaar is op het internet in vergelijking met de eerder genoemde modaliteiten. Gelukkig bestaan er voldoende video's die inherente commonsense-priors bevatten, wat een alternatief superviserend signaal biedt om het generalisatieprobleem veroorzaakt door beperkte native 3D-data te verlichten. Enerzijds bieden video's die meerdere aanzichten van een object of scène vastleggen een ruimtelijke consistentieprior voor 3D-generatie. Anderzijds zorgt de rijke semantische informatie in de video's ervoor dat de gegenereerde inhoud trouwer is aan de tekstprompts en semantisch plausibel. Dit artikel onderzoekt hoe de videomodaliteit kan worden toegepast in 3D-assetgeneratie, van datasets tot modellen. We introduceren Droplet3D-4M, de eerste grootschalige videodataset met annotaties op meervoudig aanzichts niveau, en trainen Droplet3D, een generatief model dat zowel beeld- als dichte tekstinvoer ondersteunt. Uitgebreide experimenten valideren de effectiviteit van onze aanpak, waarbij wordt aangetoond dat deze in staat is om ruimtelijk consistente en semantisch plausibele inhoud te produceren. Bovendien, in tegenstelling tot de heersende 3D-oplossingen, toont onze aanpak het potentieel voor uitbreiding naar scene-level toepassingen. Dit geeft aan dat de commonsense-priors uit de video's 3D-creatie aanzienlijk vergemakkelijken. We hebben alle bronnen openbaar gemaakt, inclusief de dataset, code, technisch framework en modelgewichten: https://dropletx.github.io/.
Grote taalmodellen (LLMs) blinken uit in complexe redeneertaken zoals wiskunde en programmeren, maar hebben vaak moeite met eenvoudige interactieve taken die jonge kinderen moeiteloos uitvoeren. Deze discrepantie benadrukt een kritisch verschil tussen declaratieve kennis (weten over iets) en procedurele kennis (weten hoe iets te doen). Hoewel traditionele reinforcement learning (RL)-agenten procedurele kennis kunnen verwerven door interactie met de omgeving, functioneren ze vaak als black boxes en hebben ze aanzienlijke trainingsdata nodig. Daarentegen beschikken LLMs over uitgebreide wereldkennis en redeneervermogens, maar zijn ze niet in staat om deze statische kennis effectief om te zetten in dynamische besluitvorming in interactieve situaties. Om deze uitdaging aan te pakken, stellen we Think in Games (TiG) voor, een nieuw framework dat LLMs in staat stelt om procedureel begrip te ontwikkelen door directe interactie met spelomgevingen, terwijl hun inherente redeneer- en uitlegvermogens behouden blijven. Specifiek herformuleert TiG RL-gebaseerde besluitvorming als een taalmodelleertaak: LLMs genereren taalgestuurde beleidsregels, die iteratief worden verfijnd door online reinforcement learning op basis van omgevingsfeedback. Onze experimentele resultaten tonen aan dat TiG met succes de kloof tussen declaratieve en procedurele kennis overbrugt, waarbij het competitieve prestaties behaalt met aanzienlijk minder data en rekenkundige eisen vergeleken met conventionele RL-methoden. Bovendien biedt TiG stap-voor-stap natuurlijke taalverklaringen voor zijn beslissingen, wat de transparantie en interpreteerbaarheid in complexe interactieve taken aanzienlijk verbetert.
jina-code-embeddings is een innovatieve suite van code-embeddingmodellen die is ontworpen om code op te halen op basis van natuurlijke taalvragen, technische vraag-en-antwoordtaken uit te voeren en semantisch vergelijkbare codefragmenten te identificeren over verschillende programmeertalen heen. Het maakt op innovatieve wijze gebruik van een autoregressieve backbone die vooraf is getraind op zowel tekst als code, waarbij embeddings worden gegenereerd via last-token pooling. We beschrijven het trainingsrecept en demonstreren state-of-the-art prestaties ondanks de relatief kleine omvang van de modellen, wat deze aanpak voor de constructie van code-embeddingmodellen valideert.
Audio-gestuurde talking head-synthese heeft opmerkelijke fotorealistische resultaten bereikt, maar de huidige state-of-the-art (SOTA) modellen vertonen een kritiek falen: ze missen generalisatie naar het volledige spectrum van menselijke diversiteit in etniciteit, taal en leeftijdsgroepen. Wij stellen dat deze generalisatiekloof een direct gevolg is van beperkingen in bestaande trainingsdata, die niet over de nodige schaal, kwaliteit en diversiteit beschikken. Om deze uitdaging aan te pakken, introduceren we TalkVid, een nieuwe grootschalige, hoogwaardige en diverse dataset met 1244 uur aan video van 7729 unieke sprekers. TalkVid is samengesteld via een principieel, meerfasig geautomatiseerd proces dat rigoureus filtert op bewegingsstabiliteit, esthetische kwaliteit en gezichtsdetails, en wordt gevalideerd tegen menselijke beoordelingen om de betrouwbaarheid te waarborgen. Bovendien construeren en publiceren we TalkVid-Bench, een gestratificeerde evaluatieset van 500 clips die zorgvuldig zijn gebalanceerd over belangrijke demografische en linguïstische assen. Onze experimenten tonen aan dat een model getraind op TalkVid beter presteert dan modellen getraind op eerdere datasets, met superieure cross-dataset generalisatie. Cruciaal is dat onze analyse op TalkVid-Bench prestatieverschillen tussen subgroepen onthult die verborgen blijven door traditionele aggregatiemetrics, wat het belang ervan voor toekomstig onderzoek onderstreept. Code en data zijn te vinden op https://github.com/FreedomIntelligence/TalkVid.
De datamix die wordt gebruikt bij het vooraf trainen van een taalmodel is een hoeksteen van de uiteindelijke prestaties. Een statische mixstrategie is echter suboptimaal, omdat de leerpreferenties van het model voor verschillende datadomeinen dynamisch verschuiven tijdens de training. Het observeren van deze evoluerende voorkeuren op een computationeel efficiënte manier blijft een grote uitdaging. Om dit aan te pakken, stellen we TiKMiX voor, een methode die de datamix dynamisch aanpast op basis van de evoluerende voorkeuren van het model. TiKMiX introduceert Group Influence, een efficiënte metriek om de impact van datadomeinen op het model te evalueren. Deze metriek maakt het mogelijk om het datamixprobleem te formuleren als een zoektocht naar een optimale, invloed-maximaliserende verdeling. We lossen dit op via twee benaderingen: TiKMiX-D voor directe optimalisatie, en TiKMiX-M, dat een regressiemodel gebruikt om een superieure mix te voorspellen. We hebben modellen getraind met verschillende aantallen parameters, op maximaal 1 biljoen tokens. TiKMiX-D overtreft de prestaties van state-of-the-art methoden zoals REGMIX terwijl slechts 20% van de computationele bronnen wordt gebruikt. TiKMiX-M leidt tot een gemiddelde prestatieverbetering van 2% over 9 downstream benchmarks. Onze experimenten tonen aan dat de datavoorkeuren van een model evolueren met de voortgang en schaal van de training, en we demonstreren dat het dynamisch aanpassen van de datamix op basis van Group Influence, een directe maatstaf van deze voorkeuren, de prestaties aanzienlijk verbetert door het onderverteren van data dat bij statische verhoudingen wordt waargenomen, te verminderen.
De GUI-agent heeft als doel geautomatiseerde bewerkingen op mobiele/PC-apparaten mogelijk te maken, wat een belangrijke taak is bij het bereiken van kunstmatige algemene intelligentie. De snelle vooruitgang van VLMs (Vision-Language Models) versnelt de ontwikkeling van GUI-agents, dankzij hun krachtige mogelijkheden op het gebied van visueel begrip en taakplanning. Het bouwen van een GUI-agent blijft echter een uitdagende taak vanwege het gebrek aan operationele trajecten, de beschikbaarheid van interactieve infrastructuur en de beperkingen van de initiële mogelijkheden van foundation-modellen. In dit werk introduceren we UItron, een open-source foundation-model voor automatische GUI-agents, met geavanceerde mogelijkheden voor GUI-waarneming, gronding en planning. UItron benadrukt de noodzaak van systematische data-engineering en interactieve infrastructuur als fundamentele componenten voor het bevorderen van de ontwikkeling van GUI-agents. Het bestudeert niet alleen systematisch een reeks data-engineeringstrategieën om de trainingseffecten te verbeteren, maar stelt ook een interactieve omgeving in die zowel mobiele als PC-apparaten verbindt. Tijdens de training past UItron supervised finetuning toe op waarnemings- en plannings taken in verschillende GUI-scenario's, en ontwikkelt vervolgens een curriculum reinforcement learning-framework om complex redeneren en exploratie voor online omgevingen mogelijk te maken. Als resultaat behaalt UItron superieure prestaties in benchmarks voor GUI-waarneming, gronding en planning. In het bijzonder benadrukt UItron de interactievaardigheid met toonaangevende Chinese mobiele apps, aangezien we een algemeen gebrek aan Chinese mogelijkheden constateerden, zelfs in state-of-the-art oplossingen. Hiertoe verzamelen we handmatig meer dan een miljoen stappen aan operationele trajecten over de top 100 meest populaire apps, en bouwen we offline en online agent-evaluatieomgevingen. Experimentele resultaten tonen aan dat UItron aanzienlijke vooruitgang boekt in Chinese app-scenario's, waardoor GUI-agents een stap dichter bij real-world toepassingen komen.
Evaluaties van audio-taalmodelen (ALMs) — multimodale modellen die afwisselend audio en tekst als invoer accepteren en tekst als uitvoer genereren — worden belemmerd door het ontbreken van gestandaardiseerde benchmarks; de meeste benchmarks meten slechts één of twee capaciteiten en laten evaluatieve aspecten zoals eerlijkheid of veiligheid buiten beschouwing. Bovendien is vergelijking tussen modellen moeilijk omdat afzonderlijke evaluaties een beperkt aantal modellen testen en verschillende promptmethoden en inferentieparameters gebruiken. Om deze tekortkomingen aan te pakken, introduceren we AHELM, een benchmark die verschillende datasets samenbrengt — inclusief twee nieuwe synthetische audio-tekst datasets genaamd PARADE, die de ALMs evalueert op het vermijden van stereotypen, en CoRe-Bench, die redeneren over conversatie-audio meet via inferentiële meerrondevraag-antwoordtaken — om de prestaties van ALMs holistisch te meten over 10 aspecten die we hebben geïdentificeerd als belangrijk voor de ontwikkeling en het gebruik van ALMs: audiowaarneming, kennis, redeneren, emotiedetectie, bias, eerlijkheid, meertaligheid, robuustheid, toxiciteit en veiligheid. We standaardiseren ook de prompts, inferentieparameters en evaluatiemetrics om eerlijke vergelijkingen tussen modellen te garanderen. We testen 14 open-weight en closed-API ALMs van 3 ontwikkelaars en 3 aanvullende eenvoudige baselinesystemen, elk bestaande uit een automatische spraakherkenner en een taalmodel. Onze resultaten tonen dat hoewel Gemini 2.5 Pro in 5 van de 10 aspecten bovenaan staat, het groepsoneerlijkheid vertoont (p=0.01) bij ASR-taken, terwijl de meeste andere modellen dit niet doen. We constateren ook dat de baselinesystemen redelijk goed presteren op AHELM, waarbij één systeem ondanks alleen spraak-naar-tekstmogelijkheden de 5e plaats behaalt. Voor transparantie zijn alle ruwe prompts, modelgeneraties en uitvoeren beschikbaar op onze website op https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM is bedoeld als een levende benchmark, en nieuwe datasets en modellen zullen in de loop van de tijd worden toegevoegd.
Symmetrie is een van de meest fundamentele geometrische aanwijzingen in computervisie, en het detecteren ervan is een voortdurende uitdaging geweest. Met de recente vooruitgang in vision-language modellen, zoals CLIP, onderzoeken we of een vooraf getraind CLIP-model kan bijdragen aan symmetriedetectie door gebruik te maken van de extra symmetrie-aanwijzingen die worden gevonden in natuurlijke beeldbeschrijvingen. We stellen CLIPSym voor, dat gebruikmaakt van CLIP's beeld- en taalencoders en een rotatie-equivariante decoder gebaseerd op een hybride van Transformer en G-Convolutie om rotatie- en reflectiesymmetrieën te detecteren. Om CLIP's taalencoder volledig te benutten, hebben we een nieuwe promptingtechniek ontwikkeld genaamd Semantic-Aware Prompt Grouping (SAPG), die een diverse set van frequente objectgebaseerde prompts samenvoegt om de semantische aanwijzingen voor symmetriedetectie beter te integreren. Empirisch tonen we aan dat CLIPSym de huidige state-of-the-art overtreft op drie standaard symmetriedetectie-datasets (DENDI, SDRW en LDRS). Ten slotte voeren we gedetailleerde ablatie-experimenten uit die de voordelen van CLIP's voorafgaande training, de voorgestelde equivariante decoder en de SAPG-techniek verifiëren. De code is beschikbaar op https://github.com/timyoung2333/CLIPSym.
Recente vooruitgang in het toepassen van reinforcement learning (RL) op grote taalmmodellen (LLMs) heeft geleid tot aanzienlijke vooruitgang. In het bijzonder zijn er een reeks opmerkelijke maar vaak contra-intuïtieve fenomenen gerapporteerd in LLMs, die patronen vertonen die niet typisch worden waargenomen in traditionele RL-instellingen. Bijvoorbeeld, opvallende beweringen zijn dat een enkel trainingsvoorbeeld de prestaties kan evenaren die worden bereikt met een volledige dataset, dat het beloningssignaal niet erg nauwkeurig hoeft te zijn, en dat trainen uitsluitend met negatieve voorbeelden de prestaties van geavanceerde beloningsgebaseerde methoden kan evenaren of zelfs overtreffen. De precieze voorwaarden waaronder deze observaties gelden - en, cruciaal, wanneer ze falen - blijven echter onduidelijk. In dit werk identificeren we een sleutelfactor die RL-observaties onderscheidt: of het vooraf getrainde model al een sterke Model-Taak Afstemming vertoont, gemeten aan de hand van pass@k nauwkeurigheid op de geëvalueerde taak. Door een systematisch en uitgebreid onderzoek van een reeks contra-intuïtieve beweringen, ondersteund door rigoureuze experimentele validatie over verschillende modelarchitecturen en taakdomeinen, tonen onze bevindingen aan dat, hoewel standaard RL-training consistent robuust blijft over verschillende instellingen, veel van deze contra-intuïtieve resultaten alleen optreden wanneer het model en de taak al een sterke model-taak afstemming vertonen. Daarentegen falen deze technieken in het stimuleren van substantieel leren in meer uitdagende regimes, waar standaard RL-methoden effectief blijven.
Het automatisch ontdekken van natuurwetten uit observationele gegevens in de echte wereld is een grote uitdaging in AI. Huidige methoden, die vertrouwen op symbolische regressie of LLM's, zijn beperkt tot unimodale gegevens en negeren de rijke, visuele fenomenologische representaties van beweging die onmisbaar zijn voor natuurkundigen. Deze "sensorische deprivatie" verzwakt hun vermogen om de inherente ruimtelijk-temporele patronen binnen dynamische fenomenen te interpreteren ernstig. Om deze kloof te overbruggen, stellen we VIPER-R1 voor, een multimodaal model dat Visual Induction for Physics-based Equation Reasoning uitvoert om fundamentele symbolische formules te ontdekken. Het integreert visuele perceptie, trajectgegevens en symbolisch redeneren om het wetenschappelijke ontdekkingproces na te bootsen. Het model wordt getraind via een curriculum van Motion Structure Induction (MSI), waarbij gebruik wordt gemaakt van supervised fine-tuning om kinematische faseportretten te interpreteren en hypothesen te construeren die worden geleid door een Causal Chain of Thought (C-CoT), gevolgd door Reward-Guided Symbolic Calibration (RGSC) om de formulesstructuur te verfijnen met reinforcement learning. Tijdens inferentie fungeert het getrainde VIPER-R1 als een agent: het stelt eerst een symbolische ansatz met hoge betrouwbaarheid voor, roept vervolgens proactief een extern symbolisch regressietool op om Symbolic Residual Realignment (SR^2) uit te voeren. Deze laatste stap, analoog aan de verstoringsanalyse van een natuurkundige, brengt het theoretische model in overeenstemming met empirische gegevens. Om dit onderzoek te ondersteunen, introduceren we PhysSymbol, een nieuwe multimodale corpus van 5.000 instanties. Experimenten tonen aan dat VIPER-R1 consistent beter presteert dan state-of-the-art VLM-baselines in nauwkeurigheid en interpreteerbaarheid, waardoor een preciezere ontdekking van natuurwetten mogelijk wordt gemaakt. Projectpagina: https://jiaaqiliu.github.io/VIPER-R1/
Gebruikersinterface (UI) agents beloven ontoegankelijke of complexe UI's gemakkelijker toegankelijk te maken voor blinde en slechtziende (BLV) gebruikers. Huidige UI-agents voeren echter typisch taken end-to-end uit zonder gebruikers te betrekken bij kritieke keuzes of hen bewust te maken van belangrijke contextuele informatie, waardoor de gebruikerscontrole wordt verminderd. In ons veldonderzoek vroeg bijvoorbeeld een BLV-deelnemer om het goedkoopste beschikbare bruisende water te kopen, en de agent koos automatisch een optie uit verschillende even dure alternatieven, zonder alternatieve producten met verschillende smaken of betere beoordelingen te vermelden. Om dit probleem aan te pakken, introduceren we Morae, een UI-agent die automatisch beslispunten identificeert tijdens de taakuitvoering en pauzeert zodat gebruikers keuzes kunnen maken. Morae gebruikt grote multimodale modellen om gebruikersvragen naast UI-code en schermafbeeldingen te interpreteren en vraagt gebruikers om verduidelijking wanneer er een keuze moet worden gemaakt. In een studie met real-world webtaken met BLV-deelnemers hielp Morae gebruikers meer taken te voltooien en opties te selecteren die beter aansloten bij hun voorkeuren, vergeleken met baseline agents, waaronder OpenAI Operator. In bredere zin illustreert dit werk een gemengd initiatiefbenadering waarin gebruikers profiteren van de automatisering van UI-agents terwijl ze hun voorkeuren kunnen uiten.
Echo State Networks (ESN's) zijn een specifiek type niet-getrainde Recurrent Neural Networks (RNN's) binnen het Reservoir Computing (RC) raamwerk, bekend om hun snelle en efficiënte leerproces. Traditionele ESN's hebben echter vaak moeite met het verwerken van informatie op lange termijn. In dit artikel introduceren we een nieuwe klasse van diepe, niet-getrainde RNN's gebaseerd op temporele restverbindingen, genaamd Deep Residual Echo State Networks (DeepResESN's). We tonen aan dat het benutten van een hiërarchie van niet-getrainde rest-recurrente lagen de geheugencapaciteit en temporele modellering op lange termijn aanzienlijk verbetert. Voor de temporele restverbindingen overwegen we verschillende orthogonale configuraties, waaronder willekeurig gegenereerde en vaste-structuur configuraties, en bestuderen we hun effect op de netwerkdynamiek. Een grondige wiskundige analyse schetst noodzakelijke en voldoende voorwaarden om stabiele dynamiek binnen DeepResESN te garanderen. Onze experimenten op een verscheidenheid aan tijdreeks taken tonen de voordelen van de voorgestelde aanpak ten opzichte van traditionele ondiepe en diepe RC.
Post-training kwantisatie (PTQ) is cruciaal voor het implementeren van efficiënte objectdetectiemodellen, zoals YOLO, op apparaten met beperkte middelen. De impact van verminderde precisie op de robuustheid van modellen tegen real-world inputdegradaties zoals ruis, vervaging en compressie-artefacten is echter een belangrijk aandachtspunt. Dit artikel presenteert een uitgebreide empirische studie die de robuustheid van YOLO-modellen (van nano tot extra-large schalen) evalueert over meerdere precisieformaten: FP32, FP16 (TensorRT), Dynamic UINT8 (ONNX) en Static INT8 (TensorRT). We introduceren en evalueren een degradatiebewuste kalibratiestrategie voor Static INT8 PTQ, waarbij het TensorRT-kalibratieproces wordt blootgesteld aan een mix van schone en synthetisch gedegradeerde afbeeldingen. Modellen werden getest op de COCO-dataset onder zeven verschillende degradatiecondities (inclusief verschillende soorten en niveaus van ruis, vervaging, laag contrast en JPEG-compressie) en een scenario met gemengde degradaties. De resultaten geven aan dat hoewel Static INT8 TensorRT-engines aanzienlijke snelheidsverbeteringen bieden (~1,5-3,3x) met een matige nauwkeurigheidsdaling (~3-7% mAP50-95) op schone data, de voorgestelde degradatiebewuste kalibratie geen consistente, brede verbeteringen in robuustheid opleverde ten opzichte van standaard kalibratie op schone data over de meeste modellen en degradaties. Een opvallende uitzondering werd waargenomen voor grotere modelschalen onder specifieke ruiscondities, wat suggereert dat modelcapaciteit de effectiviteit van deze kalibratiebenadering kan beïnvloeden. Deze bevindingen benadrukken de uitdagingen bij het verbeteren van PTQ-robuustheid en bieden inzichten voor het implementeren van gekwantiseerde detectoren in ongecontroleerde omgevingen. Alle code en evaluatietabellen zijn beschikbaar op https://github.com/AllanK24/QRID.
Het benutten van menselijke bewegingsdata om robots veelzijdige manipulatietechnieken aan te leren, is naar voren gekomen als een veelbelovend paradigma in robotmanipulatie. Desalniettemin blijft het vertalen van multi-source menselijke handbewegingen naar uitvoerbare robotgedragingen een uitdaging, vooral voor robots die zijn uitgerust met multi-vingerige behendige handen die worden gekenmerkt door complexe, hoogdimensionale actieruimten. Bovendien hebben bestaande benaderingen vaak moeite om beleidsregels te produceren die zich kunnen aanpassen aan diverse omgevingsomstandigheden. In dit artikel introduceren we HERMES, een mens-naar-robot-leerframework voor mobiele bimanuele behendige manipulatie. Ten eerste formuleert HERMES een geïntegreerde reinforcement learning-benadering die in staat is om heterogene menselijke handbewegingen uit meerdere bronnen naadloos om te zetten in fysisch plausibele robotgedragingen. Vervolgens ontwikkelen we, om de sim2real-kloof te verkleinen, een end-to-end, op dieptebeelden gebaseerde sim2real-transfermethode voor verbeterde generalisatie naar real-world scenario's. Daarnaast versterken we, om autonome werking in gevarieerde en ongestructureerde omgevingen mogelijk te maken, het navigatiestichtingsmodel met een gesloten-lus Perspective-n-Point (PnP)-localisatiemechanisme, dat zorgt voor nauwkeurige uitlijning van visuele doelen en effectief autonome navigatie en behendige manipulatie met elkaar verbindt. Uitgebreide experimentele resultaten tonen aan dat HERMES consistent generaliseerbare gedragingen vertoont in diverse, realistische scenario's, waarbij het talrijke complexe mobiele bimanuele behendige manipulatietaken succesvol uitvoert. Projectpagina: https://gemcollector.github.io/HERMES/.
Elk jaar ontvangen de meeste onderwijsinstellingen een enorme hoeveelheid tekstuele feedback van studenten over vakken, docenten en de algehele ervaring. Het omzetten van deze ruwe feedback in bruikbare inzichten is echter verre van eenvoudig. Het is al lang een uitdaging om automatische opinieanalyseoplossingen toe te passen op dergelijke onderwijsreviewteksten vanwege de complexiteit van de inhoud en de vereisten voor rapportage op laaggranulair niveau. Aspectgebaseerde Sentimentanalyse (ABSA) biedt een veelbelovende oplossing met zijn rijke, op sub-zinsniveau werkende opinieanalysecapaciteiten. Bestaand ABSA-onderzoek en -bronnen zijn echter zeer sterk gericht op het commerciële domein. In het onderwijs zijn ze schaars en moeilijk te ontwikkelen vanwege beperkte openbare datasets en strikte gegevensbescherming. Een hoogwaardige, geannoteerde dataset is dringend nodig om onderzoek in dit onderbedeelde gebied vooruit te helpen. In dit werk presenteren we EduRABSA (Education Review ABSA), de eerste openbare, geannoteerde ABSA-onderwijsreviewdataset die drie reviewonderwerptypen (vak, onderwijspersoneel, universiteit) in het Engels omvat en alle belangrijkste ABSA-taken, inclusief de onderbelichte impliciete aspect- en impliciete opinie-extractie. We delen ook ASQE-DPT (Data Processing Tool), een offline, lichtgewicht, installatievrij handmatig gegevensannotatietool die gelabelde datasets genereert voor uitgebreide ABSA-taken vanuit een enkele-taakannotatie. Samen dragen deze bronnen bij aan de ABSA-gemeenschap en het onderwijsdomein door de datasetbarrière weg te nemen, onderzoeks transparantie en reproduceerbaarheid te ondersteunen, en het creëren en delen van verdere bronnen mogelijk te maken. De dataset, annotatietool, en scripts en statistieken voor datasetverwerking en -bemonstering zijn beschikbaar op https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.