Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Critic-vrije reinforcement learning-methoden, met name groepsbeleidsregels, hebben aanzienlijke aandacht getrokken vanwege hun efficiëntie in complexe taken. Deze methoden zijn echter sterk afhankelijk van meervoudige steekproeven en vergelijkingen binnen het beleid om het voordeel te schatten, wat kan leiden tot lokale optima en hogere rekenkosten. Om deze problemen aan te pakken, stellen we PVPO voor, een efficiënte reinforcement learning-methode versterkt door een referentieanker voor het voordeel en voorafgaande gegevenssteekproeven. Specifiek gebruiken we het referentiemodel om vooraf te rollen en de berekende beloningsscore als referentieanker te gebruiken. Onze aanpak corrigeert effectief de cumulatieve bias die wordt geïntroduceerd door intra-groepsvergelijkingen en vermindert de afhankelijkheid van het aantal rollouts aanzienlijk. Tegelijkertijd kan het referentiemodel de moeilijkheidsgraad van steekproeven beoordelen tijdens de voorafgaande gegevenssteekproeven, waardoor een effectieve selectie van hoogrenderende gegevens mogelijk is om de trainings efficiëntie te verbeteren. Experimenten uitgevoerd op negen datasets in twee domeinen tonen aan dat PVPO State-Of-The-Art (SOTA) prestaties bereikt. Onze aanpak toont niet alleen robuuste generalisatie over meerdere taken, maar vertoont ook schaalbare prestaties over modellen van verschillende schalen.
Er is uitgebreid onderzoek gedaan naar de mogelijkheden van grote taalmodellen (LLMs) op het gebied van tabelredenering. Echter blijft de essentiële taak van het omzetten van tabelinformatie naar rapporten een aanzienlijke uitdaging voor industriële toepassingen. Deze taak wordt geplaagd door twee kritieke problemen: 1) de complexiteit en diversiteit van tabellen leiden tot suboptimale redeneerresultaten; en 2) bestaande tabelbenchmarks zijn niet in staat om de praktische toepassing van deze taak adequaat te beoordelen. Om dit gat te vullen, stellen we de tabel-naar-rapport-taak voor en construeren we een tweetalige benchmark genaamd T2R-bench, waarin de sleutelinformatie van de tabellen naar de rapporten voor deze taak wordt doorgegeven. De benchmark bestaat uit 457 industriële tabellen, allemaal afkomstig uit realistische scenario's en omvat 19 industriedomeinen evenals 4 soorten industriële tabellen. Bovendien stellen we een evaluatiecriteria voor om de kwaliteit van rapportgeneratie eerlijk te meten. De experimenten met 25 veelgebruikte LLMs onthullen dat zelfs state-of-the-art modellen zoals Deepseek-R1 slechts een prestatie behalen met een overall score van 62,71, wat aangeeft dat LLMs nog ruimte voor verbetering hebben op T2R-bench. Broncode en data zullen beschikbaar worden gesteld na acceptatie.
Recente vooruitgang in de redeneer- en planningscapaciteiten van grote taalmodellen (LLMs) heeft hun potentieel als autonome agents die tools kunnen gebruiken in dynamische omgevingen vergroot. In multi-turn conversatieomgevingen zoals tau-bench hebben deze agents echter vaak moeite met consistent redeneren, het naleven van domeinspecifiek beleid en het correct extraheren van informatie over een lange reeks tool-aanroepen en conversaties. Om deze fouten vast te stellen en te mitigeren, voeren we een uitgebreide handmatige analyse uit van de veelvoorkomende fouten in de conversatietrajecten. Vervolgens experimenteren we met herformuleringen van de invoer voor de tool-aanroepende agent om de besluitvorming van de agent te verbeteren. Ten slotte stellen we het Input-Reformulering Multi-Agent (IRMA) framework voor, dat automatisch gebruikersvragen herformuleert, aangevuld met relevante domeinregels en toolsuggesties waar de tool-aanroepende agent zich op kan richten. De resultaten tonen aan dat IRMA significant beter presteert dan ReAct, Function Calling en Self-Reflection met respectievelijk 16,1%, 12,7% en 19,1% in de overall pass^5 scores. Deze bevindingen benadrukken de superieure betrouwbaarheid en consistentie van IRMA in vergelijking met andere methoden in dynamische omgevingen.
Oppervlaktedefectdetectie is een cruciale taak in tal van industrieën, gericht op het efficiënt identificeren en lokaliseren van imperfecties of onregelmatigheden op geproduceerde componenten. Hoewel talrijke methoden zijn voorgesteld, voldoen veel niet aan de industriële eisen voor hoge prestaties, efficiëntie en aanpasbaarheid. Bestaande benaderingen zijn vaak beperkt tot specifieke begeleidingsscenario's en hebben moeite zich aan te passen aan de diverse data-annotaties die worden aangetroffen in real-world productieprocessen, zoals onbegeleide, zwak begeleide, gemengde begeleiding en volledig begeleide instellingen. Om deze uitdagingen aan te pakken, stellen we SuperSimpleNet voor, een zeer efficiënt en aanpasbaar discriminerend model gebaseerd op de basis van SimpleNet. SuperSimpleNet omvat een nieuw synthetisch anomaliegeneratieproces, een verbeterde classificatiekop en een verbeterd leerproces, waardoor efficiënte training mogelijk is in alle vier de begeleidingsscenario's, wat het het eerste model maakt dat volledig gebruik kan maken van alle beschikbare data-annotaties. SuperSimpleNet stelt een nieuwe standaard voor prestaties in alle scenario's, zoals aangetoond door de resultaten op vier uitdagende benchmarkdatasets. Naast nauwkeurigheid is het zeer snel, met een inferentietijd van minder dan 10 ms. Met zijn vermogen om diverse begeleidingsparadigma's te verenigen terwijl het uitstekende snelheid en betrouwbaarheid behoudt, vertegenwoordigt SuperSimpleNet een veelbelovende stap voorwaarts in het aanpakken van real-world productie-uitdagingen en het overbruggen van de kloof tussen academisch onderzoek en industriële toepassingen. Code: https://github.com/blaz-r/SuperSimpleNet
Ruimtelijke cognitie maakt adaptief doelgericht gedrag mogelijk door het construeren van interne modellen van ruimte. Robuuste biologische systemen consolideren ruimtelijke kennis in drie onderling verbonden vormen: oriëntatiepunten voor opvallende signalen, routekennis voor bewegingsbanen en overzichtskennis voor kaartachtige representaties. Hoewel recente vooruitgang in multi-modale grote taalmodellen (MLLMs) visueel-taalkundig redeneren in belichaamde agents heeft mogelijk gemaakt, ontbreekt het deze inspanningen aan gestructureerd ruimtelijk geheugen en werken ze reactief, wat hun generalisatie en aanpassingsvermogen in complexe real-world omgevingen beperkt. Hier presenteren we Brain-inspired Spatial Cognition for Navigation (BSC-Nav), een uniform raamwerk voor het construeren en benutten van gestructureerd ruimtelijk geheugen in belichaamde agents. BSC-Nav bouwt allocentrische cognitieve kaarten op basis van egocentrische trajecten en contextuele signalen, en haalt dynamisch ruimtelijke kennis op die is afgestemd op semantische doelen. Geïntegreerd met krachtige MLLMs bereikt BSC-Nav state-of-the-art effectiviteit en efficiëntie in diverse navigatietaken, toont sterke zero-shot generalisatie en ondersteunt veelzijdig belichaamd gedrag in de echte fysieke wereld, wat een schaalbare en biologisch onderbouwde weg biedt naar algemene ruimtelijke intelligentie.
Grote taalmodellen (LLM's) die voornamelijk zijn getraind op Engelstalige corpora, hebben vaak moeite om de linguïstische en culturele nuances van het Arabisch te vatten. Om deze kloof te dichten, heeft de Saudi Data and AI Authority (SDAIA) de ALLaM-familie van Arabisch-gerichte modellen geïntroduceerd. Het meest geavanceerde van deze modellen dat publiekelijk beschikbaar is, ALLaM-34B, werd vervolgens overgenomen door HUMAIN, die HUMAIN Chat ontwikkelde en implementeerde, een gesloten conversatiewebservice gebouwd op dit model. Dit artikel presenteert een uitgebreide en verfijnde UI-level evaluatie van ALLaM-34B. Met behulp van een promptpakket dat modern standaard Arabisch, vijf regionale dialecten, code-switching, feitelijke kennis, rekenkundig en temporeel redeneren, creatieve generatie en adversariale veiligheid omvat, verzamelden we 115 outputs (23 prompts maal 5 runs) en scoorden elk met drie toonaangevende LLM-beoordelaars (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). We berekenen categoriegemiddelden met 95\% betrouwbaarheidsintervallen, analyseren scoreverdelingen en visualiseren metrische warmtekaarten per dialect. De bijgewerkte analyse toont consistent hoge prestaties op generatie- en code-switching taken (beide gemiddeld 4.92/5), naast sterke resultaten in het omgaan met modern standaard Arabisch (4.74/5), solide redeneervaardigheid (4.64/5) en verbeterde dialectgetrouwheid (4.21/5). Veiligheidsgerelateerde prompts laten stabiele, betrouwbare prestaties zien van (4.54/5). Samengevat positioneren deze resultaten ALLaM-34B als een robuust en cultureel verankerd Arabisch LLM, dat zowel technische kracht als praktische gereedheid voor implementatie in de echte wereld demonstreert.
Dit artikel introduceert Democracy-in-Silico, een agent-gebaseerde simulatie waarin samenlevingen van geavanceerde AI-agenten, uitgerust met complexe psychologische persona's, zichzelf besturen onder verschillende institutionele kaders. We onderzoeken wat het betekent om mens te zijn in een tijdperk van AI door Large Language Models (LLMs) de taak te geven agenten te belichamen met traumatische herinneringen, verborgen agenda's en psychologische triggers. Deze agenten nemen deel aan deliberatie, wetgeving en verkiezingen onder diverse stressoren, zoals begrotingscrises en schaarste aan middelen. We introduceren een nieuwe maatstaf, de Power-Preservation Index (PPI), om afwijkend gedrag te kwantificeren waarbij agenten hun eigen macht boven het algemeen welzijn stellen. Onze bevindingen tonen aan dat institutioneel ontwerp, specifiek de combinatie van een Constitutional AI (CAI)-handvest en een bemiddeld deliberatieprotocol, een krachtig afstemmingsmechanisme vormt. Deze structuren verminderen corrupt machtszoekend gedrag aanzienlijk, verbeteren de beleidsstabiliteit en vergroten het welzijn van burgers in vergelijking met minder beperkte democratische modellen. De simulatie onthult dat een institutioneel ontwerp een kader kan bieden voor het afstemmen van de complexe, emergente gedragingen van toekomstige kunstmatige agentensamenlevingen, waardoor we worden gedwongen opnieuw te overwegen welke menselijke rituelen en verantwoordelijkheden essentieel zijn in een tijdperk van gedeeld auteurschap met niet-menselijke entiteiten.