Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement fine-tuning (RFT), a two-stage framework consisting of supervised fine-tuning (SFT) and reinforcement learning (RL) has shown promising results on improving reasoning ability of large language models (LLMs). Yet extending RFT to large video language models (LVLMs) remains challenging. We propose VideoP2R, a novel process-aware video RFT framework that enhances video reasoning by modeling perception and reasoning as distinct processes. In the SFT stage, we develop a three-step pipeline to generate VideoP2R-CoT-162K, a high-quality, process-aware chain-of-thought (CoT) dataset for perception and reasoning. In the RL stage, we introduce a novel process-aware group relative policy optimization (PA-GRPO) algorithm that supplies separate rewards for perception and reasoning. Extensive experiments show that VideoP2R achieves state-of-the-art (SotA) performance on six out of seven video reasoning and understanding benchmarks. Ablation studies further confirm the effectiveness of our process-aware modeling and PA-GRPO and demonstrate that model's perception output is information-sufficient for downstream reasoning.
Het verbeteren van de redeneervermogens van Large Language Models (LLM's), vooral onder parameterbeperkingen, is cruciaal voor praktijktoepassingen. Eerder werk stelt recurrent transformers voor, die een vast aantal extra iteraties per token toewijzen om de generatiekwaliteit te verbeteren. Na de eerste, standaard forward pass worden de verborgen toestanden van de laatste laag, in plaats van verbalisatie, teruggevoerd als invoer voor aanvullende iteraties om de tokenvoorspellingen te verfijnen. Wij identificeren echter een latent overthinking-fenomeen: eenvoudige tokenvoorspellingen die na de eerste pass reeds correct zijn, worden in aanvullende iteraties soms herzien naar fouten. Om dit aan te pakken, stellen wij Think-at-Hard (TaH) voor, een dynamische latent thinking-methode die alleen dieper itereert bij moeilijke tokens. Het gebruikt een lichtgewicht neural decider om latent iteraties alleen te triggeren bij tokens die na de standaard forward pass waarschijnlijk incorrect zijn. Tijdens latent iteraties verschuiven Low-Rank Adaptation (LoRA)-modules het LLM-doel van algemene volgende-tokenvoorspelling naar gerichte verfijning van moeilijke tokens. Wij introduceren verder een duo-causal attention-mechanisme dat de aandacht uitbreidt van de tokensequentiedimensie naar een aanvullende iteratiedieptedimensie. Dit maakt kruisiteratie-informatieflow mogelijk terwijl volledige sequentiële paralleliteit behouden blijft. Experimenten tonen aan dat TaH de redeneerprestaties van LLM's verbetert op vijf uitdagende benchmarks, terwijl hetzelfde aantal parameters behouden blijft. Vergeleken met baseline-modellen die tweemaal itereren voor alle uitvoertokens, levert TaH 8,1-11,3% nauwkeurigheidswinst op, terwijl 94% van de tokens wordt vrijgesteld van de tweede iteratie. Ten opzichte van sterke enkel-iteratie Qwen3-modellen die met dezelfde data zijn gefinetuned, behaalt het eveneens 4,0-5,0% nauwkeurigheidswinst. Wanneer minder dan 3% extra parameters van LoRA en de iteratiedecider zijn toegestaan, stijgen de winsten respectievelijk naar 8,5-12,6% en 5,3-5,4%. Onze code is beschikbaar op https://github.com/thu-nics/TaH.
Innovatieve visuele stilisering is een hoeksteen van artistieke creatie, maar het genereren van nieuwe en consistente visuele stijlen blijft een grote uitdaging. Bestaande generatieve benaderingen vertrouwen doorgaans op uitgebreide tekstuele prompts, referentiebeelden of parameter-efficiënte fine-tuning om stijlbewuste beeldgeneratie te sturen, maar kampen vaak met stijlonconsistentie, beperkte creativiteit en complexe stijlrepresentaties. In dit artikel bevestigen wij dat een stijl één numerieke code waard is door de introductie van de nieuwe taak code-naar-stijl beeldgeneratie, waarbij beelden met nieuwe, consistente visuele stijlen worden gegenereerd uitsluitend gebaseerd op een numerieke stijlcode. Tot op heden is dit domein voornamelijk door de industrie verkend (bijvoorbeeld Midjourney), zonder open-source onderzoek vanuit de academische gemeenschap. Om deze leemte op te vullen, presenteren wij CoTyle, de eerste open-source methode voor deze taak. Concreet trainen wij eerst een discrete stijlcodeboek vanuit een verzameling beelden om stijlinbeddingen te extraheren. Deze inbeddingen dienen als condities voor een tekst-naar-beeld diffusiemodel (T2I-DM) om stijlvolle beelden te genereren. Vervolgens trainen wij een autoregressieve stijlgenerator op de discrete stijlinbeddingen om hun distributie te modelleren, wat de synthese van nieuwe stijlinbeddingen mogelijk maakt. Tijdens inferentie wordt een numerieke stijlcode door de stijlgenerator afgebeeld op een unieke stijlinbedding, en deze inbedding stuurt het T2I-DM aan om beelden in de corresponderende stijl te genereren. In tegenstelling tot bestaande methodes biedt onze aanpak ongeëvenaarde eenvoud en diversiteit, en ontsluit zij een enorme ruimte van reproduceerbare stijlen vanuit minimale input. Uitgebreide experimenten valideren dat CoTyle effectief een numerieke code omzet in een stijlcontroller, wat aantoont dat een stijl één code waard is.
Wij presenteren AraLingBench: een volledig door mensen geannoteerde benchmark voor het evalueren van de Arabische taalkundige competentie van grote taalmodel(len) (LLM's). De benchmark omvat vijf kerncategorieën: grammatica, morfologie, spelling, leesbegrip en syntaxis, via 150 door experts ontworpen meerkeuzevragen die het structurele taalbegrip direct toetsen. Evaluatie van 35 Arabische en tweetalige LLM's toont aan dat huidige modellen een sterke oppervlakkige vaardigheid vertonen, maar moeite hebben met dieper grammaticaal en syntactisch redeneren. AraLingBench benadrukt een aanhoudende kloof tussen hoge scores op kennisgerichte benchmarks en echt taalkundig meesterschap, wat aantoont dat veel modellen slagen door memorisatie of patroonherkenning in plaats van authentiek begrip. Door fundamentele taalkundige vaardigheden te isoleren en te meten, biedt AraLingBench een diagnostisch raamwerk voor de ontwikkeling van Arabische LLM's. De volledige evaluatiecode is openbaar beschikbaar op GitHub.
Foundationmodellen hebben een revolutie teweeggebracht in kunstmatige intelligentie binnen talloze domeinen, maar hun transformerende potentieel blijft grotendeels onbenut bij Extreme Multi-label Classification (XMC). Bij XMC worden queries geassocieerd met relevante labels uit extreem grote labelruimten, waarbij het cruciaal is een balans te vinden tussen efficiëntie en prestaties. Daarom benaderen veel recente methoden XMC efficiënt als een zoektocht naar het maximum inproduct tussen embeddings die zijn geleerd met kleine encoder-only transformer-architecturen. In dit artikel behandelen we twee belangrijke aspecten van XMC: hoe grotere decoder-only modellen effectief kunnen worden benut, en hoe visuele informatie kan worden gebruikt met behoud van computationele efficiëntie. Wij tonen aan dat beide afzonderlijk een cruciale rol spelen bij XMC en gecombineerd kunnen worden voor betere prestaties. Wij laten zien dat een decoder van enkele miljarden parameters aanzienlijke verbeteringen kan opleveren met een beheersbare computationele overhead. Verder integreert ons Vision-enhanced eXtreme Multi-label Learning framework (ViXML) efficiënt foundation vision-modellen door één enkele embedding per afbeelding samen te voegen. Dit beperkt de computationele groei terwijl multimodale mogelijkheden worden ontsloten. Opmerkelijk is dat ViXML met kleine encoders in de meeste gevallen beter presteert dan tekst-only decoders, wat aantoont dat één afbeelding miljarden parameters waard is. Ten slotte presenteren wij een uitbreiding van bestaande tekst-only datasets om visuele metadata te benutten en stellen deze beschikbaar voor toekomstige benchmarking. Uitgebreide experimenten met vier openbare tekst-only datasets en hun bijbehorende beeldverbeterde versies valideren de effectiviteit van onze voorstellen, met verbeteringen tot +8,21% in P@1 op de grootste dataset ten opzichte van de vorige state-of-the-art. De code van ViXML is beschikbaar op https://github.com/DiegoOrtego/vixml.
Hoewel Chain-of-Thought (CoT) prompting geavanceerd symbolisch redeneren in LLM's mogelijk maakt, blijft het beperkt tot discrete tekst en kan het de continue, door fysica bepaalde dynamiek van de echte wereld niet simuleren. Recente videogeneratiemodellen zijn naar voren gekomen als potentiële wereldsimulatoren via Chain-of-Frames (CoF) redenering – waarbij gedachten worden gematerialiseerd als frame-voor-frame visuele sequenties, waarbij elk frame een fysiek onderbouwde redeneerstap vertegenwoordigt. Ondanks overtuigende demonstraties blijft er een uitdaging bestaan: bestaande benchmarks, gericht op getrouwheid of afstemming, beoordelen CoF-redenering niet en kunnen dus geen kerncognitieve vaardigheden meten op het gebied van meerstapsplanning, algoritmische logica of abstracte patroonextrapolatie. Dit evaluatievacuüm verhindert een systematisch begrip van modelcapaciteiten en een principiële richtlijn voor verbetering. Wij introduceren Gen-ViRe (Generative Visual Reasoning Benchmark), een raamwerk verankerd in de cognitieve wetenschap en real-world AI-toepassingen, dat CoF-redenering opdeelt in zes cognitieve dimensies – van perceptuele logica tot abstracte planning – en 24 subtaken. Door middel van multi-source datacuratie, minimale promptingprotocollen en hybride VLM-ondersteunde evaluatie met gedetailleerde criteria, biedt Gen-ViRe de eerste kwantitatieve beoordeling van videomodellen als redeneerders. Onze experimenten met SOTA-systemen onthullen aanzienlijke discrepanties tussen indrukwekkende visuele kwaliteit en daadwerkelijke redeneerdiepte, en stellen basislijnen en diagnostische hulpmiddelen vast om echte wereldsimulatoren vooruit te helpen.
Zelfreflectiemechanismen die uitsluitend op tekstgebaseerde heroverwegingsprocessen vertrouwen, presteren goed in de meeste multimodale taken. Wanneer ze echter direct worden toegepast op scenario's voor het begrijpen van lange video's, vertonen ze duidelijke beperkingen. De fundamentele redenen hiervoor liggen in twee punten: (1) het begrijpen van lange video's omvat rijkere en dynamischere visuele input, wat betekent dat alleen heroverweging van de tekstinformatie onvoldoende is en een verder heroverwegingsproces vereist dat specifiek op visuele informatie is gericht; (2) puur tekstgebaseerde reflectiemechanismen missen cross-modale interactiemogelijkheden, waardoor ze visuele informatie tijdens de reflectie niet volledig kunnen integreren. Gemotiveerd door deze inzichten stellen we REVISOR voor (REflective VIsual Segment Oriented Reasoning), een nieuw raamwerk voor tool-ondersteunde multimodale reflectie. REVISOR stelt MLLM's in staat om gezamenlijk introspectieve reflectieprocessen over tekstuele en visuele modaliteiten heen op te bouwen, waardoor hun redeneervermogen voor het begrijpen van lange video's aanzienlijk wordt verbeterd. Om ervoor te zorgen dat REVISOR tijdens reinforcement learning kan leren om nauwkeurig videosegmenten te beoordelen die zeer relevant zijn voor de vraag, hebben we het Dual Attribution Decoupled Reward (DADR)-mechanisme ontworpen. Geïntegreerd in de GRPO-trainingsstrategie, dwingt dit mechanisme een causaal verband af tussen de redenering van het model en het geselecteerde videobewijs. Opmerkelijk is dat het REVISOR-raamwerk het vermogen van MLLM's om lange video's te begrijpen aanzienlijk verbetert zonder aanvullende supervised fine-tuning of externe modellen te vereisen, en indrukwekkende resultaten behaalt op vier benchmarks, waaronder VideoMME, LongVideoBench, MLVU en LVBench.
Het evalueren van de robuustheid van Large Vision-Language Models (LVLM's) is essentieel voor hun verdere ontwikkeling en verantwoorde inzet in real-world toepassingen. Bestaande robuustheidsbenchmarks richten zich echter doorgaans op hallucinaties of misleidende tekstuele inputs, waarbij de even kritieke uitdaging van misleidende visuele inputs voor het beoordelen van visueel begrip grotendeels over het hoofd wordt gezien. Om deze belangrijke leemte te vullen, introduceren we MVI-Bench, de eerste uitgebreide benchmark die speciaal is ontworpen om te evalueren hoe Misleidende Visuele Inputs de robuustheid van LVLM's ondermijnen. Gebaseerd op fundamentele visuele primitieven, richt het ontwerp van MVI-Bench zich op drie hiërarchische niveaus van misleidende visuele inputs: Visueel Concept, Visueel Attribuut en Visuele Relatie. Op basis van deze taxonomie hebben we zes representatieve categorieën samengesteld en 1.248 deskundig geannoteerde VQA-instanties (Visual Question Answering) verzameld. Om een fijnmazige robuustheidsevaluatie te vergemakkelijken, introduceren we verder MVI-Gevoeligheid, een nieuwe metriek die de robuustheid van LVLM's op een gedetailleerd niveau karakteriseert. Empirische resultaten van 18 state-of-the-art LVLM's onthullen aanzienlijke kwetsbaarheden voor misleidende visuele inputs, en onze diepgaande analyses op MVI-Bench bieden praktische inzichten die de ontwikkeling van betrouwbaardere en robuustere LVLM's kunnen sturen. De benchmark en codebase zijn toegankelijk via https://github.com/chenyil6/MVI-Bench.
Wij introduceren Orion, een visueel agentframework dat elke modaliteit kan verwerken en genereren. Met behulp van een agentframework met meerdere tool-aanroepmogelijkheden is Orion ontworpen voor visuele AI-taken en behaalt het state-of-the-art resultaten. In tegenstelling tot traditionele vision-language modellen die beschrijvende outputs produceren, coördineert Orion een reeks gespecialiseerde computer vision tools, waaronder objectdetectie, keypoint-localisatie, panoptische segmentatie, optische tekenherkenning en geometrische analyse, om complexe meerstaps visuele workflows uit te voeren. Het systeem behaalt competitieve prestaties op MMMU, MMBench, DocVQA en MMLongBench, en breidt monolithische vision-language modellen uit tot productieklare visuele intelligentie. Door neurale perceptie te combineren met symbolische uitvoering, maakt Orion autonome visuele redenering mogelijk, wat een overgang markeert van passief visueel begrip naar actieve, tool-gestuurde visuele intelligentie.
Grote Taalmodellen (LLM's) worden steeds vaker onderzocht voor het bouwen van Agents die in staat zijn tot actieve interactie met hun omgeving (bijvoorbeeld via het gebruik van tools) om complexe problemen op te lossen. Reinforcement Learning (RL) wordt beschouwd als een kerntechnologie met aanzienlijk potentieel voor het trainen van dergelijke Agents; de effectieve toepassing van RL op LLM-agents bevindt zich echter nog in een vroeg stadium en kampt met aanzienlijke uitdagingen. Momenteel ontbreekt het in dit opkomende veld aan diepgaande verkenning van RL-benaderingen die specifiek zijn toegesneden op de LLM Agent-context, naast een schaarste aan flexibele en gemakkelijk uitbreidbare trainingsframeworks die hiervoor zijn ontworpen. Om dit gebied vooruit te helpen, herziet en verduidelijkt dit artikel eerst Reinforcement Learning-methodologieën voor LLM-agents door het Markov Decision Process (MDP) raamwerk systematisch uit te breiden om de belangrijkste componenten van een LLM Agent uitgebreid te definiëren. Ten tweede introduceren we Agent-R1, een modulair, flexibel en gebruiksvriendelijk trainingsframework voor RL-gebaseerde LLM-agents, ontworpen voor eenvoudige aanpassing aan diverse taken en interactieve omgevingen. We voerden experimenten uit op Multihop QA benchmarktaken, wat een eerste validatie oplevert voor de effectiviteit van onze voorgestelde methoden en framework.
Omnimonale grote taalmodellen (OmniLLM's) trekken recentelijk toenemende onderzoeksaandacht voor verenigde audio-video-begrip, waarbij de verwerking van audio-videotokenreeksen echter een aanzienlijk computationeel knelpunt vormt. Bestaande tokencompressiemethoden hebben deze opkomende behoefte aan gezamenlijke compressie van multimodale tokens nog niet vervuld. Om deze kloof te overbruggen, presenteren we OmniZip, een trainingsvrij, audio-gestuurd audio-visueel tokencompressieraamwerk dat de multimodale tokenrepresentatie optimaliseert en inferentie versnelt. Specifiek identificeert OmniZip eerst saliënte audiotokens, berekent vervolgens een audio-retentiescore voor elke tijdgroep om informatiedichtheid vast te leggen, en leidt daardoor dynamisch de pruning van videotokens en behoudt cues van audio-ankers die worden versterkt door cross-modale gelijkenis. Voor elk tijdvenster comprimeert OmniZip de videotokens met behulp van een intergeleaveerd ruimtelijk-temporeel schema. Uitgebreide empirische resultaten tonen de verdiensten van OmniZip aan - het behaalt een 3,42x versnelling van de inferentie en een 1,4x vermindering van het geheugengebruik ten opzichte van andere topprestatie-alternatieven, waarbij de prestaties behouden blijven zonder training.
De snelle vooruitgang van Large Language Models (LLM's) heeft geleid tot prestatieverzadiging op veel gevestigde benchmarks, wat hun vermogen om toonaangevende modellen te onderscheiden in twijfel trekt. Tegelijkertijd kampen bestaande benchmarks met een hoge moeilijkheidsgraad vaak met een nauwe disciplinaire focus, een te vereenvoudigde antwoordstructuur en kwetsbaarheid voor datacontaminatie, waardoor een kloof ontstaat met het real-world wetenschappelijk onderzoek. Om deze uitdagingen aan te pakken, introduceren wij ATLAS (AGI-Oriented Testbed for Logical Application in Science), een grootschalige, hoogcomplexe en interdisciplinaire evaluatieset bestaande uit ongeveer 800 originele problemen. Ontwikkeld door domeinexperts (promovendus-niveau en hoger), bestrijkt ATLAS zeven kernwetenschappelijke gebieden: wiskunde, natuurkunde, scheikunde, biologie, informatica, aardwetenschappen en materiaalkunde. De belangrijkste kenmerken zijn: (1) Hoge Originaliteit en Bestandheid tegen Contaminatie, waarbij alle vragen nieuw zijn gecreëerd of substantieel zijn aangepast om lekken van testdata te voorkomen; (2) Interdisciplinaire Focus, ontworpen om het vermogen van modellen om kennis te integreren en te redeneren over wetenschappelijke domeinen heen te beoordelen; (3) Hoogwaardige Antwoorden, met prioriteit voor complexe, open-einde antwoorden die meerstaps redeneren en LaTeX-geformatteerde expressies omvatten boven eenvoudige meerkeuzevragen; en (4) Strenge Kwaliteitscontrole, waarbij een meerfasenproces van expert-peerreview en adversarial testing wordt gebruikt om de vraagmoeilijkheid, wetenschappelijke waarde en correctheid te waarborgen. Wij stellen ook een robuust evaluatieparadigma voor dat gebruikmaakt van een panel van LLM-beoordelaars voor een geautomatiseerde, genuanceerde beoordeling van complexe antwoorden. Eerste resultaten op toonaangevende modellen tonen de effectiviteit van ATLAS aan in het differentiëren van hun geavanceerde wetenschappelijke redeneervermogens. Wij zijn van plan ATLAS te ontwikkelen tot een langdurig, open, gemeenschapsgedreven platform om een betrouwbare 'meetlat' te bieden voor de voortgang richting Artificiële Algemene Intelligentie.
Fundamentele modellen zijn effectieve ruggengraten gebleken voor veel visuele taken. Huidige zelf-ondersteunde kenmerken verstrengelen echter hoogwaardige semantiek met laagwaardige fysieke factoren, zoals geometrie en belichting, wat hun gebruik belemmert bij taken die expliciet fysiek redeneren vereisen. In dit artikel introduceren we Φeat, een nieuwe visuele ruggengraat met een fysieke basis, die een representatie bevordert die gevoelig is voor materiaalidentiteit, inclusief reflectie-aanwijzingen en geometrische mesostructuur. Onze kernidee is om een voorafgaande trainingsstrategie toe te passen die ruimtelijke uitsneden en fysieke augmentaties van hetzelfde materiaal onder verschillende vormen en lichtomstandigheden contrasteert. Hoewel vergelijkbare data zijn gebruikt in hoogwaardige, begeleide taken zoals intrinsieke decompositie of materiaalschatting, tonen we aan dat een puur zelf-ondersteunde trainingsstrategie, zonder expliciete labels, reeds een sterke basis biedt voor taken die robuuste kenmerken vereisen die invariant zijn voor externe fysieke factoren. We evalueren de geleerde representaties door analyse van kenmerkovereenkomst en materiaalselectie, en tonen aan dat Φeat fysiek gefundeerde structuur vastlegt die verder gaat dan semantische groepering. Deze bevindingen benadrukken de belofte van niet-gesuperviseerd leren van fysieke kenmerken als basis voor fysiek-bewuste perceptie in visie en grafische toepassingen.
Grote taalmodellen (LLM's) zijn krachtige zero-shot en few-shot learners. Wanneer ze echter voorspellingen maken over een reeks kandidaat-opties, hebben LLM's last van labelvooroordelen, en bestaande kalibratiemethoden negeren de vooroordelen die ontstaan door multi-token klasse-labels. Wij pakken een probleem aan dat we label-lengtevooroordeel noemen, waarbij labels van verschillende lengtes inconsistent worden behandeld, zelfs na standaard lengtenormalisatie. Om dit te verhelpen, stellen we genormaliseerde contextuele kalibratie (NCC) voor, een effectieve methode die voorspellingen normaliseert en kalibreert op het niveau van het volledige label. NCC behaalt statistisch significante verbeteringen ten opzichte van eerdere aanpakken over meerdere datasets en modellen, met winst tot 10% F1. Bovendien breidt NCC de beperking van vooroordelen uit naar bredere taken, zoals meerkeuzevragen beantwoorden. Onze analyse toont aan dat NCC, in combinatie met in-context learning, minder gevoelig is voor de selectie van few-shot voorbeelden, minder voorbeelden nodig heeft voor competitieve prestaties en betrouwbaardere betrouwbaarheidsschattingen produceert. Deze bevindingen benadrukken het belang van het beperken van volledige-labelvooroordelen om de prestaties en robuustheid van op LLM's gebaseerde methoden te verbeteren, vooral in real-world toepassingen waar klasse-labels van nature uit meerdere tokens bestaan.
Wij introduceren proactieve hoortoestellen die automatisch de gesprekspartners van de drager identificeren en scheiden, zonder expliciete aanwijzingen te vereisen. Ons systeem werkt op egocentrisch binauraal audio en gebruikt de eigen spraak van de drager als anker, waarbij het beurtwisselingsgedrag en dialoogdynamiek benut om gesprekspartners af te leiden en anderen te onderdrukken. Om realtime werking op het apparaat mogelijk te maken, stellen we een dual-model architectuur voor: een lichtgewicht streaming model draait elke 12,5 ms voor latentiearme extractie van de gesprekspartners, terwijl een langzamer model minder frequent draait om grootschaligere gespreksdynamiek vast te leggen. Resultaten op realistische testverzamelingen van 2- en 3-sprekersgesprekken, verzameld met binaurale egocentrische hardware van 11 deelnemers in totaal 6,8 uur, tonen generalisatie in het identificeren en isoleren van gesprekspartners in omgevingen met meerdere gesprekken. Ons werk markeert een stap richting hoortoestellen die proactief aanpassen aan gespreksdynamiek en betrokkenheid. Meer informatie is te vinden op onze website: https://proactivehearing.cs.washington.edu/
Agentische codeertools ontvangen doelen geschreven in natuurlijke taal als invoer, splitsen deze op in specifieke taken, en schrijven of executeren de daadwerkelijke code met minimale menselijke tussenkomst. Centraal in dit proces staan agentcontextbestanden ("READMEs voor agents") die persistente, projectbrede instructies bevatten. In dit artikel voeren we de eerste grootschalige empirische studie uit van 2.303 agentcontextbestanden uit 1.925 repositories om hun structuur, onderhoud en inhoud te karakteriseren. Wij constateren dat deze bestanden geen statische documentatie zijn, maar complexe, moeilijk leesbare artefacten die evolueren zoals configuratiecode, onderhouden door frequente, kleine toevoegingen. Onze inhoudsanalyse van 16 instructietypen toont aan dat ontwikkelaars prioriteit geven aan functionele context, zoals build- en run-commando's (62,3%), implementatiedetails (69,9%) en architectuur (67,7%). We identificeren ook een significante kloof: niet-functionele vereisten zoals beveiliging (14,5%) en prestaties (14,5%) worden zelden gespecificeerd. Deze bevindingen geven aan dat ontwikkelaars contextbestanden weliswaar gebruiken om agents functioneel te maken, maar dat ze weinig veiligheidsmaatregelen bieden om te waarborgen dat door agents geschreven code veilig of performant is, wat de behoefte aan verbeterde tooling en praktijken benadrukt.
Ondanks recente vooruitgang in 3D-LLM's blijven ze beperkt in het nauwkeurig verankeren van taal aan visuele en ruimtelijke elementen in 3D-omgevingen. Deze beperking komt deels voort uit trainingsdata die zich richt op taalredenering in plaats van ruimtelijk begrip, vanwege schaarse 3D-bronnen, waardoor inherente verankeringsvooroordelen onopgelost blijven. Om dit aan te pakken, stellen we 3D-scènebewerking voor als een sleutelmechanisme om precieze visuele tegenfactoren te genereren die deze vooroordelen mitigeren door middel van fijnmazige ruimtelijke manipulatie, zonder dure scèhereconstructie of grootschalige 3D-datacollectie. Verder introduceren we, om deze bewerkingen gericht te maken en de specifieke zwaktes van het model direct aan te pakken, DEER-3D: een foutgedreven raamwerk dat een gestructureerde "Decomponeren, Diagnostische Evaluatie, Bewerken en Opnieuw Trainen"-werkstroom volgt, in plaats van data breed of willekeurig aan te vullen zoals bij conventionele aanpakken. Specifiek, na het identificeren van een verankeringsfout van de 3D-LLM, diagnosticeert ons raamwerk eerst de exacte fout op predikaatniveau (bijvoorbeeld een attribuut- of ruimtelijke relatie). Vervolgens voert het minimale, op het predikaat afgestemde 3D-scènebewerkingen uit, zoals herkleuren of herpositioneren, om gerichte tegenfactuele supervisie te produceren voor iteratieve modelverfijning, wat de verankeringsnauwkeurigheid aanzienlijk verbetert. We evalueren onze bewerkingspijplijn op meerdere benchmarks voor 3D-verankering en scènebegriptaken, waarbij we consistent verbeteringen aantonen across alle geëvalueerde datasets door iteratieve verfijning. DEER-3D benadrukt de effectiviteit van gerichte, foutgedreven scènebewerking bij het overbruggen van linguïstische redeneervaardigheden met ruimtelijke verankering in 3D-LLM's.
Menselijke emoties zijn moeilijk in woorden uit te drukken en worden in het proces vaak geabstraheerd; elektro-encefalogram (EEG)-signalen kunnen daarentegen een directere inkijk bieden in emotionele hersenactiviteit. Recente studies tonen aan dat deep learning-modellen deze signalen kunnen verwerken om emotieherkenning met hoge nauwkeurigheid uit te voeren. Veel bestaande methoden negeren echter de dynamische wisselwerking tussen verschillende hersengebieden, die cruciaal kan zijn om te begrijpen hoe emoties zich in de tijd ontvouwen en evolueren, wat mogelijk kan bijdragen aan een nauwkeurigere emotieherkenning. Om dit aan te pakken, stellen we RBTransformer voor, een op Transformer gebaseerde neurale netwerkarchitectuur die de neurale dynamiek tussen hersenschorsgebieden modelleert in de latente ruimte om gestructureerde neurale interacties beter te vangen voor effectieve EEG-gebaseerde emotieherkenning. Eerst worden de EEG-signalen omgezet in Band Differentiële Entropie (BDE)-tokens, die vervolgens door Electrode Identity embeddings worden geleid om de ruimtelijke herkomst te behouden. Deze tokens worden verwerkt door opeenvolgende multi-head attention blokken tussen hersenschorsgebieden, die een aandachtmatrix (electrode x electrode) construeren, zodat het model de neurale afhankelijkheden tussen de hersenschorsgebieden kan leren. De resulterende kenmerken worden vervolgens door een classificatiehoofd geleid om de uiteindelijke voorspelling te verkrijgen. We hebben uitgebreide experimenten uitgevoerd, specifiek onder subject-afhankelijke condities, op de SEED, DEAP en DREAMER datasets, voor alle drie de dimensies (Valentie, Arousal en Dominantie voor DEAP en DREAMER), onder zowel binaire als multi-class classificatieomstandigheden. De resultaten tonen aan dat de voorgestelde RBTransformer alle vorige state-of-the-art methoden overtreft op alle drie de datasets, voor alle drie de dimensies onder beide classificatieomstandigheden. De broncode is beschikbaar op: https://github.com/nnilayy/RBTransformer.
Chaos Engineering (CE) is een engineeringtechniek die gericht is op het verbeteren van de veerkracht van gedistribueerde systemen. Hierbij worden opzettelijk fouten in een systeem geïnjecteerd om de veerkracht te testen, zwakke plekken bloot te leggen en deze aan te pakken voordat ze tot storingen in de productieomgeving leiden. Moderne CE-tools automatiseren de uitvoering van vooraf gedefinieerde CE-experimenten. Het plannen van dergelijke experimenten en het verbeteren van het systeem op basis van de experimentele resultaten blijft echter een handmatig proces. Deze processen zijn arbeidsintensief en vereisen expertise op meerdere domeinen. Om deze uitdagingen aan te pakken en het voor iedereen mogelijk te maken om tegen lage kosten veerkrachtige systemen te bouwen, stelt dit artikel ChaosEater voor, een systeem dat de volledige CE-cyclus automatiseert met behulp van Large Language Models (LLM's). Het definieert een agent-gebaseerde workflow volgens een systematische CE-cyclus en wijst onderverdeelde processen binnen de workflow toe aan LLM's. ChaosEater richt zich op CE voor softwaresystemen die zijn gebouwd op Kubernetes. Daarom voltooien de LLM's in ChaosEater CE-cycli door middel van software-engineeringtaken, waaronder requirementdefinitie, codegeneratie, testen en debuggen. We evalueren ChaosEater via casestudies op kleinschalige en grootschalige Kubernetes-systemen. De resultaten tonen aan dat het consistent redelijke CE-cycli voltooit met aanzienlijk lage tijds- en geldkosten. De cycli worden ook kwalitatief gevalideerd door menselijke engineers en LLM's.
Grote Vision-Language Modellen (LVLMs) aligneren doorgaans visuele kenmerken van een encoder met een vooraf getraind Groot Taalmodel (LLM). Hierdoor wordt echter de visuele perceptiemodule een knelpunt, wat de algehele capaciteiten van LVLMs beperkt. Conventionele evaluatiebenchmarks, hoewel rijk aan visuele semantiek, bevatten vaak onvermijdelijke lokale shortcuts die kunnen leiden tot een overschatting van de perceptuele vermogens van modellen. Hier introduceren we TopoPerception, een benchmark die topologische eigenschappen benut om de globale visuele perceptiecapaciteiten van LVLMs op verschillende granulariteiten rigoureus te evalueren. Omdat topologie afhangt van de globale structuur van een afbeelding en invariant is voor lokale kenmerken, stelt TopoPerception een shortcut-vrije beoordeling van globale perceptie mogelijk, wat het fundamenteel onderscheidt van semantisch rijke taken. We evalueren state-of-the-art modellen op TopoPerception en constateren dat zelfs op de grofste perceptuele granulariteit alle modellen niet beter presteren dan willekeurige kans, wat duidt op een diepgaand onvermogen om globale visuele kenmerken waar te nemen. Opmerkelijk is dat er binnen modelfamilies een consistente trend naar voren komt: krachtigere modellen met sterkere redeneervermogens vertonen een lagere nauwkeurigheid. Dit suggereert dat het simpelweg opschalen van modellen onvoldoende is om dit tekort aan te pakken en het zelfs kan verergeren. Vooruitgang kan nieuwe trainingsparadigma's of architecturen vereisen. TopoPerception legt niet alleen een kritiek knelpunt in huidige LVLMs bloot, maar biedt ook een lens en richting voor het verbeteren van hun globale visuele perceptie. De data en code zijn openbaar beschikbaar op: https://github.com/Wenhao-Zhou/TopoPerception.