Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diepe onderzoeksagenten, aangedreven door Large Language Models (LLMs), maken snel vooruitgang; toch stagneert hun prestaties vaak bij het genereren van complexe, langlopende onderzoeksrapporten met behulp van generieke test-time schaalalgoritmen. Geïnspireerd door de iteratieve aard van menselijk onderzoek, dat cycli van zoeken, redeneren en revisie omvat, stellen we de Test-Time Diffusion Deep Researcher (TTD-DR) voor. Dit nieuwe framework conceptualiseert het genereren van onderzoeksrapporten als een diffusieproces. TTD-DR start dit proces met een voorlopige conceptversie, een bijwerkbaar skelet dat dient als een evoluerende basis om de onderzoeksrichting te sturen. Het concept wordt vervolgens iteratief verfijnd door een "denoising"-proces, dat dynamisch wordt geïnformeerd door een retrievalsysteem dat bij elke stap externe informatie integreert. Het kernproces wordt verder versterkt door een zelf-evolutionair algoritme dat wordt toegepast op elk onderdeel van de agentworkflow, waardoor de generatie van hoogwaardige context voor het diffusieproces wordt gegarandeerd. Dit ontwerp, gericht op het concept, maakt het schrijfproces van het rapport tijdiger en coherent, terwijl informatieverlies tijdens het iteratieve zoekproces wordt verminderd. We tonen aan dat onze TTD-DR state-of-the-art resultaten behaalt op een breed scala aan benchmarks die intensief zoeken en multi-hop redeneren vereisen, en daarmee bestaande diepe onderzoeksagenten aanzienlijk overtreft.
Het kwantiseren van de gewichten van grote taalmodellen (LLMs) van 16-bit naar een lagere bitbreedte is de facto de aanpak om massieve transformers op betaalbare accelerators te implementeren. GPTQ is naar voren gekomen als een van de standaardmethoden voor one-shot post-training kwantisatie op LLM-schaal. Echter, de interne werking ervan wordt beschreven als een reeks ad-hoc algebraïsche updates die elke geometrische betekenis of garanties voor het slechtste geval verhullen. In dit werk tonen we aan dat, wanneer GPTQ van achter naar voren (van de laatste naar de eerste dimensie) wordt uitgevoerd voor een lineaire laag, het wiskundig identiek is aan Babai's nearest plane-algoritme voor het klassieke closest vector problem (CVP) op een rooster gedefinieerd door de Hessiaanmatrix van de invoer van de laag. Deze equivalentie is gebaseerd op een geavanceerd wiskundig argument en heeft twee analytische gevolgen: (i) de foutpropagatiestap van GPTQ krijgt een intuïtieve geometrische interpretatie; (ii) GPTQ erft de foutbovengrens van Babai's algoritme onder de no-clipping conditie. Samen genomen plaatsen deze resultaten GPTQ op een stevig theoretisch fundament en openen ze de deur om decennia van vooruitgang in roosteralgoritmen te importeren voor het ontwerpen van toekomstige kwantisatiealgoritmen voor modellen met miljarden parameters.
We introduceren MMBench-GUI, een hiërarchische benchmark voor het evalueren van GUI-automatiseringagents op Windows, macOS, Linux, iOS, Android en webplatformen. Het bestaat uit vier niveaus: GUI-inhoudsbegrip, elementverankering, taakautomatisering en taaksamenwerking, die essentiële vaardigheden voor GUI-agents omvatten. Daarnaast stellen we een nieuwe Efficiency-Quality Area (EQA)-metriek voor om de uitvoeringsefficiëntie van GUI-agents in online automatiseringsscenario's te beoordelen. Via MMBench-GUI identificeren we nauwkeurige visuele verankering als een cruciale bepalende factor voor het algehele taken succes, waarbij we de aanzienlijke voordelen benadrukken van modulaire frameworks die gespecialiseerde verankeringsmodules integreren. Bovendien vereist een agent voor betrouwbare GUI-automatisering sterke taakplanning en cross-platform generalisatievermogens, waarbij langetermijngeheugen, een brede actieruimte en langetermijnredenering een cruciale rol spelen. Belangrijker nog, taakefficiëntie blijft een kritisch onderbelicht aspect, en alle modellen lijden onder aanzienlijke inefficiënties, met overmatige overbodige stappen, zelfs wanneer taken uiteindelijk worden voltooid. De integratie van precieze lokalisatie, effectieve planning en vroegtijdige stopstrategieën is onmisbaar om echt efficiënte en schaalbare GUI-automatisering mogelijk te maken. Onze benchmarkcode, evaluatiedata en uitvoeringsomgeving zullen publiekelijk beschikbaar zijn op https://github.com/open-compass/MMBench-GUI.
Grote taalmodellen (LLMs) worden steeds vaker aangepast aan downstream taken via reinforcement learning (RL) methoden zoals Group Relative Policy Optimization (GRPO), die vaak duizenden rollouts vereisen om nieuwe taken te leren. Wij stellen dat de interpreteerbare aard van taal vaak een veel rijker leermedium kan bieden voor LLMs, vergeleken met beleidsgradiënten die zijn afgeleid van schaarse, scalaire beloningen. Om dit te testen, introduceren we GEPA (Genetic-Pareto), een prompt-optimalisator die grondig natuurlijke taalreflectie incorporeert om hoogwaardige regels te leren uit vallen en opstaan. Gegeven elk AI-systeem dat een of meer LLM-prompts bevat, bemonstert GEPA systeemniveau trajecten (bijv. redeneren, toolaanroepen en tooluitvoer) en reflecteert hierop in natuurlijke taal om problemen te diagnosticeren, prompt-updates voor te stellen en te testen, en complementaire lessen te combineren vanuit het Pareto-frontier van zijn eigen pogingen. Als gevolg van het ontwerp van GEPA kan het vaak zelfs maar een paar rollouts omzetten in een grote kwaliteitswinst. Over vier taken presteert GEPA gemiddeld 10% beter dan GRPO en tot wel 20%, terwijl het tot 35x minder rollouts gebruikt. GEPA presteert ook meer dan 10% beter dan de toonaangevende prompt-optimalisator, MIPROv2, over twee LLMs, en laat veelbelovende resultaten zien als een zoekstrategie tijdens inferentie voor code-optimalisatie.
Multimodale grote taalmodellen (MLLMs) hebben opmerkelijke vooruitgang geboekt, grotendeels gedreven door hun vermogen om steeds langere en complexere contexten te verwerken, zoals hoogwaardige afbeeldingen, uitgebreide videosequenties en lange audio-input. Hoewel dit vermogen de mogelijkheden van MLLMs aanzienlijk verbetert, brengt het aanzienlijke computationele uitdagingen met zich mee, voornamelijk vanwege de kwadratische complexiteit van self-attention-mechanismen bij een groot aantal invoertokens. Om deze knelpunten te verlichten, is tokencompressie naar voren gekomen als een veelbelovende en cruciale aanpak, die het aantal tokens efficiënt reduceert tijdens zowel training als inferentie. In dit artikel presenteren we de eerste systematische overzicht en synthese van het snelgroeiende veld van multimodale lange context tokencompressie. Erkennend dat effectieve compressiestrategieën diep verbonden zijn met de unieke kenmerken en redundanties van elke modaliteit, categoriseren we bestaande benaderingen op basis van hun primaire datafocus, waardoor onderzoekers snel methoden kunnen vinden en leren die zijn afgestemd op hun specifieke interessegebied: (1) beeldgerichte compressie, die ruimtelijke redundantie in visuele gegevens aanpakt; (2) videogerichte compressie, die spatio-temporele redundantie in dynamische sequenties aanpakt; en (3) audiogerichte compressie, die temporele en spectrale redundantie in akoestische signalen behandelt. Naast deze modaliteitsgedreven categorisatie, ontleden we methoden verder op basis van hun onderliggende mechanismen, waaronder transformatiegebaseerde, gelijkenisgebaseerde, attentiongebaseerde en querygebaseerde benaderingen. Door een uitgebreid en gestructureerd overzicht te bieden, beoogt deze overzicht de huidige vooruitgang te consolideren, belangrijke uitdagingen te identificeren en toekomstige onderzoeksrichtingen in dit snel evoluerende domein te inspireren. We onderhouden ook een openbare repository om de nieuwste ontwikkelingen in dit veelbelovende gebied continu te volgen en bij te werken.
De evaluatie van Large Language Models (LLM's) maakt steeds vaker gebruik van andere LLM's die als beoordelaars fungeren. Huidige evaluatieparadigma's resulteren echter meestal in een enkele score of rangschikking, die aangeeft welk model beter is, maar niet waarom. Hoewel essentieel voor benchmarking, verhullen deze toplijnscores de specifieke, actiegerichte redenen achter de prestaties van een model. Om deze kloof te overbruggen, introduceren we CLEAR, een interactief, open-source pakket voor foutenanalyse op basis van LLM's. CLEAR genereert eerst tekstuele feedback per instantie, creëert vervolgens een set van systeemniveau foutproblemen, en kwantificeert de prevalentie van elk geïdentificeerd probleem. Ons pakket biedt gebruikers ook een interactief dashboard dat een uitgebreide foutenanalyse mogelijk maakt via geaggregeerde visualisaties, interactieve filters toepast om specifieke problemen of scorereeksen te isoleren, en inzoomt op de individuele instanties die een bepaald gedragspatroon illustreren. We demonstreren de CLEAR-analyse voor RAG- en Math-benchmarks, en tonen de bruikbaarheid ervan aan via een gebruikerscasestudy.
Om de ongekende risico's te begrijpen en te identificeren die worden veroorzaakt door snel voortschrijdende kunstmatige intelligentie (AI)-modellen, presenteert dit rapport een uitgebreide beoordeling van hun grensrisico's. Gebaseerd op de E-T-C-analyse (implementatieomgeving, bedreigingsbron, mogelijk makende capaciteit) uit het Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), identificeren we kritieke risico's in zeven gebieden: cyberaanvallen, biologische en chemische risico's, overtuiging en manipulatie, ongecontroleerde autonome AI R\&D, strategische misleiding en samenzwering, zelfreplicatie, en samenspanning. Geleid door de "AI-45^circ Wet," evalueren we deze risico's met behulp van "rode lijnen" (onacceptabele drempels) en "gele lijnen" (vroege waarschuwingsindicatoren) om risicozones te definiëren: groen (beheersbaar risico voor routinematige implementatie en continue monitoring), geel (vereist versterkte mitigaties en gecontroleerde implementatie), en rood (vereist opschorting van ontwikkeling en/of implementatie). Experimentele resultaten tonen aan dat alle recente frontier AI-modellen zich in de groene en gele zones bevinden, zonder rode lijnen te overschrijden. Specifiek overschrijdt geen enkel geëvalueerd model de gele lijn voor cyberaanvallen of ongecontroleerde AI R\&D-risico's. Voor zelfreplicatie, en strategische misleiding en samenzwering, blijven de meeste modellen in de groene zone, met uitzondering van bepaalde redeneermodellen in de gele zone. Bij overtuiging en manipulatie bevinden de meeste modellen zich in de gele zone vanwege hun effectieve invloed op mensen. Voor biologische en chemische risico's kunnen we de mogelijkheid niet uitsluiten dat de meeste modellen zich in de gele zone bevinden, hoewel gedetailleerde bedreigingsmodellering en diepgaande beoordeling nodig zijn om verdere claims te maken. Dit werk weerspiegelt ons huidige begrip van AI-grensrisico's en dringt aan op collectieve actie om deze uitdagingen te mitigeren.
Taalmodellen (LMs) zijn vatbaar voor in-context beloningsmanipulatie, waarbij ze misbruik maken van fouten in verontreinigde of gebrekkige geschreven specificaties of rubrics om hoge scores te behalen zonder de werkelijke intentie van de gebruiker te vervullen. We introduceren Specificatie Zelfcorrectie (SSC), een nieuw, testtijd-framework dat een LM in staat stelt om fouten in zijn eigen leidende specificatie te identificeren en te corrigeren. SSC maakt gebruik van een meerstaps inferentieproces waarbij het model eerst een reactie genereert op basis van een mogelijk verontreinigde specificatie, zijn output beoordeelt, en vervolgens de specificatie zelf herziet om het uitbuitbare lek te verwijderen. Een definitieve, robuustere reactie wordt vervolgens gegenereerd met behulp van deze zelf-gecorrigeerde specificatie. In experimenten die creatief schrijven en agent-gecodeerde taken omvatten met verschillende LMs, tonen we aan dat terwijl modellen aanvankelijk in 50-70\% van de gevallen misbruik maken van verontreinigde specificaties, het SSC-proces deze kwetsbaarheid met meer dan 90\% vermindert. Deze dynamische reparatie vindt plaats tijdens inferentie, vereist geen gewichtsaanpassing, en leidt tot robuuster uitgelijnd modelgedrag. Code is beschikbaar op https://github.com/vicgalle/specification-self-correction.
Hoewel end-to-end autonome rijsystemen veelbelovende resultaten laten zien, wordt hun praktische implementatie vaak belemmerd door grote modelgroottes, een afhankelijkheid van dure LiDAR-sensoren en rekenintensieve BEV-feature-representaties. Dit beperkt hun schaalbaarheid, vooral voor massamarktvoertuigen die alleen met camera's zijn uitgerust. Om deze uitdagingen aan te pakken, stellen we PRIX (Plan from Raw Pixels) voor. Onze nieuwe en efficiënte end-to-end rijsarchitectuur werkt uitsluitend met cameragegevens, zonder expliciete BEV-representatie en zonder de noodzaak van LiDAR. PRIX maakt gebruik van een visuele feature-extractor in combinatie met een generatieve planningsmodule om veilige trajecten rechtstreeks vanuit ruwe pixelinvoer te voorspellen. Een kerncomponent van onze architectuur is de Context-aware Recalibration Transformer (CaRT), een nieuwe module die is ontworpen om multi-level visuele features effectief te versterken voor robuustere planning. We tonen door middel van uitgebreide experimenten aan dat PRIX state-of-the-art prestaties behaalt op de NavSim- en nuScenes-benchmarks, waarbij het de mogelijkheden van grotere, multimodale diffusieplanners evenaart terwijl het aanzienlijk efficiënter is wat betreft inferentiesnelheid en modelgrootte, wat het een praktische oplossing maakt voor implementatie in de echte wereld. Ons werk is open-source en de code zal beschikbaar zijn op https://maxiuw.github.io/prix.
AI Video Chat ontstaat als een nieuw paradigma voor Real-time Communicatie (RTC), waarbij één partij geen mens is, maar een Multimodaal Taalmodel op Grote Schaal (MLLM). Dit maakt de interactie tussen mensen en AI intuïtiever, alsof je face-to-face praat met een echt persoon. Dit brengt echter aanzienlijke uitdagingen met zich mee op het gebied van latentie, omdat de MLLM-inferentie het grootste deel van de reactietijd in beslag neemt, waardoor er zeer weinig tijd overblijft voor videostreaming. Door netwerkonzekerheid en -instabiliteit wordt transmissielatentie een kritieke bottleneck die voorkomt dat AI op een echt persoon lijkt. Om dit aan te pakken, stellen we Artic voor, een AI-gericht Real-time Communicatie-framework, dat de verschuiving in netwerkvereisten onderzoekt van "mensen die video bekijken" naar "AI die video begrijpt". Om de bitrate drastisch te verlagen terwijl de nauwkeurigheid van het MLLM behouden blijft, stellen we Context-Aware Video Streaming voor, dat het belang van elk videogebied voor de chat herkent en de bitrate vrijwel uitsluitend toewijst aan chat-belangrijke gebieden. Om pakketretransmissie te voorkomen, stellen we Loss-Resilient Adaptive Frame Rate voor, dat gebruikmaakt van vorige frames om verloren/vertraagde frames te vervangen terwijl bitrateverspilling wordt vermeden. Om de impact van videostreamingkwaliteit op de nauwkeurigheid van het MLLM te evalueren, bouwen we de eerste benchmark, genaamd Degraded Video Understanding Benchmark (DeViBench). Tot slot bespreken we enkele open vragen en lopende oplossingen voor AI Video Chat.
In Unsupervised Domain Adaptive Semantic Segmentation (UDA-SS) wordt een model getraind op gelabelde gegevens van een brondomein (bijvoorbeeld synthetische afbeeldingen) en aangepast aan een ongelabeld doeldomein (bijvoorbeeld real-world afbeeldingen) zonder toegang tot annotaties van het doeldomein. Bestaande UDA-SS-methoden hebben vaak moeite om fijnmazige lokale details te balanceren met globale contextuele informatie, wat leidt tot segmentatiefouten in complexe regio's. Om dit aan te pakken, introduceren we de Adaptive Feature Refinement (AFR)-module, die de segmentatienauwkeurigheid verbetert door hoogresolutiekenmerken te verfijnen met behulp van semantische priors uit laagresolutie logits. AFR integreert ook hoogfrequente componenten, die fijnmazige structuren vastleggen en cruciale grensinformatie bieden, waardoor de objectafbakening wordt verbeterd. Daarnaast balanceert AFR adaptief lokale en globale informatie door middel van onzekerheidsgedreven aandacht, wat misclassificaties vermindert. Het lichtgewicht ontwerp maakt naadloze integratie mogelijk in HRDA-gebaseerde UDA-methoden, wat leidt tot state-of-the-art segmentatieprestaties. Onze aanpak verbetert bestaande UDA-SS-methoden met 1,05% mIoU op GTA V --> Cityscapes en 1,04% mIoU op Synthia-->Cityscapes. De implementatie van ons framework is beschikbaar op: https://github.com/Masrur02/AFRDA