Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in diffusiegebaseerde videogeneratie heeft nieuwe mogelijkheden geopend voor controleerbare videobewerking, maar realistische video-objectinvoeging (VOI) blijft een uitdaging vanwege beperkt 4D-scènebegrip en onvoldoende afhandeling van occlusie- en belichtingseffecten. Wij presenteren InsertAnywhere, een nieuw VOI-raamwerk dat geometrisch consistente objectplaatsing en uiterlijk-getrouwe videosynthese bereikt. Onze methode begint met een 4D-bewuste maskergeneratiemodule die de scènegeometrie reconstrueert en door de gebruiker gespecificeerde objectplaatsing over frames propageert, waarbij temporele coherentie en occlusieconsistentie worden behouden. Voortbouwend op deze ruimtelijke basis breiden we een diffusiegebaseerd videogeneratiemodel uit om gezamenlijk het ingevoegde object en de lokale variaties in de omgeving ervan, zoals belichting en schaduw, te synthetiseren. Om gesuperviseerde training mogelijk te maken, introduceren we ROSE++, een illuminatiebewuste synthetische dataset die is geconstrueerd door de ROSE-objectverwijdingsdataset om te zetten in tripletten van objectverwijderde video, object-aanwezige video en een VLM-gegenereerde referentieafbeelding. Door middel van uitgebreide experimenten tonen we aan dat ons framework geometrisch plausibele en visueel coherente objectinvoegingen produceert in diverse real-world scenario's, waarbij het significant beter presteert dan bestaande onderzoeks- en commerciële modellen.
Mensen begrijpen lange en complexe teksten door te steunen op een holistische semantische representatie van de inhoud. Dit globaal perspectief helpt bij het organiseren van voorkennis, het interpreteren van nieuwe informatie en het integreren van bewijs dat verspreid is over een document, zoals onthuld wordt door de Mindscape-Aware Capability van mensen in de psychologie. Huidige Retrieval-Augmented Generation (RAG)-systemen missen een dergelijke leidraad en hebben daarom moeite met taken die een lange context vereisen. In dit artikel stellen we Mindscape-Aware RAG (MiA-RAG) voor, de eerste aanpak die op LLM gebaseerde RAG-systemen uitrust met expliciet bewustzijn van de globale context. MiA-RAG bouwt een 'mindscape' op door middel van hiërarchische samenvatting en conditioneert zowel de retrieval als de generatie op deze globale semantische representatie. Hierdoor kan de retriever verrijkte query-embeddingen vormen en kan de generator redeneren over opgehaald bewijs binnen een samenhangende globale context. We evalueren MiA-RAG op diverse benchmarks voor lange context en tweetalige taken, gericht op op bewijs gebaseerd begrip en globaal betekenisgeven. Het systeem overtreft consistent de baseline-methoden, en verdere analyse toont aan dat het lokale details afstemt op een coherente globale representatie, wat een meer mensachtige retrieval en redenering over lange context mogelijk maakt.
De ontwikkeling van GUI-agents zou de volgende generatie mens-computerinteractie kunnen revolutioneren. Gemotiveerd door deze visie presenteren we MAI-UI, een familie van fundamentele GUI-agents die het volledige spectrum aan formaten omvat, waaronder varianten van 2B, 8B, 32B en 235B-A22B. Wij identificeren vier belangrijke uitdagingen voor realistische inzet: het gebrek aan native agent-gebruiker interactie, de beperkingen van UI-only werking, de afwezigheid van een praktische implementatie-architectuur en broosheid in dynamische omgevingen. MAI-UI lost deze problemen op met een uniforme methodologie: een zelf-evoluerende datapijplijn die de navigatiedata uitbreidt om gebruikersinteractie en MCP-toolaanroepen te omvatten, een native device-cloud samenwerkingssysteem dat uitvoering routeert op basis van taakstatus, en een online RL-framework met geavanceerde optimalisaties om parallelle omgevingen en contextlengte te schalen. MAI-UI vestigt nieuwe state-of-the-art prestaties op het gebied van GUI-gronding en mobiele navigatie. Op gronding benchmarks behaalt het 73,5% op ScreenSpot-Pro, 91,3% op MMBench GUI L2, 70,9% op OSWorld-G en 49,2% op UI-Vision, waarmee het Gemini-3-Pro en Seed1.8 op ScreenSpot-Pro overtreft. Op mobiele GUI-navigatie stelt het een nieuwe SOTA van 76,7% vast op AndroidWorld, waarmee het UI-Tars-2, Gemini-2.5-Pro en Seed1.8 overtreft. Op MobileWorld behaalt MAI-UI een slagingspercentage van 41,7%, wat aanzienlijk beter is dan end-to-end GUI-modellen en competitief met op Gemini-3-Pro gebaseerde agent-frameworks. Onze online RL-experimenten tonen significante winsten aan door het schalen van parallelle omgevingen van 32 naar 512 (+5,2 punten) en het verhogen van de omgevingsstapbudget van 15 naar 50 (+4,3 punten). Ten slotte verbetert het native device-cloud samenwerkingssysteem de prestaties op het apparaat met 33%, vermindert het cloudmodelaanroepen met meer dan 40% en beschermt het de privacy van gebruikers.
Multimodale grote taalmodellen (MLLM's) hebben opmerkelijke vooruitgang geboekt in visuele begripstaken zoals visuele grounding, segmentatie en bijschriften. Hun vermogen om waarnemingsniveau beeldkenmerken te percipiëren blijft echter beperkt. In dit werk presenteren we UniPercept-Bench, een uniform raamwerk voor beeldbegrip op waarnemingsniveau binnen drie kerngebieden: Esthetiek, Kwaliteit, Structuur en Textuur. We stellen een hiërarchisch definitiesysteem op en construeren grootschalige datasets om beeldbegrip op waarnemingsniveau te evalueren. Op basis hiervan ontwikkelen we een sterke baseline, UniPercept, getraind via Domein-Adaptieve Voorafgaande Training en Taak-Uitgelijnde RL, wat robuuste generalisatie mogelijk maakt voor zowel Visuele Beoordeling (VR) als Visuele Vraag-antwoordtaken (VQA). UniPercept overtreft bestaande MLLM's op het gebied van beeldbegrip op waarnemingsniveau en kan dienen als een plug-and-play beloningsmodel voor tekst-naar-beeldgeneratie. Dit werk definieert Beeldbegrip op Waarnemingsniveau in het tijdperk van MLLM's en biedt, door de introductie van een uitgebreide benchmark samen met een sterke baseline, een solide basis voor het bevorderen van multimodaal beeldbegrip op waarnemingsniveau.
Op inversie gebaseerde visuele bewerking biedt een effectieve en trainingsvrije manier om een afbeelding of video te bewerken op basis van gebruikersinstructies. Bestaande methoden injecteren doorgaans bronafbeeldingsinformatie tijdens het samplingproces om bewerkingsconsistentie te behouden. Deze samplingstrategie vertrouwt echter te veel op broninformatie, wat de bewerkingen in de doelafbeelding negatief beïnvloedt (bijvoorbeeld het niet kunnen wijzigen van de eigenschappen van het onderwerp, zoals houding, aantal of kleur, zoals geïnstrueerd). In dit werk stellen we ProEdit voor om dit probleem zowel op aandacht- als latentieniveau aan te pakken. Op het gebied van aandacht introduceren we KV-mix, dat KV-features van de bron en het doel in het bewerkte gebied mengt, om de invloed van de bronafbeelding op het bewerkingsgebied te verminderen terwijl de achtergrondconsistentie behouden blijft. Op latentieniveau stellen we Latents-Shift voor, dat het bewerkte gebied van de bronlatentie verstoort, waardoor de invloed van de geïnverteerde latentie op de sampling wordt geëlimineerd. Uitgebreide experimenten op verschillende benchmarks voor beeld- en videobewerking tonen aan dat onze methode state-of-the-art prestaties bereikt. Bovendien is ons ontwerp plug-and-play, wat naadloos kan worden geïntegreerd in bestaande inversie- en bewerkingsmethoden, zoals RF-Solver, FireFlow en UniEdit.
Grote Taalmodellen (LLM's) worden steeds vaker ingezet in tijdkritische systemen, zoals robotica, autonoom rijden, embodied intelligence en industriële automatisering, waar het genereren van nauwkeurige antwoorden binnen een bepaald tijdsbudget cruciaal is voor besluitvorming, controle of veiligheidskritieke taken. Het autoregressieve generatieproces van LLM's maakt het echter uitdagend om de end-to-end uitvoeringstijd te modelleren en te schatten. Bovendien worstelen bestaande efficiënte inferentiemethoden, gebaseerd op een vaste verdrijvingsratio voor de key-value (KV)-cache, zich aan te passen aan uiteenlopende taken met verschillende tijdsbudgetten, waarbij een onjuiste verdrijvingsratio kan leiden tot onvolledige inferentie of een daling van de antwoordprestaties. In dit artikel stellen we TimeBill voor, een nieuw inferentieraamwerk voor LLM's met tijdsbudgettering dat de inferentie-efficiëntie en antwoordprestaties in evenwicht brengt. Concreet stellen we een fijnmazige voorspeller voor responslengte (RLP) en een schatter voor uitvoeringstijd (ETE) voor om de end-to-end uitvoeringstijd van LLM's nauwkeurig te voorspellen. Vervolgens ontwikkelen we een efficiënte inferentie-aanpak met tijdsbudgettering die de KV-cache-verdrijvingsratio adaptief aanpast op basis van de voorspelde uitvoeringstijd en het gegeven tijdsbudget. Tot slot tonen we door middel van uitgebreide experimenten de voordelen van TimeBill aan bij het verbeteren van de taakvoltooiingsgraad en het handhaven van de antwoordprestaties onder verschillende overschrijdingsstrategieën.
Grote vision-language modellen (VLMs) hebben vaak baat bij tussenliggende visuele aanwijzingen, die ofwel via externe tools worden ingevoerd of gegenereerd als latente visuele tokens tijdens het redeneren. Deze mechanismen negeren echter nog steeds fijnmazig visueel bewijs (zoals polylijnen in grafieken), generaliseren slecht over domeinen heen en veroorzaken hoge inferentiekosten. In dit artikel stellen we Bi-directionele Perceptuele Vorming (BiPS) voor, die vraag-geconditioneerde gemaskeerde beelden omzet in bidirectionele waar-te-kijken-signalen die de perceptie tijdens de training vormen. BiPS past eerst een KL-consistentiebeperking toe tussen de originele afbeelding en een bewijsbewarende weergave die alleen vraagrelevante regio's behoudt, wat een grove maar volledige dekking van ondersteunende pixels aanmoedigt. Vervolgens past het een KL-scheidingsbeperking toe tussen de originele afbeelding en een bewijs-verwijderde weergave waarin kritieke pixels zijn gemaskeerd, zodat de afbeelding het oorspronkelijke antwoord niet langer ondersteunt. Dit ontmoedigt tekst-only shortcuts (het antwoorden op basis van tekst alleen) en dwingt fijnmazige visuele afhankelijkheid af. Over acht benchmarks verbetert BiPS Qwen2.5-VL-7B gemiddeld met 8,2% en vertoont het sterke generalisatie buiten het domein naar onbeziene datasets en afbeeldingstypen.
Weermodellering vereist zowel accurate voorspelling als mechanistische interpretatie, maar bestaande methoden behandelen deze doelstellingen geïsoleerd door generatie van begrip te scheiden. Om deze kloof te dichten, presenteren wij Omni-Weather, het eerste multimodale foundation-model dat weergeneratie en -begrip verenigt binnen een enkele architectuur. Omni-Weather integreert een radar-encoder voor weergeneratietaken, gevolgd door uniforme verwerking via een gedeeld self-attention-mechanisme. Bovendien construeren we een Chain-of-Thought-dataset voor causaal redeneren bij weergeneratie, wat interpreteerbare uitvoer en verbeterde perceptuele kwaliteit mogelijk maakt. Uitgebreide experimenten tonen aan dat Omni-Weather state-of-the-art prestaties levert in zowel weergeneratie als -begrip. Onze bevindingen wijzen verder uit dat generatieve en begripstaken in het weerdomein elkaar wederzijds kunnen versterken. Omni-Weather demonstreert tevens de haalbaarheid en waarde van het verenigen van weergeneratie en -begrip.
Het vermogen van AI-agenten om "met beelden te denken" vereist een geavanceerde combinatie van redeneren en waarneming. Huidige open multimodale agenten schieten echter grotendeels nog tekort op het cruciale redeneeraspect voor real-world taken, zoals het analyseren van documenten met uitgebreide grafieken/diagrammen en het navigeren met kaarten. Om deze kloof te dichten, introduceren we O3-Bench, een nieuwe benchmark ontworpen om multimodaal redeneren met afgewisselde aandacht voor visuele details te evalueren. O3-Bench bevat uitdagende problemen die vereisen dat agenten subtiele visuele informatie uit verschillende beeldgebieden via meerstapsredenering samenvoegen. De problemen zijn zelfs voor geavanceerde systemen zoals OpenAI o3 zeer uitdagend, wat slechts een nauwkeurigheid van 40,8% behaalt op O3-Bench. Om vooruitgang te boeken, stellen we InSight-o3 voor, een multi-agent framework bestaande uit een visuele redeneeragent (vReasoner) en een visuele zoekagent (vSearcher). Voor de vSearcher introduceren we de taak van gegeneraliseerd visueel zoeken – het lokaliseren van relationele, vage of conceptuele regio's beschreven in vrije-taal, verder dan alleen eenvoudige objecten of figuren in natuurlijke beelden. Vervolgens presenteren we een multimodale LLM die specifiek voor deze taak is getraind via reinforcement learning. Als plug-and-play agent empowerd onze vSearcher geavanceerde multimodale modellen (als vReasoners), wat hun prestaties op een breed scala aan benchmarks aanzienlijk verbetert. Dit markeert een concrete stap richting krachtige o3-achtige opensystemen. Onze code en dataset zijn beschikbaar op https://github.com/m-Just/InSight-o3.
Recente tekst-naar-video-generatiemodellen tonen een opmerkelijke vooruitgang in visueel realisme, bewegingsnauwkeurigheid en tekst-video-overeenstemming, maar ze blijven fundamenteel beperkt in hun vermogen om sociaal coherent gedrag te genereren. In tegenstelling tot mensen, die moeiteloos intenties, overtuigingen, emoties en sociale normen afleiden uit korte visuele aanwijzingen, hebben huidige modellen de neiging om letterlijke scènes weer te geven zonder de onderliggende causale of psychologische logica te vatten. Om deze kloof systematisch te evalueren, introduceren we de eerste benchmark voor sociaal redeneren in videogeneratie. Geworteld in bevindingen uit de ontwikkelings- en sociale psychologie, organiseert onze benchmark dertig klassieke sociaal-cognitieve paradigma's in zeven kerndimensies, waaronder mentale-toestand-inferentie, doelgericht handelen, gedeelde aandacht, sociale coördinatie, prosociaal gedrag, sociale normen en multi-agentstrategie. Om deze paradigma's te operationaliseren, ontwikkelen we een volledig trainingsvrije, agent-gebaseerde pijplijn die (i) het redeneermechanisme van elk experiment destilleert, (ii) diverse videogereed scenario's synthetiseert, (iii) conceptuele neutraliteit en moeilijkheidscontrole afdwingt via op cues gebaseerde kritiek, en (iv) gegenereerde video's evalueert met behulp van een hoogcapaciteits VLM-beoordelaar over vijf interpreteerbare dimensies van sociaal redeneren. Met dit framework voeren we de eerste grootschalige studie uit over zeven state-of-the-art videogeneratiesystemen. Onze resultaten onthullen aanzienlijke prestatiekloven: hoewel moderne modellen uitblinken in oppervlakkige geloofwaardigheid, falen ze systematisch in intentieherkenning, overtuigingsredenering, gedeelde aandacht en prosociale inferentie.
Op uitvoering gebaseerde feedback, zoals unit testing, wordt veelvuldig gebruikt bij de ontwikkeling van codeeragentschappen via test-time scaling (TTS) en reinforcement learning (RL). Dit paradigma vereist een schaalbare en betrouwbare verzameling van unit testgevallen om accurate feedback te leveren, en de resulterende feedback is vaak schaars en kan niet effectief onderscheid maken tussen trajecten die beide succesvol of beide onsuccesvol zijn. Daarentegen kan uitvoeringsvrije feedback van beloningsmodellen meer fijnmazige signalen verschaffen zonder afhankelijk te zijn van unit testgevallen. Ondanks dit potentieel blijft uitvoeringsvrije feedback voor realistische software engineering (SWE) agentschappen onderbelicht. Met als doel veelzijdige beloningsmodellen te ontwikkelen die effectief zijn voor zowel TTS als RL, merken we echter op dat twee verifiers met bijna identieke TTS-prestaties desondanks zeer verschillende resultaten kunnen opleveren in RL. Intuïtief weerspiegelt TTS voornamelijk het vermogen van het model om het beste traject te selecteren, maar dit vermogen generaliseert niet noodzakelijkerwijs naar RL. Om deze beperking aan te pakken, identificeren we twee aanvullende aspecten die cruciaal zijn voor RL-training: classificatienauwkeurigheid en calibratie. Vervolgens voeren we uitgebreide gecontroleerde experimenten uit om te onderzoeken hoe een robuust beloningsmodel kan worden getraind dat goed presteert op deze metrieken. In het bijzonder analyseren we de impact van diverse factoren zoals de schaal van de trainingsdata, beleidsmengsels en de samenstelling van databronnen. Geleid door deze onderzoeken introduceren we SWE-RM, een nauwkeurig en robuust beloningsmodel dat een mixture-of-experts-architectuur adopteert met in totaal 30B parameters en 3B geactiveerde parameters tijdens inferentie. SWE-RM verbetert SWE-agentschappen aanzienlijk in zowel TTS- als RL-prestaties. Het verhoogt bijvoorbeeld de nauwkeurigheid van Qwen3-Coder-Flash van 51.6% naar 62.0%, en van Qwen3-Coder-Max van 67.0% naar 74.6% op SWE-Bench Verified met behulp van TTS, waarmee het nieuwe state-of-the-art prestaties bereikt onder open-source modellen.
Automatische presentatiedia-generatie kan de contentcreatie aanzienlijk stroomlijnen. Omdat de voorkeuren van elke gebruiker echter kunnen verschillen, leiden bestaande ondergespecificeerde formuleringen vaak tot suboptimale resultaten die niet aansluiten bij individuele gebruikersbehoeften. Wij introduceren een nieuwe taak die de generatie van dia's op basis van wetenschappelijke artikelen conditioneert op door de gebruiker gespecificeerde voorkeuren. Wij stellen een op menselijk gedrag geïnspireerd agent-gebaseerd raamwerk voor, SlideTailor, dat op een gebruikersgerichte manier progressief bewerkbare dia's genereert. In plaats van gebruikers te vragen hun voorkeuren in gedetailleerde tekstvorm te beschrijven, vraagt ons systeem slechts om een voorbeeldpaar (artikel-dia's) en een visuele template - natuurlijke en gemakkelijk te leveren artefacten die impliciet rijke gebruikersvoorkeuren coderen op het gebied van inhoud en visuele stijl. Ondanks de impliciete en ongelabelde aard van deze invoer, destilleert en generaliseert ons raamwerk de voorkeuren effectief om gepersonaliseerde diageneratie te sturen. Wij introduceren ook een nieuw chain-of-speech-mechanisme om de diainhoud af te stemmen op geplande mondelinge narratie. Een dergelijk ontwerp verbetert de kwaliteit van gegenereerde dia's aanzienlijk en maakt downstream-toepassingen zoals videopresentaties mogelijk. Om deze nieuwe taak te ondersteunen, construeren we een benchmarkdataset die diverse gebruikersvoorkeuren vastlegt, met zorgvuldig ontworpen interpreteerbare metrieken voor robuuste evaluatie. Uitgebreide experimenten demonstreren de effectiviteit van ons raamwerk.
Dit artikel presenteert een nieuw state-of-the-art algoritme voor exacte 3x3 matrixvermenigvuldiging over algemene niet-commutatieve ringen, waarbij een schema met rang 23 wordt bereikt met slechts 58 scalaire optellingen. Dit verbetert de vorige beste additieve complexiteit van 60 optellingen zonder een verandering van basis. Het resultaat werd ontdekt via een geautomatiseerde zoektocht die ternair-beperkte flip-grafiekverkenning combineert met gulzige intersectiereductie voor eliminatie van gemeenschappelijke subexpressies. Het resulterende schema gebruikt alleen coëfficiënten uit {-1, 0, 1}, wat zowel efficiëntie als portabiliteit over willekeurige lichamen waarborgt. Het totale aantal scalaire bewerkingen wordt gereduceerd van 83 naar 81.
Grote redeneermodellen (LRM's) worden doorgaans getraind met reinforcement learning met verifieerbare beloning (RLVR) om hun redeneervermogen te verbeteren. In dit paradigma worden beleidsregels bijgewerkt met behulp van zowel positieve als negatieve zelf gegenereerde rollouts, die overeenkomen met verschillende steekproefpolariteiten. In dit artikel geven we een systematisch onderzoek naar hoe deze steekproefpolariteiten de RLVR-trainingsdynamiek en -gedragingen beïnvloeden. We ontdekken dat positieve steekproeven bestaande correcte redeneerpatronen aanscherpen, terwijl negatieve steekproeven exploratie van nieuwe redeneerpaden stimuleren. We onderzoeken verder hoe aanpassing van de advantage-waarden van positieve en negatieve steekproeven op zowel steekproefniveau als tokenniveau de RLVR-training beïnvloedt. Gebaseerd op deze inzichten stellen we een adaptieve en asymmetrische advantage-vorming op tokenniveau voor voor beleidsoptimalisatie, genaamd A3PO, die advantage-signalen nauwkeuriger toewijst aan cruciale tokens bij verschillende polariteiten. Experimenten over vijf redeneerbenchmarks demonstreren de effectiviteit van onze aanpak.