Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We stellen FlowRL voor: het afstemmen van de volledige beloningsverdeling via flow balancing in plaats van het maximaliseren van beloningen bij reinforcement learning (RL) voor grote taalmmodellen (LLM's). Recente geavanceerde redeneermodellen gebruiken beloning-maximaliserende methoden (bijv. PPO en GRPO), die de neiging hebben dominante beloningssignalen te overoptimaliseren terwijl minder frequente maar geldige redeneerpaden worden verwaarloosd, wat de diversiteit vermindert. In tegenstelling hiermee transformeren we scalaire beloningen in een genormaliseerde doelverdeling met behulp van een leerbare partitiefunctie, en minimaliseren we vervolgens de reverse KL-divergentie tussen het beleid en de doelverdeling. We implementeren dit idee als een flow-gebalanceerde optimalisatiemethode die diverse exploratie en generaliseerbare redeneertrajecten bevordert. We voeren experimenten uit op wiskundige en coderingsredeneertaken: FlowRL behaalt een significante gemiddelde verbetering van 10,0% ten opzichte van GRPO en 5,1% ten opzichte van PPO op wiskundige benchmarks, en presteert consistent beter op coderingsredeneertaken. Deze resultaten benadrukken het afstemmen van beloningsverdelingen als een cruciale stap naar efficiënte exploratie en diverse redenering in LLM-reinforcement learning.
Vision-Language Models (VLMs) hebben computergebruiksagenten (CUAs) mogelijk gemaakt die GUI's autonoom bedienen, wat veel potentieel laat zien, maar de vooruitgang wordt beperkt door het gebrek aan grootschalige, open-source computergebruiksdata en foundation-modellen. In dit werk introduceren we ScaleCUA, een stap richting het opschalen van open-source CUAs. Het biedt een grootschalige dataset die 6 besturingssystemen en 3 taakdomeinen omvat, opgebouwd via een gesloten-lus pijplijn die geautomatiseerde agenten combineert met menselijke experts. Getraind op deze opgeschaalde data, kan ScaleCUA naadloos functioneren over verschillende platforms. Specifiek behaalt het sterke verbeteringen ten opzichte van baseline-modellen (+26.6 op WebArena-Lite-v2, +10.7 op ScreenSpot-Pro) en stelt het nieuwe state-of-the-art resultaten vast (94.4% op MMBench-GUI L1-Hard, 60.6% op OSWorld-G, 47.4% op WebArena-Lite-v2). Deze bevindingen onderstrepen de kracht van data-gedreven opschaling voor algemene computergebruiksagenten. We zullen data, modellen en code vrijgeven om toekomstig onderzoek te bevorderen: https://github.com/OpenGVLab/ScaleCUA.
Grote taalmodellen (LLMs) worden steeds vaker toegepast in diverse real-world scenario's, elk beheerst door specifieke gedrags- en veiligheidsspecificaties (spec) die op maat zijn gemaakt door gebruikers of organisaties. Deze specificaties, onderverdeeld in veiligheidsspec en gedragsspec, variëren per scenario en evolueren met veranderende voorkeuren en vereisten. We formaliseren deze uitdaging als specificatie-uitlijning, waarbij we focussen op het vermogen van LLMs om dynamische, scenario-specifieke specificaties te volgen vanuit zowel gedrags- als veiligheidsperspectieven. Om deze uitdaging aan te pakken, stellen we Align3 voor, een lichtgewicht methode die Test-Time Deliberation (TTD) gebruikt met hiërarchische reflectie en revisie om te redeneren over de grenzen van de specificaties. We introduceren verder SpecBench, een uniforme benchmark voor het meten van specificatie-uitlijning, die 5 scenario's, 103 specificaties en 1.500 prompts omvat. Experimenten met 15 redeneer- en 18 instructiemodellen met verschillende TTD-methoden, waaronder Self-Refine, TPO en MoreThink, leveren drie belangrijke bevindingen op: (i) test-time deliberation verbetert specificatie-uitlijning; (ii) Align3 verlegt de grens van de afweging tussen veiligheid en behulpzaamheid met minimale overhead; (iii) SpecBench onthult effectief uitlijningshiaten. Deze resultaten benadrukken het potentieel van test-time deliberation als een effectieve strategie voor het redeneren over de real-world specificatiegrenzen.
We presenteren AToken, de eerste geünificeerde visuele tokenizer die zowel hoogwaardige reconstructie als semantisch begrip bereikt voor afbeeldingen, video's en 3D-assets. In tegenstelling tot bestaande tokenizers die gespecialiseerd zijn in óf reconstructie óf begrip voor enkele modaliteiten, codeert AToken deze diverse visuele invoeren in een gedeelde 4D latente ruimte, waardoor zowel taken als modaliteiten worden verenigd in een enkel raamwerk. Specifiek introduceren we een pure transformer-architectuur met 4D roterende positie-embeddingen om visuele invoeren van willekeurige resoluties en tijdsduur te verwerken. Om een stabiele training te garanderen, introduceren we een adversarial-vrij trainingsdoel dat perceptuele en Gram-matrixverliezen combineert, waarmee state-of-the-art reconstructiekwaliteit wordt bereikt. Door een progressief trainingscurriculum te gebruiken, breidt AToken zich geleidelijk uit van enkele afbeeldingen, video's en 3D, en ondersteunt het zowel continue als discrete latente tokens. AToken behaalt een rFID van 0,21 met 82,2% ImageNet-nauwkeurigheid voor afbeeldingen, een rFVD van 3,01 met 32,6% MSRVTT-retrieval voor video's, en een PSNR van 28,19 met 90,9% classificatienauwkeurigheid voor 3D. In downstream-toepassingen maakt AToken zowel visuele generatietaken mogelijk (bijv. afbeeldingsgeneratie met continue en discrete tokens, tekst-naar-video-generatie, afbeelding-naar-3D-synthese) als begriptaken (bijv. multimodale LLM's), waarbij competitieve prestaties worden behaald op alle benchmarks. Deze resultaten werpen licht op de volgende generatie multimodale AI-systemen die zijn gebouwd op geünificeerde visuele tokenisatie.
Grote taalmmodellen (LLMs) worden steeds vaker getraind met reinforcement learning op basis van verifieerbare beloningen (RLVR), maar in de praktijk vereist de inzet van modellen dat ze zichzelf kunnen verbeteren zonder labels of externe beoordelaars. Bestaande methoden zonder labels, zoals minimalisatie van vertrouwen, zelfconsistentie of meerderheidsstemdoelstellingen, stabiliseren het leerproces maar beperken geleidelijk de exploratie, wat leidt tot een entropie-collaps: generaties worden korter, minder divers en broos. In tegenstelling tot eerdere benaderingen zoals Test-Time Reinforcement Learning (TTRL), die modellen vooral aanpassen aan de direct beschikbare ongelabelde dataset, is ons doel breder: algemene verbeteringen mogelijk maken zonder het inherente exploratievermogen en generalisatievermogen van het model op te offeren, oftewel evolutie. We formaliseren dit probleem en stellen EVolution-Oriented and Label-free Reinforcement Learning (EVOL-RL) voor, een eenvoudige regel die stabiliteit koppelt aan variatie in een omgeving zonder labels. EVOL-RL behoudt het meerderheidsgestemde antwoord als een stabiel anker (selectie) en voegt een nieuwigheid-gevoelige beloning toe die voorkeur geeft aan antwoorden waarvan de redenering afwijkt van wat al is geproduceerd (variatie), gemeten in de semantische ruimte. Geïmplementeerd met GRPO, gebruikt EVOL-RL ook asymmetrisch knippen om sterke signalen te behouden en een entropie-regulator om de zoektocht in stand te houden. Dit ontwerp van meerderheid-voor-selectie + nieuwigheid-voor-variatie voorkomt collaps, behoudt langere en meer informatieve gedachtegangen en verbetert zowel pass@1 als pass@n. EVOL-RL presteert consistent beter dan de TTRL-baseline die alleen op meerderheid is gebaseerd; bijvoorbeeld, training op ongelabelde AIME24 verhoogt Qwen3-4B-Base AIME25 pass@1 van TTRL's 4,6% naar 16,4%, en pass@16 van 18,5% naar 37,9%. EVOL-RL voorkomt niet alleen diversiteitscollaps maar maakt ook sterkere generalisatie over domeinen mogelijk (bijv. GPQA). Bovendien tonen we aan dat EVOL-RL ook de prestaties in de RLVR-instelling verbetert, wat de brede toepasbaarheid ervan benadrukt.
Recente videodiffusiemodellen tonen een sterk potentieel in ruimtelijke intelligentietaken dankzij hun rijke latente wereldpriors. Dit potentieel wordt echter belemmerd door hun beperkte bestuurbaarheid en geometrische inconsistentie, wat een kloof creëert tussen hun sterke priors en hun praktische toepassing in 3D/4D-taken. Als gevolg vertrouwen huidige benaderingen vaak op hertraining of fine-tuning, wat het risico loopt om vooraf getrainde kennis te verslechteren en hoge rekenkosten met zich meebrengt. Om dit aan te pakken, stellen we WorldForge voor, een trainingsvrij, inferentie-tijd framework dat bestaat uit drie nauw verbonden modules. Intra-Step Recursive Refinement introduceert een recursief verfijningsmechanisme tijdens inferentie, dat de netwerkvoorspellingen binnen elke denoisestap herhaaldelijk optimaliseert om precieze trajectinjectie mogelijk te maken. Flow-Gated Latent Fusion maakt gebruik van optische stroomsimilariteit om beweging van uiterlijk in de latente ruimte te ontkoppelen en selectief trajectbegeleiding in bewegingsgerelateerde kanalen te injecteren. Dual-Path Self-Corrective Guidance vergelijkt geleide en niet-geleide denoisepaden om adaptief trajectdrift veroorzaakt door ruisachtige of verkeerd uitgelijnde structurele signalen te corrigeren. Samen injecteren deze componenten fijnmazige, trajectuitgelijnde begeleiding zonder training, waardoor zowel nauwkeurige bewegingcontrole als fotorealistische contentgeneratie wordt bereikt. Uitgebreide experimenten over diverse benchmarks valideren de superioriteit van onze methode in realisme, trajectconsistentie en visuele getrouwheid. Dit werk introduceert een nieuw plug-and-play paradigma voor bestuurbare videosynthese, en biedt een nieuw perspectief op het benutten van generatieve priors voor ruimtelijke intelligentie.
Zoeken is uitgegroeid tot een kerninfrastructuur voor LLM-gebaseerde agents en wordt algemeen gezien als cruciaal op het pad naar meer algemene intelligentie. Financiën vormen een bijzonder veeleisend testgebied: analisten voeren routinematig complexe, meerstaps zoekopdrachten uit over tijdsgevoelige, domeinspecifieke data, wat het ideaal maakt voor het beoordelen van zowel zoekvaardigheid als kennisgebaseerd redeneren. Toch evalueren geen bestaande open financiële datasets de zoekcapaciteit van end-to-end agents, voornamelijk omdat het construeren van realistische, gecompliceerde taken diepgaande financiële expertise vereist en tijdsgevoelige data moeilijk te evalueren is. Wij presenteren FinSearchComp, de eerste volledig open-source agent benchmark voor realistische, open-domein financiële zoekopdrachten en redenering. FinSearchComp omvat drie taken -- Tijdsgevoelige Data Ophalen, Eenvoudige Historische Opzoekingen en Complex Historisch Onderzoek -- die nauw aansluiten bij de workflows van echte financiële analisten. Om moeilijkheidsgraad en betrouwbaarheid te waarborgen, betrekken we 70 professionele financiële experts voor annotatie en implementeren we een rigoureuze, meerfasige kwaliteitsborgingspijplijn. De benchmark bevat 635 vragen die zowel de wereldwijde als de Greater China-markten bestrijken, en we evalueren 21 modellen (producten) hierop. Grok 4 (web) scoort het hoogst op de wereldwijde subset en benadert expertniveau nauwkeurigheid. DouBao (web) leidt op de Greater China subset. Experimentele analyses tonen aan dat het uitrusten van agents met webzoekopdrachten en financiële plugins de resultaten op FinSearchComp aanzienlijk verbetert, en dat de landen van herkomst van modellen en tools de prestaties significant beïnvloeden. Door aan te sluiten bij realistische analistentaken en end-to-end evaluatie te bieden, biedt FinSearchComp een professionele, hoogcomplexe testomgeving voor complexe financiële zoekopdrachten en redenering.
Recente studies hebben het belang aangetoond van hoogwaardige visuele representaties bij beeldgeneratie en hebben de beperkingen van generatieve modellen in beeldbegrip benadrukt. Als een generatief paradigma dat oorspronkelijk is ontworpen voor natuurlijke taal, staan autoregressieve modellen voor vergelijkbare uitdagingen. In dit werk presenteren we het eerste systematische onderzoek naar de mechanismen van het toepassen van het next-token prediction-paradigma op het visuele domein. We identificeren drie belangrijke eigenschappen die het leren van hoogwaardige visuele semantiek belemmeren: lokale en conditionele afhankelijkheid, inter-stap semantische inconsistentie en ruimtelijke invariantie-deficiëntie. We tonen aan dat deze problemen effectief kunnen worden aangepakt door zelfgesuperviseerde doelen tijdens de training te introduceren, wat leidt tot een nieuw trainingsraamwerk, Self-guided Training for AutoRegressive models (ST-AR). Zonder te vertrouwen op vooraf getrainde representatiemodellen, verbetert ST-AR het beeldbegrip van autoregressieve modellen aanzienlijk en leidt het tot een verbeterde generatiekwaliteit. Specifiek brengt ST-AR een verbetering van ongeveer 42% FID voor LlamaGen-L en 49% FID voor LlamaGen-XL, terwijl dezelfde samplingstrategie wordt aangehouden.
Dit artikel presenteert RynnVLA-001, een vision-language-action (VLA) model dat is gebouwd op grootschalige generatieve voorafgaande training van video's uit menselijke demonstraties. We stellen een nieuwe tweefasige methodologie voor voorafgaande training voor. De eerste fase, Ego-Centric Video Generative Pretraining, traint een Image-to-Video model op 12 miljoen ego-centrische manipulatievideo's om toekomstige frames te voorspellen, geconditioneerd op een initieel frame en een taal instructie. De tweede fase, Human-Centric Trajectory-Aware Modeling, breidt dit uit door gezamenlijk toekomstige sleutelpunt trajecten te voorspellen, waardoor visuele framevoorspelling effectief wordt verbonden met actievoorspelling. Verder stellen we, om de actierepresentatie te verbeteren, ActionVAE voor, een variational autoencoder die reeksen van acties comprimeert tot compacte latente embeddings, waardoor de complexiteit van de VLA uitvoerruimte wordt verminderd. Wanneer het model wordt afgestemd op dezelfde downstream robotica datasets, behaalt RynnVLA-001 superieure prestaties ten opzichte van state-of-the-art baselines, wat aantoont dat de voorgestelde voorafgaande trainingsstrategie een effectievere initialisatie biedt voor VLA modellen.
Huidige methoden voor beeldbewerking op basis van instructies (IBIE) hebben moeite met uitdagende bewerkingstaken, omdat zowel de bewerkingstypen als het aantal voorbeelden in bestaande datasets beperkt zijn. Bovendien bevat de traditionele constructie van datasets vaak ruis in beeld-bijschriftparen, wat vooroordelen kan introduceren en de mogelijkheden van modellen in complexe bewerkingsscenario's kan beperken. Om deze beperkingen aan te pakken, introduceren we MultiEdit, een uitgebreide dataset met meer dan 107K hoogwaardige beeldbewerkingsvoorbeelden. Het omvat 6 uitdagende bewerkingstaken via een diverse verzameling van 18 niet-stijloverdrachtbewerkingstypen en 38 stijloverdrachtoperaties, die een spectrum bestrijken van geavanceerde stijloverdracht tot complexe semantische operaties zoals persoonreferentiebewerking en tekstbewerking in afbeeldingen. We gebruiken een innovatieve datasetconstructiepipeline die twee multimodale grote taalmodellen (MLLMs) inzet om visueel-adaptieve bewerkingsinstructies te genereren en respectievelijk hoogwaardige bewerkte afbeeldingen te produceren. Uitgebreide experimenten tonen aan dat het finetunen van fundamentele open-source modellen met onze MultiEdit-Train set de prestaties van modellen aanzienlijk verbetert op geavanceerde bewerkingstaken in onze voorgestelde MultiEdit-Test benchmark, terwijl hun mogelijkheden op de standaard bewerkingsbenchmark effectief behouden blijven. Wij geloven dat MultiEdit een waardevolle bron biedt voor het bevorderen van onderzoek naar meer diverse en uitdagende IBIE-mogelijkheden. Onze dataset is beschikbaar op https://huggingface.co/datasets/inclusionAI/MultiEdit.
Spatio-temporele videolokalisatie (STVG) heeft als doel de spatio-temporele buis van een video te lokaliseren, zoals gespecificeerd door de invoertekstquery. In dit artikel maken we gebruik van multimodale grote taalmodellen (MLLMs) om een zero-shot oplossing in STVG te verkennen. We onthullen twee belangrijke inzichten over MLLMs: (1) MLLMs hebben de neiging om dynamisch speciale tokens, aangeduid als lokalisatietokens, toe te wijzen voor het lokaliseren van de tekstquery; en (2) MLLMs lijden vaak aan suboptimale lokalisatie vanwege het onvermogen om de aanwijzingen in de tekstquery (bijv. attributen, acties) volledig te integreren voor inferentie. Op basis van deze inzichten stellen we een MLLM-gebaseerd zero-shot framework voor STVG voor, dat nieuwe gedecentraliseerde spatio-temporele markering (DSTH) en temporeel-augmented assemblage (TAS) strategieën omvat om het redeneervermogen van MLLMs te ontketenen. De DSTH-strategie ontkoppelt eerst de originele query in attribuut- en actie-subqueries om het bestaan van het doel zowel ruimtelijk als temporeel te onderzoeken. Vervolgens gebruikt het een nieuw logit-gestuurd her-attentiemodule (LRA) om latente variabelen te leren als ruimtelijke en temporele prompts, door tokenvoorspellingen voor elke subquery te regulariseren. Deze prompts markeren respectievelijk attribuut- en actieaanwijzingen, waardoor de aandacht van het model wordt gericht op betrouwbare ruimtelijke en temporeel gerelateerde visuele regio's. Bovendien, aangezien de ruimtelijke lokalisatie door de attribuut-subquery temporeel consistent moet zijn, introduceren we de TAS-strategie om de voorspellingen te assembleren met behulp van de originele videoframes en de temporeel-augmented frames als invoer om de temporele consistentie te verbeteren. We evalueren onze methode op verschillende MLLMs en tonen aan dat deze de SOTA-methoden overtreft op drie veelvoorkomende STVG-benchmarks. De code zal beschikbaar zijn op https://github.com/zaiquanyang/LLaVA_Next_STVG.
Echografie is uitgegroeid tot de voorkeursbeeldvormingsmodaliteit voor vroege kankerscreening vanwege de voordelen van niet-ioniserende straling, lage kosten en real-time beeldvormingsmogelijkheden. Echter, conventionele echodiagnostiek is sterk afhankelijk van de expertise van artsen, wat uitdagingen met zich meebrengt zoals hoge subjectiviteit en lage diagnostische efficiëntie. Vision-language models (VLMs) bieden veelbelovende oplossingen voor dit probleem, maar bestaande algemene modellen tonen beperkte kennis op het gebied van echografische medische taken, met slechte generalisatie in de herkenning van laesies in meerdere organen en lage efficiëntie bij multi-task diagnostiek. Om deze beperkingen aan te pakken, stellen we EchoVLM voor, een vision-language model specifiek ontworpen voor echografische medische beeldvorming. Het model maakt gebruik van een Mixture of Experts (MoE)-architectuur die is getraind op gegevens uit zeven anatomische regio's. Dit ontwerp stelt het model in staat om meerdere taken uit te voeren, waaronder het genereren van echoverslagen, diagnostiek en visuele vraag-antwoordtaken (VQA). De experimentele resultaten toonden aan dat EchoVLM significante verbeteringen behaalde van 10,15 en 4,77 punten in BLEU-1- en ROUGE-1-scores respectievelijk in vergelijking met Qwen2-VL bij de taak van echoverslaggeneratie. Deze bevindingen suggereren dat EchoVLM aanzienlijk potentieel heeft om de diagnostische nauwkeurigheid in echografie te verbeteren, waardoor het een haalbare technische oplossing biedt voor toekomstige klinische toepassingen. Broncode en modelgewichten zijn beschikbaar op https://github.com/Asunatan/EchoVLM.
Veranderingsdetectie vanuit hoogresolutie remote sensing-beelden vormt een hoeksteen van aardobservatietoepassingen, maar de effectiviteit ervan wordt vaak ondermijnd door twee kritieke uitdagingen. Ten eerste komen valse alarmen veelvuldig voor doordat modellen radiometrische variaties door temporele verschuivingen (bijvoorbeeld belichting, seizoen) verkeerd interpreteren als echte veranderingen. Ten tweede vormt een niet-verwaarloosbare semantische kloof tussen diepe abstracte kenmerken en oppervlakkige detailrijke kenmerken een belemmering voor hun effectieve fusie, wat resulteert in slecht afgebakende grenzen. Om deze problemen verder aan te pakken, stellen we het Frequency-Spatial Synergistic Gated Network (FSG-Net) voor, een nieuw paradigma dat gericht is op het systematisch ontwarren van semantische veranderingen van storende variaties. Specifiek opereert FSG-Net eerst in het frequentiedomein, waar een Discrepancy-Aware Wavelet Interaction Module (DAWIM) pseudo-veranderingen adaptief vermindert door verschillende frequentiecomponenten onderscheidend te verwerken. Vervolgens worden de verfijnde kenmerken in het ruimtelijke domein versterkt door een Synergistic Temporal-Spatial Attention Module (STSAM), die de salientie van echte veranderingsgebieden versterkt. Om de semantische kloof uiteindelijk te overbruggen, benut een Lightweight Gated Fusion Unit (LGFU) hoogwaardige semantiek om selectief cruciale details uit oppervlakkige lagen te gaten en te integreren. Uitgebreide experimenten op de CDD-, GZ-CD- en LEVIR-CD-benchmarks valideren de superioriteit van FSG-Net, waarbij een nieuwe state-of-the-art wordt gevestigd met F1-scores van respectievelijk 94,16%, 89,51% en 91,27%. De code zal beschikbaar worden gesteld op https://github.com/zxXie-Air/FSG-Net na een mogelijke publicatie.