Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLM's) hebben geautomatiseerde software-ontwikkeling fundamenteel getransformeerd door de directe vertaling van beschrijvingen in natuurlijke taal naar functionele code mogelijk te maken. Dit heeft de commerciële adoptie aangewakkerd met tools zoals Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) en Claude Code (Anthropic). Hoewel het vakgebied zich dramatisch heeft ontwikkeld van op regels gebaseerde systemen naar op Transformer-gebaseerde architecturen, waarbij prestatiewinsten zijn geboekt van eenslagspercentages naar meer dan 95% slagingspercentage op benchmarks zoals HumanEval. In dit werk bieden wij een uitgebreide synthese en een praktische handleiding (een reeks analytische en verkennende experimenten) over code-LLM's, waarbij wij de volledige modellevenscyclus systematisch onderzoeken: van datacuratie tot post-training, via geavanceerde prompting-paradigma's, code-pre-training, supervised fine-tuning, reinforcement learning en autonome codeer-agents. Wij analyseren de code-capaciteiten van algemene LLM's (GPT-4, Claude, LLaMA) en codespecifieke LLM's (StarCoder, Code LLaMA, DeepSeek-Coder en QwenCoder), waarbij wij de technieken, ontwerpbeslissingen en afwegingen kritisch onderzoeken. Verder verhelderen wij de kloof tussen onderzoek en praktijk, tussen academisch onderzoek (bijv. benchmarks en taken) en implementatie in de praktijk (bijv. software-gerelateerde codetaken), inclusief code-correctheid, beveiliging, contextueel bewustzijn van grote codebases en integratie met ontwikkelworkflows, en koppelen wij veelbelovende onderzoeksrichtingen aan praktische behoeften. Ten slotte voeren wij een reeks experimenten uit om een uitgebreide analyse te bieden van code-pre-training, supervised fine-tuning en reinforcement learning, waarbij wij wetmatigheden rond schaalgrootte, framework-selectie, hyperparametergevoeligheid, modelarchitecturen en datasetvergelijkingen behandelen.
Grote multimodale modellen (LMM's) hebben groot potentieel getoond voor videoredenering met tekstuele Chain-of-Thought. Ze blijven echter kwetsbaar voor hallucinaties, vooral bij het verwerken van lange video's waarin bewijsmateriaal schaars en tijdelijk verspreid is. Geïnspireerd door hoe mensen lange video's begrijpen - eerst globaal schetsen en vervolgens relevante clips in detail onderzoeken - introduceren we LongVT, een end-to-end agentframework dat "Denken met Lange Video's" mogelijk maakt via vervlochten Multimodale Chain-of-Tool-Thought. Specifiek benutten we het inherente temporele verankeringsvermogen van LMM's als een native video-uitsnijdingstool om in te zoomen op een specifieke videoclip en fijnmazigere videoframes opnieuw te bemonsteren. Deze globaal-naar-lokaal redeneerlus gaat door totdat antwoorden zijn verankerd in opgehaald visueel bewijsmateriaal. Gezien de schaarste aan fijnmazige vraag-antwoord (QA) gegevens voor de lange-videoredeneertaak, stellen we een gegevenssuite genaamd VideoSIAH samen en zullen deze vrijgeven om zowel training als evaluatie te vergemakkelijken. Specifiek bestaat onze trainingsdataset uit respectievelijk 247,9K samples voor tool-geïntegreerde koudestart supervised fine-tuning, 1,6K samples voor agentic reinforcement learning en 15,4K samples voor agentic reinforcement fine-tuning. Onze evaluatiebenchmark bestaat uit 1.280 QA-paren die zorgvuldig zijn samengesteld via een semi-automatische datapijplijn met menselijke validatie in de loop. Met een nauwkeurig ontworpen drietraps trainingsstrategie en uitgebreide empirische validatie presteert LongVT consistent beter dan bestaande sterke baselines op vier uitdagende benchmarks voor lang-videobegrip en -redenering. Onze codes, gegevens en modelcheckpoints zijn openbaar beschikbaar op https://github.com/EvolvingLMMs-Lab/LongVT.
Huidige multimodale modellen streven ernaar de beperkingen van unimodale representaties te overstijgen door begrip en generatie te verenigen, waarbij vaak tekst-naar-beeld (T2I) taken worden gebruikt om semantische consistentie te kalibreren. Hun afhankelijkheid van statische, enkelbeeldgeneratie tijdens training en evaluatie leidt echter tot overfitting aan statische patroonherkenning en semantische fusie, terwijl het fundamenteel hun vermogen belemmert om dynamische processen die zich in de tijd ontvouwen te modelleren. Om deze beperkingen aan te pakken, presenteren wij Envision – een causaal gebenchmarkt voor gebeurtenisprogressie voor geketende tekst-naar-meerdere-beelden-generatie. Geworteld in wereldkennis en gestructureerd door ruimtelijk-temporele causaliteit, reorganiseert het bestaande evaluatiedimensies en omvat het 1.000 prompts met vier fasen verspreid over zes wetenschappelijke en geesteswetenschappelijke domeinen. Om de evaluatie van enkelvoudige beelden naar sequentiële frames te verleggen en te beoordelen of modellen werkelijk wereldkennis internaliseren terwijl ze causaal-temporele restricties naleven, introduceren wij Envision-Score, een holistische metriek die multidimensionale consistentie, physicaliteit en esthetiek integreert. Uitgebreide evaluatie van 15 modellen (10 gespecialiseerde T2I-modellen, 5 verenigde modellen) onthult: gespecialiseerde T2I-modellen tonen vaardigheid in esthetische weergave, maar missen intrinsieke wereldkennis. Verenigde multimodale modellen overbruggen deze kloof en overtreffen consistente gespecialiseerde tegenhangers in causale narratieve coherentie. Desalniettemin blijven zelfs deze verenigde architecturen ondergeschikt aan closed-source modellen en worstelen zij met het overwinnen van de kernuitdaging van ruimtelijk-temporele consistentie. Dit demonstreert dat een focus op causaal geïsoleerde enkele beelden multi-frame redenering en generatie belemmert, waardoor statische patroonherkenning wordt bevorderd boven dynamische wereldmodellering – wat uiteindelijk de internalisatie en generatie van wereldkennis beperkt.
Dit artikel introduceert een nieuwe formulering voor reinforcement learning (RL) met grote taalmodellen, waarin wordt uitgelegd waarom en onder welke voorwaarden de werkelijke reeksniveau-beloning kan worden geoptimaliseerd via een surrogaatdoelstelling op tokenniveau in beleidsgradiëntmethoden zoals REINFORCE. Specifiek tonen we door een eerste-orde benadering aan dat dit surrogaat alleen steeds geldiger wordt wanneer zowel de kloof tussen training en inferentie als het beleidsveroudering worden geminimaliseerd. Dit inzicht biedt een principiële verklaring voor de cruciale rol van verschillende veelgebruikte technieken voor het stabiliseren van RL-training, waaronder importantie-steekproefcorrectie, clipping, en in het bijzonder Routing Replay voor Mixture-of-Experts (MoE)-modellen. Door middel van uitgebreide experimenten met een 30B MoE-model, in totaal goed voor honderdduizenden GPU-uren, tonen we aan dat voor on-policy training het basisbeleidsgradiëntalgoritme met importantie-steekproefcorrectie de hoogste trainstabiliteit bereikt. Wanneer off-policy updates worden geïntroduceerd om de convergentie te versnellen, wordt de combinatie van clipping en Routing Replay essentieel om de instabiliteit veroorzaakt door beleidsveroudering te mitigeren. Opmerkelijk is dat eenmaal de training gestabiliseerd is, langdurige optimalisatie consistent vergelijkbare eindprestaties oplevert, ongeacht de koude-startinitialisatie. We hopen dat de gedeelde inzichten en de ontwikkelde recepten voor stabiele RL-training toekomstig onderzoek zullen vergemakkelijken.
Deep Research Agents (DRA's) hebben als doel om automatisch analistenrapporten op niveau te produceren door middel van iteratieve informatieverzameling en -synthese. De meeste bestaande DRA's werden echter gevalideerd op vraag-antwoordbenchmarks, terwijl onderzoek naar het genereren van uitgebreide rapporten onderbelicht blijft. Ergerniswekkend genoeg kampen huidige benchmarks voor rapportsynthese met taakcomplexiteit en subjectieve metrieken – dit weerspiegelt niet de gebruikerseisen en beperkt de praktische bruikbaarheid van gegenereerde rapporten. Om deze lacunes aan te pakken, presenteren wij Fine-grained DEepResearch bench (FINDER), een verbeterde benchmark bestaande uit 100 door mensen samengestelde onderzoektaken met 419 gestructureerde checklistitems die de rapportstructuur, analytische diepgang en feitelijke onderbouwing standaardiseren. Op basis van ongeveer 1.000 rapporten geproduceerd door mainstream DRA's, stellen wij verder de Deep rEsearch Failure Taxonomy (DEFT) voor, de eerste foutentaxonomie voor deep research agents. DEFT bevat 14 fijnmazige faalmodi binnen redeneren, retrieval en generatie, en is gebaseerd op grounded theory met co-annotatie door mens-LLM en validatie van interbeoordelaarsbetrouwbaarheid. Onze experimentele bevindingen tonen aan dat huidige DRA's niet worstelen met taakbegrip, maar wel met evidence-integratie, verificatie en reasoning-resilient planning.
Recente videodiffusiemodellen kunnen visueel overtuigende clips genereren, maar overtreden vaak fundamentele natuurkundige wetten: objecten zweven, versnellingen vertonen drift en botsingen gedragen zich inconsistent. Dit onthult een hardnekkige kloof tussen visuele realiteit en fysieke realiteit. Wij stellen NewtonRewards voor, het eerste op natuurkunde gebaseerde post-training raamwerk voor videogeneratie op basis van verifieerbare beloningen. In plaats van te vertrouwen op menselijke feedback of feedback van Vision-Language Models, extraheert NewtonRewards meetbare proxies gegenereerde video's met behulp van bevroren utility-modellen: optische stroming dient als proxy voor snelheid, terwijl hoogwaardige uiterlijkkenmerken als proxy voor massa fungeren. Deze proxies maken expliciete handhaving van Newtoniaanse structuren mogelijk via twee complementaire beloningen: een Newtoniaanse kinematische beperking die constante-versnellingsdynamica afdwingt, en een massabehoudsbeloning die triviale, gedegenereerde oplossingen voorkomt. Wij evalueren NewtonRewards op vijf Newtoniaanse bewegingsprimitieven (vrije val, horizontale/parabolische worp, en glijden van een helling af/op) met behulp van onze nieuw geconstrueerde grootschalige benchmark, NewtonBench-60K. Over alle primitieven heen, in zowel visuele als fysieke metrieken, verbetert NewtonRewards consistent de fysieke geloofwaardigheid, bewegingsvloeiendheid en temporele coherentie ten opzichte van eerdere post-training methoden. Het behoudt tevens sterke prestaties onder out-of-distribution verschuivingen in hoogte, snelheid en wrijving. Onze resultaten tonen aan dat op natuurkunde gebaseerde verifieerbare beloningen een schaalbare weg bieden naar fysiek-bewuste videogeneratie.
Eerdere onderzoeken hebben verschillende op maat gemaakte generatietaken verkend met behulp van een referentiebeeld, maar ze kampen nog steeds met beperkingen in het genereren van consistente fijne details. In dit artikel beogen we het inconsistentieprobleem van gegenereerde beelden op te lossen door een referentiegestuurde nabewerkingsaanpak toe te passen en presenteren we onze ImageCritic. We construeren eerst een dataset van referentie-gedegradeerd-doel triplets die verkregen zijn via VLM-gebaseerde selectie en expliciete degradatie, wat de veelvoorkomende onnauwkeurigheden of inconsistenties in bestaande generatiemodellen effectief simuleert. Verder, voortbouwend op een grondig onderzoek van de aandachtmechanismen en intrinsieke representaties van het model, ontwikkelen we dienovereenkomstig een aandachtuitlijningsverlies en een detailencoder om inconsistenties nauwkeurig te corrigeren. ImageCritic kan worden geïntegreerd in een agentraamwerk om automatisch inconsistenties te detecteren en te corrigeren met meerdere rondes en lokale bewerkingen in complexe scenario's. Uitgebreide experimenten tonen aan dat ImageCritic effectief detailgerelateerde problemen in diverse op maat gemaakte generatiescenario's kan oplossen, wat aanzienlijke verbeteringen oplevert ten opzichte van bestaande methoden.
Huidige autoregressieve videodiffusiemodellen worden beperkt door drie kernproblemen: (i) de eindige temporele horizon opgelegd door de 3D Rotationele Positionele Inbedding (3D-RoPE) van het basismodel, (ii) trage promptresponsiviteit bij het behouden van fijnmazige actiecontrole tijdens langdurige rollouts, en (iii) de onmogelijkheid om discontinue filmische overgangen binnen een enkele generatiestroom te realiseren. Wij introduceren infty-RoPE, een uniform inference-time raamwerk dat alle drie de beperkingen aanpakt via drie onderling verbonden componenten: Block-Relativistische RoPE, KV Flush en RoPE Cut. Block-Relativistische RoPE herformuleert temporele codering als een bewegend lokaal referentiekader, waarbij elk nieuw gegenereerd latent blok wordt geroteerd ten opzichte van de maximale framehorizon van het basismodel, terwijl eerdere blokken achterwaarts worden geroteerd om de relatieve temporele geometrie te behouden. Deze relativistische formulering elimineert vaste temporele posities en maakt continue videogeneratie ver voorbij de basispositionele limieten mogelijk. Om fijnmazige actiecontrole te verkrijgen zonder hercodering, vernieuwt KV Flush de KV-cache door slechts twee latente frames te behouden – het globale ankerpunt en het laatst gegenereerde latente frame – waardoor onmiddellijke promptresponsiviteit wordt gegarandeerd. Ten slotte introduceert RoPE Cut gecontroleerde discontinuïteiten in temporele RoPE-coördinaten, waardoor multi-cut scènetransities binnen een enkele doorlopende rollout mogelijk worden. Gezamenlijk vestigen deze componenten infty-RoPE als een trainingsvrije basis voor oneindig-horizon, controleerbare en filmische videodiffusie. Uitgebreide experimenten tonen aan dat infty-RoPE consistent superieure prestaties levert in algemene VBench-scores vergeleken met eerdere autoregressieve modellen.
Unified multimodal modellen (UMM's) hebben als doel multimodale interpretatie en generatie gezamenlijk binnen één enkel kader uit te voeren. Wij presenteren TUNA, een native UMM die een uniforme continue visuele representatie opbouwt door een VAE-encoder te cascaderen met een representatie-encoder. Deze uniforme representatieruimte maakt end-to-end verwerking van afbeeldingen en video's mogelijk voor zowel interpretatie- als generatietaken. In vergelijking met eerdere UMM's met ontkoppelde representaties, vermijdt TUNA's uniforme visuele ruimte de representatieformaat-mismatches die worden geïntroduceerd door afzonderlijke encoders, en presteert het beter dan ontkoppelde alternatieven in zowel interpretatie als generatie. Bovendien observeren we dat sterker voorgetrainde representatie-encoders consequent betere prestaties opleveren voor alle multimodale taken, wat het belang van de representatie-encoder onderstreept. Ten slotte stelt deze uniforme setting gezamenlijke training op zowel interpretatie- als generatiedata in staat, waardoor de twee taken van elkaar kunnen profiteren in plaats van elkaar te storen. Onze uitgebreide experimenten op multimodale interpretatie- en generatiebenchmarks tonen aan dat TUNA state-of-the-art resultaten behaalt in beeld- en video-interpretatie, beeld- en videogeneratie, en beeldbewerking, wat de effectiviteit en schaalbaarheid van het uniforme representatieontwerp aantoont.
Wij presenteren LFM2, een familie van Liquid Foundation Models die ontworpen zijn voor efficiënte implementatie op apparaten en sterke taakcapaciteiten. Door gebruik te maken van hardware-in-the-loop architectuurzoektochten onder randapparaatvertragings- en geheugenbeperkingen, verkrijgen we een compacte hybride backbone die gegatede korte convoluties combineert met een klein aantal grouped query attention-blokken, wat tot 2x snellere prefill- en decodesnelheden op CPU's oplevert in vergelijking met modellen van vergelijkbare grootte. De LFM2-familie omvat 350M-8,3B parameters, inclusief dense modellen (350M, 700M, 1,2B, 2,6B) en een mixture-of-experts variant (8,3B totaal, 1,5B actief), allemaal met een contextlengte van 32K. De trainingspijplijn van LFM2 omvat een getemperd, ontkoppeld Top-K knowledge distillation-doel dat support mismatch vermijdt; curriculum learning met op moeilijkheidsgraad geordende data; en een driestappen post-training recept van supervised fine-tuning, length-normalized preference optimization en model merging. Voorgetraind op 10-12T tokens behalen LFM2-modellen sterke resultaten op diverse benchmarks; LFM2-2,6B bereikt bijvoorbeeld 79,56% op IFEval en 82,41% op GSM8K. We ontwikkelden verder multimodale en retrieval-varianten: LFM2-VL voor vision-language taken, LFM2-Audio voor spraak, en LFM2-ColBERT voor retrieval. LFM2-VL ondersteunt instelbare nauwkeurigheid-vertraging afwegingen via token-efficiënte visuele verwerking, terwijl LFM2-Audio audio-invoer- en uitvoerpaden scheidt om real-time spraak-naar-spraak interactie mogelijk te maken die concurreert met modellen die 3x groter zijn. LFM2-ColBERT biedt een low-latency encoder voor queries en documenten, waardoor hoogwaardige retrieval in meerdere talen mogelijk wordt. Alle modellen worden vrijgegeven met open gewichten en implementatiepakketten voor ExecuTorch, llama.cpp en vLLM, wat LFM2 een praktische basis maakt voor edge-toepassingen die snelle, geheugenefficiënte inferentie en sterke taakcapaciteiten nodig hebben.
Kennisgrafen (KG's) bieden gestructureerde, verifieerbare onderbouwing voor grote taalmmodellen (LLM's), maar huidige op LLM's gebaseerde systemen gebruiken KG's doorgaans als hulpstructuren voor tekstretrieval, waardoor hun intrinsieke kwaliteit onderbelicht blijft. In dit werk stellen we Wikontic voor, een pijplijn met meerdere fasen die KG's construeert uit open-domein tekst door kandidaat-triples met kwalificatoren te extraheren, door op Wikidata gebaseerde type- en relatiebeperkingen af te dwingen, en door entiteiten te normaliseren om duplicatie te verminderen. De resulterende KG's zijn compact, consistent met de ontologie en goed verbonden; op MuSiQue verschijnt de juiste antwoordentiteit in 96% van de gegenereerde triples. Op HotpotQA behaalt onze uitsluitend-op-triples-opstelling 76,0 F1, en op MuSiQue 59,8 F1, waarmee verschillende retrieval-augmented generation-basislijnen worden geëvenaard of overtroffen die nog steeds tekstuele context vereisen. Bovendien behaalt Wikontic state-of-the-art prestaties qua informatiebehoud op de MINE-1 benchmark (86%), waarmee eerdere KG-constructiemethoden worden overtroffen. Wikontic is ook efficiënt qua bouwtijd: KG-constructie gebruikt minder dan 1.000 output-tokens, ongeveer 3 keer minder dan AriGraph en <1/20 van GraphRAG. De voorgestelde pijplijn verbetert de kwaliteit van de gegenereerde KG en biedt een schaalbare oplossing voor het benutten van gestructureerde kennis in LLM's.
Recente vooruitgang in grote taalmodellen (LLM's) wordt aangedreven door hun opkomende redeneervermogen, met name via uitgebreide 'chain-of-thought' (CoT)-prompting, die grondige verkenning en afweging mogelijk maakt. Ondanks deze vooruitgang vertonen LLM's met lange CoT vaak suboptimale redeneergedragingen, zoals overdacht en excessief langgerekte redeneerketens, wat de prestaties kan schaden. In dit artikel analyseren we redeneerprocessen door een optimalisatielens, waarbij we CoT framen als een gradient descent-procedure waarbij elke redeneerstap een update vormt richting probleemoplossing. Voortbouwend op dit perspectief introduceren we RePro (Rectifying Process-level Reward), een nieuwe benadering om de redenering van LLM's te verfijnen tijdens post-training. RePro definieert een surrogaatdoelfunctie om het optimalisatieproces achter CoT te beoordelen, gebruikmakend van een duale scoringsmechanisme om de intensiteit en stabiliteit ervan te kwantificeren. Deze scores worden geaggregeerd tot een samengestelde beloning op procesniveau, die naadloos wordt geïntegreerd in reinforcement learning pipelines met verifieerbare beloningen (RLVR) om LLM's te optimaliseren. Uitgebreide experimenten met diverse reinforcement learning-algoritmen en uiteenlopende LLM's, geëvalueerd op benchmarks voor wiskunde, wetenschap en codering, tonen aan dat RePro consistent de redeneerprestaties verbetert en suboptimale redeneergedragingen vermindert.
Diffusiemodellen zijn naar voren gekomen als een toonaangevende klasse van generatieve modellen, maar hun iteratieve samplingproces blijft rekenkundig kostbaar. Timestep-distillatie is een veelbelovende techniek om de generatie te versnellen, maar vereist vaak uitgebreide training en leidt tot kwaliteitsvermindering van afbeeldingen. Bovendien is het finetunen van deze gedistilleerde modellen voor specifieke doelstellingen, zoals esthetische aantrekkingskracht of gebruikersvoorkeur, met Reinforcement Learning (RL) berucht om zijn instabiliteit en vatbaarheid voor reward hacking. In dit werk introduceren we Flash-DMD, een nieuw raamwerk dat snelle convergentie met distillatie en gezamenlijke RL-gebaseerde verfijning mogelijk maakt. Specifiek stellen we allereerst een efficiënte timestep-bewuste distillatiestrategie voor die de trainingskosten aanzienlijk reduceert met een verbeterde realiteit, en dat DMD2 overtreft met slechts 2,1% van diens trainingskosten. Ten tweede introduceren we een gezamenlijk trainingsschema waarbij het model wordt gefinetuned met een RL-doelstelling, terwijl de timestep-distillatietraining gelijktijdig doorgaat. We tonen aan dat de stabiele, goed gedefinieerde loss van de doorlopende distillatie fungeert als een krachtige regularisator, die het RL-trainingsproces effectief stabiliseert en beleidsinstituting voorkomt. Uitgebreide experimenten met score-gebaseerde en flow matching-modellen laten zien dat onze voorgestelde Flash-DMD niet alleen significant sneller convergeert, maar ook state-of-the-art generatiekwaliteit bereikt in het few-step samplingregime, en bestaande methoden overtreft in visuele kwaliteit, menselijke voorkeur en tekst-afbeelding-alignatiemetrieken. Ons werk presenteert een effectief paradigma voor het trainen van efficiënte, hoogwaardige en stabiele generatieve modellen. Code zal binnenkort beschikbaar komen.
Vision-Language-Action-modellen (VLA's) worden steeds capabeler in uiteenlopende robottaken. Hun inzet in de praktijk verloopt echter nog traag en inefficiënt: demonstratievideo's worden vaak 5-10x versneld om vloeiend over te komen, met merkbare actiepauzes en vertraagde reacties op omgevingsveranderingen. Asynchrone inferentie biedt een veelbelovende oplossing voor continue en latentiearme besturing door robots in staat te stellen acties uit te voeren en tegelijkertijd inferentie uit te voeren. Omdat de robot en omgeving zich echter tijdens de inferentie blijven ontwikkelen, ontstaat er een temporele verschuiving tussen de voorspellings- en uitvoeringsintervallen. Dit leidt tot aanzienlijke actie-instabiliteit, terwijl bestaande methodes de nauwkeurigheid verminderen of runtime-overhead introduceren om dit te mitigeren. Wij stellen VLASH voor, een algemeen asynchrone inferentieraamwerk voor VLA's dat vloeiende, nauwkeurige en snelle reactiebesturing biedt zonder extra overhead of architectuurwijzigingen. VLASH schat de toekomstige uitvoeringstoestand door de robotstatus vooruit te rollen met de eerder gegenereerde actiechunk, waardoor de kloof tussen voorspelling en uitvoering wordt overbrugd. Experimenten tonen aan dat VLASH een versnelling tot 2,03x bereikt en de reactielatentie tot 17,4x vermindert in vergelijking met synchrone inferentie, waarbij de oorspronkelijke nauwkeurigheid volledig behouden blijft. Bovendien stelt het VLA's in staat om snelle-reactie, hoogprecisietaken uit te voeren, zoals tafeltennissen en whack-a-mole spelen, waar traditionele synchrone inferentie faalt. Code is beschikbaar op https://github.com/mit-han-lab/vlash.
Wij presenteren GR-RL, een robotica-leerkader dat een algemene visie-taal-actie (VLA)-policy omvormt tot een hoogwaardige specialist voor langetermijn, behendige manipulatie. De veronderstelling van de optimaliteit van menselijke demonstraties ligt ten grondslag aan bestaande VLA-policies. Wij stellen echter dat bij zeer behendige en precieze manipulatietaken menselijke demonstraties ruis bevatten en suboptimaal zijn. GR-RL introduceert een meerfasig trainingsproces dat de demonstraties filtert, uitbreidt en versterkt door middel van reinforcement learning. Ten eerste leert GR-RL een visie-taal-geconditioneerde taakvoortgang, filtert de demonstratietrajecten en behoudt alleen de overgangen die positief bijdragen aan de voortgang. Concreet tonen we aan dat door offline RL met een schaarse beloning direct toe te passen, de resulterende Q-waarden kunnen worden beschouwd als een robuuste voortgangsfunctie. Vervolgens introduceren we morfologische symmetrie-augmentatie, wat de generalisatie en prestaties van GR-RL aanzienlijk verbetert. Ten slotte voeren we online RL uit door een latentieruimte-ruisvoorspeller te leren, om de VLA-policy beter af te stemmen op het daadwerkelijke gedrag bij uitvoering voor hoogprecisiecontrole. Met deze pijplijn is GR-RL, voor zover wij weten, het eerste op leren gebaseerde policy-systeem dat autonoom een veter kan strikken door deze door meerdere veterogen te rijgen met een slagingspercentage van 83,3%. Deze taak vereist langetermijnredenering, millimeterprecisie en compliant zachte-lichaamsinteractie. Wij hopen dat GR-RL een stap vormt naar het specialiseren van algemene robot-foundation-modellen tot betrouwbare experts in de praktijk.
Grootschalige video-tekstvoorpretraining bereikt sterke prestaties, maar is afhankelijk van lawaaierige, synthetische bijschriften met beperkte semantische dekking, waarbij vaak impliciete wereldkennis zoals objectbeweging, 3D-geometrie en fysieke aanwijzingen over het hoofd wordt gezien. Masked Video Modeling (MVM) daarentegen benut direct spatiotemporele structuren, maar blijft achter bij tekstgesuperviseerde methoden voor algemene taken. Wij constateren dat deze kloof voortkomt uit over het hoofd geziene architectuurproblemen: reconstructie op pixelniveau worstelt met convergentie en de low-level vereisten conflicteren vaak met semantiek, terwijl latente voorspelling vaak shortcut learning aanmoedigt. Om dit aan te pakken, ontwarren we het traditionele encoder-decoder-ontwerp in een Encoder-Predictor-Decoder (EPD)-raamwerk, waarbij de predictor fungeert als een latent wereldmodel, en stellen we InternVideo-Next voor, een tweefasen voorpretrainingsschema dat een semantisch consistente maar detailbewarende latente ruimte voor dit wereldmodel construeert. Ten eerste dwingt een conventionele lineaire decoder in pixel-MVM dat de predictoruitvoer lineair geprojecteerd kan worden naar, en dus scheidbaar is in, de pixelruimte, wat het conflict met semantische abstractie veroorzaakt. Onze Fase 1 stelt een conditionele diffusiedecoder voor en injecteert betrouwbare semantische priors op beeldniveau om semantiek en convergentie te verbeteren, waardoor pixelgetrouwheid met hoogwaardige semantische abstractie wordt verbonden. Fase 2 leert verder wereldkennis door bevroren doelen uit Fase 1 binnen deze ruimte te voorspellen, waardoor shortcut learning wordt verminderd. Getraind op openbare, ongelabelde video's behaalt InternVideo-Next state-of-the-art resultaten op diverse benchmarks en biedt een schaalbaar pad naar algemene videorepresentatieleren.
Flow-gebaseerde generatieve modellen hebben recentelijk sterke prestaties gedemonstreerd, maar sampling vereist doorgaans kostbare numerieke integratie van gewone differentiaalvergelijkingen (GDV's). Rectified Flow maakt one-step sampling mogelijk door bijna rechte kanspaden te leren, maar het bereiken van zulke rechtlijnigheid vereist meerdere rekenintensieve reflow-iteraties. MeanFlow bereikt one-step generatie door direct de gemiddelde snelheid over tijd te modelleren; wanneer het echter wordt getraind op sterk gebogen flows, lijdt het onder trage convergentie en ruisvolle supervisie. Om deze beperkingen aan te pakken, stellen we Rectified MeanFlow voor, een raamwerk dat het gemiddelde snelheidsveld langs het gecorrigeerde traject modelleert met slechts één reflow-stap. Dit elimineert de noodzaak van perfect rechtgetrokken trajecten en maakt tegelijk efficiënte training mogelijk. Verder introduceren we een eenvoudige maar effectieve truncatieheuristiek die resterende kromming vermindert en de prestaties verder verbetert. Uitgebreide experimenten op ImageNet bij 64, 256 en 512 resoluties tonen aan dat Re-MeanFlow consistent superieure prestaties levert vergeleken met eerdere one-step flow-distillatie- en Rectified Flow-methoden, zowel in samplekwaliteit als trainingsrendement. Code is beschikbaar op https://github.com/Xinxi-Zhang/Re-MeanFlow.
In dit artikel wijzen we erop dat het doel van de retrieval-algoritmen is af te stemmen op het LLM, wat vergelijkbaar is met het doel van kennisdistillatie in LLM's. We analyseren de gelijkenis in informatie-focus tussen het gedistilleerde taalmodel (DLM) en het oorspronkelijke LLM vanuit een information-theoretisch perspectief, en stellen daarom een nieuw paradigma voor dat een DLM als retrieval-algoritme benut. Gebaseerd op dit inzicht presenteren we SpeContext, een co-design van algoritme en systeem voor redeneren met lange context. (1) Op algoritmeniveau stelt SpeContext een lichtgewicht retrieval-head voor op basis van de head-level aandachtgewichten van het DLM, waarbij een parametersreductie van >90% wordt bereikt door redundantie weg te snoeien. (2) Op systeemniveau ontwerpt SpeContext een asynchrone prefetch-dataflow via een elastische laadstrategie, waardoor KV-cache-retrieval effectief overlapt met de LLM-berekening. (3) Op compilatieniveau construeert SpeContext het theoretische geheugenmodel en implementeert een adaptief geheugenbeheersysteem om versnelling te bereiken door GPU-geheugenutilisatie te maximaliseren. We implementeren en evalueren SpeContext in twee resourcebeperkte omgevingen: cloud en edge. Uitgebreide experimenten tonen aan dat SpeContext, vergeleken met het Huggingface-framework, een doorvoerverbetering tot 24,89x in de cloud en een versnelling van 10,06x aan de edge bereikt met verwaarloosbaar accuratesseverlies, waardoor de Pareto-grens van accuratesse en doorvoer wordt verlegd.
Streaming Video Large Language Models (VideoLLM's) leveren indrukwekkende prestaties op diverse videobegriptaken, maar kampen met aanzienlijke uitdagingen bij realtime-implementatie vanwege de hoge rekenkosten van het verwerken van dichte visuele tokens uit continue videostreams. In streamingscenario's vormt de Vision Transformer (ViT)-coderingsfase de voornaamste bottleneck, waar redundante verwerking van temporeel gelijkaardige frames tot inefficiëntie leidt. Daarnaast verergeren opgeblazen tokensequenties tijdens LLM-pre-filling de latentie en geheugenoverhead verder. Om deze uitdagingen aan te pakken, stellen wij Streaming Token Compression (STC) voor, een plug-and-play hiërarchisch framework dat naadloos integreert in bestaande streaming VideoLLM's en zowel de ViT-coderings- als LLM-pre-fillingfasen optimaliseert om de verwerking te versnellen. STC introduceert twee tokenversnellers: STC-Cacher, die de ViT-encoderingsoverhead vermindert door features van temporeel gelijkaardige frames te cachen en hergebruiken, en STC-Pruner, die de visuele tokensequentie comprimeert voordat deze de LLM binnenkomt door alleen de meest salient tokens te behouden op basis van zowel ruimtelijke als temporele relevantie. Uitgebreide experimenten met vier baseline streaming VideoLLM's op vijf benchmarks tonen aan dat STC andere compressiemethoden overtreft. Opmerkelijk is dat STC tot 99% van de nauwkeurigheid behoudt op het ReKV-framework, terwijl het de ViT-coderingslatentie en LLM-pre-filling-latentie met respectievelijk 24,5% en 45,3% reduceert.
Grote taalmodellen (LLM's) vormen de basis van toepassingen in codegeneratie, wiskundig redeneren en agent-gebaseerde workflows. In de praktijk hebben systemen toegang tot LLM's via commerciële API's of open-source-implementaties, en het modelaanbod (bijv. GPT, Claude, Llama) evolueert snel. Deze snelle evolutie leidt tot frequente modelwisselingen, gedreven door capaciteit, kosten, implementatiebeperkingen en privacy. Toch zijn prompts zeer modelgevoelig: het hergebruiken van een prompt die voor één model is geoptimaliseerd op een ander model levert vaak aanzienlijk slechtere prestaties op dan een prompt die voor het doelmodel is geoptimaliseerd. Wij noemen dit fenomeen Model Drifting. Door uitgebreide empirische analyse van diverse LLM-configuraties tonen we aan dat model drifting zowel veelvoorkomend als ernstig is. Om deze uitdaging aan te pakken, introduceren we PromptBridge, een trainingsvrij raamwerk dat de effectiviteit van prompts behoudt bij modelwisselingen, waardoor prompttransfer tussen modellen mogelijk wordt zonder kostbare heroptimalisatie per taak of per model. PromptBridge vereist slechts een kleine set afstemmingstaken voor kalibratie. Het past eerst Model-Adaptive Reflective Prompt Evolution (MAP-RPE) toe om taak- en modelspecifieke optimale prompts te verkrijgen via iteratieve reflectieve verfijning en kwantitatieve evaluatie. Met de resulterende gekalibreerde promptparen voor het bron- en doelmodel leert PromptBridge een cross-model promptmapping. Tijdens de testfase, d.w.z. voor een onbekende taak, produceert deze mapping direct een geoptimaliseerde prompt voor het doelmodel, gegeven een prompt voor het bronmodel. Experimenten in single-agent en multi-agent settings tonen aan dat PromptBridge consistent de downstreamnauwkeurigheid verbetert en de migratie-inspanning vermindert. De code zal binnenkort beschikbaar zijn.
Schaalbaarheid van rekentijd tijdens testen is naar voren gekomen als een krachtig paradigma om wiskundig redeneren in grote taalmodellen (LLM's) te verbeteren door extra rekenresources toe te wijzen tijdens de inferentiefase. Huidige methodes hanteren echter een uniforme resourceverdeling over alle redeneersubproblemen, wat fundamentele knelpunten creëert: uitdagende subproblemen krijgen onvoldoende aandacht, terwijl routinematige bewerkingen onevenredig veel resources verbruiken. Deze uniforme toewijzing leidt tot prestatieknelpunten waarbij extra rekenresources afnemende meeropbrengsten opleveren. Geïnspireerd door de dual-process theorie stellen we SCALE voor (Selectieve Resource Toewijzing), een raamwerk dat rekenresources selectief toewijst op basis van de moeilijkheidsgraad van subproblemen. SCALE werkt via vier fasen: (1) probleemdecompositie in opeenvolgende redeneersubproblemen, (2) moeilijkheidsinschatting van elk subprobleem om routinebewerkingen te onderscheiden van rekenkundig uitdagende subproblemen, (3) selectieve toewijzing van verwerkingsmodi tussen Systeem 1 voor eenvoudige subproblemen en Systeem 2 voor complexe, en (4) sequentiële uitvoering met contextpropagatie. Door resources te concentreren op uitdagende subproblemen terwijl routinebewerkingen efficiënt worden verwerkt, bereikt SCALE aanzienlijke prestatieverbeteringen met superieur resourcegebruik. Uitgebreide experimenten tonen aan dat SCALE uniforme schaalbaarheids-baselines significant overtreft, met nauwkeurigheidsverbeteringen tot 13,75 procentpunten (van 57,50% naar 71,25% op AIME25) terwijl de rekenkosten met 33%-53% worden verlaagd. Dit vertegenwoordigt een belangrijke vooruitgang in test-time schaalbaarheid die de fundamentele beperkingen van huidige benaderingen aanpakt.
Meertalige tekst-naar-beeldmodellen (T2I) hebben een snelle vooruitgang geboekt op het gebied van visuele realisme en semantische afstemming, en worden tegenwoordig veelvuldig gebruikt. Toch variëren de resultaten per culturele context: omdat taal culturele connotaties met zich meedraagt, zouden afbeeldingen die zijn gegenereerd uit meertalige prompts cross-linguïstische culturele consistentie moeten behouden. Wij voeren een uitgebreide analyse uit waaruit blijkt dat huidige T2I-modellen onder meertalige prompts vaak cultureel neutrale of op het Engels gerichte resultaten produceren. Analyses van twee representatieve modellen geven aan dat het probleem niet voortkomt uit ontbrekende culturele kennis, maar uit onvoldoende activatie van cultuurgerelateerde representaties. Wij stellen een peilmethode voor die cultuurgevoelige signalen lokaliseert naar een kleine set neuronen in een vast aantal lagen. Geleid door deze bevinding introduceren wij twee complementaire afstemmingsstrategieën: (1) culturele activatie tijdens inferentie die de geïdentificeerde neuronen versterkt zonder fine-tuning van de backbone; en (2) laaggerichtete culturele versterking die enkel de cultureel relevante lagen bijwerkt. Experimenten op onze CultureBench tonen consistente verbeteringen aan ten opzichte van sterke basislijnen in culturele consistentie, terwijl getrouwheid en diversiteit behouden blijven.
De snelle groei van visuele tokens in multimodale grote taalmodellen (MLLM's) leidt tot excessief geheugengebruik en inferentielatentie, vooral bij het verwerken van hoge-resolutiebeelden en video's. Tokenpruning is een techniek om dit probleem te verminderen door redundantie te verwijderen, maar bestaande methoden negeren vaak de relevantie voor de gebruikersquery of lijden onder de beperkingen van aandachtmechanismen, wat hun aanpasbaarheid en effectiviteit vermindert. Om deze uitdagingen aan te pakken, stellen we Script voor, een plug-and-play pruningmethode die geen hertraining vereist en generaliseert over diverse MLLM's. Script bestaat uit twee modules: een grafisch gestructureerde pruningmodule die visueel redundante tokens verwijdert, en een query-gestuurde semantische pruningmodule die query-relevante visuele informatie behoudt. Samen verbeteren ze de prestaties op multimodale taken. Experimenten op veertien benchmarks voor beeld- en videobegriptaken tonen aan dat Script consistent hogere model efficiëntie en voorspellende nauwkeurigheid bereikt in vergelijking met bestaande pruningmethoden. Op LLaVA-NeXT-7B bereikt het tot 6,8x versnelling in de prefill-fase en een 10x reductie in FLOP's, terwijl 96,88% van de oorspronkelijke prestaties behouden blijft.
Het herstellen van pixelgeometrische eigenschappen uit een enkele afbeelding is fundamenteel ill-posed vanwege verschijningsambiguïteit en niet-injectieve afbeeldingen tussen 2D-waarnemingen en 3D-structuren. Hoewel discriminatieve regressiemodellen sterke prestaties bereiken via grootschalige supervisie, wordt hun succes begrensd door de schaal, kwaliteit en diversiteit van beschikbare data en beperkt fysiek redeneren. Recente diffusiemodellen vertonen krachtige wereldpriors die geometrie en semantiek coderen, geleerd uit massale beeld-tekstdata, maar het direct hergebruiken van hun stochastische generatieve formulering is suboptimaal voor deterministische geometrische inferentie: de eerste is geoptimaliseerd voor diverse en hoogwaardige beeldgeneratie, terwijl de laatste stabiele en accurate voorspellingen vereist. In dit werk stellen we Lotus-2 voor, een deterministisch tweefasenraamwerk voor stabiele, accurate en fijnmazige geometrische dichte voorspelling, met als doel een optimaal aanpassingsprotocol te bieden om de vooraf getrainde generatieve priors volledig te benutten. Specifiek gebruikt in de eerste fase de kernvoorspeller een deterministische formulering in één stap met een schone-data-doelstelling en een lichtgewicht lokale continuïteitsmodule (LCM) om globaal samenhangende structuren te genereren zonder rasterartefacten. In de tweede fase voert de detailverscherper een beperkte multi-stap gerechtigdestroomverfijning uit binnen de variëteit gedefinieerd door de kernvoorspeller, waarbij fijnmazige geometrie wordt verbeterd door middel van ruisvrije deterministische stroomafstemming. Met slechts 59K trainingsamples, minder dan 1% van bestaande grootschalige datasets, vestigt Lotus-2 nieuwe state-of-the-art resultaten in monocular diepteschatting en zeer competitieve oppervlaktenormaalvoorspelling. Deze resultaten tonen aan dat diffusiemodellen kunnen fungeren als deterministische wereldpriors, waardoor hoogwaardige geometrische redenering mogelijk wordt die verder gaat dan traditionele discriminatieve en generatieve paradigma's.
Streaming video-inzicht vereist van modellen niet alleen dat ze temporeel binnenkomende frames verwerken, maar ook dat ze gebruikersintentie anticiperen voor realistische toepassingen zoals AR-brillen. Hoewel bestaande streamingbenchmarks temporeel redeneren evalueren, meten er geen enkele of MLLM's menselijke bliksignalen kunnen interpreteren of benutten binnen een streamingcontext. Om deze leemte te vullen, introduceren we StreamGaze, de eerste benchmark die is ontworpen om te evalueren hoe effectief MLLM's blikinformatie gebruiken voor temporeel en proactief redeneren in streamingvideo's. StreamGaze introduceert blikgestuurde taken voor het verleden, het heden en proactieve anticipatie die het streaming video-inzicht uitgebreid evalueren. Deze taken beoordelen of modellen realtime blikdata kunnen gebruiken om verschuivende aandacht te volgen en gebruikersintenties af te leiden vanuit uitsluitend reeds waargenomen en huidige frames. Om StreamGaze op te bouwen, ontwikkelden we een blik-video QA-generatiepijplijn die egocentrische video's aligneert met ruwe bliktrajectorieën via fixatie-extractie, regiospecifieke visuele prompting en scanpadconstructie. Deze pijplijn produceert spatio-temporeel verankerde QA-paren die nauw aansluiten bij menselijke perceptiedynamiek. Over alle StreamGaze-taken heen observeren we substantiële prestatiekloof tussen state-of-the-art MLLM's en menselijke prestaties, wat fundamentele beperkingen blootlegt in op blik gebaseerd temporeel redeneren, intentiemodellering en proactieve voorspelling. We bieden verder gedetailleerde analyses van blik-promptingstrategieën, redeneergedrag en taakspecifieke foutmodi, wat dieper inzicht biedt in waarom huidige MLLM's worstelen en welke capaciteiten toekomstige modellen moeten ontwikkelen. Alle data en code worden openbaar vrijgegeven om voortgezet onderzoek in blikgestuurd streaming video-inzicht te ondersteunen.
Recente multimodale redeneermodellen, geïnspireerd door DeepSeek-R1, hebben vision-language systemen aanzienlijk vooruitgebracht. Bij remote sensing (RS)-taken observeren we echter wijdverspreid pseudo-redeneren: modellen beschrijven het redeneerproces in plaats van daadwerkelijk op basis van visueel bewijs naar het juiste antwoord toe te redeneren. Wij schrijven dit toe aan het Glance Effect, waarbij een enkele, grove waarneming van grootschalige RS-beelden leidt tot een onvolledig begrip en redeneren gebaseerd op linguïstische zelfconsistentie in plaats van visueel bewijs. Om dit aan te pakken, stellen wij RS-EoT (Remote Sensing Evidence-of-Thought) voor, een taalgestuurd, iteratief paradigma voor het zoeken naar visueel bewijs. Om dit paradigma in te bedden, stellen wij SocraticAgent voor, een multi-agent systeem met zelf-play dat redeneersporen synthetiseert via afwisselende cycli van redeneren en visuele inspectie. Om deze patronen te versterken en te generaliseren, stellen wij een tweefasen progressieve RL-strategie voor: eerst RL op fijnmazige Grounding-taken om RS-EoT-capaciteiten te verbeteren, gevolgd door RL op RS VQA om naar bredere begripscenario's te generaliseren. Experimenten tonen aan dat RS-EoT state-of-the-art prestaties behaalt op meerdere RS VQA- en grounding-benchmarks. Analyses onthullen duidelijke iteratieve cycli van redeneren en bewijs zoeken, wat bevestigt dat RS-EoT het Glance Effect beperkt en echt op bewijs gebaseerd redeneren mogelijk maakt. Onze code, gegevens en modellen zijn beschikbaar op https://geox-lab.github.io/Asking_like_Socrates.
Graphical User Interface (GUI)-agenten hebben effectief gebruik van historische context nodig om sequentiële navigatietaken uit te voeren. Hoewel het opnemen van eerdere acties en observaties de besluitvorming kan verbeteren, leidt een naïef gebruik van de volledige geschiedenis tot excessieve rekenkosten en afleiding door irrelevante informatie. Om dit aan te pakken, introduceren we HiconAgent, een GUI-agent die is getraind met History Context-aware Policy Optimization (HCPO) voor efficiënt en effectief gebruik van historische informatie. HCPO optimaliseert het geschiedenisgebruik in zowel de steekproefname als de beleidsupdates via twee complementaire componenten: (1) Dynamic Context Sampling (DCS) presenteert de agent variabele lengte-geschiedenissen tijdens de steekproefname, waardoor adaptief gebruik van de meest relevante context mogelijk wordt; (2) Anchor-guided History Compression (AHC) verfijnt de beleidsupdatefase met een dubbele takstrategie waarbij de gecomprimeerde tak historische observaties verwijdert maar historische acties als ankers voor de informatiestroom behoudt. De gecomprimeerde en niet-gecomprimeerde takken worden gekoppeld via een geschiedenisverbeterd aligneringsverlies om consistent geschiedenisgebruik af te dwingen en tegelijkertijd de efficiëntie te behouden. Experimenten op gangbare GUI-navigatiebenchmarks tonen sterke prestaties aan. Ondanks zijn kleinere omvang overtreft HiconAgent-3B GUI-R1-7B met +8,46 procent grondingsnauwkeurigheid en +11,32 procent stapsuccespercentage op GUI-Odyssey, terwijl het vergelijkbare resultaten behaalt op AndroidControl en AITW met een rekenkundige versnelling tot 2,47x en een FLOPs-reductie van 60 procent.
Grote Redeneermodellen (LRM's) behalen sterke prestaties op het gebied van wiskunde, codegeneratie en taakplanning, maar hun afhankelijkheid van lange ketens van uitgebreide "denk"-tokens leidt tot hoge latentie, redundantie en onsamenhangende redeneerpaden. Geïnspireerd door de Taal-van-Het-Denken-Hypothese, die stelt dat menselijk redeneren plaatsvindt in een symbolische, compositionele mentale taal genaamd Mentalese, introduceren we een raamwerk dat modellen traint om op een vergelijkbaar compacte manier te redeneren. Mentalese codeert abstract redeneren als ultra-gecomprimeerde, gestructureerde tokens, waardoor modellen complexe problemen kunnen oplossen in veel minder stappen. Om zowel efficiëntie als nauwkeurigheid te verbeteren, stellen we SHORTER LENGTH PREFERENCE OPTIMIZATION (SLPO) voor, een reinforcement learning-methode die beknopte en correcte oplossingen beloont, terwijl langer redeneren waar nodig nog steeds mogelijk blijft. Toegepast op Met Mentalese uitgelijnde modellen, levert SLPO aanzienlijk hogere compressiepercentages op door beknopt redeneren mogelijk te maken dat de voordelen van gedetailleerd denken behoudt zonder de computationele overhead. Op benchmarks zoals AIME 2024 en 2025, MinervaMath, OlympiadBench, Math500 en AMC produceren onze ORION-modellen redeneersporen met 4-16x minder tokens, bereiken ze tot 5x lagere inferentie-latentie en verlagen ze de trainingskosten met 7-9x ten opzichte van het DeepSeek R1 Distilled-model, terwijl ze 90-98% van de nauwkeurigheid daarvan behouden. ORION overtreft tevens Claude en ChatGPT-4o met tot 5% in nauwkeurigheid bij een compressie van 2x. Deze resultaten tonen aan dat Met Mentalese-stijl gecomprimeerd redeneren een stap richting menselijke cognitieve efficiëntie biedt, waardoor real-time, kosteneffectief redeneren mogelijk wordt zonder in te leveren op nauwkeurigheid.
Het Inversie-Denoiseringsparadigma, dat gebaseerd is op diffusiemodellen, blinkt uit in diverse beeldbewerkings- en restauratietaken. Wij herbezien het onderliggende mechanisme en leggen een kritieke, over het hoofd gezien factor in reconstructieverval bloot: de benaderingsfout in ruis. Deze fout ontstaat door de ruis bij stap t te benaderen met de voorspelling bij stap t-1, wat leidt tot ernstige foutaccumulatie gedurende het inversieproces. Wij introduceren Projection-Orthogonal Least Squares for Robust and Adaptive Inversion (POLARIS), dat inversie herformuleert van een foutcompensatieprobleem naar een foutoorsprongsprobleem. In plaats van embeddings of latente codes te optimaliseren om geaccumuleerde drift te compenseren, behandelt POLARIS de begeleidingsschaal ω als een stap-variabele en leidt een wiskundig onderbouwde formule af om de inversiefout bij elke stap te minimaliseren. Opmerkelijk genoeg verbetert POLARIS de kwaliteit van de inverse latentie met slechts één regel code. Met een verwaarloosbare prestatie-overhead vermindert het substantieel de ruisbenaderingsfouten en verbetert het consistent de nauwkeurigheid van downstreamtaken.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft het redeneervermogen van grote taalmodellen (LLM's) gevorderd, waardoor autonome agents effectieve meerronde en tool-geïntegreerde redenering kunnen uitvoeren. Hoewel instructies het primaire protocol vormen voor het definiëren van agents, vertrouwt RLVR doorgaans op statische en handmatig ontworpen instructies. Deze instructies kunnen echter suboptimaal zijn voor het basismodel, en de optimale instructie kan veranderen naarmate het beleid van de agent verbetert en de interactie met de omgeving verkent. Om deze kloof te overbruggen, introduceren we INSPO, een nieuw Instruction-Policy co-evolutiekader dat instructie-optimalisatie integreert als een dynamische component van de reinforcement learning (RL) loop. INSPO houdt een dynamische populatie van instructiekandidaten bij die worden bemonsterd met vragen, waarbij beloningssignalen in RL-lussen automatisch aan elke instructie worden toegeschreven en zwakke presteerders periodiek worden verwijderd. Nieuwe instructies worden gegenereerd en geverifieerd via een on-policy reflectiemechanisme, waarbij een op LLM gebaseerde optimizer eerdere ervaringen uit een replaybuffer analyseert en effectievere strategieën evolueert, gegeven het huidige beleid. We voeren uitgebreide experimenten uit voor meerronde retrieval- en redeneertaken, waaruit blijkt dat INSPO sterk presteert ten opzichte van sterke baseline-methoden die op statische instructies vertrouwen. INSPO ontdekt innovatieve instructies die de agent naar strategischer redeneerpaden leiden, wat aanzienlijke prestatieverbeteringen oplevert met slechts een marginale toename van de rekentijd.
Gespecialiseerde klinische AI-assistenten doen in rap tempo hun intrede in de medische praktijk, waarbij ze vaak worden gepresenteerd als veiliger of betrouwbaarder dan algemene grote taalmodelen (LLM's). In tegenstelling tot frontier-modellen worden deze klinische hulpmiddelen echter zelden onderworpen aan onafhankelijke, kwantitatieve evaluatie, wat een kritieke kloof in de onderbouwing creëert, ondanks hun groeiende invloed op diagnose, triage en interpretatie van richtlijnen. Wij evalueerden twee veelgebruikte klinische AI-systemen (OpenEvidence en UpToDate Expert AI) tegenover drie state-of-the-art generalistische LLM's (GPT-5, Gemini 3 Pro en Claude Sonnet 4.5) met behulp van een mini-benchmark van 1.000 items, bestaande uit een combinatie van MedQA-taken (medische kennis) en HealthBench-taken (afstemming met clinici). De generalistische modellen presteerden consistent beter dan de klinische hulpmiddelen, waarbij GPT-5 de hoogste scores behaalde, terwijl OpenEvidence en UpToDate tekortkomingen vertoonden op het gebied van volledigheid, communicatiekwaliteit, contextbewustzijn en veiligheidsredenering op systeemniveau. Deze bevindingen tonen aan dat hulpmiddelen die op de markt worden gebracht voor klinische beslissingsondersteuning vaak achterlopen bij frontier-LLM's, wat de dringende behoefte onderstreept aan transparante, onafhankelijke evaluatie vóór implementatie in patiëntgerichte werkstromen.
Test-time scaling (TTS) – de dynamische toewijzing van rekenkracht tijdens inferentie – is een veelbelovende richting voor het verbeteren van het redeneervermogen van grote taalmmodellen (LLM's). Er ontbreekt echter een systematische vergelijking van bekende TTS-strategieën onder identieke omstandigheden, en de invloed van modeltype en probleemmoeilijkheid op de prestaties blijft onduidelijk. Om deze lacunes aan te pakken, voeren we de eerste grootschalige studie naar TTS uit, waarbij meer dan dertig miljard tokens worden gegenereerd met acht open-source LLM's (7B tot 235B parameters), verspreid over vier redeneerdatasets. We observeren drie consistente trends: (1) geen enkele TTS-strategie is universeel superieur; (2) redeneermodellen vertonen duidelijke spoor-kwaliteitspatronen over probleemmoeilijkheid en spoorelengte, die zich verdelen in kort-horizon- en lang-horizoncategorieën; en (3) voor een bepaald modeltype schaalt de optimale TTS-prestatie monotoon met het rekenbudget. Op basis van deze inzichten bieden we een praktisch recept voor het selecteren van de beste TTS-strategie, waarbij rekening wordt gehouden met probleemmoeilijkheid, modeltype en rekenbudget, wat een praktische gids vormt voor effectieve schaling tijdens de inferentie.
Recente beeldbewerkingsmodellen pronken met intelligente mogelijkheden van het hoogste niveau, waardoor beeldbewerking op basis van cognitie en creativiteit wordt vergemakkelijkt. Toch bieden bestaande benchmarks een te beperkte evaluatiereikwijdte, waardoor deze geavanceerde vaardigheden niet holistisch kunnen worden beoordeeld. Om dit aan te pakken, introduceren we WiseEdit, een kennisintensieve benchmark voor een uitgebreide evaluatie van beeldbewerking op basis van cognitie en creativiteit, met een diepe taakcomplexiteit en brede kennisomvang. In analogie met menselijke cognitieve creatie deelt WiseEdit beeldbewerking op in drie opeenvolgende stappen, namelijk Bewustzijn, Interpretatie en Verbeelding, waarbij elke stap overeenkomt met een taak die een uitdaging vormt voor modellen om op dat specifieke niveau te voltooien. Het omvat ook complexe taken waarin geen van de drie stappen eenvoudig kan worden afgerond. Verder integreert WiseEdit drie fundamentele soorten kennis: Declaratieve, Procedurele en Metacognitieve kennis. Uiteindelijk bestaat WiseEdit uit 1.220 testgevallen, die objectief de beperkingen van state-of-the-art beeldbewerkingsmodellen aantonen op het gebied van kennisgebaseerd cognitief redeneren en creatieve compositievaardigheden. De benchmark, evaluatiecode en de gegenereerde afbeeldingen van elk model zullen binnenkort openbaar beschikbaar worden gesteld. Projectpagina: https://qnancy.github.io/wiseedit_project_page/.
Hoewel heersende cameragestuurde videogeneratiemodellen cinematografische resultaten kunnen produceren, is het direct opschalen naar de generatie van 3D-consistente en hoogwaardige, tijdsgesynchroniseerde multi-view video's een uitdaging. Dit vermogen is echter cruciaal voor het temmen van 4D-werelden. Sommige werken nemen hun toevlucht tot data-augmentatie of optimalisatie tijdens het testen, maar deze strategieën worden beperkt door een beperkte modelgeneralizatie en schaalbaarheidsproblemen. Daarom stellen wij ChronosObserver voor, een trainingsvrije methode die een Wereldtoestand-Hyperruimte omvat om de ruimtelijk-temporele beperkingen van een 4D-wereldscène weer te geven, en Hyperruimte-gestuurde Steekproefname om de diffusie-steekproeftrajecten van meerdere viewpoints te synchroniseren met behulp van de hyperruimte. Experimentele resultaten tonen aan dat onze methode hoogwaardige en 3D-consistente, tijdsgesynchroniseerde multi-view video's genereert zonder training of fine-tuning van diffusiemodellen.
Wij introduceren een nieuw raamwerk dat rechtstreeks een spectrale basis leert voor vorm- en variëteitsanalyse vanuit ongestructureerde data, waardoor de noodzaak van traditionele operatorselectie, discretisatie en eigenwaardesolvers wordt geëlimineerd. Geworteld in de optimale-benaderingstheorie trainen wij een netwerk om een impliciete benaderingsoperator te decomponeren door de reconstructiefout in de geleerde basis te minimaliseren over een gekozen verdeling van proeffuncties. Voor geschikte verdelingen kunnen deze worden gezien als een benadering van de Laplace-operator en diens eigenwaardedecompositie, welke fundamenteel zijn in geometrieverwerking. Bovendien herstelt onze methode op een uniforme manier niet alleen de spectrale basis, maar ook de bemonsteringsdichtheid van de impliciete metriek en de eigenwaarden van de onderliggende operator. Opmerkelijk is dat onze onbewaakte methode geen aannames doet over de datavariëteit, zoals meshing of variëteitsdimensionaliteit, waardoor deze kan schalen naar willekeurige datasets van elke dimensie. Op puntenwolken die op oppervlakken in 3D en hoogdimensionale beeldvariëteiten liggen, levert onze aanpak zinvolle spectrale bases op, die kunnen lijken op die van de Laplace-operator, zonder expliciete constructie van een operator. Door de traditionele operatorselectie, -constructie en eigenwaardedecompositie te vervangen door een op leren gebaseerde aanpak, biedt ons raamwerk een principekundig, data-gedreven alternatief voor conventionele pijplijnen. Dit opent nieuwe mogelijkheden in geometrieverwerking voor ongestructureerde data, in het bijzonder in hoogdimensionale ruimten.
Een lang gekoesterd doel in de computer vision is het modelleren van bewegingen uit video's, terwijl de representaties achter bewegingen, d.w.z. de onzichtbare fysieke interacties die objecten doen vervormen en bewegen, grotendeels onontgonnen terrein blijven. In dit artikel bestuderen we hoe we onzichtbare krachten kunnen herleiden uit visuele waarnemingen, bijvoorbeeld het inschatten van het windveld door de val van een blad naar de grond te observeren. Onze belangrijkste innovatie is een end-to-end differentieerbaar inverse graphics-framework, dat objectgeometrie, fysieke eigenschappen en interacties rechtstreeks uit video's gezamenlijk modelleert. Door middel van backpropagatie maakt onze aanpak het mogelijk krachtrepresentaties te herleiden uit objectbewegingen. We valideren onze methode op zowel synthetische als realistische scenario's, en de resultaten tonen aan dat het plausibele krachtvelden kan afleiden uit video's. Verder tonen we de potentiële toepassingen van onze aanpak, waaronder fysica-gebaseerde videogeneratie en -bewerking. We hopen dat onze aanzet inzicht geeft in het begrijpen en modelleren van het fysieke proces achter pixels, en zo een brug slaat tussen visie en fysica. Bekijk meer videoresultaten op onze {projectpagina}: https://chaoren2357.github.io/seeingthewind/.
Hoewel grote taalmodellen uitblinken in meertalige taken met veel bronnen, blijven talen met weinig en extreem weinig bronnen in India ernstig ondergeëvalueerd. Wij presenteren IndicParam, een door mensen samengestelde benchmark met meer dan 13.000 multiple-choicevragen die 11 van dergelijke talen bestrijkt (Nepalees, Gujarati, Marathi, Odia als talen met weinig bronnen; Dogri, Maithili, Rajasthani, Sanskriet, Bodo, Santali, Konkani als talen met extreem weinig bronnen) plus een Sanskriet-Engelse code-mixed set. Wij evalueerden 19 LLM's, zowel propriëtair als open-weight, wat aantoont dat zelfs de best presterende GPT-5 slechts een gemiddelde nauwkeurigheid van 45,0% bereikt, gevolgd door DeepSeek-3.2 (43,1) en Claude-4.5 (42,7). Daarnaast categoriseren wij elke vraag als kennisgericht of puur linguïstisch om feitelijke recall te onderscheiden van grammaticale vaardigheid. Verder beoordelen wij het vermogen van LLM's om diverse vraagformaten aan te kunnen - zoals matching op basis van lijsten, bewering-redenparen en sequentie-ordening - naast conventionele multiple-choicevragen. IndicParam biedt inzichten in de beperkingen van cross-linguale transfer en vestigt een uitdagende benchmark voor Indiase talen. De dataset is beschikbaar op https://huggingface.co/datasets/bharatgenai/IndicParam. Scripts om de benchmark uit te voeren zijn te vinden op https://github.com/ayushbits/IndicParam.
Huidige methoden voor storyvisualisatie positioneren personages vaak uitsluitend op basis van tekst en hebben moeite met het behouden van artistieke consistentie. Om deze beperkingen aan te pakken, introduceren wij DreamingComics, een layout-bewust raamwerk voor storyvisualisatie. Wij bouwen voort op een vooraf getraind video-diffusie-transformer (DiT) model en benutten de spatiotemporele voorkennis om de identiteits- en stijlconsistentie te verbeteren. Voor layout-gebaseerde positiecontrole stellen wij RegionalRoPE voor, een regio-bewust positioneringscoderingsschema dat embeddings opnieuw indeelt op basis van de doel-layout. Daarnaast introduceren wij een gemaskeerd conditieverlies om de visuele kenmerken van elk personage verder te beperken tot hun toegewezen regio. Om layouts af te leiden uit scripts in natuurlijke taal, integreren wij een op een grote taalmodel (LLM) gebaseerde layoutgenerator die is getraind om stripstijl-layouts te produceren, wat flexibele en controleerbare layout-conditionering mogelijk maakt. Wij presenteren een uitgebreide evaluatie van onze aanpak, die een verbetering van 29,2% in personageconsistentie en 36,2% in stijlgelijkheid laat zien in vergelijking met eerdere methoden, terwijl een hoge ruimtelijke nauwkeurigheid wordt getoond. Onze projectpagina is beschikbaar op https://yj7082126.github.io/dreamingcomics/.
Causaal denken stelt mensen in staat niet alleen te begrijpen wat wordt waargenomen, maar ook waarom het gebeurt. Om dit vermogen na te bootsen in moderne AI-systemen, introduceren we de taak van visuele causale ontdekking. Hierbij moeten modellen oorzaak-gevolgrelaties tussen visuele entiteiten in diverse scenario's afleiden, in plaats van slechts hun aanwezigheid waar te nemen. Hiertoe construeren we eerst de Visual Causal Graph dataset (VCG-32K), een grootschalige verzameling van meer dan 32.000 afbeeldingen geannoteerd met causaal-grafieken op entiteitsniveau, en ontwikkelen we verder CauSight, een nieuw vision-language model dat visuele causale ontdekking uitvoert via causaal-bewust redeneren. Onze trainingsaanpak integreert drie componenten: (1) curatie van trainingsdata uit VCG-32K, (2) Tree-of-Causal-Thought (ToCT) voor het synthetiseren van redeneertrajecten, en (3) reinforcement learning met een ontworpen causale beloning om het redeneerbeleid te verfijnen. Experimenten tonen aan dat CauSight beter presteert dan GPT-4V op visuele causale ontdekking, met een prestatieverbetering van meer dan drievoudig (21% absolute winst). Onze code, model en dataset zijn volledig open source beschikbaar op de projectpagina: https://github.com/OpenCausaLab/CauSight.
Recentelijk hebben tweefasige fine-tuningstrategieën, zoals het verwerven van essentiële rijvaardigheidskennis via supervised fine-tuning (SFT) en het verder verbeteren van besluitvorming en planning via reinforcement fine-tuning (RFT), een sterk potentieel getoond in de vooruitgang van het kennisgedreven autonome rijden (AD) paradigma. De leeraard van SFT beperkt echter nog steeds de generalisatie van redeneervaardigheden, wat de volledige potentie van de rijprestaties beperkt. Tegelijkertijd worden huidige RFT-benaderingen voornamelijk toegepast op downstreamtaken, omdat scenariobegrip een open-eindprobleem is waarbij bijbehorende beloningen moeilijk te kwantificeren zijn. Om deze beperkingen aan te pakken, stellen wij OpenREAD voor, een OPEN-ended REasoning versterkt vision-language model (VLM)-gebaseerd autonoom rijden (AD) framework dat end-to-end RFT mogelijk maakt over het volledige spectrum, van hoogwaardig redeneren tot laagwaardige trajectplanning. Specifiek beginnen wij met het construeren van grootschalige Chain-of-Thought (CoT) annotaties op open-source rij-gerelateerde kennisdatasets, en zetten het krachtige Qwen3 large language model (LLM) in als criticus in RFT om de redeneerkwaliteit voor open-eindvragen te kwantificeren tijdens beloningsmodellering. Uitgebreide experimenten bevestigen dat gezamenlijke end-to-end RFT substantiële verbeteringen oplevert in zowel upstream- als downstreamtaken, waardoor OpenREAD state-of-the-art prestaties kan bereiken op redeneer- en planningbenchmarks.
Er is aanzienlijke vooruitgang geboekt bij open-source tekst-gebaseerde vertaalmodellen (large language models, LLM's) met een betere taaldekking en kwaliteit. Deze modellen kunnen echter alleen worden gebruikt in cascade-pijplijnen voor spraakvertaling (speech translation, ST), waarbij eerst automatische spraakherkenning wordt uitgevoerd, gevolgd door vertaling. Dit introduceert extra latentie, wat vooral kritiek is bij simultane ST (SimulST), en voorkomt dat het model gebruik kan maken van multimodale context, zoals afbeeldingen, die kunnen helpen bij disambiguatie. Voorgetrainde multimodale foundation-modellen (MMFM's) beschikken al over sterke perceptie- en redeneervaardigheden over meerdere modaliteiten, maar missen over het algemeen de meertalige dekking en gespecialiseerde vertaalprestaties van toegewijde vertaal-LLM's. Om een effectief multimodaal vertaalsysteem te bouwen, stellen we een end-to-end aanpak voor die MMFM's integreert met vertaal-LLM's. We introduceren een nieuwe fusiestrategie die verborgen toestanden uit meerdere lagen van een voorgetraind MMFM verbindt met een vertaal-LLM, waardoor gezamenlijke end-to-end training mogelijk wordt. Het resulterende model, OmniFusion, gebouwd op Omni 2.5-7B als MMFM en SeedX PPO-7B als vertaal-LLM, kan spraak-naar-tekst, spraak-en-beeld-naar-tekst, en tekst-en-beeld-naar-tekst vertaling uitvoeren. Experimenten tonen aan dat OmniFusion effectief gebruikmaakt van zowel audio- als visuele invoer, een latentievermindering van 1 seconde bereikt in SimulST vergeleken met cascade-pijplijnen en ook de algehele vertaalkwaliteit verbetert. Code is beschikbaar op https://github.com/saikoneru/OmniFusion.
Camera- en objectbewegingen zijn cruciaal voor de narratieve structuur van een video. Het precies bewerken van deze vastgelegde bewegingen blijft echter een grote uitdaging, vooral bij complexe objectbewegingen. Huidige op beweging gestuurde beeld-naar-video (I2V) benaderingen missen vaak de volledige scènecontext voor consistente videobewerking, terwijl video-naar-video (V2V) methoden wel viewpointveranderingen of basisobjecttranslatie bieden, maar beperkte controle over fijnmazige objectbeweging mogelijk maken. Wij presenteren een track-geconditioneerd V2V-raamwerk dat gezamenlijke bewerking van camera- en objectbeweging mogelijk maakt. Dit bereiken we door een videogeneratiemodel te conditioneren op een bronvideo en gekoppelde 3D-punttracks die bron- en doelbewegingen vertegenwoordigen. Deze 3D-tracks leggen sparse correspondenties vast die rijke context van de bronvideo overbrengen naar nieuwe bewegingen, waarbij spatiotemporele coherentie behouden blijft. Cruciaal is dat 3D-tracks, vergeleken met 2D-tracks, expliciete dieptesignalen bieden, waardoor het model dieptevolgorde kan oplossen en occlusies kan hanteren voor precieze bewegingbewerking. Ons model, getraind in twee fasen op synthetische en reële data, ondersteunt diverse bewegingbewerkingen, waaronder gezamenlijke camera/objectmanipulatie, bewegingsoverdracht en niet-rigide deformatie, wat nieuwe creatieve mogelijkheden in videobewerking ontsluit.
De wereldwijd toenemende prevalentie van schildklierkanker heeft geleid tot de ontwikkeling van diverse computerondersteunde detectiemethoden. Nauwkeurige segmentatie van schildklierknobbels is een cruciale eerste stap in de ontwikkeling van AI-ondersteunde klinische beslissingsondersteunende systemen. Deze studie richt zich op instancesegmentatie van schildklierknobbels met behulp van YOLOv5-algoritmen op echobeelden. Wij evalueerden meerdere YOLOv5-varianten (Nano, Small, Medium, Large en XLarge) op twee datasetversies, met en zonder dopplerbeelden. Het YOLOv5-Large-algoritme behaalde de hoogste prestaties met een dice-score van 91% en een mAP van 0,87 op de dataset inclusief dopplerbeelden. Opmerkelijk is dat onze resultaten aantonen dat dopplerbeelden, die doorgaans door artsen worden uitgesloten, de segmentatieprestaties aanzienlijk kunnen verbeteren. Het YOLOv5-Small-model behaalde een dice-score van 79% wanneer dopplerbeelden werden uitgesloten, terwijl het includeren ervan de prestaties bij alle modelvarianten verbeterde. Deze bevindingen suggereren dat instancesegmentatie met YOLOv5 een effectieve real-time benadering biedt voor de detectie van schildklierknobbels, met potentiële klinische toepassingen in geautomatiseerde diagnostische systemen.
Wij presenteren Conformer-gebaseerde decoders voor de LibriBrain 2025 PNPL-competitie, gericht op twee fundamentele MEG-taken: Spraakdetectie en Foneemclassificatie. Onze aanpaste past een compacte Conformer aan op ruwe 306-kanaals MEG-signalen, met een lichtgewicht convolutionele projectielaag en taakspecifieke koppen. Voor Spraakdetectie bood een MEG-gerichte SpecAugment een eerste verkenning van MEG-specifieke augmentatie. Voor Foneemclassificatie gebruikten we een omgekeerd-wortel-n klasseweging en een dynamische groeperingslader om te werken met voorbeelden die een gemiddelde zijn over 100 samples. Daarnaast bleek een eenvoudige normalisatie op instantieniveau cruciaal om distributieverschuivingen op de holdout-splitsing te mitigeren. Met behulp van de officiële Standard track-splitsingen en F1-macro voor modelselectie behaalden onze beste systemen scores van 88,9% (Spraak) en 65,8% (Foneem) op het scorebord, waarmee de competitie-baselines worden overtroffen en een positie in de top-10 voor beide taken wordt bereikt. Voor verdere implementatiedetails zijn de technische documentatie, broncode en checkpoints beschikbaar op https://github.com/neural2speech/libribrain-experiments.
Het Business Process Model and Notation (BPMN) is een veelgebruikte standaard voor het weergeven van complexe bedrijfsprocessen. Hoewel BPMN-diagrammen vaak als visuele afbeeldingen worden uitgewisseld, zijn bestaande methoden voor computationele analyse voornamelijk gebaseerd op XML-representaties. In dit werk presenteren we een pijplijn die Vision-Language Models (VLM's) gebruikt om gestructureerde JSON-representaties van BPMN-diagrammen direct uit afbeeldingen te extraheren, zonder bronmodelbestanden of tekstuele annotaties nodig te hebben. We integreren ook optische tekenherkenning (OCR) voor tekstuele verrijking en evalueren de gegenereerde elementenlijsten aan de hand van grondgegevens afkomstig uit de bron-XML-bestanden. Onze aanpak maakt robuuste componentextractie mogelijk in scenario's waarin de oorspronkelijke bronbestanden niet beschikbaar zijn. We testen meerdere VLM's en constateren prestatieverbeteringen in verschillende modellen wanneer OCR voor tekstverrijking wordt gebruikt. Daarnaast voerden we uitgebreide statistische analyses uit van op OCR gebaseerde verrijkingsmethoden en prompt-ablatiestudies, wat een duidelijker inzicht geeft in hun impact op modelprestaties.