Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De optimalisatie van grootschalige taalmmodellen (LLM's) blijft een kritieke uitdaging, vooral omdat modelschaling de gevoeligheid voor algoritmische onnauwkeurigheid en traininstabiliteit verergert. Recente vooruitgang in optimalisatiemethoden heeft de convergentie-efficiëntie verbeterd door middel van momentumorthogonalisatie, maar lijdt onder twee belangrijke robuustheidsbeperkingen: dimensionale fragiliteit in orthogonalisatienauwkeurigheid en kwetsbaarheid voor uitschiergeruis. Om deze robuustheidsuitdagingen aan te pakken, introduceren wij ROOT, een Robuuste Georthogonaliseerde Optimizer die de trainstabiliteit verbetert door dubbele robuustheidsmechanismen. Ten eerste ontwikkelen we een dimensierobuust orthogonalisatieschema met adaptieve Newton-iteraties en fijnmazige coëfficiënten afgestemd op specifieke matrixgroottes, wat consistente nauwkeurigheid garandeert across diverse architectuurconfiguraties. Ten tweede introduceren we een optimalisatierobuust raamwerk via proximale optimalisatie dat uitschiergeruis onderdrukt terwijl betekenisvolle gradiëntrichtingen behouden blijven. Uitgebreide experimenten tonen aan dat ROOT een aanzienlijk verbeterde robuustheid bereikt, met snellere convergentie en superieure eindprestaties in vergelijking met zowel Muon- als Adam-gebaseerde optimalisatiemethoden, vooral in rumoerige en niet-convexe scenario's. Ons werk vestigt een nieuw paradigma voor het ontwikkelen van robuuste en precieze optimalisatiemethoden die bestand zijn tegen de complexiteiten van moderne grootschalige modeltraining. De code zal beschikbaar zijn op https://github.com/huawei-noah/noah-research/tree/master/ROOT.
Recente vooruitgang in door LLM's geleide evolutionaire berekeningen, met name AlphaEvolve (Novikov et al., 2025; Georgiev et al., 2025), heeft opmerkelijke successen aangetoond bij het ontdekken van nieuwe wiskundige constructies en het oplossen van uitdagende optimalisatieproblemen. De hoogoverzichtsbeschrijvingen in gepubliceerd werk laten echter veel implementatiedetails ongespecificeerd, wat de reproduceerbaarheid en verder onderzoek belemmert. In dit rapport presenteren we GigaEvo, een uitbreidbaar open-source raamwerk dat onderzoekers in staat stelt hybride LLM-evolutiebenaderingen, geïnspireerd op AlphaEvolve, te bestuderen en mee te experimenteren. Ons systeem biedt modulaire implementaties van kerncomponenten: MAP-Elites kwaliteits-diversiteit-algoritmen, asynchrone op DAG gebaseerde evaluatiepipelines, LLM-gestuurde mutatie-operatoren met inzichtgeneratie en bidirectioneel lineage-tracking, en flexibele multi-eiland evolutionaire strategieën. Om de reproduceerbaarheid te beoordelen en onze implementatie te valideren, evalueren we GigaEvo op uitdagende problemen uit het AlphaEvolve-artikel: Heilbronn driehoekplaatsing, cirkelstapeling in vierkanten, en hoog-dimensionale 'kissing numbers'. Het raamwerk legt de nadruk op modulariteit, gelijktijdigheid en experimenteergemak, waardoor rapid prototyping via declaratieve configuratie mogelijk is. We bieden gedetailleerde beschrijvingen van de systeemarchitectuur, implementatiebeslissingen en experimentele methodologie om verder onderzoek naar door LLM's gedreven evolutionaire methoden te ondersteunen. Het GigaEvo-raamwerk en alle experimentele code zijn beschikbaar op https://github.com/AIRI-Institute/gigaevo-core.
Medische beeldsegmentatie is fundamenteel voor biomedische ontdekkingen. Bestaande methoden missen generaliseerbaarheid en vereisen uitgebreide, tijdrovende handmatige annotatie voor nieuwe klinische toepassingen. Hier presenteren wij MedSAM-3, een model voor medische beeld- en videosegmentatie dat via tekstprompts aanstuurbaar is. Door de Segment Anything Model (SAM) 3-architectuur te finetunen op medische beelden gekoppeld aan semantische conceptlabels, stelt onze MedSAM-3 Promptable Concept Segmentation (PCS) mogelijk, waarmee anatomische structuren nauwkeurig kunnen worden gelokaliseerd via open-vocabulary tekstbeschrijvingen in plaats van uitsluitend geometrische prompts. Wij introduceren verder de MedSAM-3 Agent, een raamwerk dat Multimodale Large Language Models (MLLMs) integreert om complexe redenering en iteratieve verfijning uit te voeren in een agent-in-the-loop workflow. Uitgebreide experimenten met diverse medische beeldvormingstechnieken, waaronder röntgenfoto's, MRI, echografie, CT en video, tonen aan dat onze aanpak bestaande gespecialiseerde en foundationmodellen significant overtreft. Onze code en model zullen worden vrijgegeven op https://github.com/Joey-S-Liu/MedSAM3.
Vision-language agents hebben opmerkelijke vooruitgang geboekt in diverse multimodale redeneertaken; hun leerproces blijft echter beperkt door de restricties van menselijk geannoteerd toezicht. Recente zelfbelonende benaderingen proberen deze beperking te overwinnen door modellen toe te staan als hun eigen criticus of beloningsverlener op te treden. Toch worstelt puur op tekst gebaseerde zelfevaluatie met het verifiëren van complexe visuele redeneerstappen en lijdt het vaak aan evaluatiehallucinaties. Om deze uitdagingen aan te pakken, geïnspireerd door recente vooruitgang in tool-geïntegreerd redeneren, stellen wij Agent0-VL voor, een zelf-evoluerende vision-language agent die continue verbetering bereikt met tool-geïntegreerd redeneren. Agent0-VL integreert toolgebruik niet alleen in het redeneren, maar ook in zelfevaluatie en zelfreparatie, waardoor het model in staat wordt gesteld zijn redenering te introspeceren, verifiëren en verfijnen via op bewijzen gebaseerde analyse. Het verenigt twee synergetische rollen binnen een enkel LVLM: een Oplosser die multi-turn tool-geïntegreerd redeneren uitvoert, en een Verificateur die gestructureerde feedback en fijnmazige zelfbeloningen genereert via tool-onderbouwde kritiek. Deze rollen interageren via een Zelf-Evoluerende Redeneercyclus, waarbij tool-gebaseerde verificatie en reinforcement learning gezamenlijk de redeneer- en evaluatiedistributies uitlijnen voor stabiele zelfverbetering. Door deze nul-externe-beloning evolutie aligneert Agent0-VL zijn redeneer- en verificatiegedrag zonder enige menselijke annotatie of externe beloningsmodellen, en bereikt het continue zelfverbetering. Experimenten met geometrisch probleemoplossen en visuele wetenschappelijke analyse tonen aan dat Agent0-VL een verbetering van 12,5% behaalt ten opzichte van het basismodel. Onze code is beschikbaar op https://github.com/aiming-lab/Agent0/Agent0-VL{this https URL}.
Het behouden van identiteit in het eerste frame bij gelijktijdige waarborging van precieze bewegingscontrole is een fundamentele uitdaging in de animatie van menselijke beelden. Het Image-to-Motion Binding-proces van het dominante Reference-to-Video (R2V)-paradigma negeert kritieke spatio-temporele uitlijningfouten die vaak voorkomen in praktijktoepassingen, wat leidt tot problemen zoals identiteitsdrift en visuele artefacten. Wij introduceren SteadyDancer, een kader gebaseerd op het Image-to-Video (I2V)-paradigma dat een harmonieuze en coherente animatie bereikt en als eerste robuust de bewaring van het eerste frame garandeert. Ten eerste stellen we een Condition-Reconciliation Mechanism voor om de twee conflicterende condities te harmoniseren, waardoor precieze controle mogelijk wordt zonder in te boeten aan getrouwheid. Ten tweede ontwerpen we Synergistic Pose Modulation Modules om een adaptieve en coherente pose-representatie te genereren die zeer compatibel is met de referentieafbeelding. Tot slot zetten we een Staged Decoupled-Objective Training Pipeline in die het model hiërarchisch optimaliseert voor bewegingsgetrouwheid, visuele kwaliteit en temporele coherentie. Experimenten tonen aan dat SteadyDancer state-of-the-art prestaties levert op het gebied van zowel uiterlijke getrouwheid als bewegingscontrole, terwijl aanzienlijk minder trainingsbronnen nodig zijn dan bij vergelijkbare methoden.
De afgelopen jaren hebben Unified Multimodale Modellen aanzienlijke vooruitgang geboekt, maar een fundamentele vraag blijft bestaan: leidt begrip daadwerkelijk tot betere generatie? Om dit te onderzoeken, introduceren wij UniSandbox, een ontkoppeld evaluatieraamwerk gepaard met gecontroleerde, synthetische datasets om data-lekage te voorkomen en gedetailleerde analyse mogelijk te maken. Onze bevindingen onthullen een significante kloof tussen begrip en generatie, die zich voornamelijk manifesteert in twee belangrijke dimensies: redenerende generatie en kennisoverdracht. Specifiek observeren we dat voor taken met redenerende generatie, expliciete Chain-of-Thought (CoT) in de begripsmodule de kloof effectief overbrugt, en we tonen verder aan dat een zelf-trainingbenadering dit vermogen succesvol kan internaliseren, waardoor impliciete redenering tijdens generatie mogelijk wordt. Daarnaast ontdekken we voor kennisoverdrachttaken dat CoT het generatieve proces ondersteunt door te helpen bij het ophalen van nieuw aangeleerde kennis, en ontdekken we ook dat query-gebaseerde architecturen van nature latente, CoT-achtige eigenschappen vertonen die deze overdracht beïnvloeden. UniSandbox biedt eerste inzichten voor het ontwerpen van toekomstige uniforme architecturen en trainingsstrategieën die de kloof tussen begrip en generatie daadwerkelijk overbruggen. Code en data zijn beschikbaar op https://github.com/PKU-YuanGroup/UniSandBox.
Versterkend leren (RL) speelt een steeds belangrijkere rol bij het verbeteren van de redeneervermogens van grote taalmodellen (LLM's), maar stabiele en presterende beleidsoptimalisatie blijft een uitdaging. Belangverhoudingen op tokenniveau vertonen vaak een hoge variantie – een fenomeen dat verergert in Mixture-of-Experts-modellen – wat leidt tot onstabiele updates. Bestaande groepsgebaseerde beleidsoptimalisatiemethoden, zoals GSPO en GRPO, verlichten dit probleem via hard clipping, waardoor het moeilijk is om zowel stabiliteit als effectief leren te behouden. Wij stellen Zachte Adaptieve Beleidsoptimalisatie (SAPO) voor, die hard clipping vervangt door een gladde, temperatuur-gestuurde poort die off-policy updates adaptief dempt terwijl nuttige leersignalen behouden blijven. In vergelijking met GSPO en GRPO is SAPO zowel sequentie-coherent als token-adaptief. Net als GSPO handhaaft SAPO coherentie op sequentieniveau, maar zijn zachte poortvorming creëert een continu vertrouwensgebied dat het brosse harde clipping-gebied van GSPO vermijdt. Wanneer een sequentie enkele sterk off-policy tokens bevat, onderdrukt GSPO alle gradients voor die sequentie, terwijl SAPO selectief alleen de problematische tokens afzwakt en het leersignaal van de bijna-on-policy tokens behoudt, wat de steekproefefficiëntie verbetert. Ten opzichte van GRPO vervangt SAPO harde token-level clipping door gladde, temperatuur-gestuurde schaling, waardoor informatievere en stabielere updates mogelijk zijn. Empirische resultaten op wiskundige redeneerbenchmarks tonen aan dat SAPO een verbeterde trainstabiliteit en hogere Pass@1-prestaties vertoont bij vergelijkbare trainbudgets. Bovendien gebruiken we SAPO om de Qwen3-VL-modelreeks te trainen, wat aantoont dat SAPO consistente prestatieverbeteringen oplevert across diverse taken en verschillende modelgroottes. Over het algemeen biedt SAPO een betrouwbaardere, schaalbaardere en effectievere optimalisatiestrategie voor RL-training van LLM's.
Voorgetrainde videomodellen leren krachtige a priori kennis voor het genereren van hoogwaardige, temporeel coherente content. Hoewel deze modellen uitblinken in temporele coherentie, worden hun dynamieken vaak beperkt door het continue karakter van hun trainingsdata. Wij veronderstellen dat door de rijke en onbeperkte contentdiversiteit van beeldgegevens in dit coherente temporele raamwerk te injecteren, we beeldenreeksen kunnen genereren die zowel natuurlijke overgangen vertonen als een aanzienlijk uitgebreider dynamisch bereik. Hiertoe introduceren we iMontage, een uniform raamwerk ontworpen om een krachtig videomodel om te vormen tot een alles-in-één beeldgenerator. Het raamwerk verwerkt en produceert beeldenreeksen van variabele lengte, en verenigt een breed scala aan beeldgeneratie- en bewerkingstaken. Om dit te bereiken, stellen we een elegante en minimaal invasieve aanpassingsstrategie voor, aangevuld met een op maat gemaakte datacuratieprocedure en trainingsparadigma. Deze aanpak stelt het model in staat brede beeldmanipulatiecapaciteiten te verwerven zonder zijn onschatbare oorspronkelijke bewegingspriors aan te tasten. iMontage presteert uitstekend bij diverse gangbare many-in-many-out taken, waarbij het niet alleen sterke contextuele consistentie tussen beelden behoudt, maar ook scènes genereert met buitengewone dynamiek die conventionele kaders overstijgt. Onze homepage vindt u op: https://kr1sjfu.github.io/iMontage-web/.
Wereldmodellen ontstaan als een fundamenteel paradigma voor schaalbare, data-efficiënte embodied AI. In dit werk presenteren we GigaWorld-0, een uniform raamwerk voor wereldmodellen dat expliciet is ontworpen als een data-engine voor Vision-Language-Action (VLA)-leren. GigaWorld-0 integreert twee synergetische componenten: GigaWorld-0-Video, dat grootschalige videogeneratie benut om diverse, textuurrijke en temporeel coherente belichaamde sequenties te produceren onder fijnmazige controle van uiterlijk, camerastandpunt en actiesemantiek; en GigaWorld-0-3D, dat 3D-generatieve modellering, 3D Gaussian Splatting-reconstructie, fysiek differentieerbare systeemidentificatie en uitvoerbare bewegingsplanning combineert om geometrische consistentie en fysieke realisme te waarborgen. Hun gezamenlijke optimalisatie maakt de schaalbare synthese van belichaamde interactiedata mogelijk die visueel overtuigend, ruimtelijk coherent, fysiek plausibel en instructie-uitgelijnd is. Grootschalige training wordt haalbaar gemaakt door ons efficiënte GigaTrain-raamwerk, dat gebruikmaakt van FP8-precisie en sparse attention om de geheugen- en rekenvereisten drastisch te verminderen. We voeren uitgebreide evaluaties uit die aantonen dat GigaWorld-0 hoogwaardige, diverse en bestuurbare data genereert over meerdere dimensies. Cruciaal is dat VLA-modellen (bijv. GigaBrain-0) die zijn getraind met door GigaWorld-0 gegenereerde data, sterke prestaties in de echte wereld bereiken, waarbij generalisatie en taaksucces op fysieke robots aanzienlijk verbeteren zonder enige echte wereldinteractie tijdens de training.
De kwadratische complexiteit van volledige aandacht beperkt de efficiënte verwerking van lange contexten in grote taalmodellen (LLM's). Sparse aandacht vermindert deze kosten door elke query te beperken tot een subset van vorige tokens; trainingsvrije benaderingen leiden echter vaak tot ernstige prestatievermindering. Inheemse sparse-attentiemethoden (bijv. NSA, MoBA) verlichten dit probleem, maar vertonen een kritieke paradox: ze produceren lagere attentiesparsheid dan modellen met volledige aandacht, ondanks dat ze volledige aandacht proberen te benaderen, wat hun effectiviteit kan beperken. Wij schrijven deze paradox toe aan een tekortkoming in gradientupdates: laaggeplaatste sleutel-waardeparen die tijdens sparse training worden uitgesloten, ontvangen noch een forward-bijdrage noch backward-gradients, en leren dus nooit een goede onderdrukking. Om deze beperking te overwinnen, stellen wij SSA (Sparse Sparse Attention) voor, een uniform trainingsraamwerk dat zowel sparse als volledige aandacht beschouwt en bidirectionele uitlijning afdwingt in elke laag. Dit ontwerp behoudt de gradientstroom naar alle tokens terwijl het sparse-attentie-uitvoeren expliciet aanmoedigt om zich te aligneren met hun tegenhangers met volledige aandacht, waardoor sterkere sparsheid wordt bevorderd. Hierdoor behaalt SSA state-of-the-art prestaties onder zowel sparse als volledige attentie-inferentie op meerdere common sense benchmarks. Bovendien stelt SSA modellen in staat zich soepel aan te passen aan variërende sparsiteitsbudgetten; de prestaties verbeteren consistent naarmate meer tokens mogen attenden, wat flexibele compute-prestatie-afwegingen ondersteunt tijdens inferentie. Ten slotte tonen we aan dat inheemse sparse-attentietraining verrassenderwijs de extrapolatie van lange contexten verbetert door de overtoewijzing van aandachtswaarden in sink-gebieden te verminderen, waarbij SSA de sterkste extrapolatiecapaciteit demonstreert.
Dit artikel presenteert HunyuanOCR, een commercieelwaardig, open-source en lichtgewicht (1B parameters) Vision-Language Model (VLM) voor OCR-taken. De architectuur bestaat uit een Native Vision Transformer (ViT) en een lichtgewicht LLM, verbonden via een MLP-adapter. HunyuanOCR toont superieure prestaties door commerciële API's, traditionele pijplijnen en grotere modellen (bijv. Qwen3-VL-4B) te overtreffen. Specifiek overtreft het huidige openbare oplossingen in perceptietaken (Text Spotting, Parsing) en blinkt het uit in semantieke taken (IE, Text Image Translation), waarmee het de eerste plaats behaalde in de ICDAR 2025 DIMT Challenge (Small Model Track). Bovendien behaalt het state-of-the-art (SOTA) resultaten op OCRBench onder VLM's met minder dan 3B parameters. HunyuanOCR bereikt doorbraken in drie belangrijke aspecten: 1) Eenwording van veelzijdigheid en efficiëntie: We implementeren uitgebreide ondersteuning voor kerncapaciteiten zoals spotting, parsing, IE, VQA en vertaling binnen een lichtgewicht kader. Dit lost de beperkingen op van smalle "OCR-expertmodellen" en inefficiënte "algemene VLM's". 2) Gestroomlijnde end-to-end architectuur: Door een puur end-to-end paradigma te hanteren, worden afhankelijkheden van pre-processing modules (bijv. lay-outanalyse) geëlimineerd. Dit lost fundamenteel de foutpropagatie op die gebruikelijk is in traditionele pijplijnen en vereenvoudigt systeemimplementatie. 3) Data-gedreven en RL-strategieën: We bevestigen de cruciale rol van hoogwaardige data en tonen voor het eerst in de industrie aan dat Reinforcement Learning (RL)-strategieën aanzienlijke prestatieverbeteringen opleveren voor OCR-taken. HunyuanOCR is officieel open-source gemaakt op HuggingFace. We bieden tevens een hoogwaardige implementatieoplossing op basis van vLLM, waardoor de productie-efficiëntie tot de topklasse behoort. We hopen dat dit model grensverleggend onderzoek zal bevorderen en een solide basis zal bieden voor industriële toepassingen.
Recente methoden voor interactieve videowereldmodellen genereren scène-evolutie op basis van gebruikersinstructies. Hoewel ze indrukwekkende resultaten behalen, blijven twee belangrijke beperkingen bestaan. Ten eerste benutten ze de correspondentie tussen instructiegestuurde scènebeweging en de onderliggende 3D-geometrie onvoldoende, wat leidt tot structurele instabiliteit bij viewpointveranderingen. Ten tweede vergeten ze historische informatie gemakkelijk tijdens multi-stap interacties, wat resulteert in foutaccumulatie en progressieve drift in scènesemantiek en -structuur. Om deze problemen aan te pakken, stellen we MagicWorld voor, een interactief videowereldmodel dat 3D-geometrische priors en historische retrievals integreert. MagicWorld vertrekt vanuit een enkele scèneafbeelding, gebruikt gebruikersacties om dynamische scène-evolutie aan te sturen, en synthetiseert autoregressief continue scènes. We introduceren de Actie-Gestuurde 3D Geometrie Module (AG3D), die een pointcloud construeert vanuit de eerste frame van elke interactie en de corresponderende actie, waardoor expliciete geometrische constraints voor viewpointtransities worden geboden en de structurele consistentie verbetert. Verder stellen we het History Cache Retrieval (HCR)-mechanisme voor, dat relevante historische frames tijdens generatie opzoekt en deze als conditioneringssignalen injecteert, waardoor het model historische scène-informatie kan benutten en foutaccumulatie wordt gemitigeerd. Experimentele resultaten tonen aan dat MagicWorld aanzienlijke verbeteringen bereikt in scènestabiliteit en continuïteit over interactie-iteraties heen.
Normaliserende stromen (NF's) zijn end-to-end op waarschijnlijkheid gebaseerde generatieve modellen voor continue gegevens en hebben onlangs hernieuwde aandacht gekregen door bemoedigende vooruitgang bij beeldgeneratie. In het domein van videogeneratie, waar de spatiotemporele complexiteit en rekencosten aanzienlijk hoger liggen, vertrouwen state-of-the-art systemen echter bijna uitsluitend op op diffusie gebaseerde modellen. In dit werk verkennen we deze ontwerpruimte opnieuw met STARFlow-V, een op normaliserende stromen gebaseerde videogenerator met aanzienlijke voordelen zoals end-to-end leren, robuuste causale voorspelling en native waarschijnlijkheidsschatting. Voortbordurend op het recent voorgestelde STARFlow, opereert STARFlow-V in de spatiotemporele latente ruimte met een globaal-lokale architectuur die causale afhankelijkheden beperkt tot een globale latente ruimte, terwijl rijke lokale interacties binnen frames behouden blijven. Dit vermindert de opeenhoping van fouten in de tijd, een veelvoorkomende valkuil bij standaard autoregressieve diffusiemodelgeneratie. Daarnaast stellen we flow-score matching voor, dat het model uitrust met een lichtgewicht causale denoiser om de consistentie van videogeneratie op autoregressieve wijze te verbeteren. Om de steekproefefficiëntie te verbeteren, gebruikt STARFlow-V een video-aware Jacobi-iteratieschema dat interne updates herformuleert als paralleliseerbare iteraties zonder causaliteit te doorbreken. Dankzij de inverteerbare structuur kan hetzelfde model native tekst-naar-video, beeld-naar-video en video-naar-video generatietaken ondersteunen. Empirisch bereikt STARFlow-V een sterke visuele kwaliteit en temporele consistentie met een praktische doorvoersnelheid voor steekproeven in vergelijking met op diffusie gebaseerde baseline-modellen. Deze resultaten vormen, voor zover wij weten, het eerste bewijs dat NF's in staat zijn tot hoogwaardige autoregressieve videogeneratie, waarmee ze zich vestigen als een veelbelovende onderzoeksrichting voor het bouwen van wereldmodellen. Code en gegenereerde voorbeelden zijn beschikbaar op https://github.com/apple/ml-starflow.
Ondanks vooruitgang worstelen videodiffusietransformers nog steeds met generalisatie voorbij hun getrainde lengte, een uitdaging die wij video-lengte-extrapolatie noemen. Wij identificeren twee faalwijzen: modelspecifieke periodieke inhoudsherhaling en een universele kwaliteitsafname. Eerdere werken proberen herhaling op te lossen middels positionele coderingen, maar negeren kwaliteitsafname en bereiken slechts beperkte extrapolatie. In dit artikel benaderen wij deze uitdaging vanuit een fundamenteler perspectief: aandachtspatronen (attention maps), die direct sturen hoe context de output beïnvloedt. Wij stellen vast dat beide faalwijzen voortkomen uit een gemeenschappelijke oorzaak: aandachtsspreiding (attention dispersion), waarbij tokens buiten het trainvenster de aangeleerde aandachtspatronen verdunnen. Dit leidt tot kwaliteitsafname, en herhaling ontstaat als een speciaal geval wanneer deze spreiding gestructureerd raakt tot periodieke aandachtspatronen, veroorzaakt door de harmonische eigenschappen van positionele coderingen. Voortbouwend op dit inzicht presenteren wij UltraViCo, een trainvrije, plug-and-play-methode die de aandacht voor tokens buiten het trainvenster onderdrukt via een constante vervalfactor. Door beide faalwijzen gezamenlijk aan te pakken, overtreffen wij een breed scala aan baseline-methoden over verschillende modellen en extrapolatieverhoudingen heen, en verleggen wij de extrapolatiegrens van 2x naar 4x. Opmerkelijk is dat het de Dynamic Degree en Imaging Quality met respectievelijk 233% en 40,5% verbetert ten opzichte van de vorige beste methode bij 4x extrapolatie. Bovendien generaliseert onze methode naadloos naar downstream-taken zoals controleerbare videosynthese en -bewerking.
Generatieve modellen hebben uitstekende prestaties geleverd bij RGB-synthese, maar real-world toepassingen vereisen RGBA-manipulatie. Dit heeft geleid tot een gefragmenteerd landschap: gespecialiseerde, enkelvoudige modellen verwerken alfakanalen maar missen veelzijdigheid, terwijl verenigde multi-task frameworks beperkt blijven tot het RGB-domein. Om deze kritieke kloof te overbruggen, presenteren we OmniAlpha, het eerste verenigde, multi-task generatieve framework voor sequence-to-sequence RGBA-beeldgeneratie en -bewerking. De architectuur beschikt over MSRoPE-BiL, een nieuwe RoPE-methode met een bidirectioneel uitbreidbare laagas voor de Diffusion Transformer (DiT)-backbone, waardoor gelijktijdige verwerking van meerdere invoer- en doel-RGBA-lagen mogelijk wordt. Om dit framework kracht bij te zetten, introduceren we AlphaLayers, een nieuwe dataset van 1.000 hoogwaardige, multi-layer triplets, opgebouwd via een nieuwe pijplijn voor geautomatiseerde synthese en filtering. Door OmniAlpha gezamenlijk op deze dataset te trainen over een uitgebreide reeks van 21 diverse taken, tonen uitgebreide experimenten aan dat onze verenigde aanpak consistent sterker presteert dan gespecialiseerde baseline-modellen. Opmerkelijk is dat OmniAlpha een dramatische relatieve reductie van 84,8% in SAD bereikt voor maskervrije matting op AIM-500 en meer dan 90% van de menselijke voorkeuren wint bij laaggeconditioneerde voltooiing. Ons werk bewijst dat een verenigd, multi-task model een superieure gedeelde representatie voor RGBA kan leren, waardoor de weg wordt geëffend voor krachtigere, laagbewuste generatieve systemen.
Wij presenteren ReDirector, een nieuwe camera-gestuurde methode voor het genereren van video-retakes voor dynamisch vastgelegde video's met variabele lengte. Specifiek herstellen wij een veelvoorkomend misbruik van RoPE in eerdere werken door de ruimtelijk-temporele posities van de invoervideo en de doel-retake op elkaar af te stemmen. Bovendien introduceren wij Rotary Camera Encoding (RoCE), een camera-gestuurde RoPE-faseverschuiving die multi-view-relaties binnen en tussen de invoer- en doelvideo's vastlegt en integreert. Door cameracondities in RoPE te integreren, generaliseert onze methode naar out-of-distribution cameratrajecten en videolengtes, wat resulteert in verbeterde lokalisatie van dynamische objecten en behoud van de statische achtergrond. Uitgebreide experimenten tonen verder significante verbeteringen aan in camerabestuurbaarheid, geometrische consistentie en videokwaliteit bij diverse trajecten en lengtes.
Hoewel recente vision-language modellen (VLM's) een sterk beeldbegrip vertonen, blijft hun vermogen om "te denken met beelden" – dat wil zeggen, om te redeneren via meerstaps visuele interacties – beperkt. Wij introduceren VISTA-Gym, een schaalbare trainingsomgeving voor het stimuleren van tool-geïntegreerde visuele redeneervaardigheden in VLM's. VISTA-Gym verenigt diverse multimodale redeneertaken uit de praktijk (7 taken uit in totaal 13 datasets) met een gestandaardiseerde interface voor visuele tools (bijv. grounding, parsing), uitvoerbare interactielussen, verifieerbare feedbacksignalen en efficiënte trajectlogging, waardoor agent-gebaseerd reinforcement learning op visueel gebied op schaal mogelijk wordt. Hoewel recente VLM's sterk tekstueel redeneren vertonen, worstelen zowel propriëtaire als open-source modellen nog steeds met toolselectie, -aanroeping en -coördinatie. Met VISTA-Gym trainen we VISTA-R1 om toolgebruik te verweven met agent-gebaseerd redeneren via multi-turn trajectoriële bemonstering en end-to-end reinforcement learning. Uitgebreide experimenten op 11 publieke, redenatie-intensieve VQA-benchmarks tonen aan dat VISTA-R1-8B state-of-the-art baselines van vergelijkbare grootte met 9.51%–18.72% overtreft, wat aantoont dat VISTA-Gym een effectieve trainingsomgeving is om de tool-geïntegreerde redeneercapaciteiten van VLM's te ontsluiten.
Het genereren van realistische 3D-steden is fundamenteel voor wereldmodellen, virtual reality en spelontwikkeling, waarbij een ideale stedelijke scene zowel stilistische diversiteit, fijne detaillering als bestuurbaarheid moet combineren. Bestaande methoden slagen er echter niet in om de creatieve flexibiliteit van op tekst gebaseerde generatie in evenwicht te brengen met de objectniveau-bewerkbaarheid die wordt geboden door expliciete structurele representaties. Wij introduceren MajutsuCity, een op natuurlijke taal gestuurd en esthetisch adaptief raamwerk voor het synthetiseren van structureel consistente en stilistisch diverse 3D-stedelijke scenes. MajutsuCity representeert een stad als een compositie van bestuurbare lay-outs, assets en materialen, en werkt via een vierfasen pijplijn. Om de bestuurbaarheid voorbij de initiële generatie uit te breiden, integreren we verder MajutsuAgent, een interactieve, op taal gebaseerde bewerkingsagent die vijf operaties op objectniveau ondersteunt. Om fotorealistische en aanpasbare scenesynthese mogelijk te maken, construeren we ook MajutsuDataset, een hoogwaardige multimodale dataset met 2D semantische lay-outs en hoogtekaarten, diverse 3D-gebouwassets, en gecureerde PBR-materialen en skyboxes, elk vergezeld van gedetailleerde annotaties. Tegelijkertijd ontwikkelen we een praktische set evaluatiemetrics, die belangrijke dimensies dekt zoals structurele consistentie, scenecomplexiteit, materiaalgetrouwheid en belichtingssfeer. Uitgebreide experimenten tonen aan dat MajutsuCity de lay-out FID met 83,7% reduceert in vergelijking met CityDreamer en met 20,1% ten opzichte van CityCraft. Onze methode scoort het hoogste op alle AQS- en RDR-scores en overtreft bestaande methoden met een duidelijke marge. Deze resultaten bevestigen MajutsuCity als een nieuwe state-of-the-art op het gebied van geometrische getrouwheid, stilistische aanpasbaarheid en semantische bestuurbaarheid voor 3D-stadsgeneratie. Wij verwachten dat ons raamwerk nieuwe onderzoeksrichtingen in 3D-stadsgeneratie kan inspireren. Onze dataset en code zullen worden vrijgegeven op https://github.com/LongHZ140516/MajutsuCity.
Grote taalmodellen (LLM's) lossen complexe problemen op, maar falen bij eenvoudigere varianten, wat suggereert dat ze tot correcte uitkomsten komen via mechanismen die fundamenteel verschillen van menselijk redeneren. Om deze kloof te begrijpen, synthetiseren we cognitief wetenschappelijk onderzoek tot een taxonomie van 28 cognitieve elementen, die redeneerinvarianten, metacognitieve controles, representaties voor het organiseren van redeneren en kennis, en transformatieoperaties omvatten. We introduceren een fijnmazig evaluatieraamwerk en voeren de eerste grootschalige empirische analyse uit van 192K traces van 18 modellen over tekst, beeld en audio, aangevuld met 54 menselijke hardop-denk-traces, die we publiek beschikbaar stellen. We constateren dat modellen cognitieve elementen die gecorreleerd zijn met succes onderbenutten, en zich vernauwen tot rigide sequentiële verwerking bij slecht gestructureerde problemen waar juist diverse representaties en metacognitieve monitoring cruciaal zijn. Menselijke traces tonen meer abstractie en conceptuele verwerking, terwijl modellen terugvallen op oppervlakkige enumeratie. Een meta-analyse van 1.6K LLM-redeneerartikelen onthult dat de onderzoeksgemeenschap zich concentreert op gemakkelijk kwantificeerbare elementen (sequentiële organisatie: 55%, decompositie: 60%), maar metacognitieve controles (zelfbewustzijn: 16%) die met succes correleren verwaarloost. Modellen bezitten gedragsrepertoires geassocieerd met succes, maar zetten deze niet spontaan in. Gebruikmakend van deze patronen ontwikkelen we testtijd-redeneerbegeleiding die automatisch succesvolle structureen steunt, wat de prestaties op complexe problemen met tot 66.7% verbetert. Door een gedeelde vocabulaire te creëren tussen de cognitieve wetenschap en LLM-onderzoek, stelt ons raamwerk een systematische diagnose van redeneerfouten en principiële ontwikkeling van modellen die redeneren via robuuste cognitieve mechanismen in plaats van oppervlakkige shortcuts mogelijk, terwijl het tools biedt om theorieën over menselijke cognitie op grote schaal te testen.
Abstract redeneren op basis van minimale voorbeelden blijft een onopgelost kernprobleem voor grensverleggende foundation-modellen zoals GPT-5 en Grok 4. Deze modellen slagen er nog steeds niet in om gestructureerde transformatieregels af te leiden uit een handvol voorbeelden, een kenmerkende eigenschap van menselijke intelligentie. Het Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) biedt een rigoureuze testomgeving voor deze capaciteit, waarbij conceptuele regelinductie en transfer naar nieuwe taken vereist zijn. De meeste bestaande methoden behandelen ARC-AGI als een puur tekstueel redeneerprobleem, waarbij over het hoofd wordt gezien dat mensen bij het oplossen van dergelijke puzzels sterk leunen op visuele abstractie. Onze pilootexperimenten onthullen echter een paradox: het naïef weergeven van ARC-AGI-roosters als afbeeldingen leidt tot prestatievermindering door onnauwkeurige regeluitvoering. Dit leidt tot onze centrale hypothese dat visie en taal complementaire sterke punten hebben in verschillende redeneerfasen: visie ondersteunt globale patroonabstractie en verificatie, terwijl taal gespecialiseerd is in symbolische regelformulering en precieze uitvoering. Voortbouwend op dit inzicht introduceren we twee synergetische strategieën: (1) Vision-Language Synergy Reasoning (VLSR), dat ARC-AGI opsplitst in modaliteit-afgestemde sub-taken; en (2) Modality-Switch Self-Correction (MSSC), dat visie gebruikt om tekstgebaseerd redeneren te verifiëren voor intrinsieke foutcorrectie. Uitgebreide experimenten tonen aan dat onze aanpak een verbetering tot 4,33% oplevert ten opzichte van uitsluitend tekstgebaseerde basislijnen, over diverse flagship-modellen en meerdere ARC-AGI-taken. Onze bevindingen suggereren dat het verenigen van visuele abstractie met linguïstisch redeneren een cruciale stap is naar het bereiken van generaliseerbare, mensachtige intelligentie in toekomstige foundation-modellen. De broncode zal binnenkort worden vrijgegeven.
De vooruitgang in computergebruikagenten (CGA's) wordt belemmerd door het ontbreken van grote en hoogwaardige datasets die vastleggen hoe mensen met een computer omgaan. Hoewel grote taalmodelen (LTM's) hebben gebloeid dankzij overvloedige tekstuele gegevens, bestaat er geen vergelijkbaar corpus voor CGA-trajecten. Om deze lacunes aan te pakken, introduceren wij FaraGen, een nieuw systeem voor het genereren van synthetische gegevens voor meerstaps webtaken. FaraGen kan diverse taken voorstellen op basis van veelgebruikte websites, meerdere oplossingspogingen genereren en succesvolle trajecten filteren met behulp van meerdere verificatiemethoden. Het bereikt een hoge doorvoer, opbrengst en diversiteit voor meerstaps webtaken, waarbij geverifieerde trajecten worden geproduceerd voor ongeveer $1 per stuk. Wij gebruiken deze gegevens om Fara-7B te trainen, een native CGA-model dat de computer waarneemt uitsluitend via schermafbeeldingen, acties uitvoert via voorspelde coördinaten en klein genoeg is om on-device te draaien. Wij stellen vast dat Fara-7B andere CGA-modellen van vergelijkbare omvang overtreft op benchmarks zoals WebVoyager, Online-Mind2Web en WebTailBench – onze nieuwe benchmark die ondervertegenwoordigde webtaken in bestaande benchmarks beter weergeeft. Bovendien is Fara-7B concurrerend met veel grotere frontier-modellen, wat de belangrijkste voordelen illustreert van schaalbare gegevensgeneratiesystemen bij de vooruitgang van kleine, efficiënte agentmodellen. Wij maken Fara-7B open-weight beschikbaar op Microsoft Foundry en HuggingFace, en wij geven WebTailBench vrij.
Dit artikel bestudeert Visuele Vraag-Visueel Antwoorden (VQ-VA): het genereren van een afbeelding, in plaats van tekst, als antwoord op een visuele vraag – een vaardigheid die recentelijk is opgedoken in propriëtaire systemen zoals NanoBanana en GPT-Image. Om deze capaciteit ook naar open-source modellen te brengen, introduceren we VQ-VA World, een data-centrisch raamwerk gebouwd rond een agent-gebaseerde pijplijn voor grootschalige, gerichte dataconstructie. Door inzet op web-schaal crawlt deze pijplijn een enorme hoeveelheid van ongeveer 1,8 miljoen hoogwaardige, vervlochten afbeelding-tekst samples voor modeltraining. Voor evaluatie lanceren we verder IntelligentBench, een door mensen samengestelde benchmark die VQ-VA systematisch beoordeelt langs de aspecten wereldkennis, ontwerpkennis en redenering. Trainen met VQ-VA World data levert sterke empirische verbeteringen op: het helpt LightFusion een score van 53.06 te behalen op IntelligentBench, wat de beste eerdere open-source baselines aanzienlijk overstijgt (namelijk 7.78 van standaard LightFusion; 1.94 van UniWorld-V1), en de kloof naar toonaangevende propriëtaire systemen significant verkleint (bijvoorbeeld 81.67 van NanoBanana; 82.64 van GPT-Image). Door de volledige suite van modelgewichten, datasets en pijplijnen vrij te geven, hopen we toekomstig onderzoek naar VQ-VA te stimuleren.
Taakplanning is cruciaal voor belichaamde AI, omdat het agents in staat stelt om instructies in natuurlijke taal op te volgen en acties efficiënt uit te voeren in 3D-fysieke werelden. Bestaande datasets vereenvoudigen taakplanning echter vaak door operationele research (OR)-kennis en 3D-ruimtelijke verankering te negeren. In dit werk introduceren wij Operations Research kennis-gebaseerde 3D Gegronde Taakplanning (ORS3D), een nieuwe taak die de synergie vereist van taalbegrip, 3D-verankering en efficiëntie-optimalisatie. In tegenstelling tot eerdere settings vereist ORS3D dat agents de totale voltooiingstijd minimaliseren door gebruik te maken van paralleliseerbare deeltaken, zoals het schoonmaken van de gootsteen terwijl de magnetron werkt. Om onderzoek naar ORS3D te faciliteren, construeren wij ORS3D-60K, een grootschalige dataset bestaande uit 60K samengestelde taken verspreid over 4K real-world scènes. Verder stellen wij GRANT voor, een belichaamd multi-modale groot taalmodel uitgerust met een eenvoudig maar effectief plannings-tokenmechanisme om efficiënte taakschema's en gegronde acties te genereren. Uitgebreide experimenten op ORS3D-60K valideren de effectiviteit van GRANT op het gebied van taalbegrip, 3D-verankering en plannings-efficiëntie. De code is beschikbaar op https://github.com/H-EmbodVis/GRANT.
Realistische 3D-stadsgeneratie is fundamenteel voor een breed scala aan toepassingen, waaronder virtual reality en digitale tweelingen. De meeste bestaande methoden zijn echter gebaseerd op het trainen van één enkel diffusiemodel, wat hun vermogen beperkt om gepersonaliseerde en grenzeloze stadsgezichten te genereren. In dit artikel presenteren we Yo'City, een nieuw agent-gebaseerd raamwerk dat gebruikersgepersonaliseerde en oneindig uitbreidbare 3D-stadsgeneratie mogelijk maakt door gebruik te maken van de redeneer- en compositiecapaciteiten van kant-en-klare grote modellen. Concreet conceptualiseert Yo'City eerst de stad via een top-down planningsstrategie die een hiërarchische "Stad-Wijk-Grid"-structuur definieert. De Global Planner bepaalt de algemene lay-out en potentiële functionele wijken, terwijl de Local Designer elke wijk verder verfijnt met gedetailleerde grid-beschrijvingen. Vervolgens wordt de grid-level 3D-generatie bereikt door een "produceer-verfijn-evalueer" isometrische beeld synthese-lus, gevolgd door beeld-naar-3D-generatie. Om continue stadsontwikkeling te simuleren, introduceert Yo'City verder een gebruikersinteractief, relatie-gestuurd uitbreidingsmechanisme, dat lay-outoptimalisatie uitvoert op basis van scenegrafen met afstands- en semantiekbewustzijn, waardoor ruimtelijk coherente stadsgroei wordt gegarandeerd. Om onze methode uitgebreid te evalueren, construeren we een diverse benchmarkdataset en ontwerpen we zes multidimensionale metrieken die de generatiekwaliteit beoordelen vanuit het perspectief van semantiek, geometrie, textuur en lay-out. Uitgebreide experimenten tonen aan dat Yo'City consequent beter presteert dan bestaande state-of-the-art methoden op alle evaluatieaspecten.
Retrieval-augmented generation (RAG) versterkt grote taalmmodellen (LLM's) met externe kennis, maar kampt nog steeds met lange contexten en een gefragmenteerde optimalisatie van retrieval en generatie. In dit werk stellen we CLaRa (Continuous Latent Reasoning) voor, een uniform raamwerk dat embedding-gebaseerde compressie en gezamenlijke optimalisatie uitvoert in een gedeelde continue ruimte. Om semantisch rijke en opvraagbare gecomprimeerde vectoren te verkrijgen, introduceren we SCP, een key-preserving data-syntheseraamwerk dat gebruikmaakt van QA- en parafrasetoezicht. Vervolgens traint CLaRa de reranker en generator end-to-end via een enkele taalmodelleringsloss, waarbij gradienten door beide modules stromen met behulp van een differentieerbare top-k-schatter. Theoretisch gezien brengt deze verenigde optimalisatie de retrievalrelevantie in overeenstemming met de antwoordkwaliteit. Experimenten op meerdere QA-benchmarks tonen aan dat CLaRa state-of-the-art compressie- en rerankingprestaties bereikt, en vaak op tekst gebaseerde, fijn afgestemde baseline-modellen overtreft.
Hoewel recente videogeneratiemodellen aanzienlijke visuele nauwkeurigheid hebben bereikt, lijden ze vaak onder een gebrek aan expliciete fysieke bestuurbaarheid en geloofwaardigheid. Om dit aan te pakken, hebben enkele recente onderzoeken geprobeerd de videogeneratie te sturen met op fysica gebaseerde rendering. Deze methoden kampen echter met inherente uitdagingen bij het nauwkeurig modelleren van complexe fysische eigenschappen en het effectief beheersen van het resulterende fysieke gedrag over langere temporele sequenties. In dit werk introduceren we PhysChoreo, een nieuw framework dat vanuit één enkele afbeelding video's kan genereren met diverse bestuurbaarheid en fysieke realisme. Onze methode bestaat uit twee fasen: eerst schat het de statische initiële fysische eigenschappen van alle objecten in de afbeelding in via deelbewuste reconstructie van fysische eigenschappen. Vervolgens synthetiseert het via tijdelijk geïnstrueerde en fysiek bewerkbare simulatie hoogwaardige video's met rijk dynamisch gedrag en fysieke realisme. Experimentele resultaten tonen aan dat PhysChoreo video's kan genereren met rijk gedrag en fysieke realisme, en state-of-the-art methoden overtreft op meerdere evaluatiemetrics.
Diffusiegebaseerde beeldbewerking maakt realistische aanpassingen van lokale beeldgebieden mogelijk, waardoor AI-gegenereerde content moeilijker te detecteren is. Bestaande benchmarks voor AIGC-detectie richten zich op het classificeren van volledige afbeeldingen en negeren de lokalisatie van diffusiegebaseerde bewerkingen. Wij introduceren DiffSeg30k, een openbaar beschikbare dataset van 30k diffusiebewerkte afbeeldingen met pixel-level annotaties, ontworpen om fijnmazige detectie te ondersteunen. DiffSeg30k kenmerkt zich door: 1) Beelden uit de praktijk – we verzamelen afbeeldingen of beeldprompts van COCO om de diversiteit aan real-world content te weerspiegelen; 2) Diverse diffusiemodellen – lokale bewerkingen met acht state-of-the-art diffusiemodellen; 3) Multi-turn bewerking – elke afbeelding ondergaat maximaal drie opeenvolgende bewerkingen om sequentiële bewerkingen uit de praktijk na te bootsen; en 4) Realistische bewerkingsscenario's – een op een vision-language model (VLM) gebaseerde pijplijn identificeert automatisch betekenisvolle regio's en genereert contextbewuste prompts voor toevoegingen, verwijderingen en attribuutwijzigingen. DiffSeg30k verschuift AIGC-detectie van binaire classificatie naar semantische segmentatie, waardoor gelijktijdige lokalisatie van bewerkingen en identificatie van de gebruikte bewerkingsmodellen mogelijk wordt. We evalueren drie baseline-segmentatiebenaderingen, wat significante uitdagingen blootlegt in semantische segmentatietaken, met name betreffende robuustheid tegen beeldvervormingen. Experimenten tonen ook aan dat segmentatiemodellen, ondanks training voor pixel-level lokalisatie, zeer betrouwbare whole-image classifiers voor diffusiebewerkingen blijken, waarbij ze gevestigde vervalsingsclassificatie overtreffen en groot potentieel tonen voor cross-generator generalisatie. Wij geloven dat DiffSeg30k onderzoek naar fijnmazige lokalisatie van AI-gegenereerde content zal bevorderen door de belofte en beperkingen van op segmentatie gebaseerde methoden te demonstreren. DiffSeg30k is vrijgegeven op: https://huggingface.co/datasets/Chaos2629/Diffseg30k
Recente vooruitgang in multimodale grote taalmodellen (MLLM's) en video-agentensystemen heeft het algemene videobegrip aanzienlijk verbeterd. Bij de toepassing op wetenschappelijk videobegrip en educatie – een domein dat integratie van externe professionele kennis en rigoureuze stapsgewijze redenering vereist – komen bestaande benaderingen echter vaak tekort. Om deze kloof te overbruggen, stellen we SciEducator voor, het eerste iteratieve, zelf-evoluerende multi-agentensysteem voor wetenschappelijke videocomprehensie en educatie. Geworteld in de klassieke Demingcyclus uit de managementwetenschap, vertaalt ons ontwerp de Plan-Do-Check-Act-filosofie naar een zelf-evoluerend redeneer- en feedbackmechanisme, dat de interpretatie van complexe wetenschappelijke activiteiten in video's vergemakkelijkt. Bovendien kan SciEducator multimodale educatieve content produceren, afgestemd op specifieke wetenschappelijke processen, waaronder tekstuele instructies, visuele gidsen, audio-narratieven en interactieve referenties. Ter ondersteuning van evaluatie hebben we SciVBench geconstrueerd, een benchmark bestaande uit 500 deskundig geverifieerde en in de literatuur onderbouwde wetenschappelijke vraag-antwoordparen in vijf categorieën, die fysische, chemische en alledaagse fenomenen bestrijken. Uitgebreide experimenten tonen aan dat SciEducator aanzienlijk beter presteert dan toonaangevende closed-source MLLM's (zoals Gemini, GPT-4o) en state-of-the-art video-agenten op de benchmark, waarmee een nieuw paradigma voor de onderzoeksgemeenschap wordt gevestigd.
Hoewel recente tekst-naar-video (T2V) diffusiemodellen indrukwekkende kwaliteit en promptuitlijning hebben bereikt, produceren ze vaak outputs met een lage diversiteit wanneer meerdere video's vanuit een enkele tekstprompt worden gegenereerd. Wij pakken deze uitdaging aan door deze te formuleren als een set-level beleidsoptimalisatieprobleem, met als doel een beleid te trainen dat het diverse scala aan plausibele uitkomsten voor een gegeven prompt kan dekken. Om dit aan te pakken, introduceren we DPP-GRPO, een nieuw raamwerk voor diverse videogeneratie dat Determinantal Point Processes (DPPs) en Group Relative Policy Optimization (GRPO) theorieën combineert om een expliciete beloning af te dwingen voor diverse generaties. Ons doel verandert diversiteit in een expliciet signaal door afnemende meeropbrengsten op te leggen aan redundante samples (via DPP) en tegelijkertijd groepsgewijze feedback te geven over kandidaat-sets (via GRPO). Ons raamwerk is plug-and-play en model-agnostisch, en stimuleert diverse generaties op het gebied van visueel uiterlijk, camerabewegingen en scènestructuur zonder in te leveren op prompttrouw of perceptuele kwaliteit. We implementeren onze methode op WAN en CogVideoX, en tonen aan dat onze methode consistent de videodiversiteit verbetert op state-of-the-art benchmarks zoals VBench, VideoScore en onderzoeken naar menselijke voorkeuren. Bovendien maken we onze code en een nieuwe benchmarkdataset van 30.000 diverse prompts vrij om toekomstig onderzoek te ondersteunen.
Generatieve modellen voor structuurgebaseerd geneesmiddelontwerp zijn vaak beperkt tot een specifieke modaliteit, wat hun bredere toepasbaarheid beperkt. Om deze uitdaging aan te pakken, introduceren we FuncBind, een raamwerk gebaseerd op computer vision om doelwit-geconditioneerde, all-atom moleculen te genereren over verschillende atomaire systemen. FuncBind gebruikt neurale velden om moleculen als continue atomaire dichtheden weer te geven en past score-gebaseerde generatieve modellen toe met moderne architecturen die zijn aangepast uit de computer vision-literatuur. Deze modaliteit-agnostische representatie stelt een enkel verenigd model in staat om te worden getraind op diverse atomaire systemen, van kleine tot grote moleculen, en om variabele aantallen atomen/residuen te verwerken, inclusief niet-canonieke aminozuren. FuncBind behaalt competitieve *in silico* prestaties bij het genereren van kleine moleculen, macrocyclische peptiden en antilichaam complementariteitsbepalende regio-lussen, geconditioneerd op doelwitstructuren. FuncBind genereerde ook *in vitro* nieuwe antilichaambinders via *de novo* herontwerp van de complementariteitsbepalende regio H3-lus van twee gekozen co-kristalstructuren. Als laatste bijdrage introduceren we een nieuwe dataset en benchmark voor structuur-geconditioneerde macrocyclische peptidegeneratie. De code is beschikbaar op https://github.com/prescient-design/funcbind.
Grote Taalmodellen (GTM'en) vertonen een gedeeltelijke voorspellende competentie op het gebied van sociale, politieke en economische gebeurtenissen. Hun voorspellend vermogen varieert echter aanzienlijk met de domeinstructuur en de formulering van de prompt. Wij onderzoeken hoe de voorspellende prestaties variëren tussen verschillende modelfamilies voor vragen over gebeurtenissen in de echte wereld die plaatsvonden na de afsluitdatum van de modellen. We analyseren hoe context, vraagtype en externe kennis de nauwkeurigheid en calibratie beïnvloeden, en hoe het toevoegen van feitelijke nieuwscontext de vorming van overtuigingen en faalwijzen verandert. Onze resultaten tonen aan dat het voorspellend vermogen zeer variabel is, omdat het afhangt van wát we vragen, en hóe we het vragen.
Waarop moet een vision-language model getraind worden? Om deze vraag te beantwoorden, richten veel data-curatie-inspanningen zich op de kwaliteit van een dataset. De meeste bestaande methoden zijn echter (i) offline, dat wil zeggen, ze produceren een statische dataset op basis van een reeks vooraf bepaalde filtercriteria, en (ii) concept-agnostisch, dat wil zeggen, ze gebruiken modelgebaseerde filters die extra datavooroordelen introduceren. In dit werk gaan we verder dan dergelijke offline, concept-agnostische methoden en pleiten we voor een flexibelere, taakadaptieve online curatie op basis van concepten. Onze eerste bijdrage is DataConcept, een verzameling van 128 miljoen webgecrawlde afbeelding-tekst-paren geannoteerd met fijnmazige details over hun concept-samenstelling. Voortbordurend op DataConcept, introduceren we Concept-Aware Batch Sampling (CABS), een eenvoudig maar effectief batchsamplingsraamwerk dat flexibel batches samenstelt op basis van specifieke doeldistributies. We stellen twee varianten voor: (i) Diversiteitsmaximalisatie (CABS-DM) om batches samen te stellen met een brede dekking van beschikbare concepten, en (ii) Frequentiemaximalisatie (CABS-FM) om batches samen te stellen met een hoge objectmultipliciteit. Door middel van uitgebreide evaluaties over 28 benchmarks tonen we aan dat onze CABS-methode significante voordelen biedt voor CLIP/SigLIP-modelklassen en zeer presterende modellen oplevert. Over het algemeen vertegenwoordigt CABS een sterke open-source-alternatief voor propriëtaire online data-curatie-algoritmen, waardoor gebruikers aangepaste conceptdistributies kunnen definiëren die geoptimaliseerd zijn voor specifieke downstreamtaken.
Het verkrijgen van de precieze 3D-beweging van een tafeltennisbal uit standaard monoscopische video's is een uitdagend probleem, omdat bestaande methoden die op synthetische data zijn getraind, moeite hebben om te generaliseren naar de ruwe, onvolmaakte bal- en tafeldetecties in de echte wereld. Dit komt primair door het inherente gebrek aan 3D grondwaarheidstrajecten en spinannotaties voor real-world video. Om dit te overwinnen, stellen we een nieuwe pijplijn in twee fasen voor die het probleem verdeelt in een front-end perceptietaak en een back-end 2D-naar-3D-verheffingstaak. Deze scheiding stelt ons in staat de front-end componenten te trainen met overvloedige 2D-supervisie vanuit onze nieuw gecreëerde TTHQ-dataset, terwijl het back-end verheffingsnetwerk uitsluitend wordt getraind op fysisch correcte synthetische data. We hebben het verheffingsmodel specifiek herontworpen om robuust te zijn tegen veelvoorkomende real-world artefacten, zoals ontbrekende detecties en wisselende framesnelheden. Door een baldetector en een tafelsleutelpuntdetector te integreren, transformeert onze aanpak een proof-of-concept verheffingsmethode naar een praktische, robuuste en hoogpresterende end-to-end applicatie voor 3D tafeltennistraject- en spinanalyse.