Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel 10B-niveau industriële funderingsmodellen de grenzen van beeldinpainting hebben verlegd, belemmeren hun buitensporige computationele kosten de praktische implementatie ernstig. Het bouwen van een sterk geoptimaliseerde taakspecifieke specialist biedt een veelbelovende oplossing; echter leidt extreme structurele compressie onvermijdelijk tot een ernstige representatiefles. Om dit te overwinnen introduceren we Moebius, een zeer efficiënt lichtgewicht inpainting-framework. We reconstrueren systematisch de diffusie-backbone door het Local-λ Mix Interaction (LλMI)-blok te introduceren. Bestaande uit Local-λ- en Interactive-λ-modules, vat het elegant ruimtelijke contexten en globale semantische prioriteiten samen in lineaire matrices van vaste grootte, waarbij complexe latente interacties behouden blijven terwijl parameters drastisch worden verminderd. Verder koppelen we deze zeer compacte architectuur synergetisch aan een adaptieve multi-granulariteitsdistillatiestrategie om het volledige representatievermogen ervan te ontgrendelen. Deze strategie werkt strikt binnen de latente ruimte om dure pixelruimtedecodering te vermijden en balanceert dynamisch meerdere gradiëntgebaseerde verliezen om een high-fidelity uitlijning te bereiken. Uitgebreide experimenten op natuurlijke en portretbenchmarks tonen aan dat deze optimale synergie Moebius in staat stelt om de generatiekwaliteit van de 10B-niveau industriële generalist FLUX.1-Fill-Dev te evenaren of zelfs te overtreffen. Opmerkelijk genoeg bereikt Moebius dit met minder dan 2% van de parameters (0,22B vs. 11,9B) en levert het een >15-voudige versnelling van de totale inferentietijd, waarmee het een nieuwe efficiëntienorm stelt voor high-fidelity inpainting. Projectpagina op https://hustvl.github.io/Moebius.
Behendige interactie met gelede objecten is belangrijk voor huishoudelijke, ondersteunende en humanoïde manipulatie, waarbij meervingerige handen conforme contactpatronen kunnen bieden die verder gaan dan parallele kaakgrepen. Manipulatie van gelede objecten verschilt echter van manipulatie van statische objecten: het doelonderdeel kan niet direct worden aangedreven en de beweging moet voortkomen uit aanhoudend fysiek hand–hendelcontact. Dit maakt de overgang van objectgerichte gelede generatie naar handgestuurde behendige hand–objectinteractie niet-triviaal, omdat het afspelen van geometrische trajecten of open-lusuitvoering de contactdynamica niet modelleert die nodig is om het gelede onderdeel te bewegen. Bovendien kunnen strategieën die alleen zijn getraind voor taakvoltooiing onder vaste dynamica overfitten op nominale contactbelastingen, vooral zonder tactiele of krachtterugkoppeling, en kunnen ze verslechteren wanneer de contactbelasting verandert. Om deze uitdagingen aan te pakken, presenteren we DragMesh-2, een contactgestuurd raamwerk voor behendige interactie met gelede objecten dat de gelede interactie uitbreidt van objectgerichte generatie naar handgestuurde behendige hand–objectinteractie, waarbij gelede beweging moet ontstaan door fysiek contact. We stellen verder PICA voor, een fysiek geïnformeerd contactbewust trainingsmechanisme dat fysieke signalen injecteert in het leren van strategieën zonder tactiele of krachtterugkoppeling, wat de robuustheid en het taaksucces verbetert onder veranderende contactbelastingen. Ten slotte voeren we een systematische evaluatie uit over meerdere dempingscondities en categorieën gelede objecten om de robuustheid onder variatie van contactbelasting te bestuderen, en bieden we een zuiver geometrische bron voor behendige interactie om toekomstig onderzoek naar loco-manipulatie en humanoïde hand–objectinteractie te ondersteunen. Over zeven GAPartNet-objecten heen bereikt DragMesh-2 een sterkere robuustheid onder variatie van contactbelasting dan de vergeleken methoden, terwijl het een hoog taaksucces behoudt over dempingscondities heen.
LiveCodeBench (LCB) is recentelijk een veelgebruikte benchmark geworden voor het evalueren van grote taalmodellen (LLMs) op codegeneratietaken. Door competitieve programmeerproblemen te cureren, voortdurend nieuwe problemen aan de set toe te voegen en deze te filteren op releasedata, biedt LCB een contaminatiebewuste evaluatie en een holistisch beeld van codeervaardigheid. LCB blijft echter beperkt tot Python, wat de vraag openlaat of LLMs kunnen generaliseren over de diverse programmeertalen die in de praktijk van software-engineering vereist zijn. Wij introduceren Multi-LCB, een benchmark voor het evalueren van LLMs over twaalf programmeertalen, waaronder Python. Multi-LCB zet Python-taken uit de LCB-dataset om in equivalente taken in andere talen, terwijl de contaminatiecontroles en het evaluatieprotocol van LCB behouden blijven. Omdat het volledig compatibel is met het oorspronkelijke LCB-formaat, zal Multi-LCB automatisch toekomstige LCB-updates volgen, wat een systematische beoordeling van cross-linguale codegeneratiecompetentie mogelijk maakt en vereist dat modellen prestaties ver boven Python uit blijven leveren. Wij evalueerden 24 LLMs op instructie en reasoning met Multi-LCB, waarbij wij bewijs vonden van Python-overfitting, taalspecifieke contaminatie en aanzienlijke verschillen in meertalige prestaties. Onze resultaten vestigen Multi-LCB als een rigoureuze nieuwe benchmark voor code-evaluatie in meerdere programmeertalen, waarmee rechtstreeks wordt ingespeeld op de primaire beperking van LCB en kritieke hiaten in de huidige LLM-mogelijkheden worden blootgelegd.
Huidige agentische robotsystemen kunnen uitvoerbare Code-as-Policy-programma's schrijven, feedback observeren en gedrag over meerdere pogingen heen herzien, maar ze blijven grotendeels taakgedreven: herbruikbare vaardigheden worden pas verworven na expliciete instructies. Wij bestuderen Speelse Agentische Robotleer, waarbij een belichaamde codeeragent zelfgestuurd spel gebruikt als een continue vaardigheidsleerfase voordat stroomafwaartse taken arriveren. We introduceren RAT's, Robotic Agent Teams ontworpen voor het verwerven van vaardigheden tijdens spel. Tijdens het spel stelt RAT's nieuwe maar leerbare verkennende taken voor, plant en voert robot-codebeleid uit, verifieert tussentijdse voortgang, diagnosticeert fouten, probeert het opnieuw met dichte, stapsgewijze feedback, en distilleert succesvolle uitvoeringen tot een permanente codevaardigheidsbibliotheek. Tijdens de testfase hergebruikt de agent relevante vaardigheden uit deze bevroren bibliotheek om nieuwe taken op te lossen. Experimenten in LIBERO-PRO en MolmoSpaces tonen aan dat via spel geleerde vaardigheden de prestaties op niet-geziene stroomafwaartse taken verbeteren in vergelijking met basislijnen zonder spel en met willekeurig spel, met respectievelijk 20,6 en 17,0 procentpuntenwinst ten opzichte van CaP-Agent0 op LIBERO-PRO en MolmoSpaces. Bovendien kunnen de geleerde vaardigheden worden ingepast in andere Code-as-Policy-agenten tijdens de inferentie door ze simpelweg in de context op te halen, wat resulteert in een verbetering van respectievelijk 8,9 en 8,8 punten voor RoboSuite en overdracht naar de echte wereld, zonder het onderliggende model te fine-tunen.
Ruimtelijke intelligentie in de echte wereld vereist redeneren over een continue en evoluerende 3D-wereld, maar bestaande VLM's en tool-verrijkte agenten blijven grotendeels gebonden aan statische, toestandloze inferentie op basis van geïsoleerde visuele waarnemingen. We introduceren \textsc{S-Agent}, een ruimtelijk tool-gebruikend agentisch paradigma voor het begrijpen en redeneren over continue multi-view beelden en video's. Door ruimtelijk redeneren te formuleren als spatio-temporele evidentieaccumulatie in plaats van geïsoleerde frame-niveau voorspelling, hervormt S-Agent ruimtelijke perceptie naar scènegecentreerd begrip, verder reikend dan framegecentreerde herkenning. Specifiek stelt S-Agent de VLM voor als een semantische planner die beslist welk bewijs nodig is, terwijl een hiërarchie van ruimtelijke tools en experts objecten in 2D grondt, ze opheft naar 3D geometrisch bewijs, en dit bewijs aggregeert tot hoog-niveau ruimtelijke kennis (bijv. tellen, meten, oriëntatie en relatieve positie). Daarnaast maakt een temporeel geheugenmechanisme, inclusief Scene Memory voor het onderhouden van de evoluerende scènetoestand en Agent Memory voor het accumuleren van redeneercontext, integratie van bewijs over frames en redeneerstappen mogelijk. Uitgebreide experimenten op multi-view en video ruimtelijke redeneerbenchmarks tonen aan dat S-Agent zowel open-source als closed-source VLM's consequent verbetert op een training-vrije manier. Naast inferentie-tijd augmentatie levert supervised fine-tuning (SFT) op S-Agent-gegenereerde ruimtelijke trajecten S-300K S-Agent-8B op, een compacte ruimtelijke agent die aanzienlijk beter presteert dan vergelijkbare schaalbare baselines (bijv. Qwen3-VL-8B) en vergelijkbaar presteert met geavanceerde closed-source modellen (bijv. GPT-5.4 en Gemini 3).
Agent benchmarks groeien snel, maar geen enkele benchmark bestrijkt meer dan vier of vijf van de dimensies die implementatie blootlegt. Dit artikel bundelt de grootste gecoördineerde diepgaande analyse tot nu toe van één op MCP gebaseerde industriële-agent benchmark: veertien parallelle implementatiestudies die nieuwe assetklassen (inclusief een multi-modale visuele uitbreiding), alternatieve orkestraties, retrieval-strategieën, redeneermodi, infrastructuuroptimalisaties en evaluatiemethodologische sondes omvatten. Door deze studies te consolideren met zeven eerdere agent benchmarks, betogen we dat leaderboards met geaggregeerde scores de evaluatie van geïmplementeerde agenten systematisch onderspecificeren. Ranglijsten afgeleid van geaggregeerde scores zijn niet overdraagbaar naar out-of-distribution settings; recente retrospectieven van openbare naar verborgen competities leveren direct empirisch bewijs voor deze ranginstabiliteit. We stellen voor configuraties te rangschikken op basis van predictieve validiteit, de correlatie tussen in-sample en out-of-sample rang, in plaats van het in-sample gemiddelde, en rapporteren een twaalfdelig meetapparaat dat de voor implementatie relevante dimensies blootlegt die HELM en zijn opvolgers in het agent-tijdperk comprimeren. Het standpunt wordt geoperationaliseerd via drie falsifieerbare out-of-distribution criteria met expliciete drempelwaarden; bestaand bewijs ondersteunt dit gedeeltelijk, maar is te mager om te bevestigen. We sluiten af met een vooraf geregistreerd pilotontwerp en een veldvisie voor wat de volgende generatie van agentische benchmarks zou moeten rapporteren.
Vooruitgang in stralingsvelden heeft fotorealistische nieuwe zichtweergave mogelijk gemaakt. Op verschillende domeinen zijn grootschalige real-world datasets ontwikkeld om uitgebreide benchmarking te ondersteunen en vooruitgang voorbij scènespecifieke reconstructie te bevorderen. Echter, voor afleidingsvrije stralingsvelden ontbreekt nog steeds een grootschalige dataset met schone en rommelige beelden per scène, wat de ontwikkeling beperkt. Om deze leemte op te vullen, introduceren we DF3DV-1K, een grootschalige real-world dataset bestaande uit 1.048 scènes, die elk schone en rommelige beeldensets bieden voor benchmarking. In totaal bevat de dataset 89.924 beelden, gemaakt met consumentencamera's om toevallige opnames na te bootsen, verspreid over 128 afleidingstypen en 161 scènethema's in binnen- en buitenomgevingen. Een samengestelde subset van 41 scènes, DF3DV-41, is systematisch ontworpen om de robuustheid van afleidingsvrije stralingsveldmethoden in uitdagende scenario's te evalueren. Met DF3DV-1K benchmarken we negen recente afleidingsvrije stralingsveldmethoden en 3D Gaussian Splatting, waarbij we de meest robuuste methoden en de meest uitdagende scenario's identificeren. Naast benchmarking demonstreren we een toepassing van DF3DV-1K door een diffusiegebaseerde 2D-versterker fijn te regelen om stralingsveldmethoden te verbeteren, met gemiddelde verbeteringen van 0,96 dB PSNR en 0,057 LPIPS op de testset (bijv. DF3DV-41) en de On-the-go dataset. We hopen dat DF3DV-1K de ontwikkeling van afleidingsvrij zicht vergemakkelijkt en vooruitgang voorbij scènespecifieke benaderingen bevordert. De dataset en het leaderboard zijn beschikbaar op https://johnnylu305.github.io/df3dv1k_web/.
Stijl-inhoud dubbele-referentiegeneratie heeft als doel een afbeelding te synthetiseren die de structuur en semantiek van een inhoudsreferentie behoudt, terwijl de stijl van een afzonderlijke stijlreferentie wordt overgenomen. Ondanks recente vooruitgang blijft deze instelling uitdagend omdat modellen een balans moeten vinden tussen getrouwheid van de inhoud, stijlovereenstemming en instructienaleving, terwijl semantische lekkage uit de stijlreferentie wordt vermeden. Een belangrijke bottleneck is het gebrek aan grootschalige tripletdata met een schone scheiding tussen inhoud en stijl en een brede dekking van lange-staartstijlen. In dit werk stellen we FreeStyle voor, een schaalbaar dubbele-referentieframework gebaseerd op community LoRA-mijnbouw. We behandelen community LoRA's als compositorische ankers voor stijl en inhoud, en ontwerpen een rigoureuze generatie- en filterpijplijn om grootschalige Stijl-Referentie en Inhoud-Referentie-triplets te construeren over meerdere basismodellen. Om inhoudslekkage aan te pakken, hanteren we een tweefasencurriculum met fase-specifieke ontwarringsmechanismen: een aandachtsniveauverrijkingsbeperking die lekkage van stijlreferentie in de stijloverdrachtsfase onderdrukt, en een frequentiebewuste RoPE-modulatiestrategie die zich richt op op positionele correspondentie gebaseerde lekkage in de moeilijkere dubbele-referentiefase. We introduceren ook een benchmark die zowel stijlreferentie- als dubbele-referentiegeneratie dekt, met evaluaties op stijlovereenkomst, inhoudsbehoud, esthetiek, instructienaleving en lekkageafwijzing. De benchmark omvat een stijlinvariante Content Alignment Score (CAS) en introduceert een gekalibreerde, op VLM gebaseerde Rejectiescore voor het evalueren van generatiebetrouwbaarheid en lekkageonderdrukking. Uitgebreide experimenten tonen aan dat ons model een sterke balans bereikt tussen stijlovereenstemming, inhoudsbehoud en lekkageonderdrukking.
Conditionele diffusie- en stromingsmodellen schieten routinematig tekort in het voldoen aan de exacte restricties die hun taak definiëren. Een diepte-geconditioneerd model produceert bijvoorbeeld vaak afbeeldingen waarvan de opnieuw geëxtraheerde diepte niet overeenkomt met de invoer, zelfs wanneer de voorwaartse operator – de dieptepredictor die de restrictie definieert – beschikbaar is tijdens zowel training als inferentie. Bestaande benaderingen vallen over het algemeen in twee categorieën: gesuperviseerde modellen die het conditionering signaal als een statische aanwijzing behandelen en aligneringsinformatie tijdens inferentie negeren, en sturingsgebaseerde methoden die het raadplegen via handmatig afgestelde lineaire updates, doorgaans getrouwheid aan de conditie inruilen tegen de plausibiliteit van het gegenereerde monster. Wij stellen dat de fundamentele kloof in beide paradigma's is dat het model nooit wordt getraind om zijn eigen aligneringsfout te benutten. We introduceren FlowBender, een gesloten-lus raamwerk dat deze fout als een eersteklas invoer behandelt, het netwerk traint om een correctiebeleid te leren dat is geconditioneerd op feedback tijdens inferentie. Bij elke stap schat een ongecontroleerde vooruitblikpas het schone signaal, wordt een taakspecifieke afwijking berekend via de voorwaartse operator, en verbruikt een verfijningspas dit signaal om een gecorrigeerde snelheid te produceren. We stellen verschillende varianten van FlowBender voor, waaronder een gradiëntgebaseerde formulering voor differentieerbare operatoren en een nulde-orde variant voor niet-differentieerbare omgevingen zoals JPEG-compressie. Voor efficiënte sampling introduceren we een eerdere-stap shortcut die gesloten-lus correctie mogelijk maakt tegen minimale extra computationele kosten. Bij beeld-naar-beeld translatie, restauratie en 3D-mesh texturering presteert FlowBender consequent beter dan standaard gesuperviseerde basislijnen, aligneringsverlies-vergrote training en state-of-the-art inferentie-tijd sturing, en verbetert getrouwheid en plausibiliteit gelijktijdig in plaats van ze tegen elkaar uit te ruilen. Projectpagina: https://flow-bender.github.io/
Het creëren van 3D-visuele illusies, een enkel 3D-mesh dat vanuit verschillende kijkhoeken totaal verschillende semantiek onthult, is een fascinerende maar lastige uitdaging. Bestaande optimalisatiegebaseerde methoden zijn traag en kunnen oververzadigde kleuren produceren. Daarentegen leiden naïeve aan elkaar gestikte benaderingen tot geometrisch incoherente objecten. Dit resulteert in zichtbare onnatuurlijke naden en semantische lekkage. In dit artikel presenteren we een snel en trainingsvrij raamwerk voor het genereren van tekstgestuurde 3D-visuele illusies. Onze aanpak ontkoppelt de generatie in twee fasen. Ten eerste stellen we een cross-space dual-branch denoisingproces voor. Dit proces decodeert dynamisch 3D-latenten naar voxelruimte voor CLIP-gestuurde oriëntatie-uitlijning en Signed Distance Field (SDF)-blending, wat zorgt voor naadloze geometrische fusie. Ten tweede introduceren we een view-geconditioneerde textuursynthesemodule die viewspecifieke 2D-diffusiepriors projecteert en aggregeert op de gefuseerde geometrie. Uitgebreide experimenten tonen aan dat onze methode in slechts 3-5 minuten zeer realistische, dual-semantische 3D-illusies genereert. Het presteert aanzienlijk beter dan bestaande methoden op het gebied van geometrische integriteit, semantische herkenbaarheid en efficiëntie. Projectpagina: https://siang1105.github.io/JanusMesh.github.io/
Wereldactiemodellen (WAMs) maken doorgaans gebruik van videogeneratie om visuele wereldmodellering en robotbesturing te overbruggen. Videogebaseerde WAMs hebben echter drie onderling samenhangende beperkingen: dichte meervoudige toekomstige tokens maken inferentie duur, volledige videovoorspelling besteedt capaciteit aan actie-irrelevante temporele en uiterlijke details, en langetermijn-toekomstverbeelding kan fouten introduceren die de actievoorspelling misleiden. Deze problemen roepen een simpele vraag op: heeft een wereldactiemodel echt videogeneratie nodig? Wij stellen ImageWAM voor, een eenvoudig WAM-raamwerk dat voorgetrainde beeldbewerkingsmodellen hergebruikt voor robotactievoorspelling. In tegenstelling tot videogeneratie biedt beeldbewerking een beter passende voorkennis: het hoeft alleen een doelkadertransformatie te modelleren, richt zich op actie-relevante visuele verschillen tussen huidig en doel, en verankert taakinstructies aan gelokaliseerde visuele veranderingen door middel van bewerkingstraining. In de praktijk decodeert ImageWAM het doelkader niet tijdens inferentie; in plaats daarvan conditioneert het een stroommatching-actie-expert op de KV-caches die door de ruisverwijdering van beeldbewerking worden geproduceerd, en gebruikt deze als een compacte wereld-actiecontext. ImageWAM presteert beter dan standaard VLA-baselines en concurrerende WAMs zonder extra beleidstraining in verschillende simulator- en real-world experimenten. Het vermindert ook FLOPs tot 1/6 en latentie tot 1/4 van videogebaseerde WAMs. Aandachtsanalyse toont verder aan dat bewerkingscaches zich richten op taakrelevante veranderingsregio's, wat beeldbewerking ondersteunt als een effectief alternatief voor videogebaseerde wereld-actiemodellering.
Wereldmodellen worden steeds vaker beschouwd als een beslissende stap in de richting van algemene kunstmatige intelligentie, maar het modelleren van de fysieke wereld vereist meer dan het op verzoek weergeven van overtuigende beelden: het vereist een interne wereldtoestand die in de loop van de tijd blijft evolueren, losgekoppeld van waarneming, zodat objecten blijven bestaan en gebeurtenissen hun conclusie bereiken, ongeacht of er een camera toekijkt, net zoals de maan haar baan houdt wanneer niemand kijkt. Deze vereiste is een blinde vlek van bestaande benchmarks, die oppervlakte-eigenschappen zoals getrouwheid, beweging en camerabestuurbaarheid belonen, maar nooit vragen of een gegenereerde wereld blijft evolueren zodra deze niet wordt waargenomen. Wij introduceren WRBench, de eerste systematische diagnostische benchmark die camerabeweging behandelt als een interventie op waarneembaarheid en de evaluatie oplost in een menselijk gekalibreerde keten die vraagt of de camera de gevraagde interactie uitvoert, of de scène continu en identificeerbaar blijft zolang deze in beeld is, en of een terugkerend doel consistent blijft met de gebeurtenis die in gang is gezet. In 9.600 video's van 23 modellen die vier controleparadigma's bestrijken, blijkt één bevinding hardnekkig: huidige systemen behouden de waargenomen wereld als een volgopname, waarbij een terugkerend doel wordt hervat in de toestand waarin het werd achtergelaten, in plaats van de gebeurtenis voort te zetten terwijl deze onzichtbaar was. Omdat dit falen terugkeert over controleparadigma's, modelfamilies en schaalvergrotingen, volgt robuuste evolutie van de wereldtoestand niet uit schonere beelden, strakkere controle, rijkere geometrische voorkennis of louter parametertelling. Wij stellen daarom dat de stabiliteit van de fysieke toestandskern en de consistentie van wereldlijnen onder standpuntinterventie eersteklasdoelstellingen moeten worden van wereldmodelontwerp, zodat een wereldmodel vastlegt hoe de wereld zich zal ontvouwen in plaats van hoe het volgende beeld eruitziet.
Grote taalmodellen (LLM's) falen vaak wanneer het beantwoorden van een vraag vereist dat een klein maar doorslaggevend stuk bewijs wordt geïdentificeerd binnen een lange of complexe context, zoals een enkele regel in een tooltrace of een subtiel detail in een afbeelding. We stellen ContextRL voor, een contextbewuste versterkend leren (RL)-methode die redeneren over lange horizon en multimodale prestaties verbetert via een indirecte hulpdoelstelling. In plaats van alleen het uiteindelijke antwoord te superviseren, presenteert ContextRL het model met een vraag, een antwoord en twee sterk vergelijkbare contexten, en beloont het voor het selecteren van de context die het vraag-antwoordpaar ondersteunt, waardoor fijnmazige verankering wordt aangemoedigd. We construeren contrastieve contextgegevens in twee domeinen: voor codeeragenten dienen trajecten als contexten, wat 1000 paren oplevert die zijn gebouwd via conditiefiltering; voor multimodaal redeneren dienen afbeeldingen als contexten, wat 7000 paren oplevert die zijn gebouwd via generatieve bewerking en gelijkeniszoektocht. ContextRL behaalt gemiddelde winsten van +2,2% ten opzichte van standaard GRPO op 5 benchmarks voor lange horizon, en +1,8% op 12 diverse benchmarks voor visuele vraagbeantwoording. Om het effect van de voorgestelde doelstelling te ontwarren van dat van extra gegevens, vergelijken we met basislijnen voor data-augmentatie die dezelfde contrastieve contexten hergebruiken als standaard vraag-context-antwoord voorbeelden. Deze basislijnen leveren weinig tot geen verbetering op, wat aantoont dat de winsten voortkomen uit de voorgestelde contextselectiedoelstelling en niet uit de contrastieve gegevens alleen.
Het bereiken van behendige robotmanipulatie in de echte wereld is sterk afhankelijk van menselijk toezicht en algoritmische engineering, wat een centraal knelpunt vormt in het streven naar algemene fysieke intelligentie. Hoewel opkomende coderingsagenten code kunnen genereren om algoritmisch zoeken te automatiseren, blijven hun successen grotendeels beperkt tot digitale omgevingen. Wij veronderstellen dat de ontbrekende abstractie voor het automatiseren van robotica-onderzoek een herhaalbare terugkoppelingslus is voor beleidsverbetering in de echte wereld: het resetten van de scène, het uitvoeren van een beleid, het verifiëren van het resultaat en het verfijnen van de volgende iteratie. Om deze kloof te overbruggen introduceren we ENPIRE, een harnasframework voor coderingsagenten dat deze fysieke terugkoppelingsroutine instantieert met vier kernmodules: een Omgevingsmodule (EN) voor automatisch resetten en verificatie, een Beleidsverbeteringsmodule (PI) die beleidsverfijning initieert, een Uitrolmodule (R) om beleid te evalueren met een of meerdere fysieke robots die parallel opereren, en een Evolutiemodule (E) waarin coderingsagenten logs analyseren, literatuur raadplegen, trainingsinfrastructuur en algoritmecode verbeteren om faalmodi aan te pakken. Dit gesloten-lussysteem transformeert het leren van manipulatie in de echte wereld tot een beheersbare optimalisatieprocedure, waarbij menselijke inspanning wordt geminimaliseerd terwijl eerlijke ablatiestudies over variaties in trainingsrecepten en agentvarianten mogelijk zijn. Aangedreven door ENPIRE kunnen geavanceerde coderingsagenten autonoom een beleid trainen dat een slagingspercentage van 99% behaalt bij uitdagende, behendige manipulatie taken, zoals het organiseren van een speldenkussen, het vastmaken van een kabelbinder en het gebruik van gereedschap; een proces dat verder versnelt wanneer we een agententeam op een robotvloot inzetten. Onze resultaten wijzen op een praktische en schaalbare weg naar het inzetten van coderingsagenten voor het autonoom vooruitbrengen van de robotica in de fysieke wereld.
Visueel denken moet niet alleen juist klinken; het moet zijn bewijs tonen. Hoewel recente visie-taalmodellen (VLMs) natuurlijk-talige redeneersporen kunnen produceren, laten deze sporen de ondersteunende afbeeldingsgebieden vaak impliciet, waardoor ze moeilijk te verifiëren en lastig te superviseren zijn. Wij introduceren visueel verankerd denken, een redeneerproces waarin modellen natuurlijk-talige gedachten afwisselen met expliciete punt- of kaderverankeringen van het visuele bewijs dat bij elke stap wordt gebruikt. Dit stelt het model in staat om tussentijdse redeneringen in taal uit te drukken terwijl het sleutelobjecten verankert in de afbeeldingsgebieden waarnaar ze verwijzen. Om dit gedrag te trainen, bouwen we een schaalbare synthesepijplijn die correcte visuele redeneersporen destilleert, de vereiste visuele objecten uit de sporen extraheert, ze verankert met een op SAM3 gebaseerde agent, en uit de resulterende maskers afgestemde punt- en kadersupervisie afleidt. We stellen verder verankeringsbewust bekrachtigingsleren voor, dat beloningen voor antwoordcorrectheid combineert met dichte verankeringsbeloningen die beoordelen of gegenereerde objectverwijzingen overeenkomen met het juiste afbeeldingsbewijs. Over twee telbenchmarks en vier ruimtelijke redeneerbenchmarks verbetert het toevoegen van visueel verankerd denken aan Gemma3-4B-IT consistent de prestaties ten opzichte van het originele model en de niet-verankerde denkbaseline. Op ruimtelijk redeneren evenaren de visueel verankerde denkmodellen van 4B, en in sommige gevallen overtreffen ze, Gemma3-27B-IT uit dezelfde modelfamilie. Onze analyse toont aan dat puntverankering goed geschikt is voor tellen, terwijl kaderverankering het meeste baat heeft bij expliciete verankeringsbeloningen bij ruimtelijke taken. Over het geheel genomen tonen onze resultaten aan dat VLMs beter denken wanneer hun tussentijdse gedachten zijn gekoppeld aan de afbeeldingsgebieden die ze waar maken.
Meerstaps-LLM-pijplijnen falen door interacties tussen retrieval-, redeneer- en opmaakstappen, waardoor optimalisatie uitsluitend via prompts bottlenecks in de keten kan missen. Wij presenteren FAPO (Fully Autonomous Prompt Optimization), een framework waarmee Claude Code een LLM-pijplijn kan optimaliseren binnen een gestandaardiseerde codebase. FAPO evalueert een pijplijn, inspecteert tussenstappen, diagnosticeert fouten, stelt gerichte wijzigingen voor en valideert varianten herhaaldelijk om te optimaliseren tegen een scorefunctie. Het probeert eerst promptbewerkingen en, alleen wanneer promptoptimalisatie ontoereikend lijkt, verandert het de ketenstructuur binnen de toegestane reikwijdte wanneer attributie een structurele bottleneck identificeert. Over zes benchmarks en drie taakmodellen heen verslaat FAPO de baseline GEPA in 15 van de 18 model-benchmarkvergelijkingen. In 11 model-benchmarkvergelijkingen wint FAPO met niet-overlappende bereiken van gemiddelde ± trial-standaarddeviatie, en de gemiddelde FAPO-GEPA-winst bedraagt +14,1 procentpunt. In de zes HoVer- en IFBench-vergelijkingen waarin prompt-first zoeken escaleerde naar structurele wijzigingen, wint FAPO alle zes met een gemiddelde winst van +33,8 procentpunt. FAPO verbetert ook de prestaties op beveiligingstaken: op CTIBench-RCM, een security CVE-naar-CWE-taak, verhoogt alleen-prompt FAPO de testnauwkeurigheid met +4,0 procentpunt op GPT-5, +7,1 procentpunt op Foundation-Sec-8B-Instruct en +2,0 procentpunt op Foundation-Sec-8B-Reasoning. Deze resultaten positioneren FAPO als een state-of-the-art pijplijnoptimalisatietechniek voor zowel algemene als beveiligingsgerichte taken.
Belichaamde funderingsmodellen zouden naar verwachting profiteren van dataschaalvergroting zoals grote taalmodellen, maar worden geconfronteerd met een veel strakkere data-knelpunt. Teleoperatie realistische robot-trajecten blijven de dominante vooraf-trainingsbron vanwege hun precieze actiesupervisie en belichaming-afstemming, maar hun schaalbaarheid wordt beperkt door hoge verzamelkosten, moeilijke verkrijgbaarheid en lage gedrags- en omgevingsdiversiteit. Deze beperkingen hebben interesse gewekt in egocentrische menselijke video als een schaalbare, aanzienlijk goedkopere en diversere alternatief voor vooraf trainen van belichaamde modellen. De effectiviteit ervan vergeleken met teleoperatie realistische robot-data blijft echter onderbelicht. Om deze vraag te beantwoorden, voeren we een systematische studie uit waarin we egocentrische menselijke video en teleoperatie realistische robot-trajecten vergelijken als vooraf-trainingsdatabronnen voor belichaamde funderingsmodellen, onder vaste post-training en validatieprotocollen. Verrassend genoeg vinden we dat egocentrische data, wanneer verwerkt via een zorgvuldig ontworpen filter- en labelingspijplijn, niet alleen een levensvatbaar substituut is voor modelvooraf-training, maar kan leiden tot superieure prestaties. Met dezelfde hoeveelheid vooraf-trainingsdata bereiken modellen die zijn vooraf getraind op egocentrische data een 24% lagere validatieverlies op realistische robot-actievoorspelling, evenals 52,5% en 90% hogere slagingspercentages bij respectievelijk binnen-de-verdeling en buiten-de-verdeling realistische robot-taakuitvoering. Deze bevinding bevestigt een schaalbaar paradigma voor belichaamde funderingsmodellen: vooraf trainen op egocentrische menselijke video om diverse wereldrepresentaties te leren, vervolgens aanpassen met een kleine hoeveelheid gelabelde realistische robot-data voor actieruimte-afstemming. We hopen dat deze studie bredere verkenning van egocentrische data aanmoedigt en richtlijnen biedt voor datakwaliteitsbeoordeling voordat kostbare robotdataverzameling plaatsvindt.
Videowereldmodellen evolueren naar het behouden van een waargenomen wereld onder controleerbare camera- en objectbewegingen, terwijl de omgevingstoestand kan veranderen. Deze besturingen blijven echter geïsoleerd, en weergeneratie is doorgaans afhankelijk van een bronvideo of gereconstrueerde scène die al een toekomstige structuur specificeert. Wij bestuderen een eerste-frame-verankerde bron-naar-toestand instelling, waarbij het model start vanuit één enkele afbeelding en expliciete camera- en objectbesturingen en een optionele weerinstructie volgt, waarna het een video genereert die ofwel de bronwereld behoudt ofwel overgaat naar een doelweertoestand. Om deze uitdagingen aan te pakken, bouwen we eerst HoloStateData, een toestandsvideodataset die diverse video's omzet in uniforme besturingssamples voor camera-, object- en weersupervisie. Ten tweede introduceren we Holo-World, een uniform controleerbaar videowereldmodel dat gezamenlijk de scène vanuit één enkele afbeelding bestuurt. De Uniforme Scène-Adapter factoriseert wereldbehoud en weersoverdracht in verschillende parametersubruimten, waarbij gerenderde achtergrond, geometriebuffers en objectbesturingen worden gebruikt om de gecontroleerde scènestructuur te behouden terwijl weersafhankelijke verschijning en deeltjeseffecten worden gemodelleerd. Daarnaast stuurt Scène-Weer Uiteengezette CFG scène- en weesresten afzonderlijk aan, waardoor doeleffecten worden versterkt zonder de volledige conditie overdreven te versterken. Kwantitatieve en kwalitatieve experimenten tonen aan dat Holo-World nauwkeurige camera- en objectbesturing met consistente scènestructuur handhaaft, terwijl scènes worden overgebracht naar diverse doelweertoestanden, waarbij het beter presteert dan video-naar-video weerbewerkingsbaselines op het gebied van toestandsgeneratie. Onze projectpagina is beschikbaar op https://xiangchenyin.github.io/Holo-World/.
FP4-training belooft aanzienlijke reducties in geheugen- en rekencost voor LLM-voorbereiding, maar de huidige FP4-hardwarepaden en -recepten, waaronder NVIDIA Blackwell/Rubin-klasse systemen en AMD MI350-serie GPU's, blijven gericht op E2M1-data-elementen. In deze studie identificeren we een fundamentele beperking van die keuze: niet-uniforme formaten zoals E2M1 lijden inherent aan krimpvertekening (Shrinkage Bias), een systematische negatieve afrondingsfout veroorzaakt door de geometrische asymmetrie van hun representeerbare bakken. We tonen aan dat deze vertekening multiplicatief over lagen accumuleert en wordt versterkt door de Random Hadamard Transform (RHT), wat een uniforme verklaring biedt voor de trainingsinstabiliteit die wordt waargenomen in bestaande E2M1-gebaseerde FP4-recepten. Daarentegen omzeilen uniforme roosters (E1M2/INT4) deze roostergeometriefout en zetten ze de verbeterde bakbenutting van RHT beter om in een hogere kwantisatiekwaliteit. Op basis van deze bevinding stellen we UFP4 voor, een uniform 4-bit trainingsrecept dat RHT toepast op alle drie de trainings-GEMM's, terwijl stochastisch afronden wordt beperkt tot alleen dY. Bij langdurige voorbereiding van Dense 1.5B, MoE 7.9B en MoE 124B behaalt UFP4 consequent een lagere BF16-relatieve verliesdegradatie dan sterke E2M1-gebaseerde basislijnen, ondersteund door schaalwetanalyse en ablatiestudies. Onze resultaten suggereren dat toekomstige versnellers E1M2/INT4-stijl uniforme 4-bit roosters als eersteklas trainingsprimitieven naast E2M1 moeten ondersteunen.
Voortgang in juridische AI is steeds meer afhankelijk van toegang tot gezaghebbende juridische teksten op grote schaal. Toch ontbreekt een van de meest consequente lagen van het Amerikaanse recht grotendeels in bestaande machineleesbare corpora: lokale verordeningen. Lokale codes reguleren zaken als bestemmingsplannen, huisvesting, bedrijfsvergunningen, volksgezondheid, geluidsoverlast, dierenbeheer en vele andere domeinen van alledaagse regelgeving, maar ze zijn versnipperd over leveranciersplatformen die zijn ontworpen voor menselijk browsen in plaats van bulkonderzoekstoegang. We introduceren LOCUS – het Local Ordinance Corpus voor de Verenigde Staten – een uitgebreid corpus en een op county-niveau geharmoniseerde toegangslaag voor Amerikaanse gemeentelijke en county-verordeningencodes. Het ruwe corpus, beschikbaar voor vrijgave aan onderzoekers, vertegenwoordigt vrijwel alle openbaar beschikbare gemeentelijke en county-verordeningencodes. Het resulterende ruwe corpus bevat codes van 9.239 steden en county's. Een kleinere, op county-niveau geharmoniseerde LOCUS-toegangslaag biedt dekking voor de grootste 2.309 van de 3.144 Amerikaanse county's, die een meerderheid van de bevolking vertegenwoordigen. We gebruiken OCR om de talloze documentformaten te verwerken die ervoor hebben gezorgd dat de wet geen publieke hulpbron was. We geven het corpus vrij met dekkingsmetadata om reproduceerbaarheid, downstream juridisch AI-onderzoek en de stapsgewijze uitbreiding van machineleesbare toegang tot het lokale recht te ondersteunen. We trainen een verzameling op ModernBERT gebaseerde classificatoren en scorers om het analyseren van het Amerikaanse lokale recht langs verschillende dimensies, zoals ondoorzichtigheid en paternalisme, te vergemakkelijken – dimensies die op deze schaal nog niet eerder zijn bestudeerd. LOCUS-v1 en de afgeleide modellen zijn beschikbaar op: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
De Frechet Inception Distance (FID) is de facto arbiter van beeldgeneratie, maar de meeste artikelen rapporteren slechts een enkel getal van een enkel getraind model met een enkele zaadwaarde voor bemonstering. Hoe reproduceerbaar is dat getal als we het model opnieuw trainen, of er slechts opnieuw uit bemonsteren? In dit artikel behandelen we FID als een stochastische variabele in een tweedimensionaal assenstelsel van trainings- en generatiezaadwaarden, en meten we de variantie ervan direct op enkele honderden SiT-netwerken getraind op klasse-conditional ImageNet 256x256. We rapporteren verrassende bevindingen: (a) Het opnieuw trainen van het model met hetzelfde recept maar een andere zaadwaarde verplaatst FID 3,2 keer meer (in de kenmerkruimte van Inception) dan het opnieuw trekken van monsters uit een vast netwerk. (b) Die kloof wordt veroorzaakt door drie factoren: willekeurige initialisatie, gegevensordening en de per-stap Gaussische ruis van het flow-matching verlies. (c) Het vergroten van rekenkracht of modelgrootte verkleint de spreiding nauwelijks, waardoor de variatiecoëfficiënt (CoV) van FID binnen een band van 1–2% blijft. (d) Per-cel afstemming van classifier-free guidance halveert de spreiding maar herschikt welke zaadwaarden het beste werken, en een gelukkige trainingszaadwaarde bereikt dezelfde FID met tot 2× minder rekenkracht dan een ongelukkige. Op basis van deze bevindingen bevelen wij een nieuw FID-evaluatieprotocol aan: evalueer onder per-cel optimale begeleiding, behandel elk FID-verschil onder de empirisch gemeten ~1,3% CoV als niet-conclusief, en rapporteer een foutbalk over meerdere trainingszaadwaarden in plaats van een enkel FID-getal.
Recentere benaderingen van retrieval-versterkte generatie (retrieval-augmented generation, RAG) hebben een sterke capaciteit getoond in het verwerken van complexe vragen, maar het huidige onderzoek ziet een cruciale uitdaging over het hoofd: verschillende retrievers vereisen fundamenteel andere queryformuleringsstrategieën voor optimale prestaties. In dit werk presenteren we de eerste systematische analyse van hoe grote taalmodellen (LLM's) kunnen leren hun queryformuleringsstrategieën aan te passen aan verschillende retrievers via versterkend leren (reinforcement learning, RL). Onze empirische studie toont aan dat RL een LLM effectief leert om zijn queries af te stemmen op specifieke retrieverkenmerken. We ontdekken dat verschillende retrievers opvallend verschillende optimale querystijlen vertonen (bijvoorbeeld beschrijvend versus vraagachtig), wat suggereert dat strategieën die voor de ene retriever zijn geleerd, niet effectief zijn voor een andere. Verder tonen we aan dat prestaties kunnen worden verbeterd door het opnemen van retriever-specifieke menselijke aanwijzingen en door het schalen van de modelgrootte. Om het leren over trajecten met meerdere retrieval-stappen te faciliteren, introduceren we een op vertakkingen gebaseerde rollout-techniek die de trainingsstabiliteit verbetert. Ons werk levert het eerste empirische bewijs en bruikbare inzichten voor het bouwen van werkelijk retriever-bewuste RAG-systemen. Code en bronnen zijn beschikbaar op https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.
Beleidsgetrouwe tool-aanroepagenten in klantenservicedomeinen moeten taaktoestanden over meerdere beurten heen behouden terwijl ze tools aanroepen en moeten zich houden aan domeinbeleid. Taaktoestanden bestaan uit relevante feiten, identificatoren, beperkingen en voorwaarden die worden waargenomen via gebruikersinteractie en toolaanroepen. In standaardagenten worden taaktoestanden niet afzonderlijk weergegeven. Waarnemingen, toolresultaten en beleidsinstructies worden in de prompt geplaatst, waardoor agenten elke keer dat ze moeten beslissen wat ze vervolgens doen, de relevante toestanden uit de prompt moeten reconstrueren. Dit ontwerp maakt toestandsbeheer impliciet, wat leidt tot twee veelvoorkomende faalwijzen. Een agent kan de juiste feiten ophalen, maar zijn beslissing later baseren op verouderde, ontbrekende of onjuiste informatie; en een syntactisch geldige toolaanroep kan nog steeds een domeinbeleid schenden dat afhangt van de huidige taaktoestand. We introduceren LedgerAgent, een inferentietijdmethode voor tool-aanroepagenten die waargenomen taaktoestanden in een apart register bijhoudt en de toestanden in de prompt weergeeft. Het register wordt ook gebruikt om toestandsafhankelijke beleidsbeperkingen te controleren voordat omgevingsveranderende toolaanroepen worden uitgevoerd, waardoor beleidsschendingen worden voorkomen. In vier klantenservicedomeinen en een gemengd panel van open- en gesloten gewichtsmodellen verbetert LedgerAgent de gemiddelde passk ten opzichte van een standaard promptgebaseerde tool-aanroepbenadering, met de grootste winst onder strengere consistentiemetrieken over meerdere pogingen.
Hybride lineaire aandachtsmodellen bieden een aantrekkelijke weg naar snellere inferentie met lange context: ze verminderen de kwadratische kosten en KV-cache-belasting van volledige softmax-aandacht, terwijl ze veel van de kwaliteit van Transformermodellen behouden. Een praktische manier om dergelijke modellen te verkrijgen, is door een voorgetrainde Transformer om te zetten in plaats van een nieuwe architectuur helemaal opnieuw te trainen, maar deze conversie is nog steeds broos. Het simpelweg kopiëren van de aandachtprojecties van de leraar naar een Gated DeltaNet (GDN)-student specificeert niet de nieuwe recurrente verval-, schrijf- en uitgangspoortdynamiek. Als gevolg hiervan start het geconverteerde model vaak in een slecht dynamisch regime en moet het veel distillatietokens besteden aan het herstellen van de initialisatie in plaats van het leren van het resterende gedrag van de leraar. Wij stellen Taylor-Calibrate voor, een lichtgewicht initialisatiemethode voor hybride GDN-studenten. De methode gebruikt door Taylor geleide statistieken van de lerarenaandacht om de waardenprojectie, geheugentijdsschaal, schrijfpoorten en uitgangspoort in te stellen, en past vervolgens een korte per-laag uitlijningsstap toe om elke geconverteerde laag af te stemmen op de uitvoer van de leraar. Bij vier leraarinstellingen en drie beleidsregels voor behouden lagen levert Taylor-Calibrate aanzienlijk sterkere zero-shot-studenten op, met een verbetering tot 88x in een representatieve ablatie, en bereikt het overeenkomende hersteldoelen met 4,9x–9,2x minder trainingssymbolen dan naïeve conversie.
Nauwkeurige mechanische eigenschappen (van materialen) zoals de elasticiteitsmodulus (E), de dwarscontractiecoëfficiënt (ν) en de dichtheid (ρ) zijn essentieel voor betrouwbare fysische simulaties van digitale werelden, maar de meeste 3D-objecten beschikken niet over deze informatie. Wij stellen AdaVoMP voor, een methode voor het voorspellen van nauwkeurige, dichtheidsvariërende (E, ν, ρ) voor invoer-3D-objecten ongeacht hun representatie, met verbeteringen in resolutie, nauwkeurigheid en geheugenefficiëntie ten opzichte van de huidige stand der techniek. De basis van onze techniek is een schaarse en adaptieve voxelstructuur SAV die zowel de invoer-3D-vorm als de materiaalveld-uitvoer efficiënt representeert. We vervangen het vaste-voxelmodel van de meest nauwkeurige eerdere methode, VoMP, door een nieuw schaars transformer-encoder-decodermodel dat leert om voor elke invoervorm autonoom een unieke SAV te genereren om de materialen ervan te representeren, wat een resolutie oplevert die 16³ keer hoger is dan die van eerdere technieken. Experimenten tonen aan dat AdaVoMP nauwkeurigere volumetrische eigenschappen schat, zelfs met minder rekentijd tijdens het testen dan alle eerdere technieken. Dit stelt ons in staat om complexe 3D-objecten met hoge resolutie om te zetten in simulatieklare assets, wat leidt tot realistische vervormbare simulaties.
AI-systemen die in juridische workflows worden ingezet, hallucineren met een percentage dat geaggregeerde metrieken rapporteren als ~52%, maar dit gemiddelde verhult waar fouten zich concentreren en in welke richting ze gaan, waardoor compliance officers geen bruikbaar signaal krijgen voor betrouwbare implementatie. We presenteren LegalHalluLens, een auditkader met drie componenten: getypeerde hallucinatieprofielen voor vier juridisch gemotiveerde claimcategorieën (numeriek, temporeel, verplichting/recht, feitelijk) over CUAD (Hendrycks et al., 2021); een Risicorichtingsindex (RDI) die weglatings- versus verzinningsbias reduceert tot één enkele, inzetbaar vergelijkbare scalar; en een getypeerde debatpijplijn die zowel is gekalibreerd op omvang als richting. Over 510 contracten en 249.252 clausule-niveau gevallen meten wij een binnen-model kloof van ongeveer 38-40 procentpunt tussen verplichtingen/numerieke en temporele claims die geaggregeerde rapportage verbergt, en tonen aan dat twee systemen met overeenkomstige percentages van 52% tegengestelde RDI's kunnen hebben. De debatpijplijn reduceert verzonnen detecties met 45%, met winsten per categorie die de diagnose volgen, en evenaart commerciële API's met een aanzienlijk kleinere backbone (4B actieve parameters). Getypeerde profielen en RDI brengen faalwijzen aan het licht die geaggregeerde metrieken verbergen; we tonen verder aan dat deze diagnostiek dient als kalibratie-inputs voor multi-agent debatpijplijnen, waarbij Scepticus-uitdagingen en asymmetrische poorten gericht op gemeten faalwijzen het beter doen dan generiek afgestemde debatten. Het kader ondersteunt richtingbewuste inkoop, verantwoording en agentontwerp voor juridische AI die in de echte wereld wordt ingezet.
Patiëntcontexten omvatten honderden heterogene documenten en duizenden gestructureerde datapunten, maar de metadata op documentniveau die AI-systemen nodig hebben voor retrieval en triage ontbreekt of is onvolledig. Standaard retrieval-ondersteunde generatie faalt op deze gegevens: het gaat slecht om met temporeel redeneren, afhankelijkheden tussen documenten en ontbrekende metadata. Wij implementeren ACIE (Agentic Clinical Information Extraction) aan het Universitair Ziekenhuis Essen: een on-premise agentische RAG-pijplijn die redeneert over complete patiëntcontexten en elk antwoord onderbouwt met bronpassages voor verificatie door clinici. We kwantificeren de metadatakloof, traceren de architectonische beslissingen die hierdoor werden gevormd, en evalueren de extractie naast een onafhankelijke retrospectieve lymfoomregisterstudie, waarin nucleair geneeskundigen elke geëxtraheerde waarde verifiëren tegenover de aangehaalde bronnen. Over 7.326 beoordelingen heen accepteerden clinici 96,5% van de extracties, met acceptatie per type variërend van 80% tot 99%.
Nauwkeurige 3D-ruimtelijke orkestratie in tekst-naar-video generatie blijft een aanzienlijke uitdaging, met name voor scènes met meerdere objecten waar semantische lay-out en temporele dynamiek vaak met elkaar verweven zijn. Hoewel bestaande diepte-geconditioneerde modellen een goede structurele getrouwheid bereiken, vereisen zij een dichte, frame-nauwkeurige begeleiding die arbeidsintensief is om te creëren voor dynamische gebeurtenissen met vervormbare objecten. Wij presenteren LooseControlVideo, een raamwerk dat intuïtieve en expressieve controle mogelijk maakt door gebruik te maken van spaarse, georiënteerde 3D-kaders als een 'blokkerende' proxy. Dit stelt gebruikers in staat om een lay-out en traject op hoog niveau te bepalen, terwijl een videogeneratief model wordt gebruikt om realistische occlusies, dynamiek en interacties te genereren. Wij bereiken dit door een Wan 2.2-backbone te finetunen op een videodataset geannoteerd met DNOCS, een nieuwe codering voor 3D-grootte, oriëntatie en diepte-geordende occlusies. Bovendien maakt onze methode gelokaliseerde verfijning mogelijk, zoals het aanpassen van een sprongtraject of het toevoegen van een interactie, met minimale verstoring van de globale scènecontext. Uitgebreide evaluaties op de benchmarks nuScenes, HO-3D en BEHAVE tonen aan dat LooseControlVideo aanzienlijk beter presteert dan bestaande basislijnen op basis van 2D-kaders en optische flow. Onze bevindingen wijzen op een verbetering van 1,2 tot 3 keer in Trajectfout; een verbetering van 2 keer in Consistentie van starre beweging; en een toename van 1,5 tot 2 keer in Occlusienauwkeurigheid ten opzichte van de huidige state-of-the-art lay-out-geconditioneerde modellen, wat aantoont dat georiënteerde 3D-primitieven een goede geometrische voorkennis bieden voor complexe video-autoring met meerdere agenten.
Huidige AI-gestuurde game-ontwikkeling heeft aanzienlijke vooruitgang geboekt op het gebied van materiaalgeneratie, gameplay-ontwerp en webgebaseerd spelcoderen, maar codetechniek op projectniveau in professionele game-engines blijft grotendeels onontgonnen vanwege het ontbreken van grootschalige datasets en deterministische evaluatiemethoden. We presenteren JamSet en JamBench, de eerste dataset en benchmark op projectniveau voor gamecode-frameworks, gebouwd op een professionele game-engine. Ons belangrijkste inzicht is dat Game Jam-wedstrijden, gemeenschapsevenementen waarbij ontwikkelaars in korte tijd complete spellen bouwen, duizenden opensourceprojecten opleveren die geschikt zijn voor dit doel. Voortbouwend op het tekstgebaseerde formaat van de Godot-engine en de headless-uitvoeringsmodus ontwerpen we een deterministische verificatiepijplijn, van bestandsintegriteit tot verzameling van runtime-gedrag, waarmee we 8.133 geverifieerde projecten destilleren uit meer dan 240.000 repositories. Hiervan vormen 300 handmatig geverifieerde projecten JamBench; de rest vormt JamSet. JamBench definieert themagestuurde generatie- en code-aanvultaken, geëvalueerd via een pijplijn die compilatieslagingspercentages, de Structural Completeness Score (SCS) en de Behavioral Alignment Score (BAS) combineert. Evaluatie van 9 frontiermodellen onthult een capaciteitsklif naarmate de projectomvang toeneemt, waarbij runtime-slagingspercentages dalen van 80,4% bij kleine projecten tot 5,7% bij grote (Task2a). Code-agenten verbeteren compilatiepercentages, maar leveren geen winst op in kwaliteit van runtime-gedrag, wat aangeeft dat de bottleneck ligt in architectonisch ontwerp in plaats van syntactische correctheid. Experimenten bevestigen JamSet als effectieve trainingsdata. Alle data en code zijn openbaar beschikbaar.
Typische benaderingen voor video-objectgecentreerd leren (VOCL) maken gebruik van op slots gebaseerde raamwerken die steunen op reconstructiegedreven encoder-decoder architecturen, waarbij het leren wordt gemedieerd door twee ruimtelijke kaarten: aandachtskaarten van de encoder en objectkaarten van de decoder. Aangezien deze twee verschillende kaarten verschillende eigenschappen vertonen, probeerde een recente dichte aligneringsstrategie deze discrepantie te verzoenen door overeenstemming af te dwingen over alle ruimtelijk-temporele patches via contrastief leren. Deze niet-selectieve alignering verspreidt echter onbedoeld de inherente zwakheden van elke module, zoals ruisende encoder-voorspellingen en vervaagde decoder-grenzen. Bovendien brengt het berekenen van dichte overeenkomsten over alle paren een computationele kosten met zich mee die kwadratisch is in het totale aantal ruimtelijk-temporele patches, wat de schaalbaarheid ernstig beperkt. Gemotiveerd hierdoor stellen we Selectief Synergetisch Leren (SSync) voor. In plaats van uitputtende patch-tot-patch-alignering voorkomt SSync foutpropagatie door alleen de meest betrouwbare signalen selectief te distilleren: de encoder strikt gebruiken voor grensverfijning en de decoder voor interne ruisonderdrukking. Dit wordt gerealiseerd via een pseudo-labeling met lineaire complexiteit, waardoor de noodzaak voor kwadratische ruimtelijke vergelijkingen wordt geëlimineerd. Ook introduceren we, om de versterking van architecturale vooroordelen zoals slot-redundantie te voorkomen, een transitieve pseudo-label-samenvoeging die overlappende slots consolideert op basis van ruimtelijk-temporele activeringsconsistentie. Uitgebreide studies tonen aan dat SSync de decompositiekwaliteit verbetert en dient als een veelzijdige, plug-and-play-module, terwijl het ook uitzonderlijke robuustheid vertoont ten opzichte van slot-configuraties. Code is beschikbaar op github.com/wjun0830/SSync.
Er bestaat een significante kloof tussen theorie en praktijk in diep leren. Generalisatie- en benaderingsfoutgrenzen worden vaak afgeleid voor vereenvoudigde modellen of zijn te los om informatief te zijn. Velen vertrouwen op de manifoldhypothese en op geometrische regelmatigheden zoals intrinsieke dimensie, kromming en bereik. Vooruitgang vereist inzicht in de geometrie van datamanifolds en geschikte benchmarks, maar bestaande opties zijn gepolariseerd: analytische manifolds met bekende geometrie maar beperkte toepasbaarheid, of datasets uit de praktijk waarvan de geometrie slechts grof te schatten is. We introduceren een benchmarkkader voor het bestuderen van datageometrie. We hergebruiken en breiden dSprites en COIL-20 uit met extra transformatiedimensies en dichte, as-uitgelijnde sampling, en koppelen ze aan eindige-verschilschatters die kromming, bereik en volume herstellen met een nauwkeurigheid dicht bij de grondwaarheid, in een regime waar algemene schatters onbetrouwbaar of moeilijk inzetbaar zijn. Het kader is bedoeld als een gecontroleerde testomgeving, nuttig als kalibratieomgeving voor geometrische schatters en als speeltuin voor het onderzoeken van theoretische aannames. Ter illustratie van het gebruik presenteren we twee toepassingsstudies, namelijk het beoordelen van het schalingsgedrag van de grenzen van Genovese et al. en Fefferman et al., en het volgen van de laagsgewijze geometrie van een β-VAE, waarbij het gedrag van huidige grenzen en de waarde van gecontroleerde benchmarks voor het sturen en valideren van toekomstige theorie worden benadrukt. Een referentie-implementatie is beschikbaar op https://github.com/koulakis/manifold-microscope.
Grote taalmodellen (Large Language Models, LLM's) hebben de automatisering van software-engineeringtaken aanzienlijk verbeterd. Een prominent voorbeeld is codegeneratie, waarbij een LLM code in een gespecificeerde programmeertaal produceert op basis van een beschrijving in natuurlijke taal. Het meeste onderzoek op dit gebied richt zich op talen met veel resources, zoals Python of Java, die profiteren van overvloedige trainingsdata. Een kleiner aantal studies heeft laagbrontalen onderzocht, die ondervertegenwoordigd zijn in trainingscorpora. Daarentegen blijven nulbrontalen – talen waarvoor LLM's vrijwel geen trainingsdata hebben gezien – grotendeels onbestudeerd. Dergelijke talen komen vaak voor in de industrie, waar organisaties eigen of domeinspecifieke talen ontwikkelen die niet worden ondersteund door commerciële tools zoals GitHub Copilot. Dit leidt tot de noodzaak voor bedrijven om hun eigen interne code-aanbevelingssystemen in te zetten. Om mogelijke oplossingen in deze context te onderzoeken, bouwen en publiceren we drie codegeneratie-benchmarks voor nulbrontalen, gebaseerd op twee recent voorgestelde programmeertalen waarvoor zeer weinig trainingsdata beschikbaar zijn. Met behulp van deze benchmarks experimenteren we met verschillende oplossingen om LLM's te leren over nulbrontalen, waaronder prompt-gebaseerde technieken, evenals pre-training en fine-tuning met de weinige beschikbare data. Hoewel verdere pre-training de grootste prestatiewinst oplevert voor nulbrontalen, schaadt het direct toepassen ervan op instructie-getunede modellen hun vermogen om instructies op te volgen. Om dit aan te pakken, beginnen we met een basismodel, voeren we verdere pre-training uit op de doeltaal, en injecteren we vervolgens instructie-opvolgingsmogelijkheden via gewichtsverschiloverdracht (weight diff transfer) van een instructiemodel. Deze aanpak verbetert de codegeneratiecapaciteiten in nulbrontaalomgevingen aanzienlijk, waardoor bedrijven goedkoop een gespecialiseerd instructiemodel kunnen implementeren zonder de rekenkosten van instructie-fine-tuning te hoeven dragen.
Planningsbeleid in grootschalige Automatic Speech Recognition (ASR)-servingpijplijnen speelt een sleutelrol bij het bepalen van de end-to-end (E2E)-latentie. Toch vertrouwen veelgebruikte servingengines op first-come-first-served (FCFS)-planning, die variabiliteit in aanvraagduur negeert en leidt tot head-of-line-blokkering bij werklastverschuiving. We tonen aan dat audioduur een nauwkeurige proxy is voor de verwerkingstijd van taken in ASR-modellen zoals Whisper, en gebruiken dit inzicht om duurbewuste planning mogelijk te maken. We integreren twee klassieke algoritmen, Shortest Job First (SJF) en Highest Response Ratio Next (HRRN), in vLLM en evalueren ze onder realistische en verschoven werklasten. Op LibriSpeech test-clean vermindert SJF vergeleken met de basislijn de mediane E2E-latentie met tot 73% bij hoge belasting, maar verhoogt de 90e percentiel staartlatentie met tot 97% als gevolg van uithongering van lange aanvragen. HRRN pakt deze afweging aan: het vermindert de mediane E2E-latentie met tot 28% terwijl de verslechtering van de staartlatentie wordt beperkt tot maximaal 24%. Deze winsten blijven bestaan onder werklastverschuiving, zonder doorvoerstraf en met minder dan 0,1 ms planningsoverhead per aanvraag.
Bestaande Programming-By-Example (PBE)-systemen vertrouwen vaak op vereenvoudigde benchmarks die niet in staat zijn de hoge structurele complexiteit van echte regexen vast te leggen, zoals diepere nestingen en veelvuldig gebruik van unieoperaties. Om de hieruit resulterende prestatievermindering te overwinnen, stellen we ReSyn voor, een synthesizer-agnostisch verdeel-en-heersraamwerk dat complexe syntheseproblemen ontleedt in beheersbare deelproblemen. We introduceren ook Set2Regex, een parameter-efficiënte synthesizer die de permutatie-invariantie van voorbeelden vastlegt. Experimentele resultaten tonen aan dat ReSyn de nauwkeurigheid van verschillende synthesizers aanzienlijk verbetert, en de combinatie met Set2Regex levert een nieuwe state-of-the-art op uitdagende echte benchmarks. De volledige broncode, datasets en voorgetrainde modelcontrolepunten zijn openbaar beschikbaar op https://github.com/mrseongminkim/ReSyn.