Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate taalmodellen steeds capabeler worden, verwachten gebruikers niet alleen nauwkeurige antwoorden, maar ook gedrag dat is afgestemd op uiteenlopende menselijke voorkeuren in diverse scenario's. Om dit te bereiken, zijn reinforcement learning (RL) pijplijnen begonnen met het incorporeren van meerdere beloningen, elk gericht op een specifieke voorkeur, om modellen naar dit gewenste gedrag te sturen. Recent werk past echter standaard Group Relative Policy Optimization (GRPO) toe in een multi-beloningssetting zonder de geschiktheid ervan te onderzoeken. In dit artikel tonen we aan dat het direct toepassen van GRPO om verschillende rollout-beloningscombinaties te normaliseren, ervoor zorgt dat deze samenvallen tot identieke advantage-waarden. Dit vermindert de resolutie van het trainingssignaal en resulteert in suboptimale convergentie en, in sommige gevallen, vroegtijdige trainingsfouten. Vervolgens introduceren we Group reward-Decoupled Normalization Policy Optimization (GDPO), een nieuwe policy optimization-methode om deze problemen op te lossen door de normalisatie van individuele beloningen te ontkoppelen. Hierdoor worden hun onderlinge verschillen beter behouden, wordt nauwkeurigere multi-beloningsoptimalisatie mogelijk gemaakt en neemt de trainingsstabiliteit aanzienlijk toe. We vergelijken GDPO met GRPO in drie taken: tool calling, wiskundig redeneren en coderingsredenering, waarbij we zowel correctheidsmetrieken (nauwkeurigheid, bugratio) als metrieken voor naleving van randvoorwaarden (formaat, lengte) evalueren. In alle settings presteert GDPO consistent beter dan GRPO, wat de effectiviteit en generaliseerbaarheid ervan aantoont voor multi-beloning reinforcement learning-optimalisatie.
Het toepassen van gewichtsverval (weight decay, WD) op matrixlagen is standaardpraktijk bij het vooraf trainen van grote-taalmodelmodellen. Eerder onderzoek suggereert dat stochastische gradientruis een Browniaanse-achtige expansie van de gewichtsmatrices W induceert, waarvan de groei wordt tegengewerkt door WD, wat leidt tot een WD-ruis-evenwicht met een bepaalde gewichtsnorm ||W||. In dit werk beschouwen we de evenwichtsnorm als een schadelijk artefact van het trainingsproces en pakken we dit aan door leerbare vermenigvuldigers (multipliers) te introduceren om de optimale schaal te leren. Ten eerste voegen we een leerbare scalaire vermenigvuldiger aan W toe en bevestigen we dat de WD-ruis-evenwichtsnorm suboptimaal is: de geleerde schaal past zich aan de data aan en verbetert de prestaties. Vervolgens beargumenteren we dat individuele rij- en kolomnormen op een vergelijkbare manier worden beperkt, en bevrijden we hun schaal door het introduceren van leerbare per-rij en per-kolom vermenigvuldigers. Onze methode kan worden gezien als een leerbare, expressievere generalisatie van muP-vermenigvuldigers. Het presteert beter dan een goed afgestelde muP-basislijn, vermindert de rekenkosten van het afstemmen van vermenigvuldigers, en brengt praktische vragen aan het licht, zoals symmetrieën in de voorwaartse pass (forward-pass symmetries) en de schaalvergroting (width-scaling) van de geleerde vermenigvuldigers. Ten slotte valideren we leerbare vermenigvuldigers met zowel Adam- als Muon-optimalisatie, waarbij het een verbetering laat zien in downstream-evaluaties die overeenkomt met de verbetering van de overstap van Adam naar Muon.
Nachtelijke kleurconstantie blijft een uitdagend probleem in de computationele fotografie vanwege ruis bij weinig licht en complexe belichtingsomstandigheden. Wij presenteren RL-AWB, een nieuw raamwerk dat statistische methoden combineert met deep reinforcement learning voor nachtelijke witbalans. Onze methode start met een statistisch algoritme afgestemd op nachtscènes, dat salientie-gebaseerde grijze pixeldetectie integreert met nieuwe belichtingsschatting. Hierop voortbouwend ontwikkelen we de eerste deep reinforcement learning-aanpak voor kleurconstantie die het statistische algoritme als kern gebruikt, waarbij professionele AWB-afsturexperts worden nagebootst door parameters dynamisch per beeld te optimaliseren. Om cross-sensor evaluatie mogelijk te maken, introduceren we de eerste multi-sensor nachtelijke dataset. Experimentele resultaten tonen aan dat onze methode superieure generalisatiecapaciteit bereikt bij zowel beelden met weinig licht als goede belichting. Projectpagina: https://ntuneillee.github.io/research/rl-awb/
Grote taalmodellen (LLM's) vertonen sterke prestaties in uiteenlopende domeinen. Het bereiken van robuuste prestaties over al deze domeinen met één algemeen model vereist echter doorgaans een schaalgrootte die onbetaalbaar duur is om te trainen en in te zetten. Aan de andere kant zijn kleinere, domeinspecifieke modellen weliswaar veel efficiënter, maar zij hebben moeite om te generaliseren buiten hun trainingsdistributie. Om dit dilemma op te lossen, stellen wij FusionRoute voor: een robuust en effectief kader voor multi-LLM-samenwerking op tokenniveau, waarin een lichtgewicht router gelijktijdig (i) de meest geschikte expert selecteert bij elke decodestap en (ii) een complementaire logit bijdraagt die de volgende-tokenverdeling van de geselecteerde expert verfijnt of corrigeert via logit-optelling. In tegenstelling tot bestaande samenwerkingsmethoden op tokenniveau die uitsluitend vertrouwen op vaste expertoutputs, tonen wij via een theoretische analyse aan dat zuivere expert-routing fundamenteel beperkt is: tenzij sterke globale dekkingaannames gelden, kan het over het algemeen niet het optimale decodeerbeleid realiseren. Door expertselectie aan te vullen met een trainbare complementaire generator, breidt FusionRoute de effectieve beleidsklasse uit en maakt het herstel van optimale waardefuncties mogelijk onder milde voorwaarden. Empirisch gezien presteert FusionRoute, getest op zowel de Llama-3- als Gemma-2-families en diverse benchmarks voor wiskundig redeneren, codegeneratie en instructie-opvolging, beter dan samenwerking op sequentie- en tokenniveau, modelmerging en direct fine-tuning, terwijl het competitief blijft met domeinexperts in hun respectievelijke taken.
De diversiteit, hoeveelheid en kwaliteit van manipulatiedata zijn cruciaal voor het trainen van effectieve robotbeleidsmodellen. Vanwege hardware- en fysieke opstellingbeperkingen blijft het echter moeilijk om grootschalige real-world manipulatiedata te verzamelen in diverse omgevingen. Recent onderzoek gebruikt tekstprompt-geconditioneerde beelddiffusiemodellen om manipulatiedata aan te vullen door de achtergronden en objecten op het werkoppervlak in visuele observaties aan te passen. Deze methoden houden echter vaak geen rekening met de praktische behoefte aan multi-view en temporeel coherente observaties die vereist zijn door state-of-the-art beleidsmodellen. Bovendien kunnen tekstprompts alleen niet betrouwbaar de scène-opstelling specificeren. Om het diffusiemodel expliciete visuele begeleiding te bieden, introduceren we visuele identiteitsprompting, waarbij voorbeeldbeelden als conditioneringsinput worden gebruikt om de gewenste scène-opstelling te sturen. Hiertoe bouwen we ook een schaalbare pijplijn om een visuele identiteitspool uit grote roboticadatasets samen te stellen. Het gebruik van onze aangevulde manipulatiedata voor het trainen van downstream visie-taal-actie- en visuomotorische beleidsmodellen levert consistente prestatieverbeteringen op in zowel simulatie- als real-world robotomgevingen.
Grote Taalmodellen (LLM's) voor complex redeneren worden vaak belemmerd door hoge computationele kosten en latentie, terwijl resource-efficiënte Kleine Taalmodellen (KLM's) doorgaans de nodige redeneercapaciteit ontberen. Bestaande collaboratieve benaderingen, zoals cascadering of routering, werken op een grove granulariteit door volledige queries af te wikkelen naar LLM's, wat leidt tot aanzienlijk computationeel verlies wanneer de KLM het merendeel van de redeneerstappen aankan. Om dit aan te pakken, stellen wij RelayLLM voor, een nieuw kader voor efficiënt redeneren via collaboratieve decoding op tokenniveau. In tegenstelling tot routers stelt RelayLLM de KLM in staat om op te treden als een actieve controller die de LLM dynamisch oproept alleen voor kritieke tokens via een speciaal commando, waarbij het generatieproces effectief wordt "doorgegeven". Wij introduceren een tweefasig trainingskader, inclusief een opwarmfase en Group Relative Policy Optimization (GRPO), om het model te leren een balans te vinden tussen onafhankelijkheid en strategisch hulp zoeken. Empirische resultaten over zes benchmarks tonen aan dat RelayLLM een gemiddelde nauwkeurigheid van 49,52% bereikt, waardoor de prestatiekloof tussen de twee modellen effectief wordt overbrugd. Opmerkelijk is dat dit wordt bereikt door de LLM slechts aan te roepen voor 1,07% van de gegenereerde tokens, wat een kostreductie van 98,2% oplevert in vergelijking met prestatie-afgestemde willekeurige routers.
LLM-agents zijn opgekomen als krachtige systemen voor het aanpakken van multitake-taken door interne redenering en externe toolinteracties af te wisselen. Agentic Reinforcement Learning (versterkend leren met agenten) heeft recentelijk veel onderzoeksaandacht getrokken als een cruciaal paradigma voor nabewerking om deze capaciteiten verder te verfijnen. In dit artikel presenteren we AT²PO (Agentic Turn-based Policy Optimization via Tree Search), een uniform kader voor multitake agentic RL dat drie kernuitdagingen aanpakt: beperkte verkenningdiversiteit, sporadische krediettoewijzing en niet-uitgelijnde beleidsoptimalisatie. AT²PO introduceert een turn-gebaseerde boomstructuur die gezamenlijk Entropy-Guided Tree Expansion mogelijk maakt voor strategische verkenning en Turn-wise Credit Assignment voor fijnmazige beloningspropagatie vanuit sporadische uitkomsten. Hierop aanvullend stellen we Agentic Turn-based Policy Optimization voor, een turn-gebaseerd leerdoel dat beleidsupdates uitlijnt met de natuurlijke beslissingsgranulariteit van agentische interacties. ATPO staat orthogonaal op boomzoeken en kan moeiteloos worden geïntegreerd in elke multitake RL-pijplijn. Experimenten over zeven benchmarks tonen consistente verbeteringen ten opzichte van de state-of-the-art baseline met tot 1,84 procentpunt gemiddeld, waarbij ablatiestudies de effectiviteit van elke component valideren. Onze code is beschikbaar op https://github.com/zzfoutofspace/ATPO.
Chain-of-thought (CoT) redeneren is naar voren gekomen als een krachtig hulpmiddel voor multimodale grote-taalmodellen bij videobegriptaken. De noodzaak en voordelen ervan ten opzichte van direct antwoorden zijn echter nog onvoldoende onderzocht. In dit artikel tonen we eerst aan dat voor met RL getrainde videomodellen direct antwoorden vaak even goed of zelfs beter presteert dan CoT, ondanks dat CoT stapsgewijze analyses produceert tegen hogere computationele kosten. Gemotiveerd door deze bevinding stellen we VideoAuto-R1 voor, een videobegripkader dat een 'redeneer-wanneer-nodig'-strategie hanteert. Tijdens de training volgt onze aanpak een 'Eens Denken, Tweemaal Antwoorden'-paradigma: het model genereert eerst een initieel antwoord, voert vervolgens redenering uit en produceert ten slotte een herzien antwoord. Beide antwoorden worden gesuperviseerd via verifieerbare beloningen. Tijdens inferentie gebruikt het model de betrouwbaarheidsscore van het initiële antwoord om te bepalen of moet worden overgegaan tot redenering. Op videovraag-antwoord- en groundingbenchmarks behaalt VideoAuto-R1 state-of-the-art nauwkeurigheid met aanzienlijk verbeterde efficiëntie, waarbij de gemiddelde responslengte met ~3,3x wordt verminderd, bijvoorbeeld van 149 naar slechts 44 tokens. Bovendien observeren we een lage activeringsfrequentie van de denkmodus bij perceptiegerichte taken, maar een hogere frequentie bij reasoning-intensieve taken. Dit suggereert dat expliciete op taal gebaseerde redenering over het algemeen nuttig is, maar niet altijd nodig.
Vision-language models (VLMs) behalen opmerkelijke prestaties, maar blijven kwetsbaar voor adversariële aanvallen. Entropie, een maatstaf voor modelonzekerheid, vertoont een sterke correlatie met de betrouwbaarheid van VLMs. Bestaande op entropie gebaseerde aanvallen maximaliseren de onzekerheid bij alle decoderingsstappen, in de impliciete veronderstelling dat elke token evenveel bijdraagt aan generatie-instabiliteit. Wij tonen daarentegen aan dat een kleine fractie (ongeveer 20%) van hoog-entropie tokens – kritieke beslissingspunten in autoregressieve generatie – de uitvoertrajectoren onevenredig sterk bepaalt. Door adversariële perturbaties op deze posities te concentreren, bereiken we een semantische degradatie vergelijkbaar met globale methoden, maar met aanzienlijk kleinere budgets. Belangrijker nog: bij meerdere representatieve VLMs zetten dergelijke selectieve aanvallen 35-49% van de goedaardige uitvoeren om in schadelijke, wat een kritieker veiligheidsrisico blootlegt. Opmerkelijk is dat deze kwetsbare hoog-entropie vertakkingen terugkeren bij architectonisch diverse VLMs, wat een haalbare transferabiliteit mogelijk maakt (17-26% schadelijke conversie bij onbekende doelen). Geïnspireerd door deze bevindingen stellen wij Entropy-bank Guided Adversarial attacks (EGA) voor, dat competitieve aanvalssuccespercentages (93-95%) combineert met hoge schadelijke conversie, waardoor nieuwe zwakheden in huidige VLM-veiligheidsmechanismen worden blootgelegd.
Video-wereldmodellen streven ernaar dynamische, realistische omgevingen te simuleren, maar bestaande methoden slagen er niet in om geünificeerde en precieze controle te bieden over camera- en multi-objectbeweging, omdat video's inherent dynamica in het geprojecteerde 2D-beeldvlak afspelen. Om deze kloof te overbruggen, introduceren we VerseCrafter, een 4D-bewust videowereldmodel dat expliciete en coherente controle mogelijk maakt over zowel camera- als objectdynamica binnen een geünificeerde 4D-geometrische wereldtoestand. Onze aanpak is gecentreerd rond een nieuwe 4D Geometric Control-representatie, die de wereldtoestand codeert via een statische point cloud voor de achtergrond en 3D Gauss-trajecten per object. Deze representatie vangt niet alleen het pad van een object, maar ook diens probabilistische 3D-occupatie over tijd, en biedt zo een flexibel, categorie-agnostisch alternatief voor rigide bounding boxes of parametrische modellen. Deze 4D-controles worden gerenderd als conditioneringssignalen voor een voorgetraind videodiffusiemodel, waardoor het genereren van hoogwaardige, viewpoint-consistente video's die precies aan de gespecificeerde dynamica voldoen, mogelijk wordt. Een andere grote uitdaging ligt helaas in de schaarste van grootschalige trainingsdata met expliciete 4D-annotaties. Dit lossen we op door een automatische data-engine te ontwikkelen die de benodigde 4D-controles uit in-the-wild video's extraheert, waardoor we ons model kunnen trainen op een enorme en diverse dataset.
Men neemt algemeen aan dat Mixture of Experts-modellen domeinspecialisatie bereiken via sparse routing. In dit werk betwijfelen we deze aanname door COMMITTEEAUDIT te introduceren, een *post hoc* raamwerk dat routeringsgedrag analyseert op het niveau van expertgroepen in plaats van individuele experts. Over drie representatieve modellen en de MMLU-benchmark heen, ontdekken we een domein-invariant *Standing Committee*. Dit is een compacte coalitie van gerouteerde experts die consequent de meerderheid van de routeringsmassa vastlegt across domeinen, lagen en routeringsbudgetten, zelfs wanneer architecturen reeds gedeelde experts bevatten. Kwalitatieve analyse toont verder aan dat *Standing Committees* de redeneerstructuur en syntaxis verankeren, terwijl perifere experts domeinspecifieke kennis afhandelen. Deze bevindingen onthullen een sterke structurele bias richting gecentraliseerde berekening, wat suggereert dat specialisatie in Mixture of Experts-modellen veel minder wijdverbreid is dan algemeen wordt aangenomen. Deze inherente bias geeft ook aan dat huidige trainingsdoelstellingen, zoals *load-balancing losses* die uniforme expertutilisatie afdwingen, mogelijk ingaan tegen het natuurlijke optimalisatiepad van het model, waardoor de trainings efficiëntie en prestaties worden beperkt.
LLM-as-a-Judge heeft een revolutie teweeggebracht in AI-evaluatie door grootschalige taalmodellen in te zetten voor schaalbare beoordelingen. Naarmate de te evalueren systemen echter steeds complexer, gespecialiseerder en meerstappig worden, wordt de betrouwbaarheid van LLM-as-a-Judge beperkt door inherente vooroordelen, oppervlakkige eenmalige redenering en het onvermogen om beoordelingen te verifiëren aan de hand van waarnemingen uit de echte wereld. Dit heeft de overgang naar Agent-as-a-Judge versneld, waarbij agent-gebaseerde beoordelaars planning, tool-ondersteunde verificatie, multi-agent samenwerking en persistent geheugen inzetten om robuustere, verifieerbare en genuanceerdere evaluaties mogelijk te maken. Ondanks de snelle opkomst van agent-gebaseerde evaluatiesystemen ontbreekt het het veld aan een uniform kader om dit veranderende landschap te navigeren. Om deze kloof te overbruggen, presenteren wij de eerste uitgebreide survey die deze evolutie in kaart brengt. Concreet identificeren we kern-dimensies die deze paradigmaverschuiving kenmerken en stellen we een ontwikkelings-taxonomie op. We structuren de kernmethodologieën en bespreken toepassingen in zowel algemene als professionele domeinen. Verder analyseren we grensverleggende uitdagingen en identificeren we veelbelovende onderzoeksrichtingen, om uiteindelijk een heldere routekaart te bieden voor de volgende generatie van agent-gebaseerde evaluatie.
Camera-gestuurde generatieve video-herweergavemethoden, zoals ReCamMaster, hebben opmerkelijke vooruitgang geboekt. Desondanks worstelen deze methoden, ondanks hun succes in een enkele camerastand, vaak met het behouden van consistentie in multi-viewscenario's. Het waarborgen van ruimtelijk-temporele coherentie in gegenereerde regio's blijft een uitdaging door de inherente stochasticiteit van generatieve modellen. Om dit aan te pakken, introduceren wij PlenopticDreamer, een raamwerk dat generatieve hallucinaties synchroniseert om een ruimtelijk-tijdelijk geheugen te behouden. De kernidee is het trainen van een multi-in-single-out video-geconditioneerd model op een autoregressieve manier, ondersteund door een camera-gestuurde video-retrievalstrategie die adaptief salientie video's uit vorige generaties selecteert als conditionele invoer. Daarnaast omvat onze training progressieve contextschaling om convergentie te verbeteren, zelf-conditionering om robuustheid tegen langetermijnvisuele degradatie door foutaccumulatie te vergroten, en een lange-video-conditioneringsmechanisme om uitgebreide videogeneratie te ondersteunen. Uitgebreide experimenten op de Basic- en Agibot-benchmarks tonen aan dat PlenopticDreamer state-of-the-art video-herweergave bereikt, met superieure viewsynchronisatie, hoogwaardige beeldkwaliteit, accurate camerabesturing en diverse viewtransformaties (bijv. derde-persoons naar derde-persoons, en hoofdview naar grijperview in robotmanipulatie). Projectpagina: https://research.nvidia.com/labs/dir/plenopticdreamer/
Belichaamde vraagbeantwoording (EQA) in 3D-omgevingen vereist vaak het verzamelen van context die verspreid is over meerdere gezichtspunten en gedeeltelijk verborgen is. De meeste recente visie-taalmodellen (VLM's) zijn echter beperkt tot een vaste en eindige reeks invoerweergaven, wat hun vermogen beperkt om vraagrelevante context tijdens inferentie te verkrijgen en complex ruimtelijk redeneren belemmert. Wij stellen Chain-of-View (CoV) prompting voor, een trainingsvrij, testtijd-redeneerkader dat een VLM transformeert in een actieve gezichtspuntredeneerder via een grof-naar-fijn verkenningproces. CoV gebruikt eerst een View Selection-agent om redundante frames te filteren en vraaguitgelijnde ankerweergaven te identificeren. Vervolgens voert het een fijnmazige view-adjustering uit door iteratief redeneren af te wisselen met discrete camera-acties, waarbij nieuwe observaties worden verkregen uit de onderliggende 3D-scèneweergave totdat voldoende context is verzameld of een stapbudget is bereikt. We evalueren CoV op OpenEQA over vier mainstream VLM's en behalen een gemiddelde verbetering van +11,56% in LLM-Match, met een maximale winst van +13,62% op Qwen3-VL-Flash. CoV vertoont verder schaling tijdens testtijd: het verhogen van het minimale actiebudget levert een extra gemiddelde verbetering van +2,51% op, met een piek van +3,73% op Gemini-2.5-Flash. Op ScanQA en SQA3D levert CoV sterke prestaties (bijv. 116 CIDEr / 31,9 EM@1 op ScanQA en 51,1 EM@1 op SQA3D). Over het algemeen suggereren deze resultaten dat vraaguitgelijnde view-selectie gecombineerd met open-view zoeken een effectieve, model-agnostische strategie is voor het verbeteren van ruimtelijk redeneren in 3D EQA zonder aanvullende training.
Chain-of-Thought (CoT)-redenering verbetert de oplossing van meerstaps wiskundige problemen in grote taalmodellen, maar blijft kwetsbaar voor exposure bias en foutaccumulatie, waarbij vroege fouten onomkeerbaar doorheen het autoregressieve decoderingsproces voortplanten. In dit werk stellen we DiffCoT voor, een CoT-raamwerk in diffusiestijl dat CoT-redenering herformuleert als een iteratief denoisingsproces. DiffCoT integreert diffusieprincipes op het niveau van de redeneerstappen via een sliding-window-mechanisme, waardoor een verenigde generatie en retrospectieve correctie van tussenstappen mogelijk is, terwijl token-level autoregressie behouden blijft. Om causale consistentie te waarborgen, introduceren we verder een causaal diffusieruischema dat de temporele structuur van redeneerketens respecteert. Uitgebreide experimenten op drie meerstaps CoT-redeneerbenchmarks, uitgevoerd op diverse modelarchitecturen, tonen aan dat DiffCoT consistent beter presteert dan bestaande CoT-voorkeursoptimalisatiemethoden, wat resulteert in een verbeterde robuustheid en foutcorrectiecapaciteit in CoT-redenering.
Document Question Answering (DocQA) richt zich op het beantwoorden van vragen gebaseerd op gegeven documenten, maar bestaande DocQA-agenten missen effectief gereedschapsgebruik en vertrouwen grotendeels op gesloten modellen. In dit werk introduceren we DocDancer, een end-to-end getrainde open-source Doc-agent. Wij formuleren DocQA als een informatiezoekprobleem en stellen een gereedschapsgedreven agentframework voor dat documentverkenning en -begrip expliciet modelleert. Om een end-to-end training van dergelijke agenten mogelijk te maken, introduceren we een Exploration-then-Synthesis data-synthesepijplijn die het gebrek aan hoogwaardige trainingsdata voor DocQA aanpakt. Training op de gesynthetiseerde data toont de effectiviteit van de getrainde modellen op twee benchmarks voor begrip van lange-contextdocumenten, MMLongBench-Doc en DocBench. Verdere analyse levert waardevolle inzichten op voor het ontwerp van agentgereedschappen en synthetische data.
In-context beeldgeneratie en -bewerking (ICGE) stelt gebruikers in staat visuele concepten te specificeren via vervlochten beeld-tekstprompts, wat een nauwkeurig begrip en getrouwe uitvoering van de gebruikersintentie vereist. Hoewel recente unificatie multimodale modellen veelbelovende begripscapaciteiten vertonen, slagen deze sterke punten er vaak niet in effectief door te stromen naar beeldgeneratie. Wij introduceren Re-Align, een uniform raamwerk dat de kloof tussen begrip en generatie overbrugt via gestructureerde, op redeneren gebaseerde alignering. De kern hiervan wordt gevormd door In-Context Chain-of-Thought (IC-CoT), een gestructureerd redeneerparadigma dat semantische begeleiding en referentie-associatie ontkoppelt, waardoor een duidelijke tekstuele doelstelling ontstaat en verwarring tussen referentiebeelden wordt verminderd. Bovendien introduceert Re-Align een effectief RL-trainingsschema dat gebruikmaakt van een surrogaatbeloning om de alignering tussen gestructureerde redeneertekst en het gegenereerde beeld te meten, waardoor de algehele prestaties van het model op ICGE-taken verbeteren. Uitgebreide experimenten bevestigen dat Re-Align superieure prestaties levert vergeleken met concurrerende methoden van vergelijkbare modelschaal en resources, zowel voor in-context beeldgeneratie als bewerkingstaken.
Generatieve modellen worden steeds vaker gebruikt in 3D-visie om nieuwe vormen te synthetiseren, maar het blijft onduidelijk of hun generatie berust op het memoriseren van trainingsvormen. Inzicht in hun memorisatie zou kunnen helpen om het lekken van trainingsdata te voorkomen en de diversiteit van gegenereerde resultaten te verbeteren. In dit artikel ontwerpen we een evaluatieraamwerk om memorisatie in 3D-generatieve modellen te kwantificeren en bestuderen we de invloed van verschillende data- en modelontwerpen op memorisatie. We passen eerst ons raamwerk toe om memorisatie in bestaande methoden te kwantificeren. Vervolgens ontdekken we via gecontroleerde experimenten met een latent vector-set (Vecset) diffusiemodel dat memorisatie aan de data-kant afhangt van de datamodaliteit, en toeneemt met data-diversiteit en fijnmazigere conditionering; aan de model-kant bereikt het een piek bij een matige guidance-schaal en kan het worden verminderd door langere Vecsets en eenvoudige rotatie-augmentatie. Samen bieden ons raamwerk en onze analyse een empirisch inzicht in memorisatie in 3D-generatieve modellen en suggereren ze eenvoudige maar effectieve strategieën om deze te verminderen zonder de generatiekwaliteit aan te tasten. Onze code is beschikbaar op https://github.com/zlab-princeton/3d_mem.
Zachte grenzen, zoals dunne haren, worden vaak waargenomen in natuurlijke en computerg gegenereerde beelden, maar vormen een blijvende uitdaging voor 3D-visie vanwege de ambigue vermenging van voorgrond- en achtergrondsignalen. Dit artikel introduceert Guardians of the Hair (HairGuard), een raamwerk ontworpen om fijnmazige details van zachte grenzen te herstellen in 3D-visietaken. Concreet stellen we eerst een nieuwe data-curatiepijplijn voor die gebruikmaakt van image matting-datasets voor training, en ontwerpen we een depth fixer-netwerk om automatisch zachte grenzen te identificeren. Met behulp van een gegateerde residu-module verfijnt de depth fixer de diepte precies rond zachte grenzen, waarbij de globale dieptekwaliteit behouden blijft, wat een plug-and-play-integratie met state-of-the-art dieptemodellen mogelijk maakt. Voor viewsynthese voeren we op diepte gebaseerde forward warping uit om hoogwaardige texturen te behouden, gevolgd door een generatieve scene painter die ontblote gebieden invult en redundante achtergrondartefacten binnen zachte grenzen verwijdert. Ten slotte combineert een color fuser de gewarpte en ingevulde resultaten adaptief om nieuwe aanzichten te produceren met consistente geometrie en fijnmazige details. Uitgebreide experimenten tonen aan dat HairGuard state-of-the-art prestaties bereikt op het gebied van monocular depth estimation, stereo beeld/video-conversie en novel view synthesis, met significante verbeteringen in regio's met zachte grenzen.
Het redeneervermogen van grote taalmmodellen (LLM's) kan worden vrijgegeven met reinforcement learning (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). Het succes van bestaande RL-pogingen in LLM's is meestal afhankelijk van hoogwaardige samples van duizenden of meer. In dit artikel dagen we de fundamentele aannames over de gegevensvereisten bij RL voor LLM's uit door de opmerkelijke effectiviteit van one-shot learning aan te tonen. Concreet introduceren we *polymath learning*, een raamwerk voor het ontwerpen van één enkele trainingssample die een multidisciplinaire impact heeft. We presenteren drie belangrijke bevindingen: (1) Een enkele, strategisch geselecteerde sample voor wiskundig redeneren kan aanzienlijke prestatieverbeteringen teweegbrengen op meerdere domeinen, waaronder natuurkunde, scheikunde en biologie, met RL; (2) De voor redeneren cruciale wiskundevaardigheden wijzen op de kenmerken van de optimale polymath-sample; en (3) Een ontworpen synthetische sample die multidisciplinaire elementen integreert, presteert beter dan training met afzonderlijke samples die van nature voorkomen. Onze aanlei
Wij presenteren ProFuse, een efficiënt contextbewust raamwerk voor open-vocabulary 3D-scènebegrip met 3D Gaussian Splatting (3DGS). De pijplijn verbetert de consistentie tussen verschillende aanzichten en de cohesie binnen maskers binnen een directe registratie-opzet, voegt minimale overhead toe en vereist geen render-gestuurde finetuning. In plaats van te vertrouwen op een vooraf getrainde 3DGS-scène, introduceren we een dichte correspondentie-gestuurde pre-registratiefase die Gaussians initialiseert met nauwkeurige geometrie, terwijl tegelijkertijd 3D Contextvoorstellen worden geconstrueerd via clustering tussen aanzichten. Elk voorstel draagt een globaal kenmerk verkregen door gewogen aggregatie van lidmaatschaps-embeddingen, en dit kenmerk wordt gefuseerd op de Gaussians tijdens de directe registratie om taalcoherentie per primitief over verschillende aanzichten te behouden. Omdat de associaties van tevoren zijn vastgesteld, vereist semantische fusie geen extra optimalisatie buiten de standaardreconstructie, en behoudt het model geometrische verfijning zonder verdichting. ProFuse bereikt sterk open-vocabulary 3DGS-begrip en voltooit de semantische koppeling in ongeveer vijf minuten per scène, wat twee keer zo snel is als de state-of-the-art.
Autoregressieve (AR) modellen hebben opmerkelijke successen geboekt in beeld-synthese, maar hun sequentiële aard legt aanzienlijke latentiebeperkingen op. Speculatieve Decodering biedt een veelbelovende weg naar versnelling, maar bestaande methoden worden beperkt door token-level ambiguïteit en een gebrek aan ruimtelijk bewustzijn. In dit werk introduceren we Multi-Scale Local Speculative Decoding (MuLo-SD), een nieuw raamwerk dat multi-resolutie drafting combineert met ruimtelijk geïnformeerde verificatie om AR-beeldgeneratie te versnellen. Onze methode benut een low-resolutie drafter in combinatie met geleerde up-samplers om kandidaat-beeldtokens voor te stellen, die vervolgens parallel worden geverifieerd door een high-resolutie doelmodel. Cruciaal is dat we een lokaal afwijzings- en herbemonsteringsmechanisme integreren, waardoor efficiënte correctie van draftfouten mogelijk wordt door te focussen op ruimtelijke nabijheden in plaats van opnieuw bemonsteren volgens een raster-scan na de eerste afwijzing. We tonen aan dat MuLo-SD aanzienlijke snelheidswinsten bereikt – tot 1,7x – en daarbij sterke speculatieve decodering-baselines zoals EAGLE-2 en LANTERN overtreft qua versnelling, terwijl vergelijkbare semantische uitlijning en perceptuele kwaliteit behouden blijven. Deze resultaten zijn gevalideerd met GenEval, DPG-Bench en FID/HPSv2 op de MS-COCO 5k validatieset. Uitgebreide ablatiestudies belichten de impact van up-sampling ontwerp, kans-pooling, en lokale afwijzing en herbemonstering met nabijheidsuitbreiding. Onze aanleg zet een nieuwe standaard voor speculatieve decodering in beeld-synthese en overbrugt de kloof tussen efficiëntie en getrouwheid.
Recente vooruitgang in grote-taalmodel (LLM) agenten heeft zich grotendeels gericht op het inbouwen van zelfverbeteringsmechanismen in de agent of op het zoeken over vele gelijktijdige varianten. Hoewel deze benaderingen de algemene scores kunnen verhogen, leveren ze vaak onstabiele en moeilijk te controleren verbeteringstrajecten op, waardoor het lastig is om non-regressie te garanderen of om fouten over versies heen te kunnen analyseren. Wij herformuleren agentverbetering als release engineering: agenten worden behandeld als uit te leveren artefacten, en verbetering wordt geëxternaliseerd in een op regressie gerichte releasepijplijn. Wij introduceren AgentDevel, een release-engineeringpijplijn die iteratief de huidige agent uitvoert, implementatieblinde, symptoomniveau-kwaliteitssignalen produceert uit uitvoeringstraces, een enkele releasekandidaat (RC) synthetiseert via uitvoerbare diagnose, en deze promoveert onder flip-gerichte gating. AgentDevel kent drie kernontwerpen: (i) een implementatieblinde LLM-criticus die foutverschijningen karakteriseert zonder toegang tot de interne werking van de agent, (ii) op scripts gebaseerde uitvoerbare diagnose die dominante symptoompatronen aggregeert en controleerbare technische specificaties produceert, en (iii) flip-gerichte gating die regressies van geslaagd naar mislukt, en fixes van mislukt naar geslaagd als eersteklas bewijs prioriteert. In tegenstelling tot populatiegebaseerd zoeken of zelfverfijning binnen de agent, handhaaft AgentDevel een enkele canonieke versielijn en benadrukt het non-regressie als primair doel. Experimenten op uitvoeringsintensieve benchmarks tonen aan dat AgentDevel stabiele verbeteringen oplevert met aanzienlijk minder regressies, terwijl het reproduceerbare, controleerbare artefacten produceert. Over het geheel genomen biedt AgentDevel een praktische ontwikkelingsdiscipline voor het bouwen, debuggen en releasen van LLM-agenten als softwareontwikkeling.
Gedragsklonering beleeft een heropleving in populariteit, aangezien het opschalen van zowel model- als datagroottes een sterke startbasis blijkt te bieden voor veel interessante taken. In dit werk introduceren we een open recept voor het trainen van een foundation-model voor het spelen van videogames, dat ontworpen is voor realtime inferentie op een consumenten-GPU. We publiceren alle data (meer dan 8300 uur aan hoogwaardige menselijke gameplay), trainings- en inferentiecode, en voorgetrainde checkpoints onder een open licentie. We tonen aan dat ons beste model in staat is om diverse 3D-videogames te spelen op een niveau dat competitief is met menselijk spel. We gebruiken dit recept om systematisch de schaalwetten van gedragsklonering te onderzoeken, om te begrijpen hoe de prestaties en causale redenering van het model variëren met de schaal van model en data. We tonen eerst aan in een eenvoudig toy-probleem dat, voor sommige soorten causale redenering, het vergroten van zowel de hoeveelheid trainingsdata als de diepte van het netwerk resulteert in het aanleren van een meer causaal beleid door het model. Vervolgens bestuderen we systematisch hoe causaliteit varieert met het aantal parameters (en diepte) en trainingsstappen in opgeschaalde modellen van tot 1,2 miljard parameters, en we vinden vergelijkbare schaalresultaten als wat we observeren in het toy-probleem.
Recente vooruitgang in videodiffusiemodellen is verschoven naar transformer-gebaseerde architecturen, waarmee state-of-the-art videogeneratie wordt bereikt, maar ten koste van kwadratische aandachtcomplexiteit, wat de schaalbaarheid voor langere sequenties ernstig beperkt. Wij introduceren ReHyAt, een Recurrent Hybride Aandachtsmechanisme dat de nauwkeurigheid van softmax-aandacht combineert met de efficiëntie van lineaire aandacht, waardoor een chunk-gewijze recurrent herformulering en constant geheugengebruik mogelijk wordt. In tegenstelling tot het gelijktijdige, uitsluitend lineaire SANA Video, maakt de hybride ontwerp van ReHyAt efficiënte distillatie mogelijk van bestaande softmax-gebaseerde modellen, waardoor de trainingskosten met twee orden van grootte wordt teruggebracht tot ~160 GPU-uren, terwijl de kwaliteit competitief blijft. Onze lichtgewicht distillatie- en finetuning-pijplijn biedt een recept dat kan worden toegepast op toekomstige state-of-the-art bidirectionele softmax-gebaseerde modellen. Experimenten op VBench en VBench-2.0, evenals een onderzoek naar menselijke voorkeur, tonen aan dat ReHyAt state-of-the-art videokwaliteit bereikt terwijl de aandachtkosten worden teruggebracht van kwadratisch naar lineair, waardoor praktische schaalbaarheid voor videogeneratie van lange duur en on-device wordt ontsloten. De projectpagina is beschikbaar op https://qualcomm-ai-research.github.io/rehyat.
Dit artikel onderzoekt de integratie van het Learning Using Privileged Information (LUPI)-paradigma in objectdetectie om gebruik te maken van fijnmazige, beschrijvende informatie die tijdens de training beschikbaar is, maar niet tijdens de inferentie. We introduceren een algemene, model-agnostische methodologie voor het injecteren van geprivilegieerde informatie—zoals bounding box-maskers, saliency maps en dieptesignalen—in op deep learning gebaseerde objectdetectoren via een teacher-studentarchitectuur. Er worden experimenten uitgevoerd met vijf state-of-the-art objectdetectiemodellen en meerdere publieke benchmarks, waaronder op UAV gebaseerde datasets voor zwerfafvaldetectie en Pascal VOC 2012, om de impact op nauwkeurigheid, generalisatie en computationele efficiëntie te beoordelen. Onze resultaten tonen aan dat met LUPI getrainde studentmodellen consistent superieur presteren aan hun baseline-tegenhangers, met significante verbeteringen in detectienauwkeurigheid zonder toename van inferentiecomplexiteit of modelgrootte. Prestatieverbeteringen zijn vooral merkbaar voor middelgrote en grote objecten, terwijl ablatiestudies aantonen dat een intermediaire weging van de teacher-ondersteuning een optimale balans biedt tussen leren van geprivilegieerde en standaard invoer. De bevindingen bevestigen dat het LUPI-raamwerk een effectieve en praktische strategie biedt voor het verbeteren van objectdetectiesystemen in zowel resource-beperkte als real-world omgevingen.
Nabewerking-alignment van diffusiemodellen steunt op vereenvoudigde signalen, zoals scalaire beloningen of binaire voorkeuren. Dit beperkt de afstemming met complexe menselijke expertise, die hiërarchisch en fijnmazig is. Om dit aan te pakken, construeren we eerst samen met domeinexperts een hiërarchische, fijnmazige evaluatiecriteria, die beeldkwaliteit ontleedt in meerdere positieve en negatieve attributen, georganiseerd in een boomstructuur. Voortbouwend hierop stellen we een tweefasen alignment-framework voor. Eerst injecteren we domeinkennis in een hulp-diffusiemodel via Supervised Fine-Tuning. Vervolgens introduceren we Complex Preference Optimization (CPO), dat DPO uitbreidt om het doeldiffusiemodel af te stemmen op onze niet-binaire, hiërarchische criteria. Concreet herformuleren we het alignment-probleem om gelijktijdig de waarschijnlijkheid van positieve attributen te maximaliseren en de waarschijnlijkheid van negatieve attributen te minimaliseren, ten opzichte van het hulp-diffusiemodel. We concretiseren onze aanpak in het domein van schilderkunstgeneratie en voeren CPO-training uit met een geannoteerde dataset van schilderijen met fijnmazige attributen gebaseerd op onze criteria. Uitgebreide experimenten tonen aan dat CPO de generatiekwaliteit en afstemming met expertise aanzienlijk verbetert, wat nieuwe mogelijkheden opent voor alignment met fijnmazige criteria.
Recent voorgestelde piramidale modellen ontbinden de conventionele voorwaartse en achterwaartse diffusieprocessen in meerdere fasen die werken op verschillende resoluties. Deze modellen verwerken invoer met hogere ruisniveaus op lagere resoluties, terwijl minder ruisachtige invoer op hogere resoluties wordt verwerkt. Deze hiërarchische aanpak vermindert de rekenkosten van inferentie in multi-step denoiseringsmodellen aanzienlijk. Echter, bestaande open-source piramidale videomodellen zijn vanaf nul getraind en presteren doorgaans minder goed dan state-of-the-art systemen wat betreft visuele geloofwaardigheid. In dit werk presenteren we een pijplijn die een vooraf getraind diffusiemodel omzet in een piramidaal model via goedkope finetuning, waarbij deze transformatie wordt bereikt zonder degradatie van de kwaliteit van de uitvoervideo's. Verder onderzoeken en vergelijken we verschillende strategieën voor stapdistillatie binnen piramidale modellen, met als doel de inferentie-efficiëntie verder te verbeteren. Onze resultaten zijn beschikbaar op https://qualcomm-ai-research.github.io/PyramidalWan.
Wij presenteren IMDD-1M, de eerste grootschalige industriële multimodale defectendataset met 1.000.000 uitgelijnde beeld-tekstparen, ontworpen om multimodaal leren voor productie en kwaliteitsinspectie vooruit te helpen. IMDD-1M bevat hoogwaardige real-world defecten uit meer dan 60 materiaalcategorieën en 400 defecttypen, elk voorzien van expertgeverifieerde annotaties en gedetailleerde tekstuele beschrijvingen over defectlocatie, ernst en contextuele kenmerken. Deze dataset maakt een breed scala aan toepassingen mogelijk, waaronder classificatie, segmentatie, retrieval, beeldbeschrijving en generatieve modellering. Gebaseerd op IMDD-1M trainen we een op diffusie gebaseerd vision-language foundation model vanaf nul, specifiek toegesneden op industriële scenario's. Het model fungeert als een generaliseerbare basis die efficiënt kan worden aangepast aan gespecialiseerde domeinen via lichtgewicht fine-tuning. Met minder dan 5% van de taakspecifieke data die gespecialiseerde expertmodellen vereisen, bereikt het vergelijkbare prestaties. Dit onderstreept het potentieel van data-efficiënte aanpassing van foundation modellen voor industriële inspectie en generatie, en baant de weg naar schaalbare, domein-adaptieve en kennisgebaseerde productie-intelligentie.
Dit werk introduceert VERSE, een methodologie voor het analyseren en verbeteren van Vision-Language Models toegepast op Visueel-rijke Documentinterpretatie door hun visuele embeddingruimte te verkennen. VERSE maakt de visualisatie van latente representaties mogelijk, wat de beoordeling van de modelhaalbaarheid ondersteunt. Het vergemakkelijkt ook de identificatie van problematische regio's en leidt de generatie van synthetische data om de prestaties in die clusters te verbeteren. We valideren de methodologie door training op de synthetische MERIT Dataset en evaluatie op de real-world tegenhanger, MERIT Secret. Resultaten tonen aan dat VERSE helpt om de visuele kenmerken bloot te leggen die geassocieerd zijn met foutgevoelige clusters, en dat hertraining met voorbeelden die deze kenmerken bevatten de F1-prestatie aanzienlijk verbetert zonder de generalisatie te verminderen. Verder demonstreren we dat on-premise modellen zoals Donut en Idefics2, wanneer geoptimaliseerd met VERSE, de prestaties evenaren of zelfs overtreffen van SaaS-oplossingen zoals GPT-4 en Pixtral.
Naarmate conversationele agents ervaring opdoen in samenwerking met gebruikers, is aanpassing aan gebruikersvoorkeuren essentieel voor het bevorderen van langdurige relaties en het verbeteren van de samenwerkingskwaliteit over tijd. Wij introduceren MultiSessionCollab, een benchmark die evalueert hoe goed agents gebruikersvoorkeuren kunnen leren en benutten om de samenwerkingskwaliteit gedurende meerdere sessies te verbeteren. Om agents te ontwikkelen die hierin slagen, presenteren wij langetermijnsamenwerkingsagents die zijn uitgerust met een geheugen dat gebruikersvoorkeuren persistent opslaat en verfijnt naarmate de interactie-ervaring toeneemt. Verder tonen wij aan dat leer-signalen afgeleid kunnen worden uit het gedrag van gebruikerssimulators in MultiSessionCollab om agents te trainen om uitgebreidere reflecties te genereren en hun geheugen effectiever bij te werken. Uitgebreide experimenten tonen aan dat het uitrusten van agents met geheugen de langetermijnsamenwerking verbetert, wat resulteert in hogere taaksuccespercentages, efficiëntere interacties en verminderde gebruikersinspanning. Ten slotte voeren wij een gebruikersstudie met mensen uit die aantoont dat geheugen helpt de gebruikerservaring in realistische settings te verbeteren.
Het finetunen van veiligheidsafgestemde grote taalmodellen (LLM's) kan hun veiligheidsafstemming aanzienlijk ondermijnen. Eerdere methoden vereisen veel veiligheidsvoorbeelden of kalibratiesets, wat niet alleen leidt tot aanzienlijke rekenkosten tijdens heraanpassing, maar ook tot een merkbare verslechtering van de modelprestaties. In tegenstelling tot deze veronderstelling tonen wij aan dat de veiligheidsafstemming volledig kan worden hersteld met slechts één enkel veiligheidsvoorbeeld, zonder verlies van functionaliteit en tegen minimale kosten. Opmerkelijk genoeg is dit herstel effectief, ongeacht het aantal schadelijke voorbeelden dat bij het finetunen wordt gebruikt of de grootte van het onderliggende model, en wordt convergentie bereikt binnen slechts enkele epochs. Bovendien onthullen wij de low-rankstructuur van de veiligheidsgradiënt, wat verklaart waarom een dergelijke efficiënte correctie mogelijk is. Wij valideren onze bevindingen met vijf veiligheidsafgestemde LLM's en meerdere datasets, wat de algemene toepasbaarheid van onze aanpak aantoont.
Wij presenteren de LEMAS-Dataset, die voor zover wij weten momenteel het grootste open-source meertalige spraakcorpus met woordniveau-timestamps is. Met een omvang van meer dan 150.000 uur verspreid over 10 belangrijke talen, is de LEMAS-Dataset geconstrueerd via een efficiënte dataverwerkingspijplijn die hoogwaardige data en annotaties garandeert. Om de effectiviteit van de LEMAS-Dataset in diverse generatieve paradigma's te valideren, trainen we twee benchmarkmodellen met verschillende architecturen en taakspecialisaties op deze dataset. LEMAS-TTS, gebouwd op een niet-autoregressief flow-matching raamwerk, benut de enorme schaal en linguïstische diversiteit van de dataset om robuuste zero-shot meertalige synthese te bereiken. Onze voorgestelde accent-adversariële training en CTC-verlies verminderen cross-linguale accentproblemen en verbeteren de synthesestabiliteit. Complementair hieraan hanteert LEMAS-Edit een autoregressieve decoder-only architectuur die spraakbewerking formuleert als een masked token infilling-taak. Door gebruik te maken van precieze woordniveau-aligneringen om trainingsmaskers te construeren en adaptieve decodeerstrategieën toe te passen, bereikt het naadloze spraakbewerking met vloeiende grenzen en natuurlijke overgangen. Experimentele resultaten tonen aan dat modellen getraind op de LEMAS-Dataset hoogwaardige synthese- en bewerkingsprestaties leveren, wat de kwaliteit van de dataset bevestigt. Wij voorzien dat dit rijkelijk met timestamps geannoteerde, fijnkorrelige meertalige corpus toekomstige vooruitgang in op prompts gebaseerde spraakgeneratiesystemen zal aanjagen.