Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Vision-language-action (VLA)-modellen hebben recentelijk sterk potentieel getoond in het mogelijk maken van robots om taal instructies te volgen en precieze acties uit te voeren. De meeste VLA's zijn echter gebouwd op vision-language-modellen die alleen zijn voorgetraind op 2D-data, wat een gebrek aan nauwkeurig ruimtelijk bewustzijn met zich meebrengt en hun vermogen om in de 3D-fysieke wereld te opereren belemmert. Bestaande oplossingen proberen expliciete 3D-sensorinputs zoals dieptekaarten of puntenwolken te integreren, maar deze benaderingen worden geconfronteerd met uitdagingen door sensornoise, hardwareheterogeniteit en onvolledige dieptedekking in bestaande datasets. Alternatieve methoden die 3D-aanwijzingen schatten uit 2D-beelden lijden ook onder de beperkte prestaties van diepteschatters. Wij stellen Spatial Forcing (SF) voor, een eenvoudige maar effectieve uitlijningsstrategie die VLA-modellen impliciet dwingt om ruimtelijk begripsvermogen te ontwikkelen zonder te vertrouwen op expliciete 3D-inputs of diepteschatters. SF lijn tussentijdse visuele embeddings van VLA's uit met geometrische representaties die worden geproduceerd door voorgetrainde 3D-foundationmodellen. Door uitlijning op tussentijdse lagen af te dwingen, leidt SF VLA's ertoe om rijkere ruimtelijke representaties te coderen die de actieprecisie verbeteren. Uitgebreide experimenten in simulatie- en real-world-omgevingen tonen aan dat SF state-of-the-art resultaten behaalt, en zowel 2D- als 3D-gebaseerde VLA's overtreft. SF versnelt de training verder met tot 3,8x en verbetert de data-efficiëntie over diverse robotica-taken. De projectpagina is te vinden op https://spatial-forcing.github.io/.
Pixel-ruimte generatieve modellen zijn vaak moeilijker te trainen en presteren over het algemeen minder goed in vergelijking met hun latent-ruimte tegenhangers, wat resulteert in een aanhoudende prestatie- en efficiëntiekloof. In dit artikel introduceren we een nieuw tweestaps trainingsraamwerk dat deze kloof overbrugt voor pixel-ruimte diffusie- en consistentiemodellen. In de eerste fase pre-trainen we encoders om betekenisvolle semantiek vast te leggen uit schone afbeeldingen, terwijl we deze uitlijnen met punten langs hetzelfde deterministische samplingtraject, dat punten evolueert van de prior naar de dataverdeling. In de tweede fase integreren we de encoder met een willekeurig geïnitialiseerde decoder en fine-tunen we het complete model end-to-end voor zowel diffusie- als consistentiemodellen. Ons trainingsraamwerk toont sterke empirische prestaties op de ImageNet-dataset. Specifiek bereikt ons diffusiemodel een FID van 2,04 op ImageNet-256 en 2,35 op ImageNet-512 met 75 aantal functie-evaluaties (NFE), wat eerdere pixel-ruimte methoden met een grote marge overtreft in zowel generatiekwaliteit als efficiëntie, terwijl het concurreert met toonaangevende VAE-gebaseerde modellen bij vergelijkbare trainingskosten. Bovendien behaalt ons consistentiemodel op ImageNet-256 een indrukwekkende FID van 8,82 in een enkele samplingstap, wat zijn latent-ruimte tegenhanger aanzienlijk overtreft. Voor zover wij weten, markeert dit de eerste succesvolle training van een consistentiemodel direct op hoogresolutie-afbeeldingen zonder te vertrouwen op vooraf getrainde VAE's of diffusiemodellen.
Grote taalmodellen (LLMs) hebben machinevertaling (MT) aanzienlijk vooruitgeholpen, maar hun effectiviteit bij het vertalen van webromans blijft onduidelijk. Bestaande benchmarks vertrouwen op oppervlakkige metrieken die de kenmerkende eigenschappen van dit genre niet vastleggen. Om deze tekortkomingen aan te pakken, introduceren we DITING, het eerste uitgebreide evaluatieraamwerk voor het vertalen van webromans, dat narratieve en culturele trouw beoordeelt over zes dimensies: idioomvertaling, lexicale ambiguïteit, terminologielokalisatie, tijdsconsistentie, zero-pronomenresolutie en culturele veiligheid, ondersteund door meer dan 18K expert-geannoteerde Chinees-Engelse zinsparen. We stellen verder AgentEval voor, een redeneringsgestuurd multi-agent evaluatieraamwerk dat expertberaad simuleert om vertaalkwaliteit te beoordelen die verder gaat dan lexicale overlap, en dat de hoogste correlatie met menselijke oordelen bereikt onder zeven geteste automatische metrieken. Om metrische vergelijking mogelijk te maken, ontwikkelen we MetricAlign, een meta-evaluatiedataset van 300 zinsparen geannoteerd met foutlabels en scalaire kwaliteitsscores. Een uitgebreide evaluatie van veertien open, gesloten en commerciële modellen onthult dat in China getrainde LLMs grotere buitenlandse tegenhangers overtreffen, en dat DeepSeek-V3 de meest trouwe en stilistisch coherente vertalingen levert. Ons werk vestigt een nieuw paradigma voor het verkennen van LLM-gebaseerde webromanvertaling en biedt publieke bronnen om toekomstig onderzoek te bevorderen.
Recente multimodale embeddingbenaderingen die gebruikmaken van multimodale grote taalmodellen (MLLMs) die zijn verfijnd met contrastief leren (CL), hebben veelbelovende resultaten laten zien, maar de onderliggende redenen voor hun superioriteit blijven onderbelicht. Dit werk betoogt dat een cruciaal voordeel van MLLM-gebaseerde benaderingen voortkomt uit impliciete cross-modale alignering die wordt bereikt tijdens generatieve voorafgaande training, waarbij de taaldecoder leert om multimodale signalen binnen een gedeelde representatieruimte te benutten voor het genereren van unimodale uitvoer. Door analyse van anisotropie en kernel-gelijkvormigheidsstructuur bevestigen we empirisch dat latente alignering ontstaat binnen MLLM-representaties, waardoor CL kan dienen als een lichtgewicht verfijningsfase. Gebruikmakend van dit inzicht, stellen we een Language-Centric Omnimodal Embedding-framework voor, genaamd LCO-Emb. Uitgebreide experimenten over diverse backbones en benchmarks demonstreren de effectiviteit ervan, waarbij state-of-the-art prestaties worden behaald over verschillende modaliteiten. Verder identificeren we een Generation-Representation Scaling Law (GRSL), die aantoont dat de representatieve capaciteiten die worden verkregen door contrastieve verfijning positief schalen met de generatieve capaciteiten van de MLLM. Dit suggereert dat het verbeteren van generatieve vaardigheden zich ontwikkelt als een effectief paradigma voor het verbeteren van de representatiekwaliteit. We bieden een theoretische verklaring van GRSL, die formeel de generatieve kwaliteit van de MLLM koppelt aan de bovengrens van de representatieprestaties, en valideren deze op een uitdagende, laag-resource visueel-documentretrievetaak, waarbij wordt aangetoond dat voortdurende generatieve voorafgaande training vóór CL het potentieel van de embeddingcapaciteiten van een model verder kan verbeteren. Codes, modellen en bronnen zijn beschikbaar op https://github.com/LCO-Embedding/LCO-Embedding.
Robot learning bevindt zich op een kantelpunt, aangedreven door snelle vooruitgang in machine learning en de toenemende beschikbaarheid van grootschalige robotica-data. Deze verschuiving van klassieke, modelgebaseerde methoden naar data-gedreven, leer-gebaseerde paradigma's ontgrendelt ongekende mogelijkheden in autonome systemen. Deze tutorial verkent het landschap van moderne robot learning, waarbij een route wordt uitgestippeld van de fundamentele principes van Reinforcement Learning en Behavioral Cloning naar generalistische, taal-geconditioneerde modellen die in staat zijn om diverse taken uit te voeren en zelfs verschillende robotconfiguraties te hanteren. Dit werk is bedoeld als een gids voor onderzoekers en praktijkmensen, en ons doel is om de lezer uit te rusten met het conceptuele begrip en de praktische tools die nodig zijn om bij te dragen aan ontwikkelingen in robot learning, met direct bruikbare voorbeelden geïmplementeerd in lerobot.
De vooruitgang van grote taalmodellen (LLMs) heeft een paradigmaverschuiving teweeggebracht van codegeneratie-assistentie naar autonome coderingsagenten, wat een nieuwe ontwikkelingsmethodologie mogelijk maakt die "Vibe Coding" wordt genoemd, waarbij ontwikkelaars AI-gegenereerde implementaties valideren door middel van resultaatobservatie in plaats van regel-voor-regel codebegrip. Ondanks het transformerende potentieel ervan, blijft de effectiviteit van dit opkomende paradigma onderbelicht, met empirisch bewijs dat onverwachte productiviteitsverliezen en fundamentele uitdagingen in mens-AI-samenwerking aan het licht brengt. Om deze kloof te overbruggen, biedt dit onderzoek de eerste uitgebreide en systematische review van Vibe Coding met grote taalmodellen, waarbij zowel theoretische fundamenten als praktische kaders worden gevestigd voor deze transformerende ontwikkelingsaanpak. Op basis van een systematische analyse van meer dan 1000 onderzoeksartikelen, onderzoeken we het hele Vibe Coding-ecosysteem, waarbij kritieke infrastructuurcomponenten worden bekeken, waaronder LLMs voor codering, LLM-gebaseerde coderingsagenten, ontwikkelingsomgevingen van coderingsagenten en feedbackmechanismen. We introduceren eerst Vibe Coding als een formele discipline door het te formaliseren via een Constrained Markov Decision Process dat de dynamische driehoeksrelatie tussen menselijke ontwikkelaars, softwareprojecten en coderingsagenten vastlegt. Op dit theoretische fundament voortbouwend, synthetiseren we vervolgens bestaande praktijken in vijf verschillende ontwikkelingsmodellen: Onbeperkte Automatisering, Iteratieve Conversatiecollaboratie, Planning-Gestuurd, Test-Gestuurd en Context-Versterkte Modellen, waardoor de eerste uitgebreide taxonomie in dit domein wordt geboden. Cruciaal is dat onze analyse aantoont dat succesvolle Vibe Coding niet alleen afhangt van de capaciteiten van de agent, maar ook van systematische contextengineering, goed ingeburgerde ontwikkelingsomgevingen en mens-agent samenwerkingsontwikkelingsmodellen.
Object detection is al lang gedomineerd door traditionele modellen gebaseerd op coördinaatregressie, zoals YOLO, DETR en Grounding DINO. Hoewel recente inspanningen hebben geprobeerd MLLM's in te zetten voor deze taak, worden ze geconfronteerd met uitdagingen zoals een lage recall rate, dubbele voorspellingen, coördinaatuitlijning, enz. In dit werk overbruggen we deze kloof en introduceren we Rex-Omni, een MLLM op 3B-schaal die state-of-the-art objectperceptieprestaties behaalt. Op benchmarks zoals COCO en LVIS bereikt Rex-Omni prestaties die vergelijkbaar zijn met of beter dan regressiegebaseerde modellen (bijv. DINO, Grounding DINO) in een zero-shot setting. Dit wordt mogelijk gemaakt door drie belangrijke ontwerpen: 1) Taakformulering: we gebruiken speciale tokens om gekwantiseerde coördinaten van 0 tot 999 weer te geven, waardoor de leercomplexiteit van het model wordt verminderd en de tokenefficiëntie voor coördinaatvoorspelling wordt verbeterd; 2) Data Engines: we construeren meerdere data engines om hoogwaardige grounding-, referring- en pointing data te genereren, wat semantisch rijke supervisie biedt voor de training; 3) Trainingspijplijnen: we gebruiken een tweefasig trainingsproces, waarbij supervised fine-tuning op 22 miljoen data wordt gecombineerd met GRPO-gebaseerde reinforcement post-training. Deze RL post-training maakt gebruik van geometrie-afhankelijke beloningen om effectief de kloof tussen discrete en continue coördinaatvoorspelling te overbruggen, de nauwkeurigheid van de bounding boxes te verbeteren en ongewenst gedrag zoals dubbele voorspellingen te verminderen, die voortkomen uit de door de leraar geleide aard van de initiële SFT-fase. Naast conventionele detectie maakt de inherente taalbegrip van Rex-Omni veelzijdige mogelijkheden mogelijk, zoals object referring, pointing, visuele prompting, GUI grounding, ruimtelijke referring, OCR en key-pointing, die allemaal systematisch worden geëvalueerd op toegewijde benchmarks. Wij geloven dat Rex-Omni de weg vrijmaakt voor meer veelzijdige en taalbewuste visuele perceptiesystemen.
Retrieval-Augmented Generation (RAG) is naar voren gekomen als een fundamenteel paradigma om Large Language Models te verruimen voorbij hun statische trainingsbeperkingen. Er bestaat echter een kritische mismatch tussen de huidige RAG-mogelijkheden en real-world informatieomgevingen. Moderne kennisrepositories zijn inherent multimodaal en bevatten rijke combinaties van tekstuele inhoud, visuele elementen, gestructureerde tabellen en wiskundige uitdrukkingen. Toch zijn bestaande RAG-frameworks beperkt tot tekstuele inhoud, wat fundamentele hiaten creëert bij het verwerken van multimodale documenten. Wij presenteren RAG-Anything, een uniform framework dat uitgebreide kennisretrieval over alle modaliteiten mogelijk maakt. Onze aanpak herconceptualiseert multimodale inhoud als onderling verbonden kennisentiteiten in plaats van geïsoleerde datatypes. Het framework introduceert dual-graph constructie om zowel cross-modale relaties als tekstuele semantiek vast te leggen binnen een uniforme representatie. We ontwikkelen cross-modale hybride retrieval die structurele kennismavigatie combineert met semantische matching. Dit maakt effectief redeneren over heterogene inhoud mogelijk, waarbij relevant bewijs zich over meerdere modaliteiten uitstrekt. RAG-Anything toont superieure prestaties op uitdagende multimodale benchmarks, met significante verbeteringen ten opzichte van state-of-the-art methoden. De prestatieverbeteringen worden vooral duidelijk bij lange documenten waar traditionele benaderingen falen. Ons framework vestigt een nieuw paradigma voor multimodale kennisaccess, waardoor de architectonische fragmentatie die huidige systemen beperkt, wordt geëlimineerd. Ons framework is open-source beschikbaar op: https://github.com/HKUDS/RAG-Anything.
Diffusiemodellen hebben recentelijk vooruitgang geboekt in videorestauratie, maar het toepassen ervan op real-world video super-resolutie (VSR) blijft uitdagend vanwege hoge latentie, excessieve rekenkracht en slechte generalisatie naar ultra-hoge resoluties. Ons doel in dit werk is om diffusie-gebaseerde VSR praktisch te maken door efficiëntie, schaalbaarheid en real-time prestaties te bereiken. Hiertoe stellen we FlashVSR voor, het eerste diffusie-gebaseerde één-staps streaming framework gericht op real-time VSR. FlashVSR draait op ongeveer 17 FPS voor 768x1408 video's op een enkele A100 GPU door drie complementaire innovaties te combineren: (i) een train-vriendelijke drie-fasen distillatiepijplijn die streaming super-resolutie mogelijk maakt, (ii) lokaal-gebonden sparse aandacht die overbodige berekeningen vermindert terwijl de kloof tussen train- en testresolutie wordt overbrugd, en (iii) een kleine conditionele decoder die reconstructie versnelt zonder kwaliteit op te offeren. Om grootschalige training te ondersteunen, hebben we ook VSR-120K geconstrueerd, een nieuwe dataset met 120k video's en 180k afbeeldingen. Uitgebreide experimenten tonen aan dat FlashVSR betrouwbaar schaalt naar ultra-hoge resoluties en state-of-the-art prestaties bereikt met een versnelling tot 12x ten opzichte van eerdere één-staps diffusie VSR-modellen. We zullen de code, voorgetrainde modellen en dataset vrijgeven om toekomstig onderzoek in efficiënte diffusie-gebaseerde VSR te bevorderen.
Diffusiemodellen hebben opmerkelijke successen geboekt als generatieve modellen. Echter, zelfs een goed getraind model kan fouten accumuleren gedurende het generatieproces. Deze fouten worden vooral problematisch wanneer willekeurige begeleiding wordt toegepast om samples naar gewenste eigenschappen te sturen, wat vaak de samplegetrouwheid aantast. In dit artikel presenteren we een algemene oplossing om het off-manifold fenomeen dat in diffusiemodellen wordt waargenomen, aan te pakken. Onze aanpak maakt gebruik van een tijdvoorspeller om afwijkingen van de gewenste datamanifold op elke tijdsstap te schatten, waarbij wordt vastgesteld dat een groter tijdsverschil gepaard gaat met een verminderde generatiekwaliteit. Vervolgens ontwerpen we een nieuw begeleidingsmechanisme, `Temporal Alignment Guidance' (TAG), dat de samples tijdens het generatieproces terugtrekt naar de gewenste manifold op elke tijdsstap. Door middel van uitgebreide experimenten tonen we aan dat TAG consistent samples produceert die nauw aansluiten bij de gewenste manifold op elke tijdsstap, wat leidt tot significante verbeteringen in de generatiekwaliteit voor diverse downstream taken.
Grote Taalmodellen (LLMs) verwerken elk token door alle lagen van een transformatorstack, wat leidt tot verspilde berekeningen bij eenvoudige queries en onvoldoende flexibiliteit voor moeilijkere queries die dieper redeneren vereisen. Adaptieve-dieptemethoden kunnen de efficiëntie verbeteren, maar eerdere benaderingen vertrouwen op kostbare zoekacties tijdens inferentie, architectuurwijzigingen of grootschalige hertraining, en leiden in de praktijk vaak tot een verminderde nauwkeurigheid ondanks efficiëntiewinsten. Wij introduceren Dr.LLM, Dynamische routing van Lagen voor LLMs, een aanpasbaar framework dat voorgetrainde modellen uitrust met lichtgewicht per-laag routers die beslissen om een blok over te slaan, uit te voeren of te herhalen. Routers worden getraind met expliciete supervisie: met behulp van Monte Carlo Tree Search (MCTS) leiden we hoogwaardige laagconfiguraties af die de nauwkeurigheid behouden of verbeteren binnen een rekenbudget. Ons ontwerp, windowed pooling voor stabiele routing, focal loss met klassebalancering, en bottleneck MLP-routers, zorgt voor robuustheid bij klasseonbalans en lange sequenties. Op ARC (logica) en DART (wiskunde) verbetert Dr.LLM de nauwkeurigheid met tot +3,4%p terwijl het gemiddeld 5 lagen per voorbeeld bespaart. Routers generaliseren naar taken buiten het domein (MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval) met slechts 0,85% nauwkeurigheidsverlies terwijl de efficiëntie behouden blijft, en overtreffen eerdere routingmethoden met tot +7,7%p. Over het algemeen toont Dr.LLM aan dat expliciet gesuperviseerde routers bevroren LLMs aanpassen voor budgetbewuste, nauwkeurigheidsgedreven inferentie zonder de basisgewichten te wijzigen.
Recente ontwikkelingen in embodied AI benadrukken het potentieel van vision language-modellen (VLMs) als agenten die in staat zijn tot waarneming, redenering en interactie in complexe omgevingen. Toppresterende systemen zijn echter afhankelijk van grootschalige modellen die kostbaar zijn om te implementeren, terwijl kleinere VLMs het benodigde kennisniveau en de vaardigheden missen om succesvol te zijn. Om deze kloof te overbruggen, presenteren we Embodied Reasoning Agent (ERA), een tweestaps raamwerk dat voorafgaande kennisleren en online reinforcement learning (RL) integreert. De eerste fase, Embodied Prior Learning, destilleert fundamentele kennis uit drie soorten data: (1) Trajectory-Augmented Priors, die bestaande trajectgegevens verrijken met gestructureerde redenering gegenereerd door sterkere modellen; (2) Environment-Anchored Priors, die kennis en grondingssupervisie binnen de omgeving bieden; en (3) External Knowledge Priors, die algemene kennis overdragen vanuit datasets buiten de omgeving. In de tweede fase ontwikkelen we een online RL-pijplijn die voortbouwt op deze priors om de prestaties van de agent verder te verbeteren. Om de inherente uitdagingen in agent-RL, waaronder lange tijdshorizons, schaarse beloningen en trainingsinstabiliteit, te overwinnen, introduceren we drie belangrijke ontwerpen: zelf-samenvatting voor contextbeheer, dichte beloningsvorming en beleidsoptimalisatie op turn-niveau. Uitgebreide experimenten op zowel hoog-niveau plannings- (EB-ALFRED) als laag-niveau controle-taken (EB-Manipulation) tonen aan dat ERA-3B zowel prompting-gebaseerde grote modellen als eerdere training-gebaseerde benchmarks overtreft. Specifiek behaalt het algehele verbeteringen van 8,4% op EB-ALFRED en 19,4% op EB-Manipulation ten opzichte van GPT-4o, en vertoont het sterke generalisatie naar onbekende taken. Over het algemeen biedt ERA een praktische route naar schaalbare embodied intelligentie, en biedt het methodologische inzichten voor toekomstige embodied AI-systemen.
Grote Taalmodellen (LLM's) kunnen dienen als wereldmodellen om de besluitvorming van agents in digitale omgevingen te verbeteren door toekomstige toestanden te simuleren en actie-uitkomsten te voorspellen, wat kostbare trial-and-error-verkenning mogelijk overbodig maakt. Deze mogelijkheid wordt echter fundamenteel beperkt door de neiging van LLM's tot hallucinatie en hun afhankelijkheid van statische trainingskennis, wat kan leiden tot opeenstapelende fouten die langetermijnsimulaties belemmeren. Om systematisch te onderzoeken of LLM's geschikt zijn voor wereldmodellering, onderzoeken we twee kerncapaciteiten van wereldmodellen—toekomstige toestandsvoorspelling en beloningsschatting—via drie taken: identificatie van de volgende toestand, afstemming van volledige procedureplanning en herkenning van mijlpaalovergangen. Onze analyse toont aan dat hoewel LLM's directe volgende toestanden effectief vastleggen en betekenisvolle toestandsovergangen identificeren, hun prestaties snel verslechteren bij volledige procedureplanning. Dit benadrukt de beperkingen van LLM's in het betrouwbaar modelleren van omgevingsdynamiek over langere termijnen. Om deze beperkingen aan te pakken, stellen we het Retrieval-augmented World Model (R-WoM) voor, dat LLM-simulaties onderbouwt door feitelijke, actuele kennis uit externe tutorials te integreren. Experimenten tonen aan dat R-WoM aanzienlijke verbeteringen bereikt van tot wel 25,3% (OSWorld) en 18,1% (WebArena) in vergelijking met baseline-modellen, met name voordelen in langetermijnsimulaties.
Onlangs is er opmerkelijke vooruitgang geboekt in Unified Multimodal Models (UMMs), die visueel-taalkundige generatie- en begripscapaciteiten integreren binnen een enkel raamwerk. Er bestaat echter een aanzienlijke kloof waarbij het sterke visuele begrip van een model vaak niet wordt doorvertaald naar zijn visuele generatie. Een model kan een afbeelding correct begrijpen op basis van gebruikersinstructies, maar toch niet in staat zijn een getrouwe afbeelding te genereren vanuit tekstprompts. Dit fenomeen roept direct een intrigerende vraag op: Kan een model zelfverbetering bereiken door zijn begripsmodule te gebruiken om zijn generatiemodule te belonen? Om deze kloof te overbruggen en zelfverbetering te realiseren, introduceren we SRUM, een zelfbelonend post-trainingsraamwerk dat direct kan worden toegepast op bestaande UMMs van verschillende ontwerpen. SRUM creëert een feedbacklus waarin de eigen begripsmodule van het model fungeert als een interne "evaluator", die corrigerende signalen levert om de generatiemodule te verbeteren, zonder dat er aanvullende door mensen gelabelde data nodig is. Om ervoor te zorgen dat deze feedback uitgebreid is, hebben we een globaal-lokaal dubbel beloningssysteem ontworpen. Om de inherente structurele complexiteit van afbeeldingen aan te pakken, biedt dit systeem begeleiding op meerdere schalen: een globale beloning zorgt voor de juistheid van de algehele visuele semantiek en lay-out, terwijl een lokale beloning de fijnmazige, objectniveau-getrouwheid verfijnt. SRUM leidt tot krachtige capaciteiten en toont sterke generalisatie, waarbij de prestaties op T2I-CompBench stijgen van 82,18 naar 88,37 en op T2I-ReasonBench van 43,82 naar 46,75. Over het geheel genomen vestigt ons werk een krachtig nieuw paradigma waarmee de begripsmodule van een UMM zijn eigen generatie kan begeleiden en verbeteren via zelfbeloning.
Hoewel recente vooruitgang in visuele generatie opmerkelijk is geweest, zijn de meeste bestaande architecturen nog steeds afhankelijk van afzonderlijke encoders voor afbeeldingen en tekst. Deze scheiding beperkt het vermogen van diffusiemodellen om cross-modale redenering en kennisoverdracht uit te voeren. Eerdere pogingen om deze kloof te overbruggen, maken vaak gebruik van informatie uit de laatste laag van een VLM, gebruiken meerdere visuele encoders, of trainen grote geünificeerde modellen gezamenlijk voor tekst- en beeldgeneratie, wat aanzienlijke rekenkracht en grootschalige data vereist, wat de toegankelijkheid beperkt. Wij presenteren UniFusion, een diffusiegebaseerd generatief model dat wordt geconditioneerd op een bevroren groot vision-language model (VLM) dat fungeert als een geünificeerde multimodale encoder. De kern van UniFusion is het Layerwise Attention Pooling (LAP)-mechanisme dat zowel hoogwaardige semantiek als laagniveau details extraheert uit tekst- en visuele tokens van een bevroren VLM om een diffusiegeneratief model te conditioneren. We tonen aan dat LAP andere ondiepe fusie-architecturen overtreft op het gebied van tekst-beelduitlijning voor generatie en getrouwe overdracht van visuele informatie van de VLM naar het diffusiemodel, wat essentieel is voor bewerkingen. We introduceren VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI), dat een diffusietransformer (DiT) alleen conditioneert op de teksttokens die door de VLM worden gegenereerd tijdens in-model prompt herschrijven. VERIFI combineert de uitlijning van de conditioneringdistributie met de redeneercapaciteiten van de VLM voor verhoogde mogelijkheden en flexibiliteit tijdens inferentie. Daarnaast verbetert finetunen op bewerkingstaken niet alleen de tekst-beelduitlijning voor generatie, wat wijst op cross-modale kennisoverdracht, maar vertoont het ook enorme generalisatiecapaciteiten. Ons model, wanneer getraind op het bewerken van één afbeelding, generaliseert zero-shot naar meerdere afbeeldingsreferenties, wat het geünificeerde encoderontwerp van UniFusion verder motiveert.
Post-training alignment vermindert vaak de diversiteit van LLM's, wat leidt tot een fenomeen dat bekend staat als mode collapse. In tegenstelling tot eerder werk dat dit effect toeschrijft aan algoritmische beperkingen, identificeren wij een fundamentele, alomtegenwoordige oorzaak op dataniveau: typicality bias in voorkeursdata, waarbij annotatoren systematisch vertrouwd tekst verkiezen als gevolg van goed gedocumenteerde bevindingen in de cognitieve psychologie. We formaliseren deze bias theoretisch, verifiëren deze empirisch op voorkeursdatasets en tonen aan dat deze een centrale rol speelt bij mode collapse. Gemotiveerd door deze analyse introduceren we Verbalized Sampling, een eenvoudige, training-vrije promptstrategie om mode collapse te omzeilen. VS vraagt het model om een waarschijnlijkheidsverdeling te verbaliseren over een set reacties (bijv., "Genereer 5 grappen over koffie en hun bijbehorende waarschijnlijkheden"). Uitgebreide experimenten tonen aan dat VS de prestaties aanzienlijk verbetert op het gebied van creatief schrijven (gedichten, verhalen, grappen), dialoogsimulatie, open-einde QA en synthetische datageneratie, zonder in te leveren op feitelijke nauwkeurigheid en veiligheid. Bijvoorbeeld, in creatief schrijven verhoogt VS de diversiteit met 1,6-2,1x ten opzichte van directe prompting. We observeren verder een opkomende trend dat capabelere modellen meer baat hebben bij VS. Kortom, ons werk biedt een nieuw data-gecentreerd perspectief op mode collapse en een praktische remedie tijdens inferentie die helpt om de vooraf getrainde generatieve diversiteit te ontgrendelen.
Het succes van Transformer-taalmodelen wordt veelal toegeschreven aan hun dot-product aandachtmechanisme, dat een reeks belangrijke ontwerpprincipes verweeft: het mengen van informatie over posities heen (wat interacties tussen meerdere tokens mogelijk maakt), sequentie-afhankelijke activaties (waarbij aandachtsgewichten zich aanpassen aan elke invoer), een specifieke wiskundige vorm (dot-product gelijkenissen plus softmax-weging), en de koppeling van queries en keys aan evoluerende verborgen toestanden (wat de aandacht verankert in de huidige laag). De noodzaak van elk van deze principes blijft echter grotendeels onbewezen. In dit werk ontleden we aandacht systematisch door gecontroleerde varianten te ontwerpen die deze principes selectief versoepelen, zowel uniform toegepast over alle lagen als in hybride architecturen waar slechts enkele lagen standaard aandacht behouden. Onze empirische analyse toont aan dat mechanismen voor het mengen van tokens onmisbaar zijn, aangezien hun afwezigheid modellen reduceert tot bijna willekeurig gedrag, terwijl de exacte wiskundige vorm en sequentie-afhankelijkheid aanzienlijk kunnen worden versoepeld, vooral wanneer ze slechts in een subset van lagen behouden blijven. Verrassend genoeg kunnen zelfs varianten die in isolatie falen robuuste prestaties bereiken wanneer ze worden afgewisseld met standaard aandacht, wat een samenwerkend effect benadrukt. Deze bevindingen verdiepen ons begrip van wat de effectiviteit van aandacht werkelijk ondersteunt en openen nieuwe wegen voor het vereenvoudigen van taalmodelen zonder prestaties in te leveren.
Grote Taalmodellen ondervinden uitdagingen bij langetermijn agent-taken omdat hun beperkte geheugen gemakkelijk overweldigd raakt door afleidende of irrelevante context. Bestaande methoden voor werkgeheugen vertrouwen doorgaans op externe, heuristische mechanismen die losstaan van het kernbeleid van de agent. In dit werk herformuleren we werkgeheugenbeheer als een aanleerbare, intrinsieke capaciteit. We stellen een nieuw raamwerk voor, Geheugen-als-Actie, waarbij een agent actief zijn werkgeheugen beheert door expliciete bewerkingsoperaties uit te voeren als onderdeel van een geïntegreerd beleid. Deze formulering stelt een agent, getraind via reinforcement learning, in staat om geheugencuratie af te wegen tegen langetermijntaakdoelen onder gegeven resourcebeperkingen. Dergelijke geheugenbewerkingsacties doorbreken echter de standaard aanname van een continu groeiend voorvoegsel in LLM-interacties, wat leidt tot wat we trajectfracturen noemen. Deze niet-voorvoegselveranderingen verstoren de causale continuïteit die vereist is door standaard beleidsgradiëntmethoden, waardoor die methoden niet toepasbaar zijn. Om dit aan te pakken, stellen we een nieuw algoritme voor, Dynamische Context Beleidsoptimalisatie, dat stabiel end-to-end reinforcement learning mogelijk maakt door trajecten te segmenteren op geheugenactiepunten en trajectniveau-voordelen toe te passen op de resulterende actiesegmenten. Onze resultaten tonen aan dat het gezamenlijk optimaliseren van taakredenering en geheugenbeheer op een end-to-end manier niet alleen de totale computationele consumptie vermindert, maar ook de taakprestaties verbetert, gedreven door adaptieve contextcuratiestrategieën die zijn afgestemd op de intrinsieke capaciteiten van het model.
Een belangrijke uitdaging bij het toepassen van reinforcement learning (RL) op diffusion large language models (dLLMs) ligt in de onhanteerbaarheid van hun waarschijnlijkheidsfuncties, die essentieel zijn voor het RL-doel, wat een corresponderende benadering in elke trainingsstap noodzakelijk maakt. Hoewel bestaande methoden de log-waarschijnlijkheden benaderen via hun evidence lower bounds (ELBOs) met behulp van aangepaste Monte Carlo (MC) steekproeven, moeten de voorwaartse rekenkundige grafieken van alle MC-steekproeven worden behouden voor de gradientberekening van niet-lineaire termen in het RL-doel, wat resulteert in aanzienlijk geheugengebruik. Deze beperking beperkt de haalbare steekproefgroottes, wat leidt tot onnauwkeurige waarschijnlijkheidsbenaderingen en uiteindelijk het RL-doel vervormt. Om deze beperking te overwinnen, stellen we Boundary-Guided Policy Optimization (BGPO) voor, een geheugenefficiënt RL-algoritme dat een speciaal geconstrueerde ondergrens van het ELBO-gebaseerde doel maximaliseert. Deze ondergrens is zorgvuldig ontworpen om twee belangrijke eigenschappen te voldoen: (1) Lineariteit: het is geformuleerd in een lineaire som waarbij elke term alleen afhankelijk is van een enkele MC-steekproef, waardoor gradientaccumulatie over steekproeven mogelijk is en constant geheugengebruik wordt gegarandeerd; (2) Gelijkwaardigheid: zowel de waarde als de gradient van deze ondergrens zijn gelijk aan die van het ELBO-gebaseerde doel in on-policy training, waardoor het ook een effectieve benadering is voor het oorspronkelijke RL-doel. Deze eigenschappen stellen BGPO in staat om een grote MC-steekproefgrootte te gebruiken, wat resulteert in nauwkeurigere waarschijnlijkheidsbenaderingen en verbeterde RL-doelschatting, wat op zijn beurt leidt tot betere prestaties. Experimenten tonen aan dat BGPO aanzienlijk beter presteert dan eerdere RL-algoritmen voor dLLMs in het oplossen van wiskundige problemen, codegeneratie en plannings taken.
Multimodale Large Language Models (MLLMs) in real-world toepassingen hebben toegang nodig tot externe kennisbronnen en moeten reageren op dynamische en voortdurend veranderende real-world informatie om informatiezoekende en kennisintensieve gebruikersvragen te beantwoorden. Bestaande benaderingen, zoals retrieval augmented generation (RAG) methoden, zoekagentschappen en MLLMs uitgerust met zoekfunctionaliteit, kampen vaak met rigide pijplijnen, overmatige zoekopdrachten en slecht geconstrueerde zoekquery's, wat resulteert in inefficiënties en suboptimale resultaten. Om deze beperkingen aan te pakken, presenteren we DeepMMSearch-R1, de eerste multimodale LLM die in staat is om op aanvraag, multi-turn webzoekopdrachten uit te voeren en dynamisch query's te maken voor zowel beeld- als tekstzoektools. Specifiek kan DeepMMSearch-R1 webzoekopdrachten initiëren op basis van relevante uitsneden van de invoerafbeelding, waardoor de beeldzoekopdracht effectiever wordt, en kan het iteratief tekstzoekquery's aanpassen op basis van opgehaalde informatie, waardoor zelfreflectie en zelfcorrectie mogelijk worden. Onze aanpak is gebaseerd op een tweefasig trainingspijplijn: een koude start supervised finetuning fase gevolgd door een online reinforcement learning optimalisatie. Voor de training introduceren we DeepMMSearchVQA, een nieuwe multimodale VQA-dataset die is gecreëerd via een geautomatiseerde pijplijn gemengd met real-world informatie van webzoektools. Deze dataset bevat diverse, multi-hop query's die tekstuele en visuele informatie integreren, waardoor het model leert wanneer het moet zoeken, waarnaar het moet zoeken, welke zoektool het moet gebruiken en hoe het moet redeneren over de opgehaalde informatie. We voeren uitgebreide experimenten uit over een reeks kennisintensieve benchmarks om de superioriteit van onze aanpak aan te tonen. Tot slot analyseren we de resultaten en bieden we inzichten die waardevol zijn voor het bevorderen van multimodale webzoekopdrachten.
Multimodale inbeddingsmodellen streven naar het creëren van informatieve, verenigde representaties die diverse cross-modale taken mogelijk maken. Ondanks veelbelovende ontwikkelingen in de evolutie van CLIP-gebaseerde dual-tower-architecturen naar grote visie-taalmodellen, worden eerdere werken nog steeds geconfronteerd met onvermijdelijke uitdagingen in real-world toepassingen en zakelijke scenario's, zoals beperkte modale ondersteuning, instabiele trainingsmechanismen en industriële domeinkloof. In dit werk introduceren we SAIL-Embedding, een omni-modale inbeddingsfundamentmodel dat deze problemen aanpakt via op maat gemaakte trainingsstrategieën en architectonisch ontwerp. In het optimalisatieproces stellen we een meerfasig trainingsschema voor om de veelzijdige effectiviteit van representatieleren te bevorderen. Specifiek richt de inhoudsbewuste progressieve training zich op het verbeteren van de aanpassingsvermogen van het model aan diverse downstream taken en het beheersen van verrijkte cross-modale vaardigheden. De samenwerkingsbewuste aanbevelingsverbeteringstraining past multimodale representaties verder aan voor aanbevelingsscenario's door kennis te destilleren uit sequence-to-item en ID-to-item inbeddingen, terwijl historische gebruikersinteressen worden ontgonnen. Tegelijkertijd ontwikkelen we stochastische specialisatie en dataset-gestuurde patroonherkenning om de flexibiliteit en generaliseerbaarheid van modeltraining te versterken. Experimentele resultaten tonen aan dat SAIL-Embedding state-of-the-art (SOTA) prestaties behaalt in vergelijking met andere methoden in verschillende retrievalthandelingen. In online experimenten in diverse real-world scenario's geïntegreerd met ons model, observeren we een significante toename in Lifetime (LT), een cruciale indicator voor de aanbevelingservaring. Zo levert het model een 7-daagse LT-winst van +0,158% en een 14-daagse LT-winst van +0,144% op in het Douyin-Selected scenario. Voor het Douyin feed rank-model resulteren de matchfeatures gegenereerd door SAIL-Embedding in een +0,08% AUC-winst.
Recente ontwikkelingen in vision-language modellen (VLMs) hebben hen zeer effectief gemaakt in redeneertaken. De principes die ten grondslag liggen aan de constructie van hoogwaardige trainingsdatasets voor visueel-taalkundig redeneren blijven echter slecht begrepen. In dit werk introduceren we verschillende benaderingen voor datacuratie en bestuderen we hun impact op de redeneervaardigheden van VLMs door zorgvuldig trainings- en evaluatieopstellingen te controleren. We analyseren de effecten van contextbronnen (afbeelding- en vraagparen), implementeren gerichte data-interventies, en onderzoeken het opschalen van afbeeldingen, vragen en chain-of-thought (CoT)-oplossingen. Onze bevindingen onthullen dat (a) strategieën voor contextbronnen de prestaties van VLMs significant beïnvloeden, (b) interventies zoals aanvullende signalen uit afbeeldingsbeschrijvingen en de opname van tekstueel redeneren aanzienlijke verbeteringen opleveren, en (c) het opschalen van alle data-dimensies (bijv. unieke vragen per afbeelding en unieke CoTs per afbeelding-vraagpaar) consistent de redeneervaardigheid verbetert. Gemotiveerd door deze inzichten introduceren we HoneyBee, een grootschalige, hoogwaardige CoT-redeneerdataset met 2,5 miljoen voorbeelden bestaande uit 350.000 afbeelding-vraagparen. VLMs die met HoneyBee zijn getraind, overtreffen state-of-the-art modellen over verschillende modelgroottes. Zo presteert een HoneyBee-getraind VLM met 3B parameters respectievelijk 7,8% en 24,8% beter dan het SOTA-model en het basismodel op MathVerse. Bovendien stellen we een testtijd-opschalingsstrategie voor die de decodeerkosten met 73% vermindert zonder de nauwkeurigheid op te offeren. Over het algemeen presenteert dit werk verbeterde strategieën voor onderzoek naar datacuratie voor visueel-taalkundig redeneren.
Multi-instance image generation (MIG) blijft een belangrijke uitdaging voor moderne diffusiemodellen vanwege essentiële beperkingen in het bereiken van precieze controle over objectlay-out en het behouden van de identiteit van meerdere afzonderlijke onderwerpen. Om deze beperkingen aan te pakken, introduceren we ContextGen, een nieuw Diffusion Transformer-framework voor multi-instance generatie dat wordt geleid door zowel lay-out- als referentiebeelden. Onze aanpak integreert twee belangrijke technische bijdragen: een Contextual Layout Anchoring (CLA)-mechanisme dat het samengestelde lay-outbeeld opneemt in de generatiecontext om de objecten robuust te verankeren in hun gewenste posities, en Identity Consistency Attention (ICA), een innovatief aandachtmechanisme dat gebruikmaakt van contextuele referentiebeelden om de identiteitsconsistentie van meerdere instanties te waarborgen. Gezien het gebrek aan grootschalige, hiërarchisch gestructureerde datasets voor deze taak, introduceren we IMIG-100K, de eerste dataset met gedetailleerde lay-out- en identiteitsannotaties. Uitgebreide experimenten tonen aan dat ContextGen een nieuwe state-of-the-art neerzet, waarbij bestaande methoden worden overtroffen op het gebied van controleprecisie, identiteitsgetrouwheid en algehele visuele kwaliteit.
Vooruitgang in AI wordt belemmerd door het ontbreken van een programmeertaal met alle benodigde functies. Bibliotheken zoals PyTorch en TensorFlow bieden automatische differentiatie en efficiënte GPU-implementatie, maar zijn aanvullingen op Python, dat nooit bedoeld was voor AI. Het gebrek aan ondersteuning voor geautomatiseerd redeneren en kennisverwerving heeft geleid tot een lange en kostbare reeks improvisaties om deze functies alsnog toe te voegen. Aan de andere kant missen AI-talen zoals LISP en Prolog schaalbaarheid en ondersteuning voor leren. Dit artikel introduceert tensorlogica, een taal die deze problemen oplost door neurale en symbolische AI op een fundamenteel niveau te verenigen. Het enige construct in tensorlogica is de tensorvergelijking, gebaseerd op de observatie dat logische regels en Einstein-sommatie in wezen dezelfde operatie zijn, en al het andere hiernaar kan worden gereduceerd. Ik laat zien hoe belangrijke vormen van neurale, symbolische en statistische AI elegant kunnen worden geïmplementeerd in tensorlogica, waaronder transformers, formeel redeneren, kernelmachines en grafische modellen. Het belangrijkste is dat tensorlogica nieuwe richtingen mogelijk maakt, zoals betrouwbaar redeneren in embedded ruimte. Dit combineert de schaalbaarheid en leerbaarheid van neurale netwerken met de betrouwbaarheid en transparantie van symbolisch redeneren, en is mogelijk een basis voor een bredere adoptie van AI.
Het begrijpen van de dynamiek van een fysieke scène vereist redeneren over de diverse manieren waarop deze potentieel kan veranderen, met name als gevolg van lokale interacties. Wij presenteren de Flow Poke Transformer (FPT), een nieuw raamwerk voor het direct voorspellen van de verdeling van lokale beweging, geconditioneerd op schaarse interacties die "pokes" worden genoemd. In tegenstelling tot traditionele methoden die doorgaans alleen een dichte bemonstering van een enkele realisatie van scènedynamiek mogelijk maken, biedt FPT een interpreteerbare, direct toegankelijke representatie van multi-modale scènebeweging, de afhankelijkheid ervan van fysieke interacties en de inherente onzekerheden van scènedynamiek. We evalueren ons model ook op verschillende downstream taken om vergelijkingen met eerdere methoden mogelijk te maken en de flexibiliteit van onze aanpak te benadrukken. Bij het genereren van dichte gezichtsbewegingen overtreft ons generiek voorgetrainde model gespecialiseerde baseline-methoden. FPT kan worden afgestemd op sterk out-of-distribution taken, zoals synthetische datasets, om aanzienlijke verbeteringen te bereiken ten opzichte van in-domain methoden bij het schatten van de beweging van gearticuleerde objecten. Daarnaast stelt het direct voorspellen van expliciete bewegingsverdelingen onze methode in staat om competitieve prestaties te leveren bij taken zoals het segmenteren van bewegende delen op basis van pokes, wat verder de veelzijdigheid van onze FPT aantoont. Code en modellen zijn publiekelijk beschikbaar op https://compvis.github.io/flow-poke-transformer.
Instructiegestuurd beeldbewerken biedt een krachtige en intuïtieve manier om afbeeldingen te manipuleren via natuurlijke taal. Het uitsluitend vertrouwen op tekstinstructies beperkt echter de fijnmazige controle over de omvang van de bewerkingen. Wij introduceren Kontinuous Kontext, een instructiegestuurd bewerkingsmodel dat een nieuwe dimensie van controle biedt over de sterkte van bewerkingen, waardoor gebruikers bewerkingen geleidelijk kunnen aanpassen van geen verandering tot een volledig gerealiseerd resultaat op een vloeiende en continue manier. Kontinuous Kontext breidt een state-of-the-art beeldbewerkingsmodel uit om een extra invoer te accepteren, een scalaire bewerkingssterkte, die vervolgens wordt gekoppeld aan de bewerkingsinstructie, waardoor expliciete controle over de omvang van de bewerking mogelijk wordt. Om deze scalaire informatie in te voegen, trainen we een lichtgewicht projectornetwerk dat de ingevoerde scalar en de bewerkingsinstructie afbeeldt op coëfficiënten in de modulatie-ruimte van het model. Voor het trainen van ons model synthetiseren we een diverse dataset van beeld-bewerkingsinstructie-sterkte-vierlingen met behulp van bestaande generatieve modellen, gevolgd door een filteringsfase om kwaliteit en consistentie te waarborgen. Kontinuous Kontext biedt een uniforme aanpak voor fijnmazige controle over bewerkingssterkte voor instructiegestuurd bewerken, van subtiel tot sterk, voor diverse operaties zoals stilisering, attribuut-, materiaal-, achtergrond- en vormveranderingen, zonder attribuutspecifieke training te vereisen.
We bestuderen hoe grote taalmodellen (LLM's) ``denken'' door hun representatieruimte. We introduceren een nieuw geometrisch raamwerk dat het redeneren van een LLM modelleert als stromen -- trajecten van embeddings die evolueren waar logica plaatsvindt. We ontwarren logische structuur van semantiek door dezelfde natuurlijke deductieproposities te gebruiken met verschillende semantische dragers, waardoor we kunnen testen of LLM's logica internaliseren voorbij de oppervlaktevorm. Dit perspectief verbindt redeneren met geometrische grootheden zoals positie, snelheid en kromming, wat formele analyse in representatie- en conceptruimten mogelijk maakt. Onze theorie stelt vast: (1) LLM-redenering komt overeen met vloeiende stromen in de representatieruimte, en (2) logische uitspraken fungeren als lokale controllers van de snelheden van deze stromen. Met behulp van geleerde representatieproxies ontwerpen we gecontroleerde experimenten om redeneerstromen te visualiseren en te kwantificeren, wat empirische validatie van ons theoretische raamwerk biedt. Ons werk dient zowel als een conceptuele basis als praktische tools voor het bestuderen van redeneerfenomenen, en biedt een nieuwe lens voor interpreteerbaarheid en formele analyse van het gedrag van LLM's.
In een ideale ontwerppijplijn is het ontwerp van de gebruikersinterface (UI) verweven met gebruikersonderzoek om beslissingen te valideren, maar studies zijn vaak beperkt in middelen tijdens de vroege verkenning. Recente vooruitgang in multimodale grote taalmodellen (MLLMs) biedt een veelbelovende mogelijkheid om als vroege evaluatoren te fungeren, waardoor ontwerpers opties kunnen verfijnen voordat formele tests plaatsvinden. In tegenstelling tot eerder werk dat de nadruk legt op gebruikersgedrag in specifieke domeinen zoals e-commerce met metrieken zoals klikken of conversies, richten wij ons op subjectieve gebruikersevaluaties over diverse interfaces. Wij onderzoeken of MLLMs menselijke voorkeuren kunnen nabootsen bij het evalueren van individuele UI's en het vergelijken ervan. Met behulp van gegevens van een crowdsourcingplatform benchmarken we GPT-4o, Claude en Llama over 30 interfaces en onderzoeken we de overeenstemming met menselijke oordelen over meerdere UI-factoren. Onze resultaten tonen aan dat MLLMs menselijke voorkeuren op sommige dimensies benaderen, maar op andere dimensies afwijken, wat zowel hun potentieel als hun beperkingen onderstreept bij het aanvullen van vroeg UX-onderzoek.
Symbolische wereldmodellering vereist het afleiden en representeren van de overgangsdynamiek van een omgeving als een uitvoerbaar programma. Eerder werk richtte zich voornamelijk op grotendeels deterministische omgevingen met overvloedige interactiedata, eenvoudige mechanica en menselijke begeleiding. Wij richten ons op een realistischer en uitdagender scenario: leren in een complexe, stochastische omgeving waar de agent slechts "één leven" heeft om een vijandige omgeving te verkennen zonder menselijke begeleiding. Wij introduceren OneLife, een raamwerk dat werelddynamiek modelleert via conditioneel geactiveerde programmatische wetten binnen een probabilistisch programmeerkader. Elke wet werkt via een voorwaarde-effectstructuur en activeert in relevante wereldtoestanden. Dit creëert een dynamisch rekeningsgraaf dat inferentie en optimalisatie alleen door relevante wetten routeert, waardoor schaalbaarheidsuitdagingen worden vermeden wanneer alle wetten bijdragen aan voorspellingen over een complexe, hiërarchische toestand, en het leren van stochastische dynamiek mogelijk maakt, zelfs bij schaarse regelactivatie. Om onze aanpak onder deze veeleisende beperkingen te evalueren, introduceren we een nieuw evaluatieprotocol dat meet (a) toestandsrangschikking, het vermogen om plausibele toekomstige toestanden van onwaarschijnlijke te onderscheiden, en (b) toestandsgetrouwheid, het vermogen om toekomstige toestanden te genereren die sterk op de werkelijkheid lijken. We ontwikkelen en evalueren ons raamwerk op Crafter-OO, onze herimplementatie van de Crafter-omgeving die een gestructureerde, objectgeoriënteerde symbolische toestand blootlegt en een pure overgangsfunctie die alleen op die toestand werkt. OneLife kan succesvol belangrijke omgevingsdynamiek leren uit minimale, onbegeleide interactie, en presteert beter dan een sterke baseline in 16 van de 23 geteste scenario's. We testen ook het planningsvermogen van OneLife, waarbij gesimuleerde rollouts succesvol superieure strategieën identificeren. Ons werk legt een basis voor het autonoom construeren van programmatische wereldmodellen van onbekende, complexe omgevingen.
Grote redeneermodellen (LRMs) hebben nieuwe mogelijkheden gecreëerd op het gebied van probleemoplossing, door het ontwikkelen van een natuurlijke taaldenkproces voordat een vraag wordt beantwoord. Hoewel hun capaciteiten goed bekend zijn bij wiskundige en programmeertaken, blijft hun impact op de taak van machinaal vertalen (MT) onderbelicht. In dit werk onderzoeken we de voordelen van het genereren van tussenliggende tokens bij het uitvoeren van MT over meerdere taalparen met verschillende niveaus van beschikbare bronnen en in verschillende opstellingen. We ontdekken dat "denktokens" LRMs niet helpen om beter te presteren bij MT. Dit resultaat geldt ook voor modellen die zijn afgestemd om eerst te redeneren voordat ze vertalen, met behulp van een gedistilleerde keten van gedachten (CoT) die is geïnspireerd op de praktijken van menselijke vertalers. Specifiek presteert het afstemmen van een model met synthetische CoT-verklaringen die stap voor stap uitleggen hoe te vertalen niet beter dan standaard input-output afstemming. Het construeren van de tussenliggende tokens door de uitkomsten van modulaire vertaalspecifieke promptstrategieën te combineren, leidt echter wel tot verbeteringen. Onze bevindingen benadrukken dat de bijdrage van tussenliggende tokens tijdens het afstemmen sterk afhangt van de aanwezigheid van vertaalpogingen daarin. In bredere zin suggereren onze resultaten dat het gebruik van een leraar om doelvertalingen te verfijnen of parallelle corpora uit te breiden meer impact heeft dan het destilleren van hun CoT-verklaringen in "denkende" MT-modellen.
We introduceren Cautious Weight Decay (CWD), een eenregelige, optimizer-onafhankelijke aanpassing die gewichtsverval alleen toepast op parametercoördinaten waarvan de tekens overeenkomen met de optimizer-update. In tegenstelling tot standaard ontkoppeld verval, dat impliciet een geregulariseerd of beperkt doel optimaliseert, behoudt CWD het oorspronkelijke verlies en laat het een bilevel-interpretatie toe: het induceert een glijdende-modusgedrag bij het bereiken van het stationaire spruitstuk, waardoor het kan zoeken naar lokaal Pareto-optimale stationaire punten van het ongemodificeerde doel. In de praktijk is CWD een directe wijziging voor optimizers zoals AdamW, Lion en Muon, waarvoor geen nieuwe hyperparameters of extra afstemming nodig is. Voor het vooraf trainen van taalmodelen en ImageNet-classificatie verbetert CWD consistent het uiteindelijke verlies en de nauwkeurigheid op schalen van miljoenen tot miljarden parameters.
Grote taalmodel (LLM) agenten worden fundamenteel beperkt door de contextlengte bij taken met een lange horizon. We introduceren Context-Folding, een raamwerk dat agenten in staat stelt om hun werkcontext actief te beheren. Een agent kan procedureel vertakken in een sub-traject om een subtask af te handelen en deze vervolgens inklappen na voltooiing, waarbij de tussenliggende stappen worden samengevat terwijl een beknopte samenvatting van het resultaat behouden blijft. Om dit gedrag leerbaar te maken, ontwikkelen we een end-to-end reinforcement learning raamwerk genaamd FoldGRPO, met specifieke procesbeloningen om effectieve taakdecompositie en contextbeheer aan te moedigen. Bij complexe taken met een lange horizon (Deep Research en SWE) presteert onze folding-agent even goed of beter dan de ReAct-baselines, terwijl hij een actieve context gebruikt die 10 keer kleiner is, en hij presteert aanzienlijk beter dan modellen die vertrouwen op samenvattingsgebaseerd contextbeheer.
Onlangs zijn Large Language Models (LLMs) toegepast op het ontdekken van wetenschappelijke vergelijkingen, waarbij gebruik wordt gemaakt van hun ingebedde wetenschappelijke kennis voor hypothesegeneratie. Huidige methoden beperken LLMs echter meestal tot de rol van een vergelijkingsvoorsteller binnen zoekalgoritmen zoals genetisch programmeren. In dit artikel presenteren we SR-Scientist, een framework dat de LLM verheft van een eenvoudige vergelijkingsvoorsteller naar een autonome AI-wetenschapper die code schrijft om data te analyseren, de vergelijking als code implementeert, deze indient voor evaluatie en de vergelijking optimaliseert op basis van experimentele feedback. Specifiek integreren we de code-interpreter in een set tools voor data-analyse en vergelijkings evaluatie. De agent wordt geïnstrueerd om de vergelijking te optimaliseren door deze tools over een lange horizon te gebruiken met minimale door mensen gedefinieerde pipelines. Empirische resultaten laten zien dat SR-Scientist baseline-methoden overtreft met een absoluut verschil van 6% tot 35% op datasets die vier wetenschappelijke disciplines beslaan. Daarnaast tonen we de robuustheid van onze methode tegen ruis, de generalisatie van de ontdekte vergelijkingen naar out-of-domain data, en hun symbolische nauwkeurigheid aan. Verder ontwikkelen we een end-to-end reinforcement learning framework om de capaciteiten van de agent te verbeteren.
We bestuderen reinforcement learning (RL) fine-tuning van grote taalmodel (LLM) agents voor langetermijn multi-turn toolgebruik, waarbij contextlengte snel een fundamenteel knelpunt wordt. Bestaande RL-pipelines kunnen lijden onder verminderde instructievolging, excessieve rolloutkosten en, nog belangrijker, strikte contextlimieten. Om deze uitdagingen aan te pakken, introduceren we samenvattingsgebaseerd contextbeheer in de training. Specifiek comprimeert het periodiek de toolgebruiksgeschiedenis door middel van LLM-gegenereerde samenvattingen die taakrelevante informatie behouden, om een compacte context te behouden terwijl de agent kan schalen buiten het vaste contextvenster. Op basis van deze formulering leiden we een policy gradient representatie af die naadloos standaard LLM RL-infrastructuren in staat stelt om zowel toolgebruiksgedrag als samenvattingsstrategieën end-to-end te optimaliseren. We concretiseren dit framework met SUmmarization augmented Policy Optimization (SUPO), een LLM RL-algoritme dat langetermijntraining mogelijk maakt buiten een vaste contextlimiet. Experimenten met interactieve functieaanroep- en zoektaken tonen aan dat SUPO het slagingspercentage aanzienlijk verbetert terwijl het dezelfde of zelfs een lagere werkcontextlengte behoudt in vergelijking met baseline-methoden. We tonen ook aan dat SUPO voor complexe zoektaken de evaluatieprestaties verder kan verbeteren wanneer het maximale aantal samenvattingsronden tijdens de testtijd wordt opgeschaald ten opzichte van de trainingstijd. Onze resultaten vestigen samenvattingsgebaseerd contextbeheer als een principiële en schaalbare aanpak voor het trainen van RL-agents buiten een vaste contextlengtelimiet.
Multimodale Large Language Models (MLLMs) bieden veelbelovende mogelijkheden om wetenschappelijke ontdekkingen te versnellen door complexe experimentele procedures te interpreteren. Hun werkelijke capaciteiten zijn echter slecht begrepen, omdat bestaande benchmarks de fijnmazige en langetermijnaspecten van authentiek laboratoriumwerk, met name in natte-labomgevingen, verwaarlozen. Om deze kloof te overbruggen, introduceren we ExpVid, de eerste benchmark die is ontworpen om MLLMs systematisch te evalueren op wetenschappelijke experimentvideo's. Gecureerd uit peer-reviewed videopublicaties, biedt ExpVid een nieuwe drielaagse taakhierarchie die het wetenschappelijke proces weerspiegelt: (1) Fijnmazige waarneming van gereedschappen, materialen en handelingen; (2) Procedureel begrip van stapvolgorde en volledigheid; en (3) Wetenschappelijk redeneren dat het volledige experiment verbindt met de gepubliceerde conclusies. Onze visiegerichte annotatiepipeline, die automatische generatie combineert met multidisciplinaire expertvalidatie, zorgt ervoor dat taken visuele verankering vereisen. We evalueren 19 toonaangevende MLLMs op ExpVid en constateren dat ze uitblinken in grofmazige herkenning, maar moeite hebben met het onderscheiden van fijne details, het volgen van toestandsveranderingen over tijd en het koppelen van experimentele procedures aan wetenschappelijke resultaten. Onze resultaten onthullen een opmerkelijk prestatieverschil tussen propriëtaire en open-source modellen, met name in hogere-orde redenering. ExpVid biedt niet alleen een diagnostisch hulpmiddel, maar schetst ook een routekaart voor de ontwikkeling van MLLMs die betrouwbare partners kunnen worden in wetenschappelijke experimenten.
Datacontaminatie vormt een aanzienlijke bedreiging voor de betrouwbare evaluatie van Large Language Models (LLM's). Dit probleem doet zich voor wanneer benchmarkvoorbeelden onbedoeld in trainingssets terechtkomen, wat de geldigheid van gerapporteerde prestaties aantast. Hoewel detectiemethoden zijn ontwikkeld voor de pre-training en Supervised Fine-Tuning fasen, bestaat er een kritieke onderzoekskloof voor de steeds belangrijkere fase van Reinforcement Learning (RL) post-training. Aangezien RL post-training cruciaal wordt voor het bevorderen van LLM-redenering, vormt het ontbreken van gespecialiseerde contaminatiedetectiemethoden in dit paradigma een kritieke kwetsbaarheid. Om dit aan te pakken, voeren we de eerste systematische studie uit naar datadetectie binnen het RL post-trainingsscenario en introduceren we Self-Critique. Onze methode is gemotiveerd door een belangrijke observatie: na de RL-fase neigt de uitvoerentropieverdeling van LLM's in te storten in zeer specifieke en spaarzame modi. Self-Critique onderzoekt het onderliggende beleidsinstorting, d.w.z. de convergentie van het model naar een smal redeneerpad, wat deze entropiereductie veroorzaakt. Om dit onderzoek te faciliteren, introduceren we ook RL-MIA, een benchmark die is opgebouwd om dit specifieke contaminatiescenario te simuleren. Uitgebreide experimenten tonen aan dat Self-Critique baseline-methoden aanzienlijk overtreft over meerdere modellen en contaminatietaken, met een AUC-verbetering tot wel 30%. Terwijl bestaande methoden dicht bij een willekeurige gok liggen voor RL-fase contaminatie, maakt onze methode detectie mogelijk.
Bestaande Multimodale Large Language Models (MLLMs) kampen met hogere inferentiekosten als gevolg van de extra visuele tokens die worden geïntroduceerd door beeldinvoer. In dit werk stellen we Visual Consistency Learning (ViCO) voor, een nieuwe trainingsalgoritme dat het model in staat stelt om afbeeldingen met verschillende semantische complexiteiten weer te geven met behulp van verschillende aantallen visuele tokens. Het centrale idee achter onze methode is om meerdere MLP-connectoren te gebruiken, elk met een verschillende beeldcompressieverhouding, om de visuele tokens te downsamplen op basis van de semantische complexiteit van de afbeelding. Tijdens de training minimaliseren we de KL-divergentie tussen de reacties die zijn geconditioneerd op verschillende MLP-connectoren. Tijdens de inferentie introduceren we een beeldrouter, genaamd Visual Resolution Router (ViR), die automatisch de geschikte compressieverhouding selecteert voor elk beeldpatch. In vergelijking met bestaande dynamische hoogresolutiestrategieën, die het aantal visuele tokens aanpassen op basis van beeldresoluties, past onze methode het aantal visuele tokens dynamisch aan volgens de semantische complexiteit. Experimentele resultaten tonen aan dat onze methode het aantal visuele tokens met tot wel 50% kan verlagen terwijl de perceptie, redeneer- en OCR-capaciteiten van het model behouden blijven. We hopen dat dit werk zal bijdragen aan de ontwikkeling van efficiëntere MLLMs. De code en modellen zullen worden vrijgegeven om toekomstig onderzoek te faciliteren.
Recente vooruitgang in lange ketens van gedachtegang (CoT) heeft grotendeels prioriteit gegeven aan antwoordnauwkeurigheid en token-efficiëntie, terwijl aspecten die cruciaal zijn voor betrouwbaarheid over het hoofd zijn gezien. Wij stellen dat bruikbare redeneersystemen betrouwbaar moeten zijn, gekenmerkt door drie eigenschappen: interpreteerbaarheid, trouw en betrouwbaarheid. Hiertoe stellen we ReFIne voor, een nieuw trainingsframework dat supervised fine-tuning integreert met GRPO om modellen aan te moedigen om: (i) interpreteerbaarheid te verbeteren door gestructureerde, op tags gebaseerde sporen te produceren met hoogwaardige planning die gemakkelijker te volgen zijn voor mensen; (ii) trouw te vergroten door expliciet de beslissende informatie die elke oplossing leidt, bloot te leggen, met consistente kruisverwijzingen; en (iii) betrouwbaarheid te bevorderen door zelfevaluaties te bieden van zowel de geldigheid van de afleiding als het vertrouwen in het uiteindelijke antwoord. We passen ReFIne toe op de Qwen3-modellen op meerdere schalen (1.7B/4B/8B) en evalueren deze over wiskundige benchmarks van verschillende moeilijkheidsgraden. Onze experimentele resultaten tonen aan dat ReFIne-modellen duidelijkere en beter gestructureerde redeneersporen genereren (interpreteerbaarheid +44,0%), hun onderliggende beslissingsproces trouwer blootleggen (trouw +18,8%) en informatieve vertrouwensschattingen bieden (betrouwbaarheid +42,4%). Deze bevindingen benadrukken een over het hoofd gezien maar belangrijk richting: redeneermodellen moeten niet alleen geoptimaliseerd worden voor nauwkeurigheid, maar ook voor bredere dimensies van betrouwbaarheid. Onze code is beschikbaar op: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
Tijdreeksvoorspelling (Time Series Forecasting, TSF) blijft een uitdagend en grotendeels onopgelost probleem in machine learning, ondanks recente inspanningen waarbij gebruik wordt gemaakt van Large Language Models (LLMs), die voornamelijk vertrouwen op Transformer-architecturen. Empirisch bewijs toont consistent aan dat zelfs krachtige Transformers vaak niet beter presteren dan veel eenvoudigere modellen, zoals lineaire modellen, bij TSF-taken; een grondig theoretisch begrip van dit fenomeen blijft echter beperkt. In dit artikel bieden we een theoretische analyse van de beperkingen van Transformers voor TSF vanuit het perspectief van In-Context Learning (ICL)-theorie. Specifiek, onder AR(p)-data, stellen we vast dat: (1) Lineaire Self-Attention (LSA)-modellen geen lagere verwachte MSE kunnen bereiken dan klassieke lineaire modellen voor in-context voorspelling; (2) naarmate de contextlengte naar oneindig nadert, benadert LSA asymptotisch de optimale lineaire voorspeller; en (3) onder Chain-of-Thought (CoT)-stijl inferentie storten voorspellingen exponentieel in naar het gemiddelde. We valideren deze bevindingen empirisch via zorgvuldig ontworpen experimenten. Onze theorie werpt niet alleen licht op verschillende eerder onderbelichte fenomenen, maar biedt ook praktische inzichten voor het ontwerpen van effectievere voorspellingsarchitecturen. We hopen dat ons werk het bredere onderzoeksgemeenschap aanmoedigt om de fundamentele theoretische beperkingen van TSF opnieuw te bekijken en de directe toepassing van steeds complexere architecturen kritisch te evalueren zonder diepgaand onderzoek.
Recente ontwikkelingen in Large Language Models (LLMs) laten zien dat het verlengen van redeneerketens de prestaties aanzienlijk verbetert bij complexe taken. Hoewel het onthullen van deze redeneersporen gebruikers helpt om het probleemoplossingsproces van het model beter te volgen, te verifiëren en ervan te leren, maakt het ze ook zeer kwetsbaar voor ongeoorloofde distillatie. Om dit risico te beperken, nemen aanbieders van propriëtaire modellen vaak agressieve beschermingsstrategieën aan, zoals het vervangen van gedetailleerde redeneringen door korte samenvattingen, waardoor gebruikers waardevolle tussentijdse informatie wordt ontnomen. Om deze afweging aan te pakken, stellen we PART voor, een informatiebehoudende antidistillatie-herformulering van redeneersporen. Geïnspireerd door het verschil tussen hoe mensen redeneersporen begrijpen en hoe LLMs ze gebruiken voor supervised fine-tuning, ontwerpen we een eenvoudige maar effectieve tweestaps herformulering: het verwijderen van zelfsprekend gedrag en het herordenen van subconclusies. Een klein hulpmodel wordt getraind om deze herformulering uit te voeren, wat minimale rekenkosten met zich meebrengt. Uitgebreide experimenten tonen aan dat PART consistent distillatie verstoort bij studentmodellen van verschillende groottes en typen op diverse redeneerbenchmarks. Bijvoorbeeld, wanneer getraind op herformuleerde sporen, daalt zelfs de prestaties van een groot 32B studentmodel van 54,17 naar 46,88 op AIME 2024, wat overeenkomt met een degradatie van 13,5%.
Chatbotaanbieders (bijv. OpenAI) vertrouwen op gelaagde abonnementsmodellen om inkomsten te genereren, waarbij ze basismodellen aanbieden aan gratis gebruikers en geavanceerde modellen aan betalende abonnees. Een fijnmaziger 'pay-to-unlock'-systeem voor premiumfuncties (bijv. wiskunde, programmeren) wordt echter als economisch haalbaarder beschouwd voor de aanbieders. Zo'n systeem vereist een functievergrendelingstechniek (FLoTE) die (i) effectief is in het weigeren van vergrendelde functies, (ii) het nut behoudt voor ontgrendelde functies, (iii) robuust is tegen omzeiling of ongeoorloofd delen van inloggegevens, en (iv) schaalbaar is naar meerdere functies en gebruikers. Bestaande FLoTEs (bijv. wachtwoordvergrendelde modellen) zijn echter niet robuust of schaalbaar. Wij presenteren Locket, de eerste robuuste en schaalbare FLoTE om 'pay-to-unlock'-systemen mogelijk te maken. Locket gebruikt een nieuwe samenvoegingsmethode om adapters aan een LLM te koppelen voor het weigeren van ongeautoriseerde functies. Onze uitgebreide evaluatie toont aan dat Locket effectief is (100% weigering bij vergrendelde functies), het nut behoudt (≤ 7% nuttigheidsverlies bij ontgrendelde functies), robuust is (≤ 5% aanvalssuccesratio), en schaalbaar is naar meerdere functies en gebruikers.
Recente veiligheidsmaatregelen op basis van redenering voor Large Reasoning Models (LRMs), zoals deliberatieve afstemming, hebben een sterke verdediging tegen jailbreak-aanvallen getoond. Door gebruik te maken van het redeneervermogen van LRMs helpen deze maatregelen de modellen om de veiligheid van gebruikersinvoer te beoordelen voordat ze definitieve reacties genereren. Het krachtige redeneervermogen kan de intentie van de invoervraag analyseren en zal weigeren om te assisteren zodra het de schadelijke intentie detecteert die verborgen is door jailbreak-methoden. Dergelijke maatregelen hebben een aanzienlijke verbetering in de verdediging laten zien, zoals de bijna perfecte weigeringspercentages bij de open-source gpt-oss-serie. Helaas ontdekken we dat deze krachtige, op redenering gebaseerde maatregelen extreem kwetsbaar kunnen zijn voor subtiele manipulatie van de invoerprompts, en eenmaal gekaapt, kunnen leiden tot nog schadelijkere resultaten. Specifiek onthullen we eerst een verrassend kwetsbaar aspect van deze maatregelen: het simpelweg toevoegen van een paar sjabloontokens aan de invoerprompt kan de schijnbaar krachtige maatregelen succesvol omzeilen en leiden tot expliciete en schadelijke reacties. Om verder te onderzoeken, introduceren we een reeks jailbreak-methoden die de op redenering gebaseerde maatregelen ondermijnen. Onze aanvallen beslaan white-, gray- en black-box-instellingen en variëren van moeiteloze sjabloonmanipulaties tot volledig geautomatiseerde optimalisatie. Naast het potentieel voor schaalbare implementatie, behalen deze methoden ook alarmerend hoge aanvalssuccespercentages (bijvoorbeeld meer dan 90% over 5 verschillende benchmarks op de gpt-oss-serie, zowel bij lokale hostmodellen als online API-services). Evaluaties over verschillende toonaangevende open-source LRMs bevestigen dat deze kwetsbaarheden systemisch zijn, wat de dringende behoefte aan sterkere afstemmingstechnieken voor open-source LRMs onderstreept om kwaadwillig misbruik te voorkomen. De code is open-source beschikbaar op https://chenxshuo.github.io/bag-of-tricks.
We introduceren SynthID-Image, een op deep learning gebaseerd systeem voor het onzichtbaar watermerken van AI-gegenereerde afbeeldingen. Dit artikel documenteert de technische vereisten, bedreigingsmodellen en praktische uitdagingen bij het op internetschaal implementeren van een dergelijk systeem, waarbij de belangrijkste eisen van effectiviteit, nauwkeurigheid, robuustheid en beveiliging worden behandeld. SynthID-Image is gebruikt om meer dan tien miljard afbeeldingen en videoframes te watermerken in Google's diensten, en de bijbehorende verificatieservice is beschikbaar voor vertrouwde testers. Voor de volledigheid presenteren we een experimentele evaluatie van een externe modelvariant, SynthID-O, die beschikbaar is via partnerschappen. We vergelijken SynthID-O met andere post-hoc watermerkmethoden uit de literatuur en tonen aan dat het state-of-the-art prestaties levert op het gebied van visuele kwaliteit en robuustheid tegen veelvoorkomende beeldverstoringen. Hoewel dit werk zich richt op visuele media, zijn de conclusies over implementatie, beperkingen en bedreigingsmodellen generaliseerbaar naar andere modaliteiten, waaronder audio. Dit artikel biedt een uitgebreide documentatie voor de grootschalige implementatie van deep learning-gebaseerde mediaprovenancesystemen.
Contrastieve audio-taal voorafgaande training levert krachtige gezamenlijke representaties op, maar een hardnekkige kloof tussen audio- en tekstmodaliteiten beperkt de voordelen van het koppelen van multimodale encoders aan grote taalmodellen (LLM's). Wij presenteren Diffusion-Link, een op diffusie gebaseerde module die de modaliteitskloof overbrugt door audio-embeddingen generatief in te passen in de tekst-embedding distributie. De module wordt getraind op de uitvoer-embedding van de bevroren multimodale encoder en geïmplementeerd als een lichtgewicht netwerk met drie resterende MLP-blokken. Om het effect van Diffusion-Link op de koppeling van multimodale encoder-LLM te beoordelen, evalueren we op Automatische Audiobeschrijving (AAC); voor zover wij weten is dit de eerste toepassing van diffusie-gebaseerde modaliteitsoverbrugging op AAC. We rapporteren twee resultaten. (1) Analyse van de modaliteitskloof: op basis van gelijkenis- en geometrische criteria vermindert Diffusion-Link de modaliteitskloof het meest in vergelijking met eerdere diffusie-gebaseerde methoden en toont het een collectieve migratie van audio-embeddingen naar de tekstdistributie. (2) Downstream AAC: het toevoegen van Diffusion-Link aan dezelfde multimodale LLM-baseline behaalt state-of-the-art resultaten op AudioCaps in zowel zero-shot als volledig begeleide beschrijving zonder externe kennis, met relatieve winsten tot 52,5% en 7,5%, respectievelijk. Deze bevindingen tonen aan dat het dichten van de modaliteitskloof cruciaal is voor een effectieve koppeling tussen multimodale encoders en LLM's, en dat diffusie-gebaseerde modaliteitsoverbrugging een veelbelovende richting biedt voorbij kennis-retrieval-gerichte ontwerpen. Code wordt vrijgegeven na acceptatie https://github.com/DevKiHyun/Diffusion-Link
Deep Research (DR) agents gebouwd op Large Language Models (LLMs) kunnen complex, meerstaps onderzoek uitvoeren door taken te decomponeren, online informatie op te halen en gedetailleerde rapporten samen te stellen. Het misbruik van LLMs met zulke krachtige mogelijkheden kan echter tot nog grotere risico's leiden. Dit is vooral zorgwekkend in hoogrisico- en kennisintensieve domeinen zoals biosecurity, waar DR een professioneel rapport kan genereren dat gedetailleerde verboden kennis bevat. Helaas hebben we dergelijke risico's in de praktijk aangetroffen: het simpelweg indienen van een schadelijke query, die een standalone LLM direct afwijst, kan een gedetailleerd en gevaarlijk rapport van DR agents opleveren. Dit benadrukt de verhoogde risico's en onderstreept de noodzaak van een diepgaande veiligheidsanalyse. Toch schieten jailbreak-methoden die voor LLMs zijn ontworpen tekort in het blootleggen van dergelijke unieke risico's, omdat ze niet gericht zijn op het onderzoeksvermogen van DR agents. Om deze kloof te overbruggen, stellen we twee nieuwe jailbreak-strategieën voor: Plan Injection, waarbij kwaadaardige subdoelen in het plan van de agent worden geïnjecteerd; en Intent Hijack, waarbij schadelijke queries worden herformuleerd als academische onderzoeksvragen. We hebben uitgebreide experimenten uitgevoerd met verschillende LLMs en diverse veiligheidsbenchmarks, waaronder algemene en biosecurity-gerelateerde verboden prompts. Deze experimenten onthullen 3 belangrijke bevindingen: (1) De alignment van de LLMs faalt vaak in DR agents, waarbij schadelijke prompts die in academische termen zijn geformuleerd de intentie van de agent kunnen kapen; (2) Meerstaps planning en uitvoering verzwakken de alignment, wat systemische kwetsbaarheden blootlegt die prompt-level beveiligingsmaatregelen niet kunnen aanpakken; (3) DR agents omzeilen niet alleen weigeringen, maar produceren ook coherentere, professionelere en gevaarlijkere inhoud in vergelijking met standalone LLMs. Deze resultaten tonen een fundamentele misalignment in DR agents aan en pleiten voor betere alignmenttechnieken die specifiek op DR agents zijn afgestemd. Code en datasets zijn beschikbaar op https://chenxshuo.github.io/deeper-harm.
Bestaande denoising generatieve modellen zijn gebaseerd op het oplossen van gediscretiseerde reverse-time SDE's of ODE's. In dit artikel identificeren we een lang over het hoofd gezien maar wijdverbreid probleem in deze familie van modellen: een mismatch tussen het vooraf gedefinieerde ruisniveau en het daadwerkelijke ruisniveau dat is gecodeerd in tussenliggende toestanden tijdens het samplingproces. We verwijzen naar deze mismatch als ruisverschuiving. Door empirische analyse tonen we aan dat ruisverschuiving veel voorkomt in moderne diffusiemodellen en een systematische bias vertoont, wat leidt tot suboptimale generatie als gevolg van zowel out-of-distribution generalisatie als onnauwkeurige denoising updates. Om dit probleem aan te pakken, stellen we Noise Awareness Guidance (NAG) voor, een eenvoudige maar effectieve correctiemethode die expliciet de samplingtrajectoriën stuurt om consistent te blijven met het vooraf gedefinieerde ruisschema. We introduceren verder een classifier-free variant van NAG, die gezamenlijk een ruis-conditioneel en een ruis-onconditioneel model traint via ruis-conditionele dropout, waardoor de behoefte aan externe classifiers wordt geëlimineerd. Uitgebreide experimenten, waaronder ImageNet-generatie en diverse supervised fine-tuning taken, tonen aan dat NAG consistent ruisverschuiving vermindert en de generatiekwaliteit van mainstream diffusiemodellen aanzienlijk verbetert.
Diffusie-gebaseerde grote taalmodellen (dLLM's) zijn naar voren gekomen als een veelbelovend alternatief voor autoregressieve (AR) LLM's, waarbij ze gebruikmaken van op ruisverwijdering gebaseerde generatie om inherente paralleliteit mogelijk te maken. Hoewel er steeds meer open-source dLLM-modellen verschijnen, blijft hun brede adoptie beperkt door het ontbreken van een gestandaardiseerd en efficiënt inferentiekader. Wij presenteren dInfer, een efficiënt en uitbreidbaar kader voor dLLM-inferentie. dInfer deelt de inferentiepijplijn op in vier modulaire componenten—model, diffusie-iteratiebeheerder, decodeerstrategie en KV-cachebeheerder—en integreert nieuwe algoritmen voor elke component naast systeemniveau-optimalisaties. Door deze combinatie van algoritmische innovaties en systeemverbeteringen behaalt dInfer aanzienlijke efficiëntiewinsten zonder in te leveren op uitvoerkwaliteit op LLaDA-MoE. Bij batchgrootte 1 overschrijdt het 1.100 tokens per seconde op HumanEval en gemiddeld meer dan 800 tokens per seconde over zes benchmarks op 8x H800 GPU's. Vergeleken met eerdere systemen biedt dInfer een 10x versnelling ten opzichte van Fast-dLLM terwijl het vergelijkbare modelprestaties behoudt. Zelfs vergeleken met het AR-model (met een vergelijkbaar aantal activeringsparameters en prestaties) QWen2.5-3B, dat sterk is geoptimaliseerd met de nieuwste vLLM-inferentie-engine, levert dInfer nog steeds een 2-3x versnelling. De implementatie van dInfer is open-source beschikbaar op https://github.com/inclusionAI/dInfer.