Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel heeft als doel een grote hindernis te overwinnen bij het opschalen van RL (Reinforcement Learning) voor redeneren met LLM's (Large Language Models), namelijk het ineenstorten van de beleidsentropie. Dit fenomeen wordt consistent waargenomen bij uitgebreide RL-runs zonder entropie-interventie, waarbij de beleidsentropie in de vroege trainingsfase sterk daalt. Dit verminderde verkenningsvermogen gaat altijd gepaard met een verzadiging van de beleidsprestaties. In de praktijk hebben we een transformatievergelijking R=-a*e^H+b vastgesteld tussen entropie H en downstream-prestaties R. Deze empirische wet geeft sterk aan dat de beleidsprestaties worden ingeruild voor beleidsentropie, waardoor ze worden beperkt door het uitputten ervan, en het plafond volledig voorspelbaar is bij H=0, R=-a+b. Onze bevinding maakt entropiebeheer noodzakelijk voor continue exploratie bij het opschalen van rekenkracht voor RL. Hiertoe onderzoeken we entropiedynamiek zowel theoretisch als empirisch. Onze afleiding benadrukt dat de verandering in beleidsentropie wordt aangedreven door de covariantie tussen actiekans en de verandering in logits, die proportioneel is aan het voordeel bij het gebruik van Policy Gradient-achtige algoritmen. Empirisch onderzoek toont aan dat de waarden van de covariantieterm en entropieverschillen exact overeenkomen, wat de theoretische conclusie ondersteunt. Bovendien blijft de covariantieterm gedurende de training meestal positief, wat verder verklaart waarom de beleidsentropie monotoon zou afnemen. Door het mechanisme achter entropiedynamiek te begrijpen, worden we gemotiveerd om entropie te beheersen door de update van tokens met hoge covariantie te beperken. Specifiek stellen we twee eenvoudige maar effectieve technieken voor, namelijk Clip-Cov en KL-Cov, die respectievelijk tokens met hoge covarianties afkappen en een KL-straf toepassen. Experimenten tonen aan dat deze methoden exploratie aanmoedigen, waardoor het beleid helpt ontsnappen aan entropie-ineenstorting en betere downstream-prestaties bereikt.
LLM-gebaseerde agents hebben veelbelovende capaciteiten getoond in een groeiend aantal software engineering (SWE) taken. Het vooruitgang boeken op dit gebied wordt echter geconfronteerd met twee kritieke uitdagingen. Ten eerste is hoogwaardige trainingsdata schaars, met name data die realistische SWE-scenario's weerspiegelt, waarbij agents moeten interacteren met ontwikkelomgevingen, code moeten uitvoeren en hun gedrag moeten aanpassen op basis van de resultaten van hun acties. Bestaande datasets zijn beperkt tot eenmalige codegeneratie of bestaan uit kleine, handmatig samengestelde collecties van interactieve taken, waarbij zowel schaal als diversiteit ontbreken. Ten tweede beïnvloedt het gebrek aan nieuwe interactieve SWE-taken de evaluatie van snel verbeterende modellen, aangezien statische benchmarks snel verouderd raken door contaminatieproblemen. Om deze beperkingen aan te pakken, introduceren we een nieuwe, geautomatiseerde en schaalbare pipeline om continu realistische interactieve SWE-taken te extraheren uit diverse GitHub-repositories. Met behulp van deze pipeline construeren we SWE-rebench, een openbare dataset bestaande uit meer dan 21.000 interactieve Python-gebaseerde SWE-taken, geschikt voor reinforcement learning van SWE-agents op grote schaal. Daarnaast gebruiken we de continue aanvoer van nieuwe taken die zijn verzameld met de SWE-rebench-methodologie om een contaminatievrije benchmark te bouwen voor agent-gebaseerde software engineering. We vergelijken de resultaten van verschillende LLM's op deze benchmark met de resultaten op SWE-bench Verified en tonen aan dat de prestaties van sommige taalmogelijkheden mogelijk worden opgeblazen door contaminatieproblemen.
Grote Taalmodellen (LLMs) bereiken indrukwekkende redeneervaardigheden tegen de kosten van aanzienlijke inferentie-overhead, wat aanzienlijke implementatie-uitdagingen met zich meebrengt. Hoewel gedistilleerde Kleine Taalmodellen (SLMs) de efficiëntie aanzienlijk verbeteren, lijdt hun prestaties omdat ze de redeneerpaden van LLMs niet kunnen volgen. Gelukkig laten we zien dat slechts een klein deel van de tokens daadwerkelijk de redeneerpaden tussen LLMs en SLMs divergeert. De meeste gegenereerde tokens zijn ofwel identiek of vertonen neutrale verschillen, zoals kleine variaties in afkortingen of uitdrukkingen. Gebruikmakend van dit inzicht introduceren we **Roads to Rome (R2R)**, een neurale token-routeringsmethode die selectief LLMs gebruikt voor deze kritieke, pad-divergerende tokens, terwijl het merendeel van de token-generatie aan het SLM wordt overgelaten. We ontwikkelen ook een automatische datageneratiepijplijn die divergerende tokens identificeert en token-level routeringslabels genereert om de lichtgewicht router te trainen. We passen R2R toe om de R1-1.5B en R1-32B modellen uit de DeepSeek-familie te combineren, en evalueren op uitdagende wiskunde-, coderings- en QA-benchmarks. Met een gemiddeld geactiveerd parameterformaat van 5.6B overtreft R2R de gemiddelde nauwkeurigheid van R1-7B met 1.6x, en presteert zelfs beter dan het R1-14B model. Vergeleken met R1-32B levert het een 2.8x versnelling in wall-clock tijd met vergelijkbare prestaties, wat de Pareto-grens van test-time schaalbaarheidsefficiëntie vooruit helpt. Onze code is beschikbaar op https://github.com/thu-nics/R2R.
Het succes van DeepSeek-R1 onderstreept de belangrijke rol van reinforcement learning (RL) bij het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs). In dit werk presenteren we Skywork-OR1, een effectieve en schaalbare RL-implementatie voor lange Chain-of-Thought (CoT) modellen. Gebaseerd op de DeepSeek-R1-Distill modelreeks, behaalt onze RL-aanpak aanzienlijke prestatieverbeteringen, waarbij de gemiddelde nauwkeurigheid over AIME24, AIME25 en LiveCodeBench stijgt van 57,8% naar 72,8% (+15,0%) voor het 32B-model en van 43,6% naar 57,5% (+13,9%) voor het 7B-model. Ons Skywork-OR1-32B-model overtreft zowel DeepSeek-R1 als Qwen3-32B op de AIME24- en AIME25-benchmarks, terwijl het vergelijkbare resultaten behaalt op LiveCodeBench. De Skywork-OR1-7B en Skywork-OR1-Math-7B modellen tonen competitieve redeneervaardigheden aan onder modellen van vergelijkbare grootte. We voeren uitgebreide ablatiestudies uit op de kerncomponenten van onze trainingspipeline om hun effectiviteit te valideren. Daarnaast onderzoeken we grondig het fenomeen van entropie-instorting, identificeren we belangrijke factoren die de entropiedynamiek beïnvloeden, en tonen we aan dat het beperken van voortijdige entropie-instorting cruciaal is voor verbeterde testprestaties. Om gemeenschapsonderzoek te ondersteunen, maken we onze modelgewichten, trainingscode en trainingsdatasets volledig open source.
Redenerende Vision-Language Models (VLMs) hebben veelbelovende prestaties getoond bij complexe multimodale taken. Ze staan echter nog steeds voor aanzienlijke uitdagingen: ze zijn zeer gevoelig voor redeneerfouten, vereisen grote hoeveelheden geannoteerde data of nauwkeurige verificatoren, en hebben moeite om zich buiten specifieke domeinen te generaliseren. Om deze beperkingen aan te pakken, onderzoeken we zelfcorrectie als strategie om redenerende VLMs te verbeteren. We voeren eerst een diepgaande analyse uit van de zelfcorrectiecapaciteiten van redenerende VLMs en identificeren belangrijke hiaten. Op basis van onze bevindingen introduceren we Sherlock, een trainingsframework voor zelfcorrectie en zelfverbetering. Sherlock introduceert een trajectniveau zelfcorrectiedoel, een methode voor het construeren van voorkeursdata op basis van visuele perturbatie, en een dynamische beta voor voorkeursafstemming. Zodra het model zelfcorrectiecapaciteiten heeft verworven met slechts 20k willekeurig bemonsterde geannoteerde data, blijft het zichzelf verbeteren zonder externe supervisie. Gebouwd op het Llama3.2-Vision-11B-model, behaalt Sherlock opmerkelijke resultaten op acht benchmarks, met een gemiddelde nauwkeurigheid van 64.1 bij directe generatie en 65.4 na zelfcorrectie. Het presteert beter dan LLaVA-CoT (63.2), Mulberry (63.9) en LlamaV-o1 (63.4) terwijl het minder dan 20% van de geannoteerde data gebruikt.
Moderne single-image super-resolutie (SISR) modellen leveren foto-realistische resultaten bij de schaalfactoren waarop ze zijn getraind, maar falen wanneer ze gevraagd worden om veel verder te vergroten dan dat regime. Wij pakken dit schaalbaarheidsprobleem aan met Chain-of-Zoom (CoZ), een model-agnostisch raamwerk dat SISR factoriseert in een autoregressieve keten van tussenliggende schaaltoestanden met multi-schaalbewuste prompts. CoZ hergebruikt herhaaldelijk een backbone SR-model, waarbij de conditionele waarschijnlijkheid wordt opgesplitst in behapbare subproblemen om extreme resoluties te bereiken zonder aanvullende training. Omdat visuele aanwijzingen afnemen bij hoge vergrotingen, verrijken we elke zoomstap met multi-schaalbewuste tekstprompts die worden gegenereerd door een vision-language model (VLM). De prompt-extractor zelf wordt afgestemd met Generalized Reward Policy Optimization (GRPO) met een criticus-VLM, waarbij de tekstbegeleiding wordt afgestemd op menselijke voorkeuren. Experimenten tonen aan dat een standaard 4x diffusie SR-model ingepakt in CoZ een vergroting van meer dan 256x bereikt met hoge perceptuele kwaliteit en trouw. Projectpagina: https://bryanswkim.github.io/chain-of-zoom/.
Het verbeteren van Multi-modale Large Language Models (MLLMs) in de post-trainingsfase berust doorgaans op supervised fine-tuning (SFT) of reinforcement learning (RL). Deze supervised methoden vereisen echter kostbare en handmatig geannoteerde multi-modale data—een uiteindelijk onhoudbare bron. Hoewel recente inspanningen unsupervised post-training hebben onderzocht, zijn hun methoden complex en moeilijk te herhalen. In dit werk zijn wij de eersten die het gebruik van GRPO, een stabiel en schaalbaar online RL-algoritme, onderzoeken om continue zelfverbetering mogelijk te maken zonder externe supervisie. Wij stellen MM-UPT voor, een eenvoudig maar effectief raamwerk voor unsupervised post-training van MLLMs. MM-UPT bouwt voort op GRPO en vervangt traditionele beloningssignalen door een zelfbeloningsmechanisme gebaseerd op meerderheidsstemming over meerdere bemonsterde reacties. Onze experimenten tonen aan dat MM-UPT het redeneervermogen van Qwen2.5-VL-7B aanzienlijk verbetert (bijv., 66,3 %rightarrow72,9 % op MathVista, 62,9 %rightarrow68,7 % op We-Math), waarbij gebruik wordt gemaakt van standaard datasets zonder grondwaarheidlabels. MM-UPT overtreft ook eerdere unsupervised baselines en benadert zelfs de resultaten van supervised GRPO. Bovendien laten we zien dat het incorporeren van synthetische vragen, uitsluitend gegenereerd door de MLLM zelf, de prestaties eveneens kan verbeteren, wat een veelbelovende aanpak voor schaalbare zelfverbetering benadrukt. Over het algemeen biedt MM-UPT een nieuw paradigma voor continue, autonome verbetering van MLLMs in afwezigheid van externe supervisie. Onze code is beschikbaar op https://github.com/waltonfuture/MM-UPT.
De efficiëntie van aandacht is cruciaal omdat de tijdcomplexiteit ervan kwadratisch toeneemt met de sequentielengte. SageAttention2 lost dit op door kwantisering te gebruiken om matrixvermenigvuldigingen (Matmul) in aandacht te versnellen. Om SageAttention2 verder te versnellen, stellen we voor om de snellere instructie van FP8 Matmul geaccumuleerd in FP16 te benutten. Deze instructie is 2x sneller dan de FP8 Matmul die in SageAttention2 wordt gebruikt. Onze experimenten tonen aan dat SageAttention2++ een 3,9x versnelling bereikt ten opzichte van FlashAttention, terwijl dezelfde aandachtnauwkeurigheid als SageAttention2 wordt behouden. Dit betekent dat SageAttention2++ effectief verschillende modellen versnelt, waaronder die voor taal-, beeld- en videogeneratie, met verwaarloosbaar verlies in end-to-end metrieken. De code zal beschikbaar zijn op https://github.com/thu-ml/SageAttention.
We presenteren RenderFormer, een neurale renderingpijplijn die direct een afbeelding weergeeft vanuit een driehoekgebaseerde representatie van een scène met volledige globale belichtingseffecten en die geen per-scène training of fine-tuning vereist. In plaats van een fysica-gerichte benadering van rendering te hanteren, formuleren we rendering als een sequentie-naar-sequentie transformatie waarbij een reeks tokens die driehoeken met reflectie-eigenschappen representeren, wordt omgezet in een reeks uitvoertokens die kleine stukjes pixels representeren. RenderFormer volgt een tweestappenpijplijn: een view-onafhankelijke fase die lichttransport tussen driehoeken modelleert, en een view-afhankelijke fase die een token die een bundel stralen representeert, transformeert naar de corresponderende pixelwaarden, geleid door de driehoeksequentie uit de view-onafhankelijke fase. Beide fasen zijn gebaseerd op de transformer-architectuur en worden geleerd met minimale voorafgaande beperkingen. We demonstreren en evalueren RenderFormer op scènes met variërende complexiteit in vorm en lichttransport.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben indrukwekkende keten-van-gedachten-redeneervaardigheden laten zien, waarbij reinforcement learning (RL) een cruciale rol speelt in deze vooruitgang. Hoewel "aha-moment"-patronen—waarbij modellen zelfcorrectie vertonen door reflectie—vaak worden toegeschreven aan emergente eigenschappen van RL, tonen we eerst aan dat deze patronen bestaan in multimodale LLMs (MLLMs) vóór RL-training, maar niet noodzakelijkerwijs correleren met verbeterde redeneerprestaties. Op basis van deze inzichten presenteren we een uitgebreide studie over het verbeteren van multimodaal redeneren via een tweefasenbenadering: (1) supervised fine-tuning (SFT) als een koude start met gestructureerde keten-van-gedachten-redeneerpatronen, gevolgd door (2) reinforcement learning via GRPO om deze vaardigheden verder te verfijnen. Onze uitgebreide experimenten tonen aan dat deze gecombineerde aanpak consistent beter presteert dan zowel SFT-only als RL-only methoden op uitdagende multimodale redeneerbenchmarks. De resulterende modellen behalen state-of-the-art prestaties onder open-source MLLMs op zowel 3B als 7B schaal, waarbij ons 7B-model aanzienlijke verbeteringen laat zien ten opzichte van basismodellen (bijv., 66,3 %rightarrow73,4 % op MathVista, 62,9 %rightarrow70,4 % op We-Math) en ons 3B-model prestaties bereikt die competitief zijn met verschillende 7B-modellen. Over het algemeen biedt dit werk praktische richtlijnen voor het bouwen van geavanceerde multimodale redeneermodellen. Onze code is beschikbaar op https://github.com/waltonfuture/RL-with-Cold-Start.
Het aanpakken van complexe problemen uit de echte wereld vereist diepgaande informatievergaring en meerstaps redeneren. Recente vooruitgang in agent-gebaseerde systemen, geïllustreerd door Deep Research, benadrukt het potentieel voor autonoom meerstaps onderzoek. In dit werk presenteren we een samenhangend paradigma voor het bouwen van end-to-end agent-gebaseerde informatievergarende agentsystemen vanuit een data-gericht en trainingsfase-perspectief. Onze aanpak bestaat uit vier belangrijke fasen: (1) constructie van browsegegevens, (2) trajectmonsters, (3) supervised fine-tuning voor een effectieve koude start, en (4) reinforcement learning voor verbeterde generalisatie. We concretiseren dit raamwerk in een webagent gebaseerd op ReAct, WebDancer. Empirische evaluaties op de uitdagende informatievergarende benchmarks, GAIA en WebWalkerQA, tonen de sterke prestaties van WebDancer aan, waarbij aanzienlijke resultaten worden behaald en de effectiviteit van ons trainingsparadigma wordt benadrukt. Verdere analyse van de agenttraining biedt waardevolle inzichten en systematische handelingspaden voor het ontwikkelen van krachtigere agent-gebaseerde modellen. De codes en demo zullen worden vrijgegeven op https://github.com/Alibaba-NLP/WebAgent.
Diepe onderzoekssystemen vertegenwoordigen een opkomende klasse van agent-gebaseerde informatiezoekmethoden die uitgebreide en goed onderbouwde rapporten genereren voor complexe vragen. De meeste bestaande frameworks vertrouwen echter op dynamische commerciële zoek-API's, wat naast de kosten ook uitdagingen op het gebied van reproduceerbaarheid en transparantie met zich meebrengt. Om deze beperkingen aan te pakken, introduceren we DeepResearchGym, een open-source sandbox die een reproduceerbare zoek-API combineert met een rigoureus evaluatieprotocol voor het benchmarken van diepe onderzoekssystemen. De API indexeert grootschalige publieke webcorpora, namelijk ClueWeb22 en FineWeb, met behulp van een state-of-the-art dense retriever en approximate nearest neighbor search via DiskANN. Het behaalt een lagere latentie dan populaire commerciële API's terwijl het stabiele documentrankings over verschillende runs garandeert, en is vrij beschikbaar voor onderzoeksgebruik. Om de uitvoer van diepe onderzoekssystemen te evalueren, breiden we het Researchy Questions-benchmark uit met automatische metrieken via LLM-as-a-judge assessments om de afstemming op de informatiebehoeften van gebruikers, de trouw van de retrievals en de kwaliteit van rapporten te meten. Experimentele resultaten tonen aan dat systemen geïntegreerd met DeepResearchGym prestaties bereiken die vergelijkbaar zijn met die van commerciële API's, waarbij prestatie-rankings consistent blijven over verschillende evaluatiemetrieken. Een menselijke evaluatiestudie bevestigt verder dat ons automatische protocol overeenkomt met menselijke voorkeuren, wat het vermogen van het framework valideert om gecontroleerde beoordeling van diepe onderzoekssystemen te ondersteunen. Onze code en API-documentatie zijn beschikbaar op https://www.deepresearchgym.ai.
Next-token prediction dient als de fundamentele leertaak die redeneren in LLM's mogelijk maakt. Maar wat zou de leertaak moeten zijn wanneer we MLLM's willen uitrusten met temporele redeneervaardigheden voor video-invoer? Bestaande taken zoals video-vraagbeantwoording zijn vaak afhankelijk van annotaties van mensen of veel sterkere MLLM's, terwijl videobeschrijving de neiging heeft om temporeel redeneren te verstrengelen met ruimtelijke informatie. Om deze kloof te overbruggen, stellen we next-event prediction (NEP) voor, een leertaak die toekomstige videosegmenten benut als een rijke, zelfgesuperviseerde signaal om temporeel redeneren te bevorderen. We segmenteren elke video in verleden en toekomstige frames: de MLLM neemt de verleden frames als invoer en voorspelt een samenvatting van gebeurtenissen afgeleid van de toekomstige frames, waardoor het model wordt aangemoedigd om temporeel te redeneren om de taak te voltooien. Om deze taak te ondersteunen, hebben we V1-33K samengesteld, een dataset bestaande uit 33.000 automatisch geëxtraheerde videosegmenten die diverse real-world scenario's omvatten. We onderzoeken verder een reeks video-instructie-afstemmingsstrategieën om hun effecten op temporeel redeneren te bestuderen. Om de voortgang te evalueren, introduceren we FutureBench om de samenhang te beoordelen bij het voorspellen van onbekende toekomstige gebeurtenissen. Experimenten valideren dat NEP een schaalbare en effectieve trainingsparadigma biedt voor het bevorderen van temporeel redeneren in MLLM's.
Bedrijfszoekmachines hebben vaak moeite om nauwkeurige, domeinspecifieke informatie op te halen vanwege semantische mismatches en overlappende terminologieën. Deze problemen kunnen de prestaties van downstream toepassingen zoals kennisbeheer, klantenondersteuning en retrieval-augmented generatie-agents verslechteren. Om deze uitdaging aan te pakken, stellen we een schaalbaar framework voor hard-negative mining voor, specifiek ontworpen voor domeinspecifieke bedrijfsdata. Onze aanpak selecteert dynamisch semantisch uitdagende maar contextueel irrelevante documenten om geïmplementeerde herrangschikkingsmodellen te verbeteren. Onze methode integreert diverse embedding-modellen, voert dimensiereductie uit en selecteert op unieke wijze hard negatives, wat rekenkundige efficiëntie en semantische precisie waarborgt. Evaluatie op ons propriëtaire bedrijfscorpus (clouddienstdomein) toont aanzienlijke verbeteringen van 15\% in MRR@3 en 19\% in MRR@10 in vergelijking met state-of-the-art baselines en andere negative sampling-technieken. Verdere validatie op openbare domeinspecifieke datasets (FiQA, Climate Fever, TechQA) bevestigt de generaliseerbaarheid van onze methode en de gereedheid voor real-world toepassingen.
In dit werk introduceren we Few Shot Domain Adapting Graph (FS-DAG), een schaalbare en efficiënte modelarchitectuur voor het begrijpen van visueel rijke documenten (VRDU) in few-shot settings. FS-DAG maakt gebruik van domeinspecifieke en taal/visie-specifieke backbones binnen een modulair framework om zich aan te passen aan diverse documenttypen met minimale data. Het model is robuust tegen praktische uitdagingen zoals het omgaan met OCR-fouten, spelfouten en domeinverschuivingen, wat cruciaal is voor implementaties in de echte wereld. FS-DAG presteert uitstekend met minder dan 90M parameters, waardoor het zeer geschikt is voor complexe real-world toepassingen voor Informatie-extractie (IE) taken waar computermiddelen beperkt zijn. We demonstreren de capaciteiten van FS-DAG door middel van uitgebreide experimenten voor informatie-extractietaken, waarbij significante verbeteringen in convergentiesnelheid en prestaties worden getoond in vergelijking met state-of-the-art methoden. Daarnaast benadrukt dit werk de voortdurende vooruitgang in het ontwikkelen van kleinere, efficiëntere modellen die niet inboeten aan prestaties. Code: https://github.com/oracle-samples/fs-dag
Grote Taalmodellen (LLMs) hebben opmerkelijke algemene capaciteiten getoond, maar het verbeteren van vaardigheden zoals redeneren vereist vaak aanzienlijke rekenkracht en kan hun generalisatievermogen in gevaar brengen. Hoewel Parameter-Efficiënte Fine-Tuning (PEFT) methoden een meer resourcebewust alternatief bieden, vereisen deze doorgaans hertraining voor elk LLM-backbone vanwege architectuurafhankelijkheden. Om deze uitdagingen aan te pakken, stellen wij hier de Universal Reasoner (UniR) voor – een enkele, lichtgewicht, samenstelbare en plug-and-play redeneermodule die kan worden gebruikt met elk bevroren LLM om het te voorzien van gespecialiseerde redeneercapaciteiten. Specifiek deconstrueert UniR de beloning in een zelfstandige redeneermodule die onafhankelijk wordt getraind met vooraf gedefinieerde beloningen, waardoor trajectniveau-signalen effectief worden vertaald in tokenniveau-begeleiding. Eenmaal getraind, kan UniR tijdens inferentie worden gecombineerd met elk bevroren LLM door simpelweg zijn output-logits toe te voegen aan die van het LLM-backbone. Deze additieve structuur maakt modulaire compositie van nature mogelijk: meerdere UniR-modules die voor verschillende taken zijn getraind, kunnen gezamenlijk worden toegepast door hun logits op te tellen, waardoor complex redeneren via compositie mogelijk wordt. Experimentele resultaten op wiskundige redeneer- en machinaalvertaal-taken tonen aan dat UniR bestaande baseline fine-tuning methoden aanzienlijk overtreft bij gebruik van het Llama3.2-model. Bovendien toont UniR sterke zwak-naar-sterk generalisatie: redeneermodules die op kleinere modellen zijn getraind, begeleiden effectief veel grotere LLMs. Dit maakt UniR een kostenefficiënte, aanpasbare en robuuste oplossing voor het verbeteren van redeneren in LLMs zonder hun kerncapaciteiten in gevaar te brengen. Code is open-source beschikbaar op https://github.com/hangeol/UniR.
Autoregressieve taalmodellen (LMs) genereren één token per keer, terwijl menselijk redeneren opereert op hogere abstractieniveaus - zinnen, proposities en concepten. Dit contrast roept een centrale vraag op: Kunnen LMs op een vergelijkbare manier leren redeneren over gestructureerde semantische eenheden in plaats van ruwe tokenreeksen? In dit werk onderzoeken we of voorgetrainde LMs kunnen worden opgetild naar dergelijke abstracte redeneerruimtes door voort te bouwen op hun geleerde representaties. We presenteren een raamwerk dat een voorgetraind token-level LM aanpast om te opereren in zinsruimte door autoregressief continue embeddings van volgende zinnen te voorspellen. We verkennen twee embeddingparadigma's geïnspireerd door klassieke representatieleren: 1) semantische embeddings, geleerd via auto-encodering om de oppervlakkige betekenis te behouden; en 2) contextuele embeddings, getraind via volgende-zin-voorspelling om anticiperende structuur te coderen. We evalueren beide onder twee inferentieregimes: Gediscretiseerd, waarbij elke voorspelde embedding wordt gedecodeerd naar tekst voordat deze opnieuw wordt gecodeerd; en Continu, waarbij volledig in de embeddingruimte wordt geredeneerd voor verbeterde efficiëntie. Over vier domeinen - wiskunde, logica, gezond verstand en planning - laten contextuele embeddings onder continue inferentie competitieve prestaties zien met Chain-of-Thought (CoT) terwijl de inferentietijd FLOPs gemiddeld wordt gehalveerd. We presenteren ook vroege tekenen van schaalbaarheid en modulaire aanpassing. Tot introduceren we SentenceLens, een diagnostisch hulpmiddel dat tussenliggende modeltoestanden decodeert naar interpreteerbare zinnen, om latente trajecten te visualiseren. Samen geven onze resultaten aan dat voorgetrainde LMs effectief kunnen overstappen naar abstract, gestructureerd redeneren binnen latente embeddingruimtes.
Hoogwaardige meertalige trainingsdata is essentieel voor het effectief pretrainen van grote taalmmodellen (LLM's). Toch blijft de beschikbaarheid van geschikte open-source meertalige datasets beperkt. Bestaande state-of-the-art datasets vertrouwen voornamelijk op heuristische filtermethoden, wat zowel hun cross-linguale overdraagbaarheid als schaalbaarheid beperkt. Hier introduceren we JQL, een systematische aanpak die efficiënt diverse en hoogwaardige meertalige data op schaal samenstelt, terwijl de computationele eisen aanzienlijk worden verlaagd. JQL destilleert de annotatiecapaciteiten van LLM's in lichtgewicht annotatoren gebaseerd op voorgetrainde meertalige embeddings. Deze modellen tonen robuuste meertalige en cross-linguale prestaties, zelfs voor talen en schriften die niet tijdens de training zijn gezien. Empirisch geëvalueerd over 35 talen, overtreft het resulterende annotatiepijplijn huidige heuristische filtermethoden zoals Fineweb2 aanzienlijk. JQL verbetert opmerkelijkerwijs de kwaliteit van downstream modeltraining en verhoogt de dataretentieratio's. Ons onderzoek biedt praktische inzichten en waardevolle bronnen voor meertalige datacuratie, waardoor de standaarden voor de ontwikkeling van meertalige datasets worden verhoogd.
De recente opkomst van tekst-naar-beeld diffusiemodellen, zoals Stable Diffusion, heeft onderzoek gestimuleerd om deze aan te passen voor het genereren van 360-graden panorama's. Eerder werk heeft de haalbaarheid aangetoond van het gebruik van conventionele low-rank adaptatietechnieken op vooraf getrainde diffusiemodellen om panoramische afbeeldingen te genereren. De aanzienlijke domeinkloof tussen perspectief- en panoramische afbeeldingen roept echter vragen op over de onderliggende mechanismen die dit empirische succes mogelijk maken. Wij veronderstellen en onderzoeken dat de trainbare tegenhangers verschillende gedragingen vertonen wanneer ze worden afgestemd op panoramische data, en dat een dergelijke aanpassing een intrinsiek mechanisme verbergt om de voorkennis binnen de vooraf getrainde diffusiemodellen te benutten. Onze analyse onthult het volgende: 1) de query- en key-matrices in de aandachtmodules zijn verantwoordelijk voor gemeenschappelijke informatie die kan worden gedeeld tussen de panoramische en perspectiefdomeinen, en zijn dus minder relevant voor panoramageneratie; en 2) de value- en outputgewichtmatrices specialiseren zich in het aanpassen van vooraf getrainde kennis aan het panoramische domein, en spelen een kritischer rol tijdens het afstemmen voor panoramageneratie. We verifiëren deze inzichten empirisch door een eenvoudig framework genaamd UniPano te introduceren, met als doel een elegante basislijn te creëren voor toekomstig onderzoek. UniPano overtreft niet alleen bestaande methoden, maar vermindert ook aanzienlijk het geheugengebruik en de trainingsduur in vergelijking met eerdere dual-branch benaderingen, waardoor het schaalbaar is voor end-to-end panoramageneratie met hogere resolutie. De code zal worden vrijgegeven.
Naarmate Large Language Models (LLM's) steeds vaker deelnemen aan mens-AI-interacties, wordt het evalueren van hun Theory of Mind (ToM)-capaciteiten – met name hun vermogen om dynamische mentale toestanden te volgen – cruciaal. Hoewel bestaande benchmarks basis-ToM-vaardigheden beoordelen, richten ze zich voornamelijk op statische momentopnames van mentale toestanden, waarbij de temporele evolutie die kenmerkend is voor sociale interacties in de echte wereld over het hoofd wordt gezien. Wij presenteren DynToM, een nieuwe benchmark die specifiek is ontworpen om het vermogen van LLM's te evalueren om de temporele voortgang van mentale toestanden in onderling verbonden scenario's te begrijpen en te volgen. Via een systematisch vierstappenraamwerk genereren we 1.100 sociale contexten die 5.500 scenario's en 78.100 vragen omvatten, elk gevalideerd op realisme en kwaliteit. Onze uitgebreide evaluatie van tien state-of-the-art LLM's toont aan dat hun gemiddelde prestaties 44,7\% onder die van mensen liggen, waarbij de prestaties aanzienlijk verslechteren bij het volgen en redeneren over de verschuiving van mentale toestanden. Deze prestatiekloof benadrukt fundamentele beperkingen in het vermogen van huidige LLM's om de dynamische aard van menselijke mentale toestanden te modelleren.
We presenteren Thinking with Generated Images, een nieuw paradigma dat fundamenteel transformeert hoe grote multimodale modellen (LMMs) omgaan met visueel redeneren door hen in staat te stellen om naadloos te denken over tekst- en visuele modaliteiten via de spontane generatie van tussenliggende visuele denkstappen. Huidig visueel redeneren met LMMs is beperkt tot het verwerken van vaste, door de gebruiker aangeleverde afbeeldingen of het redeneren uitsluitend via tekstgebaseerde chain-of-thought (CoT). Thinking with Generated Images opent een nieuwe dimensie van cognitieve capaciteit waarin modellen actief tussenliggende visuele gedachten kunnen construeren, hun eigen visuele hypothesen kunnen bekritiseren en deze kunnen verfijnen als integrale componenten van hun redeneerproces. We demonstreren de effectiviteit van onze aanpak via twee complementaire mechanismen: (1) visuele generatie met tussenliggende visuele subdoelen, waarbij modellen complexe visuele taken opdelen in beheersbare componenten die progressief worden gegenereerd en geïntegreerd, en (2) visuele generatie met zelfkritiek, waarbij modellen een initiële visuele hypothese genereren, de tekortkomingen ervan analyseren via tekstueel redeneren en verfijnde uitvoer produceren op basis van hun eigen kritiek. Onze experimenten op visuele generatie benchmarks tonen aanzienlijke verbeteringen ten opzichte van baseline-benaderingen, waarbij onze modellen een relatieve verbetering van tot 50% (van 38% naar 57%) behalen in het omgaan met complexe multi-objectscenario's. Van biochemici die nieuwe eiwitstructuren verkennen, en architecten die itereren op ruimtelijke ontwerpen, tot forensisch analisten die crimescènes reconstrueren, en basketballers die strategische spelen visualiseren, onze aanpak stelt AI-modellen in staat om deel te nemen aan het soort visuele verbeelding en iteratieve verfijning dat menselijk creatief, analytisch en strategisch denken kenmerkt. We hebben onze open-source suite vrijgegeven op https://github.com/GAIR-NLP/thinking-with-generated-images.
Een kenmerk van menselijke innovatie is het proces van recombinatie – het creëren van originele ideeën door elementen van bestaande mechanismen en concepten te integreren. In dit werk automatiseren we het doorzoeken van de wetenschappelijke literatuur en bouwen we CHIMERA: een grootschalige kennisbank (KB) van recombinatievoorbeelden. CHIMERA kan worden gebruikt om op grote schaal empirisch te onderzoeken hoe wetenschappers concepten combineren en inspiratie putten uit verschillende domeinen, of om supervised machine learning-modellen te trainen die leren nieuwe creatieve, domeinoverschrijdende richtingen te voorspellen. Om deze KB te bouwen, introduceren we een nieuwe informatie-extractietaak waarbij recombinatie wordt geëxtraheerd uit wetenschappelijke paperabstracts, verzamelen we een hoogwaardig corpus van honderden handmatig geannoteerde abstracts, en gebruiken we dit om een LLM-gebaseerd extractiemodel te trainen. Het model wordt toegepast op een groot corpus van papers in het AI-domein, wat resulteert in een KB van meer dan 28K recombinatievoorbeelden. We analyseren CHIMERA om de eigenschappen van recombinatie in verschillende subgebieden van AI te verkennen. Tot slot trainen we een wetenschappelijk hypothesengeneratiemodel met behulp van de KB, dat nieuwe recombinatierichtingen voorspelt die onderzoekers in de praktijk inspirerend vinden. Onze data en code zijn beschikbaar op https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
Robuuste routeplanning onder onzekerheid is cruciaal voor logistiek in de praktijk, maar de meeste benchmarks gaan uit van statische, geïdealiseerde omstandigheden. Wij presenteren SVRPBench, de eerste open benchmark die hoogwaardige stochastische dynamiek in voertuigrouteplanning op stedelijke schaal vastlegt. Met meer dan 500 instanties en tot 1000 klanten simuleert het realistische bezorgomstandigheden: tijdsafhankelijke congestie, log-normale vertragingen, probabilistische ongevallen en empirisch onderbouwde tijdvensters voor zowel residentiële als commerciële klanten. Onze pijplijn genereert diverse, beperkingrijke scenario's, waaronder multi-depot en multi-voertuigopstellingen. Benchmarking toont aan dat state-of-the-art RL-oplossers zoals POMO en AM met meer dan 20% achteruitgaan onder distributieverschuiving, terwijl klassieke en metaheuristische methoden robuust blijven. Om reproduceerbaar onderzoek mogelijk te maken, publiceren we de dataset en evaluatiesuite. SVRPBench daagt de gemeenschap uit om oplossers te ontwerpen die verder gaan dan synthetische aannames en zich aanpassen aan onzekerheid in de echte wereld.
In Transformer-architecturen worden tokens\textemdash discrete eenheden afgeleid van ruwe data\textemdash gevormd door inputs in vaste-lengte segmenten op te delen. Elke token wordt vervolgens omgezet in een embedding, wat parallelle aandachtberekeningen mogelijk maakt terwijl de essentiële informatie van de input behouden blijft. Vanwege de kwadratische rekencomplexiteit van de zelf-attentiemechanismen in transformers, is tokenreductie voornamelijk gebruikt als een efficiëntiestrategie. Dit geldt vooral in domeinen met enkelvoudige visuele en taalgegevens, waar het helpt om rekencosten, geheugengebruik en inferentielatentie in balans te brengen. Ondanks deze vooruitgang stelt dit artikel dat tokenreductie zijn traditionele efficiëntiegerichte rol moet overstijgen in het tijdperk van grote generatieve modellen. In plaats daarvan positioneren we het als een fundamenteel principe in generatieve modellering, dat zowel de modelarchitectuur als bredere toepassingen kritisch beïnvloedt. Specifiek beargumenteren we dat tokenreductie in visuele, taal- en multimodale systemen het volgende kan bewerkstelligen: (i) diepere multimodale integratie en afstemming faciliteren, (ii) "overdenken" en hallucinaties verminderen, (iii) samenhang over lange inputs behouden, en (iv) de trainingsstabiliteit verbeteren, enz. We herdefiniëren tokenreductie als meer dan een efficiëntiemaatregel. Hiermee schetsen we veelbelovende toekomstige richtingen, waaronder algoritmeontwerp, tokenreductie geleid door reinforcement learning, tokenoptimalisatie voor in-context leren, en bredere ML- en wetenschappelijke domeinen. We benadrukken het potentieel om nieuwe modelarchitecturen en leerstrategieën te ontwikkelen die robuustheid verbeteren, interpreteerbaarheid vergroten en beter aansluiten bij de doelstellingen van generatieve modellering.
Dit artikel onderzoekt benaderingen om de redeneervaardigheden van Large Language Model (LLM)-agenten te verbeteren met behulp van Reinforcement Learning (RL). Specifiek richten we ons op scenario's met meervoudig gebruik van tools, die natuurlijk gemodelleerd kunnen worden als Markov Decision Processes (MDP's). Hoewel bestaande benaderingen vaak meervoudige LLM-agenten trainen met trajectniveau voordeelschatting in banditsettings, hebben ze moeite met toewijzing van credits op turnniveau over meerdere beslissingsstappen, wat hun prestaties op meervoudige redeneertaken beperkt. Om dit aan te pakken, introduceren we een fijnmazige strategie voor voordeelschatting op turnniveau om nauwkeurigere toewijzing van credits mogelijk te maken in interacties met meervoudige agenten. De strategie is algemeen en kan worden geïntegreerd in verschillende RL-algoritmen, zoals Group Relative Preference Optimization (GRPO). Onze experimentele evaluatie van meervoudige redeneer- en zoekgebaseerde toolgebruiktaken met GRPO-implementaties benadrukt de effectiviteit van het MDP-framework en de toewijzing van credits op turnniveau bij het bevorderen van de meervoudige redeneervaardigheden van LLM-agenten in complexe beslissingssettings. Onze methode behaalt 100% succes in tooluitvoering en 50% nauwkeurigheid in exacte antwoordovereenkomst, wat aanzienlijk beter is dan de baseline-methoden, die er niet in slagen tools aan te roepen en slechts 20-30% nauwkeurigheid in exacte overeenkomst bereiken.
Grote taalmodellen (LLMs) genereren doorgaans identieke of vergelijkbare reacties voor alle gebruikers bij dezelfde prompt, wat ernstige veiligheidsrisico's oplevert in hoogrisicotoepassingen waar gebruikerskwetsbaarheden sterk verschillen. Bestaande veiligheidsevaluaties zijn voornamelijk gebaseerd op context-onafhankelijke metrieken - zoals feitelijkheid, bias of toxiciteit - waarbij over het hoofd wordt gezien dat dezelfde reactie uiteenlopende risico's kan opleveren afhankelijk van de achtergrond of situatie van de gebruiker. Wij introduceren gepersonaliseerde veiligheid om deze leemte op te vullen en presenteren PENGUIN - een benchmark bestaande uit 14.000 scenario's in zeven gevoelige domeinen met zowel contextrijke als contextvrije varianten. Door zes toonaangevende LLMs te evalueren, tonen we aan dat gepersonaliseerde gebruikersinformatie de veiligheidsscores met 43,2% significant verbetert, wat de effectiviteit van personalisatie in veiligheidsafstemming bevestigt. Niet alle contextkenmerken dragen echter evenveel bij aan de veiligheidsverbetering. Om dit aan te pakken, ontwikkelen we RAISE - een trainingsvrij, tweestaps agentframework dat strategisch gebruikerspecifieke achtergrondinformatie verkrijgt. RAISE verbetert de veiligheidsscores met tot wel 31,6% ten opzichte van zes standaard LLMs, terwijl het een lage interactiekost behoudt van slechts 2,7 gebruikersvragen gemiddeld. Onze bevindingen benadrukken het belang van selectieve informatieverzameling in veiligheidskritieke domeinen en bieden een praktische oplossing voor het personaliseren van LLM-reacties zonder modelhertraining. Dit werk legt een basis voor veiligheidsonderzoek dat zich aanpast aan individuele gebruikerscontexten in plaats van uit te gaan van een universele schadestandaard.
Grote taalmodellen (LLM's) hebben opmerkelijke redeneervaardigheden getoond door schaalbenaderingen tijdens testtijd, met name wanneer ze zijn afgestemd met keten-van-gedachte (CoT)-gegevens die zijn gedistilleerd uit krachtigere grote redeneermodellen (LRM's). Deze redeneerketens bevatten echter vaak uitgebreide elementen die menselijke probleemoplossing weerspiegelen, gecategoriseerd als progressief redeneren (het essentiële ontwikkelingspad van de oplossing) en functionele elementen (verificatieprocessen, alternatieve oplossingsbenaderingen en foutcorrecties). Hoewel progressief redeneren cruciaal is, verhogen de functionele elementen de rekenkundige eisen aanzienlijk tijdens testtijd-inferentie. Wij introduceren PIR (Perplexity-based Importance Refinement), een principieel raamwerk dat het belang van elke redeneerstap kwantitatief evalueert op basis van de impact op het vertrouwen in de antwoordvoorspelling. PIR identificeert systematisch en snoeit selectief alleen functionele stappen met een laag belang, terwijl progressieve redeneercomponenten behouden blijven, waardoor geoptimaliseerde trainingsgegevens worden gecreëerd die de integriteit van het kernoplossingspad behouden terwijl de uitgebreidheid wordt verminderd. Modellen die zijn afgestemd op PIR-geoptimaliseerde gegevens vertonen superieure schaaleigenschappen tijdens testtijd, waarbij ze meer beknopte redeneerketens genereren en tegelijkertijd een verbeterde nauwkeurigheid (+0,9\% tot +6,6\%) bereiken met aanzienlijk verminderd tokengebruik (-3\% tot -41\%) over uitdagende redeneerbenchmarks (AIME, AMC en GPQA Diamond). Onze benadering toont sterke generaliseerbaarheid over verschillende modelgroottes, gegevensbronnen en tokenbudgetten, en biedt een praktische oplossing voor het inzetten van redeneerbare LLM's in scenario's waar efficiënte schaalbaarheid tijdens testtijd, reactietijd en rekenkundige efficiëntie waardevolle beperkingen zijn.
Het effectief ophalen, redeneren en begrijpen van visueel rijke informatie blijft een uitdaging voor RAG-methoden. Traditionele tekstgebaseerde methoden kunnen geen visueel gerelateerde informatie verwerken. Aan de andere kant worden huidige visiegebaseerde RAG-benaderingen vaak beperkt door vaste pijplijnen en worstelen ze vaak met effectief redeneren vanwege onvoldoende activering van de fundamentele capaciteiten van modellen. Aangezien RL bewezen nuttig te zijn voor modelredenering, introduceren we VRAG-RL, een nieuw RL-framework ontworpen voor complex redeneren over visueel rijke informatie. Met dit framework interageren VLMs met zoekmachines, waarbij ze autonoom enkelvoudige of meervoudige redeneertrajecten bemonsteren met behulp van visuele perceptietokens en voortdurende optimalisatie ondergaan op basis van deze monsters. Onze aanpak belicht belangrijke beperkingen van RL in RAG-domeinen: (i) Eerdere multi-modale RAG-benaderingen neigen ertoe om afbeeldingen slechts in de context op te nemen, wat leidt tot onvoldoende toewijzing van redeneertokens en het negeren van visueelspecifieke perceptie; en (ii) Wanneer modellen interageren met zoekmachines, slagen hun queries er vaak niet in om relevante informatie op te halen vanwege het onvermogen om vereisten te articuleren, wat resulteert in suboptimale prestaties. Om deze uitdagingen aan te pakken, definiëren we een actieruimte die is afgestemd op visueel rijke invoer, met acties zoals bijsnijden en schalen, waardoor het model informatie kan verzamelen vanuit een grof-naar-fijn perspectief. Bovendien gebruiken we een eenvoudige maar effectieve beloning die queryherformulering en ophaalprestaties integreert met een modelgebaseerde beloning om de kloof tussen de oorspronkelijke vragen van gebruikers en de ophaalfunctie te overbruggen. Onze VRAG-RL optimaliseert VLMs voor RAG-taken met speciaal ontworpen RL-strategieën, waardoor het model wordt afgestemd op real-world toepassingen. De code is beschikbaar op https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
Recente benaderingen voor 3D-camerabesturing in videodiffusiemodellen (VDMs) creëren vaak ankervideo's om diffusiemodellen te begeleiden als een gestructureerde prior door te renderen vanuit geschatte puntenwolken volgens geannoteerde cameratrajecten. Fouten die inherent zijn aan de schatting van puntenwolken leiden echter vaak tot onnauwkeurige ankervideo's. Bovendien vergroot de vereiste voor uitgebreide annotaties van cameratrajecten de vraag naar middelen verder. Om deze beperkingen aan te pakken, introduceren we EPiC, een efficiënt en precies leerframework voor camerabesturing dat automatisch hoogwaardige ankervideo's construeert zonder dure annotaties van cameratrajecten. Concreet creëren we zeer precieze ankervideo's voor training door bronvideo's te maskeren op basis van zichtbaarheid in het eerste frame. Deze aanpak zorgt voor een hoge uitlijning, elimineert de noodzaak voor annotaties van cameratrajecten en kan daardoor eenvoudig worden toegepast op elke willekeurige video om beeld-naar-video (I2V) trainingsparen te genereren. Verder introduceren we Anchor-ControlNet, een lichtgewicht conditioneringsmodule die ankervideo-begeleiding integreert in zichtbare regio's vooraf getrainde VDMs, met minder dan 1% van de parameters van het basismodel. Door de voorgestelde ankervideo-data en de ControlNet-module te combineren, bereikt EPiC efficiënte training met aanzienlijk minder parameters, trainingsstappen en minder data, zonder aanpassingen aan het diffusiemodelbasismodel die doorgaans nodig zijn om renderingsfouten te verminderen. Hoewel getraind op maskeringsgebaseerde ankervideo's, generaliseert onze methode robuust naar ankervideo's gemaakt met puntenwolken tijdens inferentie, waardoor precieze 3D-geïnformeerde camerabesturing mogelijk wordt. EPiC behaalt state-of-the-art prestaties op RealEstate10K en MiraData voor de I2V-camerabesturingstaak, wat zowel kwantitatief als kwalitatief een precieze en robuuste camerabesturingsvaardigheid aantoont. Opmerkelijk is dat EPiC ook sterke zero-shot generalisatie vertoont naar video-naar-video scenario's.
Manga, of Japanse strips, is een rijk multimodaal narratief medium dat beelden en tekst op complexe manieren combineert. Het aanleren van grote multimodale modellen (LMMs) om dergelijke verhalen op een menselijk niveau te begrijpen, zou manga-makers kunnen helpen hun verhalen te reflecteren en te verfijnen. Met dit doel introduceren we twee benchmarks voor multimodaal manga-begrip: MangaOCR, dat gericht is op tekstherkenning binnen pagina's, en MangaVQA, een nieuwe benchmark ontworpen om contextueel begrip te evalueren via visuele vraag-antwoordtaken. MangaVQA bestaat uit 526 hoogwaardige, handmatig geconstrueerde vraag-antwoordparen, wat een betrouwbare evaluatie mogelijk maakt in diverse narratieve en visuele scenario's. Gebaseerd op deze benchmarks ontwikkelen we MangaLMM, een manga-gespecialiseerd model dat is gefinetuned vanuit het open-source LMM Qwen2.5-VL om beide taken gezamenlijk aan te pakken. Door middel van uitgebreide experimenten, inclusief vergelijkingen met propriëtaire modellen zoals GPT-4o en Gemini 2.5, beoordelen we hoe goed LMMs manga begrijpen. Onze benchmark en model bieden een uitgebreide basis voor het evalueren en verbeteren van LMMs in het rijk narratieve domein van manga.
Traditionele RLHF optimaliseert taalmodelen met grove, scalaire beloningen die de fijnmijnerige redenen achter succes of falen maskeren, wat leidt tot traag en ondoorgrondelijk leren. Recent werk versterkt RL met tekstuele kritieken via prompting of reflectie, wat de interpreteerbaarheid verbetert maar de modelparameters onaangeroerd laat. Wij introduceren Text2Grad, een reinforcement-learning paradigma dat vrije-vorm tekstuele feedback omzet in span-niveau gradiënten. Gegeven menselijke (of programmatische) kritieken, align Text2Grad elke feedbackzin met de relevante token spans, zet deze alignaties om in differentieerbare beloningssignalen, en voert gradiëntupdates uit die direct de aanstootgevende delen van het modelbeleid verfijnen. Dit resulteert in precieze, feedback-gestuurde aanpassingen in plaats van globale duwtjes. Text2Grad wordt gerealiseerd door drie componenten: (1) een hoogwaardige feedback-annotatiepijplijn die kritieken koppelt aan token spans; (2) een fijnmijnerig beloningsmodel dat span-niveau beloning voorspelt op antwoorden terwijl het verklarende kritieken genereert; en (3) een span-niveau beleidsoptimalisator die natuurlijke-taal gradiënten terugpropageert. Over samenvatting, codegeneratie en vraagbeantwoording heen, overtreft Text2Grad consistent scalaire-beloning RL en prompt-only basislijnen, en biedt zowel hogere taakmetrieken als rijkere interpreteerbaarheid. Onze resultaten tonen aan dat natuurlijke-taal feedback, wanneer omgezet in gradiënten, een krachtig signaal is voor fijnmijnerige beleidsoptimalisatie. De code voor onze methode is beschikbaar op https://github.com/microsoft/Text2Grad.
Image recaptioning wordt veel gebruikt om trainingsdatasets van hogere kwaliteit te genereren voor diverse multimodale taken. Bestaande recaptioning-methoden maken doorgaans gebruik van krachtige multimodale grote taalmodellen (MLLMs) om tekstuele beschrijvingen te verbeteren, maar lijden vaak aan onnauwkeurigheden door hallucinaties en onvolledigheid veroorzaakt door ontbrekende fijnmazige details. Om deze beperkingen aan te pakken, stellen we RICO voor, een nieuw framework dat bijschriften verfijnt door middel van visuele reconstructie. Specifiek maken we gebruik van een tekst-naar-beeldmodel om een bijschrift te reconstrueren in een referentiebeeld, en vragen we een MLLM om verschillen tussen het originele en gereconstrueerde beeld te identificeren om het bijschrift te verfijnen. Dit proces wordt iteratief uitgevoerd, waardoor de generatie van meer getrouwe en uitgebreide beschrijvingen verder wordt bevorderd. Om de extra rekenkosten die door het iteratieve proces worden veroorzaakt te beperken, introduceren we RICO-Flash, dat leert om bijschriften te genereren zoals RICO met behulp van DPO. Uitgebreide experimenten tonen aan dat onze aanpak de nauwkeurigheid en volledigheid van bijschriften aanzienlijk verbetert, en de meeste baselines met ongeveer 10% overtreft op zowel CapsBench als CompreCap. Code is vrijgegeven op https://github.com/wangyuchi369/RICO.
Het genereren van hoogwaardige, multi-laag transparante afbeeldingen vanuit tekstprompts kan een nieuw niveau van creatieve controle ontsluiten, waardoor gebruikers elke laag net zo moeiteloos kunnen bewerken als tekstoutputs van LLM's. De ontwikkeling van multi-laag generatieve modellen loopt echter achter op die van conventionele tekst-naar-afbeelding modellen vanwege het ontbreken van een grote, hoogwaardige corpus van multi-laag transparante data. In dit artikel pakken we deze fundamentele uitdaging aan door: (i) het uitbrengen van de eerste open, ultra-hoogfiducité PrismLayers (PrismLayersPro) dataset van 200K (20K) multi-laag transparante afbeeldingen met nauwkeurige alpha mattes, (ii) het introduceren van een trainingsvrije synthesepijplijn die dergelijke data op aanvraag genereert met behulp van kant-en-klare diffusiemodellen, en (iii) het leveren van een krachtig, open-source multi-laag generatiemodel, ART+, dat de esthetiek van moderne tekst-naar-afbeelding generatiemodellen evenaart. De belangrijkste technische bijdragen omvatten: LayerFLUX, dat uitblinkt in het genereren van hoogwaardige enkele transparante lagen met nauwkeurige alpha mattes, en MultiLayerFLUX, dat meerdere LayerFLUX-outputs samenstelt tot complete afbeeldingen, geleid door door mensen geannoteerde semantische lay-out. Om een hogere kwaliteit te waarborgen, passen we een rigoureuze filterfase toe om artefacten en semantische mismatches te verwijderen, gevolgd door menselijke selectie. Het finetunen van het state-of-the-art ART-model op onze synthetische PrismLayersPro resulteert in ART+, dat de originele ART overtreft in 60% van de head-to-head gebruikersstudievergelijkingen en zelfs de visuele kwaliteit van afbeeldingen gegenereerd door het FLUX.1-[dev] model evenaart. We verwachten dat ons werk een solide datasetbasis zal vormen voor de multi-laag transparante afbeeldinggeneratietaak, waardoor onderzoek en toepassingen die precieze, bewerkbare en visueel overtuigende gelaagde beeldvorming vereisen, mogelijk worden gemaakt.
De explosieve groei van generatieve videomodellen heeft de vraag naar betrouwbare auteursrechtbescherming van AI-gegenereerde content versterkt. Ondanks de populariteit ervan in beeldgeneratie, blijft onzichtbare generatieve watermerktechnologie grotendeels onontgonnen in videogeneratie. Om deze kloof te overbruggen, stellen we Safe-Sora voor, het eerste raamwerk dat grafische watermerken direct in het videogeneratieproces inbedt. Gemotiveerd door de observatie dat de prestaties van watermerken nauw verbonden zijn met de visuele gelijkenis tussen het watermerk en de covercontent, introduceren we een hiërarchisch grof-naar-fijn adaptief matchingmechanisme. Specifiek wordt het watermerkbeeld opgedeeld in patches, die elk worden toegewezen aan de visueel meest vergelijkbare videoframe, en verder gelokaliseerd naar de optimale ruimtelijke regio voor naadloze inbedding. Om spatiotemporele fusie van watermerkpatches over videoframes mogelijk te maken, ontwikkelen we een 3D wavelet-transform-versterkte Mamba-architectuur met een nieuwe spatiotemporele lokale scanningsstrategie, die effectief langeafstandsafhankelijkheden modelleert tijdens het inbedden en ophalen van watermerken. Voor zover wij weten, is dit de eerste poging om state space-modellen toe te passen op watermerken, wat nieuwe mogelijkheden opent voor efficiënte en robuuste watermerkbescherming. Uitgebreide experimenten tonen aan dat Safe-Sora state-of-the-art prestaties bereikt op het gebied van videokwaliteit, watermerkgetrouwheid en robuustheid, wat grotendeels te danken is aan onze voorstellen. We zullen onze code vrijgeven na publicatie.
Vision language models (VLMs) combineren doorgaans een bescheiden vision encoder met een groot taalmodel (LLM), zoals Llama-70B, waardoor de decoder de primaire rekenlast vormt tijdens de training. Om de kosten te verlagen, is een potentieel veelbelovende strategie om eerst de vision encoder te trainen met een klein taalmodel voordat deze wordt overgedragen naar het grote model. We construeren kleine "surrogaatmodellen" die dezelfde embeddingruimte en representatietaal delen als het grote doel-LLM door direct de ondiepe lagen ervan over te nemen. Vision encoders die op het surrogaat zijn getraind, kunnen vervolgens direct worden overgedragen naar het grotere model, een proces dat we zero-shot grafting noemen — wanneer deze direct worden aangesloten op het volledige doel-LLM, presteert het gegrafeerde paar beter dan het encoder-surrogaat paar en presteert het op sommige benchmarks zelfs op hetzelfde niveau als volledige decoder training met het doel-LLM. Bovendien reduceert onze surrogaattrainingsaanpak de totale VLM-trainingskosten met ~45% wanneer Llama-70B als decoder wordt gebruikt.
De diverse aard van eiwitvoorspellingstaken heeft traditioneel gespecialiseerde modellen vereist, wat de ontwikkeling van breed toepasbare en computationeel efficiënte Protein Language Models (PLMs) heeft belemmerd. In dit werk introduceren we Prot2Token, een uniform raamwerk dat deze uitdagingen overwint door een breed scala aan eiwitgerelateerde voorspellingen, van sequentieniveau-eigenschappen en residu-specifieke attributen tot complexe inter-eiwitinteracties, om te zetten in een gestandaardiseerd next-token voorspellingsformaat. In de kern maakt Prot2Token gebruik van een autoregressieve decoder, die wordt geconditioneerd op embeddings van vooraf getrainde eiwitencoders en wordt geleid door leerbare taaktokens, om diverse voorspellingen uit te voeren. Deze architectuur vergemakkelijkt uniek multi-task leren, waardoor een enkel model talrijke taken kan beheersen met verbeterde efficiëntie. We presenteren uitgebreide experimentele validatie over een verscheidenheid aan benchmarks, die de sterke voorspellende kracht van Prot2Token in verschillende soorten eiwitvoorspellingstaken aantoont. Belangrijke resultaten omvatten aanzienlijke snelheidswinsten (bijvoorbeeld bijna 1000x ten opzichte van AlphaFold2 met MSA) en prestaties die vaak gespecialiseerde benaderingen evenaren of overtreffen. Daarnaast introduceren we een aanvullende zelfsupervised decoder pre-trainingsaanpak om de prestaties van ruimtelijk gevoelige taken te verbeteren. Prot2Token biedt zo een significante stap richting een veelzijdig, hoogdoorvoerparadigma voor eiwitmodellering, dat belooft biologische ontdekkingen en de ontwikkeling van nieuwe therapeutica te versnellen. De code is beschikbaar op https://github.com/mahdip72/prot2token.
Betrouwbare verifiers zijn essentieel voor het succes van reinforcement learning met verifieerbare beloning (RLVR), de kernmethodologie achter verschillende grote redeneermodellen zoals DeepSeek-R1. In complexe domeinen zoals wiskundig redeneren zijn regelgebaseerde verifiers in eerdere werken veelvuldig gebruikt om sterke redeneermodellen te trainen. De betrouwbaarheid van deze verifiers en hun impact op het RL-trainingsproces blijven echter slecht begrepen. In dit werk nemen we wiskundig redeneren als casestudy en voeren we een uitgebreide analyse uit van verschillende verifiers in zowel statische evaluatie- als RL-trainingsscenario's. Ten eerste constateren we dat huidige open-source regelgebaseerde verifiers vaak falen in het herkennen van equivalente antwoorden die in verschillende formaten worden gepresenteerd in meerdere veelgebruikte wiskundige datasets, wat resulteert in niet-verwaarloosbare fout-negatieve percentages. Deze beperking heeft een negatieve invloed op de RL-trainingsprestaties en wordt sterker naarmate het beleidsmodel krachtiger wordt. Vervolgens onderzoeken we modelgebaseerde verifiers als een mogelijke oplossing voor deze beperkingen. Hoewel de statische evaluatie aantoont dat modelgebaseerde verifiers een aanzienlijk hogere verificatienauwkeurigheid bereiken, impliceren verdere analyse en RL-trainingsresultaten dat ze zeer vatbaar zijn voor hacking, waarbij ze bepaalde patronen in antwoorden ten onrechte als correct classificeren (d.w.z. fout-positieven). Deze kwetsbaarheid wordt tijdens de optimalisatie van het beleidsmodel uitgebuit, wat leidt tot kunstmatig opgeblazen beloningen. Onze bevindingen benadrukken de unieke risico's die inherent zijn aan zowel regelgebaseerde als modelgebaseerde verifiers, met als doel waardevolle inzichten te bieden voor de ontwikkeling van robuustere beloningssystemen in reinforcement learning.
Generatieve AI-modellen leren en reproduceren vaak valse informatie die aanwezig is in hun trainingscorpora. Dit position paper betoogt dat, analoog aan biologische immunisatie, waarbij gecontroleerde blootstelling aan een verzwakte ziekteverwekker immuniteit opbouwt, AI-modellen moeten worden afgestemd op kleine, afgezonderde sets van expliciet gelabelde onwaarheden als een "vaccin" tegen desinformatie. Deze gecureerde valse voorbeelden worden periodiek geïnjecteerd tijdens het afstemmen, waardoor het vermogen van het model om misleidende beweringen te herkennen en te verwerpen wordt versterkt, terwijl de nauwkeurigheid op waarheidsgetrouwe invoer behouden blijft. Een illustratieve casestudy laat zien dat geïmmuniseerde modellen aanzienlijk minder desinformatie genereren dan baseline-modellen. Voor zover wij weten, is dit het eerste trainingsraamwerk dat feitelijk gecontroleerde onwaarheden zelf behandelt als een gesuperviseerd vaccin, in plaats van te vertrouwen op invoerperturbaties of generieke menselijke feedbacksignalen, om modellen te versterken tegen toekomstige desinformatie. We schetsen ook ethische waarborgen en governance-controles om het veilige gebruik van valse gegevens te waarborgen. Modelimmunisatie biedt een proactief paradigma voor het afstemmen van AI-systemen op feitelijkheid.
Text-to-Image (T2I) diffusiemodellen hebben opmerkelijke vooruitgang geboekt in generatieve modellering; ze worden echter geconfronteerd met een afweging tussen inferentiesnelheid en beeldkwaliteit, wat uitdagingen oplevert voor efficiënte implementatie. Bestaande gedistilleerde T2I-modellen kunnen hoogwaardige afbeeldingen genereren met minder samplingstappen, maar hebben vaak moeite met diversiteit en kwaliteit, vooral bij éénstapsmodellen. Uit onze analyse blijkt dat er redundante berekeningen plaatsvinden in de UNet-encoders. Onze bevindingen suggereren dat, voor T2I-diffusiemodellen, decoders beter in staat zijn om rijkere en explicietere semantische informatie vast te leggen, terwijl encoders effectief gedeeld kunnen worden over decoders van diverse tijdstappen. Op basis van deze observaties introduceren we de eerste Time-independent Unified Encoder (TiUE) voor de studentmodel UNet-architectuur, wat een lusvrije beeldgeneratiebenadering is voor het distilleren van T2I-diffusiemodellen. Met een éénstapsschema deelt TiUE encoderfeatures over meerdere decoder-tijdstappen, waardoor parallelle sampling mogelijk wordt en de inferentietijdscomplexiteit aanzienlijk wordt verminderd. Daarnaast integreren we een KL-divergentieterm om de ruisvoorspelling te regulariseren, wat de perceptuele realiteit en diversiteit van de gegenereerde afbeeldingen verbetert. Experimentele resultaten tonen aan dat TiUE state-of-the-art methoden, waaronder LCM, SD-Turbo en SwiftBrushv2, overtreft door diversere en realistischer resultaten te produceren, terwijl de rekenkundige efficiëntie behouden blijft.
Het begrijpen van functionele representaties binnen de hogere visuele cortex is een fundamentele vraag in de computationele neurowetenschappen. Hoewel kunstmatige neurale netwerken die vooraf zijn getraind op grootschalige datasets opvallende representatie-overeenkomsten vertonen met menselijke neurale reacties, is het leren van beeldberekenbare modellen van de visuele cortex afhankelijk van individuele, grootschalige fMRI-datasets. De noodzaak van dure, tijdrovende en vaak onpraktische data-acquisitie beperkt de generaliseerbaarheid van encoders naar nieuwe proefpersonen en stimuli. BraInCoRL maakt gebruik van in-context leren om voxelgewijze neurale reacties te voorspellen op basis van few-shot voorbeelden, zonder aanvullende finetuning voor nieuwe proefpersonen en stimuli. We benutten een transformer-architectuur die flexibel kan conditioneren op een variabel aantal in-context beeldstimuli, waarbij een inductieve bias wordt geleerd over meerdere proefpersonen. Tijdens de training optimaliseren we het model expliciet voor in-context leren. Door gezamenlijk te conditioneren op beeldkenmerken en voxelactivaties, leert ons model direct beter presterende voxelgewijze modellen van de hogere visuele cortex te genereren. We tonen aan dat BraInCoRL consistent beter presteert dan bestaande voxelgewijze encoder-ontwerpen in een regime met weinig data, wanneer geëvalueerd op volledig nieuwe beelden, terwijl het ook sterk schaalgedrag vertoont tijdens de testfase. Het model generaliseert ook naar een volledig nieuwe visuele fMRI-dataset, die verschillende proefpersonen en fMRI-data-acquisitieparameters gebruikt. Bovendien vergemakkelijkt BraInCoRL een betere interpreteerbaarheid van neurale signalen in de hogere visuele cortex door aandacht te besteden aan semantisch relevante stimuli. Tot slot laten we zien dat ons framework interpreteerbare mappingen mogelijk maakt van natuurlijke taalvragen naar voxelselectiviteit.
Het direct styliseren van 3D-scènes terwijl multi-view consistentie behouden blijft en het stijlbeeld trouw wordt nagebootst, blijft een aanzienlijke uitdaging. De huidige state-of-the-art methoden voor 3D-stylisering vereisen doorgaans rekenintensieve optimalisatie tijdens de testfase om artistieke kenmerken over te dragen naar een vooraf getrainde 3D-representatie, wat vaak dichte geposeerde invoerbeelden vereist. In tegenstelling hiermee maken wij, door gebruik te maken van recente vooruitgang in feed-forward reconstructiemodellen, een nieuwe aanpak mogelijk om directe 3D-stylisering in minder dan een seconde te bereiken met ongeposeerde sparse-view scènebeelden en een willekeurig stijlbeeld. Om het inherente ontkoppelen tussen reconstructie en stylisering aan te pakken, introduceren we een vertakte architectuur die structuurmodellering en uiterlijk-shading scheidt, waardoor wordt voorkomen dat stijloverdracht de onderliggende 3D-scènestructuur vervormt. Bovendien passen we een identiteitsverlies aan om het voor te bereiden van ons stylisatiemodel via de taak van nieuwe weergavesynthese te vergemakkelijken. Deze strategie stelt ons model ook in staat om zijn oorspronkelijke reconstructiecapaciteiten te behouden terwijl het wordt afgestemd voor stylisering. Uitgebreide evaluaties, met behulp van zowel in-domein als out-of-domein datasets, tonen aan dat onze aanpak hoogwaardige gestileerde 3D-inhoud produceert die een superieure mix van stijl en scène-uiterlijk bereikt, terwijl het ook bestaande methoden overtreft op het gebied van multi-view consistentie en efficiëntie.
Vision-Language Models (VLMs) hebben aanzienlijke vooruitgang geboekt in multimodale taken. Hun prestaties verslechteren echter vaak in lang-context scenario's, met name bij lange video's. Hoewel Rotary Position Embedding (RoPE) veelvuldig wordt toegepast voor lengtegeneralizatie in Large Language Models (LLMs), blijft het uitbreiden van standaard RoPE om de complexe ruimtelijk-temporele afhankelijkheden in video's vast te leggen een onopgeloste uitdaging. Bestaande methoden wijzen doorgaans verschillende frequenties binnen RoPE toe om 3D-positionele informatie te coderen. Deze toewijzingsstrategieën zijn echter voornamelijk gebaseerd op heuristieken en missen diepgaande theoretische analyse. In dit artikel onderzoeken we eerst hoe verschillende toewijzingsstrategieën de lang-context mogelijkheden van VLMs beïnvloeden. Onze analyse toont aan dat huidige multimodale RoPE's niet betrouwbaar semantische overeenkomsten over langere contexten kunnen vastleggen. Om dit probleem aan te pakken, stellen we HoPE voor, een Hybrid of Position Embedding, ontworpen om de lang-context mogelijkheden van VLMs te verbeteren. HoPE introduceert een hybride frequentietoewijzingsstrategie voor betrouwbare semantische modellering over willekeurig lange contexten, en een dynamisch temporeel schaalmechanisme om robuust leren en flexibele inferentie over diverse contextlengtes te faciliteren. Uitgebreide experimenten over vier videobenchmarks voor lang video-begrip en retrievaltaken tonen aan dat HoPE consistent beter presteert dan bestaande methoden, wat de effectiviteit ervan bevestigt. Code is beschikbaar op https://github.com/hrlics/HoPE.
Recente vooruitgang in Visuele Taalmodellen (VLMs) heeft uitzonderlijke prestaties aangetoond in visuele redeneertaken. Geo-localisatie brengt echter unieke uitdagingen met zich mee, waarbij het nodig is om multigranulaire visuele aanwijzingen uit afbeeldingen te extraheren en deze te integreren met externe wereldkennis voor systematisch redeneren. Huidige benaderingen voor geo-localisatietaken missen vaak robuuste redeneermechanismen en uitlegbaarheid, wat hun effectiviteit beperkt. Om deze beperkingen aan te pakken, stellen we de Geo Reason Enhancement (GRE) Suite voor, een nieuw framework dat VLMs uitbreidt met gestructureerde redeneerketens voor nauwkeurige en interpreteerbare locatie-inferentie. De GRE Suite is systematisch ontwikkeld langs drie belangrijke dimensies: dataset, model en benchmark. Ten eerste introduceren we GRE30K, een hoogwaardige geo-localisatie redeneerdataset die is ontworpen om fijnmazige visuele en contextuele analyse te vergemakkelijken. Vervolgens presenteren we het GRE-model, dat een meerfasen redeneerstrategie gebruikt om geleidelijk scène-attributen, lokale details en semantische kenmerken af te leiden, waardoor potentiële geografische regio's met verhoogde precisie worden verkleind. Tot slot construeren we de Geo Reason Evaluation Benchmark (GREval-Bench), een uitgebreid evaluatieframework dat VLMs beoordeelt in diverse stedelijke, natuurlijke en bezienswaardigheidsscènes om zowel grofmazige (bijv. land, continent) als fijnmazige (bijv. stad, straat) localisatieprestaties te meten. Experimentele resultaten tonen aan dat GRE aanzienlijk beter presteert dan bestaande methoden op alle granulariteiten van geo-localisatietaken, wat de effectiviteit van redenering-versterkte VLMs in complexe geografische inferentie onderstreept. Code en data zullen worden vrijgegeven op https://github.com/Thorin215/GRE.
Effectieve dataselectie is cruciaal voor efficiënte training van moderne Large Language Models (LLMs). Dit artikel introduceert Influence Distillation, een nieuw, wiskundig onderbouwd raamwerk voor dataselectie dat tweede-orde informatie gebruikt om trainingsmonsters optimaal te wegen. Door de invloed van elk monster op een doeldistributie te distilleren, wijst onze methode modelspecifieke gewichten toe die worden gebruikt om trainingsdata te selecteren voor fine-tuning van LLMs, waardoor deze naar sterke prestaties in het doeldomein worden geleid. We leiden deze optimale gewichten af voor zowel Gradient Descent- als Adam-optimalisatoren. Om schaalbaarheid te garanderen en de rekenkosten te verlagen, stellen we een landmark-gebaseerde benadering voor: de invloed wordt precies berekend voor een kleine subset van "landmark"-monsters en vervolgens efficiënt doorgevoerd naar alle andere monsters om hun gewichten te bepalen. We valideren Influence Distillation door het toe te passen op instructietuning van de Tulu V2-dataset, gericht op een reeks taken waaronder GSM8k, SQuAD en MMLU, voor verschillende modellen uit de Llama- en Qwen-families. Experimenten tonen aan dat Influence Distillation de state-of-the-art prestaties evenaart of overtreft, terwijl het tot 3,5 keer snellere selectie bereikt.
Het begrijpen van objectoriëntatie vormt een fundamentele uitdaging in visuele perceptie die cruciaal is voor toepassingen zoals robotmanipulatie en augmented reality. Huidige benchmarks voor visie en taal slagen er niet in om deze vaardigheid te isoleren, waarbij deze vaak verward wordt met positionele relaties en algemene scènebegrip. Wij introduceren DORI (Discriminative Orientation Reasoning Intelligence), een uitgebreide benchmark die objectoriëntatieperceptie als primair evaluatiedoel stelt. DORI beoordeelt vier dimensies van oriëntatiebegrip: frontale uitlijning, rotatietransformaties, relatieve richtingsrelaties en begrip van canonieke oriëntatie. Door zorgvuldig samengestelde taken uit 11 datasets, die 67 objectcategorieën omvatten in zowel synthetische als realistische scenario's, biedt DORI inzicht in hoe multimodale systemen objectoriëntaties begrijpen. Onze evaluatie van 15 state-of-the-art visie-taalmodellen onthult kritieke beperkingen: zelfs de beste modellen behalen slechts 54,2% nauwkeurigheid op grove taken en 33,0% op gedetailleerde oriëntatiebeoordelingen, waarbij de prestaties verslechteren voor taken die vereisen dat referentiekaders worden verschoven of samengestelde rotaties worden uitgevoerd. Deze bevindingen tonen de noodzaak aan van toegewijde mechanismen voor oriëntatierepresentatie, aangezien modellen systematisch niet in staat blijken om precieze hoekschattingen uit te voeren, oriëntatieveranderingen over gezichtspunten te volgen en samengestelde rotaties te begrijpen – wat wijst op beperkingen in hun interne 3D-ruimtelijke representaties. Als het eerste diagnostische raamwerk dat specifiek is ontworpen voor oriëntatiebewustzijn in multimodale systemen, biedt DORI implicaties voor het verbeteren van robotbesturing, 3D-scène-reconstructie en mens-AI-interactie in fysieke omgevingen. DORI-data: https://huggingface.co/datasets/appledora/DORI-Benchmark
Reinforcement learning (RL) heeft aanzienlijke vooruitgang geboekt in de robotica, maar de complexiteit en lange trainingstijden blijven belangrijke knelpunten. In dit rapport introduceren we FastTD3, een eenvoudig, snel en krachtig RL-algoritme dat de trainingstijd voor humanoïde robots aanzienlijk verkort in populaire omgevingen zoals HumanoidBench, IsaacLab en MuJoCo Playground. Onze aanpak is opmerkelijk eenvoudig: we trainen een off-policy TD3-agent met verschillende aanpassingen — parallelle simulatie, updates met grote batches, een distributionele criticus en zorgvuldig afgestelde hyperparameters. FastTD3 lost een reeks taken van HumanoidBench op in minder dan 3 uur op een enkele A100 GPU, terwijl het stabiel blijft tijdens de training. We bieden ook een lichtgewicht en gebruiksvriendelijke implementatie van FastTD3 aan om RL-onderzoek in de robotica te versnellen.
De snelle groei van open source machine learning (ML) bronnen, zoals modellen en datasets, heeft onderzoek naar informatie retrieval (IR) versneld. Bestaande platforms zoals Hugging Face maken echter geen expliciet gebruik van gestructureerde representaties, wat geavanceerde query's en analyses zoals het traceren van modelontwikkeling en het aanbevelen van relevante datasets beperkt. Om deze leemte te vullen, hebben we HuggingKG geconstrueerd, de eerste grootschalige kennisgrafiek die is opgebouwd vanuit de Hugging Face-community voor ML-bronnenbeheer. Met 2,6 miljoen nodes en 6,2 miljoen edges vangt HuggingKG domeinspecifieke relaties en rijke tekstuele attributen op. Het stelt ons in staat om HuggingBench te presenteren, een multi-task benchmark met drie nieuwe testcollecties voor IR-taken, waaronder bronaanbeveling, classificatie en tracing. Onze experimenten onthullen unieke kenmerken van HuggingKG en de afgeleide taken. Beide bronnen zijn publiekelijk beschikbaar en worden verwacht het onderzoek naar het delen en beheren van open source bronnen vooruit te helpen.
Instructievolging (IF) is een cruciale vaardigheid voor grote taalmodelen (LLMs). Het omgaan met complexe instructies met meerdere beperkingen blijft echter een uitdaging. Eerdere methoden selecteren doorgaans voorkeursparen op basis van het aantal beperkingen dat ze voldoen, wat ruis introduceert waarbij gekozen voorbeelden sommige beperkingen mogelijk niet volgen en afgewezen voorbeelden in bepaalde opzichten beter kunnen presteren dan de gekozen voorbeelden. Om de uitdaging van afstemming op meerdere voorkeuren aan te pakken, stellen we een eenvoudige maar effectieve methode voor genaamd Reverse Preference Optimization (RPO). Het vermindert ruis in voorkeursparen door dynamisch de beperkingen binnen de instructie om te keren, waardoor ervoor wordt gezorgd dat het gekozen antwoord perfect is, wat de last van uitgebreide steekproeven en filtering om perfecte antwoorden te verzamelen verlicht. Bovendien vergroot de omkering ook het verschil tussen gekozen en afgewezen antwoorden, waardoor de optimalisatierichting wordt verduidelijkt en deze robuuster wordt tegen ruis. We evalueren RPO op twee multi-turn IF benchmarks, Sysbench en Multi-IF, en tonen gemiddelde verbeteringen ten opzichte van de DPO-baseline van respectievelijk 4,6 en 2,5 punten (op Llama-3.1 8B). Bovendien schaalt RPO effectief over verschillende modelgroottes (8B tot 70B parameters), waarbij het 70B RPO-model GPT-4o overtreft.
Het finetunen van Large Language Models (LLMs) heeft hun vermogen om instructies op te volgen aanzienlijk verbeterd, maar de onderliggende computationele mechanismen die deze verbeteringen aansturen, blijven slecht begrepen. Deze studie onderzoekt systematisch hoe finetunen de berekeningen van LLMs herconfigureert door instructiespecifieke sparse componenten te isoleren en te analyseren, zoals neuronen in dense modellen en zowel neuronen als experts in Mixture-of-Experts (MoE)-architecturen. In het bijzonder introduceren we HexaInst, een zorgvuldig samengestelde en gebalanceerde instructiedataset die zes verschillende categorieën omvat, en stellen we SPARCOM voor, een nieuw analytisch framework dat drie belangrijke bijdragen omvat: (1) een methode om deze sparse componenten te identificeren, (2) een evaluatie van hun functionele algemeenheid en uniciteit, en (3) een systematische vergelijking van hun aanpassingen. Door experimenten tonen we functionele algemeenheid, uniciteit en de cruciale rol van deze componenten bij het uitvoeren van instructies aan. Door het verband tussen door finetunen geïnduceerde aanpassingen en sparse computationele substraten te verhelderen, biedt dit werk diepere inzichten in hoe LLMs instructievolggedrag internaliseren voor de betrouwbare LLM-gemeenschap.
Intelligente tutoringsystemen gecombineerd met grote taalmodellen bieden een veelbelovende aanpak om aan de diverse behoeften van studenten te voldoen en zelfeffectief leren te bevorderen. Hoewel grote taalmodellen over een goede basiskennis van elektrotechniek beschikken, zijn ze nog onvoldoende in staat om specifieke vragen over elektrische circuits te beantwoorden. In dit artikel presenteren we AITEE, een agentgebaseerd tutoringsysteem voor elektrotechniek dat is ontworpen om studenten gedurende hun leerproces te begeleiden, individuele ondersteuning te bieden en zelfgestuurd leren te stimuleren. AITEE ondersteunt zowel handgetekende als digitale circuits via een aangepast reconstructieproces van circuits, waardoor natuurlijke interactie met studenten mogelijk wordt. Onze nieuwe op grafen gebaseerde gelijkenismaat identificeert relevante context uit lesmaterialen via een retrieval augmented generation-benadering, terwijl parallelle Spice-simulatie de nauwkeurigheid bij het toepassen van oplossingsmethodologieën verder verbetert. Het systeem implementeert een Socratische dialoog om leerautonomie te bevorderen door middel van begeleidende vragen. Experimentele evaluaties tonen aan dat AITEE baseline-benaderingen significant overtreft in het toepassen van domeinspecifieke kennis, waarbij zelfs middelgrote LLM-modellen acceptabele prestaties laten zien. Onze resultaten benadrukken het potentieel van agentgebaseerde tutors om schaalbare, gepersonaliseerde en effectieve leeromgevingen te bieden voor elektrotechniekonderwijs.
Hoewel de mogelijkheden van Large Language Models (LLMs) zijn bestudeerd in zowel Vereenvoudigd als Traditioneel Chinees, is het nog onduidelijk of LLMs verschillen in prestaties vertonen wanneer ze worden aangestuurd in deze twee varianten van geschreven Chinees. Dit inzicht is cruciaal, aangezien verschillen in de kwaliteit van LLM-reacties representatieve schade kunnen veroorzaken door de verschillende culturele contexten achter Vereenvoudigd versus Traditioneel Chinees te negeren, en kunnen leiden tot verdere schade in LLM-gestuurde besluitvorming in domeinen zoals onderwijs of werving. Om mogelijke prestatieverschillen van LLMs te onderzoeken, ontwerpen we twee benchmarktaken die realistische scenario's weerspiegelen: regionale termkeuze (waarbij de LLM wordt gevraagd een beschreven item te benoemen dat anders wordt aangeduid in het vasteland van China en Taiwan), en regionale naamkeuze (waarbij de LLM wordt gevraagd te kiezen wie in dienst te nemen uit een lijst van namen in zowel Vereenvoudigd als Traditioneel Chinees). Voor beide taken evalueren we de prestaties van 11 toonaangevende commerciële LLM-diensten en open-source modellen – variërend van modellen die voornamelijk zijn getraind op Engels, Vereenvoudigd Chinees of Traditioneel Chinees. Onze analyses geven aan dat vooroordelen in LLM-reacties afhankelijk zijn van zowel de taak als de aansturende taal: terwijl de meeste LLMs onevenredig vaak kozen voor Vereenvoudigd Chinese antwoorden in de regionale termkeuzetaak, kozen ze verrassend vaak voor Traditioneel Chinese namen in de regionale naamkeuzetaak. We constateren dat deze verschillen kunnen voortkomen uit verschillen in de representatie van trainingsdata, voorkeuren voor geschreven karakters, en tokenisatie van Vereenvoudigd en Traditioneel Chinees. Deze bevindingen benadrukken de noodzaak voor verdere analyse van LLM-vooroordelen; daarom bieden we een open-source benchmarkdataset om reproduceerbare evaluaties van toekomstig LLM-gedrag over Chinese taalvarianten te bevorderen (https://github.com/brucelyu17/SC-TC-Bench).
Tijdelijke video-begrip is cruciaal voor multimodale grote taalmodellen (MLLMs) om gebeurtenissen in video's te kunnen redeneren. Ondanks recente vooruitgang in algemeen video-begrip, hebben huidige MLLMs nog steeds moeite met fijnmazig temporeel redeneren. Hoewel reinforcement learning (RL) recentelijk is onderzocht om dit probleem aan te pakken, blijven bestaande RL-benaderingen beperkt in effectiviteit. In dit werk stellen we MUSEG voor, een nieuwe RL-gebaseerde methode die temporeel begrip verbetert door het introduceren van timestamp-aware multi-segment grounding. MUSEG stelt MLLMs in staat om queries uit te lijnen met meerdere relevante videosegmenten, wat een uitgebreider temporeel redeneren bevordert. Om effectief leren te faciliteren, hebben we een aangepast RL-trainingsrecept ontworpen met gefaseerde beloningen dat het model geleidelijk begeleidt naar temporeel gegrond redeneren. Uitgebreide experimenten op temporele grounding en tijdgevoelige video-QA-taken tonen aan dat MUSEG aanzienlijk beter presteert dan bestaande methoden en goed generaliseert over diverse temporele begripscenario's. Bekijk ons project op https://github.com/THUNLP-MT/MUSEG.
Taal-beeldvoorafgaande training heeft sterke prestaties getoond in 2D-medische beeldvorming, maar het succes ervan in 3D-modaliteiten zoals CT en MRI blijft beperkt vanwege de hoge rekenkundige eisen van volumetrische data, wat een aanzienlijke barrière vormt voor training op grootschalige, ongecurateerde klinische studies. In deze studie introduceren we Hiërarchische aandacht voor Taal-Beeldvoorafgaande Training (HLIP), een schaalbare voorafgaande trainingsframework voor 3D-medische beeldvorming. HLIP maakt gebruik van een lichtgewicht hiërarchisch aandachtmechanisme, geïnspireerd door de natuurlijke hiërarchie van radiologische data: slice, scan en studie. Dit mechanisme vertoont sterke generaliseerbaarheid, bijvoorbeeld +4,3% macro AUC op de Rad-ChestCT-benchmark wanneer vooraf getraind op CT-RATE. Bovendien stelt de rekenkundige efficiëntie van HLIP directe training op ongecurateerde datasets mogelijk. Getraind op 220K patiënten met 3,13 miljoen scans voor hersen-MRI en 240K patiënten met 1,44 miljoen scans voor hoofd-CT, bereikt HLIP state-of-the-art prestaties, bijvoorbeeld +32,4% gebalanceerde ACC op de voorgestelde publiekelijk beschikbare hersen-MRI-benchmark Pub-Brain-5; +1,4% en +6,9% macro AUC op hoofd-CT-benchmarks RSNA en CQ500, respectievelijk. Deze resultaten tonen aan dat, met HLIP, direct vooraf trainen op ongecurateerde klinische datasets een schaalbare en effectieve richting is voor taal-beeldvoorafgaande training in 3D-medische beeldvorming. De code is beschikbaar op https://github.com/Zch0414/hlip.
Test-time scaling (TTS), waarbij dynamische toewijzing van rekenkracht tijdens inferentie plaatsvindt, biedt een veelbelovende manier om het redeneervermogen van grote taalmodellen te verbeteren. Hoewel bestaande TTS-methoden goed werken, zijn ze vaak afhankelijk van lange decodeerpaden of vereisen ze het genereren van een groot aantal samples, wat het tokengebruik en de inferentielatentie verhoogt. We observeren het verrassende feit dat voor redeneertaken kortere sporen veel waarschijnlijker correct zijn dan langere. Gemotiveerd door dit inzicht introduceren we First Finish Search (FFS), een trainingsvrije parallelle decodeerstrategie die n onafhankelijke samples start en terugkeert zodra een van deze is voltooid. We evalueren FFS naast eenvoudig decoderen, beam search, majority voting en budget forcing op vier redeneermodellen (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B en Phi-4-Reasoning-Plus) en over vier datasets (AIME24, AIME25-I, AIME25-II en GPQA Diamond). Met DeepSeek-R1 behaalt FFS een nauwkeurigheid van 82,23% op de AIME-datasets, een verbetering van 15% ten opzichte van de standalone nauwkeurigheid van DeepSeek-R1, wat bijna overeenkomt met de prestaties van OpenAI's o4-mini. Onze theoretische analyse verklaart waarom stoppen bij het kortste spoor waarschijnlijk een correct antwoord oplevert en identificeert de voorwaarden waaronder vroegtijdig stoppen suboptimaal kan zijn. De elegantie en eenvoud van FFS tonen aan dat eenvoudige TTS-strategieën opmerkelijk goed kunnen presteren, wat het onbenutte potentieel van eenvoudige benaderingen tijdens inferentie onthult.
Grote taalmodellen (LLM's) verwerven vaak kennis tijdens de voorafgaande training die ongewenst is in latere toepassingen, zoals gevoelige informatie of auteursrechtelijk beschermde inhoud. Bestaande methoden om dergelijke kennis te verwijderen, zijn gebaseerd op fine-tuning, het trainen van low-rank adapters of het bewerken op feitniveau, maar deze zijn ofwel te grof, te oppervlakkig of niet effectief. In dit werk stellen we PISCES voor (Precise In-parameter Suppression for Concept EraSure), een nieuw raamwerk om complete concepten precies te wissen uit modelparameters door de richtingen die deze coderen in de parameterruimte direct te bewerken. PISCES gebruikt een disentangler-model om MLP-vectoren te ontbinden in interpreteerbare kenmerken, identificeert die welke geassocieerd zijn met een doelconcept met behulp van geautomatiseerde interpreteerbaarheidstechnieken, en verwijdert deze uit de modelparameters. Experimenten op Gemma 2 en Llama 3.1 over verschillende concepten laten zien dat PISCES bescheiden verbeteringen in effectiviteit behaalt ten opzichte van toonaangevende verwijderingsmethoden, waarbij de nauwkeurigheid op het doelconcept wordt teruggebracht tot wel 7,7%, terwijl de specificiteit van het wissen aanzienlijk wordt verbeterd (met tot 31%) en de robuustheid (met tot 38%). Over het algemeen tonen deze resultaten aan dat feature-based in-parameter bewerking een preciezer en betrouwbaarder benadering mogelijk maakt voor het verwijderen van conceptuele kennis in taalmodellen.
Text-to-SSQL heeft als doel natuurlijke taalvragen te vertalen naar SQL-statements, wat praktisch is omdat het iedereen in staat stelt eenvoudig de gewenste informatie uit databases op te halen. Recentelijk pakken veel bestaande benaderingen dit probleem aan met behulp van Large Language Models (LLMs), waarbij gebruik wordt gemaakt van hun sterke vermogen om gebruikersvragen te begrijpen en bijbehorende SQL-code te genereren. Toch kan de parametrische kennis in LLMs beperkt zijn in het dekken van alle diverse en domeinspecifieke vragen die verankering vereisen in verschillende databaseschema's, wat ervoor zorgt dat gegenereerde SQL-statements vaak minder accuraat zijn. Om dit aan te pakken, stellen we voor om een kennisbasis voor text-to-SQL te construeren, een fundamentele bron van kennis, waaruit we de benodigde kennis voor gegeven queries ophalen en genereren. In het bijzonder, in tegenstelling tot bestaande benaderingen die ofwel handmatig kennis annoteren of slechts enkele stukjes kennis voor elke query genereren, is onze kennisbasis uitgebreid en gebaseerd op een combinatie van alle beschikbare vragen en hun bijbehorende databaseschema's, samen met hun relevante kennis, en kan deze worden hergebruikt voor onbekende databases uit verschillende datasets en domeinen. We valideren onze aanpak op meerdere text-to-SQL-datasets, waarbij zowel overlappende als niet-overlappende databasescenario's worden overwogen, en waar deze aanzienlijk beter presteert dan relevante baseline-methoden.
Het begrijpen en afleiden van causale relaties uit teksten is een kernaspect van de menselijke cognitie en is essentieel voor het bevorderen van grote taalmodellen (LLMs) richting kunstmatige algemene intelligentie. Bestaand werk richt zich voornamelijk op synthetisch gegenereerde teksten die eenvoudige causale relaties bevatten die expliciet in de tekst worden genoemd. Dit weerspiegelt niet de complexiteit van taken in de echte wereld. In dit artikel onderzoeken we of LLMs in staat zijn causale relaties af te leiden uit teksten uit de echte wereld. We ontwikkelen een benchmark gebaseerd op academische literatuur uit de echte wereld, die diverse teksten bevat wat betreft lengte, complexiteit van relaties (verschillende niveaus van explicietheid, aantal gebeurtenissen en causale relaties), en domeinen en subdomeinen. Voor zover wij weten, is onze benchmark de eerste echte dataset voor deze taak. Onze experimenten met state-of-the-art LLMs, geëvalueerd op onze voorgestelde benchmark, tonen aanzienlijke uitdagingen, waarbij het best presterende model een gemiddelde F1-score van slechts 0.477 behaalt. Analyse onthult veelvoorkomende valkuilen: moeite met impliciet uitgedrukte informatie, het onderscheiden van relevante causale factoren van omringende contextuele details, en het verbinden van causaal relevante informatie die verspreid is over lange tekstpassages. Door deze tekortkomingen systematisch te karakteriseren, biedt onze benchmark gerichte inzichten voor verder onderzoek naar het bevorderen van causaal redeneren in LLMs.
Hoewel grote Vision-Language Models (VLMs) opmerkelijke prestaties hebben getoond in een breed scala aan multimodale taken, blijven hun werkelijke redeneervaardigheden op menselijke IQ-tests onderbelicht. Om het onderzoek naar de vloeibare intelligentie van VLMs te bevorderen, introduceren we **IQBench**, een nieuwe benchmark die is ontworpen om VLMs te evalueren op gestandaardiseerde visuele IQ-tests. We richten ons op het evalueren van de redeneervaardigheden van VLMs, waarvan we stellen dat deze belangrijker zijn dan de nauwkeurigheid van de uiteindelijke voorspelling. **Onze benchmark is visueel gericht en minimaliseert de afhankelijkheid van onnodige tekstuele inhoud**, waardoor modellen worden aangemoedigd om antwoorden voornamelijk af te leiden uit beeldinformatie in plaats van geleerde tekstuele kennis. Hiertoe hebben we handmatig 500 visuele IQ-vragen verzameld en geannoteerd om **onbedoelde datalekken tijdens de training te voorkomen**. In tegenstelling tot eerder werk dat zich voornamelijk richt op de nauwkeurigheid van het uiteindelijke antwoord, evalueren we het redeneervermogen van de modellen door hun uitleg en de patronen die worden gebruikt om elk probleem op te lossen te beoordelen, naast de nauwkeurigheid van de uiteindelijke voorspelling en menselijke evaluatie. Onze experimenten laten zien dat er aanzienlijke prestatieverschillen zijn tussen taken, waarbij modellen zoals `o4-mini`, `gemini-2.5-flash` en `claude-3.7-sonnet` de hoogste gemiddelde nauwkeurigheden behalen van respectievelijk 0,615, 0,578 en 0,548. Alle modellen hebben echter moeite met 3D-ruimtelijke en anagramredeneertaken, wat significante beperkingen in de algemene redeneervaardigheden van huidige VLMs benadrukt. Wat betreft redeneerscores behaalden `o4-mini`, `gemini-2.5-flash` en `claude-3.7-sonnet` de hoogste gemiddelden van respectievelijk 0,696, 0,586 en 0,516. Deze resultaten benadrukken inconsistenties tussen de redeneerprocessen van de modellen en hun uiteindelijke antwoorden, wat het belang onderstreept van het evalueren van de nauwkeurigheid van het redeneren naast de uiteindelijke voorspellingen.