Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Universele fotometrische stereo (PS) heeft als doel hoogwaardige oppervlaktenormalen te herstellen van objecten onder willekeurige lichtomstandigheden zonder te vertrouwen op specifieke verlichtingsmodellen. Ondanks recente vooruitgang zoals SDM-UniPS en Uni MS-PS, blijven twee fundamentele uitdagingen bestaan: 1) de diepe koppeling tussen variërende verlichting en oppervlaktenormaalkenmerken, waarbij ambiguïteit in de waargenomen intensiteit het moeilijk maakt om te bepalen of helderheidsvariaties voortkomen uit lichtveranderingen of oppervlakteoriëntatie; en 2) het behoud van hoogfrequente geometrische details in complexe oppervlakken, waar ingewikkelde geometrieën zelfschaduw, interreflecties en subtiele normaalvariaties veroorzaken die conventionele kenmerkverwerkingsoperaties moeilijk nauwkeurig kunnen vastleggen.
In dit werk introduceren we OmniGen2, een veelzijdig en open-source generatief model dat is ontworpen om een uniforme oplossing te bieden voor diverse generatietaken, waaronder tekst-naar-beeld, beeldbewerking en in-context generatie. In tegenstelling tot OmniGen v1, beschikt OmniGen2 over twee afzonderlijke decodeerpaden voor tekst- en beeldmodaliteiten, waarbij gebruik wordt gemaakt van niet-gedeelde parameters en een ontkoppelde beeldtokenizer. Dit ontwerp stelt OmniGen2 in staat voort te bouwen op bestaande multimodale begripsmodellen zonder dat VAE-inputs opnieuw moeten worden aangepast, waardoor de oorspronkelijke tekstgeneratiecapaciteiten behouden blijven. Om de training van OmniGen2 te vergemakkelijken, hebben we uitgebreide dataconstructiepijplijnen ontwikkeld, die beeldbewerking en in-context generatiedata omvatten. Daarnaast introduceren we een reflectiemechanisme dat is toegespitst op beeldgeneratietaken en stellen we een speciaal reflectiedataset samen op basis van OmniGen2. Ondanks zijn relatief bescheiden parameteromvang behaalt OmniGen2 competitieve resultaten op meerdere taakbenchmarks, waaronder tekst-naar-beeld en beeldbewerking. Om in-context generatie, ook wel onderwerpgedreven taken genoemd, verder te evalueren, introduceren we een nieuwe benchmark genaamd OmniContext. OmniGen2 behaalt state-of-the-art prestaties onder open-source modellen wat betreft consistentie. We zullen onze modellen, trainingscode, datasets en dataconstructiepijplijn vrijgeven om toekomstig onderzoek op dit gebied te ondersteunen. Projectpagina: https://vectorspacelab.github.io/OmniGen2; GitHub-link: https://github.com/VectorSpaceLab/OmniGen2
Ultralange tekstgeneratie door grote taalmodellen (LLMs) is een veelgevraagd scenario, maar blijft een aanzienlijke uitdaging vanwege hun maximale generatielengtelimiet en de algehele kwaliteitsafname naarmate de sequentielengte toeneemt. Eerdere benaderingen, zoals LongWriter, vertrouwen doorgaans op 'teaching', wat supervised fine-tuning (SFT) op synthetische lange-uitvoerdata inhoudt. Deze strategie is echter sterk afhankelijk van synthetische SFT-data, die moeilijk en kostbaar zijn om te construeren, vaak gebrek aan samenhang en consistentie vertonen, en de neiging hebben om te kunstmatig en structureel eentonig te zijn. In dit werk stellen we een op incentivatie gebaseerde benadering voor die, volledig vanaf nul en zonder gebruik te maken van geannoteerde of synthetische data, reinforcement learning (RL) benut om het ontstaan van ultralange, hoogwaardige tekstgeneratiecapaciteiten in LLMs te bevorderen. We voeren RL-training uit vanaf een basismodel, vergelijkbaar met R1-Zero, en begeleiden het om redeneringen te gebruiken die planning en verfijning tijdens het schrijfproces faciliteren. Om dit te ondersteunen, gebruiken we gespecialiseerde beloningsmodellen die het LLM sturen naar verbeterde lengtecontrole, schrijfkwaliteit en structurele opmaak. Experimentele evaluaties tonen aan dat ons LongWriter-Zero model, getraind vanaf Qwen2.5-32B, traditionele SFT-methoden consistent overtreft bij lange-teksttaken, met state-of-the-art resultaten op alle metrieken van WritingBench en Arena-Write, en zelfs 100B+ modellen zoals DeepSeek R1 en Qwen3-235B overtreft. We openbaren onze data en modelcheckpoints op https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
Recentelijk is Agentic AI een steeds populairder onderzoeksgebied geworden. Echter, wij stellen dat de huidige onderzoekspraktijken op het gebied van agents gebrek hebben aan standaardisatie en wetenschappelijke strengheid, wat het moeilijk maakt om eerlijke vergelijkingen tussen methoden te maken. Als gevolg hiervan is het nog steeds onduidelijk hoe verschillende ontwerpkeuzes in agentframeworks de effectiviteit beïnvloeden, en blijft het meten van hun vooruitgang een uitdaging. In dit werk voeren we een systematisch empirisch onderzoek uit op de GAIA-benchmark en BrowseComp om de impact van populaire ontwerpkeuzes in belangrijke agentcomponenten op een eerlijke en rigoureuze manier te onderzoeken. We constateren dat het ontbreken van een standaard evaluatieprotocol ervoor zorgt dat eerdere werken, zelfs open-source werken, niet reproduceerbaar zijn, met aanzienlijke variatie tussen willekeurige runs. Daarom introduceren we een robuuster evaluatieprotocol om vergelijkingen te stabiliseren. Onze studie onthult welke componenten en ontwerpen cruciaal zijn voor effectieve agents, terwijl andere overbodig zijn, ondanks dat ze logisch lijken. Op basis van onze bevindingen bouwen en open-sourcen we OAgents, een nieuw foundation agent-framework dat state-of-the-art prestaties behaalt onder open-source projecten. OAgents biedt een modulair ontwerp voor verschillende agentcomponenten, wat toekomstig onderzoek in Agentic AI bevordert.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) toont veelbelovend potentieel in het verbeteren van de redeneervaardigheden van LLM's (Large Language Models). Het succes ervan blijft echter grotendeels beperkt tot wiskundige en code-domeinen. Deze primaire beperking komt voort uit de sterke afhankelijkheid van domeinspecifieke verifiers, wat leidt tot een verboden complexiteit en beperkte schaalbaarheid. Om deze uitdaging aan te pakken, is onze belangrijkste observatie dat de intrinsieke waarschijnlijkheid van een LLM om een correct vrij-vorm antwoord te genereren, direct zijn eigen evaluatie van de redeneerbeloning aangeeft (d.w.z., hoe goed het redeneerproces tot het juiste antwoord leidt). Op basis van dit inzicht stellen we RLPR voor, een eenvoudig verifier-vrij framework dat RLVR extrapoleert naar bredere algemene domeinen. RLPR gebruikt de eigen token-waarschijnlijkheidsscores van de LLM voor referentieantwoorden als het beloningssignaal en maximaliseert de verwachte beloning tijdens de training. We ontdekken dat het aanpakken van de hoge variantie van dit ruizige waarschijnlijkheidsbeloning cruciaal is om het te laten werken, en stellen prob-to-reward en stabiliserende methoden voor om een precieze en stabiele beloning te garanderen vanuit de intrinsieke waarschijnlijkheden van de LLM. Uitgebreide experimenten in vier algemene-domein benchmarks en drie wiskundige benchmarks tonen aan dat RLPR consistent de redeneervaardigheden verbetert in beide gebieden voor Gemma, Llama en Qwen gebaseerde modellen. Opmerkelijk is dat RLPR de gelijktijdige VeriFree overtreft met 7,6 punten op TheoremQA en 7,5 punten op Minerva, en zelfs sterke verifier-model-afhankelijke benaderingen zoals General-Reasoner overstijgt met gemiddeld 1,6 punten over zeven benchmarks.
Onderwerp-naar-video-generatie heeft de afgelopen jaren aanzienlijke vooruitgang geboekt. Bestaande modellen kampen echter nog steeds met aanzienlijke uitdagingen bij het nauwgezet volgen van tekstuele instructies. Deze beperking, algemeen bekend als het copy-paste-probleem, ontstaat door het veelgebruikte in-paar-trainingsparadigma. Deze aanpak verstrengelt inherent de identiteit van het onderwerp met achtergrond- en contextuele attributen door referentiebeelden te selecteren uit dezelfde scène als de doelvideo. Om dit probleem aan te pakken, introduceren wij Phantom-Data, de eerste algemene cross-pair dataset voor onderwerp-naar-video-consistentie, die ongeveer één miljoen identiteitsconsistente paren bevat over diverse categorieën. Onze dataset is opgebouwd via een drietrapspijplijn: (1) een algemene en invoer-uitgelijnde onderwerpsdetectiemodule, (2) grootschalige cross-context onderwerpsopvraging uit meer dan 53 miljoen video's en 3 miljard afbeeldingen, en (3) prior-geleide identiteitsverificatie om visuele consistentie te waarborgen onder contextuele variatie. Uitgebreide experimenten tonen aan dat trainen met Phantom-Data de promptuitlijning en visuele kwaliteit aanzienlijk verbetert, terwijl de identiteitsconsistentie op hetzelfde niveau blijft als de in-paar-baselines.
Dynamic Novel View Synthesis heeft als doel fotorealistische aanzichten van bewegende onderwerpen vanuit willekeurige gezichtspunten te genereren. Deze taak is bijzonder uitdagend wanneer er wordt vertrouwd op monoscopische video, waarbij het ontwarren van structuur uit beweging slecht gesteld is en er weinig supervisie beschikbaar is. We introduceren Video Diffusion-Aware Reconstruction (ViDAR), een nieuw 4D-reconstructiekader dat gebruikmaakt van gepersonaliseerde diffusiemodellen om een pseudo multi-view supervisiesignaal te synthetiseren voor het trainen van een Gaussische splatting-representatie. Door te conditioneren op scènespecifieke kenmerken, herstelt ViDAR fijnmazige uiterlijke details terwijl artefacten die worden geïntroduceerd door monoscopische ambiguïteit worden gemitigeerd. Om de ruimtelijk-temporele inconsistentie van diffusiegebaseerde supervisie aan te pakken, stellen we een diffusiebewuste verliesfunctie en een camerapose-optimalisatiestrategie voor die synthetische aanzichten uitlijnen met de onderliggende scènegeometrie. Experimenten op DyCheck, een uitdagende benchmark met extreme variatie in gezichtspunt, tonen aan dat ViDAR alle state-of-the-art baselines overtreft in visuele kwaliteit en geometrische consistentie. We benadrukken verder de sterke verbetering van ViDAR ten opzichte van baselines op dynamische regio's en bieden een nieuwe benchmark om prestaties te vergelijken bij het reconstrueren van bewegingsrijke delen van de scène. Projectpagina: https://vidar-4d.github.io
Dit artikel presenteert een multimodaal raamwerk dat probeert visueel begrip en generatie te verenigen binnen een gedeelde discrete semantische representatie. De kern ervan is de Text-Aligned Tokenizer (TA-Tok), die afbeeldingen omzet in discrete tokens met behulp van een tekst-uitgelijnde codebook geprojecteerd vanuit de vocabulaire van een groot taalmodel (LLM). Door visie en tekst te integreren in een verenigde ruimte met een uitgebreide vocabulaire, stelt ons multimodale LLM, Tar, cross-modale input en output mogelijk via een gedeelde interface, zonder de noodzaak van modaal-specifieke ontwerpen. Daarnaast stellen we schaal-adaptieve codering en decodering voor om efficiëntie en visueel detail in balans te brengen, samen met een generatieve de-tokenizer om hoogwaardige visuele outputs te produceren. Om diverse decodeerbehoeften aan te pakken, maken we gebruik van twee complementaire de-tokenizers: een snel autoregressief model en een op diffusie gebaseerd model. Om modale fusie te verbeteren, onderzoeken we geavanceerde pre-trainingtaken, waarbij we verbeteringen aantonen in zowel visueel begrip als generatie. Experimenten over benchmarks tonen aan dat Tar gelijkwaardig of superieur is aan bestaande multimodale LLM-methoden, met snellere convergentie en grotere trainings efficiëntie. Code, modellen en data zijn beschikbaar op https://tar.csuhan.com.
Process Reward Models (PRMs) zijn recent naar voren gekomen als een krachtig raamwerk voor het toezicht houden op tussenliggende redeneerstappen in grote taalmodellen (LLMs). Eerdere PRMs worden voornamelijk getraind op de uiteindelijke uitvoerresponsen van modellen en hebben moeite om tussenliggende denkprocessen robuust te evalueren, vooral in de opkomende context van traject-responsuitvoer gegenereerd door geavanceerde redeneermodellen zoals Deepseek-R1. In dit werk introduceren we ReasonFlux-PRM, een nieuw trajectbewust PRM dat expliciet is ontworpen om het traject-respons type van redeneersporen te evalueren. ReasonFlux-PRM integreert zowel stapniveau- als trajectniveau-toezicht, waardoor fijnmazige beloningstoewijzing mogelijk wordt die is afgestemd op gestructureerde keten-van-gedachte data. We passen ReasonFlux-PRM aan om beloningstoezicht te ondersteunen in zowel offline als online settings, inclusief (i) het selecteren van hoogwaardige modeldistillatiedata voor downstream supervised fine-tuning van kleinere modellen, (ii) het bieden van dichte procesniveau-beloningen voor beleidsoptimalisatie tijdens reinforcement learning, en (iii) het mogelijk maken van beloning-gestuurde Best-of-N test-time scaling. Empirische resultaten op uitdagende downstream benchmarks zoals AIME, MATH500 en GPQA-Diamond tonen aan dat ReasonFlux-PRM-7B hogere kwaliteit data selecteert dan sterke PRMs (bijv. Qwen2.5-Math-PRM-72B) en door mensen samengestelde baselines. Bovendien levert ons afgeleide ReasonFlux-PRM-7B consistente prestatieverbeteringen op, met gemiddelde winsten van 12,1% in supervised fine-tuning, 4,5% in reinforcement learning en 6,3% in test-time scaling. We brengen ook onze efficiënte ReasonFlux-PRM-1.5B uit voor toepassingen met beperkte middelen en edge-implementatie. Projecten: https://github.com/Gen-Verse/ReasonFlux
We introduceren DIP, een nieuwe onbewaakte post-trainingsmethode die is ontworpen om dichte beeldrepresentaties in grootschalige voorgetrainde visuele encoders te verbeteren voor in-context scènebegrip. In tegenstelling tot eerdere benaderingen die vertrouwen op complexe zelfdistillatie-architecturen, traint onze methode de visuele encoder met behulp van pseudo-taken die expliciet downstream in-context scenario's simuleren, geïnspireerd door meta-leerprincipes. Om post-training op ongelabelde data mogelijk te maken, stellen we een automatisch mechanisme voor voor het genereren van in-context taken dat een voorgetraind diffusiemodel en de visuele encoder zelf combineert. DIP is eenvoudig, onbewaakt en computationeel efficiënt, en vereist minder dan 9 uur op een enkele A100 GPU. Door dichte representaties te leren via pseudo in-context taken, behaalt het sterke prestaties op een breed scala aan downstream real-world in-context scènebegriptaken. Het overtreft zowel de initiële visuele encoder als eerdere methoden, en biedt een praktische en effectieve oplossing voor het verbeteren van dichte representaties. Code beschikbaar hier: https://github.com/sirkosophia/DIP
We stellen een nieuw geheugenmechanisme voor om videogeneratoren te bouwen die omgevingen interactief kunnen verkennen. Soortgelijke resultaten zijn eerder behaald door 2D-weergaven van de scène uit te schilderen terwijl de 3D-geometrie incrementeel werd gereconstrueerd, wat snel fouten accumuleert, of door videogeneratoren met een kort contextvenster, die moeite hebben om scènecoherentie op de lange termijn te behouden. Om deze beperkingen aan te pakken, introduceren we Surfel-Indexed View Memory (VMem), een mechanisme dat eerdere weergaven onthoudt door ze geometrisch te indexeren op basis van de 3D-oppervlakte-elementen (surfels) die ze hebben waargenomen. VMem maakt het efficiënt ophalen van de meest relevante eerdere weergaven mogelijk bij het genereren van nieuwe. Door ons alleen te richten op deze relevante weergaven, produceert onze methode consistente verkenningen van verbeeldde omgevingen tegen een fractie van de rekenkosten van het gebruik van alle eerdere weergaven als context. We evalueren onze aanpak op uitdagende benchmarks voor langetermijnscènesynthese en tonen superieure prestaties aan in vergelijking met bestaande methoden in het behouden van scènecoherentie en camerabesturing.
Het evalueren van generatieve 3D-modellen blijft een uitdaging vanwege een gebrek aan overeenstemming tussen geautomatiseerde metrieken en de menselijke perceptie van kwaliteit. Huidige benchmarks vertrouwen op op afbeeldingen gebaseerde metrieken die de 3D-structuur negeren, of geometrische maatstaven die de perceptuele aantrekkingskracht en praktische bruikbaarheid niet vastleggen. Om deze kloof te overbruggen, presenteren we 3D Arena, een open platform voor het evalueren van beeld-naar-3D-generatiemodellen door middel van grootschalige verzameling van menselijke voorkeuren via paarsgewijze vergelijkingen. Sinds de lancering in juni 2024 heeft het platform 123.243 stemmen verzameld van 8.096 gebruikers over 19 state-of-the-art modellen, waarmee het de grootste evaluatie van menselijke voorkeuren voor generatieve 3D-modellen tot stand heeft gebracht. We dragen de iso3d-dataset bij, bestaande uit 100 evaluatieprompts, en demonstreren kwaliteitscontrole die een gebruikersauthenticiteit van 99,75% bereikt door middel van statistische fraudedetectie. Ons ELO-gebaseerde rankingsysteem biedt een betrouwbare modelbeoordeling, waardoor het platform een gevestigde evaluatiebron is geworden. Door analyse van deze voorkeursgegevens presenteren we inzichten in menselijke voorkeurspatronen. Onze bevindingen onthullen voorkeuren voor visuele presentatiekenmerken, waarbij Gaussische splat-uitvoeren een ELO-voordeel van 16,6 behalen ten opzichte van meshes, en getextureerde modellen een ELO-voordeel van 144,1 ten opzichte van niet-getextureerde modellen. We geven aanbevelingen voor het verbeteren van evaluatiemethoden, waaronder multi-criteria-beoordeling, taakgerichte evaluatie en formaatbewuste vergelijking. De betrokkenheid van de gemeenschap bij het platform vestigt 3D Arena als een benchmark voor het vakgebied en bevordert het begrip van mensgerichte evaluatie in generatieve 3D.
De Mixture of Experts (MoE)-architectuur is naar voren gekomen als een krachtig paradigma voor het schalen van grote taalmmodellen (LLMs) terwijl de inferentie-efficiëntie behouden blijft. Hun enorme geheugenvereisten maken het echter onbetaalbaar om ze te fine-tunen of te implementeren in omgevingen met beperkte middelen. Om deze uitdaging aan te pakken, introduceren we SlimMoE, een multi-staps compressieframework voor het transformeren van grote MoE-modellen naar veel kleinere, efficiënte varianten zonder de onbetaalbare kosten van training vanaf nul. Onze methode vermindert systematisch het aantal parameters door experts te verslanken en kennis over te dragen via tussenstadia, waardoor de prestatievermindering die vaak voorkomt bij one-shot pruning-benaderingen effectief wordt gemitigeerd. Met dit framework comprimeren we Phi 3.5-MoE (41,9B totale/6,6B geactiveerde parameters) om Phi-mini-MoE (7,6B totale/2,4B geactiveerde parameters) en Phi-tiny-MoE (3,8B totale/1,1B geactiveerde parameters) te creëren met slechts 400B tokens—minder dan 10% van de trainingsdata van het oorspronkelijke model. Deze gecomprimeerde modellen kunnen worden gefinetuned op een enkele GPU (A100 voor Phi-mini-MoE, A6000 voor Phi-tiny-MoE), waardoor ze zeer geschikt zijn voor academische en middelenbeperkte omgevingen. Onze experimenten tonen aan dat deze gecomprimeerde modellen beter presteren dan andere van vergelijkbare grootte en competitief blijven met grotere modellen. Zo behaalt Phi-mini-MoE vergelijkbare of betere prestaties dan Phi-3-mini met slechts 2/3 van de geactiveerde parameters en levert het vergelijkbare MMLU-scores op als Llama 3.1 8B ondanks een aanzienlijk lagere latentie. Onze bevindingen tonen aan dat gestructureerd pruning gecombineerd met gefaseerde distillatie een effectieve weg biedt om hoogwaardige, compacte MoE-modellen te creëren, wat de weg vrijmaakt voor een bredere adoptie van MoE-architecturen. We maken onze modellen publiekelijk beschikbaar op https://huggingface.co/microsoft/Phi-mini-MoE-instruct en https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.
Gebruikersprofielen zijn cruciaal voor aanbevelingssystemen, omdat ze ruwe gebruikersinteractiegegevens omzetten in beknopte en gestructureerde representaties die gepersonaliseerde aanbevelingen sturen. Terwijl traditionele op embeddings gebaseerde profielen gebrek hebben aan interpreteerbaarheid en aanpasbaarheid, maken recente vooruitgangen met grote taalmodellen (LLM's) tekstgebaseerde profielen mogelijk die semantisch rijker en transparanter zijn. Bestaande methoden houden zich echter vaak aan vaste formaten die hun vermogen beperken om de volledige diversiteit van gebruikersgedrag vast te leggen. In dit artikel introduceren we LettinGo, een nieuw raamwerk voor het genereren van diverse en adaptieve gebruikersprofielen. Door gebruik te maken van de expressieve kracht van LLM's en directe feedback van downstream aanbevelingstaken te integreren, vermijdt onze aanpak de rigide beperkingen die worden opgelegd door supervised fine-tuning (SFT). In plaats daarvan gebruiken we Direct Preference Optimization (DPO) om de profielgenerator af te stemmen op taakspecifieke prestaties, waardoor de profielen adaptief en effectief blijven. LettinGo werkt in drie fasen: (1) het verkennen van diverse gebruikersprofielen via meerdere LLM's, (2) het evalueren van de profielkwaliteit op basis van hun impact in aanbevelingssystemen, en (3) het afstemmen van de profielgeneratie via paarsgewijze voorkeursgegevens afgeleid van taakprestaties. Experimentele resultaten tonen aan dat ons raamwerk de nauwkeurigheid, flexibiliteit en contextbewustheid van aanbevelingen aanzienlijk verbetert. Dit werk versterkt profielgeneratie als een belangrijke innovatie voor de volgende generatie aanbevelingssystemen.
We introduceren RealPlay, een op neurale netwerken gebaseerde game-engine voor de echte wereld die interactieve videogeneratie mogelijk maakt vanuit gebruikersbesturingssignalen. In tegenstelling tot eerdere werken die zich richten op game-achtige visuals, streeft RealPlay ernaar fotorealistische, temporeel consistente videosequenties te produceren die lijken op beelden uit de echte wereld. Het werkt in een interactieve lus: gebruikers observeren een gegenereerde scène, geven een besturingscommando en ontvangen een kort videofragment als reactie. Om een dergelijke realistische en responsieve generatie mogelijk te maken, pakken we belangrijke uitdagingen aan, waaronder iteratieve voorspelling per fragment voor lage latentie-feedback, temporele consistentie tussen iteraties en nauwkeurige besturingsrespons. RealPlay wordt getraind op een combinatie van gelabelde gamedata en ongelabelde video's uit de echte wereld, zonder dat annotaties van acties uit de echte wereld nodig zijn. Opmerkelijk is dat we twee vormen van generalisatie waarnemen: (1) besturingsoverdracht – RealPlay zet besturingssignalen effectief om van virtuele naar real-world scenario's; en (2) entiteitsoverdracht – hoewel de trainingslabels uitsluitend afkomstig zijn uit een autoracegame, generaliseert RealPlay naar het besturen van diverse entiteiten uit de echte wereld, waaronder fietsen en voetgangers, naast voertuigen. De projectpagina is te vinden op: https://wenqsun.github.io/RealPlay/
We stellen het eerste raamwerk voor dat in staat is om een 4D ruimtelijk-tijdelijk raster van videobeelden en 3D Gaussische deeltjes voor elk tijdstap te berekenen met behulp van een feed-forward architectuur. Onze architectuur bestaat uit twee hoofdcomponenten: een 4D videomodel en een 4D reconstructiemodel. In het eerste deel analyseren we huidige 4D video-diffusiearchitecturen die ruimtelijke en temporele aandacht sequentieel of parallel uitvoeren binnen een tweestroomontwerp. We belichten de beperkingen van bestaande benaderingen en introduceren een nieuwe gefuseerde architectuur die ruimtelijke en temporele aandacht binnen een enkele laag uitvoert. De sleutel tot onze methode is een spaarzaam aandachtspatroon, waarbij tokens aandacht besteden aan andere tokens in hetzelfde frame, op hetzelfde tijdstip of vanuit hetzelfde gezichtspunt. In het tweede deel breiden we bestaande 3D-reconstructiealgoritmen uit door een Gaussische kop, een algoritme voor het vervangen van cameratokens en aanvullende dynamische lagen en training te introduceren. Over het geheel genomen vestigen we een nieuwe standaard voor 4D-generatie, waarbij zowel de visuele kwaliteit als de reconstructiecapaciteit worden verbeterd.
Multimodale grote taalmodellen (MLLMs) beginnen robuuste redeneervaardigheden te tonen bij algemene taken, maar hun toepassing in het medische domein bevindt zich nog in de beginfase. Het construeren van chain-of-thought (CoT) trainingsdata is essentieel om de redeneervaardigheden van medische MLLMs te versterken. Echter, bestaande benaderingen schieten tekort in het bieden van een uitgebreid raamwerk voor het zoeken en evalueren van effectieve redeneerpaden naar kritische diagnoses. Om deze uitdaging aan te pakken, stellen we Mentor-Intern Collaborative Search (MICS) voor, een nieuw redeneerpad-zoekingsschema om rigoureuze en effectieve medische CoT-data te genereren. MICS maakt eerst gebruik van mentor-modellen om het redeneren stap voor stap te initialiseren, waarna elk intern model wordt aangemoedigd om het denken voort te zetten langs deze geïnitieerde paden, en uiteindelijk wordt het optimale redeneerpad geselecteerd op basis van de algehele redeneerprestatie van meerdere intern-modellen. De redeneerprestatie wordt bepaald door een MICS-Score, die de kwaliteit van de gegenereerde redeneerpaden beoordeelt. Uiteindelijk construeren we MMRP, een multi-task medisch redeneerdataset met gerangschikte moeilijkheidsgraad, en Chiron-o1, een nieuw medisch MLLM ontwikkeld via een curriculumleerstrategie, met robuuste visuele vraag-beantwoording en generaliseerbare redeneervaardigheden. Uitgebreide experimenten tonen aan dat Chiron-o1, getraind op onze CoT-dataset die is geconstrueerd met behulp van MICS, state-of-the-art prestaties behaalt op een reeks medische visuele vraag-beantwoording en redeneerbenchmarks. Codes zijn beschikbaar op GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
Het genereren van multi-view afbeeldingen op basis van menselijke instructies is cruciaal voor 3D-contentcreatie. De belangrijkste uitdagingen zijn het behouden van consistentie over meerdere views en het effectief synthetiseren van vormen en texturen onder diverse omstandigheden. In dit artikel stellen we de Multi-View Auto-Regressive (MV-AR) methode voor, die gebruikmaakt van een autoregressief model om progressief consistente multi-view afbeeldingen te genereren vanuit willekeurige prompts. Ten eerste verbetert de next-token-predictie-capaciteit van het AR-model aanzienlijk de effectiviteit bij het faciliteren van progressieve multi-view synthese. Bij het genereren van sterk gescheiden views kan MV-AR al zijn voorgaande views gebruiken om effectieve referentie-informatie te extraheren. Vervolgens stellen we een uniform model voor dat verschillende prompts ondersteunt via architectuurontwerp en trainingsstrategieën. Om meerdere condities aan te pakken, introduceren we conditie-injectiemodules voor tekst, camerapositie, afbeelding en vorm. Om multi-modale condities gelijktijdig te beheren, wordt een progressieve trainingsstrategie toegepast. Deze strategie neemt aanvankelijk het text-to-multi-view (t2mv) model als uitgangspunt om de ontwikkeling van een uitgebreid X-to-multi-view (X2mv) model te verbeteren door willekeurig condities weg te laten en te combineren. Tot slot stellen we, om het overfitting-probleem veroorzaakt door beperkte hoogwaardige data te verlichten, de "Shuffle View" data-augmentatietechniek voor, waardoor de trainingsdata aanzienlijk wordt uitgebreid met meerdere grootteordes. Experimenten tonen de prestaties en veelzijdigheid van onze MV-AR aan, die consistent multi-view afbeeldingen genereert over een reeks condities en presteert op hetzelfde niveau als toonaangevende op diffusie gebaseerde multi-view afbeeldingsgeneratiemodellen. Code en modellen worden vrijgegeven op https://github.com/MILab-PKU/MVAR.
Beloningsmodellen (RMs) zijn fundamenteel voor het afstemmen van grote taalmodellen (LLMs) via menselijke feedback, maar ze lijden vaak aan beloningsmanipulatie. Ze hebben de neiging om zich vast te klampen aan oppervlakkige of onterechte kenmerken, zoals responslengte of opmaak, en verwarren deze signalen, geleerd uit correlaties in de trainingsdata, met de echte oorzakelijke factoren van kwaliteit (bijv. feitelijkheid, relevantie). Dit gebeurt omdat standaard trainingsdoelen moeite hebben om deze factoren te ontwarren, wat leidt tot broze RMs en verkeerd afgestelde beleidsregels. Wij introduceren Crome (Causally Robust Reward Modeling), een nieuw raamwerk gebaseerd op een expliciet causaal model, ontworpen om beloningsmanipulatie te verminderen. Crome maakt gebruik van de volgende synthetische gerichte augmentaties tijdens de training: (1) Causale Augmentaties, paren die verschillen langs specifieke causale kenmerken, om gevoeligheid langs elk causaal kenmerk afzonderlijk af te dwingen, en (2) Neutrale Augmentaties, paren met gelijke labels die voornamelijk variëren in onterechte kenmerken, om invariantie langs onterechte kenmerken af te dwingen. Opmerkelijk is dat onze augmentaties worden geproduceerd zonder enige kennis van onterechte factoren, via interventies alleen langs causale richtlijnen, die worden geïdentificeerd door een orakel-LLM te bevragen. Empirisch presteert Crome aanzienlijk beter dan standaard referentiemodellen op RewardBench, met een verbetering van de gemiddelde nauwkeurigheid tot 5,4% en winsten tot 13,2% en 7,2% in specifieke categorieën. De robuustheid van Crome wordt verder bevestigd door de consistente winsten die worden behaald in een Best-of-N inferentie-instelling bij toenemende N, over verschillende benchmarks, waaronder de populaire RewardBench (die chat, chat-hard, veiligheid en redeneertaken omvat), de op veiligheid gerichte WildGuardTest, en de specifiek op redeneren gerichte GSM8k.
Dit artikel presenteert FinCoT, een gestructureerde chain-of-thought (CoT) prompting-benadering die inzichten uit domeinspecifiek expert financieel redeneren integreert om de redeneersporen van grote taalmodellen te begeleiden. Wij onderzoeken dat er drie hoofd-promptingstijlen zijn in FinNLP: (1) standaard prompting--zero-shot prompting; (2) ongestructureerde CoT--CoT prompting zonder een expliciete redeneerstructuur, zoals het gebruik van tags; en (3) gestructureerde CoT prompting--CoT prompting met expliciete instructies of voorbeelden die gestructureerde redeneerstappen definiëren. Voorheen heeft FinNLP zich voornamelijk gericht op prompt engineering met ofwel standaard of ongestructureerde CoT prompting. Echter, gestructureerde CoT prompting heeft beperkte aandacht gekregen in eerder werk. Bovendien is het ontwerp van redeneerstructuren in gestructureerde CoT prompting vaak gebaseerd op heuristieken van niet-domeinexperts. In deze studie onderzoeken wij elke prompting-benadering in FinNLP. Wij evalueren de drie hoofd-promptingstijlen en FinCoT op CFA-stijl vragen die tien financiële domeinen beslaan. Wij observeren dat FinCoT de prestaties verbetert van 63,2% naar 80,5% en Qwen-2.5-7B-Instruct van 69,7% naar 74,2%, terwijl het aantal gegenereerde tokens achtvoudig wordt verminderd in vergelijking met gestructureerde CoT prompting. Onze bevindingen tonen aan dat domein-afgestemde gestructureerde prompts niet alleen de prestaties verbeteren en de inferentiekosten verlagen, maar ook meer interpreteerbare en expert-afgestemde redeneersporen opleveren.
Het bewerken van belichting in lange video's met complexe dynamiek heeft aanzienlijke waarde voor verschillende downstream taken, waaronder visuele contentcreatie en -manipulatie, evenals het opschalen van data voor embodied AI via sim2real en real2real transfer. Desalniettemin zijn bestaande video-relightingtechnieken voornamelijk beperkt tot portretvideo's of vallen ze in de bottleneck van temporele consistentie en rekenkundige efficiëntie. In dit artikel stellen we TC-Light voor, een nieuw paradigma gekenmerkt door het voorgestelde tweestaps post-optimalisatiemechanisme. Beginnend bij de video die voorlopig is herbelicht door een uitgebreid video-relightingmodel, optimaliseert het in de eerste fase de appearance embedding om de globale belichting af te stemmen. Vervolgens optimaliseert het in de tweede fase de voorgestelde canonieke videorepresentatie, namelijk de Unique Video Tensor (UVT), om fijnmazige textuur en belichting af te stemmen. Om de prestaties uitgebreid te evalueren, hebben we ook een benchmark voor lange en zeer dynamische video's opgesteld. Uitgebreide experimenten tonen aan dat onze methode fysisch plausibele relightingresultaten mogelijk maakt met superieure temporele coherentie en lage rekenkosten. De code en videodemo's zijn beschikbaar op https://dekuliutesla.github.io/tclight/.
DeepSeek-R1 heeft met succes de redeneercapaciteiten van Large Language Models (LLM's) verbeterd via zijn op regels gebaseerde beloningssysteem. Hoewel het een 'perfect' beloningssysteem is dat effectief beloningsmanipulatie tegengaat, zijn dergelijke beloningsfuncties vaak discreet. Onze experimentele observaties suggereren dat discrete beloningen kunnen leiden tot gradiëntanomalieën, instabiele optimalisatie en trage convergentie. Om dit probleem aan te pakken, stellen we ReDit (Reward Dithering) voor, een methode die het discrete beloningssignaal dithert door eenvoudige willekeurige ruis toe te voegen. Met deze verstoorde beloning worden verkennende gradiënten continu aangeboden gedurende het leerproces, wat soepelere gradiëntupdates en versnelde convergentie mogelijk maakt. De geïnjecteerde ruis introduceert ook stochastiek in vlakke beloningsregio's, wat het model aanmoedigt om nieuwe beleidslijnen te verkennen en lokale optima te ontvluchten. Experimenten over diverse taken demonstreren de effectiviteit en efficiëntie van ReDit. Gemiddeld behaalt ReDit een prestatieniveau vergelijkbaar met vanilla GRPO met slechts ongeveer 10% van de trainingsstappen, en vertoont het bovendien nog steeds een prestatieverbetering van 4% ten opzichte van vanilla GRPO wanneer het voor een vergelijkbare duur wordt getraind. Visualisaties bevestigen een significante vermindering van gradiëntproblemen met ReDit. Daarnaast worden theoretische analyses aangeboden om deze voordelen verder te valideren.
Ondanks hun indrukwekkende capaciteiten produceren uitgelijnde grote taalmodellen (LLM's) vaak uitvoer die diversiteit mist. Wat veroorzaakt deze stabiliteit in de generatie? Wij onderzoeken dit fenomeen door de lens van waarschijnlijkheidsconcentratie in de uitvoerdistributie van het model. Om deze concentratie te kwantificeren, introduceren we de Vertakkingsfactor (BF) – een token-invariante maat voor het effectieve aantal plausibele volgende stappen tijdens de generatie. Onze empirische analyse onthult twee belangrijke bevindingen: (1) BF neemt vaak af naarmate de generatie vordert, wat suggereert dat LLM's voorspelbaarder worden naarmate ze genereren. (2) uitlijningstuning verscherpt de uitvoerdistributie van het model aanzienlijk vanaf het begin, waardoor BF met bijna een orde van grootte wordt verminderd (bijvoorbeeld van 12 naar 1,2) in vergelijking met basismodellen. Deze sterke reductie helpt verklaren waarom uitgelijnde modellen vaak minder gevoelig lijken voor decodeerstrategieën. Op basis van dit inzicht ontdekken we dat deze stabiliteit verrassende implicaties heeft voor complex redeneren. Uitgelijnde Chain-of-Thought (CoT) modellen (bijvoorbeeld DeepSeek-gedistilleerde modellen) benutten dit effect; door langere redeneerketens te genereren, duwen ze de generatie naar latere, meer deterministische (lagere BF) fasen, wat resulteert in stabielere uitvoer. Wij veronderstellen dat uitlijningstuning het gedrag van een model niet fundamenteel verandert, maar het in plaats daarvan stuurt naar stijlvolle tokens (bijvoorbeeld "Natuurlijk") die reeds aanwezige trajecten met lage entropie in het basismodel ontsluiten. Deze visie wordt ondersteund door nudging-experimenten, die aantonen dat het aansturen van basismodellen met dergelijke tokens BF op een vergelijkbare manier kan verminderen. Samen vestigen onze bevindingen BF als een krachtig diagnostisch hulpmiddel voor het begrijpen en beheersen van LLM-uitvoer – wat verduidelijkt hoe uitlijning variabiliteit vermindert, hoe CoT stabiele generaties bevordert, en hoe basismodellen kunnen worden gestuurd om diversiteit te vermijden.
Kunnen we 4D-pre-training opschalen om algemene ruimte-tijd representaties te leren die een object reconstrueren vanuit enkele views op bepaalde tijdstippen naar elke view op elk moment? We geven een bevestigend antwoord met 4D-LRM, het eerste grootschalige 4D-reconstructiemodel dat invoer verwerkt vanuit onbeperkte views en tijdstempels en willekeurige nieuwe view-tijd combinaties weergeeft. In tegenstelling tot eerdere 4D-benaderingen, zoals optimalisatie-gebaseerde, geometrie-gebaseerde of generatieve methoden, die moeite hebben met efficiëntie, generalisatie of nauwkeurigheid, leert 4D-LRM een geïntegreerde ruimte-tijd representatie en voorspelt direct per-pixel 4D Gaussische primitieven vanuit gepositioneerde beeldtokens over tijd, wat snelle, hoogwaardige weergave mogelijk maakt, in principe met een oneindig frame rate. Onze resultaten tonen aan dat het opschalen van spatiotemporele pre-training nauwkeurige en efficiënte 4D-reconstructie mogelijk maakt. We laten zien dat 4D-LRM generaliseert naar nieuwe objecten, interpoleert over tijd en omgaat met diverse camera-opstellingen. Het reconstrueert 24-frame sequenties in één voorwaartse pass in minder dan 1,5 seconden op een enkele A100 GPU.
Dit onderzoek onderzoekt of het activeren van latente deelruimtes in taalmodelen (LLM's) de generatie van wetenschappelijke code kan sturen naar een specifieke programmeertaal. Vijf causale LLM's werden eerst geëvalueerd op wetenschappelijke codeerprompts om hun basisbias te kwantificeren tussen vier programmeertalen. Een statische neuron-attributiemethode, waarbij het hoogst geactiveerde MLP-gewicht voor een C++ of CPP-token werd verstoord, bleek broos en vertoonde beperkte generalisatie over verschillende promptstijlen en modelschalen. Om deze beperkingen aan te pakken, werd een gradient-verfijnd adaptief activatiestuurraamwerk (G-ACT) ontwikkeld: per-prompt activatieverschillen worden geclusterd in een kleine set stuurrichtingen, en lichtgewicht per-laag probes worden online getraind en verfijnd om de juiste stuurvector te selecteren. In LLaMA-3.2 3B stuurt deze aanpak de generatie betrouwbaar richting de CPP-taal door de gemiddelde probeclassificatie-accuraatheid met 15% te verhogen en de vroege lagen (0-6) verbeteren de probeclassificatie-accuraatheid met 61,5% vergeleken met het standaard ACT-raamwerk. Voor LLaMA-3.3 70B, waar aandacht-kopsignalen diffuser worden, verbeteren gerichte injecties in sleutellagen nog steeds de taalselectie. Hoewel per-laag probing een bescheiden inferentie-overhead introduceert, blijft het praktisch door slechts een subset van lagen te sturen en maakt het reproduceerbaar modelgedrag mogelijk. Deze resultaten tonen een schaalbaar, interpreteerbaar en efficiënt mechanisme voor conceptniveau-controle voor praktische agentische systemen.
Sparse Autoencoders (SAEs) zijn naar voren gekomen als een veelbelovende oplossing voor het ontbinden van representaties van grote taalmodellen in interpreteerbare kenmerken. Echter hebben Paulo en Belrose (2025) instabiliteit onder verschillende initialisatiezaden benadrukt, en Heap et al. (2025) hebben aangegeven dat SAEs mogelijk geen modelinterne kenmerken vastleggen. Deze problemen lijken voort te komen uit het trainen van SAEs op externe datasets – verzameld van het web of gegenereerd door een ander model – die out-of-distribution (OOD) data kunnen bevatten die buiten de generalisatiecapaciteiten van het model vallen. Dit kan leiden tot gehallucineerde SAE-kenmerken, die we "Nepkenmerken" noemen, en die de interne activaties van het model verkeerd weergeven. Om deze problemen aan te pakken, stellen we FaithfulSAE voor, een methode die SAEs traint op het eigen synthetische dataset van het model. Met FaithfulSAEs laten we zien dat het trainen van SAEs op minder-OOD instructiedatasets resulteert in stabielere SAEs over verschillende zaden. Opmerkelijk is dat FaithfulSAEs beter presteren dan SAEs die getraind zijn op webgebaseerde datasets in de SAE-probingtaak en een lagere Nepkenmerkenratio vertonen in 5 van de 7 modellen. Over het algemeen elimineert onze aanpak de afhankelijkheid van externe datasets, wat de interpreteerbaarheid bevordert door modelinterne kenmerken beter vast te leggen, terwijl het de vaak verwaarloosde belangrijkheid van SAE-trainingsdatasets benadrukt.
De recente verschuiving in Generative AI (GenAI)-toepassingen van uitsluitend cloudomgevingen naar eindgebruikersapparaten brengt nieuwe uitdagingen met zich mee op het gebied van resourcebeheer, systeemefficiëntie en gebruikerservaring. Dit artikel introduceert ConsumerBench, een uitgebreid benchmarkframework dat is ontworpen om de systeemefficiëntie en responstijd van GenAI-modellen die draaien op eindgebruikersapparaten te evalueren. In tegenstelling tot bestaande benchmarks die uitgaan van exclusieve modeltoegang op toegewijde GPU's, simuleert ConsumerBench realistische multi-toepassingsscenario's die gelijktijdig worden uitgevoerd op beperkte hardware. Bovendien ondersteunt ConsumerBench aanpasbare workflows die complexe taken simuleren die coördinatie tussen meerdere toepassingen vereisen. ConsumerBench meet zowel toepassingsniveau-metrics, zoals latentie en het behalen van Service Level Objectives (SLO's), als systeemniveau-metrics zoals CPU/GPU-gebruik en geheugenbandbreedte. Door uitgebreide experimenten onthult ConsumerBench inefficiënties in resourceverdeling, oneerlijke planning onder hebberige toewijzing en prestatievalkuilen van statische modelserverconfiguraties. Het artikel biedt ook praktische inzichten voor modelontwikkelaars en systeemontwerpers, waarbij de voordelen van aangepaste kernels die zijn afgestemd op consumenten-GPU-architecturen en de waarde van het implementeren van SLO-bewuste planningsstrategieën worden benadrukt.
Grote Taalmodellen (LLMs) worden steeds vaker gebruikt in toepassingen die lange contextlengtes vereisen, maar de key-value (KV) cache wordt vaak een geheugenknelpunt op GPU's naarmate de context groeit. Om dit aan te pakken, stellen we Commutative Vector Quantization (CommVQ) voor om het geheugengebruik voor lange-context LLM-inferentie aanzienlijk te verminderen. We introduceren eerst additieve kwantisatie met een lichtgewicht encoder en codebook om de KV cache te comprimeren, die kan worden gedecodeerd via eenvoudige matrixvermenigvuldiging. Om de rekenkosten tijdens het decoderen verder te verlagen, ontwerpen we het codebook om commutatief te zijn met Rotary Position Embedding (RoPE) en trainen we het met een Expectation-Maximization (EM) algoritme. Dit maakt een efficiënte integratie van decodering in het self-attention mechanisme mogelijk. Onze aanpak bereikt hoge nauwkeurigheid met additieve kwantisatie en lage overhead via het RoPE-commutatieve codebook. Experimenten op lange-context benchmarks en GSM8K laten zien dat onze methode de FP16 KV cache-grootte met 87,5% reduceert met 2-bit kwantisatie, terwijl het state-of-the-art KV cache kwantiseringsmethoden overtreft. Opmerkelijk is dat het 1-bit KV cache kwantisatie mogelijk maakt met minimale nauwkeurigheidsverliezen, waardoor een LLaMA-3.1 8B model kan draaien met een contextlengte van 128K op een enkele RTX 4090 GPU. De broncode is beschikbaar op: https://github.com/UMass-Embodied-AGI/CommVQ.
Het detecteren van AI-gegenereerde code, deepfakes en andere synthetische inhoud is een opkomende onderzoeksuitdaging. Naarmate code die gegenereerd is door Large Language Models (LLMs) vaker voorkomt, wordt het identificeren van het specifieke model achter elk sample steeds belangrijker. Dit artikel presenteert de eerste systematische studie van LLM-auteurschapstoewijzing voor C-programma's. We hebben CodeT5-Authorship uitgebracht, een nieuw model dat alleen de encoder-lagen van de originele CodeT5 encoder-decoder architectuur gebruikt, waarbij de decoder wordt weggelaten om zich te richten op classificatie. De encoder-uitvoer van ons model (eerste token) wordt doorgegeven aan een tweelaagse classificatiekop met GELU-activering en dropout, wat een kansverdeling produceert over mogelijke auteurs. Om onze aanpak te evalueren, introduceren we LLM-AuthorBench, een benchmark van 32.000 compileerbare C-programma's gegenereerd door acht state-of-the-art LLMs voor diverse taken. We vergelijken ons model met zeven traditionele ML-classificatiemodellen en acht fijn afgestemde transformer-modellen, waaronder BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer en LoRA-fijn afgestemde Qwen2-1.5B. In binaire classificatie behaalt ons model een nauwkeurigheid van 97,56% in het onderscheiden van C-programma's gegenereerd door nauw verwante modellen zoals GPT-4.1 en GPT-4o, en een nauwkeurigheid van 95,40% voor multi-class toewijzing onder vijf toonaangevende LLMs (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 en DeepSeek-V3). Om open wetenschap te ondersteunen, maken we de CodeT5-Authorship architectuur, de LLM-AuthorBench benchmark en alle relevante Google Colab-scripts beschikbaar op GitHub: https://github.com/LLMauthorbench/.
Recente Multimodale Large Language Models (MLLMs) presteren uitstekend op benchmarktaken voor visie en taal, maar er is weinig bekend over hoe de visuele kwaliteit van de input hun reacties beïnvloedt. Vertaalt een hogere perceptuele kwaliteit van afbeeldingen zich al naar een beter begrip door MLLMs? We voeren de eerste systematische studie uit die toonaangevende MLLMs en een reeks vision-language benchmarks omvat, waarbij we gecontroleerde degradaties en stilistische verschuivingen op elke afbeelding toepassen. Verrassend genoeg ontdekken we een visuele-kwaliteit paradox: de prestaties van het model, de taak en zelfs individuele instanties kunnen verbeteren wanneer afbeeldingen afwijken van de door mensen waargenomen getrouwheid. Kant-en-klare herstelpipelines slagen er niet in om deze idiosyncratische voorkeuren te verzoenen. Om deze kloof te dichten, introduceren we Visual-Quality Test-Time Tuning (VQ-TTT) – een lichtgewicht aanpassingsmodule die: (1) een leerbare, laag-rang kernel invoegt vóór de bevroren visuele encoder om de frequentie-inhoud te moduleren; en (2) alleen de ondiepe lagen van de visuele encoder fijnafstelt via LoRA. VQ-TTT past elke invoerafbeelding dynamisch aan in een enkele voorwaartse doorloop, waardoor deze wordt afgestemd op de taakspecifieke voorkeuren van het model. Over alle geëvalueerde MLLMs en datasets heen, verhoogt VQ-TTT de gemiddelde nauwkeurigheid aanzienlijk, zonder externe modellen, gecachte features of extra trainingsdata. Deze bevindingen herdefiniëren wat "betere" visuele inputs voor MLLMs zijn en benadrukken de noodzaak van adaptieve, in plaats van universeel "schone", beeldmateriaal in het nieuwe tijdperk waarin AI de belangrijkste data-consument is.
Storyvisualisatie is een populaire taak geworden waarbij visuele scènes worden gegenereerd om een verhaal over meerdere panelen weer te geven. Een centrale uitdaging in deze context is het behouden van visuele consistentie, met name in hoe personages en objecten door het verhaal heen blijven bestaan en evolueren. Ondanks recente vooruitgang in diffusiemodellen slagen huidige benaderingen er vaak niet in om belangrijke karaktereigenschappen te behouden, wat leidt tot onsamenhangende verhalen. In dit werk stellen we een collaboratief multi-agent framework voor dat autonoom inconsistenties identificeert, corrigeert en verfijnt in multi-panel storyvisualisaties. De agents werken in een iteratieve lus, waardoor fijnmazige, paneelniveau-updates mogelijk zijn zonder hele sequenties opnieuw te genereren. Ons framework is model-agnostisch en integreert flexibel met verschillende diffusiemodellen, waaronder rectified flow transformers zoals Flux en latent diffusion models zoals Stable Diffusion. Kwantitatieve en kwalitatieve experimenten tonen aan dat onze methode eerdere benaderingen overtreft op het gebied van multi-panel consistentie.
Medische visuele vraagbeantwoording heeft als doel klinische besluitvorming te ondersteunen door modellen in staat te stellen natuurlijke taalvragen te beantwoorden op basis van medische beelden. Hoewel recente vooruitgang in multimodaal leren de prestaties aanzienlijk heeft verbeterd, lijden huidige methoden nog steeds aan beperkte antwoordbetrouwbaarheid en slechte interpreteerbaarheid, wat het vermogen van clinici en patiënten om modelgegenereerde antwoorden te begrijpen en te vertrouwen belemmert. Om dit aan te pakken, stelt dit werk eerst een Thinking with Visual Grounding (ThinkVG)-dataset voor, waarbij de antwoordgeneratie wordt opgesplitst in tussenliggende redeneerstappen die expliciet relevante visuele regio's van het medische beeld verankeren, waardoor fijnmazige uitlegbaarheid wordt geboden. Bovendien introduceren we een nieuw verifieerbaar beloningsmechanisme voor reinforcement learning om post-training te begeleiden, waardoor de afstemming tussen het redeneerproces van het model en het uiteindelijke antwoord wordt verbeterd. Opmerkelijk is dat onze methode vergelijkbare prestaties bereikt met slechts een achtste van de trainingsdata, wat de efficiëntie en effectiviteit van het voorstel aantoont. De dataset is beschikbaar op https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
Recente vooruitgang in muziekfoundationmodellen heeft de representatie van audio verbeterd, maar hun effectiviteit over diverse muziektradities blijft beperkt. We introduceren CultureMERT-95M, een multicultureel aangepast foundationmodel ontwikkeld om het leren en begrijpen van cross-culturele muziekrepresentaties te verbeteren. Om dit te bereiken, stellen we een tweefasige voortdurende vooropleidingsstrategie voor die het opnieuw opwarmen en verval van de leercurve integreert, waardoor stabiele aanpassing mogelijk is, zelfs met beperkte rekenbronnen. Training op een 650 uur durende multiculturele dataset, bestaande uit Griekse, Turkse en Indiase muziektradities, resulteert in een gemiddelde verbetering van 4,9% in ROC-AUC en AP over diverse niet-Westerse muziekautotaggingtaken, wat de vorige state-of-the-art overtreft, met minimale vergetelheid op Westers-gecentreerde benchmarks. We onderzoeken verder taakarithmetiek, een alternatieve benadering voor multiculturele aanpassing die enkelcultuuraangepaste modellen in de gewichtsruimte samenvoegt. Taakarithmetiek presteert even goed als ons multicultureel getrainde model op niet-Westerse autotaggingtaken en vertoont geen terugval op Westerse datasets. Cross-culturele evaluatie toont aan dat enkelcultuurmodellen met wisselende effectiviteit over muziektradities heen overdragen, terwijl het multicultureel aangepaste model de beste algehele prestaties behaalt. Om onderzoek naar wereldmuziekrepresentatie te ondersteunen, geven we CultureMERT-95M en CultureMERT-TA-95M openbaar vrij, wat de ontwikkeling van meer cultureel bewuste muziekfoundationmodellen bevordert.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben tot opmerkelijke vooruitgang geleid in natuurlijke taalverwerking, maar hun rekenkundige en geheugeneisen blijven een aanzienlijke uitdaging, met name voor inferentie met lange contexten. Wij introduceren TPTT (Transforming Pretrained Transformer into Titans), een nieuw raamwerk voor het verbeteren van vooraf getrainde Transformer-modellen met efficiënte gelineariseerde aandachtmechanismen en geavanceerd geheugenbeheer. TPTT maakt gebruik van technieken zoals Memory as Gate (MaG) en gemengde gelineariseerde aandacht (LiZA). Het is volledig compatibel met de Hugging Face Transformers-bibliotheek, waardoor naadloze aanpassing van elk causaal LLM mogelijk is via parameter-efficiënte fine-tuning (LoRA) zonder volledige hertraining. Wij tonen de effectiviteit van TPTT aan op de MMLU-benchmark met modellen van ongeveer 1 miljard parameters, waarbij aanzienlijke verbeteringen worden waargenomen in zowel efficiëntie als nauwkeurigheid. Titans-Llama-3.2-1B behaalt bijvoorbeeld een stijging van 20% in Exact Match (EM) ten opzichte van de baseline. Statistische analyses en vergelijkingen met recente state-of-the-art methoden bevestigen de praktische schaalbaarheid en robuustheid van TPTT. Code is beschikbaar op https://github.com/fabienfrfr/tptt . Python-pakket op https://pypi.org/project/tptt/ .
Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt, maar hun inzet heeft kritieke kwetsbaarheden blootgelegd, met name voor jailbreak-aanvallen die veiligheidsmechanismen omzeilen. Guardrails—externe verdedigingsmechanismen die de interactie met LLMs monitoren en controleren—zijn naar voren gekomen als een veelbelovende oplossing. Het huidige landschap van LLM-guardrails is echter gefragmenteerd, zonder een uniforme taxonomie en een uitgebreid evaluatiekader. In deze Systematisering van Kennis (SoK) presenteren we de eerste holistische analyse van jailbreak-guardrails voor LLMs. We introduceren een nieuwe, multidimensionale taxonomie die guardrails categoriseert langs zes belangrijke dimensies, en introduceren een Security-Efficiency-Utility evaluatiekader om hun praktische effectiviteit te beoordelen. Door uitgebreide analyse en experimenten identificeren we de sterke punten en beperkingen van bestaande guardrail-benaderingen, onderzoeken we hun universaliteit over verschillende aanvalstypen heen, en bieden we inzichten voor het optimaliseren van verdedigingscombinaties. Ons werk biedt een gestructureerde basis voor toekomstig onderzoek en ontwikkeling, met als doel het principiële vooruitgang en inzet van robuuste LLM-guardrails te begeleiden. De code is beschikbaar op https://github.com/xunguangwang/SoK4JailbreakGuardrails.
Recente multi-modale grote taalmodellen (MLLMs) hebben vaak moeite om gepersonaliseerde beeldbeschrijvingen te genereren, zelfs wanneer ze getraind zijn op hoogwaardige beschrijvingen. In dit werk constateren we dat dergelijke beperkingen blijven bestaan in bestaande post-trainingsmethoden voor MLLM-personalisatie. Specifiek ondervinden deze modellen, ondanks het post-tunen met grootschalige beschrijvingsgegevens via supervised fine-tuning (SFT), vaak problemen met het produceren van nauwkeurige beschrijvingen in real-world scenario's, zoals het beschrijven van afbeeldingen met meerdere concepten. Het verkrijgen van grootschalige, hoogwaardige beschrijvingen voor dergelijke complexe situaties is echter zowel kostbaar als moeilijk. Om de data-gerichte aard van SFT aan te pakken, stellen we een reinforcement learning (RL)-gebaseerd post-trainingsframework voor. Voor zover wij weten, is dit de eerste RL-gebaseerde aanpak om MLLMs post-trainen voor gepersonaliseerde beeldbeschrijving. Onze methode verbetert zowel de visuele herkenning als de gepersonaliseerde generatiecapaciteiten van MLLMs aanzienlijk, en presteert consistent beter dan bestaande SFT-gebaseerde baselines, vooral in de uitdagende taak van het beschrijven van afbeeldingen met meerdere concepten.
Neonatale sterfte blijft een zorgwekkende realiteit voor onderontwikkelde en zelfs sommige ontwikkelde landen. Wereldwijde gegevens van Macro Trades geven aan dat 26.693 baby's op de 1.000 geboorten overlijden. Om dit aantal te verminderen, is vroege voorspelling van risicobaby's cruciaal. Een dergelijke voorspelling biedt de mogelijkheid om voldoende zorg te bieden aan het kind en de moeder, zodat vroege kindersterfte kan worden voorkomen. In dit verband werd machine learning gebruikt om te bepalen of een pasgeboren baby risico loopt. Om het voorspellende model te trainen, werden historische gegevens van 1,4 miljoen pasgeborenen gebruikt. Machine learning- en deep learning-technieken zoals logistische regressie, K-nearest neighbor, random forest classifier, extreme gradient boosting (XGBoost), convolutioneel neuraal netwerk en long short-term memory (LSTM) werden geïmplementeerd met behulp van de dataset om het meest nauwkeurige model te identificeren voor het voorspellen van neonatale sterfte. Onder de machine learning-algoritmen behaalden XGBoost en random forest classifier de beste nauwkeurigheid met 94%, terwijl onder de deep learning-modellen LSTM de hoogste nauwkeurigheid behaalde met 99%. Daarom lijkt het gebruik van LSTM de meest geschikte aanpak om te voorspellen of voorzorgsmaatregelen voor een kind noodzakelijk zijn.
Ondanks recente vooruitgang in het genereren van hardware RTL-code met LLM's, kampen bestaande oplossingen nog steeds met een aanzienlijke kloof tussen praktische toepassingsscenario's en de vereisten van real-world RTL-codeontwikkeling. Eerdere benaderingen richten zich ofwel op te vereenvoudigde hardwarebeschrijvingen of zijn afhankelijk van uitgebreide menselijke begeleiding om complexe specificaties te verwerken, wat hun schaalbaarheid en automatiseringspotentieel beperkt. In dit artikel pakken we deze kloof aan door een LLM-agentensysteem voor te stellen, genaamd Spec2RTL-Agent, dat is ontworpen om complexe specificatiedocumentatie direct te verwerken en de bijbehorende RTL-code-implementaties te genereren, waardoor LLM-gebaseerde RTL-codegeneratie wordt bevorderd naar meer realistische toepassingsomgevingen. Om dit doel te bereiken, introduceert Spec2RTL-Agent een nieuw multi-agent samenwerkingsframework dat drie belangrijke enablers integreert: (1) een redeneer- en begripsmodule die specificaties vertaalt naar gestructureerde, stapsgewijze implementatieplannen; (2) een progressieve coderings- en promptoptimalisatiemodule die de code iteratief verfijnt over meerdere representaties om de correctheid en synthetiseerbaarheid voor RTL-conversie te verbeteren; en (3) een adaptieve reflectiemodule die de bron van fouten tijdens de generatie identificeert en traceert, waardoor een robuustere codegeneratiestroom wordt gegarandeerd. In plaats van direct RTL te genereren uit natuurlijke taal, genereert ons systeem strategisch synthetiseerbare C++-code, die vervolgens wordt geoptimaliseerd voor HLS. Deze agent-gestuurde verfijning zorgt voor een grotere correctheid en compatibiliteit in vergelijking met naïeve directe RTL-generatiebenaderingen. We evalueren Spec2RTL-Agent op drie specificatiedocumenten, waaruit blijkt dat het nauwkeurige RTL-code genereert met tot 75% minder menselijke interventies dan bestaande methoden. Dit onderstreept zijn rol als het eerste volledig geautomatiseerde multi-agent systeem voor RTL-generatie uit ongestructureerde specificaties, waardoor de afhankelijkheid van menselijke inspanning in hardwareontwerp wordt verminderd.