Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Geïnspireerd door het succes van DeepSeek-R1 in het ontlokken van redeneervaardigheden via regelgebaseerd reinforcement learning (RL), introduceren we Video-R1 als de eerste poging om het R1-paradigma systematisch te verkennen voor het ontlokken van videoredenenering binnen multimodale grote taalmodellen (MLLMs). Het direct toepassen van RL-training met het GRPO-algoritme op videoredenenering brengt echter twee primaire uitdagingen met zich mee: (i) een gebrek aan temporele modellering voor videoredenenering, en (ii) de schaarste aan hoogwaardige videoredeneneringsdata. Om deze problemen aan te pakken, stellen we eerst het T-GRPO-algoritme voor, dat modellen aanmoedigt om temporele informatie in video's te gebruiken voor redenering. Daarnaast nemen we, in plaats van uitsluitend op videodata te vertrouwen, hoogwaardige beeldredeneringsdata op in het trainingsproces. We hebben twee datasets samengesteld: Video-R1-COT-165k voor SFT-koude start en Video-R1-260k voor RL-training, beide bestaande uit beeld- en videodata. Experimentele resultaten tonen aan dat Video-R1 aanzienlijke verbeteringen bereikt op videoredeneneringsbenchmarks zoals VideoMMMU en VSI-Bench, evenals op algemene videobenchmarks zoals MVBench en TempCompass, enz. Opmerkelijk is dat Video-R1-7B een nauwkeurigheid van 35,8% behaalt op de videoruimtelijke redeneringsbenchmark VSI-bench, waarmee het het commerciële propriëtaire model GPT-4o overtreft. Alle codes, modellen en data zijn vrijgegeven.
Het tijdperk van intelligente agents is aangebroken, aangedreven door revolutionaire vooruitgang in grote taalmodellen. Large Language Model (LLM) agents, met doelgericht gedrag en dynamische aanpassingsmogelijkheden, vertegenwoordigen mogelijk een cruciale weg naar kunstmatige algemene intelligentie. Dit onderzoek ontleedt LLM-agentensystemen systematisch aan de hand van een methodologiegerichte taxonomie, waarbij architectonische fundamenten, samenwerkingsmechanismen en evolutionaire trajecten met elkaar worden verbonden. We verenigen gefragmenteerde onderzoekslijnen door fundamentele verbanden te onthullen tussen ontwerpprincipes van agents en hun emergente gedrag in complexe omgevingen. Ons werk biedt een verenigd architectonisch perspectief, waarbij wordt onderzocht hoe agents worden geconstrueerd, hoe ze samenwerken en hoe ze zich in de loop van de tijd ontwikkelen, terwijl ook evaluatiemethodologieën, tooltoepassingen, praktische uitdagingen en diverse toepassingsdomeinen worden behandeld. Door de nieuwste ontwikkelingen in dit snel evoluerende veld te onderzoeken, bieden we onderzoekers een gestructureerde taxonomie voor het begrijpen van LLM-agents en identificeren we veelbelovende richtingen voor toekomstig onderzoek. De verzameling is beschikbaar op https://github.com/luo-junyu/Awesome-Agent-Papers.
De recente DeepSeek-R1 heeft het ontstaan van redeneervaardigheden in LLM's (Large Language Models) getoond door middel van reinforcement learning (RL) met op regels gebaseerde beloningen. Op basis van dit idee zijn wij de eersten die onderzoeken hoe op regels gebaseerd RL de redeneervaardigheden van multimodale grote taalmodellen (MLLMs) kan verbeteren voor taken gericht op het voorspellen van acties in grafische gebruikersinterfaces (GUI's). Hiertoe hebben we een kleine maar hoogwaardige dataset samengesteld van 136 uitdagende taken, die vijf veelvoorkomende actietypen op mobiele apparaten omvatten. We introduceren ook een uniforme, op regels gebaseerde actiebeloning, waardoor modeloptimalisatie mogelijk wordt via beleidsgebaseerde algoritmen zoals Group Relative Policy Optimization (GRPO). Experimentele resultaten tonen aan dat ons voorgestelde data-efficiënte model, UI-R1-3B, aanzienlijke verbeteringen behaalt op zowel in-domein (ID) als out-of-domein (OOD) taken. Specifiek verbetert op de ID-benchmark AndroidControl de nauwkeurigheid van het actietype met 15%, terwijl de grondingsnauwkeurigheid met 10,3% toeneemt in vergelijking met het basismodel (d.w.z. Qwen2.5-VL-3B). Op de OOD GUI-grondingsbenchmark ScreenSpot-Pro overtreft ons model het basismodel met 6,0% en behaalt het competitieve prestaties met grotere modellen (bijv. OS-Atlas-7B), die zijn getraind via supervised fine-tuning (SFT) op 76K data. Deze resultaten onderstrepen het potentieel van op regels gebaseerd reinforcement learning om GUI-begrip en -controle te bevorderen, wat de weg vrijmaakt voor toekomstig onderzoek op dit gebied.
In de afgelopen jaren heeft de snelle ontwikkeling van grote redeneermodellen geleid tot de verzadiging van bestaande benchmarks voor het evalueren van wiskundig redeneren, wat de dringende behoefte aan uitdagendere en strengere evaluatiekaders onderstreept. Om dit gat te dichten, introduceren we OlymMATH, een nieuwe Olympiade-niveau wiskundige benchmark, ontworpen om de complexe redeneervaardigheden van LLM's rigoureus te testen. OlymMATH bevat 200 zorgvuldig samengestelde problemen, elk handmatig geverifieerd en beschikbaar in parallelle Engelse en Chinese versies. De problemen zijn systematisch georganiseerd in twee verschillende moeilijkheidsniveaus: (1) AIME-niveau problemen (makkelijk) die een basislijn vormen voor de beoordeling van wiskundig redeneren, en (2) aanzienlijk uitdagendere problemen (moeilijk) die zijn ontworpen om de grenzen van de huidige state-of-the-art modellen te verleggen. In onze benchmark beslaan deze problemen vier kerngebieden van de wiskunde, elk inclusief een verifieerbare numerieke oplossing om objectieve, op regels gebaseerde evaluatie mogelijk te maken. Empirische resultaten benadrukken de aanzienlijke uitdaging die OlymMATH biedt, waarbij state-of-the-art modellen zoals DeepSeek-R1 en OpenAI's o3-mini opvallend beperkte nauwkeurigheid laten zien op de moeilijke subset. Bovendien vergemakkelijkt de benchmark een uitgebreide tweetalige beoordeling van wiskundige redeneervaardigheden - een cruciaal aspect dat grotendeels onbehandeld blijft in mainstream benchmarks voor wiskundig redeneren. We publiceren de OlymMATH benchmark in het STILL-project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
Videogeneratie heeft aanzienlijke vooruitgang geboekt, waarbij de ontwikkeling is gegaan van het produceren van onrealistische uitvoer naar het genereren van video's die visueel overtuigend en temporeel coherent lijken. Om deze videogeneratieve modellen te evalueren, zijn benchmarks zoals VBench ontwikkeld om hun geloofwaardigheid te beoordelen, waarbij factoren zoals esthetiek per frame, temporele consistentie en basispromptnaleving worden gemeten. Deze aspecten vertegenwoordigen echter voornamelijk oppervlakkige geloofwaardigheid, die zich richt op of de video visueel overtuigend lijkt in plaats van of deze voldoet aan real-world principes. Hoewel recente modellen steeds beter presteren op deze metrieken, hebben ze nog steeds moeite om video's te genereren die niet alleen visueel plausibel zijn, maar ook fundamenteel realistisch. Om echte "wereldmodellen" te bereiken via videogeneratie, ligt de volgende grens in intrinsieke geloofwaardigheid om ervoor te zorgen dat gegenereerde video's voldoen aan fysische wetten, gezond verstand, anatomische correctheid en compositionele integriteit. Het bereiken van dit realisme is essentieel voor toepassingen zoals AI-ondersteunde filmproductie en gesimuleerde wereldmodellering. Om deze kloof te overbruggen, introduceren we VBench-2.0, een next-generation benchmark ontworpen om videogeneratieve modellen automatisch te evalueren op hun intrinsieke geloofwaardigheid. VBench-2.0 beoordeelt vijf belangrijke dimensies: Menselijke Gelijkenis, Beheersbaarheid, Creativiteit, Fysica en Gezond Verstand, elk verder opgedeeld in fijnmazige capaciteiten. Ons evaluatieraamwerk, afgestemd op individuele dimensies, integreert generalisten zoals state-of-the-art VLMs en LLMs, en specialisten, waaronder anomaliedetectiemethoden voorgesteld voor videogeneratie. We voeren uitgebreide annotaties uit om afstemming met menselijk oordeel te waarborgen. Door verder te gaan dan oppervlakkige geloofwaardigheid naar intrinsieke geloofwaardigheid, streeft VBench-2.0 ernaar een nieuwe standaard te zetten voor de volgende generatie videogeneratieve modellen in de zoektocht naar intrinsieke geloofwaardigheid.
Large Reasoning Models (LRMs) vertonen opmerkelijke redeneervaardigheden, maar zijn voornamelijk afhankelijk van parametrische kennis, wat de feitelijke nauwkeurigheid beperkt. Hoewel recente werken reinforcement learning (RL)-gebaseerde LRMs uitrusten met retrievalmogelijkheden, lijden deze aan overdenken en een gebrek aan robuustheid in het redeneren, wat hun effectiviteit in vraag-antwoordtaken (QA) vermindert. Om dit aan te pakken, stellen we ReaRAG voor, een feitelijkheidsversterkt redeneermodel dat diverse queries verkent zonder overmatige iteraties. Onze oplossing omvat een nieuw dataconstructiekader met een bovengrens aan de lengte van de redeneerketen. Specifiek benutten we eerst een LRM om weloverwogen denken te genereren, waarna een actie wordt geselecteerd uit een vooraf gedefinieerde actieruimte (Zoeken en Afronden). Voor de Zoeken-actie wordt een query uitgevoerd tegen de RAG-engine, waarbij het resultaat wordt teruggegeven als observatie om latere redeneerstappen te begeleiden. Dit proces herhaalt zich totdat een Afronden-actie wordt gekozen. Dankzij de sterke redeneervaardigheden van ReaRAG presteert onze aanpak beter dan bestaande baselines op multi-hop QA. Verdere analyse benadrukt het sterke reflecterende vermogen om fouten te herkennen en de redeneertrajectorie te verfijnen. Onze studie verbetert de feitelijkheid van LRMs terwijl robuust redeneren effectief wordt geïntegreerd voor Retrieval-Augmented Generation (RAG).
We introduceren LeX-Art, een uitgebreide suite voor hoogwaardige tekst-naar-beeld synthese die systematisch de kloof overbrugt tussen prompt-expressiviteit en tekstweergavegetrouwheid. Onze aanpak volgt een data-centrisch paradigma, waarbij een hoogwaardige data-synthesepijplijn wordt geconstrueerd op basis van Deepseek-R1 om LeX-10K te cureren, een dataset van 10K hoogwaardige, esthetisch verfijnde 1024x1024 afbeeldingen. Naast de datasetconstructie ontwikkelen we LeX-Enhancer, een robuust promptverrijkingsmodel, en trainen we twee tekst-naar-beeldmodellen, LeX-FLUX en LeX-Lumina, die state-of-the-art tekstweergaveprestaties behalen. Om visuele tekstgeneratie systematisch te evalueren, introduceren we LeX-Bench, een benchmark die getrouwheid, esthetiek en uitlijning beoordeelt, aangevuld met Pairwise Normalized Edit Distance (PNED), een nieuwe metriek voor robuuste tekstnauwkeurigheidsevaluatie. Experimenten tonen significante verbeteringen, waarbij LeX-Lumina een PNED-winst van 79,81% behaalt op CreateBench, en LeX-FLUX de baseline overtreft in kleur (+3,18%), positie (+4,45%) en lettertypenauwkeurigheid (+3,81%). Onze codes, modellen, datasets en demo zijn publiekelijk beschikbaar.
Real-time interactieve videochatportretten worden steeds meer erkend als de toekomstige trend, vooral vanwege de opmerkelijke vooruitgang in tekst- en spraakchattechnologieën. Bestaande methoden richten zich echter voornamelijk op de real-time generatie van hoofdbewegingen, maar hebben moeite om gesynchroniseerde lichaamsbewegingen te produceren die bij deze hoofdbewegingen passen. Daarnaast blijft het bereiken van fijnmazige controle over de spreekstijl en de nuances van gezichtsuitdrukkingen een uitdaging. Om deze beperkingen aan te pakken, introduceren we een nieuw raamwerk voor gestileerde real-time portretvideogeneratie, dat expressieve en flexibele videochat mogelijk maakt, variërend van pratende hoofden tot bovenlichaaminteractie. Onze aanpak bestaat uit de volgende twee fasen. De eerste fase omvat efficiënte hiërarchische bewegingsdiffusiemodellen, die zowel expliciete als impliciete bewegingsrepresentaties in overweging nemen op basis van audio-inputs, wat een breed scala aan gezichtsuitdrukkingen kan genereren met stilistische controle en synchronisatie tussen hoofdbewegingen en lichaamsbewegingen. De tweede fase is gericht op het genereren van portretvideo's met bovenlichaambewegingen, inclusief handgebaren. We injecteren expliciete handcontrolesignalen in de generator om gedetailleerdere handbewegingen te produceren en voeren gezichtsverfijning uit om de algehele realiteit en expressiviteit van de portretvideo te verbeteren. Bovendien ondersteunt onze aanpak efficiënte en continue generatie van bovenlichaamportretvideo's in een maximale resolutie van 512 * 768 bij maximaal 30 fps op een 4090 GPU, wat real-time interactieve videochat mogelijk maakt. Experimentele resultaten demonstreren het vermogen van onze aanpak om portretvideo's te produceren met rijke expressiviteit en natuurlijke bovenlichaambewegingen.
We introduceren Lumina-Image 2.0, een geavanceerd tekst-naar-beeld generatieframework dat aanzienlijke vooruitgang boekt in vergelijking met eerder werk, Lumina-Next. Lumina-Image 2.0 is gebaseerd op twee belangrijke principes: (1) Unificatie - het neemt een uniforme architectuur aan (Unified Next-DiT) die tekst- en beeldtokens behandelt als een gezamenlijke reeks, waardoor natuurlijke cross-modale interacties mogelijk worden en naadloze taakuitbreiding wordt toegestaan. Bovendien, aangezien hoogwaardige captioners semantisch goed uitgelijnde tekst-beeld trainingsparen kunnen leveren, introduceren we een uniform captioningsysteem, Unified Captioner (UniCap), specifiek ontworpen voor T2I-generatietaken. UniCap blinkt uit in het genereren van uitgebreide en nauwkeurige captions, wat de convergentie versnelt en de promptnaleving verbetert. (2) Efficiëntie - om de efficiëntie van ons voorgestelde model te verbeteren, ontwikkelen we multi-staps progressieve trainingsstrategieën en introduceren we inferentieversnellings-technieken zonder in te leveren op beeldkwaliteit. Uitgebreide evaluaties op academische benchmarks en publieke tekst-naar-beeld arena's tonen aan dat Lumina-Image 2.0 sterke prestaties levert, zelfs met slechts 2,6B parameters, wat de schaalbaarheid en ontwerpefficiëntie benadrukt. We hebben onze trainingsdetails, code en modellen vrijgegeven op https://github.com/Alpha-VLLM/Lumina-Image-2.0.
Recente vooruitgang in diepe denkmodellen heeft opmerkelijke redeneervaardigheden aangetoond bij wiskundige en programmeertaken. Hun effectiviteit in belichaamde domeinen, die continue interactie met omgevingen vereisen via beeld-actie-verweven trajecten, blijft echter grotendeels onontgonnen. Wij presenteren Embodied Reasoner, een model dat o1-stijl redeneren uitbreidt naar interactieve belichaamde zoektaken. In tegenstelling tot wiskundig redeneren, dat voornamelijk afhankelijk is van logische deductie, vereisen belichaamde scenario's ruimtelijk begrip, temporeel redeneren en voortdurende zelfreflectie gebaseerd op interactiegeschiedenis. Om deze uitdagingen aan te pakken, synthetiseren we 9,3k samenhangende Observatie-Gedachte-Actie-trajecten met 64k interactieve beelden en 90k diverse denkprocessen (analyse, ruimtelijk redeneren, reflectie, planning en verificatie). We ontwikkelen een drietraps trainingspijplijn die de capaciteiten van het model geleidelijk verbetert via imitatieleren, zelfexploratie via afwijzingssteekproeven en zelfcorrectie door reflectieafstemming. De evaluatie toont aan dat ons model aanzienlijk beter presteert dan geavanceerde visuele redeneermodellen, bijvoorbeeld het overtreft OpenAI o1, o3-mini en Claude-3.7 met respectievelijk +9%, 24% en +13%. Analyse onthult dat ons model minder herhaalde zoekacties en logische inconsistenties vertoont, met bijzondere voordelen in complexe langetermijntaken. Ook in real-world omgevingen toont ons model zijn superioriteit, terwijl het minder herhaalde zoekacties en gevallen van logische inconsistentie vertoont.
Grote taalmodellen (LLMs) hebben potentieel getoond in het ondersteunen van wetenschappelijk onderzoek, maar hun vermogen om hoogwaardige onderzoekshypothesen te ontdekken is nog niet onderzocht vanwege het ontbreken van een specifieke benchmark. Om dit gat te dichten, introduceren we de eerste grootschalige benchmark voor het evalueren van LLMs met een bijna volledige set van subtaken voor wetenschappelijke ontdekking: inspiratie-retrieval, hypothese-samenstelling en hypothese-rangschikking. We ontwikkelen een geautomatiseerd framework dat kritieke componenten - onderzoeksvragen, achtergrondonderzoeken, inspiraties en hypothesen - extraheert uit wetenschappelijke artikelen in 12 disciplines, waarbij expertvalidatie de nauwkeurigheid bevestigt. Om gegevensbesmetting te voorkomen, richten we ons uitsluitend op artikelen die in 2024 zijn gepubliceerd, waardoor de overlap met de pretrainingsgegevens van LLMs minimaal blijft. Onze evaluatie toont aan dat LLMs goed presteren in het ophalen van inspiraties, een taak buiten de distributie, wat suggereert dat ze in staat zijn nieuwe kennisassociaties naar voren te brengen. Dit positioneert LLMs als "onderzoekshypothese-mijnen", die geautomatiseerde wetenschappelijke ontdekking kunnen faciliteren door op grote schaal innovatieve hypothesen te genereren met minimale menselijke interventie.
Audio Large Language Models (AudioLLMs) hebben brede aandacht gekregen en hebben de prestaties aanzienlijk verbeterd op audiotaken zoals conversatie, audio-begrip en automatische spraakherkenning (ASR). Ondanks deze vooruitgang ontbreekt het aan een benchmark voor het beoordelen van AudioLLMs in financiële scenario's, waar audiodata, zoals winstpresentaties en CEO-toespraken, cruciale bronnen zijn voor financiële analyse en investeringsbeslissingen. In dit artikel introduceren we FinAudio, de eerste benchmark die is ontworpen om de capaciteit van AudioLLMs in het financiële domein te evalueren. We definiëren eerst drie taken op basis van de unieke kenmerken van het financiële domein: 1) ASR voor korte financiële audio, 2) ASR voor lange financiële audio, en 3) samenvatting van lange financiële audio. Vervolgens stellen we respectievelijk twee korte en twee lange audio-datasets samen en ontwikkelen we een nieuwe dataset voor financiële audio-samenvatting, die de FinAudio-benchmark vormt. Daarna evalueren we zeven veelgebruikte AudioLLMs op FinAudio. Onze evaluatie onthult de beperkingen van bestaande AudioLLMs in het financiële domein en biedt inzichten voor het verbeteren van AudioLLMs. Alle datasets en codes zullen worden vrijgegeven.
We onderzoeken hoe de fysieke nauwkeurigheid van videogeneratiemodellen kan worden verbeterd door gebruik te maken van synthetische video's die afkomstig zijn uit computergraphics-pipelines. Deze gerenderde video's houden rekening met realistische fysica, zoals het behouden van 3D-consistentie, en vormen een waardevolle bron die videogeneratiemodellen potentieel kan verbeteren. Om dit potentieel te benutten, stellen we een oplossing voor die synthetische data selecteert en integreert, terwijl we een methode introduceren om de fysieke realisme ervan over te dragen naar het model, waardoor ongewenste artefacten aanzienlijk worden verminderd. Door experimenten uit te voeren op drie representatieve taken die fysieke consistentie benadrukken, tonen we de effectiviteit aan in het verbeteren van de fysieke nauwkeurigheid. Hoewel ons model nog geen diepgaand begrip van fysica heeft, biedt ons werk een van de eerste empirische demonstraties dat synthetische video de fysieke nauwkeurigheid in videosynthese verbetert. Website: https://kevinz8866.github.io/simulation/
Diffusiemodellen bereiken opmerkelijke generatiekwaliteit, maar lijden onder computational intensieve sampling vanwege suboptimale stapdiscretisatie. Terwijl bestaande werken zich richten op het optimaliseren van denoiseringsrichtingen, pakken wij de principiële ontwerp van stapgrootte schema's aan. Dit artikel stelt Optimal Stepsize Distillation voor, een dynamisch programmeerkader dat theoretisch optimale schema's extracteert door kennis te distilleren uit referentietrajecten. Door stapgrootte optimalisatie te herformuleren als recursieve foutminimalisatie, garandeert onze methode globale discretisatiegrenzen door optimale substructuur exploitatie. Cruciaal is dat de gedistilleerde schema's sterke robuustheid demonstreren over architecturen, ODE-oplossers en ruisschema's. Experimenten tonen een 10x versnelde tekst-naar-beeld generatie terwijl 99,4% prestaties worden behouden op GenEval. Onze code is beschikbaar op https://github.com/bebebe666/OptimalSteps.
Recente vooruitgang in videogeneratie heeft aanzienlijke vooruitgang geboekt, vooral met de snelle ontwikkeling van diffusiemodellen. Desondanks is er steeds meer aandacht voor hun tekortkomingen in fysieke cognitie - gegenereerde inhoud overtreedt vaak de fundamentele wetten van de fysica, wat leidt tot het dilemma van "visuele realiteit maar fysieke absurditeit". Onderzoekers zijn zich steeds meer bewust geworden van het belang van fysieke nauwkeurigheid in videogeneratie en hebben geprobeerd heuristische fysieke cognitie, zoals bewegingsrepresentaties en fysieke kennis, te integreren in generatieve systemen om realistische dynamische scenario's te simuleren. Gezien het ontbreken van een systematisch overzicht op dit gebied, beoogt deze survey een uitgebreide samenvatting te bieden van architectuurontwerpen en hun toepassingen om deze leemte op te vullen. Specifiek bespreken en organiseren we het evolutieproces van fysieke cognitie in videogeneratie vanuit een cognitief wetenschappelijk perspectief, terwijl we een driedelige taxonomie voorstellen: 1) basischemaperceptie voor generatie, 2) passieve cognitie van fysieke kennis voor generatie, en 3) actieve cognitie voor wereldsimulatie, waarbij state-of-the-art methoden, klassieke paradigma's en benchmarks worden behandeld. Vervolgens benadrukken we de inherente kernuitdagingen in dit domein en schetsen we mogelijke onderzoeksrichtingen voor de toekomst, wat bijdraagt aan het bevorderen van de discussie in zowel academische als industriële kringen. Door gestructureerde review en interdisciplinaire analyse beoogt deze survey richtinggevende begeleiding te bieden voor het ontwikkelen van interpreteerbare, controleerbare en fysiek consistente videogeneratieparadigma's, waardoor generatieve modellen worden voortgestuwd van het stadium van "visuele nabootsing" naar een nieuwe fase van "mensachtig fysiek begrip".
Open-vocabulary semantische segmentatiemodellen koppelen visie en tekst om pixels te labelen vanuit een ongedefinieerde set van klassen met behulp van tekstuele queries, wat een veelzijdige prestaties biedt op nieuwe datasets. Grote verschillen tussen trainings- en testdomeinen verminderen echter hun prestaties, waardoor fine-tuning nodig is voor effectieve toepassingen in de praktijk. Wij introduceren Semantic Library Adaptation (SemLA), een nieuw framework voor trainingsvrije, testtijd domeinadaptatie. SemLA maakt gebruik van een bibliotheek van LoRA-gebaseerde adapters die geïndexeerd zijn met CLIP-embeddings, waarbij de meest relevante adapters dynamisch worden samengevoegd op basis van nabijheid tot het doeldomein in de embeddingruimte. Deze aanpak construeert een ad-hoc model dat is afgestemd op elke specifieke input zonder extra training. Onze methode schaalt efficiënt, verbetert de uitlegbaarheid door bijdragen van adapters te volgen, en beschermt inherent de gegevensprivacy, wat het ideaal maakt voor gevoelige toepassingen. Uitgebreide experimenten op een benchmark van 20 domeinen, gebouwd over 10 standaarddatasets, tonen de superieure aanpassingsvermogen en prestaties van SemLA in diverse omgevingen, waarmee een nieuwe standaard wordt gevestigd in domeinadaptatie voor open-vocabulary semantische segmentatie.
Multimodale generatieve modellen die meerdere modaliteiten kunnen begrijpen en genereren, worden gedomineerd door autoregressieve (AR) benaderingen, waarbij tokens sequentieel van links naar rechts of van boven naar beneden worden verwerkt. Deze modellen verwerken gezamenlijk afbeeldingen, tekst, video en audio voor diverse taken zoals beeldbeschrijving, vraagbeantwoording en beeldgeneratie. In dit werk onderzoeken we discrete diffusiemodellen als een uniforme generatieve formulering in het domein van gecombineerde tekst en afbeeldingen, voortbouwend op hun recente succes in tekstgeneratie. Discrete diffusiemodellen bieden verschillende voordelen ten opzichte van AR-modellen, waaronder verbeterde controle over kwaliteit versus diversiteit van gegenereerde samples, de mogelijkheid om gezamenlijke multimodale inpainting uit te voeren (zowel in tekst- als beeld domeinen), en een grotere beheersbaarheid in generatie door middel van begeleiding. Door gebruik te maken van deze voordelen, presenteren we het eerste Unified Multimodal Discrete Diffusion (UniDisc) model, dat in staat is om gezamenlijk tekst en afbeeldingen te begrijpen en te genereren voor een verscheidenheid aan downstream taken. We vergelijken UniDisc met multimodale AR-modellen, voeren een schaalanalyse uit en tonen aan dat UniDisc deze overtreft op het gebied van prestaties en rekentijd tijdens inferentie, verbeterde beheersbaarheid, bewerkbaarheid, inpainting en flexibele afweging tussen inferentietijd en generatiekwaliteit. Code en aanvullende visualisaties zijn beschikbaar op https://unidisc.github.io.
Dit artikel presenteert de inzending van het ZJUKLAB-team voor SemEval-2025 Taak 4: Het afleren van gevoelige inhoud uit grote taalmodellen. Deze taak heeft als doel om selectief gevoelige kennis uit grote taalmodellen te verwijderen, waarbij zowel overmatig als onvoldoende afleren wordt vermeden. Wij stellen een aflersysteem voor dat gebruikmaakt van Model Merging (specifiek TIES-Merging), waarbij twee gespecialiseerde modellen worden gecombineerd tot een meer gebalanceerd afgeleerd model. Ons systeem behaalt competitieve resultaten, met een tweede plaats onder 26 teams, een online score van 0.944 voor Taak Aggregate en 0.487 voor het algehele Aggregate. In dit artikel voeren we ook lokale experimenten uit en doen we een uitgebreide analyse van het aflerproces, waarbij we prestatieverlopen, verliesdynamiek en gewichtsperspectieven onderzoeken, samen met verschillende aanvullende experimenten, om de effectiviteit van onze methode te begrijpen. Daarnaast analyseren we de tekortkomingen van onze methode en evaluatiemetrics, waarbij we benadrukken dat MIA-scores en ROUGE-gebaseerde metrics alleen niet voldoende zijn om succesvol afleren volledig te evalueren. Tot slot benadrukken we de noodzaak voor meer uitgebreide evaluatiemethodologieën en een herziening van aflerdoelstellingen in toekomstig onderzoek. De code is beschikbaar op https://github.com/zjunlp/unlearn/tree/main/semeval25.
Recente vooruitgang in 2D- en multimodale modellen heeft opmerkelijke successen geboekt door grootschalige training op uitgebreide datasets te benutten. Het uitbreiden van deze prestaties om vrije interacties en hoogwaardige semantische operaties met complexe 3D/4D-scènes mogelijk te maken, blijft echter een uitdaging. Deze moeilijkheid komt voort uit de beperkte beschikbaarheid van grootschalige, geannoteerde 3D/4D- of multiview-datasets, die cruciaal zijn voor generaliseerbare visie- en taal taken zoals open-vocabulary- en prompt-gebaseerde segmentatie, taalgestuurde bewerking en visuele vraagbeantwoording (VQA). In dit artikel introduceren we Feature4X, een universeel raamwerk ontworpen om elke functionaliteit van een 2D-visie foundation model uit te breiden naar het 4D-domein, met alleen monoscopische video-invoer, die ruim beschikbaar is uit door gebruikers gegenereerde content. De "X" in Feature4X vertegenwoordigt zijn veelzijdigheid, waardoor elke taak mogelijk wordt door middel van aanpasbare, model-geconditioneerde 4D-featureveld-distillatie. De kern van ons raamwerk is een dynamische optimalisatiestrategie die meerdere modelmogelijkheden verenigt in een enkele representatie. Daarnaast is Feature4X, voor zover wij weten, de eerste methode die de features van video foundation modellen (bijv. SAM2, InternVideo2) distilleert en optilt naar een expliciet 4D-featureveld met behulp van Gaussian Splatting. Onze experimenten tonen nieuwe view-segmentatie, geometrische en visuele scènebewerking, en vrije VQA over alle tijdstappen, mogelijk gemaakt door LLM's in feedback loops. Deze vooruitgangen vergroten het bereik van agent-gebaseerde AI-toepassingen door een basis te bieden voor schaalbare, contextueel en ruimtelijk-tijdelijk bewuste systemen die in staat zijn tot interactie met dynamische 4D-scènes.
Foutinducerende invoer speelt een cruciale rol bij het diagnosticeren en analyseren van softwarebugs. Bugrapporten bevatten doorgaans deze invoer, die ontwikkelaars extraheren om het debuggen te vergemakkelijken. Omdat bugrapporten in natuurlijke taal zijn geschreven, heeft eerder onderzoek verschillende Natural Language Processing (NLP)-technieken benut voor geautomatiseerde invoerextractie. Met de opkomst van Large Language Models (LLM's) rijst een belangrijke onderzoeksvraag: hoe effectief kunnen generatieve LLM's foutinducerende invoer uit bugrapporten extraheren? In dit artikel stellen we LLPut voor, een techniek om de prestaties van drie open-source generatieve LLM's — LLaMA, Qwen en Qwen-Coder — empirisch te evalueren bij het extraheren van relevante invoer uit bugrapporten. We voeren een experimentele evaluatie uit op een dataset van 206 bugrapporten om de nauwkeurigheid en effectiviteit van deze modellen te beoordelen. Onze bevindingen bieden inzicht in de mogelijkheden en beperkingen van generatieve LLM's bij geautomatiseerde bugdiagnose.
Tijdelijke consistentie is cruciaal in videovoorspelling om ervoor te zorgen dat de uitvoer samenhangend is en vrij van artefacten. Traditionele methoden, zoals temporele aandacht en 3D-convolutie, kunnen moeite hebben met significante objectbewegingen en zijn mogelijk niet in staat om langetermijntijdsafhankelijkheden in dynamische scènes vast te leggen. Om dit gat te dichten, stellen we de Tracktention Layer voor, een nieuw architectuurcomponent dat expliciet bewegingsinformatie integreert met behulp van puntsporen, d.w.z. reeksen van corresponderende punten over frames. Door deze bewegingssignalen te incorporeren, verbetert de Tracktention Layer de temporele uitlijning en behandelt het complexe objectbewegingen effectief, waardoor consistente kenmerkrepresentaties in de tijd worden behouden. Onze aanpak is computationeel efficiënt en kan naadloos worden geïntegreerd in bestaande modellen, zoals Vision Transformers, met minimale aanpassingen. Het kan worden gebruikt om modellen die alleen op afbeeldingen werken, te upgraden naar state-of-the-art videomodellen, waarbij het soms modellen die specifiek zijn ontworpen voor videovoorspelling overtreft. We demonstreren dit op het gebied van videodieptevoorspelling en videokleurtoekenning, waar modellen die zijn uitgebreid met de Tracktention Layer een aanzienlijk verbeterde temporele consistentie vertonen in vergelijking met de basislijnen.
Tekstgestuurd beeldbewerking heeft als doel specifieke delen van een afbeelding aan te passen volgens natuurlijke taal instructies, terwijl de algemene structuur en achtergrondgetrouwheid behouden blijven. Bestaande methoden maken gebruik van maskers die zijn afgeleid van kruis-attentiemappen gegenereerd door diffusiemodellen om de doelgebieden voor aanpassing te identificeren. Echter, aangezien kruis-attentiemechanismen zich richten op semantische relevantie, hebben ze moeite om de integriteit van de afbeelding te behouden. Als gevolg hiervan ontbreekt het deze methoden vaak aan ruimtelijke consistentie, wat leidt tot bewerkingsartefacten en vervormingen. In dit werk pakken we deze beperkingen aan en introduceren we LOCATEdit, dat kruis-attentiemappen verbetert via een grafiekgebaseerde aanpak die gebruikmaakt van zelf-attentie-afgeleide patchrelaties om vloeiende, samenhangende aandacht over beeldregio's te behouden, waardoor aanpassingen beperkt blijven tot de aangewezen items terwijl de omringende structuur behouden blijft. \method presteert consistent en aanzienlijk beter dan bestaande baseline-methoden op PIE-Bench, wat zijn state-of-the-art prestaties en effectiviteit op diverse bewerkingstaken aantoont. Code is te vinden op https://github.com/LOCATEdit/LOCATEdit/