Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Multi-agent reinforcement learning (MARL) toont aanzienlijke vooruitgang in het oplossen van samenwerkings- en competitieve multi-agent problemen in verschillende omgevingen. Een van de belangrijkste uitdagingen in MARL is de noodzaak voor een expliciete voorspelling van het gedrag van de agenten om samenwerking te bereiken. Om dit probleem op te lossen, stellen we de Gedeelde Recurrente Geheugen Transformer (SRMT) voor, die geheugen transformers uitbreidt naar multi-agent omgevingen door individuele werkgeheugens samen te voegen en wereldwijd uit te zenden, waardoor agenten informatie impliciet kunnen uitwisselen en hun acties kunnen coördineren. We evalueren SRMT op het Gedeeltelijk Waarneembare Multi-Agent Padvindingsprobleem in een speelgoedflessenhalsnavigatietaak waarbij agenten door een smalle gang moeten gaan en op een POGEMA benchmarkset van taken. In de Flessenhals taak presteert SRMT consequent beter dan verschillende reinforcement learning baselines, vooral bij schaarse beloningen, en generaliseert effectief naar langere gangen dan die tijdens de training zijn gezien. Op POGEMA-kaarten, waaronder Doolhoven, Willekeurig en MovingAI, is SRMT concurrerend met recente MARL, hybride en op planning gebaseerde algoritmen. Deze resultaten suggereren dat het opnemen van gedeeld recurrent geheugen in op transformer gebaseerde architecturen de coördinatie in gedecentraliseerde multi-agent systemen kan verbeteren. De broncode voor training en evaluatie is beschikbaar op GitHub: https://github.com/Aloriosa/srmt.
Videogeneratie heeft aanzienlijke vooruitgang geboekt door gecorrigeerde flowtechnieken, maar problemen zoals onregelmatige beweging en misalignement tussen video's en aanwijzingen blijven bestaan. In dit werk ontwikkelen we een systematische pijplijn die menselijke feedback benut om deze problemen te verminderen en het videogeneratiemodel te verfijnen. We beginnen specifiek met het opbouwen van een grootschalige dataset van menselijke voorkeuren gericht op moderne videogeneratiemodellen, waarbij pairwise annotaties over meerdere dimensies worden opgenomen. Vervolgens introduceren we VideoReward, een multidimensionaal videobeloningsmodel, en onderzoeken hoe annotaties en verschillende ontwerpkeuzes van invloed zijn op de beloningsdoeltreffendheid. Vanuit een verenigd versterkend leerperspectief gericht op het maximaliseren van beloning met KL-regularisatie, introduceren we drie aligneringsalgoritmen voor op flow gebaseerde modellen door deze uit te breiden vanuit die van diffusiemodellen. Deze omvatten twee strategieën tijdens training: directe voorkeursoptimalisatie voor flow (Flow-DPO) en beloningsgewogen regressie voor flow (Flow-RWR), en een techniek tijdens inferentie, Flow-NRG, die beloningsbegeleiding rechtstreeks toepast op ruisachtige video's. Experimentele resultaten geven aan dat VideoReward aanzienlijk beter presteert dan bestaande beloningsmodellen, en dat Flow-DPO superieure prestaties laat zien in vergelijking met zowel Flow-RWR als standaard toezichtgestuurde fine-tuning methoden. Bovendien stelt Flow-NRG gebruikers in staat om aangepaste gewichten toe te kennen aan meerdere doelstellingen tijdens inferentie, om te voldoen aan gepersonaliseerde videokwaliteitsbehoeften. Projectpagina: https://gongyeliu.github.io/videoalign.
Wij introduceren Sigma, een efficiënt groot taalmodel gespecialiseerd voor het systeemdomein, versterkt door een nieuw architectuur met DiffQKV-aandacht, en vooraf getraind op onze zorgvuldig verzamelde systeemdomeingegevens. DiffQKV-aandacht verbetert aanzienlijk de inferentie-efficiëntie van Sigma door de Query (Q), Key (K) en Value (V) componenten in het aandachtsmechanisme differentieel te optimaliseren, gebaseerd op hun variërende impact op de modelprestaties en efficiëntie-indicatoren. Specifiek voeren we (1) uitgebreide experimenten uit die de variërende gevoeligheid van het model voor de compressie van K en V componenten aantonen, wat leidt tot de ontwikkeling van differentieel gecomprimeerde KV, en (2) stellen we augmented Q voor om de Q-hoofddimensie uit te breiden, wat de representatiecapaciteit van het model verbetert met minimale impact op de inferentiesnelheid. Grondige theoretische en empirische analyses tonen aan dat DiffQKV-aandacht de efficiëntie aanzienlijk verbetert, met een verbetering van maximaal 33,36% in inferentiesnelheid ten opzichte van de conventionele gegroepeerde-query-aandacht (GQA) in scenario's met lange context. We trainen Sigma vooraf op 6T tokens uit verschillende bronnen, waaronder 19,5B systeemdomeingegevens die we zorgvuldig verzamelen en 1T tokens van gesynthetiseerde en herschreven gegevens. In algemene domeinen behaalt Sigma vergelijkbare prestaties als andere state-of-the-art modellen. In het systeemdomein introduceren we de eerste uitgebreide benchmark AIMicius, waar Sigma opmerkelijke prestaties levert op alle taken, aanzienlijk beter presterend dan GPT-4 met een absolute verbetering tot 52,5%.
Keten-van-Gedachten (CoT) redeneren is uitgebreid onderzocht in grote modellen om complexe begripstaken aan te pakken. Het blijft echter een open vraag of dergelijke strategieën kunnen worden toegepast om beeldgeneratiescenario's te verifiëren en te versterken. In dit artikel bieden we het eerste uitgebreide onderzoek naar het potentieel van CoT redeneren om autoregressieve beeldgeneratie te verbeteren. We richten ons op drie technieken: schalen van testtijd berekening voor verificatie, afstemmen van modelvoorkeuren met Directe Voorkeurs Optimalisatie (DPO), en integratie van deze technieken voor complementaire effecten. Onze resultaten tonen aan dat deze benaderingen effectief kunnen worden aangepast en gecombineerd om de prestaties van beeldgeneratie aanzienlijk te verbeteren. Gezien de cruciale rol van beloningsmodellen in onze bevindingen, stellen we het Potentieel Beoordelings Beloningsmodel (PARM) en PARM++ voor, gespecialiseerd voor autoregressieve beeldgeneratie. PARM beoordeelt adaptief elke generatiestap via een potentieel beoordelingsbenadering, waarbij de sterke punten van bestaande beloningsmodellen worden samengevoegd, en PARM++ introduceert verder een reflectiemechanisme om de gegenereerde onbevredigende afbeelding zelfcorrigerend aan te passen. Door gebruik te maken van onze onderzochte redeneerstrategieën verbeteren we een basismodel, Show-o, om superieure resultaten te behalen, met een significante +24% verbetering op de GenEval benchmark, waarbij Stable Diffusion 3 met +15% wordt overtroffen. We hopen dat ons onderzoek unieke inzichten biedt en een nieuwe weg effent voor het integreren van CoT redeneren met autoregressieve beeldgeneratie. Code en modellen zijn beschikbaar op https://github.com/ZiyuGuo99/Image-Generation-CoT
Mensen verwerven kennis via drie cognitieve fasen: informatie waarnemen, kennis begrijpen en kennis aanpassen om nieuwe problemen op te lossen. Video's dienen als een effectief medium voor dit leerproces, waarbij ze een voortgang door deze cognitieve fasen vergemakkelijken. Echter, bestaande videobenchmarks falen in het systematisch evalueren van de kennisverwervingsmogelijkheden in Grote Multimodale Modellen (GMM's). Om deze lacune aan te pakken, introduceren we Video-MMMU, een multi-modale, multidisciplinaire benchmark ontworpen om de capaciteit van GMM's om kennis uit video's te verwerven en te gebruiken te beoordelen. Video-MMMU bevat een samengestelde verzameling van 300 expertniveau video's en 900 mens-geannoteerde vragen over zes disciplines, waarbij kennisverwerving wordt geëvalueerd via vraag-antwoordparen die zijn afgestemd op de fasen: Waarneming, Begrip en Aanpassing. Een voorgestelde kenniswinst-metriek, Δkennis, kwantificeert verbetering in prestaties na het bekijken van de video. Evaluatie van GMM's onthult een sterke afname in prestaties naarmate de cognitieve eisen toenemen en benadrukt een significante kloof tussen menselijke en modelkennisverwerving, waarbij de noodzaak wordt benadrukt voor methoden om de capaciteit van GMM's om te leren en zich aan te passen aan video's te verbeteren.
Ondanks aanzienlijke vooruitgang in video grote multimodale modellen (video-LMM's), blijft het bereiken van effectieve temporele verankering in lange video's een uitdaging voor bestaande modellen. Om deze beperking aan te pakken, stellen we Temporele Voorkeursoptimalisatie (TPO) voor, een nieuw post-training framework dat is ontworpen om de temporele verankeringsmogelijkheden van video-LMM's te verbeteren door middel van voorkeursleren. TPO maakt gebruik van een zelf-trainingsbenadering die modellen in staat stelt onderscheid te maken tussen goed verankerde en minder nauwkeurige temporele reacties door gebruik te maken van samengestelde voorkeursdatasets op twee granulariteitsniveaus: gelokaliseerde temporele verankering, die zich richt op specifieke videosegmenten, en uitgebreide temporele verankering, die uitgebreide temporele afhankelijkheden over hele videosequenties vastlegt. Door te optimaliseren op deze voorkeursdatasets, verbetert TPO aanzienlijk het temporele begrip en vermindert het de afhankelijkheid van handmatig geannoteerde gegevens. Uitgebreide experimenten op drie benchmarks voor begrip van lange video's - LongVideoBench, MLVU en Video-MME - tonen de effectiviteit van TPO aan bij twee toonaangevende video-LMM's. Met name vestigt LLaVA-Video-TPO zich als het toonaangevende 7B-model op de Video-MME benchmark, waarbij het potentieel van TPO als een schaalbare en efficiënte oplossing voor het bevorderen van temporeel redeneren in begrip van lange video's wordt benadrukt. Projectpagina: https://ruili33.github.io/tpo_website.
Met de snelle ontwikkeling van diffusiemodellen hebben tekst-naar-afbeelding (T2I) modellen aanzienlijke vooruitgang geboekt, waarbij ze indrukwekkende vaardigheden hebben laten zien op het gebied van prompt opvolgen en afbeeldingsgeneratie. Onlangs gelanceerde modellen zoals FLUX.1 en Ideogram2.0, samen met anderen zoals Dall-E3 en Stable Diffusion 3, hebben uitzonderlijke prestaties aangetoond bij verschillende complexe taken, waardoor vragen rijzen over de vraag of T2I-modellen zich naar algemeen toepasbare toepassingen bewegen. Naast traditionele afbeeldingsgeneratie vertonen deze modellen capaciteiten over een scala aan domeinen, waaronder controleerbare generatie, afbeeldingsbewerking, video, audio, 3D en bewegingsgeneratie, evenals computervisietaken zoals semantische segmentatie en diepteschatting. Huidige evaluatiekaders zijn echter ontoereikend om de prestaties van deze modellen over uitbreidende domeinen uitgebreid te beoordelen. Om deze modellen grondig te evalueren, hebben we IMAGINE-E ontwikkeld en zes prominente modellen getest: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 en Jimeng. Onze evaluatie is verdeeld in vijf belangrijke domeinen: gestructureerde outputgeneratie, realisme en fysieke consistentie, generatie van specifieke domeinen, generatie van uitdagende scenario's en taken voor het maken van meerdere stijlen. Deze uitgebreide beoordeling belicht de sterke en zwakke punten van elk model, met name de uitstekende prestaties van FLUX.1 en Ideogram2.0 bij gestructureerde en specifieke domeintaken, waarbij de groeiende toepassingen en potentie van T2I-modellen als fundamentele AI-tools worden benadrukt. Deze studie biedt waardevolle inzichten in de huidige stand en toekomstige koers van T2I-modellen naarmate ze evolueren naar algemeen bruikbaarheid. Evaluatiescripts zullen worden vrijgegeven op https://github.com/jylei16/Imagine-e.
Grote taalmodellen (LLM's) hebben onlangs opmerkelijk succes aangetoond in wiskundig redeneren. Ondanks vooruitgang in methoden zoals keten-van-gedachten prompting en zelfconsistentie sampling, richten deze vooruitgangen zich vaak op uiteindelijke correctheid zonder te waarborgen dat het onderliggende redeneerproces coherent en betrouwbaar is. Dit artikel introduceert Stap-KTO, een trainingskader dat procesniveau- en uitkomstniveau binair feedback combineert om LLM's te begeleiden naar meer betrouwbare redeneertrajecten. Door binaire evaluaties te geven voor zowel de tussenliggende redeneerstappen als het uiteindelijke antwoord, moedigt Stap-KTO het model aan om zich te houden aan logische voortgangen in plaats van te vertrouwen op oppervlakkige shortcuts. Onze experimenten op uitdagende wiskundige benchmarks tonen aan dat Stap-KTO aanzienlijk zowel de nauwkeurigheid van het uiteindelijke antwoord als de kwaliteit van de tussenliggende redeneerstappen verbetert. Bijvoorbeeld, op de MATH-500 dataset behaalt Stap-KTO een opmerkelijke verbetering in Pass@1 nauwkeurigheid ten opzichte van sterke baselines. Deze resultaten benadrukken de belofte van het integreren van stapsgewijze procesfeedback in LLM-training, waarmee de weg wordt vrijgemaakt naar meer interpreteerbare en betrouwbare redeneervaardigheden.
Recente video-inpainting algoritmes integreren op flow gebaseerde pixelpropagatie met op transformer gebaseerde generatie om optische flow te benutten voor het herstellen van texturen en objecten met behulp van informatie uit naburige frames, terwijl ze gemaskerde gebieden voltooien door middel van visuele Transformers. Deze benaderingen ondervinden echter vaak vervaging en temporele inconsistenties bij het omgaan met grote maskers, waarbij de noodzaak voor modellen met verbeterde generatieve mogelijkheden wordt benadrukt. Onlangs zijn diffusiemodellen naar voren gekomen als een prominente techniek in beeld- en videogeneratie vanwege hun indrukwekkende prestaties. In dit artikel introduceren we DiffuEraser, een video-inpainting model gebaseerd op stabiele diffusie, ontworpen om gemaskerde gebieden op te vullen met meer details en coherentere structuren. We nemen voorafgaande informatie op om initialisatie en zwakke conditionering te bieden, wat helpt bij het verminderen van ruisartefacten en het onderdrukken van hallucinaties. Daarnaast breiden we voor het verbeteren van temporele consistentie tijdens langdurige inferentie de temporele receptieve velden uit van zowel het voorafgaande model als DiffuEraser, en verbeteren we de consistentie verder door gebruik te maken van de temporele gladmakende eigenschap van Video Diffusie Modellen. Experimentele resultaten tonen aan dat onze voorgestelde methode beter presteert dan state-of-the-art technieken op zowel inhoudelijke volledigheid als temporele consistentie, met behoud van acceptabele efficiëntie.
Zorgen over hallucinaties in Grote Taalmodellen (LLM's) zijn geuit door onderzoekers, maar hun potentieel op gebieden waar creativiteit essentieel is, zoals bijvoorbeeld bij medicijnontdekking, rechtvaardigt verder onderzoek. In dit artikel stellen we de hypothese voor dat hallucinaties LLM's kunnen verbeteren bij medicijnontdekking. Om deze hypothese te verifiëren, gebruiken we LLM's om de SMILES-reeks van moleculen in natuurlijke taal te beschrijven en vervolgens nemen we deze beschrijvingen op als onderdeel van de prompt om specifieke taken bij medicijnontdekking aan te pakken. Geëvalueerd op zeven LLM's en vijf classificatietaken, bevestigen onze bevindingen de hypothese: LLM's kunnen betere prestaties behalen met tekst die hallucinaties bevat. Opmerkelijk is dat Llama-3.1-8B een winst van 18.35% behaalt in ROC-AUC in vergelijking met de basislijn zonder hallucinatie. Bovendien bieden hallucinaties gegenereerd door GPT-4o de meest consistente verbeteringen over verschillende modellen. Daarnaast voeren we empirische analyses en een casestudie uit om de belangrijkste factoren die de prestaties beïnvloeden en de onderliggende redenen te onderzoeken. Ons onderzoek belicht het potentieel gebruik van hallucinaties voor LLM's en biedt nieuwe perspectieven voor toekomstig onderzoek waarbij LLM's worden ingezet bij medicijnontdekking.
Tekst-naar-afbeelding generatiemodellen kunnen hoogwaardige afbeeldingen maken van invoerprompts. Ze hebben echter moeite met het ondersteunen van de consistente generatie van identiteitsbehoudende vereisten voor verhalen. Bestaande benaderingen voor dit probleem vereisen doorgaans uitgebreide training in grote datasets of aanvullende aanpassingen aan de oorspronkelijke modelarchitecturen. Dit beperkt hun toepasbaarheid over verschillende domeinen en diverse configuraties van diffusiemodel. In dit artikel observeren we eerst de inherente mogelijkheid van taalmodellen, genaamd contextconsistentie, om identiteit te begrijpen via context met een enkel prompt. Geïnspireerd door de inherente contextconsistentie stellen we een nieuw trainingsvrij methode voor voor consistente tekst-naar-afbeelding (T2I) generatie, genaamd "Eén-Prompt-Eén-Verhaal" (1Prompt1Story). Onze benadering 1Prompt1Story concateneert alle prompts tot een enkele invoer voor T2I diffusiemarkten, waarbij aanvankelijk karakteridentiteiten behouden blijven. Vervolgens verfijnen we het generatieproces met behulp van twee nieuwe technieken: Singular-Value Reweighting en Identiteitsbehoudende Kruis-Aandacht, wat zorgt voor een betere afstemming met de invoerbeschrijving voor elk frame. In onze experimenten vergelijken we onze methode met verschillende bestaande consistente T2I generatiebenaderingen om de effectiviteit ervan aan te tonen aan de hand van kwantitatieve metrieken en kwalitatieve beoordelingen. De code is beschikbaar op https://github.com/byliutao/1Prompt1Story.
Recente ontwikkelingen in videogeneratie hebben aanzienlijke invloed gehad op verschillende daaropvolgende toepassingen, met name op identiteitsbehoudende videogeneratie (IPT2V). Bestaande methoden worstelen echter met "kopieer-en-plak" artefacten en lage gelijkenisproblemen, voornamelijk vanwege hun afhankelijkheid van laag-niveau gezichtsbeeldinformatie. Deze afhankelijkheid kan resulteren in starre gezichtskenmerken en artefacten die irrelevante details weerspiegelen. Om deze uitdagingen aan te pakken, stellen we EchoVideo voor, dat twee belangrijke strategieën gebruikt: (1) een Identiteitsafbeelding-tekstfusiemodule (IITF) die hoog-niveau semantische kenmerken uit tekst integreert, schone gezichtsidentiteitsrepresentaties vastlegt en occlusies, poses en lichtvariaties verwerpt om de introductie van artefacten te voorkomen; (2) een tweefasige trainingsstrategie, waarbij in de tweede fase een stochastische methode wordt toegepast om willekeurig oppervlakkige gezichtsinformatie te gebruiken. Het doel is om een balans te vinden tussen de verbeteringen in getrouwheid die oppervlakkige kenmerken bieden, terwijl overmatige afhankelijkheid ervan wordt verminderd. Deze strategie moedigt het model aan om tijdens de training hoog-niveau kenmerken te gebruiken, wat uiteindelijk leidt tot een robuustere representatie van gezichtsidentiteiten. EchoVideo behoudt effectief gezichtsidentiteiten en handhaaft de integriteit van het volledige lichaam. Uitgebreide experimenten tonen aan dat het uitstekende resultaten behaalt bij het genereren van hoogwaardige, controleerbare en getrouwe video's.
Gangbare methoden om reeds capabele modellen af te stemmen op gewenst gedrag vertrouwen op de mogelijkheid van mensen om toezicht te houden. Echter, toekomstige superieure modellen zullen de capaciteit van mensen overtreffen. Daarom zullen mensen alleen in staat zijn om zwak toezicht te houden op superieure modellen. Dit verwachte tekort aan menselijke evaluatie zou de veiligheid van toekomstige AI-systemen verzwakken. Schaalbare controle en zwak-naar-sterk generalisatie zijn twee complementaire benaderingen om dit probleem aan te pakken. In dit artikel proberen we de sterke punten van deze twee benaderingen te combineren om de afstemming verder te verbeteren. Specifiek onderzoeken we manieren om menselijk toezicht te verbeteren met een sterk voorgeleerd model en vervolgens toezicht te houden op het sterke model met verbeterd zwak menselijk toezicht. Om iteratieve empirische vooruitgang te boeken, overwegen we een analogie: kunnen we een sterk model gebruiken om zwak toezicht op een model te verbeteren en het vervolgens gebruiken om het sterke model te begeleiden? We testen dit empirisch door een klein zwak model af te stemmen op grondwaarheidlabels met extra hulp van een groot sterk model, en vervolgens het sterke model af te stemmen op labels gegenereerd door het zwakke model. We constateren dat debat een zwak model kan helpen bij het extraheren van betrouwbare informatie uit een onbetrouwbaar sterk model, wat als context dient bij het trainen van een zwak model. We tonen ook aan dat een ensemble van zwakke modellen helpt bij het benutten van lange argumenten gegenereerd door sterke modeldebaters en een meer robuuste toezichtsschatting oplevert. Uitgebreide experimenten op de OpenAI zwak-naar-sterk NLP-benchmarks tonen aan dat de combinatiebenadering leidt tot een betere afstemming, wat aangeeft dat debat het potentieel heeft om te helpen bij zwak-naar-sterk generalisatie.
Multimodale Grote Taalmodellen (MLLM's) hebben significante vooruitgang getoond, wat een veelbelovende toekomst biedt voor belichaamde agenten. Bestaande benchmarks voor het evalueren van MLLM's maken voornamelijk gebruik van statische afbeeldingen of video's, waardoor beoordelingen beperkt blijven tot niet-interactieve scenario's. Ondertussen zijn bestaande belichaamde AI-benchmarks taakspecifiek en niet divers genoeg, wat de belichaamde mogelijkheden van MLLM's niet adequaat evalueert. Om dit aan te pakken, stellen we EmbodiedEval voor, een uitgebreide en interactieve evaluatiebenchmark voor MLLM's met belichaamde taken. EmbodiedEval omvat 328 verschillende taken binnen 125 gevarieerde 3D-scènes, elk zorgvuldig geselecteerd en geannoteerd. Het bestrijkt een breed spectrum van bestaande belichaamde AI-taken met aanzienlijk verbeterde diversiteit, allemaal binnen een uniforme simulatie- en evaluatieomgeving die is afgestemd op MLLM's. De taken zijn onderverdeeld in vijf categorieën: navigatie, objectinteractie, sociale interactie, attribuutvraagbeantwoording en ruimtelijke vraagbeantwoording om verschillende mogelijkheden van de agenten te beoordelen. We hebben de state-of-the-art MLLM's geëvalueerd op EmbodiedEval en vastgesteld dat ze aanzienlijk tekortschieten in vergelijking met het menselijke niveau bij belichaamde taken. Onze analyse toont de beperkingen van bestaande MLLM's in belichaamde mogelijkheden aan en biedt inzichten voor hun toekomstige ontwikkeling. We stellen alle evaluatiegegevens en simulatieframework open-source beschikbaar op https://github.com/thunlp/EmbodiedEval.
Deze paper stelt dat machine learning (ML) grotendeels een belangrijk aspect van algemene intelligentie over het hoofd ziet: robuustheid tegenover een kwalitatief onbekende toekomst in een open wereld. Deze robuustheid heeft betrekking op Knightiaanse onzekerheid (KU) in de economie, d.w.z. onzekerheid die niet gekwantificeerd kan worden, en die wordt uitgesloten van overweging in de belangrijkste formalismen van ML. Deze paper heeft tot doel dit blinde vlek te identificeren, het belang ervan te beargumenteren en onderzoek te stimuleren om ermee om te gaan, wat volgens ons noodzakelijk is om echt robuuste open-world AI te creëren. Om de blinde vlek te verduidelijken, contrasteren we een gebied van ML, reinforcement learning (RL), met het proces van biologische evolutie. Ondanks verbazingwekkende voortdurende vooruitgang, worstelt RL nog steeds in open-world situaties, vaak falend onder onvoorziene omstandigheden. Zo lijkt bijvoorbeeld het idee om een zelfrijdende autopolicy die alleen in de VS is getraind zonder enige aanpassing over te brengen naar het VK momenteel buitengewoon ambitieus. In schril contrast produceert biologische evolutie routinematig agenten die gedijen in een open wereld, soms zelfs in situaties die opmerkelijk buiten de distributie vallen (bijv. invasieve soorten; of mensen, die dergelijke zero-shot internationaal rijden wel ondernemen). Interessant genoeg bereikt evolutie dergelijke robuustheid zonder expliciete theorie, formalismen of wiskundige gradiënten. We onderzoeken de aannames die ten grondslag liggen aan de typische formalismen van RL, en laten zien hoe deze de betrokkenheid van RL bij de onbekende onbekenden die kenmerkend zijn voor een voortdurend veranderende complexe wereld beperken. Verder identificeren we mechanismen waarmee evolutionaire processen robuustheid tegenover nieuwe en onvoorspelbare uitdagingen bevorderen, en bespreken mogelijke manieren om deze algoritmisch te belichamen. De conclusie is dat de intrigerende resterende kwetsbaarheid van ML mogelijk het gevolg is van blinde vlekken in zijn formalismen, en dat aanzienlijke winst kan worden geboekt door rechtstreeks de confrontatie aan te gaan met de uitdaging van KU.
Grote Taalmodellen (LLM's) vereisen aanzienlijke rekenbronnen, waardoor het essentieel is om hun mogelijkheden te verbeteren zonder opnieuw te hoeven trainen vanaf nul. Een belangrijke uitdaging in dit domein is catastrofaal vergeten (CF), wat de prestaties tijdens Continue Pre-training (CPT) en Continue Begeleide Fijnafstemming (CSFT) belemmert. Wij stellen Control LLM voor, een nieuw benadering die gebruikmaakt van parallelle vooraf getrainde en uitgebreide transformerblokken, waarbij hun verborgen toestanden worden uitgelijnd door interpolatiestrategieën. Deze methode behoudt effectief de prestaties op bestaande taken terwijl nieuwe kennis naadloos wordt geïntegreerd. Uitgebreide experimenten tonen de effectiviteit van Control LLM aan in zowel CPT als CSFT. Op Llama3.1-8B-Instruct behaalt het aanzienlijke verbeteringen in wiskundig redeneren (+14,4% op Math-Hard) en codeerprestaties (+10% op MBPP-PLUS). Op Llama3.1-8B verbetert het de meertalige mogelijkheden (+10,6% op C-Eval, +6,8% op CMMLU, en +30,2% op CMMLU-0shot-CoT). Het overtreft bestaande methoden en bereikt SOTA onder open-source modellen afgestemd vanuit hetzelfde basismodel, met aanzienlijk minder gegevens en berekeningen. Belangrijk is dat deze winsten worden gerealiseerd terwijl sterke oorspronkelijke mogelijkheden behouden blijven, met minimale degradatie (<4,3% op MMLU) in vergelijking met >35% in open-source wiskunde- en codeermodellen. Deze benadering is met succes toegepast in LinkedIn's GenAI-aangedreven producten voor werkzoekenden en advertenties. Om verder onderzoek te ondersteunen, stellen we de trainings- en evaluatiecode beschikbaar (https://github.com/linkedin/ControlLLM) samen met modellen getraind op openbare datasets (https://huggingface.co/ControlLLM) aan de gemeenschap.
3D Gaussian Splatting-technieken hebben efficiënte fotorealistische weergave van statische scènes mogelijk gemaakt. Recente werken hebben deze benaderingen uitgebreid om oppervlakte reconstructie en tracking te ondersteunen. Het blijft echter uitdagend om dynamische oppervlakken te volgen met 3D-Gaussian vanwege complexe topologische veranderingen, zoals oppervlakken die verschijnen, verdwijnen of splitsen. Om deze uitdagingen aan te pakken, stellen we GSTAR voor, een nieuw methode die fotorealistische weergave, nauwkeurige oppervlakte reconstructie en betrouwbare 3D-tracking bereikt voor algemene dynamische scènes met veranderende topologie. Gegeven multi-view opnames als invoer, bindt GSTAR Gaussians aan mesh-gezichten om dynamische objecten voor te stellen. Voor oppervlakken met consistente topologie behoudt GSTAR de mesh-topologie en volgt de meshes met Gaussians. In regio's waar de topologie verandert, maakt GSTAR adaptief Gaussians los van de mesh, waardoor nauwkeurige registratie en de generatie van nieuwe oppervlakken op basis van deze geoptimaliseerde Gaussians mogelijk is. Daarnaast introduceren we een oppervlakte-gebaseerde scène flow methode die robuuste initialisatie biedt voor tracking tussen frames. Experimenten tonen aan dat onze methode effectief dynamische oppervlakken volgt en reconstrueert, waardoor een reeks toepassingen mogelijk is. Onze projectpagina met de code release is beschikbaar op https://eth-ait.github.io/GSTAR/.