Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren GLM-4.1V-Thinking, een vision-language model (VLM) dat is ontworpen om algemeen toepasbare multimodale redenering te bevorderen. In dit rapport delen we onze belangrijkste bevindingen in de ontwikkeling van het op redenering gerichte trainingsframework. We ontwikkelen eerst een krachtig visueel basis model met aanzienlijk potentieel door grootschalige voorafgaande training, wat naar alle waarschijnlijkheid de bovengrens bepaalt voor de uiteindelijke prestaties. Reinforcement Learning met Curriculum Sampling (RLCS) ontgrendelt vervolgens het volledige potentieel van het model, wat leidt tot een uitgebreide verbetering van de mogelijkheden over een breed scala aan taken, waaronder STEM-probleemoplossing, video-begrip, inhoudsherkenning, coderen, gronding, GUI-gebaseerde agents en het begrijpen van lange documenten, onder andere. Om onderzoek op dit gebied te faciliteren, maken we GLM-4.1V-9B-Thinking open source, dat state-of-the-art prestaties behaalt onder modellen van vergelijkbare grootte. In een uitgebreide evaluatie over 28 publieke benchmarks presteert ons model beter dan Qwen2.5-VL-7B op bijna alle taken en behaalt het vergelijkbare of zelfs superieure prestaties op 18 benchmarks ten opzichte van het aanzienlijk grotere Qwen2.5-VL-72B. Opmerkelijk is dat GLM-4.1V-9B-Thinking ook competitieve of superieure prestaties laat zien in vergelijking met gesloten modellen zoals GPT-4o op uitdagende taken, waaronder het begrijpen van lange documenten en STEM-redenering, wat verder onderstreept hoe sterk de mogelijkheden zijn. Code, modellen en meer informatie zijn vrijgegeven op https://github.com/THUDM/GLM-4.1V-Thinking.
Wiskundig redeneren is het boegbeeld geworden van vooruitgang in grote taalmodellen (LLMs), waarbij nieuwe modellen snel menselijk niveau overtreffen op benchmarks zoals MATH en AIME. Maar naarmate de ranglijsten voor wiskunde week na week verbeteren, is het de vraag waard: weerspiegelen deze vooruitgangen een breder probleemoplossend vermogen of slechts een nauwe overfitting? Om deze vraag te beantwoorden, evalueren we meer dan 20 open-source redeneermodellen over een breed scala aan taken, waaronder wiskunde, wetenschappelijke vraag-antwoordtaken, agentplanning, programmeren en standaard instructievolging. Verrassend genoeg ontdekken we dat de meeste modellen die succesvol zijn in wiskunde hun vooruitgang niet kunnen overdragen naar andere domeinen. Om dit fenomeen rigoureus te bestuderen, voeren we gecontroleerde experimenten uit met Qwen3-14B-modellen met alleen wiskundige data maar verschillende afstemmethoden. We ontdekken dat modellen die zijn afgestemd met reinforcement learning (RL) goed generaliseren over domeinen, terwijl modellen die zijn afgestemd met supervised fine-tuning (SFT) vaak algemene capaciteiten vergeten. Analyses van latent-ruimte representaties en token-ruimte distributieverschuivingen onthullen dat SFT aanzienlijke representatie- en outputdrift veroorzaakt, terwijl RL de algemene domeinstructuur behoudt. Onze resultaten suggereren dat het nodig is om standaard post-trainingsrecepten te heroverwegen, met name de afhankelijkheid van SFT-gedistilleerde data voor het bevorderen van redeneermodellen.
We presenteren SciArena, een open en collaboratief platform voor het evalueren van foundation models op taken gerelateerd aan wetenschappelijke literatuur. In tegenstelling tot traditionele benchmarks voor het begrijpen en synthetiseren van wetenschappelijke literatuur, betrekt SciArena de onderzoeksgemeenschap rechtstreeks, waarbij de evaluatiebenadering van Chatbot Arena wordt gevolgd door middel van community voting op modelvergelijkingen. Door gebruik te maken van collectieve intelligentie biedt SciArena een gemeenschapsgedreven evaluatie van modelprestaties op open-einde wetenschappelijke taken die literatuurgebaseerde, langere antwoorden vereisen. Het platform ondersteunt momenteel 23 open-source en propriëtaire foundation models en heeft meer dan 13.000 stemmen verzameld van vertrouwde onderzoekers uit diverse wetenschappelijke domeinen. We analyseren de tot nu toe verzamelde data en bevestigen dat de ingediende vragen divers zijn, aansluiten bij real-world literatuurbehoeften, en dat de deelnemende onderzoekers een sterke zelfconsistentie en interannotatorovereenstemming tonen in hun evaluaties. We bespreken de resultaten en inzichten op basis van de modelranking leaderboard. Om verder onderzoek te bevorderen in het bouwen van modelgebaseerde geautomatiseerde evaluatiesystemen voor literatuurtaken, brengen we SciArena-Eval uit, een meta-evaluatiebenchmark gebaseerd op onze verzamelde voorkeursdata. De benchmark meet de nauwkeurigheid van modellen in het beoordelen van antwoordkwaliteit door hun paarsgewijze beoordelingen te vergelijken met menselijke stemmen. Onze experimenten benadrukken de uitdagingen van de benchmark en onderstrepen de noodzaak voor betrouwbaardere geautomatiseerde evaluatiemethoden.
Multimodale inbeddingsmodellen, gebouwd op causale Vision Language Models (VLMs), hebben potentie getoond in diverse taken. Huidige benaderingen kampen echter met drie belangrijke beperkingen: het gebruik van causale aandacht in VLM-backbones is suboptimaal voor inbeddingstaken; schaalbaarheidsproblemen door de afhankelijkheid van hoogwaardige gelabelde gepaarde data voor contrastief leren; en beperkte diversiteit in trainingsdoelen en data. Om deze problemen aan te pakken, stellen we MoCa voor, een tweestaps raamwerk voor het transformeren van vooraf getrainde VLMs naar effectieve bidirectionele multimodale inbeddingsmodellen. De eerste fase, Modality-aware Continual Pre-training, introduceert een gezamenlijk reconstructiedoel dat tegelijkertijd interleaved tekst- en beeldinvoer denoiseert, waardoor bidirectioneel contextbewust redeneren wordt verbeterd. De tweede fase, Heterogeneous Contrastive Fine-tuning, maakt gebruik van diverse, semantisch rijke multimodale data die verder gaan dan eenvoudige beeld-bijschriftparen om generalisatie en uitlijning te verbeteren. Onze methode adresseert de genoemde beperkingen door bidirectionele aandacht te introduceren via voortgezette voorpretraining, effectief te schalen met enorme ongeëtiketteerde datasets via gezamenlijke reconstructiedoelen, en diverse multimodale data te benutten voor verbeterde representatierobustheid. Experimenten tonen aan dat MoCa consistent prestaties verbetert op de MMEB- en ViDoRe-v2 benchmarks, nieuwe state-of-the-art resultaten behaalt, en sterke schaalbaarheid vertoont met zowel modelgrootte als trainingsdata op MMEB.
Recente vooruitgang in diffusiemodellen heeft hoogwaardige videogeneratie mogelijk gemaakt, maar de extra temporele dimensie verhoogt de rekenkosten aanzienlijk, waardoor training en inferentie op lange video's buitensporig duur worden. In dit artikel identificeren we een fenomeen dat we Spatiotemporele Energieverval noemen in videodiffusiemodellen: post-softmax aandachtsscores nemen af naarmate de ruimtelijke en temporele afstand tussen tokens toeneemt, vergelijkbaar met het fysieke verval van signalen of golven in de natuur. Hierdoor geïnspireerd, stellen we Radiale Aandacht voor, een schaalbare sparse aandachtmechanisme met O(n log n) complexiteit dat energieverval vertaalt naar exponentieel afnemende rekendichtheid, wat aanzienlijk efficiënter is dan standaard O(n^2) dense aandacht en expressiever dan lineaire aandacht. Specifiek gebruikt Radiale Aandacht een eenvoudig, statisch aandachtmasker waarbij elke token aandacht besteedt aan ruimtelijk nabije tokens, waarbij de aandachtvenstergrootte afneemt met de temporele afstand. Bovendien maakt het het mogelijk dat vooraf getrainde videodiffusiemodellen hun generatielengte kunnen uitbreiden met efficiënte LoRA-gebaseerde fine-tuning. Uitgebreide experimenten tonen aan dat Radiale Aandacht de videokwaliteit behoudt over Wan2.1-14B, HunyuanVideo en Mochi 1, met een snelheidsverbetering tot 1,9 keer ten opzichte van de originele dense aandacht. Met minimale aanpassingen maakt het videogeneratie mogelijk tot 4 keer langer, terwijl de trainingskosten tot 4,4 keer worden verlaagd in vergelijking met directe fine-tuning en de inferentie tot 3,7 keer wordt versneld in vergelijking met dense aandacht inferentie.
Diffusion grote taalmodellen (dLLMs) zijn overtuigende alternatieven voor autoregressieve (AR) modellen omdat hun denoising-modellen over de gehele sequentie werken. De globale planning en iteratieve verfijningseigenschappen van dLLMs zijn vooral nuttig voor codegeneratie. Echter, de huidige trainings- en inferentiemechanismen voor dLLMs in codering zijn nog steeds onderbelicht. Om het decodeergedrag van dLLMs te ontrafelen en hun potentieel voor codering te ontsluiten, onderzoeken we systematisch hun denoising-processen en reinforcement learning (RL) methoden. We trainen een 7B dLLM, DiffuCoder, op 130B tokens aan code. Met dit model als testomgeving analyseren we het decodeergedrag, waarbij we onthullen hoe het verschilt van dat van AR-modellen: (1) dLLMs kunnen bepalen hoe causaal hun generatie moet zijn zonder te vertrouwen op semi-AR-decodering, en (2) het verhogen van de samplingtemperatuur diversifieert niet alleen de tokenkeuzes maar ook hun generatievolgorde. Deze diversiteit creëert een rijke zoekruimte voor RL-rollouts. Voor RL-training stellen we, om de variantie van token log-likelihood schattingen te verminderen en de trainingsefficiëntie te behouden, coupled-GRPO voor, een nieuw sampling-schema dat complementaire maskerruis construeert voor voltooiingen die in de training worden gebruikt. In onze experimenten verbetert coupled-GRPO de prestaties van DiffuCoder aanzienlijk op codegeneratiebenchmarks (+4,4\% op EvalPlus) en vermindert het de afhankelijkheid van AR-causaliteit tijdens decodering. Ons werk biedt dieper inzicht in de werking van dLLM-generatie en biedt een effectief, diffusion-native RL-trainingsraamwerk. https://github.com/apple/ml-diffucoder.
Kunnen machines echt denken, redeneren en handelen in domeinen zoals mensen? Deze blijvende vraag blijft de zoektocht naar Artificial General Intelligence (AGI) vormgeven. Ondanks de groeiende capaciteiten van modellen zoals GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 en Grok 3, die multimodale vloeiendheid en gedeeltelijk redeneren vertonen, blijven deze systemen fundamenteel beperkt door hun afhankelijkheid van token-level voorspelling en het ontbreken van gegronde agency. Dit artikel biedt een interdisciplinaire synthese van AGI-ontwikkeling, die zich uitstrekt over kunstmatige intelligentie, cognitieve neurowetenschappen, psychologie, generatieve modellen en agent-gebaseerde systemen. We analyseren de architectonische en cognitieve fundamenten van algemene intelligentie, waarbij we de rol van modulair redeneren, persistent geheugen en multi-agent coördinatie benadrukken. In het bijzonder benadrukken we de opkomst van Agentic RAG-frameworks die retrieval, planning en dynamisch gereedschapsgebruik combineren om meer adaptief gedrag mogelijk te maken. We bespreken generalisatiestrategieën, waaronder informatiecompressie, test-time aanpassing en training-vrije methoden, als kritieke paden naar flexibele, domein-agnostische intelligentie. Vision-Language Models (VLMs) worden opnieuw bekeken, niet alleen als perceptiemodules maar als evoluerende interfaces voor belichaamd begrip en collaboratieve taakvoltooiing. We beargumenteren ook dat echte intelligentie niet alleen voortkomt uit schaal, maar uit de integratie van geheugen en redeneren: een orkestratie van modulaire, interactieve en zelfverbeterende componenten waarbij compressie adaptief gedrag mogelijk maakt. Gebruikmakend van vooruitgang in neurosymbolische systemen, reinforcement learning en cognitieve scaffolding, onderzoeken we hoe recente architecturen de kloof tussen statistisch leren en doelgericht cognitie beginnen te overbruggen. Tot slot identificeren we belangrijke wetenschappelijke, technische en ethische uitdagingen op het pad naar AGI.
Met de snelle evolutie van multimodale grote taalmodellen is het vermogen om menselijke intenties diepgaand te begrijpen en te interpreteren naar voren gekomen als een cruciale vaardigheid, die gedetailleerd en weloverwogen redeneren vereist. In recente studies heeft Reinforcement Learning (RL) potentieel getoond in het verbeteren van de redeneervaardigheden van Grote Taalmodellen (LLMs). Desalniettemin blijven de uitdagingen die gepaard gaan met het aanpassen van RL aan multimodale data en formaten grotendeels onopgelost. In dit artikel identificeren we twee problemen in bestaande multimodale redeneermodellen: onvoldoende begrip van de globale context en shortcut-problemen. Onvoldoende contextbegrip kan optreden wanneer een model de multimodale context verkeerd interpreteert, wat resulteert in incorrecte antwoorden. Het shortcut-probleem doet zich voor wanneer het model cruciale aanwijzingen in multimodale inputs over het hoofd ziet en de vraag direct beantwoordt zonder rekening te houden met de multimodale informatie. Om deze problemen aan te pakken, benadrukken we de noodzaak voor het model om te redeneren met een duidelijk begrip van de globale context binnen multimodale inputs. Dit begrip van de globale context kan effectief voorkomen dat het model belangrijke multimodale aanwijzingen over het hoofd ziet en zorgt voor een grondig redeneerproces. Om de accurate interpretatie van multimodale contextinformatie te waarborgen, implementeren we een contextbeloning beoordeeld door een groot taalmodel, naast format- en nauwkeurigheidsbeloningen. Daarnaast gebruiken we het LLM om de logische beloning te beoordelen, om te bepalen of het redeneerproces succesvol multimodale informatie integreert met logische methoden, om zo de complexe redeneervaardigheid te verbeteren. We introduceren ook een redeneer-omnimodale benchmark, IntentBench, gericht op het evalueren van modellen in het begrijpen van complexe menselijke intenties en emoties. Onze voorgestelde methode toont geavanceerde prestaties op meerdere omnimodale benchmarks in vergelijking met andere open-source omnimodale modellen.
Amodale segmentatie en amodale inhoudscompletie vereisen het gebruik van objectpriors om verborgen maskers en kenmerken van objecten in complexe scènes te schatten. Tot nu toe heeft geen enkele dataset een extra dimensie geboden voor objectcontext: de mogelijkheid van meerdere camera's die een gezamenlijk beeld van een scène delen. Wij introduceren MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, de grootste amodale segmentatie- en eerste amodale inhoudsdataset tot op heden. Rommelige scènes van algemene huishoudelijke objecten worden gesimuleerd in multi-cameravideo's. MOVi-MC-AC draagt bij aan de groeiende literatuur over objectdetectie, tracking en segmentatie door twee nieuwe bijdragen te leveren aan de wereld van deep learning voor computervisie. Instellingen met Meerdere Camera's (MC), waarbij objecten kunnen worden geïdentificeerd en gevolgd tussen verschillende unieke cameraperspectieven, zijn zeldzaam in zowel synthetische als real-world video's. Wij introduceren een nieuwe complexiteit in synthetische video's door consistente object-ID's te bieden voor detecties en segmentaties tussen zowel frames als meerdere camera's, elk met unieke kenmerken en bewegingspatronen in een enkele scène. Amodale Inhoud (AC) is een reconstructieve taak waarbij modellen het uiterlijk van doelobjecten voorspellen door occlusies heen. In de literatuur over amodale segmentatie zijn enkele datasets vrijgegeven met amodale detectie-, tracking- en segmentatielabels. Terwijl andere methoden vertrouwen op trage cut-and-paste-schema's om amodale inhoud pseudo-labels te genereren, houden zij geen rekening met natuurlijke occlusies die aanwezig zijn in de modale maskers. MOVi-MC-AC biedt labels voor ~5,8 miljoen objectinstanties, wat een nieuw maximum stelt in de literatuur over amodale datasets, en is tevens de eerste die grondwaarheid amodale inhoud biedt. De volledige dataset is beschikbaar op https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
Multimodale Large Language Models (MLLMs) hebben opmerkelijke visuele redeneervaardigheden bereikt in natuurlijke afbeeldingen, tekstrijke documenten en grafische ontwerpen. Hun vermogen om bladmuziek te interpreteren blijft echter onderbelicht. Om deze kloof te overbruggen, introduceren we MusiXQA, de eerste uitgebreide dataset voor het evalueren en bevorderen van MLLMs in het begrijpen van bladmuziek. MusiXQA bevat hoogwaardige synthetische bladmuziek gegenereerd via MusiXTeX, met gestructureerde annotaties die notenhoogte en -duur, akkoorden, sleutels, toonsoort/maatsoort en tekst omvatten, waardoor diverse visuele vraag-antwoordtaken mogelijk worden. Door uitgebreide evaluaties onthullen we aanzienlijke beperkingen van huidige state-of-the-art MLLMs op dit gebied. Naast benchmarking hebben we Phi-3-MusiX ontwikkeld, een MLLM die is afgestemd op onze dataset en aanzienlijke prestatieverbeteringen behaalt ten opzichte van GPT-gebaseerde methoden. De voorgestelde dataset en het model leggen een basis voor toekomstige vooruitgang in MLLMs voor het begrijpen van bladmuziek. Code, data en het model zullen worden vrijgegeven na acceptatie.
Data is essentieel voor het trainen van taalmodellen (LM). Recent onderzoek is gericht op data-efficiëntie, wat streeft naar het maximaliseren van prestaties door het selecteren van een minimale of optimale subset van trainingsdata. Technieken zoals datafiltering, sampling en selectie spelen hierbij een cruciale rol. Om dit aan te vullen, definiëren we Data Effectiviteit, die zich richt op het maximaliseren van prestaties door het optimaliseren van de organisatie van trainingsdata en relatief onderbelicht blijft. Dit werk introduceert een algemeen paradigma, DELT, voor het overwegen van data-effectiviteit bij het trainen van LM, wat het belang van de organisatie van trainingsdata benadrukt. DELT bestaat uit drie componenten: Data Scoring, Data Selectie en Data Ordening. Onder deze componenten ontwerpen we Learnability-Quality Scoring (LQS), als een nieuw voorbeeld van Data Scoring, dat zowel de leerbaarheid als de kwaliteit van elk gegevensvoorbeeld overweegt vanuit het perspectief van gradiëntconsistentie. We ontwikkelen ook Folding Ordering (FO), als een nieuw voorbeeld van Data Ordening, dat problemen zoals modelvergetelheid en datadistributiebias aanpakt. Uitgebreide experimenten valideren de data-effectiviteit bij het trainen van LM, wat het volgende aantoont: Ten eerste verbeteren verschillende instanties van het voorgestelde DELT de LM-prestaties in verschillende mate zonder de dataschaal en modelgrootte te vergroten. Ten tweede bereikt de combinatie van onze voorgestelde LQS voor data scoring en Folding voor data ordening de meest significante verbetering onder deze instanties. Tot slot kan data-effectiviteit samen met data-efficiëntie worden bereikt door het toepassen van data selectie. Daarom geloven we dat data-effectiviteit een veelbelovend fundamenteel gebied is in het trainen van LM.
Recente vooruitgang in videogeneratiemodellen heeft hoogwaardige korte videogeneratie op basis van tekstprompts mogelijk gemaakt. Het uitbreiden van deze modellen naar langere video's blijft echter een aanzienlijke uitdaging, voornamelijk vanwege verminderde temporele consistentie en visuele kwaliteit. Onze eerste observaties tonen aan dat het naïef toepassen van kortvideogeneratiemodellen op langere sequenties leidt tot een merkbare kwaliteitsafname. Verdere analyse identificeert een systematische trend waarbij hoogfrequente componenten steeds meer vervormd raken naarmate de videolengte toeneemt, een probleem dat we hoogfrequente vervorming noemen. Om dit aan te pakken, stellen we FreeLong voor, een trainingsvrij framework dat is ontworpen om de frequentieverdeling van lange videokenmerken tijdens het denoisingsproces in balans te brengen. FreeLong bereikt dit door globale laagfrequente kenmerken, die de holistische semantiek over de volledige video vastleggen, te combineren met lokale hoogfrequente kenmerken die uit korte temporele vensters worden gehaald om fijne details te behouden. Hierop voortbouwend breidt FreeLong++ het dual-branch ontwerp van FreeLong uit naar een multi-branch architectuur met meerdere aandachtstakken, elk werkend op een afzonderlijke temporele schaal. Door meerdere venstergroottes van globaal naar lokaal te rangschikken, maakt FreeLong++ multi-band frequentiefusie mogelijk van laag naar hoog, wat zowel semantische continuïteit als fijnmazige bewegingsdynamiek over langere videosequenties waarborgt. Zonder enige aanvullende training kan FreeLong++ worden ingebouwd in bestaande videogeneratiemodellen (bijv. Wan2.1 en LTX-Video) om langere video's te produceren met aanzienlijk verbeterde temporele consistentie en visuele kwaliteit. We demonstreren dat onze aanpak eerdere methoden overtreft bij langere videogeneratietaken (bijv. 4x en 8x van de oorspronkelijke lengte). Het ondersteunt ook coherente multi-prompt videogeneratie met vloeiende scènetransities en maakt controleerbare videogeneratie mogelijk met behulp van lange diepte- of posesequenties.
Vision-language models (VLMs) blinken uit in beschrijvende taken, maar of ze scènes daadwerkelijk begrijpen op basis van visuele waarnemingen blijft onzeker. Wij introduceren IR3D-Bench, een benchmark die VLMs uitdaagt om begrip te tonen door middel van actieve creatie in plaats van passieve herkenning. Geworteld in het analyse-door-synthese paradigma, vraagt IR3D-Bench Vision-Language Agents (VLAs) om actief programmeer- en renderingtools te gebruiken om de onderliggende 3D-structuur van een invoerbeeld te reconstrueren, waardoor agent-gebaseerde inverse rendering wordt bereikt via toolgebruik. Deze "begrip-door-creatie" benadering onderzoekt de generatieve capaciteit van VLAs in het gebruik van tools, en gaat verder dan de beschrijvende of conversatiecapaciteit die wordt gemeten door traditionele benchmarks voor scènebegrip. Wij bieden een uitgebreide set metriek om geometrische nauwkeurigheid, ruimtelijke relaties, uiterlijke attributen en algemene geloofwaardigheid te evalueren. Eerste experimenten met agent-gebaseerde inverse rendering, aangedreven door verschillende state-of-the-art VLMs, benadrukken de huidige beperkingen, met name in visuele precisie in plaats van basis toolgebruik. IR3D-Bench, inclusief data en evaluatieprotocollen, wordt vrijgegeven om systematische studie en ontwikkeling van toolgebruikende VLAs te faciliteren richting echt scènebegrip door creatie.
Een rapport van de Europese Unie's wetshandhavingsagentschap voorspelt dat tegen 2026 tot 90 procent van de online inhoud synthetisch gegenereerd zou kunnen zijn, wat zorgen oproept bij beleidsmakers. Zij waarschuwden dat "Generatieve AI een krachtige versterker kan zijn voor politieke desinformatie. Het gecombineerde effect van generatieve tekst, afbeeldingen, video's en audio kan de invloed van elke afzonderlijke modaliteit overtreffen." Als reactie hierop verplicht de Californische wet AB 3211 het watermerken van AI-gegenereerde afbeeldingen, video's en audio. Er blijven echter zorgen bestaan over de kwetsbaarheid van onzichtbare watermerktechnieken voor manipulatie en de mogelijkheid dat kwaadwillende actoren deze volledig omzeilen. Generatieve AI-gestuurde aanvallen om watermerken te verwijderen, met name de nieuw geïntroduceerde visuele parafrase-aanval, hebben aangetoond dat ze watermerken volledig kunnen verwijderen, wat resulteert in een parafrase van de originele afbeelding. Dit artikel introduceert PECCAVI, de eerste visuele parafrase-aanval-veilige en vervormingsvrije afbeelding-watermerktechniek. Bij visuele parafrase-aanvallen wordt een afbeelding aangepast terwijl de kernsemantische gebieden, zogenaamde Non-Melting Points (NMP's), behouden blijven. PECCAVI plaatst watermerken strategisch binnen deze NMP's en maakt gebruik van watermerken in het frequentiedomein met meerdere kanalen. Het incorporeert ook ruw branden om pogingen tot reverse-engineering te counteren die gericht zijn op het lokaliseren van NMP's om het ingebedde watermerk te verstoren, waardoor de duurzaamheid wordt vergroot. PECCAVI is model-agnostisch. Alle relevante bronnen en codes zullen openbaar worden gemaakt.
Grote taalmodellen (LLMs) blinken uit in complexe taken dankzij geavanceerde promptingtechnieken zoals Chain-of-Thought (CoT) en Tree-of-Thought (ToT), maar hun afhankelijkheid van handmatig gemaakte, taakspecifieke prompts beperkt de aanpasbaarheid en efficiëntie. Wij introduceren Mixture of Reasoning (MoR), een trainingsframework dat diverse redeneerstrategieën in LLMs integreert voor autonoom, taakadaptief redeneren zonder externe promptengineering. MoR bestaat uit twee fasen: Thought Generation, waarbij redeneerketensjablonen worden gemaakt met modellen zoals GPT-4o, en SFT Dataset Construction, waarbij sjablonen worden gekoppeld aan benchmarkdatasets voor supervised fine-tuning. Onze experimenten tonen aan dat MoR de prestaties aanzienlijk verbetert, waarbij MoR150 een score van 0.730 behaalt (2,2% verbetering) met CoT-prompting en 0.734 (13,5% verbetering) in vergelijking met de basislijnen. MoR elimineert de noodzaak van taakspecifieke prompts en biedt een generaliseerbare oplossing voor robuust redeneren over diverse taken.
3D Gaussian Splatting maakt hoogwaardige real-time rendering mogelijk, maar produceert vaak miljoenen splats, wat leidt tot overmatige opslag en rekenkundige overhead. Wij stellen een nieuwe lossy compressiemethode voor, gebaseerd op leerbare betrouwbaarheidsscores die gemodelleerd zijn als Beta-verdelingen. De betrouwbaarheid van elke splat wordt geoptimaliseerd door reconstructiebewuste verliezen, waardoor splats met een lage betrouwbaarheid kunnen worden verwijderd terwijl de visuele kwaliteit behouden blijft. De voorgestelde aanpak is architectuuronafhankelijk en kan worden toegepast op elke variant van Gaussian Splatting. Daarnaast dienen de gemiddelde betrouwbaarheidswaarden als een nieuwe maatstaf om de kwaliteit van de scène te beoordelen. Uitgebreide experimenten tonen gunstige afwegingen tussen compressie en kwaliteit in vergelijking met eerder werk. Onze code en gegevens zijn openbaar beschikbaar op https://github.com/amirhossein-razlighi/Confident-Splatting.
Accurate materiaalmodelering is cruciaal voor het bereiken van fotorealistisch renderen, waardoor de kloof tussen computergegenereerde beelden en echte foto's wordt overbrugd. Terwijl traditionele benaderingen vertrouwen op getabelleerde BRDF-gegevens, is recent werk verschoven naar impliciete neurale representaties, die compacte en flexibele frameworks bieden voor een reeks taken. Hun gedrag in het frequentiedomein blijft echter slecht begrepen. Om dit aan te pakken, introduceren we FreNBRDF, een frequentie-gerechtificeerde neurale materiaalrepresentatie. Door gebruik te maken van sferische harmonieken integreren we frequentiedomeinoverwegingen in neurale BRDF-modellering. We stellen een nieuw frequentie-gerechtificeerd verlies voor, afgeleid van een frequentieanalyse van neurale materialen, en nemen dit op in een generaliseerbaar en adaptief reconstructie- en bewerkingspipeline. Dit framework verbetert de nauwkeurigheid, aanpasbaarheid en efficiëntie. Uitgebreide experimenten tonen aan dat \ours de nauwkeurigheid en robuustheid van materiaalweergave-reconstructie en -bewerking verbetert in vergelijking met state-of-the-art baselines, waardoor meer gestructureerde en interpreteerbare downstream taken en toepassingen mogelijk worden.
We introduceren Ella, een belichaamde sociale agent die in staat is tot levenslang leren binnen een gemeenschap in een 3D-open wereld, waar agenten ervaringen opdoen en kennis verwerven door alledaagse visuele observaties en sociale interacties. De kern van Ella's mogelijkheden is een gestructureerd, langetermijn multimodaal geheugensysteem dat informatie effectief opslaat, bijwerkt en ophaalt. Het bestaat uit een naamgericht semantisch geheugen voor het organiseren van verworven kennis en een spatiotemporeel episodisch geheugen voor het vastleggen van multimodale ervaringen. Door dit levenslange geheugensysteem te integreren met foundation-modellen, haalt Ella relevante informatie op voor besluitvorming, plant dagelijkse activiteiten, bouwt sociale relaties op en evolueert autonoom terwijl ze samenleeft met andere intelligente wezens in de open wereld. We voeren capaciteitsgerichte evaluaties uit in een dynamische 3D-open wereld waar 15 agenten dagenlang deelnemen aan sociale activiteiten en worden beoordeeld met een reeks onbekende gecontroleerde evaluaties. Experimentele resultaten tonen aan dat Ella andere agenten goed kan beïnvloeden, leiden en samenwerken om doelen te bereiken, wat haar vermogen aantoont om effectief te leren door observatie en sociale interactie. Onze bevindingen benadrukken het transformerende potentieel van het combineren van gestructureerde geheugensystemen met foundation-modellen voor het bevorderen van belichaamde intelligentie. Meer video's zijn te vinden op https://umass-embodied-agi.github.io/Ella/.