ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

TÜLU 3: Het Verleggen van Grenzen in Post-Training van Open Taalmodel
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22
ByNathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi
66
2

Het post-training van taalmodellen wordt toegepast om gedrag te verfijnen en nieuwe vaardigheden te ontsluiten bij een breed scala aan recente taalmodellen, maar open recepten voor het toepassen van deze technieken blijven achter bij de gepatenteerde versies. De onderliggende trainingsgegevens en recepten voor post-training zijn tegelijkertijd de belangrijkste puzzelstukken en het gedeelte met de minste transparantie. Om deze kloof te overbruggen, introduceren we TÜLU 3, een familie van volledig open state-of-the-art post-getrainde modellen, samen met de bijbehorende gegevens, code en trainingsrecepten, als een uitgebreide gids voor moderne post-training technieken. TÜLU 3, dat voortbouwt op Llama 3.1 basismodellen, behaalt resultaten die de instructieversies van Llama 3.1, Qwen 2.5, Mistral, en zelfs gesloten modellen zoals GPT-4o-mini en Claude 3.5-Haiku overtreffen. De trainingsalgoritmen voor onze modellen omvatten begeleid finetunen (SFT), Directe Voorkeurs Optimalisatie (DPO), en een nieuw methode die we Versterkend Leren met Verifieerbare Beloningen (RLVR) noemen. Met TÜLU 3 introduceren we een multi-taak evaluatieschema voor post-training recepten met ontwikkelings- en ongeziene evaluaties, standaard benchmark implementaties, en aanzienlijke zuivering van bestaande open datasets op genoemde benchmarks. We sluiten af met een analyse en discussie van trainingsmethoden die de prestaties niet betrouwbaar verbeterden. Naast de TÜLU 3 modelgewichten en demo, publiceren we het volledige recept - inclusief datasets voor diverse kernvaardigheden, een robuuste toolkit voor gegevenscuratie en evaluatie, de trainingscode en infrastructuur, en, het belangrijkst, een gedetailleerd rapport voor het reproduceren en verder aanpassen van de TÜLU 3 benadering naar meer domeinen.

2

OminiControl: Minimale en Universele Controle voor Diffusion Transformer
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22
ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang
61
13

In dit artikel introduceren we OminiControl, een zeer veelzijdig en parameter-efficiënt raamwerk dat beeldcondities integreert in vooraf getrainde Diffusion Transformer (DiT) modellen. In de kern maakt OminiControl gebruik van een mechanisme voor hergebruik van parameters, waardoor de DiT in staat is beeldcondities te coderen met behulp van zichzelf als krachtige ruggengraat en ze te verwerken met zijn flexibele multi-modale aandachtsverwerkers. In tegenstelling tot bestaande methoden, die zwaar leunen op extra encoder modules met complexe architecturen, incorporeert OminiControl (1) effectief en efficiënt geïnjecteerde beeldcondities met slechts ~0.1% extra parameters, en (2) behandelt een breed scala aan beeldconditioneringstaken op een geünificeerde manier, inclusief door onderwerp gedreven generatie en ruimtelijk uitgelijnde condities zoals randen, diepte, en meer. Opmerkelijk is dat deze mogelijkheden worden bereikt door training op beelden die zijn gegenereerd door de DiT zelf, wat bijzonder gunstig is voor door onderwerp gedreven generatie. Uitgebreide evaluaties tonen aan dat OminiControl beter presteert dan bestaande op UNet gebaseerde en DiT-aangepaste modellen in zowel door onderwerp gedreven als ruimtelijk uitgelijnde conditionele generatie. Daarnaast stellen we ons trainingsdataset, Subjects200K, vrij, een diverse verzameling van meer dan 200.000 identiteits-consistente beelden, samen met een efficiënte gegevenssynthesepijplijn om onderzoek naar onderwerp-consistente generatie te bevorderen.

3

Stijl-Vriendelijke SNR Sampler voor Stijlgestuurde Generatie
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22
ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
35
3

Recente grootschalige diffusiemodellen genereren hoogwaardige afbeeldingen, maar hebben moeite met het leren van nieuwe, gepersonaliseerde artistieke stijlen, wat de creatie van unieke stijlsjablonen beperkt. Fijnafstemming met referentieafbeeldingen is de meest veelbelovende benadering, maar maakt vaak blindelings gebruik van doelstellingen en ruisniveaudistributies die worden gebruikt voor voorafgaande training, wat leidt tot suboptimale stijluitlijning. Wij stellen de Stijlvriendelijke SNR-sampler voor, die agressief de signaal-ruisverhouding (SNR) distributie verschuift naar hogere ruisniveaus tijdens fijnafstemming om zich te richten op ruisniveaus waar stilistische kenmerken naar voren komen. Dit stelt modellen in staat om unieke stijlen beter vast te leggen en afbeeldingen te genereren met een hogere stijluitlijning. Onze methode stelt diffusiemodellen in staat om nieuwe "stijlsjablonen" te leren en te delen, waardoor gepersonaliseerde inhoud creatie wordt verbeterd. We tonen de mogelijkheid om stijlen te genereren zoals persoonlijke aquarelschilderijen, minimale platte cartoons, 3D-renderingen, meerluikafbeeldingen en memes met tekst, waardoor het bereik van op stijl gebaseerde generatie wordt verbreed.

4

MijnTijdmachine: Gepersonaliseerde Gezichtsverouderingstransformatie
MyTimeMachine: Personalized Facial Age Transformation

Nov 21
ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta
22
2

Gezichtsveroudering is een complex proces, sterk afhankelijk van meerdere factoren zoals geslacht, etniciteit, levensstijl, enz., waardoor het uiterst uitdagend is om een wereldwijde veroudering te leren om veroudering voor een individu nauwkeurig te voorspellen. Bestaande technieken produceren vaak realistische en plausibele verouderingsresultaten, maar de verouderde afbeeldingen lijken vaak niet op het uiterlijk van de persoon op de doelleeftijd en hebben daarom personalisatie nodig. In veel praktische toepassingen van virtuele veroudering, bijvoorbeeld VFX in films en tv-shows, is vaak toegang tot een persoonlijke fotocollectie van de gebruiker die veroudering in een kleine tijdsinterval (20 tot 40 jaar) afbeeldt, beschikbaar. Echter, naïeve pogingen om wereldwijde verouderingstechnieken te personaliseren op persoonlijke fotocollecties mislukken vaak. Daarom stellen we MyTimeMachine (MyTM) voor, die een wereldwijde veroudering prior combineert met een persoonlijke fotocollectie (met slechts 50 afbeeldingen) om een gepersonaliseerde leeftijdstransformatie te leren. We introduceren een nieuw Adapter Netwerk dat gepersonaliseerde verouderingskenmerken combineert met wereldwijde verouderingskenmerken en een verouderde afbeelding genereert met behulp van StyleGAN2. We introduceren ook drie verliesfuncties om het Adapter Netwerk te personaliseren met gepersonaliseerd verlies bij veroudering, extrapolatie regularisatie en adaptieve w-norm regularisatie. Onze benadering kan ook worden uitgebreid naar video's, waarbij hoogwaardige, identiteitsbehoudende en temporeel consistente verouderingseffecten worden bereikt die lijken op daadwerkelijke verschijningen op doelleeftijden, waarbij de superioriteit boven state-of-the-art benaderingen wordt aangetoond.

5

Een Flexibele Methodologie voor de Ontwikkeling van Grote Taalmodellen Guardrails Toegepast op het Detecteren van Off-Topic Prompts
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20
ByGabriel Chua, Shing Yee Chan, Shaun Khoo
22
2

Grote Taalmodellen zijn vatbaar voor misbruik buiten het onderwerp, waarbij gebruikers deze modellen kunnen aansporen om taken uit te voeren die buiten hun beoogde scope vallen. Huidige beveiligingsmaatregelen, die vaak steunen op samengestelde voorbeelden of aangepaste classificatoren, kampen met hoge fout-positieve percentages, beperkte aanpasbaarheid en de onpraktische eis om real-world data te vereisen die niet beschikbaar is in de pre-productie. In dit artikel introduceren we een flexibele, data-vrije methodologie voor de ontwikkeling van beveiligingsmaatregelen die deze uitdagingen aanpakt. Door het probleemgebied kwalitatief grondig te definiëren en dit aan een Groot Taalmodel door te geven om diverse aansturingen te genereren, construeren we een synthetische dataset om beveiligingsmaatregelen tegen off-topic gebruik te benchmarken en trainen die beter presteren dan heuristische benaderingen. Bovendien, door de taak te kaderen als het classificeren of de gebruikersaansturing relevant is ten opzichte van de systeemaansturing, generaliseren onze beveiligingsmaatregelen effectief naar andere vormen van misbruik, waaronder jailbreak en schadelijke aansturingen. Ten slotte dragen we verder bij aan het vakgebied door zowel de synthetische dataset als de off-topic beveiligingsmaatregelmodellen open-source te maken, waardoor waardevolle bronnen worden geboden voor het ontwikkelen van beveiligingsmaatregelen in pre-productieomgevingen en het ondersteunen van toekomstig onderzoek en ontwikkeling op het gebied van veiligheid van Grote Taalmodellen.

6

BALROG: Benchmarken van Agentic LLM en VLM Redeneren Over Spellen
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20
ByDavide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel
19
2

Grote Taalmodellen (LLM's) en Visie Taalmodellen (VLM's) bezitten uitgebreide kennis en vertonen veelbelovende redeneervaardigheden; toch hebben ze nog steeds moeite om goed te presteren in complexe, dynamische omgevingen. Taken in de echte wereld vereisen het omgaan met ingewikkelde interacties, geavanceerde ruimtelijke redenering, langetermijnplanning en voortdurende verkenning van nieuwe strategieën - gebieden waarin we effectieve methodologieën missen om deze capaciteiten uitgebreid te evalueren. Om deze kloof te overbruggen, introduceren we BALROG, een nieuw benchmark ontworpen om de agentische capaciteiten van LLM's en VLM's te beoordelen door middel van een gevarieerde set uitdagende spellen. Onze benchmark omvat een reeks bestaande reinforcement learning omgevingen met verschillende moeilijkheidsgraden, waaronder taken die door niet-expert mensen in seconden oplosbaar zijn tot extreem uitdagende taken die jaren kunnen duren om onder de knie te krijgen (bijv. de NetHack Leeromgeving). We ontwikkelen fijnmazige metrieken om prestaties te meten en voeren een uitgebreide evaluatie uit van verschillende populaire open-source en closed-source LLM's en VLM's. Onze bevindingen geven aan dat hoewel huidige modellen gedeeltelijk succes behalen in de eenvoudigere spellen, ze aanzienlijke moeite hebben met meer uitdagende taken. Opmerkelijk is dat we ernstige tekortkomingen waarnemen in op visie gebaseerde besluitvorming, aangezien modellen slechter presteren wanneer visuele representaties van de omgevingen worden verstrekt. We brengen BALROG uit als een open en gebruiksvriendelijke benchmark om toekomstig onderzoek en ontwikkeling in de agentische gemeenschap te vergemakkelijken.

7

Grote multimodale modellen kunnen kenmerken interpreteren in grote multimodale modellen.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22
ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu
19
4

Recente ontwikkelingen in Grote Multimodale Modellen (GMM's) hebben geleid tot significante doorbraken zowel in de academische wereld als in de industrie. Een vraag die rijst, is hoe wij, als mensen, hun interne neurale representaties kunnen begrijpen. Dit artikel zet een eerste stap om deze vraag aan te pakken door een veelzijdig kader te presenteren om de semantiek binnen GMM's te identificeren en interpreteren. Specifiek, 1) passen we eerst een Schaarse Auto-encoder (SAE) toe om de representaties te ontwarren in voor mensen begrijpelijke kenmerken. 2) Vervolgens presenteren we een automatisch interpretatiekader om de open-semantische kenmerken geïnterpreteerd door de GMM's zelf in SAE te interpreteren. We gebruiken dit kader om het LLaVA-NeXT-8B model te analyseren met behulp van het LLaVA-OV-72B model, waarbij we aantonen dat deze kenmerken effectief het gedrag van het model kunnen sturen. Onze resultaten dragen bij aan een dieper begrip van waarom GMM's uitblinken in specifieke taken, waaronder EQ-tests, en verlichten de aard van hun fouten samen met potentiële strategieën voor hun correctie. Deze bevindingen bieden nieuwe inzichten in de interne mechanismen van GMM's en suggereren parallellen met de cognitieve processen van de menselijke hersenen.

8

VideoEspresso: Een grootschalige dataset van ketendenken voor gedetailleerde videoredenering via kernframe-selectie.
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22
BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
13
3

De vooruitgang van Grote Visie Taalmodellen (GVTM's) heeft aanzienlijk bijgedragen aan multimodale begripsvorming, maar er blijven uitdagingen bestaan bij videoredeneertaken vanwege het gebrek aan hoogwaardige, grootschalige datasets. Bestaande datasets voor videovraag-antwoord (VideoQA) vertrouwen vaak op kostbare handmatige annotaties met onvoldoende granulariteit of automatische constructiemethoden met overbodige frame-voor-frame analyse, waardoor hun schaalbaarheid en effectiviteit voor complex redeneren beperkt zijn. Om deze uitdagingen aan te pakken, introduceren we VideoEspresso, een nieuw dataset dat VideoQA-paren bevat met behoud van essentiële ruimtelijke details en temporele coherentie, samen met multimodale annotaties van tussenliggende redeneerstappen. Ons constructieproces maakt gebruik van een semantisch-bewuste methode om redundantie te verminderen, gevolgd door het genereren van QA-paren met behulp van GPT-4o. We ontwikkelen verder video Chain-of-Thought (CoT) annotaties om redeneerprocessen te verrijken, waarbij GPT-4o wordt geleid bij het extraheren van logische relaties uit QA-paren en videomateriaal. Om het potentieel van hoogwaardige VideoQA-paren te benutten, stellen we een Hybride GVTM's Samenwerkingskader voor, met een Frame Selector en een tweefasig instructie-fijnafgestemd redeneer-GVTM. Dit kader selecteert adaptief kernframes en voert CoT-redenering uit met behulp van multimodaal bewijs. Geëvalueerd op onze voorgestelde benchmark met 14 taken tegen 9 populaire GVTM's, presteert onze methode beter dan bestaande baselines bij de meeste taken, waarbij superieure videoredeneervaardigheden worden gedemonstreerd. Onze code en dataset worden vrijgegeven op: https://github.com/hshjerry/VideoEspresso

9

Efficiënte tokenisatie van lange video's via op coördinaten gebaseerde patchreconstructie.
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22
ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
11
2

Efficiënte tokenisatie van video's blijft een uitdaging bij het trainen van visiemodellen die lange video's kunnen verwerken. Een veelbelovende richting is het ontwikkelen van een tokenizer die lange videoclips kan encoderen, aangezien dit de tokenizer in staat zou stellen om de temporele coherentie van video's beter te benutten voor tokenisatie. Echter, het trainen van bestaande tokenizers op lange video's brengt vaak een grote trainingskost met zich mee, aangezien ze worden getraind om alle frames in één keer te reconstrueren. In dit artikel introduceren we CoordTok, een videotokenizer die een mapping leert van op coördinaten gebaseerde representaties naar de overeenkomstige patches van invoervideo's, geïnspireerd door recente ontwikkelingen in 3D generatieve modellen. In het bijzonder codeert CoordTok een video in gefactoriseerde triplane representaties en reconstrueert patches die overeenkomen met willekeurig gesamplede (x,y,t) coördinaten. Dit maakt het mogelijk om grote tokenizermodellen rechtstreeks op lange video's te trainen zonder dat er buitensporige trainingsbronnen nodig zijn. Onze experimenten tonen aan dat CoordTok het aantal tokens drastisch kan verminderen voor het encoderen van lange videoclips. Zo kan CoordTok bijvoorbeeld een 128-frame video met een resolutie van 128x128 encoderen in 1280 tokens, terwijl baselines 6144 of 8192 tokens nodig hebben om een vergelijkbare reconstructiekwaliteit te bereiken. We tonen verder aan dat deze efficiënte videotokenisatie het geheugenefficiënt trainen van een diffusietransformer mogelijk maakt die 128 frames tegelijk kan genereren.

10

Nieuwe Weergave-Extrapolatie met Video Diffusie Priors
Novel View Extrapolation with Video Diffusion Priors

Nov 21
ByKunhao Liu, Ling Shao, Shijian Lu
10
3

Het veld van nieuwe zichtsynthese heeft aanzienlijke vooruitgang geboekt dankzij de ontwikkeling van stralingsveldmethoden. Echter, de meeste stralingsveldtechnieken zijn veel beter in nieuwe zichtinterpolatie dan in nieuwe zichtextrapolatie, waarbij de gesynthetiseerde nieuwe zichten ver buiten de waargenomen trainingszichten liggen. We hebben ViewExtrapolator ontworpen, een nieuwe zichtsynthesebenadering die gebruikmaakt van de generatieve prior van Stable Video Diffusion (SVD) voor realistische nieuwe zichtextrapolatie. Door het SVD-ruisverwijderingsproces opnieuw vorm te geven, verfijnt ViewExtrapolator de met artefacten beladen zichten die worden gerenderd door stralingsvelden, waardoor de helderheid en realisme van de gesynthetiseerde nieuwe zichten aanzienlijk worden verbeterd. ViewExtrapolator is een generieke nieuwe zichtextrapolator die kan werken met verschillende soorten 3D-rendering, zoals zichten gerenderd vanuit puntwolken wanneer slechts één zicht of monoculair video beschikbaar is. Bovendien vereist ViewExtrapolator geen fijnafstemming van SVD, waardoor het zowel data-efficiënt als rekenkundig efficiënt is. Uitgebreide experimenten tonen de superioriteit van ViewExtrapolator in nieuwe zichtextrapolatie aan. Projectpagina: https://kunhao-liu.github.io/ViewExtrapolator/.

11

VideoRepair: Het verbeteren van de generatie van tekst-naar-video door middel van evaluatie van misalignatie en lokale verfijning.
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22
ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
9
3

Recente tekst-naar-video (T2V) diffusiemodellen hebben indrukwekkende generatiecapaciteiten aangetoond over verschillende domeinen. Echter, deze modellen genereren vaak video's met misalignments ten opzichte van tekst prompts, vooral wanneer de prompts complexe scènes met meerdere objecten en eigenschappen beschrijven. Om dit aan te pakken, introduceren we VideoRepair, een nieuw model-agnostisch, trainingvrij videoverfijningskader dat automatisch fijnmazige tekst-video misalignments identificeert en expliciete ruimtelijke en tekstuele feedback genereert, waardoor een T2V diffusiemodel gerichte, gelokaliseerde verfijningen kan uitvoeren. VideoRepair bestaat uit vier fasen: In (1) video-evaluatie detecteren we misalignments door fijnmazige evaluatievragen te genereren en die vragen te beantwoorden met MLLM. In (2) verfijningplanning identificeren we nauwkeurig gegenereerde objecten en creëren vervolgens gelokaliseerde prompts om andere gebieden in de video te verfijnen. Vervolgens, in (3) regio-decompositie, segmenteren we het correct gegenereerde gebied met behulp van een gecombineerde grounding-module. We regenereren de video door de misaligned regio's aan te passen terwijl we de correcte regio's behouden in (4) gelokaliseerde verfijning. Op twee populaire video-generatie benchmarks (EvalCrafter en T2V-CompBench) presteert VideoRepair aanzienlijk beter dan recente baselines over verschillende tekst-video alignment-metrics. We bieden een uitgebreide analyse van VideoRepair componenten en kwalitatieve voorbeelden.

12

WildLMa: Lange Horizon Loco-Manipulatie in het Wild
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22
ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang
7
2

'Mobiele manipulatie in het wild' heeft als doel om robots in diverse echte omgevingen in te zetten, wat vereist dat de robot (1) vaardigheden heeft die generaliseren over objectconfiguraties; (2) in staat is tot taakuitvoering op lange termijn in diverse omgevingen; en (3) complexe manipulatie uitvoert die verder gaat dan pakken en plaatsen. Vierbenige robots met manipulatoren bieden mogelijkheden om de werkruimte uit te breiden en robuuste voortbeweging mogelijk te maken, maar bestaande resultaten onderzoeken deze capaciteit niet. Dit artikel stelt WildLMa voor met drie componenten om deze kwesties aan te pakken: (1) aanpassing van een geleerde laag-niveau controller voor VR-geactiveerde volledige lichaamsteleoperatie en begaanbaarheid; (2) WildLMa-Skill - een bibliotheek van generaliseerbare visuomotorische vaardigheden verworven via imitatieleren of heuristieken en (3) WildLMa-Planner - een interface van geleerde vaardigheden die LLM-planners in staat stellen vaardigheden te coördineren voor taken op lange termijn. We tonen het belang van hoogwaardige trainingsgegevens aan door een hoger succespercentage van grijpen te behalen ten opzichte van bestaande RL-baselines met slechts tientallen demonstraties. WildLMa maakt gebruik van CLIP voor taal-geconditioneerd imitatieleren dat empirisch generaliseert naar objecten die niet zijn gezien in trainingsdemonstraties. Naast uitgebreide kwantitatieve evaluatie, demonstreren we kwalitatief praktische toepassingen van robots, zoals het opruimen van afval in universiteitsgangen of buitenomgevingen, het bedienen van gearticuleerde objecten en het herschikken van items op een boekenplank.

13

Het aanpassen van Vision Foundation-modellen voor robuuste cloudsegmentatie in Remote Sensing-beelden
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20
ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao
4
2

Wolkensegmentatie is een kritieke uitdaging in de interpretatie van remote sensing beelden, aangezien de nauwkeurigheid ervan direct van invloed is op de effectiviteit van daaropvolgende gegevensverwerking en -analyse. Onlangs hebben vision foundation modellen (VFM) krachtige generalisatiecapaciteiten aangetoond over verschillende visuele taken. In dit artikel presenteren we een parameter-efficiënte adaptieve benadering, genaamd Cloud-Adapter, ontworpen om de nauwkeurigheid en robuustheid van wolkensegmentatie te verbeteren. Onze methode maakt gebruik van een VFM die is voorgetraind op algemene domeingegevens, die bevroren blijft, waardoor extra training overbodig is. Cloud-Adapter bevat een lichtgewicht ruimtelijk perceptiemodule die aanvankelijk een convolutioneel neuraal netwerk (ConvNet) gebruikt om dichte ruimtelijke representaties te extraheren. Deze multiscale kenmerken worden vervolgens geaggregeerd en dienen als contextuele invoer voor een aanpassingsmodule, die de bevroren transformerlagen binnen de VFM moduleert. Experimentele resultaten tonen aan dat de Cloud-Adapter benadering, met slechts 0,6% van de trainbare parameters van de bevroren ruggengraat, aanzienlijke prestatieverbeteringen behaalt. Cloud-Adapter behaalt consequent state-of-the-art (SOTA) prestaties over een breed scala aan wolkensegmentatiedatasets van meerdere satellietbronnen, sensorsystemen, gegevensverwerkingsniveaus, landbedekkingsscenario's en annotatiegranulariteiten. We hebben de broncode en voorgetrainde modellen vrijgegeven op https://github.com/XavierJiezou/Cloud-Adapter ter ondersteuning van verder onderzoek.

14

Eén om ze allemaal te regeren: natuurlijke taal om communicatie, perceptie en actie te verbinden.
One to rule them all: natural language to bind communication, perception and action

Nov 22
BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone
3
2

De laatste jaren heeft onderzoek op het gebied van mens-robot interactie zich gericht op het ontwikkelen van robots die in staat zijn complexe menselijke instructies te begrijpen en taken uit te voeren in dynamische en diverse omgevingen. Deze systemen hebben een breed scala aan toepassingen, van persoonlijke assistentie tot industriële robotica, waarbij de nadruk ligt op het belang van robots die flexibel, natuurlijk en veilig met mensen kunnen communiceren. Dit artikel presenteert een geavanceerde architectuur voor robotactieplanning die communicatie, perceptie en planning integreert met Grote Taalmodellen (GTM's). Ons systeem is ontworpen om commando's uitgedrukt in natuurlijke taal te vertalen naar uitvoerbare robotacties, waarbij omgevingsinformatie wordt opgenomen en plannen dynamisch worden bijgewerkt op basis van realtime feedback. De Planner Module vormt de kern van het systeem waar GTM's die zijn ingebed in een aangepast ReAct-framework worden gebruikt om gebruikerscommando's te interpreteren en uit te voeren. Door gebruik te maken van hun uitgebreide vooraf getrainde kennis kunnen GTM's gebruikersverzoeken effectief verwerken zonder de noodzaak om nieuwe kennis over de veranderende omgeving te introduceren. Het aangepaste ReAct-framework verbetert verder de uitvoeringsruimte door realtime omgevingsperceptie en de resultaten van fysieke acties te bieden. Door robuuste en dynamische semantische kaartrepresentaties als grafieken te combineren met besturingscomponenten en foutverklaringen, verbetert deze architectuur de aanpasbaarheid van een robot, taakuitvoering en naadloze samenwerking met menselijke gebruikers in gedeelde en dynamische omgevingen. Door de integratie van continue feedbacklussen met de omgeving kan het systeem het plan dynamisch aanpassen om onverwachte veranderingen op te vangen, waardoor de robot beter in staat is taken uit te voeren. Door gebruik te maken van een dataset van eerdere ervaringen is het mogelijk gedetailleerde feedback te geven over de mislukking. Het bijwerken van de GTM-context van de volgende iteratie met suggesties over hoe het probleem kan worden overwonnen.

Nov 22
Nov 25
Nov 26