Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De taak van probleemoplossing is het aanpassen van een codebase om een patch te genereren die een gegeven probleem aanpakt. Bestaande benchmarks, zoals SWE-bench, richten zich echter bijna uitsluitend op Python, waardoor ze onvoldoende zijn voor het evalueren van Large Language Models (LLMs) in diverse software-ecosystemen. Om dit aan te pakken, introduceren we een meertalige benchmark voor probleemoplossing, genaamd Multi-SWE-bench, die Java, TypeScript, JavaScript, Go, Rust, C en C++ omvat. Het bevat in totaal 1.632 hoogwaardige instanties, die zorgvuldig zijn geannoteerd uit 2.456 kandidaten door 68 expert-annotators, waardoor de benchmark een nauwkeurige en betrouwbare evaluatie kan bieden. Op basis van Multi-SWE-bench evalueren we een reeks state-of-the-art modellen met behulp van drie representatieve methoden (Agentless, SWE-agent en OpenHands) en presenteren we een uitgebreide analyse met belangrijke empirische inzichten. Daarnaast lanceren we een Multi-SWE-RL open-source gemeenschap, gericht op het bouwen van grootschalige reinforcement learning (RL) trainingsdatasets voor taken op het gebied van probleemoplossing. Als eerste bijdrage geven we een set van 4.723 goed gestructureerde instanties vrij, die zeven programmeertalen omvatten, wat een solide basis legt voor RL-onderzoek in dit domein. Belangrijker nog, we open-sourcen onze volledige dataproductiepipeline, samen met gedetailleerde tutorials, om de open-source gemeenschap aan te moedigen continu bij te dragen en de dataset uit te breiden. We zien onze Multi-SWE-bench en de steeds groeiende Multi-SWE-RL gemeenschap als katalysatoren voor het benutten van het volledige potentieel van RL, waardoor we een stap dichter komen bij het aanbreken van AGI.
Wiskundig redeneren is een hoeksteen van menselijke intelligentie en een belangrijke maatstaf voor geavanceerde capaciteiten in grote taalmodellen (LLM's). De onderzoeksgemeenschap beschikt echter nog steeds niet over een open, grootschalige, hoogwaardige corpus die is afgestemd op de eisen van wiskundig gerichte LLM-pre-training. Wij presenteren MegaMath, een open dataset die is samengesteld uit diverse, wiskundig gerichte bronnen door de volgende praktijken te volgen: (1) Herbekijken van webdata: We hebben wiskundige documenten opnieuw geëxtraheerd uit Common Crawl met wiskundig geoptimaliseerde HTML, fasttext-gebaseerde filtering en deduplicatie, allemaal om hoogwaardigere data van het internet te verkrijgen. (2) Herinneren van wiskundig gerelateerde codedata: We hebben hoogwaardige wiskundig gerelateerde code geïdentificeerd uit de grote code-trainingscorpus, Stack-V2, waardoor de diversiteit van de data verder werd vergroot. (3) Verkennen van synthetische data: We hebben QA-stijl tekst, wiskundig gerelateerde code en afgewisselde tekst-codeblokken gesynthetiseerd uit webdata of codedata. Door deze strategieën te integreren en hun effectiviteit te valideren via uitgebreide ablatie-experimenten, levert MegaMath 371B tokens met de grootste hoeveelheid en de hoogste kwaliteit onder de bestaande open wiskundige pre-training datasets.
Grote Taalmodellen (LLMs) hebben aanzienlijke prestaties geleverd bij diverse agentische plannings taken. Traditionele benaderingen voor agentplanning hanteren echter een "overstromingsirrigatie"-methodologie die zonder onderscheid gouden trajecten, externe feedback en domeinkennis in agentmodellen injecteert. Deze praktijk negeert het fundamentele menselijke cognitieve principe van situationeel zelfbewustzijn tijdens besluitvorming—het vermogen om situationele eisen dynamisch te beoordelen en strategisch middelen in te zetten tijdens besluitvorming. Wij stellen agentisch kennisrijk zelfbewustzijn voor om deze kloof te overbruggen, een nieuw paradigma dat LLM-gebaseerde agenten in staat stelt om kennisgebruik autonoom te reguleren. Specifiek stellen we KnowSelf voor, een data-centrische benadering die agenten voorziet van kennisrijk zelfbewustzijn zoals bij mensen. Concreet ontwikkelen we een heuristisch situatiebeoordelingscriterium om speciale tokens te markeren op de zelfverkende trajecten van de agent voor het verzamelen van trainingsdata. Door een tweefasen trainingsproces kan het agentmodel schakelen tussen verschillende situaties door specifieke speciale tokens te genereren, waardoor optimale planningseffecten worden bereikt met minimale kosten. Onze experimenten tonen aan dat KnowSelf verschillende sterke baseline-methoden kan overtreffen bij verschillende taken en modellen met minimaal gebruik van externe kennis. Code is beschikbaar op https://github.com/zjunlp/KnowSelf.
In dit werk presenteren we VARGPT-v1.1, een geavanceerd geïntegreerd visueel autoregressief model dat voortbouwt op ons eerdere framework VARGPT. Het model behoudt het dubbele paradigma van volgende-tokenvoorspelling voor visueel begrip en volgende-schaalgeneratie voor beeld-synthese. Specifiek integreert VARGPT-v1.1: (1) een nieuwe trainingsstrategie die iteratieve visuele instructieafstemming combineert met reinforcement learning via Direct Preference Optimization (DPO), (2) een uitgebreide trainingscorpus met 8,3 miljoen visueel-generatieve instructieparen, (3) een geüpgraded taalmodel-backbone met Qwen2, (4) verbeterde beeldgeneratieresolutie, en (5) opkomende beeldbewerkingsmogelijkheden zonder architectonische aanpassingen. Deze verbeteringen stellen VARGPT-v1.1 in staat om state-of-the-art prestaties te behalen in multimodaal begrip en tekst-naar-beeld instructievolgende taken, met aanzienlijke verbeteringen in zowel begrips- als generatiemetrics. Opmerkelijk is dat het model door visuele instructieafstemming beeldbewerkingsfunctionaliteit verwerft, terwijl het architectonisch consistent blijft met zijn voorganger, wat het potentieel voor geïntegreerd visueel begrip, generatie en bewerken onthult. Onze bevindingen suggereren dat goed ontworpen geïntegreerde visuele autoregressieve modellen flexibele trainingsstrategieën van grote taalmodelen (LLM's) effectief kunnen overnemen, wat veelbelovende schaalbaarheid laat zien. De codebase en modelgewichten zijn publiekelijk beschikbaar op https://github.com/VARGPT-family/VARGPT-v1.1.
Transformers vormen de hoeksteen van moderne grote taalmodellen, maar hun kwadratische computationele complexiteit beperkt de efficiëntie bij de verwerking van lange sequenties. Recente vooruitgang in Mamba, een state space model (SSM) met lineaire complexiteit, biedt veelbelovende efficiëntiewinsten, maar lijdt onder instabiel contextueel leren en multitask-generalizatie. Dit artikel stelt TransMamba voor, een nieuw raamwerk dat Transformer en Mamba verenigt via gedeelde parameter matrices (bijv. QKV en CBx), en daardoor dynamisch kan schakelen tussen aandacht- en SSM-mechanismen bij verschillende tokenlengtes en lagen. We ontwerpen de Memory converter om Transformer en Mamba te verbinden door aandachtsuitvoer om te zetten in SSM-compatibele toestanden, wat een naadloze informatieflow garandeert bij TransPoints waar de transformatie plaatsvindt. De TransPoint-scheduling wordt ook grondig onderzocht voor verdere verbeteringen. We hebben uitgebreide experimenten uitgevoerd die aantonen dat TransMamba superieure trainings efficiëntie en prestaties bereikt in vergelijking met baselines, en hebben de diepere consistentie tussen de Transformer- en Mamba-paradigma's gevalideerd, wat een schaalbare oplossing biedt voor next-generation sequentiemodellering.
In de interactie tussen agenten en hun omgevingen breiden agenten hun capaciteiten uit door acties te plannen en uit te voeren. LLM-gebaseerde agenten worden echter geconfronteerd met aanzienlijke uitdagingen wanneer ze worden ingezet in nieuwe omgevingen of wanneer ze onconventionele actieruimtes moeten navigeren. Om agenten in staat te stellen omgevingen autonoom te verkennen, workflows te optimaliseren en hun begrip van acties te vergroten, stellen we SynWorld voor, een raamwerk dat agenten in staat stelt mogelijke scenario's te synthetiseren met multi-stap actie-aanroeping binnen de actieruimte en Monte Carlo Tree Search (MCTS)-verkenning uit te voeren om hun actiekennis effectief te verfijnen in de huidige omgeving. Onze experimenten tonen aan dat SynWorld een effectieve en algemene benadering is voor het leren van actiekennis in nieuwe omgevingen. Code is beschikbaar op https://github.com/zjunlp/SynWorld.
Autonome agents aangedreven door foundation-modellen hebben brede adoptie gezien in verschillende real-world toepassingen. Ze blijven echter zeer kwetsbaar voor kwaadaardige instructies en aanvallen, wat kan leiden tot ernstige gevolgen zoals privacyschendingen en financiële verliezen. Nog kritischer is dat bestaande beveiligingsmaatregelen voor LLM's niet toepasbaar zijn vanwege de complexe en dynamische aard van agents. Om deze uitdagingen aan te pakken, stellen we ShieldAgent voor, de eerste guardrail-agent die expliciete naleving van veiligheidsbeleid afdwingt voor de actietrajecten van andere beschermde agents door middel van logisch redeneren. Specifiek construeert ShieldAgent eerst een veiligheidsbeleidsmodel door verifieerbare regels uit beleidsdocumenten te extraheren en deze te structureren in een set actiegebaseerde probabilistische regelcircuits. Gegeven het actietraject van de beschermde agent, haalt ShieldAgent relevante regelcircuits op en genereert een afschermingsplan, waarbij het gebruik maakt van zijn uitgebreide toolbibliotheek en uitvoerbare code voor formele verificatie. Daarnaast introduceren we, gezien het gebrek aan guardrail-benchmarks voor agents, ShieldAgent-Bench, een dataset met 3K veiligheidsgerelateerde paren van agentinstructies en actietrajecten, verzameld via state-of-the-art aanvallen in 6 webomgevingen en 7 risicocategorieën. Experimenten tonen aan dat ShieldAgent state-of-the-art prestaties behaalt op ShieldAgent-Bench en drie bestaande benchmarks, waarbij het eerdere methodes met gemiddeld 11,3% overtreft met een hoge recall van 90,1%. Bovendien reduceert ShieldAgent API-query's met 64,7% en inferentietijd met 58,2%, wat zijn hoge precisie en efficiëntie in het beschermen van agents aantoont.
Het trainen van effectieve AI-agenten voor multi-turn interacties vereist hoogwaardige data die realistische mens-agent dynamieken vastlegt, maar dergelijke data is schaars en duur om handmatig te verzamelen. Wij introduceren APIGen-MT, een tweefasen framework dat verifieerbare en diverse multi-turn agentdata genereert. In de eerste fase produceert onze agentische pipeline gedetailleerde taakblauwdrukken met grondwaarheidacties, waarbij gebruik wordt gemaakt van een commissie van LLM-beoordelaars en iteratieve feedbackloops. Deze blauwdrukken worden vervolgens omgezet in complete interactietrajecten door gesimuleerde mens-agent interactie. We trainen een familie van modellen -- de xLAM-2-fc-r serie met groottes variërend van 1B tot 70B parameters. Onze modellen overtreffen frontier modellen zoals GPT-4o en Claude 3.5 op tau-bench en BFCL benchmarks, waarbij de kleinere modellen hun grotere tegenhangers overtreffen, vooral in multi-turn settings, terwijl ze superieure consistentie behouden over meerdere trials. Uitgebreide experimenten tonen aan dat onze geverifieerde blauwdruk-naar-details aanpak hoogwaardige trainingsdata oplevert, waardoor de ontwikkeling van betrouwbaardere, efficiëntere en capabelere agenten mogelijk wordt. We open-sourcen zowel de verzamelde synthetische data als de getrainde xLAM-2-fc-r modellen om onderzoek naar AI-agenten te bevorderen. Modellen zijn beschikbaar op HuggingFace via https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 en het projectwebsite is https://apigen-mt.github.io.
Bestaande MLLM-benchmarks worden geconfronteerd met aanzienlijke uitdagingen bij het evalueren van Unified MLLMs (U-MLLMs) vanwege: 1) het ontbreken van gestandaardiseerde benchmarks voor traditionele taken, wat leidt tot inconsistente vergelijkingen; 2) het ontbreken van benchmarks voor gemengde-modaliteit generatie, wat het beoordelen van multimodale redeneervaardigheden belemmert. Wij presenteren een uitgebreid evaluatiekader dat is ontworpen om U-MLLMs systematisch te beoordelen. Onze benchmark omvat: Gestandaardiseerde Evaluatie van Traditionele Taken. We nemen steekproeven uit 12 datasets, die 10 taken met 30 subtaken omvatten, om consistente en eerlijke vergelijkingen tussen studies te waarborgen. 2. Geïntegreerde Taakbeoordeling. We introduceren vijf nieuwe taken die multimodaal redeneren testen, waaronder beeldbewerking, commonsense QA met beeldgeneratie, en geometrisch redeneren. 3. Uitgebreide Modelbenchmarking. We evalueren 12 toonaangevende U-MLLMs, zoals Janus-Pro, EMU3, VILA-U, en Gemini2-flash, naast gespecialiseerde begripsmodellen (bijv. Claude-3.5-Sonnet) en generatiemodellen (bijv. DALL-E-3). Onze bevindingen onthullen aanzienlijke prestatiekloof in bestaande U-MLLMs, wat de noodzaak benadrukt voor robuustere modellen die effectief kunnen omgaan met gemengde-modaliteit taken. De code en evaluatiedata zijn te vinden op https://mme-unify.github.io/.
Reconstructie van mensen uit één afbeelding is essentieel voor toepassingen in digitaal menselijk modelleren, maar blijft een uiterst uitdagende taak. Huidige benaderingen vertrouwen op generatieve modellen om multi-view afbeeldingen te synthetiseren voor latere 3D-reconstructie en animatie. Het direct genereren van meerdere views vanuit één menselijke afbeelding leidt echter tot geometrische inconsistenties, wat resulteert in problemen zoals gefragmenteerde of vervaagde ledematen in de gereconstrueerde modellen. Om deze beperkingen aan te pakken, introduceren we HumanDreamer-X, een nieuw framework dat multi-view menselijke generatie en reconstructie integreert in een uniforme pipeline, wat de geometrische consistentie en visuele kwaliteit van de gereconstrueerde 3D-modellen aanzienlijk verbetert. In dit framework dient 3D Gaussian Splatting als een expliciete 3D-representatie om initiële geometrie en uiterlijk prioriteit te bieden. Op deze basis wordt HumanFixer getraind om 3DGS-renderingen te herstellen, wat fotorealistische resultaten garandeert. Bovendien gaan we in op de inherente uitdagingen die gepaard gaan met aandachtmechanismen in multi-view menselijke generatie, en stellen we een aandachtmodulatiestrategie voor die effectief geometrische details en identiteitsconsistentie over multi-view verbetert. Experimentele resultaten tonen aan dat onze aanpak de generatie- en reconstructie-PSNR-kwaliteitsmetingen met respectievelijk 16,45% en 12,65% verbetert, met een PSNR van maximaal 25,62 dB, terwijl het ook generalisatiecapaciteiten op in-the-wild data en toepasbaarheid op verschillende menselijke reconstructie-backbonemodellen aantoont.
Dit artikel introduceert Comprehensive Relighting, de eerste alles-in-één aanpak die zowel de belichting kan beheersen als harmoniseren van een afbeelding of video van mensen met willekeurige lichaamsdelen uit elke scène. Het bouwen van zo'n generaliseerbaar model is extreem uitdagend vanwege het gebrek aan datasets, wat bestaande op afbeeldingen gebaseerde relighting-modellen beperkt tot een specifiek scenario (bijv. gezicht of statisch mens). Om deze uitdaging aan te pakken, hergebruiken we een vooraf getraind diffusiemodel als een algemene afbeeldingsprior en modelleren we gezamenlijk de menselijke relighting en achtergrondharmonisatie in een coarse-to-fine raamwerk. Om de temporele coherentie van de relighting verder te verbeteren, introduceren we een ongesuperviseerd temporeel belichtingsmodel dat de belichtingscyclusconsistentie leert uit vele real-world video's zonder enige grondwaarheid. Tijdens de inferentie wordt ons temporele belichtingsmodule gecombineerd met de diffusiemodellen via spatio-temporele feature blending algoritmen zonder extra training; en passen we een nieuwe geleide verfijning toe als post-processing om de hoogfrequente details van de invoerafbeelding te behouden. In de experimenten toont Comprehensive Relighting een sterke generaliseerbaarheid en temporele belichtingscoherentie, en overtreft het bestaande op afbeeldingen gebaseerde menselijke relighting- en harmonisatiemethoden.
Medische beeld- en videosegmentatie is een cruciale taak voor precisiegeneeskunde, die aanzienlijke vooruitgang heeft geboekt in de ontwikkeling van taak- of modaliteitsspecifieke en generalistische modellen voor 2D-beelden. Er zijn echter beperkte studies uitgevoerd naar het bouwen van algemene modellen voor 3D-beelden en video's met uitgebreide gebruikersstudies. Hier presenteren we MedSAM2, een promptbaar segmentatiefundamentmodel voor 3D-beeld- en videosegmentatie. Het model is ontwikkeld door het Segment Anything Model 2 te fine-tunen op een grote medische dataset met meer dan 455.000 3D-beeld-maskerparen en 76.000 frames, waardoor het eerdere modellen overtreft op een breed scala aan organen, laesies en beeldvormingsmodaliteiten. Bovendien implementeren we een human-in-the-loop-pipeline om het creëren van grootschalige datasets te vergemakkelijken, wat resulteert in, voor zover wij weten, de meest uitgebreide gebruikersstudie tot nu toe, met de annotatie van 5.000 CT-laesies, 3.984 lever-MRI-laesies en 251.550 echocardiogramvideoframes, wat aantoont dat MedSAM2 de handmatige kosten met meer dan 85% kan verminderen. MedSAM2 is ook geïntegreerd in veelgebruikte platforms met gebruiksvriendelijke interfaces voor lokale en cloud-implementatie, waardoor het een praktisch hulpmiddel is voor het ondersteunen van efficiënte, schaalbare en hoogwaardige segmentatie in zowel onderzoeks- als gezondheidszorgomgevingen.
Het balanceren van temporele resolutie en ruimtelijk detail binnen een beperkt rekenbudget blijft een belangrijke uitdaging voor video-gebaseerde multimodale grote taalmodellen (MLLMs). Bestaande methoden comprimeren doorgaans videorepresentaties met behulp van vooraf gedefinieerde regels voordat ze in het LLM worden gevoerd, wat resulteert in onomkeerbaar informatieverlies en vaak het negeren van invoerinstructies. Om dit aan te pakken, stellen we een nieuwe slow-fast architectuur voor die deze afweging van nature omzeilt, waardoor het gebruik van meer invoerframes mogelijk wordt terwijl ruimtelijke details behouden blijven. Geïnspireerd door hoe mensen eerst een video scannen voordat ze zich op relevante delen concentreren, maakt ons slow-fast ontwerp gebruik van een dual-token strategie: 1) "snelle" visuele tokens — een compacte set gecomprimeerde videokenmerken — worden samen met tekstembeddingen in het LLM gevoerd om een snel overzicht te bieden; 2) "langzame" visuele tokens — ongecomprimeerde videokenmerken — worden door tekstembeddingen gekruist geattendeerd via speciaal ontworpen hybride decoderlagen, waardoor instructiebewuste extractie van relevante visuele details met lineaire complexiteit mogelijk wordt. We voeren een systematische verkenning uit om zowel de algehele architectuur als de belangrijkste componenten te optimaliseren. Experimenten tonen aan dat ons model aanzienlijk beter presteert dan baseline-modellen die alleen zelf-attentie gebruiken, waarbij de invoercapaciteit wordt uitgebreid van 16 naar 128 frames met slechts een toename van 3% in rekenkracht, en een gemiddelde prestatieverbetering van 16% wordt behaald over vijf benchmarks voor videobegrip. Ons 7B-model behaalt state-of-the-art prestaties onder modellen van vergelijkbare grootte. Bovendien is onze slow-fast architectuur een plug-and-play ontwerp dat kan worden geïntegreerd in andere video-MLLMs om efficiëntie en schaalbaarheid te verbeteren.
In dit onderzoek introduceren we BEATS, een nieuw raamwerk voor het evalueren van Bias, Ethiek, Eerlijkheid en Feitelijkheid in Grote Taalmodellen (LLM's). Gebaseerd op het BEATS-raamwerk, presenteren we een bias-benchmark voor LLM's die de prestaties meet aan de hand van 29 verschillende metrieken. Deze metrieken bestrijken een breed scala aan kenmerken, waaronder demografische, cognitieve en sociale vooroordelen, evenals maatstaven voor ethisch redeneren, groepsrechtvaardigheid en het risico op feitelijke desinformatie. Deze metrieken maken een kwantitatieve beoordeling mogelijk van de mate waarin door LLM's gegenereerde reacties maatschappelijke vooroordelen kunnen bestendigen die systemische ongelijkheden versterken of vergroten. Om een hoge score op deze benchmark te behalen, moet een LLM zeer rechtvaardig gedrag tonen in zijn reacties, wat het een strenge standaard maakt voor verantwoorde AI-evaluatie. Empirische resultaten op basis van gegevens uit ons experiment laten zien dat 37,65% van de uitvoer van toonaangevende modellen uit de industrie een vorm van bias bevatte, wat een aanzienlijk risico benadrukt bij het gebruik van deze modellen in kritieke besluitvormingssystemen. Het BEATS-raamwerk en de benchmark bieden een schaalbare en statistisch rigoureuze methodologie om LLM's te benchmarken, factoren die bias veroorzaken te diagnosticeren en strategieën voor mitigatie te ontwikkelen. Met het BEATS-raamwerk is ons doel om de ontwikkeling van meer sociaal verantwoorde en ethisch afgestemde AI-modellen te ondersteunen.
Wanneer geluidsgolven een object raken, veroorzaken ze trillingen die hoogfrequente en subtiele visuele veranderingen produceren, die kunnen worden gebruikt om het geluid te reconstrueren. Vroege studies kampen altijd met afwegingen gerelateerd aan de bemonsteringsfrequentie, bandbreedte, gezichtsveld en de eenvoud van het optische pad. Recente vooruitgang in de hardware van eventcamera's toont veelbelovend potentieel voor toepassing in visuele geluidsreconstructie, vanwege hun superieure vermogen om hoogfrequente signalen vast te leggen. Bestaande methoden voor trillingsreconstructie op basis van events zijn echter nog steeds suboptimaal voor geluidsreconstructie. In dit werk stellen we een nieuwe pijplijn voor voor contactloze geluidsreconstructie, waarbij ruimtelijk-temporele informatie uit de eventstroom volledig wordt benut. We genereren eerst een grote trainingsset met behulp van een nieuwe simulatiepijplijn. Vervolgens ontwerpen we een netwerk dat gebruikmaakt van de spaarzaamheid van events om ruimtelijke informatie vast te leggen en Mamba gebruikt om langetermijntemporele informatie te modelleren. Ten slotte trainen we een ruimtelijk aggregatieblok om informatie van verschillende locaties te aggregeren en zo de signaalkwaliteit verder te verbeteren. Om eventsignalen veroorzaakt door geluidsgolven vast te leggen, hebben we ook een beeldvormingssysteem ontworpen met behulp van een lasermatrix om het gradiënt te versterken en hebben we meerdere datasequenties verzameld voor testen. Experimentele resultaten op synthetische en real-world data demonstreren de effectiviteit van onze methode.
Recente vooruitgang in gedragsklonen heeft robots in staat gesteld om complexe manipulatietaken uit te voeren. Het nauwkeurig beoordelen van de trainingsprestaties blijft echter een uitdaging, vooral voor toepassingen in de echte wereld, aangezien verliezen bij gedragsklonen vaak slecht correleren met het daadwerkelijke taken succes. Als gevolg daarvan nemen onderzoekers hun toevlucht tot succespercentages die zijn afgeleid van kostbare en tijdrovende evaluaties in de echte wereld, wat het identificeren van optimale beleidsregels en het detecteren van overfitting of underfitting onpraktisch maakt. Om deze problemen aan te pakken, stellen we real-is-sim voor, een nieuw gedragsklonen-framework dat een dynamische digitale tweeling (gebaseerd op Embodied Gaussians) integreert in de gehele beleidsontwikkelingspijplijn: gegevensverzameling, training en implementatie. Door de gesimuleerde wereld continu af te stemmen op de fysieke wereld, kunnen demonstraties in de echte wereld worden verzameld met staten die uit de simulator worden geëxtraheerd. De simulator maakt flexibele staatrepresentaties mogelijk door beeldinvoer vanuit elk gezichtspunt te renderen of door laagniveau staatinformatie van objecten in de scène te extraheren. Tijdens de training kunnen beleidsregels direct in de simulator worden geëvalueerd op een offline en zeer paralleliseerbare manier. Ten slotte, tijdens de implementatie, worden beleidsregels uitgevoerd binnen de simulator waar de echte robot direct de gewrichten van de gesimuleerde robot volgt, waardoor de uitvoering van het beleid effectief wordt ontkoppeld van echte hardware en traditionele domeinoverdrachtuitdagingen worden verminderd. We valideren real-is-sim op de PushT-manipulatietaak, waarbij een sterke correlatie wordt aangetoond tussen succespercentages die in de simulator en in echte wereld evaluaties worden behaald. Video's van ons systeem zijn te vinden op https://realissim.rai-inst.com.
De nauwkeurige afbakening van landbouwpercelen uit satellietbeelden is cruciaal voor landbeheer en gewasmonitoring. Huidige methoden kampen echter met uitdagingen door beperkte datasetgroottes, resolutieverschillen en diverse omgevingsomstandigheden. Wij pakken dit aan door de taak te herformuleren als instance segmentation en introduceren de Field Boundary Instance Segmentation - 22M dataset (FBIS-22M), een grootschalige, multi-resolutie dataset bestaande uit 672.909 hoogwaardige satellietbeeldfragmenten (variërend van 0,25 m tot 10 m) en 22.926.427 instance masks van individuele percelen, waardoor de kloof tussen landbouwdatasets en die in andere computer vision domeinen aanzienlijk wordt verkleind. Verder stellen wij Delineate Anything voor, een instance segmentation model getraind op onze nieuwe FBIS-22M dataset. Ons voorgestelde model vestigt een nieuwe state-of-the-art, met een aanzienlijke verbetering van 88,5% in mAP@0.5 en 103% in mAP@0.5:0.95 ten opzichte van bestaande methoden, terwijl het ook aanzienlijk snellere inferentie en sterke zero-shot generalisatie over diverse beeldresoluties en onbekende geografische regio's demonstreert. Code, vooraf getrainde modellen en de FBIS-22M dataset zijn beschikbaar op https://lavreniuk.github.io/Delineate-Anything.
Het finetunen van een vooraf getrainde Text-to-Image (T2I) model op een aangepaste portretdataset is de gangbare methode voor tekstgestuurde aanpassing van portretattributen. Door Semantische Verontreiniging tijdens het finetunen, hebben bestaande methoden moeite om het oorspronkelijke gedrag van het model te behouden en incrementeel leren te bereiken terwijl doelattributen worden aangepast. Om dit probleem aan te pakken, stellen we SPF-Portrait voor, een baanbrekende methode om puur aangepaste semantiek te begrijpen terwijl semantische verontreiniging wordt geëlimineerd in tekstgestuurde portretcustomisatie. In onze SPF-Portrait introduceren we een dual-path pipeline die het oorspronkelijke model als referentie gebruikt voor het conventionele finetuningpad. Door contrastief leren zorgen we voor aanpassing aan doelattributen en richten we opzettelijk andere niet-gerelateerde attributen af op het oorspronkelijke portret. We introduceren een nieuwe Semantisch-Bewuste Fijne Controlekaart, die de precieze responsgebieden van de doelsemantiek weergeeft, om het afstemmingsproces tussen de contrastieve paden ruimtelijk te begeleiden. Dit afstemmingsproces behoudt niet alleen effectief de prestaties van het oorspronkelijke model, maar voorkomt ook overmatige afstemming. Bovendien stellen we een nieuw responsversterkingsmechanisme voor om de prestaties van doelattributen te versterken, terwijl de inherente representatie-discrepantie in directe cross-modale supervisie wordt gemitigeerd. Uitgebreide experimenten tonen aan dat SPF-Portrait state-of-the-art prestaties bereikt. Projectwebpagina: https://spf-portrait.github.io/SPF-Portrait/