Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Canonieke oppervlakte-afbeelding generaliseert keypoint-detectie door elk pixel van een object toe te wijzen aan een corresponderend punt in een 3D-sjabloon. Populair gemaakt door DensePose voor de analyse van mensen, hebben auteurs sindsdien geprobeerd het concept toe te passen op meer categorieën, maar met beperkt succes vanwege de hoge kosten van handmatige supervisie. In dit werk introduceren we SHIC, een methode om canonieke afbeeldingen te leren zonder handmatige supervisie, die betere resultaten behaalt dan gesuperviseerde methoden voor de meeste categorieën. Ons idee is om gebruik te maken van fundamentele computervisie-modellen zoals DINO en Stable Diffusion, die open-ended zijn en dus uitstekende priors hebben over natuurlijke categorieën. SHIC reduceert het probleem van het schatten van beeld-naar-sjabloon-correspondenties tot het voorspellen van beeld-naar-beeld-correspondenties met behulp van kenmerken uit de fundamentele modellen. De reductie werkt door afbeeldingen van het object te matchen met niet-fotorealistische weergaven van het sjabloon, wat het proces van het verzamelen van handmatige annotaties voor deze taak nabootst. Deze correspondenties worden vervolgens gebruikt om hoogwaardige canonieke afbeeldingen te superviseren voor elk object van belang. We laten ook zien dat beeldgeneratoren de realiteit van de sjabloonweergaven verder kunnen verbeteren, wat een aanvullende bron van supervisie voor het model biedt.
Autonome agents die alledaagse digitale taken uitvoeren (bijvoorbeeld het bestellen van boodschappen voor een huishouden), moeten niet alleen meerdere apps (zoals notities, berichten en een winkelapp) bedienen via API's, maar ook uitgebreide code genereren met complexe controleflow op een iteratieve manier, gebaseerd op hun interactie met de omgeving. Bestaande benchmarks voor toolgebruik zijn echter ontoereikend, omdat ze alleen taken omvatten die een eenvoudige reeks API-aanroepen vereisen. Om dit gat te dichten, hebben we de AppWorld Engine gebouwd, een hoogwaardige uitvoeringsomgeving (60K regels code) met 9 alledaagse apps die bedienbaar zijn via 457 API's en gevuld met realistische digitale activiteiten die het leven simuleren van ~100 fictieve gebruikers. Vervolgens hebben we de AppWorld Benchmark (40K regels code) gecreëerd, een suite van 750 natuurlijke, diverse en uitdagende taken voor autonome agents die rijke en interactieve codegeneratie vereisen. Het ondersteunt robuuste programmatische evaluatie met state-based unit tests, waardoor verschillende manieren om een taak te voltooien mogelijk zijn, terwijl ook wordt gecontroleerd op onverwachte wijzigingen, zogenaamde collateral damage. De state-of-the-art LLM, GPT-4o, lost slechts ~49% van onze 'normale' taken en ~30% van de 'uitdagende' taken op, terwijl andere modellen minstens 16% minder oplossen. Dit benadrukt de moeilijkheidsgraad van de benchmark en het potentieel van AppWorld om de grenzen van interactieve coderende agents te verleggen. De projectwebsite is beschikbaar op https://appworld.dev/.
We stellen Wolf voor, een WOrLd-samenvattingsframework voor nauwkeurige videobijschriften. Wolf is een geautomatiseerd bijschrijfframework dat een mixture-of-experts-benadering hanteert, waarbij het complementaire sterke punten van Vision Language Models (VLMs) benut. Door zowel beeld- als videomodellen te gebruiken, vangt ons framework verschillende niveaus van informatie en vat deze efficiënt samen. Onze aanpak kan worden toegepast om videobegrip, automatische labeling en bijschrijving te verbeteren. Om de kwaliteit van bijschriften te evalueren, introduceren we CapScore, een op LLM gebaseerde metriek om de gelijkenis en kwaliteit van gegenereerde bijschriften te beoordelen in vergelijking met de grondwaarheid-bijschriften. We bouwen verder vier door mensen geannoteerde datasets op in drie domeinen: autonoom rijden, algemene scènes en robotica, om uitgebreide vergelijkingen mogelijk te maken. We tonen aan dat Wolf superieure bijschrijfprestaties bereikt in vergelijking met state-of-the-art benaderingen uit de onderzoeksgemeenschap (VILA1.5, CogAgent) en commerciële oplossingen (Gemini-Pro-1.5, GPT-4V). In vergelijking met GPT-4V verbetert Wolf bijvoorbeeld CapScore kwalitatief met 55,6% en qua gelijkenis met 77,4% op uitdagende rijdende video's. Tot slot stellen we een benchmark voor videobijschrijving op en introduceren we een leaderboard, met als doel de vooruitgang in videobegrip, bijschrijving en data-alignering te versnellen. Leaderboard: https://wolfv0.github.io/leaderboard.html.
We presenteren systematische inspanningen in het ontwikkelen van een lang-context meertalig tekstrepresentatiemodel (TRM) en een reranker vanaf de grond voor tekstretrieval. We introduceren eerst een tekstencoder (basisgrootte) versterkt met RoPE en unpadding, voorgetraind in een native context van 8192 tokens (langer dan de 512 van vorige meertalige encoders). Vervolgens construeren we een hybride TRM en een cross-encoder reranker door middel van contrastief leren. Evaluaties tonen aan dat onze tekstencoder dezelfde grootte heeft als de vorige state-of-the-art XLM-R, maar deze overtreft. Tegelijkertijd evenaren onze TRM en reranker de prestaties van de grootschalige state-of-the-art BGE-M3-modellen en behalen ze betere resultaten op lang-context retrieval benchmarks. Verdere analyse toont aan dat onze voorgestelde modellen een hogere efficiëntie vertonen tijdens zowel training als inferentie. Wij geloven dat hun efficiëntie en effectiviteit diverse onderzoeken en industriële toepassingen ten goede kunnen komen.
Het manipuleren van penachtige objecten in de hand is een belangrijke vaardigheid in ons dagelijks leven, aangezien veel gereedschappen zoals hamers en schroevendraaiers een vergelijkbare vorm hebben. Huidige op leren gebaseerde methoden hebben echter moeite met deze taak vanwege een gebrek aan hoogwaardige demonstraties en de aanzienlijke kloof tussen simulatie en de echte wereld. In dit werk verleggen we de grenzen van op leren gebaseerde systemen voor manipulatie in de hand door de mogelijkheid te demonstreren om penachtige objecten te laten draaien. We gebruiken eerst reinforcement learning om een orakelbeleid te trainen met geprivilegieerde informatie en genereren een dataset met hoogwaardige trajecten in simulatie. Dit dient twee doelen: 1) het vooraf trainen van een sensorimotorisch beleid in simulatie; 2) het uitvoeren van open-loop trajectreplay in de echte wereld. Vervolgens verfijnen we het sensorimotorische beleid met behulp van deze trajecten uit de echte wereld om het aan te passen aan de dynamiek van de echte wereld. Met minder dan 50 trajecten leert ons beleid om meer dan tien penachtige objecten met verschillende fysieke eigenschappen meerdere omwentelingen te laten maken. We presenteren een uitgebreide analyse van onze ontwerpkeuzes en delen de lessen die we hebben geleerd tijdens de ontwikkeling.
Recente vooruitgang in 3D-objectreconstructie vanuit enkele afbeeldingen heeft zich voornamelijk gericht op het verbeteren van de nauwkeurigheid van objectvormen. Toch slagen deze technieken er vaak niet in om de onderlinge relatie tussen het object, de grond en de camera nauwkeurig vast te leggen. Hierdoor lijken de gereconstrueerde objecten vaak te zweven of scheef te staan wanneer ze op vlakke oppervlakken worden geplaatst. Deze beperking heeft een aanzienlijke impact op 3D-bewuste beeldbewerkingsapplicaties zoals schaduwweergave en objectpose-manipulatie. Om dit probleem aan te pakken, introduceren we ORG (Object Reconstruction with Ground), een nieuwe taak die gericht is op het reconstrueren van 3D-objectgeometrie in combinatie met het grondoppervlak. Onze methode gebruikt twee compacte pixelgebaseerde representaties om de relatie tussen camera, object en grond weer te geven. Experimenten tonen aan dat het voorgestelde ORG-model effectief object-grondgeometrie kan reconstrueren op onbekende data, wat de kwaliteit van schaduwgeneratie en pose-manipulatie aanzienlijk verbetert in vergelijking met conventionele 3D-reconstructietechnieken vanuit enkele afbeeldingen.
Vision transformers hebben het vakgebied van computer vision aanzienlijk vooruitgebracht, door robuuste modelleermogelijkheden en een globaal receptief veld te bieden. Hun hoge rekenkundige eisen beperken echter hun toepasbaarheid bij het verwerken van lange sequenties. Om dit probleem aan te pakken, hebben State Space Models (SSMs) aan populariteit gewonnen in visuele taken, omdat ze lineaire rekenkundige complexiteit bieden. Onlangs werd State Space Duality (SSD), een verbeterde variant van SSMs, geïntroduceerd in Mamba2 om de modelprestaties en efficiëntie te verbeteren. De inherent causale aard van SSD/SSMs beperkt echter hun toepassingen in niet-causale visuele taken. Om deze beperking aan te pakken, introduceren we het Visual State Space Duality (VSSD) model, dat een niet-causale vorm van SSD heeft. Specifiek stellen we voor om de grootte van de interacties tussen de verborgen toestand en tokens te verwijderen, terwijl hun relatieve gewichten behouden blijven, wat de afhankelijkheid van de bijdrage van tokens op vorige tokens vermindert. Samen met de betrokkenheid van multi-scan strategieën laten we zien dat de scanresultaten geïntegreerd kunnen worden om niet-causaliteit te bereiken, wat niet alleen de prestaties van SSD in visuele taken verbetert, maar ook de efficiëntie ervan verhoogt. We voeren uitgebreide experimenten uit op verschillende benchmarks, waaronder beeldclassificatie, detectie en segmentatie, waarbij VSSD de bestaande state-of-the-art SSM-gebaseerde modellen overtreft. Code en gewichten zijn beschikbaar op https://github.com/YuHengsss/VSSD.