Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Visuele voorkeursafstemming houdt in dat Grote Visie-Taalmodellen (GVLM's) worden getraind om menselijke voorkeuren tussen visuele invoer te voorspellen. Dit wordt typisch bereikt door gebruik te maken van gelabelde datasets van gekozen/afgewezen paren en het toepassen van optimalisatiealgoritmen zoals directe voorkeursoptimalisatie (DPO). Bestaande visuele afstemmingsmethoden, primair ontworpen voor scenario's met één afbeelding, hebben moeite om effectief om te gaan met de complexiteit van taken met meerdere afbeeldingen vanwege de schaarste aan diverse trainingsgegevens en de hoge kosten van het annoteren van gekozen/afgewezen paren. Wij presenteren Multi-Afbeelding Augmented Directe Voorkeursoptimalisatie (MIA-DPO), een benadering voor visuele voorkeursafstemming die effectief omgaat met invoer van meerdere afbeeldingen. MIA-DPO vermindert de schaarste aan diverse trainingsgegevens voor meerdere afbeeldingen door enkele afbeeldingsgegevens uit te breiden met niet-gerelateerde afbeeldingen gerangschikt in rastercollages of beeld-in-beeldformaten, waardoor de kosten van annotaties van meerdere afbeeldingen aanzienlijk worden verlaagd. Onze observatie onthult dat de aandachtswaarden van GVLM's aanzienlijk variëren over verschillende afbeeldingen. We gebruiken aandachtswaarden om afgewezen reacties te identificeren en filteren waar het model mogelijk ten onrechte op heeft gefocust. Onze aandachtbewuste selectie voor het construeren van de gekozen/afgewezen paren gebeurt zonder te vertrouwen op (i) menselijke annotatie, (ii) extra gegevens, en (iii) externe modellen of API's. MIA-DPO is compatibel met verschillende architecturen en presteert beter dan bestaande methoden op vijf benchmarks voor meerdere afbeeldingen, met een gemiddelde prestatieverbetering van 3,0% op LLaVA-v1.5 en 4,3% op de recente InternLM-XC2.5. Bovendien heeft MIA-DPO een minimaal effect op het vermogen van het model om enkele afbeeldingen te begrijpen.
Multimodale Grote Taalmodellen (MLLM's) hebben veelbelovende vooruitgang getoond in het begrijpen en analyseren van videomateriaal. Het verwerken van lange video's blijft echter een aanzienlijke uitdaging die wordt beperkt door de contextgrootte van LLM's. Om deze beperking aan te pakken, stellen wij LongVU voor, een spatiotemporaal adaptief compressiemechanisme dat het aantal videotokens vermindert terwijl het visuele details van lange video's behoudt. Ons idee is gebaseerd op het benutten van crossmodale query's en inter-frame afhankelijkheden om adaptief de temporale en spatiale redundantie in video's te verminderen. Specifiek maken we gebruik van DINOv2-kenmerken om overbodige frames met hoge gelijkenis te verwijderen. Vervolgens gebruiken we door tekst geleide crossmodale query voor selectieve vermindering van framekenmerken. Verder voeren we ruimtelijke tokenvermindering uit over frames op basis van hun temporale afhankelijkheden. Onze adaptieve compressiestrategie verwerkt effectief een groot aantal frames met weinig visueel informatieverlies binnen de gegeven contextlengte. Onze LongVU overtreft consequent bestaande methoden over verschillende videobegripsbenchmarks, vooral bij taken voor het begrijpen van uur lange video's zoals VideoMME en MLVU. Met een lichtgewicht LLM schaalt onze LongVU ook effectief naar een kleinere omvang met een videobegrip prestatie die state-of-the-art is.
Recente ontwikkelingen in voorspellende modellen hebben uitzonderlijke capaciteiten aangetoond in het voorspellen van de toekomstige staat van objecten en scènes. Echter, het gebrek aan categorisatie op basis van inherente kenmerken blijft de vooruitgang van de ontwikkeling van voorspellende modellen belemmeren. Bovendien zijn bestaande benchmarks niet in staat om hogere-capaciteit, sterk geïncarneerde voorspellende modellen effectief te evalueren vanuit een geïncarneerd perspectief. In dit werk classificeren we de functionaliteiten van voorspellende modellen in een hiërarchie en zetten we de eerste stap in de evaluatie van Wereldsimulatoren door een dubbel evaluatiekader voor te stellen genaamd WorldSimBench. WorldSimBench omvat Expliciete Perceptuele Evaluatie en Impliciete Manipulatieve Evaluatie, waarbij menselijke voorkeursbeoordelingen vanuit het visuele perspectief en actieniveau-evaluaties in geïncarneerde taken worden betrokken, met drie representatieve geïncarneerde scenario's: Open-Ended Geïncarneerde Omgeving, Autonoom Rijden en Robotmanipulatie. In de Expliciete Perceptuele Evaluatie introduceren we de HF-Geïncarneerde Dataset, een videobeoordelingsdataset gebaseerd op gedetailleerde menselijke feedback, die we gebruiken om een Menselijke Voorkeursbeoordelaar te trainen die in lijn is met menselijke perceptie en expliciet de visuele geloofwaardigheid van Wereldsimulatoren beoordeelt. In de Impliciete Manipulatieve Evaluatie beoordelen we de video-actie consistentie van Wereldsimulatoren door te evalueren of de gegenereerde situatiebewuste video nauwkeurig kan worden vertaald naar de juiste besturingssignalen in dynamische omgevingen. Onze uitgebreide evaluatie biedt belangrijke inzichten die verdere innovatie in videogeneratiemodellen kunnen stimuleren, waarbij Wereldsimulatoren worden gepositioneerd als een cruciale vooruitgang naar geïncarneerde kunstmatige intelligentie.
Diffusie Taalmodellen (DLM's) zijn naar voren gekomen als een veelbelovend nieuw paradigma voor tekstgeneratiemodellering, dat mogelijk beperkingen van autoregressieve (AR) modellen kan aanpakken. Echter, huidige DLM's zijn op een kleinere schaal bestudeerd in vergelijking met hun AR-tegenhangers en missen een eerlijke vergelijking op taalmodelleringsbenchmarks. Bovendien blijft het uitdagend om diffusiemodellen vanaf nul op grote schaal te trainen. Gezien de prevalentie van open-source AR-taalmodellen, stellen we voor om deze modellen aan te passen om tekst diffusiemodellen te bouwen. We tonen verbanden tussen AR- en diffusiemodelleringsdoelstellingen en introduceren een eenvoudige voortdurende pre-trainingbenadering voor het trainen van diffusiemodellen. Door systematische evaluatie op taalmodellerings-, redeneer- en gezond verstand-benchmarks laten we zien dat we AR-modellen variërend van 127M tot 7B parameters (GPT2 en LLaMA) kunnen omzetten in diffusiemodellen DiffuGPT en DiffuLLaMA, met minder dan 200B tokens voor training. Onze experimentele resultaten tonen aan dat deze modellen beter presteren dan eerdere DLM's en concurrerend zijn met hun AR-tegenhangers. We brengen een reeks DLM's uit (met 127M, 355M en 7B parameters) die in staat zijn om vloeiende tekst te genereren, in-context leren uit te voeren, het midden in te vullen zonder prompt-herordening, en instructies op te volgen.
Direct Preference Optimization (DPO) is opgekomen als een krachtige benadering om tekst-naar-afbeelding (T2I) modellen af te stemmen op menselijke feedback. Helaas vereist een succesvolle toepassing van DPO op T2I modellen een enorme hoeveelheid middelen om grote datasets te verzamelen en labelen, bijvoorbeeld miljoenen gegenereerde gekoppelde afbeeldingen geannoteerd met menselijke voorkeuren. Bovendien kunnen deze menselijke voorkeursdatasets snel verouderd raken doordat de snelle verbeteringen van T2I modellen leiden tot hogere kwaliteitsafbeeldingen. In dit werk onderzoeken we een schaalbare aanpak voor het verzamelen van grootschalige en volledig synthetische datasets voor DPO training. Specifiek worden de voorkeuren voor gekoppelde afbeeldingen gegenereerd met behulp van een vooraf getrainde beloningsfunctie, waardoor de noodzaak om mensen bij het annotatieproces te betrekken wordt geëlimineerd en de efficiëntie van datasetverzameling aanzienlijk wordt verbeterd. Bovendien tonen we aan dat dergelijke datasets het mogelijk maken om voorspellingen te middelen over meerdere modellen en gerangschikte voorkeuren te verzamelen in plaats van paarsgewijze voorkeuren. Verder introduceren we RankDPO om DPO-gebaseerde methoden te verbeteren met behulp van de rangschikkingsfeedback. Door RankDPO toe te passen op SDXL en SD3-Medium modellen met onze synthetisch gegenereerde voorkeursdataset "Syn-Pic", verbetert zowel het prompt-volgen (op benchmarks zoals T2I-Compbench, GenEval en DPG-Bench) als de visuele kwaliteit (via gebruikersstudies). Dit proces biedt een praktische en schaalbare oplossing om betere voorkeursdatasets te ontwikkelen ter verbetering van de prestaties van tekst-naar-afbeelding modellen.
De ontwikkeling van LiDAR-scene-generatie heeft recentelijk een snelle groei doorgemaakt. Echter, bestaande methoden richten zich voornamelijk op het genereren van statische en enkelvoudige scènes, waarbij de intrinsiek dynamische aard van echte rijomgevingen over het hoofd wordt gezien. In dit werk introduceren we DynamicCity, een nieuw 4D LiDAR-generatiekader dat in staat is om grootschalige, hoogwaardige LiDAR-scènes te genereren die de temporele evolutie van dynamische omgevingen vastleggen. DynamicCity bestaat voornamelijk uit twee belangrijke modellen. 1) Een VAE-model voor het leren van HexPlane als de compacte 4D representatie. In plaats van naïeve gemiddelde bewerkingen te gebruiken, maakt DynamicCity gebruik van een nieuw Projection Module om 4D LiDAR-kenmerken effectief samen te drukken tot zes 2D kenmerkkaarten voor HexPlane-constructie, wat de HexPlane-pasvormkwaliteit aanzienlijk verbetert (tot 12.56 mIoU winst). Bovendien maken we gebruik van een Expansion & Squeeze Strategie om 3D kenmerkvolumes parallel te reconstrueren, wat zowel de efficiëntie van netwerktraining als de reconstructieprecisie verbetert in vergelijking met het naïef bevragen van elk 3D-punt (tot 7.05 mIoU winst, 2.06x versnelling van de trainingssnelheid en 70.84% geheugenvermindering). 2) Een DiT-gebaseerd diffusiemodel voor HexPlane-generatie. Om HexPlane haalbaar te maken voor DiT-generatie, wordt een Padded Rollout Operation voorgesteld om alle zes kenmerkvlakken van de HexPlane te herorganiseren als een vierkante 2D kenmerkkaart. In het bijzonder kunnen verschillende omstandigheden worden geïntroduceerd in het diffusie- of bemonsteringsproces, ter ondersteuning van veelzijdige 4D generatietoepassingen, zoals traject- en opdrachtgestuurde generatie, inpainting en lay-out-geconditioneerde generatie. Uitgebreide experimenten op de CarlaSC- en Waymo-datasets tonen aan dat DynamicCity aanzienlijk beter presteert dan bestaande state-of-the-art 4D LiDAR-generatiemethoden over meerdere metrieken. De code zal worden vrijgegeven om toekomstig onderzoek te vergemakkelijken.
Beloningsmodellen (RMs) hebben vandaag de dag de state-of-the-art prestaties van LLMs aangedreven door de integratie van menselijke feedback in het taalmodelleringsproces mogelijk te maken. Echter, RMs worden voornamelijk getraind en geëvalueerd in het Engels, en hun mogelijkheden in meertalige omgevingen blijven grotendeels onderbelicht. In dit werk voeren we een systematische evaluatie uit van verschillende beloningsmodellen in meertalige omgevingen. We construeren eerst de eerste multilinguale RM-evaluatiebenchmark, M-RewardBench genaamd, bestaande uit 2,87k voorkeursinstanties voor 23 typologisch diverse talen, die de chat-, veiligheids-, redeneer- en vertaalcapaciteiten van RMs test. Vervolgens evalueren we grondig een breed scala aan beloningsmodellen op M-RewardBench, waarbij we nieuwe inzichten bieden in hun prestaties over diverse talen heen. We identificeren een significant verschil in de prestaties van RMs tussen het Engels en niet-Engelse talen, en tonen aan dat de voorkeuren van RMs aanzienlijk kunnen veranderen van de ene taal naar de andere. We presenteren ook verschillende bevindingen over hoe verschillende meertalige aspecten de prestaties van RMs beïnvloeden. Specifiek tonen we aan dat de prestaties van RMs verbeteren met een betere vertaalkwaliteit. Op dezelfde manier tonen we aan dat de modellen betere prestaties vertonen voor talen met veel bronnen. We stellen het M-RewardBench-dataset en de codebase in dit onderzoek beschikbaar om een beter begrip van de RM-evaluatie in meertalige omgevingen te vergemakkelijken.
Dit artikel introduceert een nieuwe architectuur voor mobiele telefoonbesturing, genaamd "app-agents", voor efficiënte interacties en besturing over verschillende Android-apps. Het voorgestelde Lightweight Multi-modal App Control (LiMAC) neemt als input een tekstueel doel en een reeks eerdere mobiele waarnemingen, zoals schermafbeeldingen en overeenkomstige UI-bomen, om nauwkeurige acties te genereren. Om de rekenbeperkingen die inherent zijn aan smartphones aan te pakken, introduceren we binnen LiMAC een kleine Action Transformer (AcT) geïntegreerd met een fijn afgestemd visie-taalmodel (VLM) voor realtime besluitvorming en taakuitvoering. We evalueren LiMAC op twee open-source datasets voor mobiele besturing, waarbij we de superieure prestaties van onze benadering met klein formaat aantonen ten opzichte van fijn afgestemde versies van open-source VLM's, zoals Florence2 en Qwen2-VL. Het presteert ook aanzienlijk beter dan prompt-engineering baselines die gebruikmaken van gesloten-source foundation-modellen zoals GPT-4o. Meer specifiek verhoogt LiMAC de algehele actie-accuraatheid met maximaal 19% in vergelijking met fijn afgestemde VLM's, en tot 42% in vergelijking met prompt-engineering baselines.
De integratie van technieken van grote taalmodellen (GTM) in het veld van medische analyse heeft aanzienlijke vooruitgang gebracht, maar de schaarste aan grote, diverse en goed geannoteerde datasets blijft een belangrijke uitdaging. Medische gegevens en taken, die variëren in formaat, omvang en andere parameters, vereisen uitgebreide voorverwerking en standaardisatie voor effectief gebruik bij het trainen van GTM's. Om deze uitdagingen aan te pakken, introduceren we MedINST, de Meta Dataset van Biomedische Instructies, een nieuw multi-domein, multi-taak instructie meta-dataset. MedINST omvat 133 biomedische NLP-taken en meer dan 7 miljoen trainingsvoorbeelden, waardoor het de meest uitgebreide biomedische instructiedataset tot nu toe is. Met behulp van MedINST als de meta dataset, stellen we MedINST32 samen, een uitdagende benchmark met verschillende taakmoeilijkheden die tot doel heeft de generalisatiecapaciteit van GTM's te evalueren. We fine-tunen verschillende GTM's op MedINST en evalueren deze op MedINST32, waarbij we verbeterde generalisatie over verschillende taken aantonen.
Onlangs hebben multimodale grote taalmodellen (MLLM's) veel aandacht gekregen vanwege hun indrukwekkende mogelijkheden. De evaluatie van MLLM's wordt steeds kritischer om de kenmerken van MLLM's te analyseren en waardevolle inzichten te bieden. Huidige benchmarks verwaarlozen echter het probleem van promptgevoeligheid - kleine variaties in prompts kunnen leiden tot aanzienlijke prestatiefluctuaties. Ongepaste prompts kunnen daardoor de mogelijkheden van de modellen vertroebelen en de prestaties van de modellen onderschatten. Bovendien hebben verschillende modellen verschillende voorkeuren voor verschillende prompts, waardoor het gebruik van dezelfde prompt voor alle modellen evaluatiebias veroorzaakt. Dit artikel analyseert deze tekortkoming in bestaande benchmarks en introduceert verder een nieuw evaluatiekader genaamd TP-Eval, dat een methode voor promptaanpassing introduceert om evaluatiebias te verminderen en het potentieel van modellen te benutten. TP-Eval zal de oorspronkelijke prompts herschrijven naar verschillende aangepaste prompts voor verschillende modellen. In het bijzonder stellen we enkele goed ontworpen modules voor promptaanpassing voor die zijn afgestemd op het scenario van MLLM-evaluatie. Uitgebreide experimenten tonen de effectiviteit van onze aanpak aan om de mogelijkheden van modellen bloot te leggen, en TP-Eval zou de gemeenschap ten goede moeten komen bij het ontwikkelen van meer uitgebreide en overtuigende MLLM-evaluatiebenchmarks.
De prestaties van neurale netwerken schalen met zowel hun omvang als de hoeveelheid data waarop ze zijn getraind. Dit wordt aangetoond bij zowel taal- als beeldgeneratie. Dit vereist echter netwerkarchitecturen die geschikt zijn voor schaalvergroting, evenals grootschalige datasets. Hoewel schaalvriendelijke architecturen zoals transformers zijn opgedoken voor 3D-zichttaken, blijft het GPT-moment van 3D-zicht ver weg door het gebrek aan trainingsdata. In dit artikel introduceren we ARKit LabelMaker, de eerste grootschalige, real-world 3D-dataset met dichte semantische annotaties. Specifiek vullen we het ARKitScenes-dataset aan met dichte semantische annotaties die op schaal automatisch worden gegenereerd. Hiervoor breiden we LabelMaker uit, een recente automatische annotatie-pijplijn, om te voldoen aan de behoeften van grootschalige voorafgaande training. Dit omvat het uitbreiden van de pijplijn met geavanceerde segmentatiemodellen en het robuust maken ervan tegen de uitdagingen van grootschalige verwerking. Verder verbeteren we de state-of-the-art prestaties op de ScanNet en ScanNet200 dataset met gangbare 3D semantische segmentatiemodellen, waarbij we de doeltreffendheid van onze gegenereerde dataset aantonen.
Wij stellen het Large View Synthesis Model (LVSM) voor, een nieuw transformer-gebaseerde benadering voor schaalbare en generaliseerbare synthese van nieuwe weergaven vanuit spaarzaam bekeken invoer. We introduceren twee architecturen: (1) een encoder-decoder LVSM, die invoerbeeldtokens codeert naar een vast aantal 1D latente tokens, functionerend als een volledig aangeleerde scène representatie, en nieuwe-weergavebeelden decodeert vanuit deze tokens; en (2) een decoder-only LVSM, die invoerbeelden direct afbeeldt naar nieuwe-weergave-uitvoer, waarbij volledig de tussenliggende scène representaties worden geëlimineerd. Beide modellen omzeilen de 3D inductieve vooroordelen die gebruikt worden in eerdere methoden -- van 3D representaties (bijv. NeRF, 3DGS) tot netwerkontwerpen (bijv. epipolaire projecties, vlakke sweeps) -- door nieuwe weergave synthese aan te pakken met een volledig op data gebaseerde benadering. Terwijl het encoder-decoder model snellere inferentie biedt vanwege zijn onafhankelijke latente representatie, behaalt de decoder-only LVSM superieure kwaliteit, schaalbaarheid en zero-shot generalisatie, waarbij eerdere state-of-the-art methoden met 1.5 tot 3.5 dB PSNR worden overtroffen. Uitgebreide evaluaties over meerdere datasets tonen aan dat beide LVSM varianten state-of-the-art kwaliteit voor nieuwe weergave synthese behalen. Opmerkelijk is dat onze modellen alle eerdere methoden overtreffen zelfs met verminderde rekenbronnen (1-2 GPU's). Zie onze website voor meer details: https://haian-jin.github.io/projects/LVSM/ .
Grote, algemene robotbeleidslijnen die zijn getraind op diverse demonstratiedatasets, hebben zich als opmerkelijk effectief getoond voor het aansturen van verschillende robots in verschillende scènes en voor het verwerven van brede repertoire van manipulatievaardigheden. Echter, de gegevens waarop dergelijke beleidslijnen worden getraind, zijn over het algemeen van gemengde kwaliteit - niet alleen zijn door mensen verzamelde demonstraties onwaarschijnlijk perfect in het uitvoeren van de taak, maar hoe groter de dataset is, hoe moeilijker het is om alleen de hoogste kwaliteit voorbeelden te selecteren. Het blijft ook onduidelijk hoe optimaal gegevens van de ene vorm zijn voor training op een andere vorm. In dit artikel presenteren we een algemene en breed toepasbare aanpak die de prestaties van dergelijke generalistische robotbeleidslijnen bij implementatie verbetert door hun acties opnieuw te rangschikken volgens een waardefunctie die is geleerd via offline RL. Deze aanpak, die we Value-Guided Policy Steering (V-GPS) noemen, is compatibel met een breed scala aan verschillende generalistische beleidslijnen, zonder dat finetuning of zelfs toegang tot de gewichten van het beleid nodig is. We tonen aan dat dezelfde waardefunctie de prestaties van vijf verschillende toonaangevende beleidslijnen met verschillende architecturen kan verbeteren, ook al zijn ze getraind op afzonderlijke datasets, waarbij consistente prestatieverbetering wordt bereikt op meerdere robotplatforms over in totaal 12 taken. Code en video's zijn te vinden op: https://nakamotoo.github.io/V-GPS