AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Molmo en PixMo: Open Gewichten en Open Data voor Toonaangevende Multimodale Modellen
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

Sep 25

ByMatt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi

121

De meest geavanceerde multimodale modellen van vandaag blijven eigendom van bedrijven. De sterkste open-gewicht modellen vertrouwen zwaar op synthetische data van eigendom VLM's om goede prestaties te behalen, waarbij deze gesloten modellen effectief worden gedistilleerd tot open modellen. Als gevolg hiervan ontbreekt het de gemeenschap nog steeds aan fundamentele kennis over hoe performante VLM's vanaf nul moeten worden opgebouwd. Wij presenteren Molmo, een nieuwe familie van VLM's die state-of-the-art zijn in hun openheidscategorie. Onze belangrijkste innovatie is een nieuw, zeer gedetailleerd dataset voor het beschrijven van afbeeldingen, volledig verzameld door menselijke annotatoren met behulp van spraakgebaseerde beschrijvingen. Om een breed scala aan gebruikersinteracties mogelijk te maken, introduceren we ook een gevarieerde datasetmix voor fine-tuning die in-the-wild Q&A en innovatieve 2D-pointing data omvat. Het succes van onze aanpak berust op zorgvuldige keuzes voor de details van de modelarchitectuur, een goed afgestemd trainingsproces en, het belangrijkste, de kwaliteit van onze nieuw verzamelde datasets, die allemaal zullen worden vrijgegeven. Het toonaangevende 72B-model binnen de Molmo-familie presteert niet alleen beter dan andere modellen in de open-gewichts- en datamodellenklasse, maar vergelijkt ook gunstig met eigendomssystemen zoals GPT-4o, Claude 3.5 en Gemini 1.5 op zowel academische benchmarks als menselijke evaluaties. We zullen al onze modelgewichten, bijschrift- en fine-tuningdata en broncode binnenkort vrijgeven. Geselecteerde modelgewichten, inferentiecode en demo zijn beschikbaar op https://molmo.allenai.org.

Programmeren Elk Voorbeeld: Het Verbeteren van de Kwaliteit van Vooraf Trainingsgegevens op Schaal zoals Experts
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Sep 25

ByFan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu

Het pre-trainen van grote taalmodellen heeft traditioneel vertrouwd op menselijke experts om heuristieken te ontwikkelen voor het verbeteren van de kwaliteit van de corpora, resulterend in talloze regels die tot op heden zijn ontwikkeld. Deze regels missen echter de flexibiliteit om effectief om te gaan met de unieke kenmerken van individuele voorbeelden. Ondertussen is het toepassen van op maat gemaakte regels op elk voorbeeld onpraktisch voor menselijke experts. In dit artikel tonen we aan dat zelfs kleine taalmodellen, met slechts 0,3B parameters, aanzienlijke data-verfijningsmogelijkheden kunnen vertonen die vergelijkbaar zijn met die van menselijke experts. We introduceren Programming Every Example (ProX), een nieuw raamwerk dat data-verfijning behandelt als een programmeertaak, waardoor modellen corpora kunnen verfijnen door het genereren en uitvoeren van fijnmazige bewerkingen, zoals stringnormalisatie, voor elk individueel voorbeeld op schaal. Experimentele resultaten tonen aan dat modellen die zijn voorgetraind op door ProX samengestelde data beter presteren dan de oorspronkelijke data of data gefilterd door andere selectiemethoden met meer dan 2% over verschillende downstream-benchmarks. De effectiviteit ervan strekt zich uit over verschillende modelgroottes en pre-training corpora, waaronder C4, RedPajama-V2 en FineWeb. Bovendien vertoont ProX aanzienlijk potentieel in domeinspecifieke continue pre-training: zonder domeinspecifiek ontwerp presteren modellen die zijn getraind op OpenWebMath en verfijnd door ProX beter dan door mensen gemaakte regelgebaseerde methoden, met een verbetering van de gemiddelde nauwkeurigheid van 7,6% ten opzichte van Mistral-7B, met 14,6% voor Llama-2-7B en 20,3% voor CodeLlama-7B, allemaal binnen 10B tokens om vergelijkbaar te zijn met modellen zoals Llemma-7B die zijn getraind op 200B tokens. Verder onderzoek benadrukt dat ProX aanzienlijk training FLOPs bespaart, wat een veelbelovende weg biedt voor efficiënte LLM-pre-training. We maken ProX open-source met >100B corpora, modellen en delen alle trainings- en implementatiedetails voor reproduceerbaar onderzoek en toekomstige innovatie. Code: https://github.com/GAIR-NLP/ProX

Het verbeteren van gezondheidszorg LLM's door opgehaalde context.
Boosting Healthcare LLMs Through Retrieved Context

Sep 23

ByJordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla

Grote Taalmodellen (LLM's) hebben opmerkelijke mogelijkheden aangetoond op het gebied van natuurlijke taalverwerking, en toch beperken hun feitelijke onjuistheden en hallucinaties hun toepassing, met name in kritieke domeinen zoals de gezondheidszorg. Context ophaalmethoden, door relevante informatie als input te introduceren, zijn naar voren gekomen als een cruciale benadering om de feitelijkheid en betrouwbaarheid van LLM's te verbeteren. Deze studie verkent de grenzen van context ophaalmethoden binnen het domein van de gezondheidszorg, optimaliseert hun componenten en benchmarkt hun prestaties tegen open en gesloten alternatieven. Onze bevindingen onthullen hoe open LLM's, wanneer aangevuld met een geoptimaliseerd ophaalsysteem, prestaties kunnen behalen die vergelijkbaar zijn met de grootste private oplossingen op gevestigde gezondheidszorgbenchmarks (meerkeuzevraagbeantwoording). Door het gebrek aan realisme te erkennen van het opnemen van mogelijke antwoorden binnen de vraag (een opstelling die alleen te vinden is in medische examens), en na het beoordelen van een sterke LLM-prestatiedegradatie in afwezigheid van die opties, breiden we het context ophaalsysteem in die richting uit. In het bijzonder stellen we OpenMedPrompt voor, een pijplijn die de generatie van meer betrouwbare open antwoorden verbetert, waardoor deze technologie dichter bij praktische toepassing komt.

DreamWaltz-G: Expressieve 3D Gaussische Avatars uit Skeleton-Gestuurde 2D Diffusie
DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion

Sep 25

ByYukun Huang, Jianan Wang, Ailing Zeng, Zheng-Jun Zha, Lei Zhang, Xihui Liu

Door gebruik te maken van vooraf getrainde 2D diffusiemodellen en score distillatie sampling (SDS) hebben recente methoden veelbelovende resultaten laten zien voor het genereren van tekst-naar-3D-avatar. Het genereren van hoogwaardige 3D-avatars die in staat zijn tot expressieve animatie blijft echter een uitdaging. In dit werk presenteren we DreamWaltz-G, een nieuw leerkader voor het genereren van animeerbare 3D-avatars uit tekst. De kern van dit kader ligt in Skeleton-geleide Score Distillatie en Hybride 3D Gaussische Avatar representatie. Specifiek integreert de voorgestelde skeleton-geleide score distillatie skeleton controls van 3D menselijke sjablonen in 2D diffusiemodellen, waardoor de consistentie van SDS-toezicht wordt verbeterd wat betreft zicht en menselijke houding. Dit vergemakkelijkt het genereren van hoogwaardige avatars, waardoor problemen zoals meerdere gezichten, extra ledematen en vervaging worden verminderd. De voorgestelde hybride 3D Gaussische avatar representatie bouwt voort op de efficiënte 3D Gaussiërs, waarbij neurale impliciete velden en geparametriseerde 3D meshes worden gecombineerd om real-time rendering, stabiele SDS-optimalisatie en expressieve animatie mogelijk te maken. Uitgebreide experimenten tonen aan dat DreamWaltz-G zeer effectief is in het genereren en animeren van 3D-avatars, waarbij bestaande methoden worden overtroffen op zowel visuele kwaliteit als animatie expressiviteit. Ons kader ondersteunt verder diverse toepassingen, waaronder menselijke video re-enactment en samenstelling van scènes met meerdere onderwerpen.

AIM 2024 Sparse Neural Rendering Uitdaging: Dataset en Benchmark
AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark

Sep 23

ByMichal Nazarczuk, Thomas Tanay, Sibi Catley-Chandar, Richard Shaw, Radu Timofte, Eduardo Pérez-Pellitero

Recente ontwikkelingen in differentieerbare en neurale rendering hebben indrukwekkende doorbraken gemaakt in een verscheidenheid aan 2D- en 3D-taken, zoals het synthetiseren van nieuwe weergaven en 3D-reconstructie. Doorgaans vertrouwt differentieerbare rendering op een dichte dekking van gezichtspunten van de scène, zodat de geometrie kan worden onderscheiden op basis van alleen waarnemingen van uiterlijk. Verschillende uitdagingen doen zich voor wanneer slechts een paar invoerweergaven beschikbaar zijn, vaak aangeduid als spaarse of few-shot neurale rendering. Aangezien dit een onderbepaald probleem is, introduceren de meeste bestaande benaderingen het gebruik van regularisatie, samen met een diversiteit aan aangeleerde en handgemaakte priori. Een terugkerend probleem in de spaarse rendering literatuur is het ontbreken van een homogene, up-to-date dataset en evaluatieprotocol. Terwijl datasets met hoge resolutie standaard zijn in de dichte reconstructie literatuur, evalueren spaarse rendering methoden vaak met lage-resolutie beelden. Bovendien zijn gegevenssplitsingen inconsistent over verschillende manuscripten en zijn testgrondwaarheidsbeelden vaak openbaar beschikbaar, wat kan leiden tot overpassing. In dit werk stellen we het Spaarse Rendering (SpaRe) dataset en benchmark voor. We introduceren een nieuwe dataset die de opzet van de DTU MVS dataset volgt. De dataset bestaat uit 97 nieuwe scènes gebaseerd op synthetische, hoogwaardige assets. Elke scène heeft tot 64 cameraweergaven en 7 belichtingsconfiguraties, weergegeven op een resolutie van 1600x1200. We publiceren een trainingsverdeling van 82 scènes om generaliseerbare benaderingen te bevorderen, en bieden een online evaluatieplatform voor de validatie- en testsets, waarvan de grondwaarheidsbeelden verborgen blijven. We stellen twee verschillende spaarse configuraties voor (respectievelijk 3 en 9 invoerbeelden). Dit biedt een krachtig en handig instrument voor reproduceerbare evaluatie, en stelt onderzoekers in staat gemakkelijk toegang te krijgen tot een openbare ranglijst met de prestatiescores van de state-of-the-art. Beschikbaar op: https://sparebenchmark.github.io/

Begeleide degradatie-geleide beeldsuperresolutie in één stap met diffusieprioriteiten
Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors

Sep 25

ByAiping Zhang, Zongsheng Yue, Renjing Pei, Wenqi Ren, Xiaochun Cao

Diffusie-gebaseerde beeld-superresolutie (SR) methoden hebben opmerkelijk succes behaald door gebruik te maken van grote vooraf getrainde tekst-naar-beeld diffusie modellen als prior. Echter, deze methoden staan nog steeds voor twee uitdagingen: de vereiste van tientallen bemonsteringsstappen om bevredigende resultaten te behalen, wat de efficiëntie in echte scenario's beperkt, en het verwaarlozen van de degradatiemodellen, die cruciale aanvullende informatie zijn bij het oplossen van het SR probleem. In dit werk hebben we een nieuw een-stap SR model geïntroduceerd, dat aanzienlijk het efficiëntieprobleem van diffusie-gebaseerde SR methoden aanpakt. In tegenstelling tot bestaande fine-tuning strategieën, hebben we een degradatie-geleide Low-Rank Adaptation (LoRA) module ontworpen, specifiek voor SR, die de modelparameters corrigeert op basis van de vooraf geschatte degradatie-informatie van lage-resolutie beelden. Deze module vergemakkelijkt niet alleen een krachtig datagestuurd of degradatie-afhankelijk SR model, maar behoudt ook de generatieve prior van het vooraf getrainde diffusiemodel zoveel mogelijk. Bovendien hebben we een nieuw trainingsproces op maat gemaakt door een online negatieve steekproefgeneratiestrategie te introduceren. Gecombineerd met de classifier-vrije begeleidingsstrategie tijdens inferentie, verbetert dit grotendeels de perceptuele kwaliteit van de superresolutieresultaten. Uitgebreide experimenten hebben de superieure efficiëntie en effectiviteit van het voorgestelde model aangetoond in vergelijking met recente state-of-the-art methoden.

HyperAgent: Algemene Software Engineering Agenten om Programmeertaken op Schaal op te Lossen
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale

Sep 9

ByHuy Nhat Phan, Phong X. Nguyen, Nghi D. Q. Bui

Grote Taalmodellen (LLM's) hebben de software-engineering (SE) gerevolutioneerd, waarbij opmerkelijke capaciteiten zijn aangetoond in verschillende programmeertaken. Hoewel recente inspanningen autonome software-agenten hebben voortgebracht op basis van LLM's voor end-to-end ontwikkelingstaken, zijn deze systemen doorgaans ontworpen voor specifieke SE-taken. We introduceren HyperAgent, een nieuw generalistisch multi-agent systeem dat is ontworpen om een breed spectrum van SE-taken over verschillende programmeertalen aan te pakken door het nabootsen van de workflows van menselijke ontwikkelaars. Bestaande uit vier gespecialiseerde agenten - Planner, Navigator, Code Editor en Executor. HyperAgent beheert de volledige levenscyclus van SE-taken, van het initiële concept tot de uiteindelijke verificatie. Via uitgebreide evaluaties behaalt HyperAgent state-of-the-art prestaties over diverse SE-taken: het behaalt een succespercentage van 25,01% op SWE-Bench-Lite en 31,40% op SWE-Bench-Verified voor het oplossen van GitHub-issues, waarbij bestaande methoden worden overtroffen. Bovendien toont HyperAgent SOTA-prestaties in het genereren van code op repository-niveau (RepoExec), en in foutlokalisatie en programma-herstel (Defects4J), waarbij vaak gespecialiseerde systemen worden overtroffen. Dit werk vertegenwoordigt een significante vooruitgang naar veelzijdige, autonome agenten die in staat zijn complexe, meerstaps SE-taken over verschillende domeinen en talen aan te pakken, en mogelijk de praktijken van door AI ondersteunde softwareontwikkeling transformeren.

Synchroniseer Dubbele Handen voor Fysica-Gebaseerd Handig Gitaarspel
Synchronize Dual Hands for Physics-Based Dexterous Guitar Playing

Sep 25

ByPei Xu, Ruocheng Wang

We presenteren een nieuwe benadering om behendige bewegingen te synthetiseren voor fysiek gesimuleerde handen in taken die coördinatie vereisen tussen de controle van twee handen met hoge temporele precisie. In plaats van direct een gezamenlijk beleid te leren om twee handen te besturen, voert onze benadering bimanuele controle uit via coöperatief leren waarbij elke hand als een individuele agent wordt behandeld. De individuele beleidslijnen voor elke hand worden eerst afzonderlijk getraind en vervolgens gesynchroniseerd door manipulatie van latente ruimte in een gecentraliseerde omgeving om te dienen als een gezamenlijk beleid voor de controle van twee handen. Op deze manier vermijden we direct beleidslernen uit te voeren in de gezamenlijke toestandsactieruimte van twee handen met hogere dimensies, wat de algehele trainingsefficiëntie aanzienlijk verbetert. We tonen de effectiviteit van onze voorgestelde benadering in de uitdagende taak van gitaarspelen. De virtuele gitarist getraind door onze benadering kan bewegingen synthetiseren uit ongestructureerde referentiegegevens van algemene gitaarspeelpraktijkmoties en nauwkeurig diverse ritmes spelen met complexe akkoordindruk- en snaarplukpatronen op basis van de invoer gitaartabs die niet in de referenties voorkomen. Samen met dit artikel verstrekken we de motion capture-gegevens die we hebben verzameld als referentie voor beleidstraining. De code is beschikbaar op: https://pei-xu.github.io/guitar.

NoTeeline: Ondersteuning van real-time notities maken vanuit kernpunten met grote taalmodellen
NoTeeline: Supporting Real-Time Notetaking from Keypoints with Large Language Models

Sep 24

ByFaria Huq, Abdus Samee, David Chuan-en Lin, Xiaodi Alice Tang, Jeffrey P. Bigham

Video is een populair medium geworden voor het delen en consumeren van informatie. Echter, aantekeningen maken tijdens het bekijken van een video vereist aanzienlijke tijd en moeite. Om dit aan te pakken, stellen wij een nieuw interactief systeem voor, NoTeeline, voor het maken van realtime, gepersonaliseerde aantekeningen. NoTeeline stelt gebruikers in staat om snel kernpunten (micronotities) op te schrijven, die automatisch worden uitgebreid tot volwaardige aantekeningen die de inhoud van de micronotities van de gebruiker vastleggen en consistent zijn met de schrijfstijl van de gebruiker. In een studie met dezelfde proefpersonen (N=12) ontdekten we dat NoTeeline gebruikers helpt om hoogwaardige aantekeningen te maken die de essentie van hun micronotities vastleggen met een hogere feitelijke correctheid (93,2%), terwijl hun schrijfstijl nauwkeurig wordt weerspiegeld. Tijdens het gebruik van NoTeeline ervoeren de deelnemers aanzienlijk verminderde mentale inspanning, legden zij bevredigende aantekeningen vast terwijl ze 47% minder tekst schreven, en voltooiden zij het maken van aantekeningen met 43,9% minder tijd in vergelijking met een handmatige aantekeningen-baseline.

Game4Loc: Een benchmark voor UAV geolokalisatie gebaseerd op game data
Game4Loc: A UAV Geo-Localization Benchmark from Game Data

Sep 25

ByYuxiang Ji, Boyong He, Zhuoyue Tan, Liaoni Wu

De op visie gebaseerde geo-localisatietechnologie voor UAV's, die dient als een secundaire bron van GPS-informatie naast de wereldwijde navigatiesatellietsystemen (GNSS), kan nog steeds zelfstandig opereren in een GPS-ontzegde omgeving. Recente op diep leren gebaseerde methoden beschouwen dit als de taak van beeldovereenkomst en -terugvinding. Door drone-beeldmateriaal op te halen in een geo-getagde satellietbeeldendatabase, kan bij benadering lokaliseringsinformatie worden verkregen. Vanwege hoge kosten en privacyzorgen is het echter meestal moeilijk om grote hoeveelheden drone-beeldmateriaal van een aaneengesloten gebied te verkrijgen. Bestaande drone-beelddatasets bestaan voornamelijk uit kleinschalige luchtfotografie met de sterke veronderstelling dat er voor elke zoekopdracht een perfect één-op-één uitgelijnd referentiebeeld bestaat, wat een aanzienlijke kloof laat in de praktische lokaliseringsscenario's. In dit werk construeren we een groot bereik aaneengesloten UAV geo-localisatiedataset genaamd GTA-UAV, met meerdere vluchthoogtes, attitudes, scènes en doelen met behulp van moderne computerspellen. Op basis van deze dataset introduceren we een meer praktische UAV geo-localisatietoepassing, inclusief gedeeltelijke overeenkomsten van gekoppelde gegevens van verschillende gezichtspunten, en breiden we de beeldniveau-terugvinding uit naar de daadwerkelijke lokaliseringsafstand (in meters). Voor de constructie van drone-beeld- en satelliet-beeldparen hanteren we een op gewicht gebaseerde contrastieve leermethode, die effectief leren mogelijk maakt en extra post-verwerkingsstappen voor overeenkomst vermijdt. Experimenten tonen de effectiviteit aan van onze gegevens- en trainingsmethode voor UAV geo-localisatie, evenals de generalisatiecapaciteiten naar real-world scenario's.

Zelftoezicht op elk punt volgen door contrastieve willekeurige wandelingen
Self-Supervised Any-Point Tracking by Contrastive Random Walks

Sep 24

ByAyush Shrivastava, Andrew Owens

We presenteren een eenvoudige, zelftoezichtbenadering voor het Probleem van het Volgen van Elk Punt (TAP). We trainen een wereldwijde overeenkomsttransformator om cyclisch consistente sporen te vinden in video's via contrastieve willekeurige wandelingen, waarbij de op aandacht gebaseerde wereldwijde overeenkomst van de transformator wordt gebruikt om de overgangsmatrices te definiëren voor een willekeurige wandeling op een ruimte-tijdgrafiek. De mogelijkheid om "alle paren" vergelijkingen tussen punten uit te voeren stelt het model in staat om een hoge ruimtelijke precisie te verkrijgen en een sterk contrastief leersignaal te verkrijgen, terwijl het vele complexiteiten vermijdt van recente benaderingen (zoals grof-naar-fijn overeenkomsten). Hiervoor stellen we een aantal ontwerpbeslissingen voor die wereldwijde overeenkomstarchitecturen in staat stellen om te worden getraind via zelftoezicht met behulp van cyclische consistentie. Zo identificeren we bijvoorbeeld dat op transformer gebaseerde methoden gevoelig zijn voor shortcuts, en stellen we een gegevensaugmentatieschema voor om deze aan te pakken. Onze methode behaalt sterke prestaties op de TapVid-benchmarks, overtreft eerdere zelftoezichtvolgmethoden, zoals DIFT, en is concurrerend met verschillende begeleide methoden.

TalkinNeRF: Animeerbare neurale velden voor pratende mensen met een volledig lichaam
TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans

Sep 25

ByAggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos

We introduceren een nieuw raamwerk dat een dynamisch neuronaal stralingsveld (NeRF) leert voor pratende mensen met een volledig lichaam van monoculaire video's. Eerdere werken stellen alleen de lichaamshouding of het gezicht voor. Mensen communiceren echter met hun volledige lichaam, waarbij lichaamshouding, handgebaren en gezichtsuitdrukkingen worden gecombineerd. In dit werk stellen we TalkinNeRF voor, een verenigd NeRF-gebaseerd netwerk dat de holistische 4D-menselijke beweging vertegenwoordigt. Gegeven een monoculaire video van een onderwerp, leren we overeenkomstige modules voor het lichaam, het gezicht en de handen, die samen worden gecombineerd om het uiteindelijke resultaat te genereren. Om complexe vingerarticulatie vast te leggen, leren we een aanvullend vervormingsveld voor de handen. Onze multi-identiteitsrepresentatie maakt gelijktijdige training voor meerdere onderwerpen mogelijk, evenals robuuste animatie onder volledig ongeziene houdingen. Het kan ook generaliseren naar nieuwe identiteiten, met alleen een korte video als invoer. We tonen prestaties van het hoogste niveau voor het animeren van pratende mensen met een volledig lichaam, met fijnmazige handarticulatie en gezichtsuitdrukkingen.