Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De meest geavanceerde multimodale modellen van vandaag blijven eigendom van bedrijven. De sterkste open-gewicht modellen vertrouwen zwaar op synthetische data van eigendom VLM's om goede prestaties te behalen, waarbij deze gesloten modellen effectief worden gedistilleerd tot open modellen. Als gevolg hiervan ontbreekt het de gemeenschap nog steeds aan fundamentele kennis over hoe performante VLM's vanaf nul moeten worden opgebouwd. Wij presenteren Molmo, een nieuwe familie van VLM's die state-of-the-art zijn in hun openheidscategorie. Onze belangrijkste innovatie is een nieuw, zeer gedetailleerd dataset voor het beschrijven van afbeeldingen, volledig verzameld door menselijke annotatoren met behulp van spraakgebaseerde beschrijvingen. Om een breed scala aan gebruikersinteracties mogelijk te maken, introduceren we ook een gevarieerde datasetmix voor fine-tuning die in-the-wild Q&A en innovatieve 2D-pointing data omvat. Het succes van onze aanpak berust op zorgvuldige keuzes voor de details van de modelarchitectuur, een goed afgestemd trainingsproces en, het belangrijkste, de kwaliteit van onze nieuw verzamelde datasets, die allemaal zullen worden vrijgegeven. Het toonaangevende 72B-model binnen de Molmo-familie presteert niet alleen beter dan andere modellen in de open-gewichts- en datamodellenklasse, maar vergelijkt ook gunstig met eigendomssystemen zoals GPT-4o, Claude 3.5 en Gemini 1.5 op zowel academische benchmarks als menselijke evaluaties. We zullen al onze modelgewichten, bijschrift- en fine-tuningdata en broncode binnenkort vrijgeven. Geselecteerde modelgewichten, inferentiecode en demo zijn beschikbaar op https://molmo.allenai.org.
Het pre-trainen van grote taalmodellen heeft traditioneel vertrouwd op menselijke experts om heuristieken te ontwikkelen voor het verbeteren van de kwaliteit van de corpora, resulterend in talloze regels die tot op heden zijn ontwikkeld. Deze regels missen echter de flexibiliteit om effectief om te gaan met de unieke kenmerken van individuele voorbeelden. Ondertussen is het toepassen van op maat gemaakte regels op elk voorbeeld onpraktisch voor menselijke experts. In dit artikel tonen we aan dat zelfs kleine taalmodellen, met slechts 0,3B parameters, aanzienlijke data-verfijningsmogelijkheden kunnen vertonen die vergelijkbaar zijn met die van menselijke experts. We introduceren Programming Every Example (ProX), een nieuw raamwerk dat data-verfijning behandelt als een programmeertaak, waardoor modellen corpora kunnen verfijnen door het genereren en uitvoeren van fijnmazige bewerkingen, zoals stringnormalisatie, voor elk individueel voorbeeld op schaal. Experimentele resultaten tonen aan dat modellen die zijn voorgetraind op door ProX samengestelde data beter presteren dan de oorspronkelijke data of data gefilterd door andere selectiemethoden met meer dan 2% over verschillende downstream-benchmarks. De effectiviteit ervan strekt zich uit over verschillende modelgroottes en pre-training corpora, waaronder C4, RedPajama-V2 en FineWeb. Bovendien vertoont ProX aanzienlijk potentieel in domeinspecifieke continue pre-training: zonder domeinspecifiek ontwerp presteren modellen die zijn getraind op OpenWebMath en verfijnd door ProX beter dan door mensen gemaakte regelgebaseerde methoden, met een verbetering van de gemiddelde nauwkeurigheid van 7,6% ten opzichte van Mistral-7B, met 14,6% voor Llama-2-7B en 20,3% voor CodeLlama-7B, allemaal binnen 10B tokens om vergelijkbaar te zijn met modellen zoals Llemma-7B die zijn getraind op 200B tokens. Verder onderzoek benadrukt dat ProX aanzienlijk training FLOPs bespaart, wat een veelbelovende weg biedt voor efficiënte LLM-pre-training. We maken ProX open-source met >100B corpora, modellen en delen alle trainings- en implementatiedetails voor reproduceerbaar onderzoek en toekomstige innovatie. Code: https://github.com/GAIR-NLP/ProX
Grote Taalmodellen (LLM's) hebben opmerkelijke mogelijkheden aangetoond op het gebied van natuurlijke taalverwerking, en toch beperken hun feitelijke onjuistheden en hallucinaties hun toepassing, met name in kritieke domeinen zoals de gezondheidszorg. Context ophaalmethoden, door relevante informatie als input te introduceren, zijn naar voren gekomen als een cruciale benadering om de feitelijkheid en betrouwbaarheid van LLM's te verbeteren. Deze studie verkent de grenzen van context ophaalmethoden binnen het domein van de gezondheidszorg, optimaliseert hun componenten en benchmarkt hun prestaties tegen open en gesloten alternatieven. Onze bevindingen onthullen hoe open LLM's, wanneer aangevuld met een geoptimaliseerd ophaalsysteem, prestaties kunnen behalen die vergelijkbaar zijn met de grootste private oplossingen op gevestigde gezondheidszorgbenchmarks (meerkeuzevraagbeantwoording). Door het gebrek aan realisme te erkennen van het opnemen van mogelijke antwoorden binnen de vraag (een opstelling die alleen te vinden is in medische examens), en na het beoordelen van een sterke LLM-prestatiedegradatie in afwezigheid van die opties, breiden we het context ophaalsysteem in die richting uit. In het bijzonder stellen we OpenMedPrompt voor, een pijplijn die de generatie van meer betrouwbare open antwoorden verbetert, waardoor deze technologie dichter bij praktische toepassing komt.
Door gebruik te maken van vooraf getrainde 2D diffusiemodellen en score distillatie sampling (SDS) hebben recente methoden veelbelovende resultaten laten zien voor het genereren van tekst-naar-3D-avatar. Het genereren van hoogwaardige 3D-avatars die in staat zijn tot expressieve animatie blijft echter een uitdaging. In dit werk presenteren we DreamWaltz-G, een nieuw leerkader voor het genereren van animeerbare 3D-avatars uit tekst. De kern van dit kader ligt in Skeleton-geleide Score Distillatie en Hybride 3D Gaussische Avatar representatie. Specifiek integreert de voorgestelde skeleton-geleide score distillatie skeleton controls van 3D menselijke sjablonen in 2D diffusiemodellen, waardoor de consistentie van SDS-toezicht wordt verbeterd wat betreft zicht en menselijke houding. Dit vergemakkelijkt het genereren van hoogwaardige avatars, waardoor problemen zoals meerdere gezichten, extra ledematen en vervaging worden verminderd. De voorgestelde hybride 3D Gaussische avatar representatie bouwt voort op de efficiënte 3D Gaussiërs, waarbij neurale impliciete velden en geparametriseerde 3D meshes worden gecombineerd om real-time rendering, stabiele SDS-optimalisatie en expressieve animatie mogelijk te maken. Uitgebreide experimenten tonen aan dat DreamWaltz-G zeer effectief is in het genereren en animeren van 3D-avatars, waarbij bestaande methoden worden overtroffen op zowel visuele kwaliteit als animatie expressiviteit. Ons kader ondersteunt verder diverse toepassingen, waaronder menselijke video re-enactment en samenstelling van scènes met meerdere onderwerpen.
Recente ontwikkelingen in differentieerbare en neurale rendering hebben indrukwekkende doorbraken gemaakt in een verscheidenheid aan 2D- en 3D-taken, zoals het synthetiseren van nieuwe weergaven en 3D-reconstructie. Doorgaans vertrouwt differentieerbare rendering op een dichte dekking van gezichtspunten van de scène, zodat de geometrie kan worden onderscheiden op basis van alleen waarnemingen van uiterlijk. Verschillende uitdagingen doen zich voor wanneer slechts een paar invoerweergaven beschikbaar zijn, vaak aangeduid als spaarse of few-shot neurale rendering. Aangezien dit een onderbepaald probleem is, introduceren de meeste bestaande benaderingen het gebruik van regularisatie, samen met een diversiteit aan aangeleerde en handgemaakte priori. Een terugkerend probleem in de spaarse rendering literatuur is het ontbreken van een homogene, up-to-date dataset en evaluatieprotocol. Terwijl datasets met hoge resolutie standaard zijn in de dichte reconstructie literatuur, evalueren spaarse rendering methoden vaak met lage-resolutie beelden. Bovendien zijn gegevenssplitsingen inconsistent over verschillende manuscripten en zijn testgrondwaarheidsbeelden vaak openbaar beschikbaar, wat kan leiden tot overpassing. In dit werk stellen we het Spaarse Rendering (SpaRe) dataset en benchmark voor. We introduceren een nieuwe dataset die de opzet van de DTU MVS dataset volgt. De dataset bestaat uit 97 nieuwe scènes gebaseerd op synthetische, hoogwaardige assets. Elke scène heeft tot 64 cameraweergaven en 7 belichtingsconfiguraties, weergegeven op een resolutie van 1600x1200. We publiceren een trainingsverdeling van 82 scènes om generaliseerbare benaderingen te bevorderen, en bieden een online evaluatieplatform voor de validatie- en testsets, waarvan de grondwaarheidsbeelden verborgen blijven. We stellen twee verschillende spaarse configuraties voor (respectievelijk 3 en 9 invoerbeelden). Dit biedt een krachtig en handig instrument voor reproduceerbare evaluatie, en stelt onderzoekers in staat gemakkelijk toegang te krijgen tot een openbare ranglijst met de prestatiescores van de state-of-the-art. Beschikbaar op: https://sparebenchmark.github.io/
Diffusie-gebaseerde beeld-superresolutie (SR) methoden hebben opmerkelijk succes behaald door gebruik te maken van grote vooraf getrainde tekst-naar-beeld diffusie modellen als prior. Echter, deze methoden staan nog steeds voor twee uitdagingen: de vereiste van tientallen bemonsteringsstappen om bevredigende resultaten te behalen, wat de efficiëntie in echte scenario's beperkt, en het verwaarlozen van de degradatiemodellen, die cruciale aanvullende informatie zijn bij het oplossen van het SR probleem. In dit werk hebben we een nieuw een-stap SR model geïntroduceerd, dat aanzienlijk het efficiëntieprobleem van diffusie-gebaseerde SR methoden aanpakt. In tegenstelling tot bestaande fine-tuning strategieën, hebben we een degradatie-geleide Low-Rank Adaptation (LoRA) module ontworpen, specifiek voor SR, die de modelparameters corrigeert op basis van de vooraf geschatte degradatie-informatie van lage-resolutie beelden. Deze module vergemakkelijkt niet alleen een krachtig datagestuurd of degradatie-afhankelijk SR model, maar behoudt ook de generatieve prior van het vooraf getrainde diffusiemodel zoveel mogelijk. Bovendien hebben we een nieuw trainingsproces op maat gemaakt door een online negatieve steekproefgeneratiestrategie te introduceren. Gecombineerd met de classifier-vrije begeleidingsstrategie tijdens inferentie, verbetert dit grotendeels de perceptuele kwaliteit van de superresolutieresultaten. Uitgebreide experimenten hebben de superieure efficiëntie en effectiviteit van het voorgestelde model aangetoond in vergelijking met recente state-of-the-art methoden.
We presenteren een nieuwe benadering om behendige bewegingen te synthetiseren voor fysiek gesimuleerde handen in taken die coördinatie vereisen tussen de controle van twee handen met hoge temporele precisie. In plaats van direct een gezamenlijk beleid te leren om twee handen te besturen, voert onze benadering bimanuele controle uit via coöperatief leren waarbij elke hand als een individuele agent wordt behandeld. De individuele beleidslijnen voor elke hand worden eerst afzonderlijk getraind en vervolgens gesynchroniseerd door manipulatie van latente ruimte in een gecentraliseerde omgeving om te dienen als een gezamenlijk beleid voor de controle van twee handen. Op deze manier vermijden we direct beleidslernen uit te voeren in de gezamenlijke toestandsactieruimte van twee handen met hogere dimensies, wat de algehele trainingsefficiëntie aanzienlijk verbetert. We tonen de effectiviteit van onze voorgestelde benadering in de uitdagende taak van gitaarspelen. De virtuele gitarist getraind door onze benadering kan bewegingen synthetiseren uit ongestructureerde referentiegegevens van algemene gitaarspeelpraktijkmoties en nauwkeurig diverse ritmes spelen met complexe akkoordindruk- en snaarplukpatronen op basis van de invoer gitaartabs die niet in de referenties voorkomen. Samen met dit artikel verstrekken we de motion capture-gegevens die we hebben verzameld als referentie voor beleidstraining. De code is beschikbaar op: https://pei-xu.github.io/guitar.
Grote Taalmodellen (LLM's) hebben de software-engineering (SE) gerevolutioneerd, waarbij opmerkelijke capaciteiten zijn aangetoond in verschillende programmeertaken. Hoewel recente inspanningen autonome software-agenten hebben voortgebracht op basis van LLM's voor end-to-end ontwikkelingstaken, zijn deze systemen doorgaans ontworpen voor specifieke SE-taken. We introduceren HyperAgent, een nieuw generalistisch multi-agent systeem dat is ontworpen om een breed spectrum van SE-taken over verschillende programmeertalen aan te pakken door het nabootsen van de workflows van menselijke ontwikkelaars. Bestaande uit vier gespecialiseerde agenten - Planner, Navigator, Code Editor en Executor. HyperAgent beheert de volledige levenscyclus van SE-taken, van het initiële concept tot de uiteindelijke verificatie. Via uitgebreide evaluaties behaalt HyperAgent state-of-the-art prestaties over diverse SE-taken: het behaalt een succespercentage van 25,01% op SWE-Bench-Lite en 31,40% op SWE-Bench-Verified voor het oplossen van GitHub-issues, waarbij bestaande methoden worden overtroffen. Bovendien toont HyperAgent SOTA-prestaties in het genereren van code op repository-niveau (RepoExec), en in foutlokalisatie en programma-herstel (Defects4J), waarbij vaak gespecialiseerde systemen worden overtroffen. Dit werk vertegenwoordigt een significante vooruitgang naar veelzijdige, autonome agenten die in staat zijn complexe, meerstaps SE-taken over verschillende domeinen en talen aan te pakken, en mogelijk de praktijken van door AI ondersteunde softwareontwikkeling transformeren.
Video is een populair medium geworden voor het delen en consumeren van informatie. Echter, aantekeningen maken tijdens het bekijken van een video vereist aanzienlijke tijd en moeite. Om dit aan te pakken, stellen wij een nieuw interactief systeem voor, NoTeeline, voor het maken van realtime, gepersonaliseerde aantekeningen. NoTeeline stelt gebruikers in staat om snel kernpunten (micronotities) op te schrijven, die automatisch worden uitgebreid tot volwaardige aantekeningen die de inhoud van de micronotities van de gebruiker vastleggen en consistent zijn met de schrijfstijl van de gebruiker. In een studie met dezelfde proefpersonen (N=12) ontdekten we dat NoTeeline gebruikers helpt om hoogwaardige aantekeningen te maken die de essentie van hun micronotities vastleggen met een hogere feitelijke correctheid (93,2%), terwijl hun schrijfstijl nauwkeurig wordt weerspiegeld. Tijdens het gebruik van NoTeeline ervoeren de deelnemers aanzienlijk verminderde mentale inspanning, legden zij bevredigende aantekeningen vast terwijl ze 47% minder tekst schreven, en voltooiden zij het maken van aantekeningen met 43,9% minder tijd in vergelijking met een handmatige aantekeningen-baseline.
De op visie gebaseerde geo-localisatietechnologie voor UAV's, die dient als een secundaire bron van GPS-informatie naast de wereldwijde navigatiesatellietsystemen (GNSS), kan nog steeds zelfstandig opereren in een GPS-ontzegde omgeving. Recente op diep leren gebaseerde methoden beschouwen dit als de taak van beeldovereenkomst en -terugvinding. Door drone-beeldmateriaal op te halen in een geo-getagde satellietbeeldendatabase, kan bij benadering lokaliseringsinformatie worden verkregen. Vanwege hoge kosten en privacyzorgen is het echter meestal moeilijk om grote hoeveelheden drone-beeldmateriaal van een aaneengesloten gebied te verkrijgen. Bestaande drone-beelddatasets bestaan voornamelijk uit kleinschalige luchtfotografie met de sterke veronderstelling dat er voor elke zoekopdracht een perfect één-op-één uitgelijnd referentiebeeld bestaat, wat een aanzienlijke kloof laat in de praktische lokaliseringsscenario's. In dit werk construeren we een groot bereik aaneengesloten UAV geo-localisatiedataset genaamd GTA-UAV, met meerdere vluchthoogtes, attitudes, scènes en doelen met behulp van moderne computerspellen. Op basis van deze dataset introduceren we een meer praktische UAV geo-localisatietoepassing, inclusief gedeeltelijke overeenkomsten van gekoppelde gegevens van verschillende gezichtspunten, en breiden we de beeldniveau-terugvinding uit naar de daadwerkelijke lokaliseringsafstand (in meters). Voor de constructie van drone-beeld- en satelliet-beeldparen hanteren we een op gewicht gebaseerde contrastieve leermethode, die effectief leren mogelijk maakt en extra post-verwerkingsstappen voor overeenkomst vermijdt. Experimenten tonen de effectiviteit aan van onze gegevens- en trainingsmethode voor UAV geo-localisatie, evenals de generalisatiecapaciteiten naar real-world scenario's.
We introduceren een nieuw raamwerk dat een dynamisch neuronaal stralingsveld (NeRF) leert voor pratende mensen met een volledig lichaam van monoculaire video's. Eerdere werken stellen alleen de lichaamshouding of het gezicht voor. Mensen communiceren echter met hun volledige lichaam, waarbij lichaamshouding, handgebaren en gezichtsuitdrukkingen worden gecombineerd. In dit werk stellen we TalkinNeRF voor, een verenigd NeRF-gebaseerd netwerk dat de holistische 4D-menselijke beweging vertegenwoordigt. Gegeven een monoculaire video van een onderwerp, leren we overeenkomstige modules voor het lichaam, het gezicht en de handen, die samen worden gecombineerd om het uiteindelijke resultaat te genereren. Om complexe vingerarticulatie vast te leggen, leren we een aanvullend vervormingsveld voor de handen. Onze multi-identiteitsrepresentatie maakt gelijktijdige training voor meerdere onderwerpen mogelijk, evenals robuuste animatie onder volledig ongeziene houdingen. Het kan ook generaliseren naar nieuwe identiteiten, met alleen een korte video als invoer. We tonen prestaties van het hoogste niveau voor het animeren van pratende mensen met een volledig lichaam, met fijnmazige handarticulatie en gezichtsuitdrukkingen.
We presenteren een eenvoudige, zelftoezichtbenadering voor het Probleem van het Volgen van Elk Punt (TAP). We trainen een wereldwijde overeenkomsttransformator om cyclisch consistente sporen te vinden in video's via contrastieve willekeurige wandelingen, waarbij de op aandacht gebaseerde wereldwijde overeenkomst van de transformator wordt gebruikt om de overgangsmatrices te definiëren voor een willekeurige wandeling op een ruimte-tijdgrafiek. De mogelijkheid om "alle paren" vergelijkingen tussen punten uit te voeren stelt het model in staat om een hoge ruimtelijke precisie te verkrijgen en een sterk contrastief leersignaal te verkrijgen, terwijl het vele complexiteiten vermijdt van recente benaderingen (zoals grof-naar-fijn overeenkomsten). Hiervoor stellen we een aantal ontwerpbeslissingen voor die wereldwijde overeenkomstarchitecturen in staat stellen om te worden getraind via zelftoezicht met behulp van cyclische consistentie. Zo identificeren we bijvoorbeeld dat op transformer gebaseerde methoden gevoelig zijn voor shortcuts, en stellen we een gegevensaugmentatieschema voor om deze aan te pakken. Onze methode behaalt sterke prestaties op de TapVid-benchmarks, overtreft eerdere zelftoezichtvolgmethoden, zoals DIFT, en is concurrerend met verschillende begeleide methoden.