Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote visueel-taalkundige modellen (VLMs) hebben aanzienlijke vooruitgang geboekt in multimodale perceptie en redenering. Bovendien, wanneer ze naadloos worden geïntegreerd in een belichaamde agent, markeert dit een cruciale stap naar de creatie van autonome en contextbewuste systemen die in staat zijn om plannen te formuleren en opdrachten met precisie uit te voeren. In dit artikel introduceren we Octopus, een nieuw VLM dat ontworpen is om het visuele en tekstuele taakdoel van een agent vaardig te interpreteren en complexe actievolgordes te formuleren en uitvoerbare code te genereren. Ons ontwerp stelt de agent in staat om een breed scala aan taken behendig te behandelen, variërend van alledaagse taken in simulatoren tot geavanceerde interacties in complexe videogames. Octopus wordt getraind door gebruik te maken van GPT-4 om een verkennende agent aan te sturen om trainingsdata te genereren, namelijk actieblauwdrukken en de bijbehorende uitvoerbare code, binnen onze experimentele omgeving genaamd OctoVerse. We verzamelen ook de feedback die de verbeterde trainingsmethode van Reinforcement Learning with Environmental Feedback (RLEF) mogelijk maakt. Door een reeks experimenten belichten we de functionaliteit van Octopus en presenteren we overtuigende resultaten, waarbij de voorgestelde RLEF blijkt bij te dragen aan de verfijning van de besluitvorming van de agent. Door ons modelarchitectuur, simulator en dataset open source te maken, streven we ernaar om verdere innovatie aan te wakkeren en collaboratieve toepassingen binnen de bredere belichaamde AI-gemeenschap te bevorderen.
We introduceren Lemur en Lemur-Chat, openbaar toegankelijke taalmodellen die zijn geoptimaliseerd voor zowel natuurlijke taal- als programmeercapaciteiten, om te dienen als de ruggengraat van veelzijdige taalagentschappen. De evolutie van taalmodelchatten naar functionele taalagentschappen vereist dat modellen niet alleen menselijke interactie, redenering en planning beheersen, maar ook verankerd zijn in de relevante omgevingen. Dit vraagt om een harmonieuze combinatie van taal- en programmeercapaciteiten in de modellen. Lemur en Lemur-Chat worden voorgesteld om aan deze noodzaak te voldoen, waarbij ze een gebalanceerde vaardigheid in beide domeinen demonstreren, in tegenstelling tot bestaande open-source modellen die de neiging hebben zich te specialiseren in één van beide. Door zorgvuldige pre-training met een code-intensief corpus en instructie-finetuning op tekst- en codegegevens, bereiken onze modellen state-of-the-art gemiddelde prestaties op diverse tekst- en programmeerbenchmarks onder open-source modellen. Uitgebreide experimenten tonen de superioriteit van Lemur aan ten opzichte van bestaande open-source modellen en zijn vaardigheid in verschillende agenttaken die menselijke communicatie, toolgebruik en interactie onder volledig en gedeeltelijk waarneembare omgevingen omvatten. De harmonisatie tussen natuurlijke en programmeertalen stelt Lemur-Chat in staat om de kloof met propriëtaire modellen op het gebied van agentvaardigheden aanzienlijk te verkleinen, wat belangrijke inzichten biedt voor de ontwikkeling van geavanceerde open-source agentschappen die bedreven zijn in redeneren, plannen en naadloos opereren in verschillende omgevingen. https://github.com/OpenLemur/Lemur
De laatste tijd heeft het genereren van 3D-assets op basis van tekstprompts indrukwekkende resultaten laten zien. Zowel 2D- als 3D-diffusiemodellen kunnen redelijke 3D-objecten genereren op basis van prompts. 3D-diffusiemodellen hebben een goede 3D-consistentie, maar hun kwaliteit en generalisatie zijn beperkt omdat trainbare 3D-gegevens duur en moeilijk te verkrijgen zijn. 2D-diffusiemodellen beschikken over sterke generalisatie- en fijne generatiecapaciteiten, maar het is moeilijk om 3D-consistentie te garanderen. Dit artikel probeert de kracht van deze twee soorten diffusiemodellen te combineren via de recente expliciete en efficiënte 3D Gaussian splatting-representatie. Een snel 3D-generatieframework, genaamd \name, wordt voorgesteld, waarbij het 3D-diffusiemodel puntenwolkprioriteiten biedt voor initialisatie en het 2D-diffusiemodel de geometrie en het uiterlijk verrijkt. Operaties van ruisachtige puntgroei en kleurverstoring worden geïntroduceerd om de geïnitialiseerde Gaussians te verbeteren. Onze \name kan een hoogwaardige 3D-instantie genereren binnen 25 minuten op één GPU, veel sneller dan eerdere methoden, terwijl de gegenereerde instanties direct in realtime kunnen worden gerenderd. Demo's en code zijn beschikbaar op https://taoranyi.com/gaussiandreamer/.
We introduceren ``Idea to Image'', een systeem dat multimodale iteratieve zelfverfijning mogelijk maakt met GPT-4V(ision) voor automatisch beeldontwerp en -generatie. Mensen kunnen snel de kenmerken van verschillende tekst-naar-beeld (T2I) modellen identificeren via iteratieve verkenningen. Dit stelt hen in staat om hun hoogwaardige generatie-ideeën efficiënt om te zetten in effectieve T2I-prompts die goede beelden kunnen produceren. We onderzoeken of systemen gebaseerd op grote multimodale modellen (LMMs) analoge multimodale zelfverfijningsvaardigheden kunnen ontwikkelen die het mogelijk maken om onbekende modellen of omgevingen te verkennen via zelfverfijnende pogingen. Idea2Img genereert cyclisch herziene T2I-prompts om conceptbeelden te synthetiseren en biedt directionele feedback voor promptherziening, beide gebaseerd op zijn geheugen van de kenmerken van het onderzochte T2I-model. De iteratieve zelfverfijning biedt Idea2Img verschillende voordelen ten opzichte van standaard T2I-modellen. Met name kan Idea2Img invoerideeën verwerken met afwisselende beeld-tekstreeksen, ideeën volgen met ontwerpinstructies, en beelden genereren met betere semantische en visuele kwaliteiten. De gebruikersvoorkeurstudie valideert de effectiviteit van multimodale iteratieve zelfverfijning op automatisch beeldontwerp en -generatie.
Ondanks aanzienlijke vooruitgang in grootschalige tekst-naar-beeldmodellen, blijft het genereren van hyperrealistische menselijke afbeeldingen een gewenste maar nog onopgeloste taak. Bestaande modellen zoals Stable Diffusion en DALL-E 2 hebben de neiging om menselijke afbeeldingen te genereren met onsamenhangende delen of onnatuurlijke houdingen. Om deze uitdagingen aan te pakken, is onze belangrijkste inzicht dat menselijke afbeeldingen inherent structureel zijn over meerdere granulariteiten, van het grove lichaamskelet tot fijnmazige ruimtelijke geometrie. Het vastleggen van dergelijke correlaties tussen het expliciete uiterlijk en de latente structuur in één model is daarom essentieel om samenhangende en natuurlijke menselijke afbeeldingen te genereren. Hiertoe stellen we een uniform raamwerk voor, HyperHuman, dat in-the-wild menselijke afbeeldingen genereert met een hoge realiteitsgraad en diverse lay-outs. Specifiek: 1) bouwen we eerst een grootschalige, mensgerichte dataset genaamd HumanVerse, die bestaat uit 340 miljoen afbeeldingen met uitgebreide annotaties zoals menselijke houding, diepte en oppervlaktenormaal. 2) Vervolgens stellen we een Latent Structural Diffusion Model voor dat gelijktijdig de diepte en het oppervlaktenormaal denoiseert samen met de gesynthetiseerde RGB-afbeelding. Ons model dwingt het gezamenlijk leren van beeldverschijning, ruimtelijke relaties en geometrie af in een uniform netwerk, waarbij elke tak in het model elkaar aanvult met zowel structureel bewustzijn als textuurrijkdom. 3) Tot slot stellen we een Structure-Guided Refiner voor om de voorspelde condities samen te stellen voor een gedetailleerdere generatie van hogere resolutie. Uitgebreide experimenten tonen aan dat ons raamwerk de state-of-the-art prestaties levert, waarbij hyperrealistische menselijke afbeeldingen worden gegenereerd onder diverse scenario's. Projectpagina: https://snap-research.github.io/HyperHuman/
Grootschalige vooraf getrainde diffusiemodellen hebben opmerkelijke mogelijkheden getoond in diverse videogeneraties. Gegeven een set videoclips van hetzelfde bewegingsconcept, is de taak van Bewegingsaanpassing om bestaande tekst-naar-video diffusiemodellen aan te passen om video's met deze beweging te genereren. Bijvoorbeeld, het genereren van een video waarin een auto op een voorgeschreven manier beweegt onder specifieke camerabewegingen om een film te maken, of een video die illustreert hoe een beer gewichten zou tillen om makers te inspireren. Aanpassingsmethoden zijn ontwikkeld voor het aanpassen van uiterlijk, zoals onderwerp of stijl, maar zijn nog niet verkend voor beweging. Het is eenvoudig om mainstream aanpassingsmethoden uit te breiden voor bewegingsaanpassing, inclusief volledige modelafstemming, parameter-efficiënte afstemming van extra lagen, en Low-Rank Aanpassingen (LoRAs). Het bewegingsconcept dat door deze methoden wordt geleerd, is echter vaak gekoppeld aan de beperkte uiterlijken in de trainingsvideo's, waardoor het moeilijk is om de aangepaste beweging te generaliseren naar andere uiterlijken. Om deze uitdaging te overwinnen, stellen we MotionDirector voor, met een dual-path LoRAs-architectuur om het leren van uiterlijk en beweging te ontkoppelen. Verder ontwerpen we een nieuw uiterlijk-ongebiasd tijdelijk verlies om de invloed van uiterlijk op het tijdelijke trainingsdoel te verminderen. Experimentele resultaten tonen aan dat de voorgestelde methode video's van diverse uiterlijken kan genereren voor de aangepaste bewegingen. Onze methode ondersteunt ook verschillende downstream-toepassingen, zoals het mengen van verschillende video's met hun respectievelijke uiterlijk en beweging, en het animeren van een enkele afbeelding met aangepaste bewegingen. Onze code en modelgewichten zullen worden vrijgegeven.