Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Software is een van de krachtigste gereedschappen die wij mensen tot onze beschikking hebben; het stelt een bekwame programmeur in staat om op complexe en diepgaande manieren met de wereld om te gaan. Tegelijkertijd heeft, dankzij verbeteringen in grote taalmodel(len) (LLMs), ook de ontwikkeling van AI-agents die interacteren met en verandering teweegbrengen in hun omgeving een snelle vlucht genomen. In dit artikel introduceren we OpenDevin, een platform voor de ontwikkeling van krachtige en flexibele AI-agents die op vergelijkbare manieren als een menselijke ontwikkelaar met de wereld interacteren: door code te schrijven, te werken met een commandoregel en het web te browsen. We beschrijven hoe het platform de implementatie van nieuwe agents mogelijk maakt, veilige interactie met gesandboxte omgevingen voor code-uitvoering, coördinatie tussen meerdere agents en de integratie van evaluatiebenchmarks. Op basis van de momenteel geïntegreerde benchmarks voeren we een evaluatie uit van agents over 15 uitdagende taken, waaronder software engineering (bijv. SWE-Bench) en webbrowsen (bijv. WebArena), onder andere. Uitgebracht onder de permissieve MIT-licentie, is OpenDevin een gemeenschapsproject dat zowel de academische wereld als de industrie omvat, met meer dan 1.300 bijdragen van meer dan 160 bijdragers, en zal zich in de toekomst verder verbeteren.
Visuele taalmodellen (VLMs) hebben een snelle vooruitgang geboekt, aangedreven door het succes van grote taalmodellen (LLMs). Hoewel modelarchitecturen en trainingsinfrastructuren snel evolueren, blijft datacuratie onderbelicht. Wanneer datahoeveelheid en -kwaliteit een knelpunt worden, crawlt bestaand werk ofwel direct meer ruwe data van het internet zonder garantie voor data-kwaliteit, of distilleert het van black-box commerciële modellen (bijv. GPT-4V / Gemini), waardoor de prestaties beperkt blijven door dat model. In dit werk introduceren we een nieuwe aanpak die een zelf-augmentatiestap en een specialist-augmentatiestap omvat om iteratief de data-kwaliteit en modelprestaties te verbeteren. In de zelf-augmentatiestap herbeschrijft een VLM zijn eigen pretrainingsdata om de data-kwaliteit te verbeteren, en traint het vervolgens opnieuw vanaf nul met deze verfijnde dataset om de modelprestaties te verhogen. Dit proces kan meerdere rondes itereren. Zodra zelf-augmentatie verzadigt, zetten we verschillende specialist-VLMs in, die zijn gefinetuned vanuit de zelf-augmenterende VLM met domeinspecifieke expertise, om specialistische kennis verder in te brengen in de generalistische VLM via taakgerichte herbeschrijving en hertraining. Met de gecombineerde zelf-augmenterende en specialist-augmenterende training introduceren we VILA^2 (VILA-augmented-VILA), een VLM-familie die consistent de nauwkeurigheid verbetert op een breed scala aan taken ten opzichte van eerdere methoden, en nieuwe state-of-the-art resultaten behaalt op de MMMU-leaderboard onder open-source modellen.
Human image animation omvat het genereren van video's vanuit een karakterfoto, wat gebruikerscontrole mogelijk maakt en potentieel ontsluit voor video- en filmproductie. Hoewel recente benaderingen indrukwekkende resultaten opleveren met behulp van hoogwaardige trainingsdata, belemmert de ontoegankelijkheid van deze datasets eerlijke en transparante benchmarking. Bovendien leggen deze benaderingen de nadruk op 2D-menselijke beweging en negeren ze het belang van camerabewegingen in video's, wat leidt tot beperkte controle en onstabiele videogeneratie. Om de trainingsdata te demystificeren, presenteren we HumanVid, de eerste grootschalige hoogwaardige dataset die speciaal is ontworpen voor human image animation, en die zowel gemaakte real-world als synthetische data combineert. Voor de real-world data hebben we een uitgebreide verzameling auteursvrije real-world video's van het internet samengesteld. Door een zorgvuldig ontworpen regelgebaseerde filterstrategie zorgen we ervoor dat hoogwaardige video's worden opgenomen, wat resulteert in een verzameling van 20K mensgerichte video's in 1080P-resolutie. Menselijke en camerabewegingsannotatie wordt gerealiseerd met behulp van een 2D-pose-estimator en een SLAM-gebaseerde methode. Voor de synthetische data hebben we 2.300 auteursvrije 3D-avatarassets verzameld om de bestaande beschikbare 3D-assets aan te vullen. Opmerkelijk is dat we een regelgebaseerde methode voor cameratrajectgeneratie introduceren, waardoor de synthetische pipeline diverse en precieze camerabewegingsannotatie kan incorporeren, wat zelden te vinden is in real-world data. Om de effectiviteit van HumanVid te verifiëren, hebben we een basismodel genaamd CamAnimate, kort voor Camera-controllable Human Animation, opgesteld dat zowel menselijke als camerabewegingen als voorwaarden beschouwt. Door uitgebreide experimenten tonen we aan dat een dergelijke eenvoudige basistraining op onze HumanVid state-of-the-art prestaties bereikt in het beheersen van zowel menselijke poses als camerabewegingen, wat een nieuwe benchmark stelt. Code en data zullen publiekelijk beschikbaar zijn op https://github.com/zhenzhiwang/HumanVid/.
Ondanks de geavanceerde intelligentiecapaciteiten van grote taalmodellen (LLM's) in diverse toepassingen, kampen ze nog steeds met aanzienlijke reken- en opslageisen. Kennisdistillatie (KD) is naar voren gekomen als een effectieve strategie om de prestaties van een kleiner LLM (d.w.z. het studentmodel) te verbeteren door kennis over te dragen van een hoogpresterend LLM (d.w.z. het leraarmodel). Gangbare technieken in LLM-distillatie gebruiken doorgaans een black-box model-API om hoogwaardige vooraf getrainde en uitgelijnde datasets te genereren, of maken gebruik van white-box distillatie door de verliesfunctie aan te passen om kennis beter over te dragen van het leraar-LLM. Deze methoden negeren echter de kennisverschillen tussen het student- en leraar-LLM over verschillende domeinen. Dit resulteert in een overmatige focus op domeinen met minimale prestatieverschillen en onvoldoende aandacht voor domeinen met grote verschillen, wat de algehele prestaties vermindert. In dit artikel introduceren we een nieuw LLM-distillatiekader genaamd DDK, dat de samenstelling van de distillatiedataset op een soepele manier dynamisch aanpast op basis van de domeinprestatieverschillen tussen het leraar- en studentmodel, waardoor het distillatieproces stabieler en effectiever wordt. Uitgebreide evaluaties tonen aan dat DDK de prestaties van studentmodellen aanzienlijk verbetert en zowel continu voorgetrainde basislijnen als bestaande kennisdistillatiemethoden met een grote marge overtreft.
De snelle vooruitgang van taalmodeltechnologie (LMs) vereist een robuuste afstemming op diverse gebruikerswaarden. Huidige benaderingen voor voorkeursoptimalisatie slagen er echter vaak niet in om de veelheid aan gebruikersopvattingen vast te leggen, en versterken in plaats daarvan meerderheidsstandpunten terwijl minderheidsperspectieven worden gemarginaliseerd. Wij introduceren PERSONA, een reproduceerbare testomgeving die is ontworpen om de pluralistische afstemming van LMs te evalueren en te verbeteren. We genereren procedureel diverse gebruikersprofielen op basis van Amerikaanse volkstellingsgegevens, wat resulteert in 1.586 synthetische persona's met uiteenlopende demografische en idiosyncratische kenmerken. Vervolgens creëren we een grootschalige evaluatiedataset met 3.868 prompts en 317.200 feedbackparen die zijn verkregen van onze synthetische persona's. Met behulp van deze dataset evalueren we systematisch de mogelijkheden van LMs om diverse gebruikers te representeren, wat wordt geverifieerd door menselijke beoordelaars, en stellen we zowel een benchmark, PERSONA Bench, voor pluralistische afstemmingsbenaderingen op als een uitgebreide dataset om nieuwe en toekomstige benchmarks te creëren. De volledige dataset en benchmarks zijn hier beschikbaar: https://www.synthlabs.ai/research/persona.
De meest fundamentele capaciteit van moderne AI-methoden, zoals Large Language Models (LLM's), is het vermogen om het volgende token in een lange reeks tokens te voorspellen, bekend als "sequence modeling." Hoewel het Transformers-model momenteel de dominante aanpak is voor sequence modeling, is de kwadratische rekencapaciteit ten opzichte van de sequentielengte een belangrijk nadeel. State-space modellen (SSM's) bieden een veelbelovend alternatief vanwege hun lineaire decodeerefficiëntie en hoge paralleliseerbaarheid tijdens het trainen. Bestaande SSM's vertrouwen echter vaak op ogenschijnlijk ad hoc ontworpen lineaire recurrenties. In dit werk verkennen we het ontwerp van SSM's vanuit het perspectief van online leren, waarbij we SSM's conceptualiseren als meta-modules voor specifieke online leerproblemen. Deze benadering koppelt het ontwerp van SSM's aan het formuleren van precieze online leerdoelen, waarbij de regels voor staatsovergangen worden afgeleid uit het optimaliseren van deze doelen. Op basis van dit inzicht introduceren we een nieuw diep SSM-architectuur gebaseerd op de impliciete update voor het optimaliseren van een online regressiedoel. Onze experimentele resultaten tonen aan dat onze modellen state-of-the-art SSM's, inclusief het Mamba-model, overtreffen op standaard sequence modeling benchmarks en taalmodelleringstaken.
We presenteren Stable Video 4D (SV4D), een latent video-diffusiemodel voor de generatie van dynamische 3D-inhoud met meerdere frames en meerdere aanzichten die consistent zijn. In tegenstelling tot eerdere methoden die afhankelijk zijn van afzonderlijk getrainde generatieve modellen voor videogeneratie en synthese van nieuwe aanzichten, ontwerpen wij een geïntegreerd diffusiemodel om video's van dynamische 3D-objecten vanuit nieuwe aanzichten te genereren. Specifiek genereert SV4D, gegeven een monoreferentievideo, voor elk videoframe nieuwe aanzichten die temporeel consistent zijn. Vervolgens gebruiken we de gegenereerde video's met nieuwe aanzichten om efficiënt een impliciete 4D-representatie (dynamische NeRF) te optimaliseren, zonder de noodzaak van omslachtige SDS-gebaseerde optimalisatie die in de meeste eerdere werken wordt gebruikt. Om ons geïntegreerde model voor het genereren van video's met nieuwe aanzichten te trainen, hebben we een dynamische 3D-objectdataset samengesteld uit de bestaande Objaverse-dataset. Uitgebreide experimentele resultaten op meerdere datasets en gebruikersstudies tonen aan dat SV4D state-of-the-art prestaties levert in zowel de synthese van video's met nieuwe aanzichten als 4D-generatie in vergelijking met eerdere werken.
Kunnen we visuomotorische robots uitrusten met generalisatievermogen om te functioneren in diverse open-wereldscenario's? In dit artikel stellen we Maniwhere voor, een generaliseerbaar raamwerk ontworpen voor visuele reinforcement learning, dat getrainde robotbeleidsregels in staat stelt te generaliseren over een combinatie van meerdere soorten visuele verstoringen. Specifiek introduceren we een multi-view representatieleerbenadering gecombineerd met een Spatial Transformer Network (STN)-module om gedeelde semantische informatie en correspondenties tussen verschillende gezichtspunten vast te leggen. Daarnaast gebruiken we een curriculumgebaseerde randomisatie- en augmentatiebenadering om het RL-trainingsproces te stabiliseren en het visuele generalisatievermogen te versterken. Om de effectiviteit van Maniwhere aan te tonen, hebben we zorgvuldig 8 taken ontworpen die articulerende objecten, bi-manuele en behendige handmanipulatietaken omvatten, waarbij Maniwhere's sterke visuele generalisatie en sim2real-transfervermogen over 3 hardwareplatforms wordt gedemonstreerd. Onze experimenten tonen aan dat Maniwhere aanzienlijk beter presteert dan bestaande state-of-the-art methoden. Video's zijn beschikbaar op https://gemcollector.github.io/maniwhere/.
Verschillende gebruikers vinden verschillende afbeeldingen die gegenereerd worden voor dezelfde prompt aantrekkelijk. Dit leidt tot gepersonaliseerde beeldgeneratie, waarbij afbeeldingen worden gemaakt die aansluiten bij de visuele voorkeur van een individu. Huidige generatieve modellen zijn echter onpersoonlijk, omdat ze zijn afgestemd op het produceren van uitkomsten die een breed publiek aanspreken. Het gebruik ervan om afbeeldingen te genereren die aansluiten bij individuele gebruikers, is afhankelijk van iteratieve handmatige prompt engineering door de gebruiker, wat inefficiënt en ongewenst is. Wij stellen voor om het beeldgeneratieproces te personaliseren door eerst de algemene voorkeuren van de gebruiker vast te leggen in een eenmalig proces, waarbij ze worden uitgenodigd om commentaar te geven op een kleine selectie afbeeldingen en uit te leggen waarom ze elke afbeelding wel of niet leuk vinden. Op basis van deze commentaren leiden we de gestructureerde gewaardeerde en niet-gewaardeerde visuele attributen van een gebruiker af, d.w.z. hun visuele voorkeur, met behulp van een groot taalmodel. Deze attributen worden gebruikt om een tekst-naar-beeldmodel te sturen bij het produceren van afbeeldingen die zijn afgestemd op de visuele voorkeur van de individuele gebruiker. Door middel van een reeks gebruikersstudies en evaluaties geleid door grote taalmodelen, tonen we aan dat de voorgestelde methode resulteert in generaties die goed aansluiten bij de visuele voorkeuren van individuele gebruikers.
Laag-precisieformaten zoals float8 zijn geïntroduceerd in hardware voor machine learning-versnelling om de rekenkundige efficiëntie te verbeteren voor het trainen en inferentie van grote taalmodellen. Desalniettemin is de adoptie door de ML-gemeenschap vertraagd door de complexe en soms kwetsbare technieken die nodig zijn om de nauwkeurigheid van training met hogere precisie te evenaren. In dit werk presenteren we Scalify, een end-to-end schaalpropagatieparadigma voor computationele grafieken, dat bestaande tensorschalingsmethoden generaliseert en formaliseert. Experimentele resultaten tonen aan dat Scalify out-of-the-box float8 matrixvermenigvuldiging en gradiëntrepresentatie ondersteunt, evenals float16 optimizer state-opslag. Onze JAX-implementatie van Scalify is open-source beschikbaar op https://github.com/graphcore-research/jax-scalify.
Veel uitdagende taken, zoals het beheren van verkeerssystemen, elektriciteitsnetwerken of toeleveringsketens, omvatten complexe besluitvormingsprocessen die meerdere conflicterende doelstellingen in evenwicht moeten brengen en de acties van verschillende onafhankelijke besluitvormers (DMs) moeten coördineren. Een perspectief voor het formaliseren en aanpakken van dergelijke taken is multi-objective multi-agent reinforcement learning (MOMARL). MOMARL breidt reinforcement learning (RL) uit naar problemen met meerdere agents die elk meerdere doelstellingen moeten overwegen in hun leerproces. In onderzoek naar reinforcement learning zijn benchmarks cruciaal om vooruitgang, evaluatie en reproduceerbaarheid te faciliteren. Het belang van benchmarks wordt onderstreept door het bestaan van talrijke benchmarkframeworks die zijn ontwikkeld voor verschillende RL-paradigma's, waaronder single-agent RL (bijv. Gymnasium), multi-agent RL (bijv. PettingZoo) en single-agent multi-objective RL (bijv. MO-Gymnasium). Om de vooruitgang van het MOMARL-veld te ondersteunen, introduceren we MOMAland, de eerste verzameling gestandaardiseerde omgevingen voor multi-objective multi-agent reinforcement learning. MOMAland voorziet in de behoefte aan uitgebreide benchmarking in dit opkomende veld en biedt meer dan 10 diverse omgevingen die variëren in het aantal agents, staatrepresentaties, beloningsstructuren en nutsoverwegingen. Om sterke basislijnen te bieden voor toekomstig onderzoek, bevat MOMAland ook algoritmen die in staat zijn om beleidsregels te leren in dergelijke omgevingen.
Een dramatische toestroom van door diffusie gegenereerde afbeeldingen heeft de afgelopen jaren het veld gemarkeerd, wat unieke uitdagingen oplevert voor huidige detectietechnologieën. Hoewel de taak van het identificeren van deze afbeeldingen onder binaire classificatie valt, een ogenschijnlijk eenvoudige categorie, is de rekenbelasting aanzienlijk bij het gebruik van de "reconstructie en vergelijk"-techniek. Deze aanpak, bekend als DIRE (Diffusion Reconstruction Error), identificeert niet alleen door diffusie gegenereerde afbeeldingen, maar detecteert ook die welke door GANs zijn geproduceerd, wat de brede toepasbaarheid van de techniek benadrukt. Om de rekenuitdagingen aan te pakken en de efficiëntie te verbeteren, stellen we voor om de kennis die in diffusiemodellen is ingebed te destilleren om snelle deepfake-detectiemodellen te ontwikkelen. Onze aanpak, gericht op het creëren van een klein, snel, goedkoop en lichtgewicht diffusie-gegenereerd deepfake-detectiesysteem, behoudt robuuste prestaties terwijl de operationele eisen aanzienlijk worden verminderd. Onze experimentele resultaten tonen aan dat de inferentiesnelheid 3,2 keer sneller is dan het bestaande DIRE-framework. Deze vooruitgang verbetert niet alleen de praktische inzetbaarheid van deze systemen in real-world omgevingen, maar opent ook de weg voor toekomstige onderzoeksinspanningen die de kennis van diffusiemodellen willen benutten.
Zelfrijdende industrieën maken doorgaans gebruik van professionele artiesten om verfijnde 3D-auto's te bouwen. Het is echter kostbaar om grootschalige digitale assets te creëren. Aangezien er al talloze datasets beschikbaar zijn die een groot aantal afbeeldingen van auto's bevatten, richten wij ons op het reconstrueren van hoogwaardige 3D-automodellen uit deze datasets. Deze datasets bevatten echter slechts één zijde van auto's in een voorwaarts bewegende scène. We proberen bestaande generatieve modellen te gebruiken om meer supervisie-informatie te bieden, maar deze modellen hebben moeite om goed te generaliseren voor auto's, omdat ze zijn getraind op synthetische datasets die niet specifiek voor auto's zijn. Bovendien raakt de gereconstrueerde 3D-autotekstuur uitgelijnd door een grote fout in de camerapose-schatting bij het omgaan met beelden uit de echte wereld. Deze beperkingen maken het voor eerdere methoden uitdagend om complete 3D-auto's te reconstrueren. Om deze problemen aan te pakken, stellen we een nieuwe methode voor, genaamd DreamCar, die hoogwaardige 3D-auto's kan reconstrueren op basis van een paar afbeeldingen, zelfs een enkele afbeelding. Om het generatieve model te generaliseren, hebben we een autodataset verzameld, genaamd Car360, met meer dan 5.600 voertuigen. Met deze dataset maken we het generatieve model robuuster voor auto's. We gebruiken deze auto-specifieke generatieve prior om de reconstructie te begeleiden via Score Distillation Sampling. Om de supervisie-informatie verder aan te vullen, maken we gebruik van de geometrische en uiterlijke symmetrie van auto's. Ten slotte stellen we een pose-optimalisatiemethode voor die poses corrigeert om tekstuuruitlijning aan te pakken. Uitgebreide experimenten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande methoden in het reconstrueren van hoogwaardige 3D-auto's. https://xiaobiaodu.github.io/dreamcar-project/{Onze code is beschikbaar.}