Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Een van de grote uitdagingen van kunstmatige algemene intelligentie is het ontwikkelen van agents die in staat zijn wetenschappelijk onderzoek uit te voeren en nieuwe kennis te ontdekken. Hoewel frontier-modellen al worden gebruikt als hulpmiddelen voor menselijke wetenschappers, bijvoorbeeld voor het bedenken van ideeën, het schrijven van code of voorspellingstaken, voeren ze nog steeds slechts een klein deel van het wetenschappelijke proces uit. Dit artikel presenteert het eerste uitgebreide raamwerk voor volledig automatische wetenschappelijke ontdekking, waardoor frontier large language models onafhankelijk onderzoek kunnen uitvoeren en hun bevindingen kunnen communiceren. We introduceren The AI Scientist, dat nieuwe onderzoeksideeën genereert, code schrijft, experimenten uitvoert, resultaten visualiseert, zijn bevindingen beschrijft door een volledig wetenschappelijk artikel te schrijven en vervolgens een gesimuleerd beoordelingsproces uitvoert voor evaluatie. In principe kan dit proces worden herhaald om ideeën op iteratieve wijze in een open-ended stijl te ontwikkelen, vergelijkbaar met de menselijke wetenschappelijke gemeenschap. We demonstreren de veelzijdigheid ervan door het toe te passen op drie verschillende subvelden van machine learning: diffusiemodellering, transformer-gebaseerd taalmodeleren en leer dynamieken. Elk idee wordt geïmplementeerd en ontwikkeld tot een volledig artikel tegen een kostprijs van minder dan $15 per artikel. Om de gegenereerde artikelen te evalueren, ontwerpen en valideren we een geautomatiseerde reviewer, waarvan we aantonen dat deze bijna menselijke prestaties behaalt bij het beoordelen van artikelscores. The AI Scientist kan artikelen produceren die de acceptatiedrempel van een topmachine learning-conferentie overschrijden, zoals beoordeeld door onze geautomatiseerde reviewer. Deze aanpak markeert het begin van een nieuw tijdperk in wetenschappelijke ontdekking binnen machine learning: het brengen van de transformerende voordelen van AI-agents naar het volledige onderzoeksproces van AI zelf, en brengt ons dichter bij een wereld waarin eindeloze betaalbare creativiteit en innovatie kunnen worden losgelaten op 's werelds meest uitdagende problemen. Onze code is open-source beschikbaar op https://github.com/SakanaAI/AI-Scientist.
Dit artikel introduceert rStar, een zelfspel-methode voor wederzijds redeneren die de redeneervaardigheden van kleine taalmodelen (SLMs) aanzienlijk verbetert zonder fine-tuning of superieure modellen. rStar ontkoppelt redeneren in een zelfspel-proces van wederzijdse generatie-discriminatie. Eerst verrijkt een doel-SLM de Monte Carlo Tree Search (MCTS) met een uitgebreide set van mensachtige redeneeracties om hogere kwaliteit redeneertrajecten te construeren. Vervolgens fungeert een andere SLM, met vergelijkbare capaciteiten als de doel-SLM, als discriminator om elk door de doel-SLM gegenereerd traject te verifiëren. De wederzijds overeengekomen redeneertrajecten worden als wederzijds consistent beschouwd en zijn daardoor waarschijnlijker correct. Uitgebreide experimenten met vijf SLMs tonen aan dat rStar effectief diverse redeneerproblemen kan oplossen, waaronder GSM8K, GSM-Hard, MATH, SVAMP en StrategyQA. Opmerkelijk is dat rStar de nauwkeurigheid van GSM8K verhoogt van 12,51% naar 63,91% voor LLaMA2-7B, van 36,46% naar 81,88% voor Mistral-7B, en van 74,53% naar 91,13% voor LLaMA3-8B-Instruct. De code zal beschikbaar zijn op https://github.com/zhentingqi/rStar.
Diffusiemodellen hebben opmerkelijke en robuuste capaciteiten getoond in zowel beeld- als videogeneratie. Om een grotere controle over de gegenereerde resultaten te bereiken, introduceren onderzoekers aanvullende architecturen, zoals ControlNet, Adapters en ReferenceNet, om conditioneringscontroles te integreren. Huidige methoden voor controleerbare generatie vereisen echter vaak aanzienlijke extra rekenbronnen, vooral voor videogeneratie, en kampen met uitdagingen tijdens het trainen of vertonen zwakke controle. In dit artikel stellen we ControlNeXt voor: een krachtige en efficiënte methode voor controleerbare beeld- en videogeneratie. We ontwerpen eerst een eenvoudigere en efficiëntere architectuur, waarbij zware aanvullende takken worden vervangen door minimale extra kosten in vergelijking met het basismodel. Zo'n beknopte structuur stelt onze methode ook in staat om naadloos te integreren met andere LoRA-gewichten, waardoor stijlverandering mogelijk is zonder aanvullende training. Wat betreft training, verminderen we tot 90% van de leerbare parameters in vergelijking met alternatieven. Bovendien stellen we een andere methode voor, genaamd Cross Normalization (CN), als vervanging voor 'Zero-Convolution' om snelle en stabiele trainingsconvergentie te bereiken. We hebben diverse experimenten uitgevoerd met verschillende basismodellen voor zowel beelden als video's, wat de robuustheid van onze methode aantoont.
Med42-v2 introduceert een reeks klinische large language models (LLM's) die zijn ontworpen om de beperkingen van generieke modellen in gezondheidszorgomgevingen aan te pakken. Deze modellen zijn gebouwd op de Llama3-architectuur en verfijnd met gespecialiseerde klinische gegevens. Ze ondergingen een meerfasige voorkeursafstemming om effectief te reageren op natuurlijke prompts. Terwijl generieke modellen vaak voorkeursafgestemd zijn om klinische vragen uit voorzorg niet te beantwoorden, is Med42-v2 specifiek getraind om deze beperking te overwinnen, waardoor het in klinische omgevingen kan worden gebruikt. De Med42-v2-modellen tonen superieure prestaties vergeleken met de originele Llama3-modellen in zowel 8B als 70B parameterconfiguraties en GPT-4 op diverse medische benchmarks. Deze LLM's zijn ontwikkeld om klinische vragen te begrijpen, redeneertaken uit te voeren en waardevolle ondersteuning te bieden in klinische omgevingen. De modellen zijn nu publiekelijk beschikbaar op https://huggingface.co/m42-health{https://huggingface.co/m42-health}.
We introduceren CogVideoX, een grootschalig diffusie-transformer-model ontworpen voor het genereren van video's op basis van tekstprompts. Om videogegevens efficiënt te modelleren, stellen we voor om een 3D Variational Autoencoder (VAE) te gebruiken om video's te comprimeren langs zowel ruimtelijke als temporele dimensies. Om de tekst-video-uitlijning te verbeteren, introduceren we een expert-transformer met expert-adaptieve LayerNorm om de diepe fusie tussen de twee modaliteiten te vergemakkelijken. Door gebruik te maken van een progressieve trainingstechniek is CogVideoX in staat om samenhangende, langdurige video's te produceren die worden gekenmerkt door significante bewegingen. Daarnaast ontwikkelen we een effectieve tekst-video-dataprocessingpijplijn die verschillende gegevensvoorbewerkingsstrategieën en een videobeschrijvingsmethode omvat. Dit helpt aanzienlijk om de prestaties van CogVideoX te verbeteren, zowel wat betreft generatiekwaliteit als semantische uitlijning. Resultaten tonen aan dat CogVideoX state-of-the-art prestaties levert op zowel meerdere machine-metrics als menselijke evaluaties. De modelgewichten van zowel de 3D Causale VAE als CogVideoX zijn publiekelijk beschikbaar op https://github.com/THUDM/CogVideo.
We introduceren FruitNeRF, een geïntegreerd raamwerk voor het tellen van fruit dat gebruikmaakt van state-of-the-art methoden voor viewsynthese om elk fruittype direct in 3D te tellen. Ons raamwerk neemt een ongeordende set van gepositioneerde afbeeldingen, gemaakt door een monoculaire camera, en segmenteert fruit in elke afbeelding. Om ons systeem onafhankelijk te maken van het fruittype, gebruiken we een foundation model dat binaire segmentatiemaskers genereert voor elk fruit. Door beide modaliteiten, RGB en semantiek, te benutten, trainen we een semantisch neural radiance field. Via uniforme volumesampling van het impliciete Fruit Field verkrijgen we puntenwolken die alleen fruit bevatten. Door cascaded clustering toe te passen op de geëxtraheerde puntenwolk, bereikt onze aanpak een nauwkeurige fruittelling. Het gebruik van neural radiance fields biedt aanzienlijke voordelen ten opzichte van conventionele methoden zoals objecttracking of optische flow, omdat het tellen zelf in 3D plaatsvindt. Onze methode voorkomt dubbeltelling van fruit en vermijdt het tellen van irrelevant fruit. We evalueren onze methodologie met behulp van zowel real-world als synthetische datasets. De real-world dataset bestaat uit drie appelbomen met handmatig getelde grondwaarden, een benchmark-appeldataset met één rij en grondwaarde fruitleveringen, terwijl de synthetische dataset verschillende fruittypes omvat, waaronder appel, pruim, citroen, peer, perzik en mango. Daarnaast beoordelen we de prestaties van fruittelling met behulp van het foundation model in vergelijking met een U-Net.
Grote Multimodale Modellen (LMMs) hebben een nieuw tijdperk ingeluid in de kunstmatige intelligentie, waarbij mogelijkheden op het gebied van taal en visie worden samengevoegd om zeer capabele Visuele Basisagenten te vormen. Deze agenten worden verondersteld uit te blinken in een veelvoud aan taken, waarbij ze mogelijk algemene kunstmatige intelligentie benaderen. Bestaande benchmarks slagen er echter niet in om het volledige potentieel van LMMs in complexe, realistische omgevingen voldoende uit te dagen of te demonstreren. Om dit gat te dichten, introduceren we VisualAgentBench (VAB), een uitgebreide en baanbrekende benchmark die specifiek is ontworpen om LMMs te trainen en te evalueren als visuele basisagenten in diverse scenario's, waaronder Embodied, Grafische Gebruikersinterfaces en Visueel Ontwerp, met taken die zijn geformuleerd om de diepte van het begrip en de interactiemogelijkheden van LMMs te onderzoeken. Door rigoureuze tests uit te voeren op negen propriëtaire LMM-API's en acht open modellen, demonstreren we de aanzienlijke, maar nog steeds ontwikkelende agentmogelijkheden van deze modellen. Daarnaast construeert VAB een trajecttrainingsset die is opgebouwd via hybride methoden, waaronder Programmagebaseerde Oplossers, LMM Agent Bootstrapping en Menselijke Demonstraties, wat aanzienlijke prestatieverbeteringen in LMMs bevordert door middel van gedragsklonering. Ons werk heeft niet alleen als doel om bestaande modellen te benchmarken, maar biedt ook een solide basis voor toekomstige ontwikkeling naar visuele basisagenten. Code, trainings- en testgegevens, en een deel van de fijn afgestelde open LMMs zijn beschikbaar op https://github.com/THUDM/VisualAgentBench.
In dit artikel presenteren we een nieuwe aanpak voor het creëren van 3D-hoofdavatars die in staat is om te generaliseren vanuit weinig voorbeelden van real-world data met hoge kwaliteit en robuuste animatie. Gezien het onderbepaalde karakter van dit probleem, is het integreren van voorkennis essentieel. Daarom stellen we een raamwerk voor dat bestaat uit een fase voor het leren van voorkennis en een fase voor het creëren van avatars. De fase voor het leren van voorkennis maakt gebruik van 3D-hoofdvoorkennis afgeleid van een grootschalige multi-view dynamische dataset, en de fase voor het creëren van avatars past deze voorkennis toe voor personalisatie met weinig voorbeelden. Onze aanpak vangt deze voorkennis effectief op door gebruik te maken van een op Gaussische Splatting gebaseerd auto-decoder netwerk met dynamische modellering op basis van onderdelen. Onze methode maakt gebruik van identiteit-gedeelde codering met gepersonaliseerde latente codes voor individuele identiteiten om de attributen van Gaussische primitieven te leren. Tijdens de fase voor het creëren van avatars bereiken we snelle personalisatie van hoofdavatars door inversie- en fine-tuningstrategieën toe te passen. Uitgebreide experimenten tonen aan dat ons model effectief gebruik maakt van hoofdvoorkennis en deze succesvol generaliseert naar personalisatie met weinig voorbeelden, waarbij fotorealistische renderkwaliteit, multi-view consistentie en stabiele animatie worden bereikt.
Dit artikel presenteert UniPortrait, een innovatief raamwerk voor personalisatie van menselijke afbeeldingen dat enkelvoudige en meervoudige ID-aanpassing verenigt met hoge gezichtsfideliteit, uitgebreide gezichtsbewerkbaarheid, vrije invoerbeschrijving en diverse lay-outgeneratie. UniPortrait bestaat uit slechts twee plug-and-play modules: een ID-embeddingmodule en een ID-routeringsmodule. De ID-embeddingmodule extraheert veelzijdige bewerkbare gezichtskenmerken met een ontkoppelingsstrategie voor elke ID en integreert deze in de contextruimte van diffusiemodellen. De ID-routeringsmodule combineert en verdeelt deze embeddings vervolgens adaptief naar hun respectieve regio's binnen de gesynthetiseerde afbeelding, waardoor de aanpassing van enkelvoudige en meervoudige ID's wordt bereikt. Met een zorgvuldig ontworpen tweefasen trainingsschema behaalt UniPortrait superieure prestaties in zowel enkelvoudige als meervoudige ID-aanpassing. Kwantitatieve en kwalitatieve experimenten demonstreren de voordelen van onze methode ten opzichte van bestaande benaderingen, evenals de goede schaalbaarheid, zoals de universele compatibiliteit met bestaande generatieve controle-instrumenten. De projectpagina is te vinden op https://aigcdesigngroup.github.io/UniPortrait-Page/.
In de afgelopen jaren is de transformer-architectuur de facto standaard geworden voor machine learning-algoritmen die worden toegepast op natuurlijke taalverwerking en computervisie. Ondanks opmerkelijke bewijzen van succesvolle inzet van deze architectuur in de context van robotleren, stellen wij dat standaardtransformers de structuur van het robotleren-probleem niet volledig benutten. Daarom stellen wij de Body Transformer (BoT) voor, een architectuur die gebruikmaakt van de robotembodiment door een inductieve bias te bieden die het leerproces begeleidt. Wij representeren het robotlichaam als een grafiek van sensoren en actuatoren en vertrouwen op gemaskeerde aandacht om informatie door de architectuur heen te poolen. De resulterende architectuur presteert beter dan de standaardtransformer, evenals het klassieke meerlaagse perceptron, wat betreft taakvoltooiing, schaalbaarheidseigenschappen en computationele efficiëntie bij het representeren van imitatie- of reinforcement learning-beleidsregels. Aanvullend materiaal, inclusief de open-source code, is beschikbaar op https://sferrazza.cc/bot_site.
Ondanks hun recente successen vertonen Transformer-gebaseerde grote taalmodellen verrassende foutpatronen. Een bekend voorbeeld van dergelijke foutpatronen is hun onvermogen om lengte te generaliseren: het oplossen van probleeminstanties tijdens inferentie die langer zijn dan die welke tijdens de training zijn gezien. In dit werk onderzoeken we de oorzaak van dit falen verder door een gedetailleerde analyse uit te voeren van modelgedragingen op de eenvoudige pariteitstaak. Onze analyse suggereert dat fouten in lengtegeneralisatie nauw verband houden met het onvermogen van een model om willekeurige geheugentoegangen uit te voeren binnen zijn contextvenster. We presenteren ondersteunend bewijs voor deze hypothese door de effectiviteit aan te tonen van methodologieën die de noodzaak voor indexering omzeilen of die indirect willekeurige token-toegang mogelijk maken, via inhoudsgebaseerde adressering. We laten verder zien waar en hoe het falen om willekeurige geheugentoegang uit te voeren zich manifesteert door middel van visualisaties van aandachtkaarten.