Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Transformers zijn recent naar voren gekomen als een krachtig hulpmiddel voor het leren van visuele representaties. In dit artikel identificeren en karakteriseren we artefacten in feature maps van zowel begeleide als zelf-begeleide ViT-netwerken. De artefacten corresponderen met tokens met een hoge norm die tijdens inferentie voornamelijk verschijnen in weinig-informatieve achtergrondgebieden van afbeeldingen, en die worden hergebruikt voor interne berekeningen. We stellen een eenvoudige maar effectieve oplossing voor, gebaseerd op het toevoegen van extra tokens aan de invoerreeks van de Vision Transformer om die rol te vervullen. We laten zien dat deze oplossing het probleem volledig oplost voor zowel begeleide als zelf-begeleide modellen, een nieuwe staat van de kunst vestigt voor zelf-begeleide visuele modellen op taken voor dichte visuele voorspelling, objectontdekkingsmethoden mogelijk maakt met grotere modellen, en vooral leidt tot vloeiendere feature maps en aandachtmaps voor downstream visuele verwerking.
We presenteren Any-Modality Augmented Language Model (AnyMAL), een geïntegreerd model dat redeneert over diverse invoermodaliteitssignalen (zoals tekst, beeld, video, audio, IMU-bewegingssensor) en tekstuele antwoorden genereert. AnyMAL erft de krachtige tekstgebaseerde redeneervaardigheden van state-of-the-art LLM's, waaronder LLaMA-2 (70B), en zet modaliteitsspecifieke signalen om naar de gezamenlijke tekstuele ruimte via een vooraf getrainde aligner-module. Om de mogelijkheden van de multimodale LLM verder te versterken, fine-tunen we het model met een multimodale instructieset die handmatig is verzameld om diverse onderwerpen en taken te bestrijken die verder gaan dan eenvoudige vraag-antwoordscenario's. We voeren een uitgebreide empirische analyse uit, bestaande uit zowel menselijke als automatische evaluaties, en demonstreren state-of-the-art prestaties op verschillende multimodale taken.
Recente vooruitgang in 3D-contentcreatie maakt vooral gebruik van optimalisatiegebaseerde 3D-generatie via score-distillatie-steekproeven (SDS). Hoewel veelbelovende resultaten zijn getoond, lijden deze methoden vaak onder trage optimalisatie per sample, wat hun praktische gebruik beperkt. In dit artikel stellen we DreamGaussian voor, een nieuw 3D-contentgeneratiekader dat zowel efficiëntie als kwaliteit tegelijkertijd bereikt. Onze belangrijkste inzicht is het ontwerpen van een generatief 3D Gaussian Splatting-model met begeleide mesh-extractie en textuurverfijning in UV-ruimte. In tegenstelling tot de bezettingssnoei die wordt gebruikt in Neural Radiance Fields, laten we zien dat de progressieve verdichting van 3D Gaussians aanzienlijk sneller convergeert voor 3D-generatietaken. Om de textuurkwaliteit verder te verbeteren en downstream-toepassingen te vergemakkelijken, introduceren we een efficiënt algoritme om 3D Gaussians om te zetten in getextureerde meshes en passen we een fine-tuning-fase toe om de details te verfijnen. Uitgebreide experimenten tonen de superieure efficiëntie en competitieve generatiekwaliteit van onze voorgestelde aanpak aan. Opmerkelijk is dat DreamGaussian hoogwaardige getextureerde meshes produceert in slechts 2 minuten vanuit een enkelbeeld, wat een versnelling van ongeveer 10 keer oplevert in vergelijking met bestaande methoden.
Grote taalmodellen (LLM's) hebben een revolutie teweeggebracht op het gebied van kunstmatige intelligentie, waardoor natuurlijke taalverwerkingstaken mogelijk zijn geworden die voorheen als exclusief voor mensen werden beschouwd. In dit werk introduceren we Qwen, het eerste deel van onze serie grote taalmodellen. Qwen is een uitgebreide serie taalmodellen die verschillende modellen omvat met uiteenlopende aantallen parameters. Het omvat Qwen, de basis vooraf getrainde taalmodellen, en Qwen-Chat, de chatmodellen die zijn afgestemd met technieken voor menselijke afstemming. De basis taalmodellen tonen consequent superieure prestaties op een veelheid van downstream taken, en de chatmodellen, met name die getraind met Reinforcement Learning from Human Feedback (RLHF), zijn zeer concurrerend. De chatmodellen beschikken over geavanceerde mogelijkheden voor het gebruik van tools en planning voor het creëren van agenttoepassingen, en laten indrukwekkende prestaties zien, zelfs in vergelijking met grotere modellen bij complexe taken zoals het gebruik van een code-interpreter. Bovendien hebben we coderingsgespecialiseerde modellen ontwikkeld, Code-Qwen en Code-Qwen-Chat, evenals wiskundegerichte modellen, Math-Qwen-Chat, die zijn gebaseerd op basis taalmodellen. Deze modellen tonen een aanzienlijk verbeterde prestaties in vergelijking met open-source modellen, en blijven iets achter bij de propriëtaire modellen.
In dit artikel presenteren we Gaussian Splatting gebaseerde tekst-naar-3D-generatie (GSGEN), een nieuwe aanpak voor het genereren van hoogwaardige 3D-objecten. Eerdere methoden kampen met onnauwkeurige geometrie en beperkte kwaliteit door het ontbreken van een 3D-prior en een geschikte representatie. Wij maken gebruik van 3D Gaussian Splatting, een recente state-of-the-art representatie, om bestaande tekortkomingen aan te pakken door het expliciete karakter ervan te benutten, wat de integratie van een 3D-prior mogelijk maakt. Specifiek neemt onze methode een progressieve optimalisatiestrategie aan, die een geometrie-optimalisatiefase en een uiterlijk-verfijningsfase omvat. In de geometrie-optimalisatie wordt een ruwe representatie vastgesteld onder een 3D-geometrieprior, samen met het gebruikelijke 2D SDS-verlies, wat zorgt voor een logische en 3D-consistente ruwe vorm. Vervolgens ondergaan de verkregen Gaussians een iteratieve verfijning om details te verrijken. In deze fase verhogen we het aantal Gaussians op basis van compactheid om continuïteit te verbeteren en de kwaliteit te verhogen. Met deze ontwerpen kan onze aanpak 3D-inhoud genereren met verfijnde details en nauwkeurigere geometrie. Uitgebreide evaluaties tonen de effectiviteit van onze methode aan, vooral voor het vastleggen van hoogfrequente componenten. Videoresultaten zijn beschikbaar op https://gsgen3d.github.io. Onze code is beschikbaar op https://github.com/gsgen3d/gsgen.
We presenteren een reeks long-context LLM's die effectieve contextvensters ondersteunen van maximaal 32.768 tokens. Onze modelreeks is gebouwd door middel van voortgezette pretraining van Llama 2 met langere trainingssequenties en op een dataset waarin lange teksten worden opgewaardeerd. We voeren uitgebreide evaluaties uit op het gebied van taalmodellering, synthetische contextonderzoekstaken en een breed scala aan onderzoeksbenchmarks. Op onderzoeksbenchmarks behalen onze modellen consistente verbeteringen op de meeste reguliere taken en aanzienlijke verbeteringen op long-context taken ten opzichte van Llama 2. Opmerkelijk is dat de 70B-variant, met een kosteneffectieve instructieafstemmingsprocedure die geen door mensen geannoteerde lange instructiedata vereist, de algehele prestaties van gpt-3.5-turbo-16k al kan overtreffen op een reeks long-context taken. Naast deze resultaten bieden we een diepgaande analyse van de individuele componenten van onze methode. We duiken in de positionele coderingen van Llama en bespreken de beperkingen ervan bij het modelleren van lange afhankelijkheden. We onderzoeken ook de impact van verschillende ontwerpkeuzes in het pretrainingsproces, waaronder de datamix en het trainingscurriculum van sequentielengtes -- onze ablatie-experimenten suggereren dat het hebben van overvloedige lange teksten in de pretrain-dataset niet de sleutel is tot het bereiken van sterke prestaties, en we verifiëren empirisch dat long-context voortgezette pretraining efficiënter en even effectief is in vergelijking met pretraining vanaf nul met lange sequenties.
We streven ernaar een belangrijk maar onderbelicht probleem in de anime-industrie aan te pakken, namelijk het inbetweenen van cartoonlijntekeningen. Inbetweenen houdt in het genereren van tussenliggende frames tussen twee zwart-wit lijntekeningen en is een tijdrovend en kostbaar proces dat baat kan hebben bij automatisering. Bestaande methoden voor frame-interpolatie die afhankelijk zijn van het matchen en vervormen van volledige rasterafbeeldingen, zijn echter ongeschikt voor lijninbetweening en produceren vaak vervagingsartefacten die de ingewikkelde lijnstructuren beschadigen. Om de precisie en detaillering van de lijntekeningen te behouden, stellen we een nieuwe aanpak voor, AnimeInbet, die rasterlijntekeningen geometriseert in grafieken van eindpunten en de inbetweening-taak herformuleert als een grafiekfusieprobleem met herpositionering van hoekpunten. Onze methode kan effectief de schaarsheid en unieke structuur van lijntekeningen vastleggen terwijl de details tijdens het inbetweenen behouden blijven. Dit wordt mogelijk gemaakt door onze nieuwe modules, namelijk geometrische inbedding van hoekpunten, een Transformer voor hoekpuntcorrespondentie, een effectief mechanisme voor herpositionering van hoekpunten en een zichtbaarheidsvoorspeller. Om onze methode te trainen, introduceren we MixamoLine240, een nieuwe dataset van lijntekeningen met grondwaarheidsvectorisatie en matchende labels. Onze experimenten tonen aan dat AnimeInbet hoogwaardige, schone en complete tussenliggende lijntekeningen synthetiseert, waarbij het bestaande methoden zowel kwantitatief als kwalitatief overtreft, vooral in gevallen met grote bewegingen. Data en code zijn beschikbaar op https://github.com/lisiyao21/AnimeInbet.
Contrastive Language-Image Pre-training (CLIP) is een benadering die onderzoek en toepassingen in computervisie heeft bevorderd, en moderne herkenningssystemen en generatieve modellen heeft aangewakkerd. Wij geloven dat het belangrijkste ingrediënt voor het succes van CLIP de data is, en niet de modelarchitectuur of het pre-trainingsdoel. CLIP biedt echter slechts zeer beperkte informatie over zijn data en hoe deze zijn verzameld, wat heeft geleid tot werken die proberen CLIP's data te reproduceren door te filteren met zijn modelparameters. In dit werk willen we CLIP's data-curatiebenadering onthullen en, in onze zoektocht om deze openbaar te maken voor de gemeenschap, introduceren we Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP neemt een ruwe datapool en metadata (afgeleid van CLIP's concepten) en levert een gebalanceerde subset op over de metadata-distributie. Onze experimentele studie isoleert rigoureus het model en de trainingsinstellingen, en concentreert zich uitsluitend op de data. MetaCLIP toegepast op CommonCrawl met 400M beeld-tekst dataparen overtreft CLIP's data op meerdere standaard benchmarks. In zero-shot ImageNet-classificatie behaalt MetaCLIP een nauwkeurigheid van 70,8%, wat CLIP's 68,3% overtreft op ViT-B modellen. Schaalvergroting naar 1B data, terwijl hetzelfde trainingsbudget wordt aangehouden, bereikt 72,4%. Onze observaties gelden voor verschillende modelgroottes, geïllustreerd door ViT-H die 80,5% bereikt, zonder enige toeters-en-bellen. De curatiecode en de trainingsdata-distributie op metadata zijn beschikbaar gesteld op https://github.com/facebookresearch/MetaCLIP.
Classifiers gebaseerd op visie-taalmodellen zoals CLIP hebben opmerkelijke zero-shot prestaties getoond over een breed scala aan beeldclassificatietaken. Eerder onderzoek heeft verschillende manieren bestudeerd om automatisch descriptorensets voor elke klasse te creëren op basis van promptsjablonen, variërend van handmatig ontworpen sjablonen tot sjablonen verkregen uit een groot taalmodel en sjablonen opgebouwd uit willekeurige woorden en karakters. Daarentegen is het afleiden van zero-shot classifiers uit de respectievelijk gecodeerde klassedescriptoren vrijwel onveranderd gebleven, namelijk: classificeer naar de klasse die de cosinusgelijkenis tussen de gemiddelde gecodeerde klassedescriptoren en het gecodeerde beeld maximaliseert. Het echter gelijkelijk wegen van alle klassedescriptoren kan suboptimaal zijn wanneer bepaalde descriptoren visuele aanwijzingen op een bepaald beeld beter matchen dan andere. In dit werk stellen we AutoCLIP voor, een methode voor het automatisch afstemmen van zero-shot classifiers. AutoCLIP wijst aan elke promptsjabloon per-beeld gewichten toe, die worden afgeleid uit statistieken van klassedescriptor-beeldgelijkenissen tijdens de inferentietijd. AutoCLIP is volledig onbewaakt, heeft zeer weinig overhead en kan eenvoudig worden geïmplementeerd in enkele regels code. We tonen aan dat voor een breed scala aan visie-taalmodellen, datasets en promptsjablonen, AutoCLIP de baseline consistent overtreft en tot 3 procentpunt nauwkeurigheid verbetert.
Betrouwbare voorspelling van het toekomstige gedrag van weggebruikers is een cruciaal onderdeel van veilige planning in autonome voertuigen. Hier representeren we continue trajecten als reeksen van discrete bewegings-tokens en formuleren we multi-agent bewegingsvoorspelling als een taalmodelleertaak binnen dit domein. Ons model, MotionLM, biedt verschillende voordelen: Ten eerste vereist het geen ankers of expliciete optimalisatie van latente variabelen om multimodale distributies te leren. In plaats daarvan maken we gebruik van een enkel standaard taalmodelleerdoel, waarbij we de gemiddelde logwaarschijnlijkheid over sequentietokens maximaliseren. Ten tweede omzeilt onze aanpak post-hoc interactieheuristieken waarbij de trajectgeneratie van individuele agents voorafgaat aan interactieve scoring. In plaats daarvan produceert MotionLM gezamenlijke distributies over interactieve agenttoekomsten in een enkel autoregressief decodeerproces. Bovendien maakt de sequentiële factorisatie van het model temporeel causale conditionele rollouts mogelijk. De voorgestelde aanpak vestigt nieuwe state-of-the-art prestaties voor multi-agent bewegingsvoorspelling op de Waymo Open Motion Dataset, en staat op de eerste plaats op de interactieve challenge leaderboard.
Recente ontwikkelingen in generatieve beeldvorming hebben outpaintings- en inpaintingsmodellen voortgebracht die hoogwaardige, geloofwaardige beeldinhoud kunnen produceren in onbekende gebieden, maar de inhoud die deze modellen hallucineren is noodzakelijkerwijs onauthentiek, omdat de modellen onvoldoende context hebben over de werkelijke scène. In dit werk stellen we RealFill voor, een nieuwe generatieve benadering voor beeldcompletering die ontbrekende gebieden van een afbeelding invult met de inhoud die daar had moeten zijn. RealFill is een generatief inpaintingmodel dat wordt gepersonaliseerd met slechts enkele referentiebeelden van een scène. Deze referentiebeelden hoeven niet uitgelijnd te zijn met de doelafbeelding en kunnen zijn gemaakt met sterk variërende gezichtspunten, lichtomstandigheden, cameradiafragma's of beeldstijlen. Eenmaal gepersonaliseerd, is RealFill in staat om een doelafbeelding aan te vullen met visueel overtuigende inhoud die trouw is aan de oorspronkelijke scène. We evalueren RealFill op een nieuwe benchmark voor beeldcompletering die een reeks diverse en uitdagende scenario's omvat, en constateren dat het bestaande benaderingen met een grote marge overtreft. Bekijk meer resultaten op onze projectpagina: https://realfill.github.io
Met de snelle vooruitgang van grote taalmodellen (LLM's) is er een dringende behoefte aan een uitgebreide evaluatiesuite om hun mogelijkheden en beperkingen te beoordelen. Bestaande LLM-ranglijsten verwijzen vaak naar scores die in andere papers zijn gerapporteerd zonder consistente instellingen en prompts, wat onbedoeld het selectief kiezen van favoriete instellingen en prompts voor betere resultaten kan aanmoedigen. In dit werk introduceren we GPT-Fathom, een open-source en reproduceerbare LLM-evaluatiesuite gebouwd bovenop OpenAI Evals. We evalueren systematisch 10+ toonaangevende LLM's evenals OpenAI's oudere modellen op 20+ gecureerde benchmarks in 7 vaardigheidscategorieën, allemaal onder gelijkgestelde instellingen. Onze retrospectieve studie van OpenAI's eerdere modellen biedt waardevolle inzichten in het evolutionaire pad van GPT-3 naar GPT-4. Momenteel is de gemeenschap erg benieuwd naar hoe GPT-3 geleidelijk verbetert naar GPT-4, inclusief technische details zoals of het toevoegen van codedata de redeneervaardigheid van LLM's verbetert, welke aspecten van LLM-vaardigheden kunnen worden verbeterd door SFT en RLHF, hoe hoog de alignment tax is, enz. Onze analyse werpt licht op veel van deze vragen, met als doel de transparantie van geavanceerde LLM's te verbeteren.
We beschouwen de taak van het genereren van diverse en realistische video's die worden gestuurd door natuurlijke audiofragmenten uit een breed scala aan semantische klassen. Voor deze taak moeten de video's zowel globaal als temporeel afgestemd zijn op de invoeraudio: globaal is de invoeraudio semantisch geassocieerd met de gehele uitvoervideo, en temporeel is elk segment van de invoeraudio geassocieerd met een overeenkomstig segment van die video. We maken gebruik van een bestaand tekstgeconditioneerd videogeneratiemodel en een vooraf getraind audio-encodermodel. De voorgestelde methode is gebaseerd op een lichtgewicht adaptornetwerk, dat leert om de audio-gebaseerde representatie af te beelden op de invoerrepresentatie die wordt verwacht door het tekst-naar-video-generatiemodel. Hierdoor maakt het ook videogeneratie mogelijk die geconditioneerd is op tekst, audio, en, voor zover wij kunnen vaststellen voor het eerst, op zowel tekst als audio. We valideren onze methode uitgebreid op drie datasets die een aanzienlijke semantische diversiteit van audio-videofragmenten demonstreren en stellen verder een nieuwe evaluatiemetriek (AV-Align) voor om de afstemming van gegenereerde video's met invoeraudiofragmenten te beoordelen. AV-Align is gebaseerd op de detectie en vergelijking van energiepieken in beide modaliteiten. In vergelijking met recente state-of-the-art benaderingen genereert onze methode video's die beter zijn afgestemd op het invoergeluid, zowel wat betreft inhoud als temporele as. We tonen ook aan dat video's die door onze methode worden geproduceerd een hogere visuele kwaliteit hebben en diverser zijn.
Om robots een breed scala aan taken te laten uitvoeren, hebben ze een 3D-representatie van de wereld nodig die semantisch rijk is, maar tegelijkertijd compact en efficiënt voor taakgestuurde perceptie en planning. Recente benaderingen hebben geprobeerd om kenmerken van grote vision-language modellen te benutten om semantiek in 3D-representaties te coderen. Deze benaderingen produceren echter vaak kaarten met per-punt feature-vectoren, die niet goed schalen in grotere omgevingen en ook geen semantische ruimtelijke relaties tussen entiteiten in de omgeving bevatten, wat nuttig is voor downstream planning. In dit werk stellen we ConceptGraphs voor, een open-vocabulary grafiekgestructureerde representatie voor 3D-scènes. ConceptGraphs wordt gebouwd door gebruik te maken van 2D foundation modellen en hun output naar 3D te fuseren via multi-view associatie. De resulterende representaties generaliseren naar nieuwe semantische klassen, zonder dat grote 3D-datasets hoeven te worden verzameld of modellen hoeven te worden gefinetuned. We demonstreren het nut van deze representatie via een aantal downstream planningtaken die worden gespecificeerd door middel van abstracte (taal) prompts en complex redeneren over ruimtelijke en semantische concepten vereisen. (Projectpagina: https://concept-graphs.github.io/ Uitlegvideo: https://youtu.be/mRhNkQwRYnc)
Het succes van taalmodelen, met name transformer-gebaseerde architecturen, heeft zich uitgebreid naar andere domeinen, wat heeft geleid tot "wetenschappelijke taalmodelen" die werken op kleine moleculen, eiwitten of polymeren. In de chemie dragen taalmodelen bij aan het versnellen van de molecuulontdekkingscyclus, zoals blijkt uit veelbelovende recente bevindingen in de vroege fase van medicijnontwikkeling. Hier bespreken we de rol van taalmodelen in moleculaire ontdekking, waarbij we hun kracht benadrukken in de novo geneesmiddelontwerp, eigenschapsvoorspelling en reactiechemie. We belichten waardevolle open-source softwaretools, waardoor de drempel om het veld van wetenschappelijk taalmodeleren te betreden wordt verlaagd. Totalschetsen we een visie voor toekomstig moleculair ontwerp dat een chatbot-interface combineert met toegang tot computationele chemietools. Onze bijdrage dient als een waardevolle bron voor onderzoekers, chemici en AI-enthousiastelingen die geïnteresseerd zijn in het begrijpen van hoe taalmodelen kunnen en zullen worden gebruikt om chemische ontdekkingen te versnellen.
In dit werk presenteren we CCEdit, een veelzijdig framework ontworpen om de uitdagingen van creatieve en controleerbare videobewerking aan te pakken. CCEdit voldoet aan een breed scala aan gebruikersbewerkingsbehoeften en biedt verbeterde creatieve controle door een innovatieve aanpak die videostructuur en -uiterlijk ontkoppelt. We maken gebruik van de fundamentele ControlNet-architectuur om de structurele integriteit te behouden, terwijl we naadloos aanpasbare temporele modules integreren die compatibel zijn met state-of-the-art personalisatietechnieken voor tekst-naar-beeldgeneratie, zoals DreamBooth en LoRA. Bovendien introduceren we referentie-geconditioneerde videobewerking, waardoor gebruikers precieze creatieve controle over videobewerking kunnen uitoefenen via het beter beheersbare proces van het bewerken van sleutelframes. Onze uitgebreide experimentele evaluaties bevestigen de uitzonderlijke functionaliteit en bewerkingsmogelijkheden van het voorgestelde CCEdit-framework. Een demovideo is beschikbaar op https://www.youtube.com/watch?v=UQw4jq-igN4.