Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel behandelt een belangrijke uitdaging waar Vision Transformers (ViTs) mee te maken hebben: hun beperkte schaalbaarheid over verschillende beeldresoluties. Over het algemeen vertonen ViTs een prestatievermindering bij het verwerken van resoluties die afwijken van die tijdens de training zijn gezien. Ons werk introduceert twee belangrijke innovaties om dit probleem aan te pakken. Ten eerste stellen we een nieuwe module voor voor dynamische resolutieaanpassing, ontworpen met een enkele Transformer-block, specifiek om zeer efficiënte incrementele tokenintegratie te bereiken. Ten tweede introduceren we fuzzy positionele codering in de Vision Transformer om consistente positionele bewustwording over meerdere resoluties te bieden, waardoor overfitting aan een enkele trainingsresolutie wordt voorkomen. Ons resulterende model, ViTAR (Vision Transformer met Elke Resolutie), toont indrukwekkende aanpassingsvermogen, met een top-1 nauwkeurigheid van 83,3% bij een resolutie van 1120x1120 en 80,4% nauwkeurigheid bij een resolutie van 4032x4032, allemaal terwijl de rekenkosten worden verlaagd. ViTAR toont ook sterke prestaties in downstream taken zoals instance- en semantische segmentatie en kan eenvoudig worden gecombineerd met zelfsupervised learning-technieken zoals Masked AutoEncoder. Ons werk biedt een kosteneffectieve oplossing voor het verbeteren van de resolutieschaalbaarheid van ViTs, wat de weg vrijmaakt voor veelzijdigere en efficiëntere beeldverwerking met hoge resolutie.
In dit werk introduceren we Mini-Gemini, een eenvoudig en effectief raamwerk dat multi-modaliteit Vision Language Models (VLMs) verbetert. Ondanks de vooruitgang in VLMs die basisvisuele dialoog en redenering mogelijk maken, blijft er een prestatiekloof bestaan in vergelijking met geavanceerde modellen zoals GPT-4 en Gemini. We proberen deze kloof te verkleinen door het potentieel van VLMs te benutten voor betere prestaties en een any-to-any workflow vanuit drie aspecten, namelijk hoogresolutie visuele tokens, hoogwaardige data en VLM-gestuurde generatie. Om visuele tokens te verbeteren, stellen we voor om een extra visuele encoder te gebruiken voor hoogresolutieverfijning zonder het aantal visuele tokens te verhogen. We construeren verder een hoogwaardige dataset die nauwkeurig beeldbegrip en redeneringsgebaseerde generatie bevordert, waardoor het operationele bereik van huidige VLMs wordt uitgebreid. Over het algemeen benut Mini-Gemini het potentieel van VLMs verder en versterkt het huidige raamwerken met beeldbegrip, redenering en generatie tegelijkertijd. Mini-Gemini ondersteunt een reeks dense en MoE Large Language Models (LLMs) van 2B tot 34B. Het blijkt toonaangevende prestaties te behalen in verschillende zero-shot benchmarks en overtreft zelfs ontwikkelde private modellen. Code en modellen zijn beschikbaar op https://github.com/dvlab-research/MiniGemini.
Diffusiemodellen hebben een revolutie teweeggebracht in beeldbewerking, maar genereren vaak afbeeldingen die de natuurwetten schenden, met name de effecten van objecten op de scène, zoals occlusies, schaduwen en reflecties. Door de beperkingen van zelfgesuperviseerde benaderingen te analyseren, stellen we een praktische oplossing voor die draait om een contrafeitelijke dataset. Onze methode omvat het vastleggen van een scène voor en na het verwijderen van een enkel object, waarbij andere veranderingen tot een minimum worden beperkt. Door een diffusiemodel te finetunen op deze dataset, kunnen we niet alleen objecten verwijderen, maar ook hun effecten op de scène. We ontdekken echter dat het toepassen van deze aanpak voor fotorealistische objectinvoeging een onpraktisch grote dataset vereist. Om deze uitdaging aan te pakken, stellen we bootstrap-supervisie voor; door gebruik te maken van ons objectverwijderingsmodel dat is getraind op een kleine contrafeitelijke dataset, breiden we deze dataset synthetisch aanzienlijk uit. Onze aanpak overtreft eerdere methoden aanzienlijk in fotorealistische objectverwijdering en -invoeging, met name in het modelleren van de effecten van objecten op de scène.
Grote taalmodellen (LLM's) genereren vaak inhoud die feitelijke fouten bevat wanneer ze reageren op feitenzoekende prompts over open-einde onderwerpen. Om de feitelijkheid van lange teksten van een model in open domeinen te benchmarken, gebruiken we eerst GPT-4 om LongFact te genereren, een promptset die duizenden vragen omvat over 38 onderwerpen. Vervolgens stellen we voor dat LLM-agenten kunnen worden gebruikt als geautomatiseerde evaluatoren voor de feitelijkheid van lange teksten via een methode die we Search-Augmented Factuality Evaluator (SAFE) noemen. SAFE maakt gebruik van een LLM om een lange tekstreactie op te splitsen in een reeks individuele feiten en om de nauwkeurigheid van elk feit te evalueren via een meerstaps redeneerproces dat bestaat uit het versturen van zoekopdrachten naar Google Search en het bepalen of een feit wordt ondersteund door de zoekresultaten. Bovendien stellen we voor om de F1-score uit te breiden als een geaggregeerde metriek voor de feitelijkheid van lange teksten. Hiervoor balanceren we het percentage ondersteunde feiten in een reactie (precisie) met het percentage geleverde feiten ten opzichte van een hyperparameter die de gewenste reactielengte van een gebruiker vertegenwoordigt (recall). Empirisch tonen we aan dat LLM-agenten bovennatuurlijke beoordelingsprestaties kunnen bereiken – op een set van ~16k individuele feiten is SAFE het 72% van de tijd eens met door crowdsourcing verkregen menselijke annotators, en op een willekeurige subset van 100 gevallen van meningsverschil wint SAFE 76% van de tijd. Tegelijkertijd is SAFE meer dan 20 keer goedkoper dan menselijke annotators. We benchmarken ook dertien taalmodellen op LongFact over vier modelfamilies (Gemini, GPT, Claude en PaLM-2), waarbij we vaststellen dat grotere taalmodellen over het algemeen betere feitelijkheid van lange teksten bereiken. LongFact, SAFE en alle experimentele code zijn beschikbaar op https://github.com/google-deepmind/long-form-factuality.
We introduceren Garment3DGen, een nieuwe methode om 3D-kledingassets te synthetiseren vanuit een basismesh, waarbij een enkele invoerafbeelding als richtlijn dient. Onze voorgestelde aanpak stelt gebruikers in staat om 3D-getextureerde kleding te genereren op basis van zowel echte als synthetische afbeeldingen, zoals die gegenereerd worden door tekstprompts. De gegenereerde assets kunnen direct worden gedrapeerd en gesimuleerd op menselijke lichamen. Ten eerste maken we gebruik van de recente vooruitgang in beeld-naar-3D diffusiemethoden om 3D-kledinggeometrieën te genereren. Omdat deze geometrieën echter niet direct kunnen worden gebruikt voor downstream taken, stellen we voor om ze als pseudo-grondwaarheid te gebruiken en een mesh-deformatieoptimalisatieprocedure op te zetten die een basismesh vervormt om overeen te komen met het gegenereerde 3D-doel. Ten tweede introduceren we zorgvuldig ontworpen verliesfuncties die ervoor zorgen dat het invoermesh vrij kan vervormen naar het gewenste doel, terwijl de meshkwaliteit en topologie behouden blijven, zodat ze kunnen worden gesimuleerd. Tot slot genereert een textuurberekeningsmodule hoogwaardige textuurkaarten die zowel globaal als lokaal consistent zijn en de invoerrichtlijn nauwkeurig vastleggen, waardoor we de gegenereerde 3D-assets kunnen renderen. Met Garment3DGen kunnen gebruikers de getextureerde 3D-kleding van hun keuze genereren zonder tussenkomst van een kunstenaar. Men kan een tekstuele prompt opgeven die de gewenste kleding beschrijft om een simulatieklare 3D-asset te genereren. We presenteren een breed scala aan kwantitatieve en kwalitatieve vergelijkingen op verschillende assets, zowel echt als gegenereerd, en bieden use-cases van hoe men simulatieklare 3D-kleding kan genereren.
Modellen zoals GPT-4 en Med-PaLM 2 hebben indrukwekkende prestaties laten zien op een breed scala aan biomedische NLP-taken. Deze modellen hebben echter honderden miljarden parameters, zijn rekenkundig duur om uit te voeren, vereisen dat gebruikers hun invoergegevens via het internet versturen, en zijn getraind op onbekende gegevensbronnen. Kunnen kleinere, meer gerichte modellen concurreren? Om deze vraag te beantwoorden, hebben wij BioMedLM gebouwd en vrijgegeven, een autoregressief GPT-model met 2,7 miljard parameters dat uitsluitend is getraind op PubMed-samenvattingen en volledige artikelen. Wanneer het wordt gefinetuned, kan BioMedLM sterke resultaten behalen bij meerkeuzevragen over biomedische onderwerpen, die vergelijkbaar zijn met veel grotere modellen, zoals een score van 57,3% op MedMCQA (dev) en 69,0% op het MMLU Medical Genetics-examen. BioMedLM kan ook worden gefinetuned om nuttige antwoorden te geven op patiëntenvragen over medische onderwerpen. Dit toont aan dat kleinere modellen mogelijk kunnen dienen als transparante, privacybeschermende, economische en milieuvriendelijke fundamenten voor specifieke NLP-toepassingen, zoals in de biomedische sector. Het model is beschikbaar op de Hugging Face Hub: https://huggingface.co/stanford-crfm/BioMedLM.
We pakken de uitdaging aan om efficiënt een 3D-asset te reconstrueren vanuit een enkele afbeelding, gezien de groeiende vraag naar geautomatiseerde 3D-contentcreatiepijplijnen. Eerdere methoden zijn voornamelijk gebaseerd op Score Distillation Sampling (SDS) en Neural Radiance Fields (NeRF). Ondanks hun aanzienlijke succes, kampen deze benaderingen met praktische beperkingen vanwege langdurige optimalisatie en aanzienlijk geheugengebruik. In dit rapport introduceren we Gamba, een end-to-end geamortiseerd 3D-reconstructiemodel voor single-view afbeeldingen, met de nadruk op twee belangrijke inzichten: (1) 3D-representatie: het benutten van een groot aantal 3D-Gaussians voor een efficiënt 3D-Gaussian splatting-proces; (2) Backbone-ontwerp: het introduceren van een Mamba-gebaseerd sequentieel netwerk dat contextafhankelijk redeneren en lineaire schaalbaarheid met de sequentie (token) lengte mogelijk maakt, waardoor een aanzienlijk aantal Gaussians kan worden verwerkt. Gamba omvat belangrijke verbeteringen in gegevensvoorbewerking, regularisatieontwerp en trainingsmethodologieën. We hebben Gamba geëvalueerd tegen bestaande optimalisatiegebaseerde en feed-forward 3D-generatiebenaderingen met behulp van de real-world gescande OmniObject3D-dataset. Hier toont Gamba competitieve generatiecapaciteiten, zowel kwalitatief als kwantitatief, terwijl het opmerkelijke snelheid bereikt, ongeveer 0,6 seconde op een enkele NVIDIA A100 GPU.
In dit artikel presenteren we EgoLifter, een nieuw systeem dat scènes die zijn vastgelegd met egocentrische sensoren automatisch kan segmenteren in een volledige decompositie van individuele 3D-objecten. Het systeem is specifiek ontworpen voor egocentrische data waarbij scènes honderden objecten bevatten die zijn vastgelegd met natuurlijke (niet-scannende) beweging. EgoLifter gebruikt 3D-Gaussiaanse verdelingen als onderliggende representatie van 3D-scènes en objecten en maakt gebruik van segmentatiemaskers van het Segment Anything Model (SAM) als zwakke supervisie om flexibele en promptbare definities van objectinstanties te leren, zonder gebonden te zijn aan een specifieke objecttaxonomie. Om de uitdaging van dynamische objecten in egocentrische video's aan te pakken, hebben we een transient prediction module ontworpen die leert om dynamische objecten uit de 3D-reconstructie te filteren. Het resultaat is een volledig automatische pipeline die in staat is om 3D-objectinstanties te reconstrueren als verzamelingen van 3D-Gaussiaanse verdelingen die gezamenlijk de hele scène vormen. We hebben een nieuwe benchmark gemaakt op de Aria Digital Twin-dataset die kwantitatief aantoont dat het systeem state-of-the-art prestaties levert in open-wereld 3D-segmentatie op basis van natuurlijke egocentrische input. We hebben EgoLifter uitgevoerd op verschillende egocentrische activiteitendatasets, wat de belofte van de methode voor 3D-egocentrische perceptie op grote schaal aantoont.
Ons werk richt zich op de beperkingen die worden waargenomen in eerdere benaderingen voor objectgerichte bewerkingsproblemen, zoals onrealistische resultaten door vormafwijkingen en beperkte controle bij objectvervanging of -invoeging. Hiertoe introduceren we FlexEdit, een flexibel en controleerbaar bewerkingsframework voor objecten waarbij we latenties iteratief aanpassen bij elke denoisestap met behulp van ons FlexEdit-blok. In eerste instantie optimaliseren we latenties tijdens testtijd om af te stemmen op gespecificeerde objectbeperkingen. Vervolgens gebruikt ons framework een adaptief masker, dat automatisch wordt geëxtraheerd tijdens denoising, om de achtergrond te beschermen terwijl nieuwe inhoud naadloos wordt geïntegreerd in de doelafbeelding. We demonstreren de veelzijdigheid van FlexEdit in verschillende objectbewerkingstaken en stellen een evaluatietestsuite samen met voorbeelden uit zowel echte als synthetische afbeeldingen, samen met nieuwe evaluatiemetrics die zijn ontworpen voor objectgerichte bewerking. We voeren uitgebreide experimenten uit in verschillende bewerkingsscenario's, waarbij we de superioriteit van ons bewerkingsframework aantonen ten opzichte van recente geavanceerde tekstgestuurde beeldbewerkingsmethoden. Onze projectpagina is gepubliceerd op https://flex-edit.github.io/.
Neurale Netwerk Taalmodellen (NNLMs) voor Virtuele Assistenten (VA's) zijn over het algemeen taal-, regio- en in sommige gevallen apparaatafhankelijk, wat de inspanning om ze op te schalen en te onderhouden vergroot. Het combineren van NNLMs voor een of meer van deze categorieën is een manier om de schaalbaarheid te verbeteren. In dit werk combineren we regionale varianten van Engels om een ``Wereldwijd Engels'' NNLM te bouwen voor on-device VA's. In het bijzonder onderzoeken we de toepassing van adapter bottlenecks om dialect-specifieke kenmerken te modelleren in onze bestaande productie-NNLMs {en de multi-dialect baselines te verbeteren}. We ontdekken dat adaptermodules effectiever zijn in het modelleren van dialecten dan het specialiseren van hele subnetwerken. Op basis van dit inzicht en gebruikmakend van het ontwerp van onze productiemodellen, introduceren we een nieuwe architectuur voor het Wereldwijd Engels NNLM die voldoet aan de nauwkeurigheid, latentie en geheugenbeperkingen van onze enkele-dialectmodellen.