Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Aangedreven door grootschalige voorafgaande training, is het Segment Anything Model (SAM) gedemonstreerd als een krachtig en promptbaar raamwerk, wat een revolutie teweegbrengt in segmentatiemodellen. Ondanks de algemeenheid is het aanpassen van SAM voor specifieke visuele concepten zonder menselijke prompting nog onderbelicht, bijvoorbeeld het automatisch segmenteren van je huisdierhond in verschillende afbeeldingen. In dit artikel stellen we een trainingsvrije Personalisatiebenadering voor SAM voor, genaamd PerSAM. Gegeven slechts één afbeelding met een referentiemasker, lokaliseert PerSAM eerst het doelconcept door middel van een locatieprior, en segmenteert het in andere afbeeldingen of video's via drie technieken: doelgeleide aandacht, doel-semantische prompting en gecascadeerde nabewerking. Op deze manier passen we SAM effectief aan voor privégebruik zonder enige training. Om de maskerambiguïteit verder te verlichten, presenteren we een efficiënte one-shot fine-tuning variant, PerSAM-F. Door het gehele SAM te bevriezen, introduceren we twee leerbare gewichten voor multi-schaal maskers, waarbij slechts 2 parameters binnen 10 seconden worden getraind voor verbeterde prestaties. Om onze effectiviteit aan te tonen, construeren we een nieuw segmentatiedataset, PerSeg, voor gepersonaliseerde evaluatie, en testen we onze methoden op video-objectsegmentatie met competitieve prestaties. Daarnaast kan onze aanpak ook DreamBooth verbeteren om Stable Diffusion te personaliseren voor tekst-naar-afbeeldinggeneratie, wat de achtergrondverstoring wegneemt voor een betere doelverschijningsleren. Code is vrijgegeven op https://github.com/ZrrSkywalker/Personalize-SAM.
We presenteren Shap-E, een conditioneel generatief model voor 3D-assets. In tegenstelling tot recent werk over 3D-generatieve modellen die een enkele uitvoerrepresentatie produceren, genereert Shap-E direct de parameters van impliciete functies die kunnen worden weergegeven als zowel getextureerde meshes als neurale radiance fields. We trainen Shap-E in twee fasen: eerst trainen we een encoder die deterministisch 3D-assets afbeeldt op de parameters van een impliciete functie; vervolgens trainen we een conditioneel diffusiemodel op de uitvoer van de encoder. Wanneer getraind op een grote dataset van gepaarde 3D- en tekstgegevens, zijn onze resulterende modellen in staat om complexe en diverse 3D-assets in enkele seconden te genereren. In vergelijking met Point-E, een expliciet generatief model over puntenwolken, convergeert Shap-E sneller en bereikt het een vergelijkbare of betere samplekwaliteit, ondanks het modelleren van een hoger-dimensionale, multi-representatie uitvoerruimte. We geven modelgewichten, inferentiecode en samples vrij op https://github.com/openai/shap-e.
Het afstemmen van de uitvoer van grote taalmodellen, zoals ChatGPT, op specifieke gebruikersbehoeften blijft een uitdaging ondanks hun indrukwekkende generatiekwaliteit. In dit artikel stellen we een tri-agent generatiepijplijn voor, bestaande uit een generator, een instructeur en een editor, om de aanpassing van gegenereerde uitvoer te verbeteren. De generator produceert een initiële uitvoer, de gebruikersspecifieke instructeur genereert bewerkingsinstructies, en de editor produceert een herziene uitvoer die is afgestemd op gebruikersvoorkeuren. Het inference-only grote taalmodel (ChatGPT) fungeert zowel als generator als editor, terwijl een kleiner model optreedt als de gebruikersspecifieke instructeur om het generatieproces te sturen in de richting van gebruikersbehoeften. De instructeur wordt getraind met editor-gestuurde reinforcement learning, waarbij feedback van het grootschalige editormodel wordt benut om de instructiegeneratie te optimaliseren. Experimentele resultaten op twee abstractieve samenvattingsdatasets tonen de effectiviteit van onze aanpak aan in het genereren van uitvoer die beter voldoet aan gebruikersverwachtingen.
Recente AI-assistenten, zoals ChatGPT, vertrouwen voornamelijk op supervised fine-tuning (SFT) met menselijke annotaties en reinforcement learning from human feedback (RLHF) om de output van grote taalmodellen (LLMs) af te stemmen op menselijke intenties, zodat ze behulpzaam, ethisch en betrouwbaar zijn. Deze afhankelijkheid kan echter het ware potentieel van AI-assistenten aanzienlijk beperken vanwege de hoge kosten van het verkrijgen van menselijk toezicht en de gerelateerde problemen op het gebied van kwaliteit, betrouwbaarheid, diversiteit, zelfconsistentie en ongewenste vooroordelen. Om deze uitdagingen aan te pakken, stellen we een nieuwe benadering voor genaamd SELF-ALIGN, die principe-gestuurd redeneren combineert met de generatieve kracht van LLMs voor de zelfafstemming van AI-agents met minimaal menselijk toezicht. Onze aanpak omvat vier fasen: eerst gebruiken we een LLM om synthetische prompts te genereren en een onderwerpgestuurde methode om de diversiteit van de prompts te vergroten; ten tweede gebruiken we een kleine set door mensen geschreven principes die AI-modellen moeten volgen, en begeleiden we de LLM via in-context learning van demonstraties (van principe-toepassing) om behulpzame, ethische en betrouwbare reacties op gebruikersvragen te produceren; ten derde fine-tunen we het oorspronkelijke LLM met de hoogwaardige zelfafgestemde reacties, zodat het resulterende model gewenste reacties voor elke vraag direct kan genereren zonder de principeset en de demonstraties; en tot slot bieden we een verfijningsstap om de problemen van te beknopte of indirecte reacties aan te pakken. Door SELF-ALIGN toe te passen op het LLaMA-65b basis-taalmodel, ontwikkelen we een AI-assistent genaamd Dromedary. Met minder dan 300 regels menselijke annotaties (inclusief < 200 startprompts, 16 algemene principes en 5 voorbeelden voor in-context learning) overtreft Dromedary de prestaties van verschillende state-of-the-art AI-systemen, waaronder Text-Davinci-003 en Alpaca, op benchmark-datasets met diverse instellingen.