Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Latent Consistency Models (LCM's) hebben indrukwekkende prestaties geleverd bij het versnellen van tekst-naar-beeld generatieve taken, waarbij hoogwaardige afbeeldingen worden geproduceerd met een minimaal aantal inferentiestappen. LCM's zijn gedistilleerd uit vooraf getrainde latent diffusion models (LDM's) en vereisen slechts ~32 A100 GPU-trainingsuren. Dit rapport breidt het potentieel van LCM's verder uit in twee aspecten: Ten eerste hebben we door het toepassen van LoRA-distillatie op Stable-Diffusion modellen, waaronder SD-V1.5, SSD-1B en SDXL, de reikwijdte van LCM uitgebreid naar grotere modellen met aanzienlijk minder geheugenverbruik, wat resulteert in superieure beeldgeneratiekwaliteit. Ten tweede identificeren we de LoRA-parameters die zijn verkregen via LCM-distillatie als een universele Stable-Diffusion versnellingsmodule, genaamd LCM-LoRA. LCM-LoRA kan direct worden ingeplugd in verschillende Stable-Diffusion fijn afgestemde modellen of LoRA's zonder training, en vertegenwoordigt daarmee een universeel toepasbare versneller voor diverse beeldgeneratietaken. In vergelijking met eerdere numerieke PF-ODE-oplossers zoals DDIM en DPM-Solver, kan LCM-LoRA worden gezien als een plug-in neurale PF-ODE-oplosser die sterke generalisatievermogens bezit. Projectpagina: https://github.com/luosiallen/latent-consistency-model.
LLaVA-Plus is een multifunctionele multimodale assistent die de mogelijkheden van grote multimodale modellen uitbreidt. Het beschikt over een repository van vooraf getrainde visuele en visueel-taalkundige modellen en kan relevante tools activeren op basis van gebruikersinvoer om real-world taken uit te voeren. LLaVA-Plus is getraind op multimodale instructievolgdata om het vermogen te verwerven om tools te gebruiken, waarbij visueel begrip, generatie, externe kennisretrieval en composities worden bestreken. Empirische resultaten tonen aan dat LLaVA-Plus LLaVA overtreft in bestaande capaciteiten en nieuwe mogelijkheden vertoont. Het onderscheidt zich doordat de beeldquery direct wordt verankerd en actief betrokken blijft gedurende de gehele mens-AI-interactiesessies, wat het gebruik van tools aanzienlijk verbetert en nieuwe scenario's mogelijk maakt.
We presenteren Prompt Cache, een aanpak voor het versnellen van inferentie voor grote taalmodelen (LLM) door aandachtstoestanden te hergebruiken bij verschillende LLM-prompts. Veel invoerprompts hebben overlappende tekstsegmenten, zoals systeemberichten, promptsjablonen en documenten die als context worden aangeboden. Onze belangrijkste inzicht is dat door het vooraf berekenen en opslaan van de aandachtstoestanden van deze vaak voorkomende tekstsegmenten op de inferentieserver, we deze efficiënt kunnen hergebruiken wanneer deze segmenten in gebruikersprompts verschijnen. Prompt Cache maakt gebruik van een schema om dergelijke herbruikbare tekstsegmenten, genaamd promptmodules, expliciet te definiëren. Het schema zorgt voor positionele nauwkeurigheid tijdens het hergebruik van aandachtstoestanden en biedt gebruikers een interface om gecachte toestanden in hun prompt te benaderen. Met behulp van een prototype-implementatie evalueren we Prompt Cache over verschillende LLM's. We tonen aan dat Prompt Cache de latentie in de tijd-tot-eerste-token aanzienlijk vermindert, vooral bij langere prompts zoals documentgebaseerde vraagbeantwoording en aanbevelingen. De verbeteringen variëren van 8x voor GPU-gebaseerde inferentie tot 60x voor CPU-gebaseerde inferentie, allemaal terwijl de uitvoernauwkeurigheid behouden blijft en zonder dat aanpassingen aan modelparameters nodig zijn.
Grote taalmmodellen (LLMs) hebben recentelijk menselijk niveau bereikt op een reeks professionele en academische benchmarks. De toegankelijkheid van deze modellen blijft echter achter bij hun prestaties. State-of-the-art LLMs vereisen kostbare infrastructuur; zijn alleen toegankelijk via beperkte, geografisch geblokkeerde en gecensureerde webinterfaces; en ontberen publiek beschikbare code en technische rapporten. In dit artikel vertellen we het verhaal van GPT4All, een populair open source-repository dat tot doel heeft de toegang tot LLMs te democratiseren. We schetsen de technische details van de oorspronkelijke GPT4All-modellenfamilie, evenals de evolutie van het GPT4All-project van een enkel model naar een volledig ontwikkeld open source-ecosysteem. Het is onze hoop dat dit artikel zowel fungeert als een technisch overzicht van de oorspronkelijke GPT4All-modellen als een casestudy over de daaropvolgende groei van het GPT4All open source-ecosysteem.
Recente ontwikkelingen zoals LLaVA en Mini-GPT4 hebben visuele informatie succesvol geïntegreerd in LLM's, wat inspirerende resultaten heeft opgeleverd en aanleiding heeft gegeven tot een nieuwe generatie multi-modale LLM's, of MLLM's. Desalniettemin worstelen deze methoden met hallucinaties en de onderlinge interferentie tussen taken. Om deze problemen aan te pakken, stellen we een efficiënte en accurate aanpak voor om zich aan te passen aan downstream taken door gebruik te maken van LLM als een brug om meerdere expertmodellen te verbinden, namelijk u-LLaVA. Ten eerste integreren we het modaliteitsuitlijningsmodule en multi-taskmodules in de LLM. Vervolgens reorganiseren of herbouwen we multi-type openbare datasets om efficiënte modaliteitsuitlijning en instructievolging mogelijk te maken. Ten slotte wordt taakspecifieke informatie geëxtraheerd uit de getrainde LLM en aangeboden aan verschillende modules voor het oplossen van downstream taken. Het algehele framework is eenvoudig, effectief en behaalt state-of-the-art prestaties op meerdere benchmarks. We maken ons model, de gegenereerde data en de codebase ook publiekelijk beschikbaar.
De ontwikkeling van autonome rijtechnologie is afhankelijk van de geavanceerde integratie van waarnemings-, besluitvormings- en controlesystemen. Traditionele benaderingen, zowel data-gedreven als regelgebaseerd, zijn belemmerd door hun onvermogen om de nuances van complexe rijomgevingen en de intenties van andere weggebruikers te begrijpen. Dit heeft een aanzienlijke bottleneck gevormd, met name bij de ontwikkeling van gezond verstand en genuanceerde scènebegrip die nodig zijn voor veilig en betrouwbaar autonoom rijden. De opkomst van Visuele Taalmodellen (VLM) markeert een nieuwe grens in het realiseren van volledig autonoom voertuigrijden. Dit rapport biedt een uitgebreide evaluatie van het nieuwste state-of-the-art VLM, \modelnamefull, en de toepassing ervan in autonome rijscenario's. We onderzoeken de mogelijkheden van het model om rijscènes te begrijpen en te redeneren, beslissingen te nemen en uiteindelijk te handelen in de rol van een bestuurder. Onze uitgebreide tests variëren van basis scèneherkenning tot complex causaal redeneren en real-time besluitvorming onder verschillende omstandigheden. Onze bevindingen tonen aan dat \modelname superieure prestaties levert in scènebegrip en causaal redeneren in vergelijking met bestaande autonome systemen. Het toont het potentieel om out-of-distribution scenario's te hanteren, intenties te herkennen en weloverwogen beslissingen te nemen in echte rijcontexten. Er blijven echter uitdagingen bestaan, met name in richtingsonderscheiding, verkeerslichtherkenning, visuele gronding en ruimtelijke redeneertaken. Deze beperkingen benadrukken de noodzaak van verder onderzoek en ontwikkeling. Het project is nu beschikbaar op GitHub voor geïnteresseerde partijen om te raadplegen en te gebruiken: https://github.com/PJLab-ADG/GPT4V-AD-Exploration