Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De integratie en implementatie van intelligente agents gebaseerd op grote taalmodellen (LLM's) zijn behept met uitdagingen die hun efficiëntie en effectiviteit in gevaar brengen. Tot deze problemen behoren suboptimale planning en toewijzing van resources voor agentverzoeken aan het LLM, de moeilijkheden bij het behouden van context tijdens interacties tussen agent en LLM, en de complexiteiten die inherent zijn aan het integreren van heterogene agents met verschillende capaciteiten en specialisaties. De snelle toename van het aantal agents en hun complexiteit verergert deze problemen verder, wat vaak leidt tot knelpunten en suboptimale benutting van resources. Geïnspireerd door deze uitdagingen presenteert dit artikel AIOS, een LLM-agentbesturingssysteem dat grote taalmodellen integreert in besturingssystemen (OS). Specifiek is AIOS ontworpen om de toewijzing van resources te optimaliseren, contextwisselingen tussen agents te vergemakkelijken, gelijktijdige uitvoering van agents mogelijk te maken, tools te leveren voor agents en toegangscontrole voor agents te handhaven. We presenteren de architectuur van een dergelijk besturingssysteem, schetsen de kernuitdagingen die het wil oplossen, en bieden het basisontwerp en de implementatie van AIOS. Onze experimenten met gelijktijdige uitvoering van meerdere agents demonstreren de betrouwbaarheid en efficiëntie van onze AIOS-modules. Hiermee streven we ernaar niet alleen de prestaties en efficiëntie van LLM-agents te verbeteren, maar ook een voortrekkersrol te spelen in de verdere ontwikkeling en implementatie van het AIOS-ecosysteem in de toekomst. Het project is open-source beschikbaar op https://github.com/agiresearch/AIOS.
Text-to-image diffusiemodellen beschikken over een ongekend vermogen om diverse en hoogwaardige afbeeldingen te genereren. Ze hebben echter vaak moeite om de beoogde semantiek van complexe invoerprompts die meerdere onderwerpen bevatten, nauwkeurig vast te leggen. Onlangs zijn er talrijke layout-to-image-extensies geïntroduceerd om de gebruikerscontrole te verbeteren, met als doel onderwerpen die door specifieke tokens worden vertegenwoordigd te lokaliseren. Toch produceren deze methoden vaak semantisch onnauwkeurige afbeeldingen, vooral wanneer ze te maken hebben met meerdere semantisch of visueel vergelijkbare onderwerpen. In dit werk bestuderen en analyseren we de oorzaken van deze beperkingen. Onze verkenning toont aan dat het primaire probleem voortkomt uit onbedoelde semantische lekkage tussen onderwerpen tijdens het denoisingsproces. Deze lekkage wordt toegeschreven aan de aandachtslagen van het diffusiemodel, die de neiging hebben om de visuele kenmerken van verschillende onderwerpen te vermengen. Om deze problemen aan te pakken, introduceren we Bounded Attention, een trainingsvrije methode om de informatiestroom in het samplingproces te begrenzen. Bounded Attention voorkomt schadelijke lekkage tussen onderwerpen en maakt het mogelijk de generatie te sturen om de individualiteit van elk onderwerp te bevorderen, zelfs bij complexe multi-subjectconditionering. Door uitgebreide experimenten tonen we aan dat onze methode de generatie van meerdere onderwerpen mogelijk maakt die beter aansluiten bij gegeven prompts en lay-outs.
Dit werk presenteert FlashFace, een praktisch hulpmiddel waarmee gebruikers hun eigen foto's gemakkelijk en snel kunnen personaliseren door een of enkele referentiegezichtsafbeeldingen en een tekstprompt te verstrekken. Onze aanpak onderscheidt zich van bestaande methoden voor het aanpassen van menselijke foto's door een hogere betrouwbaarheid in identiteitsbehoud en beter instructievolgen, wat voortkomt uit twee subtiele ontwerpen. Ten eerste coderen we de gezichtsidentiteit in een reeks kenmerkkaarten in plaats van één beeldtoken zoals in eerdere technieken, waardoor het model meer details van de referentiegezichten kan behouden (bijv. littekens, tatoeages en gezichtsvorm). Ten tweede introduceren we een ontvlochten integratiestrategie om de tekst- en beeldbegeleiding in balans te brengen tijdens het tekst-naar-beeld generatieproces, waardoor het conflict tussen de referentiegezichten en de tekstprompts wordt verlicht (bijv. het personaliseren van een volwassene naar een "kind" of een "ouderling"). Uitgebreide experimentele resultaten tonen de effectiviteit van onze methode aan in diverse toepassingen, waaronder het personaliseren van menselijke afbeeldingen, gezichtsverwisseling onder taalprompts, het omzetten van virtuele personages in echte mensen, enz. Projectpagina: https://jshilong.github.io/flashface-page.
Recente vooruitgang in diffusiemodellen heeft hen aan de voorhoede van beeldgeneratie geplaatst. Ondanks hun superieure prestaties zijn diffusiemodellen niet zonder nadelen; ze worden gekenmerkt door complexe architecturen en aanzienlijke rekenkundige eisen, wat resulteert in aanzienlijke latentie vanwege hun iteratieve samplingproces. Om deze beperkingen te verminderen, introduceren we een dubbele aanpak die modelminiaturisatie en een vermindering van samplingstappen omvat, gericht op het aanzienlijk verlagen van model latentie. Onze methodologie maakt gebruik van kennisdistillatie om de U-Net en beelddecoder architecturen te stroomlijnen, en introduceert een innovatieve één-stap DM-trainingsmethode die gebruikmaakt van feature matching en score distillatie. We presenteren twee modellen, SDXS-512 en SDXS-1024, die respectievelijk inferentiesnelheden bereiken van ongeveer 100 FPS (30x sneller dan SD v1.5) en 30 FPS (60x sneller dan SDXL) op een enkele GPU. Bovendien biedt onze trainingsaanpak veelbelovende toepassingen in beeld-geconditioneerde controle, waardoor efficiënte beeld-naar-beeld vertaling mogelijk wordt gemaakt.
Het comprimeren van hoogwaardige Large Language Models (LLMs) is naar voren gekomen als een favoriete strategie voor resource-efficiënte inferenties. Hoewel state-of-the-art (SoTA) compressiemethoden indrukwekkende vooruitgang laten zien in het behouden van goede taakprestaties, zijn de potentiële risico's van compressie op het gebied van veiligheid en betrouwbaarheid grotendeels verwaarloosd. Deze studie voert de eerste grondige evaluatie uit van drie (3) toonaangevende LLMs met behulp van vijf (5) SoTA compressietechnieken over acht (8) betrouwbaarheidsdimensies. Onze experimenten benadrukken de complexe wisselwerking tussen compressie en betrouwbaarheid, waarbij enkele interessante patronen aan het licht komen. We constateren dat kwantisering momenteel een effectievere aanpak is dan pruning om zowel efficiëntie als betrouwbaarheid te bereiken. Zo behoudt een 4-bit gekwantiseerd model de betrouwbaarheid van zijn originele tegenhanger, maar leidt model pruning tot een significante afname van de betrouwbaarheid, zelfs bij 50% sparsity. Bovendien kan het toepassen van kwantisering binnen een gematigd bitbereik onverwacht bepaalde betrouwbaarheidsdimensies zoals ethiek en eerlijkheid verbeteren. Omgekeerd neigt extreme kwantisering naar zeer lage bitniveaus (3 bits) tot een significante vermindering van de betrouwbaarheid. Dit verhoogde risico kan niet worden blootgelegd door alleen naar goede prestaties te kijken, wat op zijn beurt een uitgebreide betrouwbaarheidsevaluatie in de praktijk vereist. Deze bevindingen resulteren in praktische aanbevelingen voor het gelijktijdig bereiken van hoge bruikbaarheid, efficiëntie en betrouwbaarheid in LLMs. Modellen en code zijn beschikbaar op https://decoding-comp-trust.github.io/.
We introduceren RakutenAI-7B, een reeks Japanse grote taalmodellen die de beste prestaties behalen op de Japanese LM Harness benchmarks onder de open 7B-modellen. Naast het basismodel brengen we ook instructie- en chat-geoptimaliseerde modellen uit, respectievelijk RakutenAI-7B-instruct en RakutenAI-7B-chat, onder de Apache 2.0-licentie.
Recente vooruitgang in tekst-naar-video-generatie heeft het nut van krachtige diffusiemodellen aangetoond. Desalniettemin is het probleem niet triviaal wanneer diffusiemodellen worden gevormd om statische afbeeldingen te animeren (d.w.z., beeld-naar-video-generatie). De moeilijkheid ontstaat uit het feit dat het diffusieproces van opeenvolgende geanimeerde frames niet alleen een nauwkeurige afstemming met de gegeven afbeelding moet behouden, maar ook temporele samenhang tussen aangrenzende frames moet nastreven. Om dit te verlichten, presenteren we TRIP, een nieuwe aanpak van het beeld-naar-video-diffusieparadigma dat draait om een beeldruisprior afgeleid van een statische afbeelding om gezamenlijk inter-frame relationeel redeneren te activeren en het coherente temporele modelleren te vergemakkelijken via temporeel residu-leren. Technisch gezien wordt de beeldruisprior eerst verkregen via een eenstaps achterwaartse diffusieproces gebaseerd op zowel de statische afbeelding als de geruisde video latente codes. Vervolgens voert TRIP een residu-achtig dubbelpad-schema uit voor ruisvoorspelling: 1) een kortpad dat direct de beeldruisprior als referentieruis voor elk frame neemt om de afstemming tussen het eerste frame en de opeenvolgende frames te versterken; 2) een residupad dat een 3D-UNet gebruikt over de geruisde video en statische afbeelding latente codes om inter-frame relationeel redeneren mogelijk te maken, waardoor het leren van de residu-ruis voor elk frame wordt vergemakkelijkt. Bovendien worden zowel de referentie- als de residu-ruis van elk frame dynamisch samengevoegd via een aandachtmechanisme voor de uiteindelijke videogeneratie. Uitgebreide experimenten op de WebVid-10M, DTDB en MSR-VTT datasets demonstreren de effectiviteit van onze TRIP voor beeld-naar-video-generatie. Zie onze projectpagina op https://trip-i2v.github.io/TRIP/.
Recente innovaties op het gebied van tekst-naar-3D-generatie hebben Score Distillation Sampling (SDS) geïntroduceerd, wat zero-shot leren van impliciete 3D-modellen (NeRF) mogelijk maakt door direct kennis te distilleren uit 2D-diffusiemodellen. Huidige SDS-gebaseerde modellen hebben echter nog steeds moeite met complexe tekstprompts en resulteren vaak in vervormde 3D-modellen met onrealistische texturen of inconsistenties tussen verschillende aanzichten. In dit werk introduceren we een nieuw Visueel Prompt-gestuurd tekst-naar-3D-diffusiemodel (VP3D) dat expliciet de visuele uiterlijkheidskennis in 2D-visuele prompts benut om tekst-naar-3D-generatie te verbeteren. In plaats van SDS uitsluitend te sturen met een tekstprompt, maakt VP3D eerst gebruik van een 2D-diffusiemodel om een hoogwaardige afbeelding te genereren vanuit de invoertekst, die vervolgens als visuele prompt fungeert om de SDS-optimalisatie te versterken met expliciete visuele uiterlijkheid. Tegelijkertijd koppelen we de SDS-optimalisatie aan een aanvullende differentieerbare beloningsfunctie die ervoor zorgt dat gerenderde afbeeldingen van 3D-modellen beter visueel overeenkomen met de 2D-visuele prompt en semantisch aansluiten bij de tekstprompt. Door middel van uitgebreide experimenten tonen we aan dat de 2D Visuele Prompt in ons VP3D het leren van de visuele uiterlijkheid van 3D-modellen aanzienlijk vergemakkelijkt en zo leidt tot een hogere visuele kwaliteit met meer gedetailleerde texturen. Het is ook aantrekkelijk om te zien dat, wanneer de zelf gegenereerde visuele prompt wordt vervangen door een gegeven referentieafbeelding, VP3D een nieuwe taak van gestileerde tekst-naar-3D-generatie kan activeren. Onze projectpagina is beschikbaar op https://vp3d-cvpr24.github.io.