Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate grote taalmmodellen (LLM's) geavanceerder zijn geworden, hebben ze onze mogelijkheden om hun kwaliteit nauwkeurig te evalueren overtroffen. Het is niet alleen moeilijk om geschikte data te vinden om specifieke modelkenmerken adequaat te onderzoeken, maar ook het beoordelen van de juistheid van de vrije tekstgeneratie van een model op zich is een uitdaging. Om dit aan te pakken, vertrouwen veel evaluaties nu op het gebruik van LLM's zelf als beoordelaars om de kwaliteit van uitvoer van andere LLM's te scoren. Evaluaties maken meestal gebruik van één groot model zoals GPT-4. Hoewel deze methode in populariteit is toegenomen, is het kostbaar, is aangetoond dat het intramodelbias introduceert, en in dit werk ontdekken we dat zeer grote modellen vaak overbodig zijn. Wij stellen in plaats daarvan voor om modellen te evalueren met behulp van een Panel van LLM-beoordelaars (PoLL). Over drie verschillende beoordelaarsinstellingen en verspreid over zes verschillende datasets, ontdekken we dat het gebruik van een PoLL bestaande uit een groter aantal kleinere modellen een enkel groot beoordelingsmodel overtreft, minder intramodelbias vertoont vanwege de samenstelling van verschillende modelfamilies, en dit doet terwijl het meer dan zeven keer minder kost.
Speculatieve decodering heeft zijn effectiviteit aangetoond bij het versnellen van de inferentie van grote taalmodelen, terwijl een consistente steekproefverdeling behouden blijft. De conventionele aanpak van het trainen van een apart draft-model om een bevredigend tokenacceptatiepercentage te bereiken, kan echter kostbaar zijn. Geïnspireerd door early exiting, stellen we een nieuw zelf-speculatief decoderingframework voor, genaamd Kangaroo, dat een vast ondiep sub-netwerk gebruikt als een zelf-draft-model, waarbij de overige lagen dienen als het grotere doelmodel. We trainen een lichtgewicht en efficiënt adaptermodule bovenop het sub-netwerk om de kloof tussen het sub-netwerk en de representatiecapaciteit van het volledige model te overbruggen. Het is opmerkelijk dat de inferentielatentie van het zelf-draft-model niet langer verwaarloosbaar is in vergelijking met het grote model, wat strategieën vereist om het tokenacceptatiepercentage te verhogen terwijl de draftstappen van het kleine model worden geminimaliseerd. Om deze uitdaging aan te pakken, introduceren we een extra early exiting-mechanisme voor het genereren van draft-tokens. Specifiek stoppen we de daaropvolgende voorspelling van het kleine model tijdens de draftfase zodra het betrouwbaarheidsniveau voor het huidige token onder een bepaalde drempelwaarde valt. Uitgebreide experimenten op de Spec-Bench tonen de effectiviteit van Kangaroo aan. Onder single-sequence verificatie behaalt Kangaroo versnellingen tot 1,68 keer op de Spec-Bench, wat beter presteert dan Medusa-1 met 88,7% minder extra parameters (67M vergeleken met 591M). De code voor Kangaroo is beschikbaar op https://github.com/Equationliu/Kangaroo.
Uitmuntendheid in een breed scala van medische toepassingen stelt AI voor aanzienlijke uitdagingen, waarvoor geavanceerd redeneervermogen, toegang tot actuele medische kennis en begrip van complexe multimodale gegevens nodig zijn. Gemini-modellen, met hun sterke algemene capaciteiten in multimodaal en lang-context redeneren, bieden spannende mogelijkheden in de geneeskunde. Voortbouwend op deze kernsterktes van Gemini, introduceren we Med-Gemini, een familie van zeer capabele multimodale modellen die gespecialiseerd zijn in de geneeskunde, met de mogelijkheid om naadloos gebruik te maken van webzoekopdrachten, en die efficiënt kunnen worden aangepast aan nieuwe modaliteiten met behulp van aangepaste encoders. We evalueren Med-Gemini op 14 medische benchmarks, waarbij we nieuwe state-of-the-art (SoTA) prestaties vaststellen op 10 daarvan, en overtreffen de GPT-4-modellenfamilie op elke benchmark waar een directe vergelijking mogelijk is, vaak met een aanzienlijke marge. Op de populaire MedQA (USMLE) benchmark behaalt ons best presterende Med-Gemini-model een SoTA-prestatie van 91,1% nauwkeurigheid, met behulp van een nieuwe onzekerheidsgeleide zoekstrategie. Op 7 multimodale benchmarks, waaronder NEJM Image Challenges en MMMU (gezondheid & geneeskunde), verbetert Med-Gemini ten opzichte van GPT-4V met een gemiddeld relatief verschil van 44,5%. We demonstreren de effectiviteit van Med-Gemini's lang-context capaciteiten door SoTA-prestaties op een naald-in-een-hooiberg zoektaak uit lange geanonimiseerde gezondheidsdossiers en medische video-vraagbeantwoording, waarbij we eerdere op maat gemaakte methoden overtreffen met alleen in-context leren. Ten slotte suggereert de prestaties van Med-Gemini praktische bruikbaarheid door menselijke experts te overtreffen op taken zoals medische tekstsamenvatting, naast demonstraties van veelbelovend potentieel voor multimodale medische dialoog, medisch onderzoek en onderwijs. Samengevat bieden onze resultaten overtuigend bewijs voor het potentieel van Med-Gemini, hoewel verdere rigoureuze evaluatie cruciaal zal zijn voordat het in de praktijk wordt ingezet in dit veiligheidskritieke domein.
Ondanks vooruitgang in Grote Taalmodellen (LLMs) en Grote Multimodale Modellen (LMMs), blijft hun integratie in taalgebaseerde, mensachtige belichaamde agents onvolledig, wat de uitvoering van complexe taken in fysieke omgevingen belemmert. Bestaande integraties kenmerken zich vaak door beperkte open sourcing, wat collectieve vooruitgang in dit veld bemoeilijkt. Wij introduceren LEGENT, een open, schaalbare platform voor de ontwikkeling van belichaamde agents met behulp van LLMs en LMMs. LEGENT biedt een dubbele aanpak: een rijk, interactief 3D-omgeving met communicatieve en handelbare agents, gekoppeld aan een gebruiksvriendelijke interface, en een geavanceerde datageneratiepijplijn die gebruikmaakt van geavanceerde algoritmen om toezicht uit gesimuleerde werelden op grote schaal te benutten. In onze experimenten presteert een embryonaal visie-taal-actiemodel, getraind op LEGENT-gegenereerde data, beter dan GPT-4V in belichaamde taken, wat veelbelovende generalisatiecapaciteiten aantoont.
Grafisch ontwerp is belangrijk voor diverse toepassingen, waaronder filmproductie en gamedesign. Om een hoogwaardige scène te creëren, moeten ontwerpers meestal uren besteden in software zoals Blender, waarbij ze vaak handelingen moeten afwisselen en herhalen, zoals het verbinden van materiaalnodes, honderden keren. Bovendien kunnen lichtjes verschillende ontwerpdoelen volledig verschillende sequenties vereisen, wat automatisering bemoeilijkt. In dit artikel stellen we een systeem voor dat gebruikmaakt van Vision-Language Models (VLMs), zoals GPT-4V, om op intelligente wijze de ontwerpactieruimte te doorzoeken en tot een oplossing te komen die aan de intentie van de gebruiker voldoet. Specifiek ontwerpen we een op visie gebaseerde bewerkingsgenerator en een toestandsevaluator die samenwerken om de juiste reeks acties te vinden om het doel te bereiken. Geïnspireerd door de rol van visuele verbeelding in het menselijke ontwerpproces, versterken we de visuele redeneervaardigheden van VLMs met "verbeelde" referentiebeelden van beeldgeneratiemodellen, waardoor abstracte taal beschrijvingen visueel worden verankerd. In dit artikel leveren we empirisch bewijs dat suggereert dat ons systeem eenvoudige maar vervelende Blender-bewerkingssequenties kan produceren voor taken zoals het bewerken van procedurele materialen vanuit tekst en/of referentiebeelden, evenals het aanpassen van lichtconfiguraties voor productweergaven in complexe scènes.
Naast het schalen van basismodellen met meer data of parameters, bieden fijn afgestemde adapters een alternatieve manier om hoogwaardige, aangepaste afbeeldingen te genereren tegen lagere kosten. Adapters zijn daarom breed geadopteerd door open-source gemeenschappen, wat heeft geleid tot een database van meer dan 100K adapters - waarvan de meeste sterk zijn aangepast met onvoldoende beschrijvingen. Dit artikel onderzoekt het probleem van het matchen van een prompt aan een set relevante adapters, voortbouwend op recent werk dat de prestatieverbeteringen van het combineren van adapters benadrukt. We introduceren Stylus, dat efficiënt taakspecifieke adapters selecteert en automatisch samenstelt op basis van de trefwoorden in een prompt. Stylus beschrijft een driestapsaanpak die eerst adapters samenvat met verbeterde beschrijvingen en embeddings, relevante adapters ophaalt, en vervolgens adapters verder assembleert op basis van de trefwoorden in de prompt door te controleren hoe goed ze bij de prompt passen. Om Stylus te evalueren, ontwikkelden we StylusDocs, een gecureerde dataset met 75K adapters met vooraf berekende adapter-embeddings. In onze evaluatie op populaire Stable Diffusion checkpoints, behaalt Stylus een grotere CLIP-FID Pareto-efficiëntie en wordt het twee keer zo vaak verkozen, met zowel mensen als multimodale modellen als beoordelaars, boven het basismodel. Zie stylus-diffusion.github.io voor meer informatie.
Autonome robotsystemen die in staat zijn nieuwe manipulatie taken te leren, staan op het punt om industrieën van productie tot serviceautomatisering te transformeren. Moderne methoden (bijvoorbeeld VIP en R3M) kampen echter nog steeds met aanzienlijke obstakels, met name de domeinkloof tussen verschillende robotconfiguraties en de schaarste van succesvolle taakuitvoeringen binnen specifieke actieruimtes, wat leidt tot verkeerd uitgelijnde en ambiguë taakrepresentaties. Wij introduceren Ag2Manip (Agent-Agnostische representaties voor Manipulatie), een raamwerk gericht op het overwinnen van deze uitdagingen door middel van twee belangrijke innovaties: een nieuwe agent-agnostische visuele representatie afgeleid van menselijke manipulatievideo's, waarbij de specifieke kenmerken van de configuraties worden verhuld om de generaliseerbaarheid te vergroten; en een agent-agnostische actierepresentatie die de kinematica van een robot abstraheert naar een universele agentproxy, met nadruk op cruciale interacties tussen eindeffector en object. De empirische validatie van Ag2Manip over gesimuleerde benchmarks zoals FrankaKitchen, ManiSkill en PartManip toont een prestatieverbetering van 325%, bereikt zonder domeinspecifieke demonstraties. Ablatiestudies benadrukken de essentiële bijdragen van de visuele en actierepresentaties aan dit succes. Door onze evaluaties uit te breiden naar de echte wereld, verbetert Ag2Manip de slagingspercentages van imitatieleren significant van 50% naar 77,5%, wat de effectiviteit en generaliseerbaarheid ervan aantoont in zowel gesimuleerde als fysieke omgevingen.
De belangrijke rol van kleding in het menselijk uiterlijk benadrukt het belang van digitalisering van kleding voor de creatie van digitale mensen. Recente vooruitgang in 3D-contentcreatie is cruciaal voor de creatie van digitale mensen. Desalniettemin staat het genereren van kleding op basis van tekstbegeleiding nog in de kinderschoenen. Wij introduceren een tekstgestuurd 3D-kledinggeneratieframework, DressCode, dat als doel heeft het ontwerpen te democratiseren voor beginners en enorme potentie biedt in modeontwerp, virtueel passen en de creatie van digitale mensen. Voor ons framework introduceren we eerst SewingGPT, een GPT-gebaseerde architectuur die cross-attention integreert met tekstgeconditioneerde embedding om naaipatronen te genereren met tekstbegeleiding. We hebben ook een vooraf getrainde Stable Diffusion aangepast voor hoogwaardige, tegelgebaseerde PBR-textuurgeneratie. Door gebruik te maken van een groot taalmodel genereert ons framework CG-vriendelijke kleding via natuurlijke taalinteractie. Onze methode vergemakkelijkt ook patroonvoltooiing en textuurbewerking, waardoor het proces voor ontwerpers wordt vereenvoudigd door gebruiksvriendelijke interactie. Met uitgebreide evaluaties en vergelijkingen met andere state-of-the-art methoden toont onze methode de beste kwaliteit en afstemming op de invoerprompts. Gebruikersstudies valideren verder onze hoogwaardige renderresultaten, wat de praktische bruikbaarheid en het potentieel in productieomgevingen benadrukt.