Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Computer Vision (CV) heeft nog niet volledig de zero-shot taakgeneralisatie bereikt die wordt waargenomen in Natural Language Processing (NLP), ondanks het volgen van veel van de mijlpalen die zijn vastgesteld in NLP, zoals grote transformermodellen, uitgebreide voorafgaande training, en het auto-regressie paradigma, onder andere. In dit artikel verkennen we het idee dat CV discrete en terminologische taakdefinities aanneemt (bijv., "beeldsegmentatie"), wat een belangrijke barrière kan vormen voor zero-shot taakgeneralisatie. Onze hypothese is dat zonder echt begrip van eerder geziene taken - vanwege deze terminologische definities - diepe modellen moeite hebben om te generaliseren naar nieuwe taken. Om dit te verifiëren, introduceren we Verklarende Instructies, die een intuïtieve manier bieden om CV-taakdoelstellingen te definiëren door gedetailleerde linguïstische transformaties van invoerbeelden naar uitvoer. We creëren een grootschalige dataset bestaande uit 12 miljoen "beeldinvoer naar verklarende instructie naar uitvoer" triplets, en trainen een op auto-regressie gebaseerd visie-taalmodel (AR-gebaseerd VLM) dat zowel beelden als verklarende instructies als invoer neemt. Door te leren deze instructies te volgen, bereikt het AR-gebaseerde VLM instructieniveau zero-shot mogelijkheden voor eerder geziene taken en toont het sterke zero-shot generalisatie voor ongeziene CV-taken. Code en dataset zullen openlijk beschikbaar zijn op ons GitHub repository.
Multimodale grote taalmodellen (MLLM's) hebben aanzienlijk potentieel in het medische veld, maar hun mogelijkheden worden vaak beperkt door onvoldoende gegevens in bepaalde medische domeinen, waarbij de noodzaak wordt benadrukt om te begrijpen welke soorten afbeeldingen door MLLM's kunnen worden gebruikt voor generalisatie. Huidig onderzoek suggereert dat multi-taak training beter presteert dan enkelvoudige taaktraining omdat verschillende taken elkaar kunnen helpen, maar ze zien vaak de interne relaties binnen deze taken over het hoofd, waardoor er beperkte richtlijnen worden gegeven voor het selecteren van datasets om specifieke taken te verbeteren. Om dit fenomeen te analyseren, hebben we geprobeerd om compositorische generalisatie (CG) - het vermogen van modellen om nieuwe combinaties te begrijpen door geleerde elementen opnieuw te combineren - te gebruiken als een leidraad. Aangezien medische afbeeldingen nauwkeurig kunnen worden gedefinieerd door Modaliteit, Anatomisch gebied en Taak, bieden ze van nature een omgeving voor het verkennen van CG. Daarom hebben we 106 medische datasets samengesteld om Med-MAT te creëren voor uitgebreide experimenten. De experimenten bevestigden dat MLLM's CG kunnen gebruiken om ongeziene medische afbeeldingen te begrijpen en identificeerden CG als een van de belangrijkste drijfveren van de generalisatie die wordt waargenomen bij multi-taak training. Bovendien toonden verdere studies aan dat CG effectief datasets met beperkte gegevens ondersteunt en consistente prestaties levert over verschillende backbones, waarbij de veelzijdigheid en brede toepasbaarheid ervan worden benadrukt. Med-MAT is openbaar beschikbaar op https://github.com/FreedomIntelligence/Med-MAT.
De snelle evolutie van grote taalmodellen (LLM's) heeft hun mogelijkheden ontsloten in geavanceerde redeneertaken zoals wiskundige probleemoplossing, codegeneratie en juridische analyse. Centraal in deze vooruitgang staan redeneeralgoritmes op inferentietijd, die uitvoer verfijnen door meerdere oplossingspaden te verkennen, ten koste van toenemende rekeneisen en responstijden. Bestaande bedieningssystemen slagen er niet in zich aan te passen aan de schaalbaarheid van deze algoritmes of de variërende moeilijkheidsgraad van vragen, wat leidt tot inefficiënt gebruik van middelen en niet nagekomen latentiedoelen. We presenteren Dynasor, een systeem dat inferentietijdrekenkracht optimaliseert voor LLM-redeneervragen. In tegenstelling tot traditionele engines volgt en plant Dynasor verzoeken binnen redeneervragen en gebruikt het Certaindex, een proxy die statistische redeneervoortgang meet op basis van modelzekerheid, om rekenkracht dynamisch te sturen. Dynasor past planning aan op redeneervoortgang: het wijst meer rekenkracht toe aan moeilijke vragen, vermindert rekenkracht voor eenvoudigere vragen en beëindigt veelbelovende vragen vroegtijdig, waarbij nauwkeurigheid, latentie en kosten in balans worden gehouden. Op diverse datasets en algoritmes vermindert Dynasor rekenkracht tot 50% bij batchverwerking en handhaaft het 3,3x hogere vraagsnelheden of 4,7x strakkere latentie-SLO's bij online bediening.
Als een bevestigde behoefte blijft consistente bewerking over afbeeldingen in het wild een technische uitdaging vanwege verschillende onbeheersbare factoren, zoals objectposities, lichtomstandigheden en fotografieomgevingen. Edicho biedt een oplossing zonder training op basis van diffusiemodellen, met als fundamenteel ontwerpprincipe het gebruik van expliciete beeldovereenkomsten om bewerkingen te sturen. Belangrijke onderdelen zijn een aandachtsmanipulatiemodule en een zorgvuldig verfijnde begeleidingsstrategie zonder classifier (CFG) voor ruisvermindering, die beide rekening houden met de vooraf geschatte overeenkomst. Een dergelijk algoritme op inferentietijd heeft een plug-and-play karakter en is compatibel met de meeste op diffusie gebaseerde bewerkingsmethoden, zoals ControlNet en BrushNet. Uitgebreide resultaten tonen de doeltreffendheid van Edicho aan bij consistente bewerking tussen afbeeldingen onder diverse omstandigheden. We zullen de code vrijgeven om toekomstige studies te vergemakkelijken.
We presenteren PERSE, een methode voor het bouwen van een animeerbaar gepersonaliseerd generatief avatar vanuit een referentieportret. Ons avatarmodel maakt het bewerken van gezichtskenmerken mogelijk in een continue en ontkoppeld latente ruimte om elk gezichtskenmerk te controleren, terwijl de identiteit van het individu behouden blijft. Om dit te bereiken, begint onze methode met het synthetiseren van grootschalige synthetische 2D video datasets, waarbij elke video consistente veranderingen in de gezichtsuitdrukking en het gezichtspunt bevat, gecombineerd met een variatie in een specifiek gezichtskenmerk van de oorspronkelijke invoer. We stellen een nieuw proces voor om hoogwaardige, fotorealistische 2D video's te produceren met bewerking van gezichtskenmerken. Door gebruik te maken van deze synthetische attribuutdataset, presenteren we een methode voor het creëren van gepersonaliseerde avatars op basis van de 3D Gaussische Splatting, waarbij een continue en ontkoppelde latente ruimte wordt geleerd voor intuïtieve manipulatie van gezichtskenmerken. Om soepele overgangen in deze latente ruimte af te dwingen, introduceren we een techniek voor regulering van de latente ruimte door gebruik te maken van geïnterpoleerde 2D gezichten als supervisie. In vergelijking met eerdere benaderingen tonen we aan dat PERSE hoogwaardige avatars genereert met geïnterpoleerde kenmerken, terwijl de identiteit van de referentiepersoon behouden blijft.
De snelle vooruitgang van grote taalmodel (LLM) technologieën heeft geleid tot de introductie van krachtige open-source instructie-aangepaste LLMs die dezelfde tekstgeneratiekwaliteit hebben als de toonaangevende tegenhangers zoals GPT-4. Terwijl het opkomen van dergelijke modellen de adoptie van LLM-technologieën versnelt in gevoelige-informatieomgevingen, onthullen de auteurs van dergelijke modellen niet de trainingsgegevens die nodig zijn voor de replicatie van de resultaten, waardoor de prestaties model-exclusief worden. Aangezien deze open-source modellen ook meertalig zijn, vermindert dit op zijn beurt de voordelen van het trainen van op taal gerichte LLMs, aangezien verbeterde inferentie-rekenkracht efficiëntie het enige gegarandeerde voordeel van een dergelijke kostbare procedure wordt. Meer kosteneffectieve opties zoals woordenschatuitbreiding en daaropvolgende voortgezette pre-training worden ook belemmerd door het gebrek aan toegang tot hoogwaardige instructie-aanpassingsgegevens, aangezien dit de belangrijkste factor is achter de resulterende LLM-taakoplossingsmogelijkheden. Om de beperkingen aan te pakken en de kosten van het taalaanpassingsproces te verlagen, stellen we Learned Embedding Propagation (LEP) voor. In tegenstelling tot bestaande benaderingen heeft onze methode lagere trainingsgegevensvereisten vanwege minimale impact op bestaande LLM-kennis, die we versterken met behulp van een nieuw ad-hoc embedding propagatieprocedure die ons in staat stelt de instructie-aanpassingsstap over te slaan en in plaats daarvan de nieuwe taalkennis rechtstreeks in elke bestaande instructie-aangepaste variant te implanteren. We hebben vier Russische woordenschatadaptaties voor LLaMa-3-8B en Mistral-7B geëvalueerd, waarbij we aantoonden dat LEP concurrerend is met traditionele instructie-aanpassingsmethoden, prestaties behaalt die vergelijkbaar zijn met OpenChat 3.5 en LLaMa-3-8B-Instruct, met verdere verbeteringen via zelfkalibratie en voortgezette afstemming die de taakoplossingsmogelijkheden verbeteren.
We introduceren OneKE, een gedockeriseerd schema-geleid kennisextractiesysteem, dat kennis kan extraheren uit het web en ruwe PDF-boeken, en ondersteuning biedt voor verschillende domeinen (wetenschap, nieuws, enz.). Specifiek ontwerpen we OneKE met meerdere agenten en een configureerbare kennisbank. Verschillende agenten vervullen hun respectievelijke rollen, waardoor ondersteuning wordt geboden voor verschillende extractiescenario's. De configureerbare kennisbank vergemakkelijkt schemaconfiguratie, foutopsporing en correctie, wat de prestaties verder verbetert. Empirische evaluaties op benchmarkdatasets tonen de doeltreffendheid van OneKE aan, terwijl casestudies verder de aanpasbaarheid ervan aan diverse taken over meerdere domeinen verduidelijken, waarbij het potentieel voor brede toepassingen wordt benadrukt. We hebben de code open source gemaakt op https://github.com/zjunlp/OneKE en een video vrijgegeven op http://oneke.openkg.cn/demo.mp4.
Onlangs begon "visuele o1" in het zicht van mensen te komen, met de verwachting dat dit langzame denkontwerp visuele redeneertaken kan oplossen, vooral meetkundige wiskundeproblemen. Echter, de realiteit is dat huidige LVLM's (Grote Visie Taalmodellen) nauwelijks zelfs nauwkeurig een meetkundige figuur kunnen kopiëren, laat staan de complexe inherente logica en ruimtelijke relaties binnen meetkundige vormen echt begrijpen. Wij geloven dat nauwkeurig kopiëren (sterke perceptie) de eerste stap is naar visuele o1. Daarom introduceren wij het concept van "langzame perceptie" (SP), dat het model begeleidt om geleidelijk basispunt-lijncombinaties waar te nemen, zoals onze mensen, complexe meetkundige structuren progressief reconstrueren. Er zijn tweeledige stadia in SP: a) perceptieontleding. Perceptie is niet onmiddellijk. In deze fase worden complexe meetkundige figuren afgebroken tot basis eenvoudige eenheden om de meetkundige representatie te verenigen. b) perceptiestroom, waarbij erkend wordt dat nauwkeurig een lijn volgen geen gemakkelijke taak is. Deze fase heeft tot doel "lange visuele sprongen" bij het teruggaan van lijnsegmenten te vermijden door een voorgestelde "perceptuele liniaal" te gebruiken om elke lijn slag voor slag te volgen. Verrassend geniet zo'n menselijke perceptiewijze van een inferentietijd schalingswet -- hoe langzamer, hoe beter. Onderzoekers hebben in het verleden geprobeerd het waarnemingsvermogen van het model te versnellen, maar wij vertragen het opnieuw, waardoor het model de afbeelding stap voor stap en zorgvuldig kan lezen.
We introduceren zelfaanroepende codegeneratie, een nieuwe taak ontworpen om de progressieve redenering en probleemoplossende capaciteiten van LLM's te evalueren. In deze taak worden modellen gepresenteerd met een basisprobleem en een gerelateerd, complexer probleem. Ze moeten het basisprobleem oplossen en vervolgens de oplossing gebruiken om het complexere probleem aan te pakken. Dit werk omvat drie belangrijke bijdragen. Ten eerste stellen we een algemeen recept voor om uitdagendere versies van bestaande benchmarks te genereren, resulterend in drie nieuwe benchmarks: HumanEval Pro, MBPP Pro en BigCodeBench-Lite Pro, specifiek ontworpen om LLM's te beoordelen op zelfaanroepende codegeneratie. Ten tweede, uit de analyse van experimentele resultaten over twintig LLM's op onze benchmarks, hebben we twee belangrijke observaties: (i) De meeste LLM's excelleren in traditionele codegeneratie benchmarks zoals HumanEval en MBPP, maar hun prestaties dalen bij zelfaanroepende taken. Bijvoorbeeld, o1-mini behaalt 96,2% pass@1 op HumanEval maar slechts 76,2% op HumanEval Pro. (ii) Bij de zelfaanroepende codegeneratietaak laten de op instructies afgestemde modellen slechts marginale verbeteringen zien in vergelijking met de basismodellen. Ten derde onthullen we de soorten faalmodi die voorkomen in onze evaluatieresultaten. Al deze resultaten benadrukken de noodzaak van verdere vooruitgang in zelfaanroepende codegeneratietaken en bieden een nieuwe richting voor toekomstig onderzoek naar het verbeteren van de codeerredeneervaardigheden van LLM's.