Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij stellen een nieuwe persona-gestuurde data-synthesemethodologie voor die gebruikmaakt van verschillende perspectieven binnen een groot taalmodel (LLM) om diverse synthetische data te creëren. Om deze methodologie op grote schaal optimaal te benutten, introduceren we Persona Hub – een verzameling van 1 miljard diverse persona's die automatisch zijn samengesteld uit webdata. Deze 1 miljard persona's (~13% van de wereldbevolking), die fungeren als gedistribueerde dragers van wereldkennis, kunnen bijna elk perspectief binnen het LLM aanspreken, waardoor de creatie van diverse synthetische data op grote schaal voor verschillende scenario's wordt gefaciliteerd. Door de gebruiksmogelijkheden van Persona Hub te demonstreren bij het synthetiseren van hoogwaardige wiskundige en logische redeneerproblemen, instructies (d.w.z. gebruikersprompts), kennisrijke teksten, game-NPC's en tools (functies) op grote schaal, tonen we aan dat persona-gestuurde data-synthese veelzijdig, schaalbaar, flexibel en gebruiksvriendelijk is. Dit kan mogelijk een paradigmaverschuiving teweegbrengen in de creatie en toepassing van synthetische data in de praktijk, wat een diepgaande impact kan hebben op het onderzoek en de ontwikkeling van LLM's.
De snelle ontwikkeling van multimodale grote taalmodellen (MLLMs), zoals GPT-4V, heeft tot aanzienlijke vooruitgang geleid. Deze modellen kampen echter nog steeds met uitdagingen op het gebied van medische multimodale capaciteiten vanwege beperkingen in de hoeveelheid en kwaliteit van medische visueel-tekstuele gegevens, die voortkomen uit zorgen over gegevensprivacy en hoge annotatiekosten. Hoewel baanbrekende benaderingen gebruikmaken van grootschalige, geanonimiseerde medische beeld-tekstparen van PubMed om deze beperkingen aan te pakken, schieten ze nog steeds tekort vanwege inherente ruis in de gegevens. Om dit aan te pakken, hebben we medische beeld-tekstparen van PubMed verfijnd en MLLMs (GPT-4V) in een 'ongeblindeerde' capaciteit ingezet om de gegevens te ontdoen van ruis en te herformatteren, wat resulteerde in de creatie van de PubMedVision-dataset met 1,3 miljoen medische VQA-voorbeelden. Onze validatie toont aan dat: (1) PubMedVision de medische multimodale capaciteiten van huidige MLLMs aanzienlijk kan verbeteren, met significante verbeteringen in benchmarks, waaronder de MMMU Health & Medicine-track; (2) handmatige controles door medische experts en empirische resultaten bevestigen de superieure gegevenskwaliteit van onze dataset in vergelijking met andere methoden voor gegevensconstructie. Met behulp van PubMedVision trainen we een 34B medisch MLLM, HuatuoGPT-Vision, dat superieure prestaties laat zien in medische multimodale scenario's onder open-source MLLMs.
Op het gebied van grote taalmmodellen (LLMs) is Knowledge Distillation (KD) een cruciale techniek voor het overdragen van capaciteiten van leraarmodellen naar studentmodellen. Bestaande KD-methoden kampen echter met beperkingen en uitdagingen bij de distillatie van LLMs, waaronder efficiëntie en onvoldoende meetmogelijkheden van de traditionele KL-divergentie. Het is aangetoond dat LLMs kunnen dienen als een impliciete beloningsfunctie, die wij definiëren als een aanvulling op KL-divergentie. In dit werk stellen wij Direct Preference Knowledge Distillation (DPKD) voor voor LLMs. DPKD maakt gebruik van distributiedivergentie om het voorkeursverlies en de impliciete beloningsfunctie weer te geven. Wij herformuleren KD van LLMs in twee fasen: eerst optimaliseren we een doelstelling bestaande uit de impliciete beloning en omgekeerde KL-divergentie, en vervolgens verbeteren we de voorkeurskans van leraaruitvoeringen ten opzichte van studentuitvoeringen. Wij hebben experimenten en analyses uitgevoerd op diverse datasets met LLM-parameters variërend van 120M tot 13B en tonen de brede toepasbaarheid en effectiviteit van onze DPKD-aanpak aan. Tegelijkertijd bewijzen wij de waarde en effectiviteit van de geïntroduceerde impliciete beloning en uitvoerpreferentie in KD door experimenten en theoretische analyse. De DPKD-methode overtreft de baseline-methode zowel in de precisie van de uitvoerrespons als in het exacte overeenstemmingspercentage. Code en data zijn beschikbaar op https://aka.ms/dpkd.
Grote Taalmodellen (LLM's) die zijn uitgerust met uitgebreide wereldkennis en sterke redeneervaardigheden kunnen diverse taken in verschillende domeinen aanpakken, vaak door deze te formuleren als conversatie-achtige instructie-responsparen. In dit artikel stellen we LLaRA voor: Large Language and Robotics Assistant, een framework dat het actiebeleid van robots formuleert als conversaties en verbeterde reacties biedt wanneer het wordt getraind met aanvullende data die het beleidsleren aanvullen. LLM's met visuele invoer, d.w.z. Vision Language Models (VLM's), hebben de capaciteit om toestandsinformatie te verwerken als visueel-tekstuele prompts en optimale beleidsbeslissingen in tekst te genereren. Om dergelijke actiebeleid-VLM's te trainen, introduceren we eerst een geautomatiseerde pijplijn om diverse hoogwaardige robotica-instructiedata te genereren uit bestaande gedragsklooningsdata. Een VLM die is afgestemd op de resulterende verzameling datasets op basis van een conversatie-achtige formulering die is toegesneden op robotica-taken, kan zinvolle robotactiebeleidsbeslissingen genereren. Onze experimenten in meerdere gesimuleerde en real-world omgevingen demonstreren de state-of-the-art prestaties van het voorgestelde LLaRA-framework. De code, datasets en vooraf getrainde modellen zijn beschikbaar op https://github.com/LostXine/LLaRA.
Onlangs heeft 3D Gaussian splatting (3D-GS) grote successen geboekt bij het reconstrueren en renderen van real-world scènes. Om de hoge renderkwaliteit over te brengen naar generatietaken, heeft een reeks onderzoekswerken geprobeerd om 3D-Gaussian-assets te genereren uit tekst. De gegenereerde assets hebben echter niet dezelfde kwaliteit bereikt als die in reconstructietaken. We observeren dat Gaussians de neiging hebben om onbeheerst te groeien, wat onbepaaldheid kan veroorzaken tijdens het generatieproces. Om de generatiekwaliteit aanzienlijk te verbeteren, stellen we een nieuw framework voor genaamd GaussianDreamerPro. Het hoofdidee is om Gaussians te binden aan redelijke geometrie, die zich gedurende het hele generatieproces ontwikkelt. In verschillende fasen van ons framework kunnen zowel de geometrie als het uiterlijk progressief worden verrijkt. Het uiteindelijke output-asset wordt geconstrueerd met 3D Gaussians gebonden aan een mesh, wat aanzienlijk verbeterde details en kwaliteit laat zien in vergelijking met eerdere methoden. Opmerkelijk is dat het gegenereerde asset ook naadloos kan worden geïntegreerd in downstream manipulatiepijplijnen, zoals animatie, compositie en simulatie, wat het potentieel voor brede toepassingen sterk bevordert. Demo's zijn beschikbaar op https://taoranyi.com/gaussiandreamerpro/.
Recente ontwikkelingen in Large Language Models hebben de ML/AI-ontwikkeling getransformeerd, wat een herziening van de AutoML-principes voor Retrieval-Augmented Generation (RAG)-systemen noodzakelijk maakt. Om de uitdagingen van hyperparameteroptimalisatie en online aanpassing in RAG aan te pakken, stellen we het AutoRAG-HP-framework voor, dat het afstemmen van hyperparameters formuleert als een online multi-armed bandit (MAB)-probleem en een nieuwe twee-level Hiërarchische MAB (Hier-MAB)-methode introduceert voor efficiënte verkenning van grote zoekruimten. We voeren uitgebreide experimenten uit voor het afstemmen van hyperparameters, zoals het aantal opgehaalde documenten (top-k), de promptcompressieverhouding en embeddingmethoden, met behulp van de ALCE-ASQA en Natural Questions-datasets. Onze evaluatie van de gezamenlijke optimalisatie van alle drie de hyperparameters toont aan dat MAB-gebaseerde online-leermethoden een Recall@5 van ongeveer 0,8 kunnen bereiken voor scenario's met duidelijke gradiënten in de zoekruimte, waarbij slechts ongeveer 20% van de LLM API-aanroepen nodig is die de Grid Search-benadering vereist. Bovendien presteert de voorgestelde Hier-MAB-benadering beter dan andere baseline-methoden in meer uitdagende optimalisatiescenario's. De code zal beschikbaar worden gesteld op https://aka.ms/autorag.
Het Segment Anything Model (SAM) heeft brede aandacht getrokken vanwege zijn superieure interactieve segmentatiecapaciteiten met visuele prompts, terwijl het gebruik van tekstprompts nog niet grondig is onderzocht. In dit artikel onderzoeken we empirisch welke tekstprompt-encoders (bijv. CLIP of LLM) geschikt zijn om SAM aan te passen voor verwijzende expressiesegmentatie en introduceren we de Early Vision-language Fusion-based SAM (EVF-SAM). EVF-SAM is een eenvoudige maar effectieve methode voor verwijzende segmentatie die gebruikmaakt van multimodale prompts (d.w.z. afbeelding en tekst) en bestaat uit een vooraf getraind vision-language-model om verwijzende prompts te genereren en een SAM-model voor segmentatie. Verrassend genoeg observeren we dat: (1) multimodale prompts en (2) vision-language-modellen met vroege fusie (bijv. BEIT-3) gunstig zijn voor het aansturen van SAM voor nauwkeurige verwijzende segmentatie. Onze experimenten tonen aan dat de voorgestelde EVF-SAM, gebaseerd op BEIT-3, state-of-the-art prestaties kan behalen op RefCOCO/+/g voor verwijzende expressiesegmentatie en de superioriteit aantoont van het aansturen van SAM met vroege vision-language-fusie. Bovendien bereikt de voorgestelde EVF-SAM met 1,32B parameters een aanzienlijk hogere prestatie terwijl bijna 82% van de parameters wordt verminderd in vergelijking met eerdere SAM-methoden gebaseerd op grote multimodale modellen.
We introduceren Arboretum, de grootste openbaar toegankelijke dataset die is ontworpen om AI voor biodiversiteitstoepassingen te bevorderen. Deze dataset, samengesteld vanuit het iNaturalist citizen science-platform en gecontroleerd door domeinexperts om nauwkeurigheid te waarborgen, omvat 134,6 miljoen afbeeldingen, wat bestaande datasets in schaal met een orde van grootte overtreft. De dataset bevat beeld-taalgekoppelde gegevens voor een diverse set soorten, waaronder vogels (Aves), spinnen/teken/mijten (Arachnida), insecten (Insecta), planten (Plantae), schimmels/paddenstoelen (Fungi), slakken (Mollusca) en slangen/hagedissen (Reptilia), waardoor het een waardevolle bron is voor multimodale vision-language AI-modellen voor biodiversiteitsbeoordeling en landbouwonderzoek. Elke afbeelding is geannoteerd met wetenschappelijke namen, taxonomische details en gebruikelijke namen, wat de robuustheid van AI-modeltraining versterkt. We demonstreren de waarde van Arboretum door een reeks CLIP-modellen vrij te geven die zijn getraind met een subset van 40 miljoen beelden met bijschriften. We introduceren verschillende nieuwe benchmarks voor rigoureuze beoordeling, rapporteren nauwkeurigheid voor zero-shot learning, en evaluaties over levensfasen, zeldzame soorten, verwarrende soorten en verschillende niveaus van de taxonomische hiërarchie. We verwachten dat Arboretum de ontwikkeling van AI-modellen zal stimuleren die een verscheidenheid aan digitale tools mogelijk maken, variërend van plaagbestrijdingsstrategieën, gewasmonitoring, en wereldwijde biodiversiteitsbeoordeling tot milieubescherming. Deze vooruitgang is cruciaal voor het waarborgen van voedselzekerheid, het behoud van ecosystemen en het beperken van de gevolgen van klimaatverandering. Arboretum is openbaar beschikbaar, gemakkelijk toegankelijk en klaar voor direct gebruik. Bezoek de https://baskargroup.github.io/Arboretum/{projectwebsite} voor links naar onze gegevens, modellen en code.
Het opschalen van deep Reinforcement Learning (RL)-methoden vormt een aanzienlijke uitdaging. In navolging van ontwikkelingen in generatieve modellering positioneert modelgebaseerde RL zich als een sterke kandidaat. Recente vooruitgang in sequentiemodellering heeft geleid tot effectieve transformer-gebaseerde wereldmodellen, zij het tegen de prijs van zware berekeningen vanwege de lange sequenties van tokens die nodig zijn om omgevingen nauwkeurig te simuleren. In dit werk stellen we Delta-IRIS voor, een nieuwe agent met een wereldmodelarchitectuur die bestaat uit een discrete auto-encoder die stochastische delta's tussen tijdstappen codeert en een autoregressieve transformer die toekomstige delta's voorspelt door de huidige staat van de wereld samen te vatten met continue tokens. In de Crafter-benchmark vestigt Delta-IRIS een nieuwe standaard op meerdere frame-budgetten, terwijl het een orde van grootte sneller is om te trainen dan eerdere aandacht-gebaseerde benaderingen. We maken onze code en modellen beschikbaar op https://github.com/vmicheli/delta-iris.
Reinforcement Learning met Menselijke Feedback (RLHF) heeft groot succes geboekt bij het afstemmen van grote taalmmodellen (LLMs) op menselijke voorkeuren. Gangbare RLHF-benaderingen zijn beloningsgebaseerd en volgen de Bradley-Terry (BT) modelaanname, wat mogelijk niet de volledige complexiteit van menselijke voorkeuren vastlegt. In dit artikel verkennen we RLHF binnen een algemeen voorkeurskader en benaderen we het vanuit een speltheoretisch perspectief. Specifiek formuleren we het probleem als een tweespelersspel en introduceren we een nieuw algoritme, iteratieve Nash-beleidsoptimalisatie (INPO). Het kernidee is om het beleid tegen zichzelf te laten spelen via no-regret learning, waardoor het Nash-beleid wordt benaderd. In tegenstelling tot eerdere methoden omzeilt INPO de noodzaak om de verwachte winratio voor individuele reacties te schatten, wat doorgaans hoge rekenkundige of annotatiekosten met zich meebrengt. In plaats daarvan introduceren we een nieuw verliesdoel dat direct wordt geminimaliseerd over een voorkeursdataset. We bieden een theoretische analyse van onze aanpak en demonstreren de effectiviteit ervan via experimenten op diverse representatieve benchmarks. Met een LLaMA-3-8B-gebaseerd SFT-model behaalt INPO een lengtegecontroleerde winratio van 41,5% op AlpacaEval 2.0 en een winratio van 38,3% op Arena-Hard, wat een aanzienlijke verbetering laat zien ten opzichte van het state-of-the-art iteratieve algoritme [Dong et al., 2024] onder de BT modelaanname. Daarnaast benadrukt onze ablatiestudie de voordelen van het incorporeren van KL-regularisatie voor lengtecontrole van reacties.
Dit artikel introduceert een nieuwe, entiteitsbewuste metriek, genaamd Radiological Report (Text) Evaluation (RaTEScore), om de kwaliteit van medische rapporten gegenereerd door AI-modellen te beoordelen. RaTEScore legt de nadruk op cruciale medische entiteiten zoals diagnostische uitkomsten en anatomische details, en is robuust tegen complexe medische synoniemen en gevoelig voor ontkenningsexpressies. Technisch gezien hebben we een uitgebreide medische NER-dataset, RaTE-NER, ontwikkeld en een NER-model specifiek voor dit doel getraind. Dit model maakt het mogelijk om complexe radiologische rapporten te ontleden in samenstellende medische entiteiten. De metriek zelf wordt afgeleid door de gelijkenis van entiteitsembeddingen, verkregen uit een taalmodel, te vergelijken op basis van hun types en relevantie voor klinische betekenis. Onze evaluaties tonen aan dat RaTEScore beter aansluit bij menselijke voorkeuren dan bestaande metrieken, wat is gevalideerd op zowel gevestigde publieke benchmarks als ons nieuw voorgestelde RaTE-Eval benchmark.