Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Retrieval-Augmented Generation (RAG) heeft aangetoond de kennisvaardigheden te verbeteren en het hallucinatieprobleem van LLM's te verlichten. Het web is een belangrijke bron van externe kennis die wordt gebruikt in RAG-systemen, en veel commerciële systemen zoals ChatGPT en Perplexity hebben webzoekmachines gebruikt als hun belangrijkste ophaalsystemen. Typisch halen dergelijke RAG-systemen zoekresultaten op, downloaden ze HTML-bronnen van de resultaten, en extraheren ze vervolgens platte tekst uit de HTML-bronnen. Platte tekstdocumenten of fragmenten worden gevoed aan de LLM's om de generatie aan te vullen. Echter gaat veel van de structurele en semantische informatie inherent aan HTML, zoals koppen en tabelstructuren, verloren tijdens dit op platte tekst gebaseerde RAG-proces. Om dit probleem te verlichten, stellen we HtmlRAG voor, dat HTML gebruikt in plaats van platte tekst als het formaat van opgehaalde kennis in RAG. Wij geloven dat HTML beter is dan platte tekst in het modelleren van kennis in externe documenten, en de meeste LLM's hebben robuuste capaciteiten om HTML te begrijpen. Echter, het gebruik van HTML brengt nieuwe uitdagingen met zich mee. HTML bevat extra inhoud zoals tags, JavaScript en CSS-specificaties, die extra invoertokens en ruis naar het RAG-systeem brengen. Om dit probleem aan te pakken, stellen we HTML-schoonmaak-, compressie- en snoeistrategieën voor, om de HTML te verkorten terwijl het verlies van informatie wordt geminimaliseerd. Specifiek ontwerpen we een tweestaps blok-boom-gebaseerde snoeimethode die nutteloze HTML-blokken snoeit en alleen het relevante deel van de HTML behoudt. Experimenten op zes QA-datasets bevestigen de superioriteit van het gebruik van HTML in RAG-systemen.
Grote Taalmodellen (LLM's) hebben opmerkelijke generalisatie- en instructievolgcapaciteiten aangetoond met instructieafstemming. De vooruitgang in LLM's en instructieafstemming heeft geleid tot de ontwikkeling van Grote Visie-Taalmodellen (LVLM's). Echter is de bekwaamheid van de LLM's en instructieafstemming minder onderzocht in het moleculaire domein. Daarom stellen we LLaMo voor: Groot Taalmodel-gebaseerde Moleculaire grafiekassistent, dat een end-to-end getraind groot moleculair grafiek-taalmodel is. Om de discrepantie tussen de taal- en grafiekmodaliteiten te overbruggen, presenteren we de meerlaagse grafiekprojector die grafiekrepresentaties omzet in grafiektokens door de uitvoerrepresentaties van elke GNN-laag en motiefrepresentaties te abstraheren met het kruislingse-aandachtmechanisme. We introduceren ook machinaal gegenereerde moleculaire grafiekinstructiedata om het grote moleculaire grafiek-taalmodel te instrueren voor algemene moleculaire en taalbegrip. Onze uitgebreide experimenten tonen aan dat LLaMo de beste prestaties laat zien op diverse taken, zoals moleculaire beschrijvingsgeneratie, eigenschapvoorspelling en IUPAC-naamvoorspelling. De code van LLaMo is beschikbaar op https://github.com/mlvlab/LLaMo.
De toenemende mogelijkheden van grote generatieve modellen en hun steeds wijdverspreide inzet hebben zorgen doen rijzen over hun betrouwbaarheid, veiligheid en potentieel misbruik. Om deze kwesties aan te pakken, hebben recente werken voorgesteld om de modelgeneratie te controleren door modelactivaties te sturen om effectief het ontstaan of voorkomen van concepten of gedragingen in de gegenereerde output te induceren. In dit artikel introduceren we Activation Transport (AcT), een algemeen kader om activaties te sturen, geleid door optimale transporttheorie, dat veel eerdere activatiesturingswerken generaliseert. AcT is modaal-agnostisch en biedt fijnmazige controle over het modelgedrag met verwaarloosbare rekenkundige overhead, terwijl het de modelcapaciteiten minimaal beïnvloedt. We tonen experimenteel de effectiviteit en veelzijdigheid van onze benadering door belangrijke uitdagingen aan te pakken in grote taalmodellen (LLMs) en tekst-naar-afbeelding diffusiemodellen (T2Is). Voor LLMs laten we zien dat AcT toxiciteit effectief kan verminderen, willekeurige concepten kan induceren en hun waarachtigheid kan verhogen. Bij T2Is laten we zien hoe AcT fijnmazige stijlcontrole en conceptontkenning mogelijk maakt.
Huidige visionsystemen wijzen doorgaans vaste representaties toe aan afbeeldingen, ongeacht de informatieve inhoud. Dit staat in contrast met menselijke intelligentie - en zelfs grote taalmodellen - die variërende representatiecapaciteiten toewijzen op basis van entropie, context en bekendheid. Geïnspireerd hierdoor stellen wij een benadering voor om variabele lengte tokenrepresentaties te leren voor 2D-afbeeldingen. Onze encoder-decoder architectuur verwerkt recursief 2D-afbeeldingstokens, destilleert ze tot 1D latente tokens over meerdere iteraties van terugkerende roll-outs. Elke iteratie verfijnt de 2D-tokens, werkt de bestaande 1D latente tokens bij en verhoogt adaptief de representatiecapaciteit door nieuwe tokens toe te voegen. Dit maakt compressie van afbeeldingen mogelijk tot een variabel aantal tokens, variërend van 32 tot 256. We valideren onze tokenizer met behulp van reconstructieverlies- en FID-metingen, waarbij wordt aangetoond dat het aantal tokens overeenkomt met de beeldentropie, bekendheid en vereisten van downstream taken. Terugkerende tokenverwerking met toenemende representatiecapaciteit in elke iteratie vertoont tekenen van tokenspecialisatie, wat het potentieel onthult voor object-/onderdeelontdekking.
MLLM's hebben opmerkelijke begrips- en redeneervaardigheden aangetoond met complexe taal- en visuele data. Deze vooruitgang heeft de visie aangewakkerd om een generalistische robot MLLM op te zetten die bedreven is in het begrijpen van complexe menselijke instructies en het uitvoeren van verschillende fysieke taken. Het ontwikkelen van MLLM's voor echte robots is echter uitdagend vanwege de doorgaans beperkte reken- en geheugencapaciteiten die beschikbaar zijn op robotplatforms. In tegenstelling hiermee omvat de inferentie van MLLM's het opslaan van miljarden parameters en het uitvoeren van enorme berekeningen, wat aanzienlijke hardware-eisen met zich meebrengt. In ons artikel stellen we een Dynamisch Vroegtijdig Stopkader voor het Robotische Visie-Taal-Actie Model (DeeR-VLA, of simpelweg DeeR) voor dat automatisch de grootte van de geactiveerde MLLM aanpast op basis van elke situatie. De aanpak maakt gebruik van een multi-stop architectuur in MLLM's, waardoor het model de verwerking kan beëindigen zodra een juiste grootte van het model is geactiveerd voor een specifieke situatie, waardoor verdere overbodige berekeningen worden vermeden. Daarnaast ontwikkelen we nieuwe algoritmen die vroegtijdige stopcriteria vaststellen voor DeeR, afhankelijk van vooraf gedefinieerde eisen zoals gemiddelde berekeningskosten (d.w.z. energieverbruik), evenals piek-berekeningsverbruik (d.w.z. latentie) en GPU-geheugengebruik. Deze verbeteringen zorgen ervoor dat DeeR efficiënt werkt onder variërende resourcebeperkingen terwijl het concurrerende prestaties behoudt. Op de CALVIN robot manipulatie benchmark vertoont DeeR aanzienlijke verminderingen in berekeningskosten van LLM met 5,2-6,5x en GPU-geheugen van LLM met 2-6x zonder prestatieverlies. Code en checkpoints zijn beschikbaar op https://github.com/yueyang130/DeeR-VLA.
We bestuderen methoden voor het efficiënt afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren gegeven een beperkt online budget voor feedback. We formuleren eerst het probleem van het afstemmen van LLM's binnen het kader van contextuele duellerende bandieten. Deze formulering, waarin recente paradigma's zoals online RLHF en online DPO zijn opgenomen, streeft inherent naar algoritmes die efficiënt omgaan met voorbeelden en online actieve verkenning integreren. Door inzichten uit de bandietentheorie te benutten, introduceren we een verenigd algoritme gebaseerd op Thompson-sampling en benadrukken we de toepassingen ervan in twee verschillende scenario's voor het afstemmen van LLM's. De praktische agent die dit algoritme efficiënt implementeert, genaamd SEA (Sample-Efficient Alignment), wordt empirisch gevalideerd via uitgebreide experimenten over drie modelgroottes (1B, 2.8B, 6.9B) en drie algoritmes voor voorkeursleren (DPO, IPO, SLiC). De resultaten tonen aan dat SEA zeer efficiënte afstemming met de voorkeuren van de orakel bereikt, waarbij het recente methoden voor actieve verkenning van LLM's overtreft. Daarnaast stellen we de implementatie van SEA beschikbaar samen met een efficiënte codebase die is ontworpen voor online afstemming van LLM's, met als doel toekomstig onderzoek op dit gebied te versnellen.
We introduceren DreamPolish, een tekst-naar-3D-generatiemodel dat uitblinkt in het produceren van verfijnde geometrie en hoogwaardige texturen. In de geometrieconstructiefase maakt onze aanpak gebruik van meerdere neurale representaties om de stabiliteit van het synthese proces te verbeteren. In plaats van uitsluitend te vertrouwen op een op zicht geconditioneerde diffusieprior in de nieuw gesamplede weergaven, wat vaak leidt tot ongewenste artefacten in het geometrische oppervlak, voegen we een extra normalen schatter toe om de geometrische details te verfijnen, geconditioneerd op standpunten met variërende gezichtsvelden. We stellen voor om een oppervlaktepolijstfase toe te voegen met slechts een paar trainingsstappen, die effectief de artefacten kan verfijnen die worden toegeschreven aan beperkte begeleiding van eerdere stadia en 3D-objecten kan produceren met meer wenselijke geometrie. Het belangrijkste onderwerp van textuurgeneratie met behulp van vooraf getrainde tekst-naar-afbeeldingmodellen is om een geschikt domein te vinden in de uitgebreide latente distributie van deze modellen die fotorealistische en consistente renderingen bevat. In de textuurgeneratiefase introduceren we een nieuw scoredestillatie-objectief, namelijk domeinscoredestillatie (DSD), om neurale representaties naar zo'n domein te leiden. We halen inspiratie uit de classifier-vrije begeleiding (CFG) in tekstgeconditioneerde beeldgeneratietaken en tonen aan dat CFG en variatiedistributiebegeleiding verschillende aspecten vertegenwoordigen in gradientbegeleiding en beide essentiële domeinen zijn voor de verbetering van textuurkwaliteit. Uitgebreide experimenten tonen aan dat ons voorgestelde model 3D-assets kan produceren met gepolijste oppervlakken en fotorealistische texturen, waarbij het bestaande state-of-the-art methoden overtreft.
Neurale impliciete functies hebben indrukwekkende vooruitgang gebracht in de state-of-the-art van het digitaliseren van geklede menselijke figuren vanuit meerdere of zelfs enkele afbeeldingen. Echter, ondanks de vooruitgang, hebben huidige methoden nog steeds moeite met generaliseren naar ongeziene afbeeldingen met complexe kledingvervorming en lichaamshoudingen. In dit werk presenteren we GarVerseLOD, een nieuwe dataset en framework dat de weg effent naar het bereiken van ongekende robuustheid in hoogwaardige 3D-kledingreconstructie vanuit een enkele onbeperkte afbeelding. Geïnspireerd door het recente succes van grote generatieve modellen, geloven we dat één sleutel tot het aanpakken van de generalisatie-uitdaging ligt in de hoeveelheid en kwaliteit van 3D-kledingdata. Met dit doel verzamelt GarVerseLOD 6.000 hoogwaardige kledingmodellen met fijnmazige geometrische details die handmatig zijn gemaakt door professionele kunstenaars. Naast de omvang van de trainingsdata, merken we op dat het hebben van ontwarde granulariteiten van geometrie een belangrijke rol kan spelen bij het versterken van de generalisatiecapaciteit en inferentie-accuraatheid van het geleerde model. We ontwerpen GarVerseLOD daarom als een hiërarchische dataset met niveaus van details (LOD), variërend van detailvrije gestileerde vorm tot pose-geblend kledingstuk met pixel-uitgelijnde details. Dit stelt ons in staat om dit zeer onderbepaalde probleem hanteerbaar te maken door de inferentie op te splitsen in gemakkelijkere taken, elk beperkt met een kleiner zoekgebied. Om ervoor te zorgen dat GarVerseLOD goed kan generaliseren naar in-the-wild afbeeldingen, stellen we een nieuw labelparadigma voor op basis van conditionele diffusiemodellen om uitgebreide gekoppelde afbeeldingen te genereren voor elk kledingmodel met een hoge fotorealisme. We evalueren onze methode op een enorme hoeveelheid in-the-wild afbeeldingen. Experimentele resultaten tonen aan dat GarVerseLOD op zichzelf staande kledingstukken kan genereren met aanzienlijk betere kwaliteit dan eerdere benaderingen. Projectpagina: https://garverselod.github.io/
Vision Language Models (VLM's) hebben sterke capaciteiten aangetoond op verschillende visuele begrips- en redeneertaken. Echter, hun implementatie in de echte wereld wordt vaak beperkt door hoge latentie tijdens inferentie als gevolg van aanzienlijke berekeningen die nodig zijn om de grote hoeveelheid invoertokens (voornamelijk afkomstig van de afbeelding) te verwerken door de LLM. Om inferentiekosten te verlagen, kan men ofwel de LLM verkleinen of het aantal invoerbeeldtokens verminderen, waarbij de laatste de focus is geweest van veel recente werken rond tokencompressie. Het is echter onduidelijk wat de optimale afweging is, aangezien beide factoren rechtstreeks van invloed zijn op de prestaties van de VLM. We karakteriseren eerst deze optimale afweging tussen het aantal visuele tokens en LLM-parameters door schaalwetten vast te stellen die variaties in prestaties met deze twee factoren vastleggen. Onze resultaten onthullen een verrassende trend: voor visuele redeneertaken wordt het inferentie-optimaal gedrag in VLM's, d.w.z. minimale foutenstroom bij een vastgestelde inferentieberekening, bereikt wanneer de grootste LLM wordt gebruikt die binnen het inferentiebudget past, terwijl het aantal visuele tokens wordt geminimaliseerd - vaak tot een enkel token. Terwijl de literatuur over tokenvermindering zich voornamelijk heeft gericht op het handhaven van de prestaties van het basismodel door het aantal tokens bescheiden te verminderen (bijv. 5-10 keer), geven onze resultaten aan dat het reken-optimaal inferentiegebied vereist dat er wordt gewerkt onder nog hogere compressieverhoudingen van tokens. Op basis van deze inzichten zetten we enkele eerste stappen naar het ontwikkelen van benaderingen die zijn afgestemd op instellingen met hoge tokencompressie. De code is beschikbaar op https://github.com/locuslab/llava-token-compression.
Zeldzame ziekten brengen unieke uitdagingen met zich mee in de gezondheidszorg, vaak met vertraagde diagnose en gefragmenteerde informatielandschappen. De schaarste aan betrouwbare kennis over deze aandoeningen vormt een specifieke uitdaging voor Grote Taalmodellen (LLM's) bij het ondersteunen van klinisch management en het verstrekken van nauwkeurige patiëntinformatie, waarbij de noodzaak voor gerichte training op deze 'zebra'-gevallen wordt benadrukt. Wij presenteren Zebra-Llama, een gespecialiseerd contextbewust taalmodel met een hoge precisie in Ophalen Versterkte Generatie (RAG) capaciteit, gericht op het Ehlers-Danlos Syndroom (EDS) als onze casestudie. EDS, dat 1 op de 5.000 individuen treft, illustreert de complexiteiten van zeldzame ziekten met zijn diverse symptomen, meerdere subtypes en evoluerende diagnostische criteria. Door een nieuw contextbewust fijnafstemmingsmethodologie te implementeren die is getraind op vragen afgeleid van medische literatuur, patiëntervaringen en klinische bronnen, samen met zorgvuldig samengestelde antwoorden, toont Zebra-Llama ongekende mogelijkheden in het omgaan met EDS-gerelateerde vragen. Op een testset van real-world vragen verzameld van EDS-patiënten en clinici, evalueerden medische experts de gegenereerde antwoorden door beide modellen, waarbij de aanzienlijke verbeteringen van Zebra-Llama ten opzichte van het basismodel (Llama 3.1-8B-Instruct) werden onthuld op het gebied van grondigheid (77,5% vs. 70,1%), nauwkeurigheid (83,0% vs. 78,8%), duidelijkheid (74,7% vs. 72,0%) en citatiebetrouwbaarheid (70,6% vs. 52,3%). Vrijgegeven als een open-source bron, biedt Zebra-Llama niet alleen toegankelijkere en betrouwbaardere EDS-informatie, maar legt ook een kader vast voor het ontwikkelen van gespecialiseerde AI-oplossingen voor andere zeldzame aandoeningen. Dit werk vertegenwoordigt een cruciale stap naar het democratiseren van expertkennis op het gebied van zeldzame ziektebeheer, en heeft potentieel om te transformeren hoe zorgverleners en patiënten navigeren door het complexe landschap van zeldzame ziekten.
Naarmate objectdetectietechnieken blijven evolueren, wordt het cruciaal om hun relaties met aanvullende visuele taken te begrijpen voor het optimaliseren van modelarchitecturen en rekenbronnen. Dit artikel onderzoekt de correlaties tussen objectdetectie-accuraatheid en twee fundamentele visuele taken: dieptepredictie en visuele salientiepredictie. Door uitgebreide experimenten met geavanceerde modellen (DeepGaze IIE, Depth Anything, DPT-Large en het model van Itti) op COCO- en Pascal VOC-datasets, vinden we dat visuele salientie consistent sterkere correlaties vertoont met objectdetectie-accuraatheid (mArho tot 0.459 op Pascal VOC) in vergelijking met dieptepredictie (mArho tot 0.283). Onze analyse onthult significante variaties in deze correlaties tussen objectcategorieën, waarbij grotere objecten correlatiewaarden laten zien die tot drie keer hoger zijn dan kleinere objecten. Deze bevindingen suggereren dat het opnemen van visuele salientiekenmerken in objectdetectiearchitecturen mogelijk voordeliger is dan diepte-informatie, vooral voor specifieke objectcategorieën. De waargenomen categorie-specifieke variaties bieden ook inzichten voor gerichte feature engineering en verbeteringen in datasetontwerp, wat mogelijk leidt tot efficiëntere en nauwkeurigere objectdetectiesystemen.