Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Transformers hebben een revolutie teweeggebracht in machine learning, maar hun interne werking blijft voor velen ondoorzichtig. Wij presenteren Transformer Explainer, een interactieve visualisatietool ontworpen voor niet-experts om meer te leren over Transformers via het GPT-2-model. Onze tool helpt gebruikers complexe Transformer-concepten te begrijpen door een modeloverzicht te integreren en soepele overgangen mogelijk te maken tussen abstractieniveaus van wiskundige bewerkingen en modelstructuren. De tool draait een live GPT-2-instantie lokaal in de browser van de gebruiker, waardoor gebruikers kunnen experimenteren met hun eigen invoer en in realtime kunnen observeren hoe de interne componenten en parameters van de Transformer samenwerken om de volgende tokens te voorspellen. Onze tool vereist geen installatie of speciale hardware, wat de toegang tot moderne generatieve AI-technieken voor het brede publiek vergroot. Onze open-source tool is beschikbaar op https://poloclub.github.io/transformer-explainer/. Een videodemo is beschikbaar op https://youtu.be/ECR4oAwocjs.
Grote Vision-Taalmodellen (LVLMs) zijn in staat om diverse gegevenstypen te verwerken, zoals beeldmateriaal, tekst en fysiologische signalen, en kunnen worden toegepast in verschillende vakgebieden. In de medische sector hebben LVLMs een hoog potentieel om aanzienlijke ondersteuning te bieden bij diagnose en behandeling. Daarvoor is het echter cruciaal om benchmarks te ontwikkelen om de effectiviteit van LVLMs in diverse medische toepassingen te evalueren. Huidige benchmarks zijn vaak gebaseerd op specifieke academische literatuur, waarbij voornamelijk wordt gefocust op één domein en waarbij verschillende perceptuele granulariteiten ontbreken. Hierdoor worden ze geconfronteerd met specifieke uitdagingen, waaronder beperkte klinische relevantie, onvolledige evaluaties en onvoldoende begeleiding voor interactieve LVLMs. Om deze beperkingen aan te pakken, hebben wij de GMAI-MMBench ontwikkeld, de meest uitgebreide algemene medische AI-benchmark tot nu toe, met een goed gecategoriseerde datastructuur en multi-perceptuele granulariteit. Deze is opgebouwd uit 285 datasets verspreid over 39 medische beeldmodaliteiten, 18 klinisch gerelateerde taken, 18 afdelingen en 4 perceptuele granulariteiten in een Visual Question Answering (VQA)-formaat. Daarnaast hebben we een lexicale boomstructuur geïmplementeerd waarmee gebruikers evaluatietaken kunnen aanpassen, waardoor verschillende beoordelingsbehoeften worden vervuld en medisch AI-onderzoek en -toepassingen aanzienlijk worden ondersteund. We hebben 50 LVLMs geëvalueerd, en de resultaten laten zien dat zelfs de geavanceerde GPT-4o slechts een nauwkeurigheid van 52% behaalt, wat wijst op aanzienlijke ruimte voor verbetering. Bovendien hebben we vijf belangrijke tekortkomingen geïdentificeerd in huidige state-of-the-art LVLMs die moeten worden aangepakt om de ontwikkeling van betere medische toepassingen te bevorderen. Wij geloven dat GMAI-MMBench de gemeenschap zal stimuleren om de volgende generatie LVLMs te ontwikkelen richting GMAI. Projectpagina: https://uni-medical.github.io/GMAI-MMBench.github.io/
3D-contentgeneratie staat centraal in veel computergrafische toepassingen, zoals videogames, filmproductie, virtuele en augmented reality, enz. Dit artikel introduceert een nieuwe, op deep learning gebaseerde aanpak voor het automatisch genereren van interactieve en speelbare 3D-gamescènes, uitsluitend vanuit de informele input van de gebruiker, zoals een handgetekende schets. Schetsgebaseerde input biedt een natuurlijke en handige manier om de ontwerpintentie van de gebruiker over te brengen tijdens het creatieproces. Om het probleem van datatekort in het leerproces te omzeilen (d.w.z. het ontbreken van grote trainingsdatasets van 3D-scènes), maakt onze methode gebruik van een vooraf getraind 2D-denoising-diffusiemodel om een 2D-afbeelding van de scène te genereren als conceptuele richtlijn. In dit proces passen we de isometrische projectiemodus toe om onbekende cameraposities uit te sluiten terwijl de scène-indeling wordt verkregen. Vanuit de gegenereerde isometrische afbeelding gebruiken we een vooraf getrainde beeldbegripsmethode om de afbeelding te segmenteren in betekenisvolle onderdelen, zoals objecten boven de grond, bomen en gebouwen, en om de 2D-scène-indeling te extraheren. Deze segmenten en indelingen worden vervolgens ingevoerd in een procedural content generation (PCG)-engine, zoals een 3D-videogame-engine zoals Unity of Unreal, om de 3D-scène te creëren. De resulterende 3D-scène kan naadloos worden geïntegreerd in een game-ontwikkelomgeving en is direct speelbaar. Uitgebreide tests tonen aan dat onze methode efficiënt hoogwaardige en interactieve 3D-gamescènes kan genereren met indelingen die nauw aansluiten bij de intentie van de gebruiker.
De brede toegankelijkheid van grote taalmodellen (LLM's) voor het algemene publiek heeft de verspreiding van machine-gegenereerde teksten (MGT's) aanzienlijk vergroot. Vooruitgangen in promptmanipulatie hebben de moeilijkheid verergerd om de oorsprong van een tekst te bepalen (door mensen geschreven versus machine-gegenereerd). Dit roept zorgen op over het mogelijke misbruik van MGT's, met name binnen educatieve en academische domeinen. In dit artikel presenteren we LLM-DetectAIve – een systeem ontworpen voor gedetailleerde MGT-detectie. Het is in staat om teksten in vier categorieën te classificeren: door mensen geschreven, machine-gegenereerd, door machines geschreven en door mensen aangepast, en door mensen geschreven en door machines gepolijst. In tegenstelling tot eerdere MGT-detectoren die een binaire classificatie uitvoeren, biedt de introductie van twee aanvullende categorieën in LLM-DetectAIve inzicht in de verschillende gradaties van LLM-interventie tijdens het tekstcreatieproces. Dit kan nuttig zijn in domeinen zoals onderwijs, waar elke vorm van LLM-interventie meestal verboden is. Experimenten tonen aan dat LLM-DetectAIve effectief de auteurschap van tekstuele inhoud kan identificeren, wat het nut ervan aantoont bij het bevorderen van integriteit in onderwijs, academische wereld en andere domeinen. LLM-DetectAIve is publiek toegankelijk op https://huggingface.co/spaces/raj-tomar001/MGT-New. De video die ons systeem beschrijft, is beschikbaar op https://youtu.be/E8eT_bE7k8c.
De ontwikkeling van eentalige taalmodel(len) voor talen met weinig en gemiddelde middelen wordt nog steeds belemmerd door de moeilijkheid om hoogwaardige trainingsdata te verkrijgen. In deze studie presenteren we een nieuwe strategie voor cross-linguale vocabulaireoverdracht, trans-tokenisatie, die is ontworpen om deze uitdaging aan te pakken en efficiëntere taaladaptatie mogelijk te maken. Onze aanpak richt zich op het aanpassen van een eentalig taalmodel met veel middelen aan een onbekende doeltaal door de token-embeddings van de doeltaal te initialiseren met een gewogen gemiddelde van semantisch vergelijkbare token-embeddings uit de brontaal. Hiervoor maken we gebruik van een vertaalresource die zowel de brontaal als de doeltaal omvat. We valideren onze methode met de Tweeties, een reeks trans-getokeniseerde taalmodel(len), en tonen hun competitieve prestaties aan bij verschillende downstream taken over een kleine maar diverse set talen. Daarnaast introduceren we Hydra-taalmodel(len), modellen met meerdere verwisselbare taalmodelleringskoppen en embeddingtabellen, die de mogelijkheden van onze trans-tokenisatiestrategie verder uitbreiden. Door een Hydra-taalmodel te ontwerpen op basis van het meertalige model TowerInstruct, ontwikkelden we een state-of-the-art machinevertaalmodel voor Tataars, op een zero-shot manier, waarbij de behoefte aan hoogwaardige parallelle data volledig wordt omzeild. Deze doorbraak is vooral significant voor talen met weinig middelen zoals Tataars, waar hoogwaardige parallelle data schaars is. Door de data- en tijdvereisten voor het trainen van hoogwaardige modellen te verlagen, maakt onze trans-tokenisatiestrategie de ontwikkeling van taalmodel(len) voor een breder scala aan talen mogelijk, vooral voor die met beperkte middelen. We hopen dat ons werk verder onderzoek en samenwerking op het gebied van cross-linguale vocabulaireoverdracht zal inspireren en bijdraagt aan de empowerment van talen op wereldwijde schaal.
Wij stellen een nieuwe methode voor, genaamd instructie heen-en-weer vertaling, om hoogwaardige synthetische data te construeren die verankerd is in wereldkennis voor het afstemmen van grote taalmodellen (LLMs). Gegeven documenten uit een webcorpus, genereren en cureren we synthetische instructies met behulp van de backtranslation-benadering voorgesteld door Li et al. (2023a), en herschrijven we de antwoorden om hun kwaliteit verder te verbeteren op basis van de initiële documenten. Fine-tuning met de resulterende (backvertaalde instructie, herschreven antwoord) paren resulteert in hogere winpercentages op AlpacaEval dan het gebruik van andere veelvoorkomende instructiedatasets zoals Humpback, ShareGPT, Open Orca, Alpaca-GPT4 en Self-instruct. We tonen ook aan dat het herschrijven van de antwoorden met een LLM beter presteert dan directe distillatie, en dat de twee gegenereerde tekstdistributies een significant onderscheid vertonen in de embeddingruimte. Verdere analyse toont aan dat onze backvertaalde instructies van hogere kwaliteit zijn dan andere bronnen van synthetische instructies, terwijl onze antwoorden diverser en complexer zijn dan die verkregen uit distillatie. Over het geheel genomen vinden we dat instructie heen-en-weer vertaling het beste van beide werelden combineert – gebruikmakend van de informatie diversiteit en hoeveelheid die op het web te vinden is, terwijl de kwaliteit van de antwoorden wordt gewaarborgd die noodzakelijk is voor effectieve afstemming.
Hoogwaardige Multimodale Grote Taalmodellen (MLLMs) zijn sterk afhankelijk van de kwaliteit van data. Deze studie introduceert een nieuwe dataset genaamd Img-Diff, ontworpen om fijnmazige beeldherkenning in MLLMs te verbeteren door inzichten uit contrastief leren en beeldverschilbeschrijving te benutten. Door objectverschillen tussen vergelijkbare afbeeldingen te analyseren, dagen we modellen uit om zowel overeenkomende als onderscheidende componenten te identificeren. We maken gebruik van het Stable-Diffusion-XL-model en geavanceerde beeldbewerkingstechnieken om paren van vergelijkbare afbeeldingen te creëren die objectvervangingen benadrukken. Onze methodologie omvat een Difference Area Generator voor het identificeren van objectverschillen, gevolgd door een Difference Captions Generator voor gedetailleerde beschrijvingen van de verschillen. Het resultaat is een relatief kleine maar hoogwaardige dataset van "objectvervanging"-voorbeelden. We gebruiken de voorgestelde dataset om state-of-the-art (SOTA) MLLMs zoals MGM-7B te finetunen, wat resulteert in uitgebreide verbeteringen van prestatiescores ten opzichte van SOTA-modellen die getraind zijn met grootschalige datasets, in talrijke beeldverschil- en Visuele Vraag Beantwoordingstaken. Zo overtreffen onze getrainde modellen de SOTA-modellen GPT-4V en Gemini op de MMVP-benchmark aanzienlijk. Daarnaast onderzoeken we alternatieve methoden voor het genereren van beeldverschilgegevens via "objectverwijdering" en voeren we een grondige evaluatie uit om de diversiteit, kwaliteit en robuustheid van de dataset te bevestigen, waarbij we verschillende inzichten presenteren over de synthese van dergelijke contrastieve datasets. Om verder onderzoek aan te moedigen en het veld van multimodale datasynthese en de verbetering van de fundamentele capaciteiten van MLLMs voor beeldbegrip te bevorderen, maken we onze codes en dataset beschikbaar op https://github.com/modelscope/data-juicer/tree/ImgDiff.
Detectie van menselijke hoofden, schatting van sleutelpunten en het aanpassen van 3D-hoofdmodellen zijn belangrijke taken met veel toepassingen. Traditionele datasets uit de echte wereld kampen echter vaak met problemen zoals bias, privacy en ethische zorgen, en zijn opgenomen in laboratoriumomgevingen, wat het moeilijk maakt voor getrainde modellen om te generaliseren. Hier introduceren we VGGHeads -- een grootschalige synthetische dataset gegenereerd met diffusiemodellen voor de detectie van menselijke hoofden en 3D-meshschatting. Onze dataset bestaat uit meer dan 1 miljoen hoogwaardige afbeeldingen, elk geannoteerd met gedetailleerde 3D-hoofdmeshes, gezichtslandmarken en begrenzingsvakken. Met behulp van deze dataset introduceren we een nieuw modelarchitectuur dat in staat is om gelijktijdig hoofden te detecteren en hoofdmeshes te reconstrueren vanuit een enkele afbeelding in één stap. Door uitgebreide experimentele evaluaties tonen we aan dat modellen die getraind zijn op onze synthetische data sterke prestaties leveren op echte afbeeldingen. Bovendien maakt de veelzijdigheid van onze dataset deze toepasbaar voor een breed scala aan taken, waardoor het een algemene en uitgebreide representatie van menselijke hoofden biedt. Daarnaast bieden we gedetailleerde informatie over de pijplijn voor het genereren van synthetische data, waardoor deze hergebruikt kan worden voor andere taken en domeinen.
We presenteren Puppet-Master, een interactief videogeneratief model dat kan dienen als een bewegingsprior voor dynamiek op onderdeelniveau. Tijdens het testen kan Puppet-Master, gegeven een enkele afbeelding en een set van spaarzame bewegingsbanen (d.w.z. slepen), een video genereren die realistische bewegingen op onderdeelniveau weergeeft, trouw aan de gegeven slepinteracties. Dit wordt bereikt door een grootschalig vooraf getraind videodiffusiemodel te finetunen, waarvoor we een nieuwe conditioneringsarchitectuur voorstellen om het slepen effectief te injecteren. Belangrijker nog, we introduceren het all-to-first aandachtmechanisme, een directe vervanging voor de veelgebruikte ruimtelijke aandachtmodules, dat de generatiekwaliteit aanzienlijk verbetert door de problemen met uiterlijk en achtergrond in bestaande modellen aan te pakken. In tegenstelling tot andere bewegingsgeconditioneerde videogeneratoren die getraind zijn op in-the-wild video's en meestal een volledig object verplaatsen, wordt Puppet-Master geleerd van Objaverse-Animation-HQ, een nieuwe dataset van gecureerde bewegingsclips op onderdeelniveau. We stellen een strategie voor om suboptimale animaties automatisch te filteren en de synthetische weergaven aan te vullen met betekenisvolle bewegingsbanen. Puppet-Master generaliseert goed naar echte afbeeldingen in verschillende categorieën en overtreft bestaande methoden op een zero-shot manier op een real-world benchmark. Bekijk onze projectpagina voor meer resultaten: vgg-puppetmaster.github.io.
Het verankeren van natuurlijke taal in fysieke 3D-omgevingen is essentieel voor de vooruitgang van belichaamde kunstmatige intelligentie. Huidige datasets en modellen voor 3D-visuele verankering richten zich voornamelijk op het identificeren en lokaliseren van objecten op basis van statische, objectgerichte beschrijvingen. Deze benaderingen gaan onvoldoende in op de dynamische en sequentiële aard van taakgerichte verankering die nodig is voor praktische toepassingen. In dit werk stellen we een nieuwe taak voor: Taakgerichte Sequentiele Verankering in 3D-scènes, waarbij een agent gedetailleerde stap-voor-stap instructies moet volgen om dagelijkse activiteiten uit te voeren door een reeks doelobjecten in binnenomgevingen te lokaliseren. Om deze taak te faciliteren, introduceren we SG3D, een grootschalige dataset met 22.346 taken en 112.236 stappen verspreid over 4.895 realistische 3D-scènes. De dataset is opgebouwd met een combinatie van RGB-D-scans uit verschillende 3D-scènedatasets en een geautomatiseerde taakgeneratiepipeline, gevolgd door menselijke verificatie voor kwaliteitsborging. We hebben drie state-of-the-art 3D-visuele verankeringsmodellen aangepast aan de sequentiële verankerings taak en hun prestaties geëvalueerd op SG3D. Onze resultaten laten zien dat hoewel deze modellen goed presteren op traditionele benchmarks, ze aanzienlijke uitdagingen ondervinden bij taakgerichte sequentiële verankering, wat de noodzaak voor verder onderzoek op dit gebied onderstreept.
Moleculaire representatie is een fundamenteel element in ons begrip van de fysieke wereld. Het belang ervan strekt zich uit van de basisprincipes van chemische reacties tot het ontwerpen van nieuwe therapieën en materialen. Eerdere moleculaire machine learning-modellen hebben gebruikgemaakt van strings, vingerafdrukken, globale kenmerken en eenvoudige moleculaire grafieken die inherent informatie-arme representaties zijn. Naarmate de complexiteit van voorspellingstaken toeneemt, moet de moleculaire representatie echter informatie van hogere kwaliteit coderen. Dit werk introduceert een nieuwe benadering om kwantumchemisch rijke informatie in moleculaire grafieken te integreren via stereoelectronische effecten. We tonen aan dat de expliciete toevoeging van stereoelectronische interacties de prestaties van moleculaire machine learning-modellen aanzienlijk verbetert. Bovendien kunnen stereoelectronisch verrijkte representaties worden geleerd en ingezet met een op maat gemaakt dubbel grafisch neuraal netwerk-werkproces, waardoor de toepassing ervan op elke downstream moleculaire machine learning-taak mogelijk wordt. Tot slot laten we zien dat de geleerde representaties een eenvoudige stereoelectronische evaluatie van voorheen onbehandelbare systemen, zoals volledige eiwitten, mogelijk maken, wat nieuwe wegen opent voor moleculair ontwerp.
Het voorspellen van programma-gedrag zonder uitvoering is een essentiële en uitdagende taak in software engineering. Traditionele modellen hebben vaak moeite om dynamische afhankelijkheden en interacties binnen code vast te leggen. Dit artikel introduceert een nieuw machine learning-gebaseerd framework genaamd CodeFlowrepresents, dat code-dekking voorspelt en runtime-fouten detecteert door middel van Dynamic Dependencies Learning. Door gebruik te maken van control flow graphs (CFG's) representeert CodeFlowrepresents alle mogelijke uitvoeringspaden en de relaties tussen verschillende statements, wat een uitgebreid inzicht biedt in programma-gedrag. Het construeert CFG's om uitvoeringspaden weer te geven en leert vectorrepresentaties voor CFG-knopen, waarbij statische control-flow afhankelijkheden worden vastgelegd. Daarnaast leert het dynamische afhankelijkheden via uitvoeringstraces, die de impact tussen statements tijdens de uitvoering weerspiegelen. Deze aanpak maakt een nauwkeurige voorspelling van code-dekking en identificatie van runtime-fouten mogelijk. Empirische evaluaties tonen significante verbeteringen in de nauwkeurigheid van code-dekkingvoorspellingen en effectieve lokalisatie van runtime-fouten, wat huidige modellen overtreft.
Bij het gebruik van taalmodellen (LMs) om complexe problemen op te lossen, kunnen mensen moeite hebben om de door het LM gegenereerde oplossingen te begrijpen en de gebrekkige oplossingen te repareren. Om mensen te helpen bij het repareren ervan, stellen we voor om complexe oplossingen automatisch te ontbinden in meerdere eenvoudigere stukken die corresponderen met specifieke subtaken. We introduceren een nieuw doel voor het leren van taakontbinding, genaamd assistieve waarde (AssistV), die de haalbaarheid en snelheid meet waarmee mensen de ontbonden oplossing kunnen repareren. We verzamelen een dataset van menselijke reparatie-ervaringen op verschillende ontbonden oplossingen. Door de verzamelde data als in-context voorbeelden te gebruiken, leren we vervolgens om ontbonden oplossingen te beoordelen, te verfijnen en te rangschikken om de AssistV te verbeteren. We valideren onze methode aan de hand van competitieve programmeerproblemen: in een studie van 177 uur stelt onze methode niet-experts in staat om 33,3\% meer problemen op te lossen, versnelt hen met een factor 3,3 en stelt hen in staat om onondersteunde experts te evenaren.