Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Een beter begrip van de juridische analysevaardigheden van Large Language Models (LLMs) kan bijdragen aan het verbeteren van de efficiëntie van juridische diensten, het reguleren van kunstmatige intelligentie en het benutten van LLMs om inconsistenties in wetgeving te identificeren. Dit artikel onderzoekt de mogelijkheden van LLMs bij de toepassing van belastingrecht. We hebben voor dit rechtsgebied gekozen omdat het een structuur heeft die het mogelijk maakt om geautomatiseerde validatiepijplijnen op te zetten over duizenden voorbeelden, logisch redeneren en wiskundige vaardigheden vereist, en ons in staat stelt om de mogelijkheden van LLMs te testen op een manier die relevant is voor de economische levens van burgers en bedrijven. Onze experimenten tonen opkomende juridische begripsvaardigheden aan, met verbeterde prestaties bij elke nieuwe release van OpenAI-modellen. We experimenteren met het ophalen en gebruiken van de relevante juridische autoriteit om de impact te beoordelen van het verstrekken van aanvullende juridische context aan LLMs. Few-shot prompting, waarbij voorbeelden van vraag-antwoordparen worden gepresenteerd, blijkt ook de prestaties van het meest geavanceerde model, GPT-4, aanzienlijk te verbeteren. De bevindingen geven aan dat LLMs, vooral in combinatie met prompting-verbeteringen en de juiste juridische teksten, op hoog niveau van nauwkeurigheid kunnen presteren, maar nog niet op het niveau van een expert in belastingrecht. Naarmate LLMs zich blijven ontwikkelen, zou hun vermogen om autonoom over wetgeving te redeneren aanzienlijke implicaties kunnen hebben voor het juridische beroep en het bestuur van kunstmatige intelligentie.
Diffusiemodellen hebben uitstekend potentieel getoond voor het genereren van diverse afbeeldingen. Hun prestaties lijden echter vaak onder trage generatie vanwege iteratieve ruisvermindering. Kennisdistillatie is recent voorgesteld als een oplossing die het aantal inferentiestappen kan terugbrengen tot één of enkele zonder significante kwaliteitsvermindering. Bestaande distillatiemethoden vereisen echter ofwel aanzienlijke offline berekeningen voor het genereren van synthetische trainingsdata vanuit het leraarmodel, of moeten dure online learning uitvoeren met behulp van echte data. In dit werk presenteren we een nieuwe techniek genaamd BOOT, die deze beperkingen overwint met een efficiënt data-vrij distillatiealgoritme. De kernidee is om een tijd-geconditioneerd model te leren dat de output van een vooraf getraind diffusiemodel-leraar voorspelt voor elke tijdstap. Zo'n model kan efficiënt worden getraind op basis van bootstrapping vanuit twee opeenvolgende bemonsterde stappen. Bovendien kan onze methode eenvoudig worden aangepast aan grootschalige tekst-naar-afbeelding diffusiemodellen, wat een uitdaging is voor conventionele methoden gezien het feit dat de trainingssets vaak groot en moeilijk toegankelijk zijn. We demonstreren de effectiviteit van onze aanpak op verschillende benchmarkdatasets in de DDIM-instelling, waarbij vergelijkbare generatiekwaliteit wordt bereikt terwijl het orders van grootte sneller is dan het diffusieleraarmodel. De tekst-naar-afbeelding resultaten laten zien dat de voorgestelde aanpak in staat is om zeer complexe verdelingen te hanteren, wat licht werpt op efficiëntere generatieve modellering.
Generatieve AI-systemen over verschillende modaliteiten, zoals tekst, beeld, audio en video, hebben brede maatschappelijke impact, maar er bestaat geen officiële standaard voor het evalueren van die impact en welke impact geëvalueerd zou moeten worden. Wij werken toe naar een standaardbenadering voor het evalueren van een generatief AI-systeem voor elke modaliteit, in twee overkoepelende categorieën: wat er geëvalueerd kan worden in een basissysteem zonder vooraf bepaalde toepassing en wat er geëvalueerd kan worden in de samenleving. We beschrijven specifieke categorieën van maatschappelijke impact en hoe evaluaties benaderd en uitgevoerd kunnen worden in het technische basissysteem, en vervolgens in mensen en de samenleving. Ons raamwerk voor een basissysteem definieert zeven categorieën van maatschappelijke impact: bias, stereotypen en representatieve schade; culturele waarden en gevoelige inhoud; ongelijke prestaties; privacy en gegevensbescherming; financiële kosten; milieukosten; en kosten voor moderatie van gegevens en inhoud. Voorgestelde methoden voor evaluatie zijn van toepassing op alle modaliteiten, en analyses van de beperkingen van bestaande evaluaties dienen als uitgangspunt voor de noodzakelijke investering in toekomstige evaluaties. We bieden vijf overkoepelende categorieën voor wat er in de samenleving geëvalueerd kan worden, elk met hun eigen subcategorieën: betrouwbaarheid en autonomie; ongelijkheid, marginalisering en geweld; concentratie van autoriteit; arbeid en creativiteit; en ecosysteem en milieu. Elke subcategorie omvat aanbevelingen voor het beperken van schade. We zijn gelijktijdig bezig met het opzetten van een evaluatierepository voor de AI-onderzoeksgemeenschap om bestaande evaluaties in de gegeven categorieën bij te dragen. Deze versie zal worden bijgewerkt na een CRAFT-sessie op ACM FAccT 2023.
Wat bepaalt de "sfeer" van een bepaalde scène? Wat zou men moeten aantreffen in "een drukke, vuile stadstraat", "een idyllisch platteland", of "een plaats delict in een verlaten woonkamer"? De vertaling van abstracte scènebeschrijvingen naar gestileerde scène-elementen kan niet op algemene wijze worden uitgevoerd door bestaande systemen die getraind zijn op rigide en beperkte binnendatasets. In dit artikel stellen we voor om de kennis die vastgelegd is in foundation models te benutten om deze vertaling te realiseren. We presenteren een systeem dat kan dienen als een hulpmiddel om gestileerde assets te genereren voor 3D-scènes die beschreven worden door een korte zin, zonder dat het nodig is om de objecten in de scène op te sommen of instructies te geven over hun uiterlijk. Bovendien is het robuust tegen open-wereldconcepten op een manier waarop traditionele methoden die getraind zijn op beperkte data dat niet zijn, wat meer creatieve vrijheid biedt aan de 3D-kunstenaar. Ons systeem demonstreert dit door gebruik te maken van een foundation model "team" dat bestaat uit een groot taalmodel, een visie-taalmodel en verschillende beelddiffusiemodellen, die communiceren via een interpreteerbare en door de gebruiker bewerkbare tussenliggende representatie, waardoor meer veelzijdige en controleerbare generatie van gestileerde assets mogelijk wordt voor 3D-kunstenaars. We introduceren nieuwe metrieken voor deze taak en tonen via menselijke evaluaties aan dat in 91% van de gevallen de uitvoer van ons systeem als trouwer wordt beoordeeld aan de semantiek van de ingevoerde scènebeschrijving dan de baseline, wat het potentieel van deze aanpak benadrukt om het 3D-contentcreatieproces voor 3D-kunstenaars radicaal te versnellen.
Het doel van dit artikel is open-vocabulary object detection (OVOD) – het bouwen van een model dat objecten kan detecteren buiten de set van categorieën die tijdens de training zijn gezien, waardoor de gebruiker categorieën van interesse tijdens de inferentie kan specificeren zonder dat het model opnieuw getraind hoeft te worden. We hanteren een standaard architectuur voor een tweestaps objectdetector en onderzoeken drie manieren om nieuwe categorieën te specificeren: via taal beschrijvingen, via beeldvoorbeelden, of via een combinatie van beide. We leveren drie bijdragen: ten eerste vragen we een groot taalmodel (LLM) om informatieve taal beschrijvingen voor objectklassen te genereren, en bouwen we krachtige tekstgebaseerde classificatoren; ten tweede gebruiken we een visuele aggregator op beeldvoorbeelden die elk aantal afbeeldingen als invoer kan verwerken, waardoor visiegebaseerde classificatoren worden gevormd; en ten derde bieden we een eenvoudige methode om informatie uit taal beschrijvingen en beeldvoorbeelden te combineren, wat resulteert in een multimodale classificator. Bij evaluatie op de uitdagende LVIS open-vocabulary benchmark tonen we aan dat: (i) onze tekstgebaseerde classificatoren alle vorige OVOD-werk overtreffen; (ii) onze visiegebaseerde classificatoren even goed presteren als tekstgebaseerde classificatoren in eerder werk; (iii) het gebruik van multimodale classificatoren beter presteert dan elk van de modaliteiten afzonderlijk; en ten slotte, (iv) onze tekstgebaseerde en multimodale classificatoren betere prestaties leveren dan een volledig gesuperviseerde detector.
Neural Radiance Fields (NeRF) hebben indrukwekkende resultaten laten zien op het gebied van nieuwe weergavesynthese; desondanks vertonen zelfs grondige opnames imperfecties in reconstructies, bijvoorbeeld door slecht waargenomen gebieden of kleine lichtveranderingen. Ons doel is om deze imperfecties uit verschillende bronnen te verminderen met een gezamenlijke oplossing: we maken gebruik van het vermogen van generatieve adversariële netwerken (GANs) om realistische beelden te produceren en gebruiken deze om de realiteit in 3D-scènereconstructie met NeRFs te verbeteren. Hiertoe leren we de patchverdeling van een scène met behulp van een adversariële discriminator, die feedback geeft aan de radiance field-reconstructie, waardoor de realiteit op een 3D-consistente manier wordt verbeterd. Hierdoor worden renderingartefacten direct in de onderliggende 3D-representatie gerepareerd door multi-view padrenderingbeperkingen op te leggen. Daarnaast conditioneren we een generator met multi-resolutie NeRF-renderingen die adversarieel wordt getraind om de renderingkwaliteit verder te verbeteren. We demonstreren dat onze aanpak de renderingkwaliteit aanzienlijk verbetert, bijvoorbeeld door LPIPS-scores bijna te halveren in vergelijking met Nerfacto, terwijl tegelijkertijd de PSNR met 1,4 dB wordt verbeterd op de geavanceerde binnenscènes van Tanks and Temples.
Veelvoorkomende bewerkingen die door professionele fotografen worden uitgevoerd, omvatten de opruimoperaties: het verminderen van afleidende elementen en het verbeteren van onderwerpen. Deze bewerkingen zijn uitdagend, omdat ze een delicate balans vereisen tussen het manipuleren van de aandacht van de kijker en het behouden van fotorealisme. Hoewel recente benaderingen succesvolle voorbeelden kunnen laten zien van aandachtvermindering of -versterking, lijden de meeste ook onder frequente onrealistische bewerkingen. Wij stellen een realisme-verliesfunctie voor voor opvallendheid-gestuurde beeldverbetering om een hoog realisme te behouden over verschillende beeldtypen, terwijl afleidende elementen worden verminderd en interessante objecten worden versterkt. Evaluaties door professionele fotografen bevestigen dat wij het dubbele doel van realisme en effectiviteit bereiken, en de recente benaderingen overtreffen op hun eigen datasets, terwijl we een kleiner geheugenverbruik en kortere uitvoeringstijd vereisen. Wij bieden dus een haalbare oplossing voor het automatiseren van beeldverbetering en foto-opruimoperaties.