Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLM's), waarvan ChatGPT een voorbeeld is, hebben aanzienlijke aandacht gekregen vanwege hun uitstekende verwerkingscapaciteiten voor natuurlijke taal. Desalniettemin brengen deze LLM's veel uitdagingen met zich mee, met name op het gebied van betrouwbaarheid. Daarom is het waarborgen van de betrouwbaarheid van LLM's een belangrijk onderwerp geworden. Dit artikel introduceert TrustLLM, een uitgebreide studie naar betrouwbaarheid in LLM's, inclusief principes voor verschillende dimensies van betrouwbaarheid, een vastgestelde benchmark, evaluatie en analyse van betrouwbaarheid voor mainstream LLM's, en een bespreking van openstaande uitdagingen en toekomstige richtingen. Specifiek stellen we eerst een reeks principes voor voor betrouwbare LLM's die acht verschillende dimensies omvatten. Op basis van deze principes stellen we verder een benchmark vast over zes dimensies, waaronder waarheidsgetrouwheid, veiligheid, eerlijkheid, robuustheid, privacy en machine-ethiek. Vervolgens presenteren we een studie waarin 16 mainstream LLM's in TrustLLM worden geëvalueerd, bestaande uit meer dan 30 datasets. Onze bevindingen laten ten eerste zien dat betrouwbaarheid en functionaliteit (d.w.z. functionele effectiviteit) over het algemeen positief gerelateerd zijn. Ten tweede onthullen onze observaties dat propriëtaire LLM's over het algemeen beter presteren dan de meeste open-source tegenhangers wat betreft betrouwbaarheid, wat zorgen oproept over de potentiële risico's van breed toegankelijke open-source LLM's. Echter, een paar open-source LLM's komen zeer dicht in de buurt van propriëtaire modellen. Ten derde is het belangrijk op te merken dat sommige LLM's mogelijk te veel zijn afgestemd op het tonen van betrouwbaarheid, tot het punt waarop ze hun functionaliteit in gevaar brengen door onschadelijke prompts ten onrechte als schadelijk te behandelen en daarop niet te reageren. Tot slot benadrukken we het belang van het waarborgen van transparantie, niet alleen in de modellen zelf, maar ook in de technologieën die de betrouwbaarheid ondersteunen. Het kennen van de specifieke betrouwbare technologieën die zijn toegepast, is cruciaal voor het analyseren van hun effectiviteit.
Dit technisch rapport introduceert PIXART-{\delta}, een tekst-naar-beeld synthese framework dat het Latent Consistency Model (LCM) en ControlNet integreert in het geavanceerde PIXART-{\alpha} model. PIXART-{\alpha} staat bekend om zijn vermogen om hoogwaardige beelden van 1024px resolutie te genereren via een opmerkelijk efficiënt trainingsproces. De integratie van LCM in PIXART-{\delta} versnelt de inferentie aanzienlijk, waardoor het mogelijk wordt om hoogwaardige beelden te produceren in slechts 2-4 stappen. Opmerkelijk is dat PIXART-{\delta} een doorbraak bereikt met 0,5 seconden voor het genereren van 1024x1024 pixel beelden, wat een 7x verbetering betekent ten opzichte van PIXART-{\alpha}. Daarnaast is PIXART-{\delta} ontworpen om efficiënt te kunnen worden getraind op 32GB V100 GPU's binnen één dag. Met zijn 8-bit inferentie capaciteit (von Platen et al., 2023) kan PIXART-{\delta} 1024px beelden synthetiseren binnen 8GB GPU geheugen beperkingen, wat de bruikbaarheid en toegankelijkheid ervan aanzienlijk vergroot. Bovendien maakt de integratie van een ControlNet-achtige module fijnmazige controle over tekst-naar-beeld diffusiemodellen mogelijk. We introduceren een nieuwe ControlNet-Transformer architectuur, specifiek ontworpen voor Transformers, die expliciete bestuurbaarheid combineert met hoogwaardige beeldgeneratie. Als een state-of-the-art, open-source beeldgeneratiemodel biedt PIXART-{\delta} een veelbelovend alternatief voor de Stable Diffusion familie van modellen, en draagt het significant bij aan tekst-naar-beeld synthese.
Transformers worden beschouwd als conceptueel verschillend vergeleken met de vorige generatie state-of-the-art NLP-modellen - recurrente neurale netwerken (RNN's). In dit werk tonen we aan dat decoder-only transformers in feite kunnen worden geconceptualiseerd als oneindige multi-state RNN's - een RNN-variant met een onbeperkte grootte van de verborgen toestand. We laten verder zien dat voorgetrainde transformers kunnen worden omgezet in eindige multi-state RNN's door de grootte van hun verborgen toestand vast te leggen. We observeren dat verschillende bestaande technieken voor het comprimeren van transformer-caches kunnen worden gezien als dergelijke conversiebeleidsregels, en introduceren een nieuw beleid, TOVA, dat eenvoudiger is vergeleken met deze beleidsregels. Onze experimenten met verschillende taken op lange termijn geven aan dat TOVA alle andere baseline-beleidsregels overtreft, terwijl het bijna op hetzelfde niveau presteert als het volledige (oneindige) model, en in sommige gevallen slechts 1{8} van de oorspronkelijke cache-grootte gebruikt. Onze resultaten geven aan dat transformer-decoder LLM's in de praktijk vaak gedragen als RNN's. Ze bieden ook de mogelijkheid om een van hun meest pijnlijke computationele knelpunten te verlichten - de grootte van hun cachegeheugen. We maken onze code openbaar beschikbaar op https://github.com/schwartz-lab-NLP/TOVA.
Mensen zijn in staat tot strategisch bedrieglijk gedrag: ze gedragen zich behulpzaam in de meeste situaties, maar gedragen zich heel anders om alternatieve doelen na te streven wanneer de gelegenheid zich voordoet. Als een AI-systeem zo'n bedrieglijke strategie zou aanleren, kunnen we dit dan detecteren en verwijderen met behulp van de huidige state-of-the-art veiligheidstrainingstechnieken? Om deze vraag te bestuderen, construeren we proof-of-concept voorbeelden van bedrieglijk gedrag in grote taalmodellen (LLM's). We trainen bijvoorbeeld modellen die veilige code schrijven wanneer de prompt aangeeft dat het jaar 2023 is, maar kwetsbare code invoegen wanneer het aangegeven jaar 2024 is. We ontdekken dat dergelijk 'backdoored' gedrag persistent kan worden gemaakt, zodat het niet wordt verwijderd door standaard veiligheidstrainingstechnieken, waaronder supervised fine-tuning, reinforcement learning en adversarial training (het uitlokken van onveilig gedrag en vervolgens trainen om dit te verwijderen). Het 'backdoored' gedrag is het meest persistent in de grootste modellen en in modellen die zijn getraind om chain-of-thought redeneringen te produceren over het bedriegen van het trainingsproces, waarbij de persistentie blijft bestaan zelfs wanneer de chain-of-thought wordt gedistilleerd. Bovendien ontdekken we dat adversarial training modellen kan leren om hun 'backdoor'-triggers beter te herkennen, waardoor het onveilige gedrag effectief wordt verborgen. Onze resultaten suggereren dat, zodra een model bedrieglijk gedrag vertoont, standaardtechnieken mogelijk niet in staat zijn om deze bedrieglijkheid te verwijderen en een valse indruk van veiligheid kunnen creëren.
We introduceren InseRF, een nieuwe methode voor het generatief invoegen van objecten in NeRF-reconstructies van 3D-scènes. Op basis van een door de gebruiker verstrekte tekstuele beschrijving en een 2D-afbakeningskader in een referentiebeeld, genereert InseRF nieuwe objecten in 3D-scènes. Recentelijk zijn methoden voor het bewerken van 3D-scènes ingrijpend getransformeerd, dankzij het gebruik van sterke aannames van tekst-naar-beeld diffusiemodellen in 3D-generatieve modellering. Bestaande methoden zijn vooral effectief in het bewerken van 3D-scènes via stijl- en uiterlijkveranderingen of het verwijderen van bestaande objecten. Het genereren van nieuwe objecten blijft echter een uitdaging voor dergelijke methoden, wat wij in deze studie aanpakken. Specifiek stellen we voor om het invoegen van 3D-objecten te verankeren aan een 2D-objectinvoeging in een referentiebeeld van de scène. De 2D-bewerking wordt vervolgens omgezet naar 3D met behulp van een methode voor enkelvoudige beeldreconstructie van objecten. Het gereconstrueerde object wordt vervolgens ingevoegd in de scène, geleid door de aannames van monoculaire diepteschattingsmethoden. We evalueren onze methode op diverse 3D-scènes en bieden een diepgaande analyse van de voorgestelde componenten. Onze experimenten met het generatief invoegen van objecten in verschillende 3D-scènes tonen de effectiviteit van onze methode in vergelijking met bestaande methoden. InseRF is in staat tot controleerbare en 3D-consistente objectinvoeging zonder expliciete 3D-informatie als invoer te vereisen. Bezoek onze projectpagina op https://mohamad-shahbazi.github.io/inserf.
Bestaande fotorealistische, herbelichtbare handmodellen vereisen uitgebreide identiteitsspecifieke observaties vanuit verschillende hoeken, poses en belichtingen, en hebben moeite met generaliseren naar natuurlijke belichtingen en nieuwe identiteiten. Om deze kloof te overbruggen, presenteren wij URHand, het eerste universele herbelichtbare handmodel dat generaliseert over gezichtspunten, poses, belichtingen en identiteiten. Ons model maakt weinig-opname-personalisatie mogelijk met behulp van afbeeldingen die met een mobiele telefoon zijn gemaakt, en is klaar om fotorealistisch te worden weergegeven onder nieuwe belichtingen. Om het personalisatieproces te vereenvoudigen terwijl fotorealisme behouden blijft, bouwen we een krachtige universele herbelichtbare prior op basis van neurale herbelichting van multi-view afbeeldingen van handen die in een lichtstudio zijn vastgelegd met honderden identiteiten. De belangrijkste uitdaging is het opschalen van de cross-identiteitstraining terwijl gepersonaliseerde nauwkeurigheid en scherpe details behouden blijven zonder in te leveren op generalisatie onder natuurlijke belichtingen. Hiertoe stellen we een ruimtelijk variërend lineair belichtingsmodel voor als de neurale renderer die fysica-geïnspireerde shading als invoerkenmerk gebruikt. Door niet-lineaire activaties en bias te verwijderen, behoudt ons specifiek ontworpen belichtingsmodel expliciet de lineariteit van lichttransport. Dit maakt eenfasige training mogelijk op basis van lichtstudio-data terwijl generalisatie naar real-time rendering onder willekeurige continue belichtingen over diverse identiteiten mogelijk blijft. Daarnaast introduceren we het gezamenlijk leren van een fysiek gebaseerd model en ons neurale herbelichtingsmodel, wat de nauwkeurigheid en generalisatie verder verbetert. Uitgebreide experimenten tonen aan dat onze aanpak superieure prestaties behaalt ten opzichte van bestaande methoden wat betreft zowel kwaliteit als generaliseerbaarheid. We demonstreren ook snelle personalisatie van URHand vanuit een korte telefoonscan van een onbekende identiteit.
Chain of Thought (CoT) is van groot belang bij het verbeteren van de redeneervaardigheden van grote taalmodelen (LLMs). De correlatie tussen de effectiviteit van CoT en de lengte van de redeneerstappen in prompts blijft echter grotendeels onbekend. Om hier meer inzicht in te krijgen, hebben we verschillende empirische experimenten uitgevoerd om deze relaties te onderzoeken. Specifiek hebben we experimenten ontworpen waarbij de redeneerstappen binnen CoT-demonstraties worden uitgebreid en gecomprimeerd, terwijl alle andere factoren constant blijven. We hebben de volgende belangrijke bevindingen. Ten eerste geven de resultaten aan dat het verlengen van de redeneerstappen in prompts, zelfs zonder nieuwe informatie toe te voegen, de redeneervaardigheden van LLMs aanzienlijk verbetert over meerdere datasets. Aan de andere kant vermindert het verkorten van de redeneerstappen, zelfs wanneer de belangrijkste informatie behouden blijft, de redeneervaardigheden van modellen aanzienlijk. Deze bevinding benadrukt het belang van het aantal stappen in CoT-prompts en biedt praktische richtlijnen om het potentieel van LLMs beter te benutten in complexe probleemoplossingsscenario's. Ten tweede hebben we ook de relatie onderzocht tussen de prestaties van CoT en de redeneringen die in demonstraties worden gebruikt. Verrassend genoeg laten de resultaten zien dat zelfs incorrecte redeneringen gunstige resultaten kunnen opleveren als ze de vereiste lengte van de inferentie behouden. Ten derde hebben we geobserveerd dat de voordelen van het vergroten van redeneerstappen taakafhankelijk zijn: eenvoudigere taken vereisen minder stappen, terwijl complexe taken aanzienlijk profiteren van langere inferentiesequenties.
Grote taalmodellen (LLMs) zijn krachtige dialoogagenten, maar het specialiseren ervan om een specifieke functie te vervullen kan uitdagend zijn. Instructie-afstemming, d.w.z. het afstemmen van modellen op instructies en voorbeeldreacties gegenereerd door mensen (Ouyang et al., 2022), heeft zich bewezen als een effectieve methode, maar vereist een aantal gegevensmonsters die a) mogelijk niet beschikbaar zijn of b) kostbaar zijn om te genereren. Bovendien neemt deze kost toe wanneer het doel is om het LLM een specifieke workflow binnen een dialoog te laten volgen in plaats van enkele instructies. Geïnspireerd door de zelfspeltechniek in reinforcement learning en het gebruik van LLMs om menselijke agenten te simuleren, stellen we een effectievere methode voor voor het verzamelen van gegevens door middel van LLMs die in verschillende rollen een gesprek voeren. Deze aanpak genereert trainingsgegevens via "zelfgesprekken" van LLMs die kunnen worden verfijnd en gebruikt voor supervised fine-tuning. We introduceren een geautomatiseerde manier om het (gedeeltelijke) succes van een dialoog te meten. Deze metriek wordt gebruikt om de gegenereerde gespreksgegevens te filteren die teruggevoerd worden in het LLM voor training. Op basis van onze geautomatiseerde en menselijke evaluaties van gesprekskwaliteit, tonen we aan dat dergelijke zelfgespreksgegevens de resultaten verbeteren. Daarnaast onderzoeken we de verschillende kenmerken die de kwaliteit van gegenereerde dialogen aantonen en hoe deze kunnen worden verbonden aan hun potentiële nut als trainingsgegevens.
De recente vooruitgang in visie-taalmodelen is grotendeels te danken aan de overvloed aan beeld-tekstgegevens. Ons doel is om dit succes te repliceren voor video-taalmodelen, maar er is simpelweg niet genoeg door mensen samengestelde video-tekstdata beschikbaar. Daarom nemen we onze toevlucht tot het fine-tunen van een video-taalmodel vanuit een sterk beeld-taalbasislijn met gesynthetiseerde instructiedata. Het resulterende video-taalmodel wordt vervolgens gebruikt om miljoenen video's automatisch te labelen om hoogwaardige bijschriften te genereren. We laten zien dat het aangepaste video-taalmodel goed presteert op een breed scala aan video-taalbenchmarks. Zo overtreft het het beste eerdere resultaat op open-ended NExT-QA met 2,8%. Daarnaast genereert ons model gedetailleerde beschrijvingen voor voorheen onbekende video's, die betere tekstuele supervisie bieden dan bestaande methoden. Experimenten tonen aan dat een video-taal dual-encoder-model dat contrastief is getraind op deze automatisch gegenereerde bijschriften 3,8% beter presteert dan de sterkste basislijn die ook gebruikmaakt van visie-taalmodelen. Ons beste model overtreft state-of-the-art methoden op MSR-VTT zero-shot tekst-naar-video-retrieval met 6%.
Score Distillation Sampling (SDS) is een recente maar inmiddels al veelgebruikte methode die vertrouwt op een beelddiffusiemodel om optimalisatieproblemen te sturen met behulp van tekstprompts. In dit artikel voeren we een diepgaande analyse uit van de SDS-verliesfunctie, identificeren we een inherent probleem met de formulering ervan, en stellen we een verrassend eenvoudige maar effectieve oplossing voor. Specifiek ontleden we het verlies in verschillende factoren en isoleren we de component die verantwoordelijk is voor ruisachtige gradiënten. In de oorspronkelijke formulering wordt een hoge tekstbegeleiding gebruikt om rekening te houden met de ruis, wat leidt tot ongewenste bijwerkingen. In plaats daarvan trainen we een ondiep netwerk dat de tijdsafhankelijke denoiseringsdeficiëntie van het beelddiffusiemodel nabootst om deze effectief te elimineren. We demonstreren de veelzijdigheid en effectiviteit van onze nieuwe verliesformulering door middel van verschillende kwalitatieve en kwantitatieve experimenten, waaronder optimalisatie-gebaseerde beeldgeneratie en -bewerking, zero-shot beeldvertalingstraining van netwerken, en tekst-naar-3D-synthese.
De overvloed aan inhoud op internet, waarvan tot 60% in het Engels wordt gepubliceerd, staat in schril contrast met de wereldwijde bevolking, waar slechts 18,8% Engels spreekt en slechts 5,1% het als moedertaal beschouwt, wat leidt tot ongelijkheden in de toegang tot online informatie. Helaas blijft het automatiseren van het nasynchroniseren van video's – het vervangen van de audiospoor van een video door een vertaald alternatief – een complexe en uitdagende taak vanwege de benodigde pipelines, die precieze timing, synchronisatie van gezichtsbewegingen en prosodie-afstemming vereisen. Hoewel end-to-end nasynchronisatie een oplossing biedt, blijft het gebrek aan data de vooruitgang van zowel end-to-end als pipeline-gebaseerde methoden belemmeren. In dit werk introduceren we Anim-400K, een uitgebreide dataset van meer dan 425K uitgelijnde geanimeerde videosegmenten in het Japans en Engels die verschillende video-gerelateerde taken ondersteunen, waaronder geautomatiseerd nasynchroniseren, simultane vertaling, begeleide videosamenvatting en genre/thema/stijlclassificatie. Onze dataset is publiekelijk beschikbaar gemaakt voor onderzoeksdoeleinden op https://github.com/davidmchan/Anim400K.
Transformer-gebaseerde Large Language Models (LLMs) worden veelvuldig ingezet in diverse domeinen, en de efficiëntie van LLM-inferentie is een actueel onderwerp in praktische toepassingen. Echter, LLMs zijn doorgaans complex ontworpen in modelstructuur met een groot aantal operaties en voeren inferentie uit in de autoregressieve modus, wat het ontwerpen van een systeem met hoge efficiëntie tot een uitdagende taak maakt. In dit artikel presenteren we een efficiënte LLM-inferentieoplossing met lage latentie en hoge doorvoer. Ten eerste vereenvoudigen we de LLM-decoderlaag door gegevensverplaatsing en elementgewijze operaties te fuseren, waardoor de geheugentoegangsfrequentie wordt verminderd en de systeemlatentie wordt verlaagd. We introduceren ook een segment-KV-cachebeleid om de sleutel/waarde van de aanvraag- en responsetokens in afzonderlijk fysiek geheugen te houden voor effectief geheugenbeheer van het apparaat, wat helpt om de runtime-batchgrootte te vergroten en de systeemdoorvoer te verbeteren. Een aangepaste Scaled-Dot-Product-Attention-kernel is ontworpen om aan te sluiten bij ons fusiebeleid op basis van de segment-KV-cacheoplossing. We implementeren onze LLM-inferentieoplossing op Intel GPU en maken deze publiekelijk beschikbaar. In vergelijking met de standaard HuggingFace-implementatie behaalt de voorgestelde oplossing tot 7x lagere tokenlatentie en 27x hogere doorvoer voor enkele populaire LLMs op Intel GPU.