Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diffusiemodellen hebben opmerkelijke successen behaald in het genereren van afbeeldingen en video's. In dit werk tonen we aan dat diffusiemodellen ook hoogwaardige neurale netwerkparameters kunnen genereren. Onze aanpak is eenvoudig en maakt gebruik van een autoencoder en een standaard latent diffusiemodel. De autoencoder extraheert latente representaties van een subset van de getrainde netwerkparameters. Vervolgens wordt een diffusiemodel getraind om deze latente parameterrepresentaties te synthetiseren uit willekeurige ruis. Het genereert dan nieuwe representaties die door de decoder van de autoencoder worden geleid, waarvan de uitvoer direct kan worden gebruikt als nieuwe subsets van netwerkparameters. Over verschillende architecturen en datasets heen genereert ons diffusieproces consistent modellen met vergelijkbare of verbeterde prestaties ten opzichte van getrainde netwerken, tegen minimale extra kosten. Opvallend is dat we empirisch vaststellen dat de gegenereerde modellen anders presteren dan de getrainde netwerken. Onze resultaten moedigen verder onderzoek aan naar de veelzijdige toepassingen van diffusiemodellen.
We introduceren Generalized Instruction Tuning (genaamd GLAN), een algemene en schaalbare methode voor instruction tuning van Large Language Models (LLM's). In tegenstelling tot eerder werk dat vertrouwt op seed-voorbeelden of bestaande datasets om instruction tuning data te construeren, maakt GLAN uitsluitend gebruik van een vooraf samengestelde taxonomie van menselijke kennis en vaardigheden als input en genereert het grootschalige synthetische instruction data over alle disciplines. Specifiek, geïnspireerd door de systematische structuur in het menselijke onderwijssysteem, bouwen we de taxonomie door menselijke kennis en vaardigheden semi-automatisch te decomponeren naar verschillende velden, subvelden en uiteindelijk afzonderlijke disciplines, gefaciliteerd door LLM's. Vervolgens genereren we een uitgebreide lijst van onderwerpen voor elke discipline en gaan we over tot het ontwerpen van een syllabus op maat voor elk onderwerp, opnieuw met behulp van LLM's. Met de fijnmazige kernconcepten die gedetailleerd zijn in elke les van de syllabus, zijn we in staat om diverse instructies te genereren met een brede dekking over het hele spectrum van menselijke kennis en vaardigheden. Uitgebreide experimenten op grote taalmodellen (bijv. Mistral) tonen aan dat GLAN uitblinkt in meerdere dimensies, van wiskundig redeneren, coderen, academische examens, logisch redeneren tot het algemeen volgen van instructies, zonder gebruik te maken van taakspecifieke trainingsdata van deze taken. Daarnaast maakt GLAN eenvoudige aanpassing mogelijk en kunnen nieuwe velden of vaardigheden worden toegevoegd door simpelweg een nieuw knooppunt in onze taxonomie op te nemen.
We introduceren VideoPrism, een universele video-encoder die diverse videobegriptaken aanpakt met een enkel bevroren model. We pretrainen VideoPrism op een heterogene corpus die 36 miljoen hoogwaardige video-onderschriftparen en 582 miljoen videoclips met ruwe parallelle tekst (bijv. ASR-transcripten) bevat. De pretrainingsaanpak verbetert gemaskeerde auto-encodering door globale-lokale distillatie van semantische video-embeddings en een token-shuffeling-schema, waardoor VideoPrism zich voornamelijk kan richten op de videomodaliteit terwijl het de onschatbare tekst die aan video's is gekoppeld benut. We testen VideoPrism uitgebreid op vier brede groepen videobegriptaken, van webvideo-vraagbeantwoording tot CV voor wetenschap, en behalen state-of-the-art prestaties op 30 van de 33 videobegripbenchmarks.
De meeste modellen voor videobijschriften zijn ontworpen om korte videoclips van enkele seconden te verwerken en tekst uit te voeren die visuele concepten op laag niveau beschrijft (bijv. objecten, scènes, atomische acties). Echter, de meeste video's in de echte wereld duren minuten of uren en hebben een complexe hiërarchische structuur die verschillende temporele granulariteiten omvat. Wij stellen Video ReCap voor, een recursief model voor videobijschriften dat video-invoer van sterk uiteenlopende lengtes (van 1 seconde tot 2 uur) kan verwerken en videobijschriften op meerdere hiërarchieniveaus kan uitvoeren. De recursieve video-taalarchitectuur benut de synergie tussen verschillende videohiërarchieën en kan urenlange video's efficiënt verwerken. We gebruiken een curriculumleren-trainingsschema om de hiërarchische structuur van video's te leren, beginnend met clipniveau-bijschriften die atomische acties beschrijven, vervolgens gericht op segmentniveau-beschrijvingen, en eindigend met het genereren van samenvattingen voor urenlange video's. Bovendien introduceren we de Ego4D-HCap-dataset door Ego4D aan te vullen met 8.267 handmatig verzamelde langetermijnvideo-samenvattingen. Ons recursieve model kan flexibel bijschriften genereren op verschillende hiërarchieniveaus en is ook nuttig voor andere complexe videobegriptaken, zoals VideoQA op EgoSchema. Data, code en modellen zijn beschikbaar op: https://sites.google.com/view/vidrecap.
Om grote taalmodellen (LLM)-gebaseerde assistenten effectief te laten inspelen op veranderende informatiebehoeften, moet het mogelijk zijn om hun feitelijke kennis bij te werken door voortdurende training op nieuwe gegevens. De standaardaanpak hiervoor bestaat uit voortgezet vooraf trainen op nieuwe documenten, gevolgd door instructie-afstemming op vraag-antwoord (QA) paren. Wij constateren echter dat LLM's die met deze aanpak zijn getraind, moeite hebben om vragen te beantwoorden, ondanks dat de perplexiteit van documenten wordt geminimaliseerd. Wij ontdekten dat QA-paren over het algemeen eenvoudig zijn, terwijl documenten complexer zijn en veel feitelijke uitspraken op een ingewikkelde manier met elkaar verweven. Daarom stellen wij de hypothese op dat het gunstig is om LLM's eerst bloot te stellen aan QA-paren voordat ze voortgezet worden voorgetraind op documenten, zodat het proces van het coderen van kennis uit complexe documenten rekening houdt met hoe deze kennis wordt opgevraagd via vragen. Op basis hiervan stellen wij pre-instructie-afstemming (PIT) voor, een methode die eerst instructie-afstemming uitvoert op vragen voordat er wordt getraind op documenten. Dit staat in contrast met standaard instructie-afstemming, waarbij wordt geleerd hoe kennis moet worden geëxtraheerd na training op documenten. Uitgebreide experimenten en ablatiestudies tonen aan dat PIT het vermogen van LLM's om kennis uit nieuwe documenten op te nemen aanzienlijk verbetert, met een verbetering van 17,8% ten opzichte van standaard instructie-afstemming.
LLM's hebben NLP getransformeerd en laten veelbelovende resultaten zien in diverse vakgebieden, maar hun potentieel in de financiële sector is onderbelicht vanwege een gebrek aan grondige evaluaties en de complexiteit van financiële taken. Dit, in combinatie met de snelle ontwikkeling van LLM's, benadrukt de dringende behoefte aan een systematisch financieel evaluatiebenchmark voor LLM's. In dit artikel introduceren we FinBen, de eerste uitgebreide open-source evaluatiebenchmark, specifiek ontworpen om de capaciteiten van LLM's in het financiële domein grondig te beoordelen. FinBen omvat 35 datasets over 23 financiële taken, georganiseerd in drie moeilijkheidsgraden geïnspireerd door de Cattell-Horn-Carroll-theorie, om de cognitieve vaardigheden van LLM's te evalueren op het gebied van inductief redeneren, associatief geheugen, kwantitatief redeneren, gekristalliseerde intelligentie en meer. Onze evaluatie van 15 representatieve LLM's, waaronder GPT-4, ChatGPT en de nieuwste Gemini, onthult inzichten in hun sterke en zwakke punten binnen het financiële domein. De bevindingen tonen aan dat GPT-4 leidt in kwantificering, extractie, numeriek redeneren en aandelenhandel, terwijl Gemini uitblinkt in generatie en voorspelling; beide hebben echter moeite met complexe extractie en voorspelling, wat een duidelijke behoefte aan gerichte verbeteringen aantoont. Instructieafstemming verbetert de prestaties bij eenvoudige taken, maar schiet tekort in het verbeteren van complexe redeneer- en voorspellingsvaardigheden. FinBen streeft ernaar om LLM's in de financiële sector continu te evalueren, waarbij de ontwikkeling van AI wordt bevorderd met regelmatige updates van taken en modellen.
In dit artikel stellen we een algoritme voor dat gezamenlijke verfijning van camerapositie en scènegeometrie, vertegenwoordigd door een ontbonden laag-rang tensor, mogelijk maakt, waarbij alleen 2D-beelden als supervisie worden gebruikt. Eerst voeren we een pilotstudie uit op basis van een 1D-signaal en relateren we onze bevindingen aan 3D-scenario's, waar naïeve gezamenlijke pose-optimalisatie op voxelgebaseerde NeRF's gemakkelijk kan leiden tot suboptimale oplossingen. Bovendien stellen we, gebaseerd op de analyse van het frequentiespectrum, voor om convolutionele Gauss-filters toe te passen op 2D- en 3D-stralingsvelden voor een grof-naar-fijn trainingsschema dat gezamenlijke camerapose-optimalisatie mogelijk maakt. Door gebruik te maken van de ontbindingseigenschap in de ontbonden laag-rang tensor, bereikt onze methode een equivalent effect aan brute-force 3D-convolutie met slechts een minimale rekenkundige overhead. Om de robuustheid en stabiliteit van de gezamenlijke optimalisatie verder te verbeteren, stellen we ook technieken voor van gladgestrekte 2D-supervisie, willekeurig geschaalde kernelparameters en een randgeleid verliesmasker. Uitgebreide kwantitatieve en kwalitatieve evaluaties tonen aan dat ons voorgestelde framework superieure prestaties bereikt in nieuwe weergavesynthese, evenals snelle convergentie voor optimalisatie.
Dit artikel presenteert een neurale architectuur genaamd MVDiffusion++ voor 3D-objectreconstructie, die dichte en hoogresolutiebeelden van een object synthetiseert op basis van één of enkele afbeeldingen zonder cameraposities. MVDiffusion++ bereikt superieure flexibiliteit en schaalbaarheid met twee verrassend eenvoudige ideeën: 1) Een "pose-vrije architectuur" waarbij standaard zelf-attentie tussen 2D latente kenmerken 3D-consistentie leert over een willekeurig aantal conditionele en generatiebeelden zonder expliciet gebruik te maken van camerapositie-informatie; en 2) Een "view dropout-strategie" die een aanzienlijk aantal uitvoerbeelden tijdens de training weglaat, wat het geheugengebruik tijdens de training vermindert en dichte en hoogresolutiebeeldsynthese mogelijk maakt tijdens de testfase. We gebruiken de Objaverse voor training en de Google Scanned Objects voor evaluatie met standaard metrieken voor nieuwe beeldsynthese en 3D-reconstructie, waarbij MVDiffusion++ de huidige state-of-the-art aanzienlijk overtreft. We demonstreren ook een tekst-naar-3D-toepassingsvoorbeeld door MVDiffusion++ te combineren met een tekst-naar-beeld generatief model.
Tastzin is een belangrijk zintuiglijk vermogen voor mensen, maar het is nog niet geïntegreerd in een multimodaal generatief taalmodel. Dit komt deels door de moeilijkheid om natuurlijke taal labels te verkrijgen voor tactiele data en de complexiteit van het afstemmen van tactiele metingen op zowel visuele waarnemingen als taal beschrijvingen. Als een stap in de richting van het overbruggen van deze kloof introduceert dit werk een nieuwe dataset van 44K vision-touch paren uit de praktijk, met Engelse taal labels geannoteerd door mensen (10%) en tekstuele pseudo-labels van GPT-4V (90%). We gebruiken deze dataset om een vision-language-afgestemde tactiele encoder te trainen voor open-vocabulary classificatie en een touch-vision-language (TVL) model voor tekstgeneratie met behulp van de getrainde encoder. Resultaten suggereren dat door het integreren van tastzin, het TVL-model de touch-vision-language afstemming verbetert (+29% classificatie nauwkeurigheid) ten opzichte van bestaande modellen die getraind zijn op elk paar van die modaliteiten. Hoewel slechts een klein deel van de dataset door mensen is gelabeld, toont het TVL-model een verbeterd visueel-tactiel begrip ten opzichte van GPT-4V (+12%) en open-source vision-language modellen (+32%) op een nieuwe touch-vision begrip benchmark. Code en data: https://tactile-vlm.github.io.
Samenvatting van nieuws uit één document heeft de afgelopen jaren aanzienlijke vooruitgang geboekt op het gebied van betrouwbaarheid, gedreven door onderzoek naar de evaluatie van feitelijke consistentie, of hallucinaties. We vragen ons af of deze vooruitgang ook van toepassing is op andere domeinen van tekstsamenvatting. We stellen een nieuwe evaluatiebenchmark voor op het gebied van topicgerichte dialoogsamenvatting, gegenereerd door LLM's van verschillende groottes. We bieden binaire, op zinsniveau geannoteerde menselijke beoordelingen van de feitelijke consistentie van deze samenvattingen, samen met gedetailleerde uitleg van feitelijk inconsistente zinnen. Onze analyse toont aan dat bestaande LLM's aanzienlijke hoeveelheden feitelijke fouten hallucineren in het dialoogdomein, ongeacht de grootte van het model. Aan de andere kant presteren LLM's, inclusief GPT-4, slecht wanneer ze dienen als binaire feitelijke evaluatoren, en kunnen ze worden overtroffen door heersende state-of-the-art gespecialiseerde metrieken voor feitelijkheidsevaluatie. Ten slotte hebben we een analyse uitgevoerd van hallucinatietypes met een uitgewerkte foutentaxonomie. We constateren dat er diverse fouten en foutverdelingen zijn in modelgegenereerde samenvattingen en dat niet-LLM-gebaseerde metrieken alle fouttypen beter kunnen vastleggen dan LLM-gebaseerde evaluatoren.
Het handmatig creëren van texturen voor 3D-meshes is tijdrovend, zelfs voor ervaren visuele contentmakers. Wij stellen een snelle aanpak voor om automatisch een input 3D-mesh te textureren op basis van een door de gebruiker opgegeven tekstprompt. Belangrijk is dat onze aanpak belichting loskoppelt van het oppervlaktemateriaal/reflectie in de resulterende textuur, zodat de mesh correct opnieuw belicht en gerenderd kan worden in elke lichtomgeving. We introduceren LightControlNet, een nieuw tekst-naar-beeldmodel gebaseerd op de ControlNet-architectuur, dat de specificatie van de gewenste belichting mogelijk maakt als een conditionerende afbeelding voor het model. Onze tekst-naar-textuurpipeline construeert vervolgens de textuur in twee fasen. De eerste fase produceert een spaarse set van visueel consistente referentiebeelden van de mesh met behulp van LightControlNet. De tweede fase past een textuuroptimalisatie toe gebaseerd op Score Distillation Sampling (SDS) die samenwerkt met LightControlNet om de textuurkwaliteit te verhogen terwijl het oppervlaktemateriaal wordt losgekoppeld van de belichting. Onze pipeline is aanzienlijk sneller dan eerdere tekst-naar-textuurmethoden, terwijl het hoogwaardige en herbelichtbare texturen produceert.
De opmerkelijke vooruitgang in Multimodale Grote Taalmodellen (MLLMs) heeft hen niet immuun gemaakt voor uitdagingen, met name in de context van het omgaan met misleidende informatie in prompts, wat resulteert in hallucinerende antwoorden onder dergelijke omstandigheden. Om deze kwetsbaarheid kwantitatief te beoordelen, presenteren we MAD-Bench, een zorgvuldig samengestelde benchmark die 850 testvoorbeelden bevat, verdeeld in 6 categorieën, zoals niet-bestaande objecten, aantal objecten, ruimtelijke relaties en visuele verwarring. We bieden een uitgebreide analyse van populaire MLLMs, variërend van GPT-4V, Gemini-Pro, tot open-source modellen zoals LLaVA-1.5 en CogVLM. Empirisch observeren we aanzienlijke prestatieverschillen tussen GPT-4V en andere modellen; en eerder robuuste instructie-getrainde modellen, zoals LRV-Instruction en LLaVA-RLHF, zijn niet effectief op deze nieuwe benchmark. Terwijl GPT-4V een nauwkeurigheid van 75,02% behaalt op MAD-Bench, varieert de nauwkeurigheid van elk ander model in onze experimenten van 5% tot 35%. We stellen verder een oplossing voor die een extra paragraaf toevoegt aan de misleidende prompts om modellen aan te moedigen twee keer na te denken voordat ze de vraag beantwoorden. Verrassend genoeg kan deze eenvoudige methode de nauwkeurigheid zelfs verdubbelen; echter, de absolute aantallen zijn nog steeds te laag om bevredigend te zijn. We hopen dat MAD-Bench kan dienen als een waardevolle benchmark om verder onderzoek te stimuleren om de veerkracht van modellen tegen misleidende prompts te verbeteren.
Diffusiemodellen hebben opmerkelijke vooruitgang geboekt in tekst-naar-beeldgeneratie. Bestaande modellen hebben echter nog steeds veel moeite wanneer ze worden geconfronteerd met de generatie van composities met meerdere objecten. In dit artikel stellen we een nieuw trainingsvrij en overdraagbaar tekst-naar-beeldgeneratiekader voor, genaamd RealCompo, dat als doel heeft de voordelen van tekst-naar-beeld- en lay-out-naar-beeldmodellen te benutten om zowel de realiteit als de compositionaliteit van de gegenereerde beelden te verbeteren. Een intuïtieve en nieuwe balancer wordt voorgesteld om de sterke punten van de twee modellen dynamisch in evenwicht te brengen tijdens het denoisingsproces, waardoor plug-and-play gebruik van elk model mogelijk is zonder extra training. Uitgebreide experimenten tonen aan dat onze RealCompo consistent beter presteert dan state-of-the-art tekst-naar-beeldmodellen en lay-out-naar-beeldmodellen in de generatie van composities met meerdere objecten, terwijl de realiteit en compositionaliteit van de gegenereerde beelden bevredigend blijven. De code is beschikbaar op https://github.com/YangLing0818/RealCompo.