Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Bestaande vision-language modellen (VLMs) vertrouwen voornamelijk op vision-encoders om visuele kenmerken te extraheren, gevolgd door grote taalmodellen (LLMs) voor visueel-taalkundige taken. De vision-encoders leggen echter een sterke inductieve bias op bij het abstraheren van visuele representaties, zoals resolutie, beeldverhouding en semantische voorkennis, wat de flexibiliteit en efficiëntie van de VLMs kan belemmeren. Het trainen van pure VLMs die naadloze visuele en taalkundige invoer accepteren, dus zonder vision-encoders, blijft een uitdaging en is zelden onderzocht. Empirische observaties tonen aan dat direct trainen zonder encoders leidt tot langzame convergentie en grote prestatieverschillen. In dit werk overbruggen we de kloof tussen encoder-gebaseerde en encoder-vrije modellen en presenteren we een eenvoudig maar effectief trainingsrecept voor pure VLMs. Specifiek onthullen we de cruciale aspecten van het efficiënt trainen van encoder-vrije VLMs via grondige experimenten: (1) Het overbruggen van visueel-taalkundige representaties binnen één geïntegreerde decoder; (2) Het verbeteren van visuele herkenningscapaciteit via extra supervisie. Met deze strategieën lanceren we EVE, een encoder-vrij vision-language model dat efficiënt getraind en uitgevoerd kan worden. Opmerkelijk is dat EVE, met slechts 35M openbaar toegankelijke data, indrukwekkend kan concurreren met encoder-gebaseerde VLMs van vergelijkbare capaciteiten op meerdere vision-language benchmarks. Het presteert aanzienlijk beter dan het tegenhanger Fuyu-8B, dat mysterieuze trainingsprocedures en niet-openbaar gemaakte trainingsdata gebruikt. Wij geloven dat EVE een transparante en efficiënte route biedt voor de ontwikkeling van een pure decoder-only architectuur over verschillende modaliteiten. Onze code en modellen zijn openbaar beschikbaar op: https://github.com/baaivision/EVE.
Dit rapport introduceert FunAudioLLM, een modelenfamilie ontworpen om natuurlijke steminteracties tussen mensen en grote taalmodellen (LLMs) te verbeteren. De kern bestaat uit twee innovatieve modellen: SenseVoice, dat zich bezighoudt met meertalige spraakherkenning, emotieherkenning en audio-gebeurtenisdetectie; en CosyVoice, dat natuurlijke spraakgeneratie mogelijk maakt met controle over meerdere talen, timbre, spreekstijl en sprekeridentiteit. SenseVoice-Small biedt uitzonderlijk lage latentie voor automatische spraakherkenning (ASR) in 5 talen, en SenseVoice-Large ondersteunt ASR met hoge precisie voor meer dan 50 talen, terwijl CosyVoice uitblinkt in meertalige stemgeneratie, zero-shot in-context leren, cross-linguale stemklonen en instructievolgcapaciteiten. De modellen gerelateerd aan SenseVoice en CosyVoice zijn open-source gemaakt op Modelscope en Huggingface, samen met de bijbehorende trainings-, inferentie- en fine-tuningcodes die zijn vrijgegeven op GitHub. Door deze modellen te integreren met LLMs, maakt FunAudioLLM toepassingen mogelijk zoals spraak-naar-spraakvertaling, emotionele stemchat, interactieve podcasts en expressieve audioboekvertellingen, waardoor de grenzen van steminteractietechnologie worden verlegd. Demo's zijn beschikbaar op https://fun-audio-llm.github.io, en de code is toegankelijk op https://github.com/FunAudioLLM.
Self-attention presteert goed in lange contexten maar heeft een kwadratische complexiteit. Bestaande RNN-lagen hebben een lineaire complexiteit, maar hun prestaties in lange contexten worden beperkt door de expressieve kracht van hun verborgen toestand. Wij stellen een nieuwe klasse van sequentiemodelleringslagen voor met lineaire complexiteit en een expressieve verborgen toestand. Het kernidee is om de verborgen toestand zelf een machine learning-model te maken, en de update-regel een stap van zelfgesuperviseerd leren. Omdat de verborgen toestand wordt bijgewerkt door training, zelfs op testsequenties, worden onze lagen Test-Time Training (TTT) lagen genoemd. We beschouwen twee instantiaties: TTT-Linear en TTT-MLP, waarvan de verborgen toestand respectievelijk een lineair model en een tweelaags MLP is. We evalueren onze instantiaties op een schaal van 125M tot 1,3B parameters, in vergelijking met een sterke Transformer en Mamba, een moderne RNN. Zowel TTT-Linear als TTT-MLP evenaren of overtreffen de referentiemodellen. Net als Transformer, kunnen ze de perplexiteit blijven verlagen door zich te conditioneren op meer tokens, terwijl Mamba dat niet kan na een context van 16k. Met voorlopige systeemoptimalisaties is TTT-Linear al sneller dan Transformer bij een context van 8k en evenaart het Mamba in wall-clock tijd. TTT-MLP heeft nog steeds uitdagingen met geheugen-I/O, maar toont groter potentieel in lange contexten, wat wijst op een veelbelovende richting voor toekomstig onderzoek.
Vooruitgang in generatieve AI heeft het potentieel van Large Language Models (LLMs) voor de ontwikkeling van autonome agents uitgebreid. Het bereiken van echte autonomie vereist het verzamelen en bijwerken van kennis die wordt opgedaan uit interacties met de omgeving en het effectief benutten daarvan. Huidige LLM-gebaseerde benaderingen maken gebruik van eerdere ervaringen door middel van een volledige geschiedenis van observaties, samenvattingen of retrieval-augmentatie. Deze ongestructureerde geheugenrepresentaties faciliteren echter niet het redeneren en plannen dat essentieel is voor complexe besluitvorming. In onze studie introduceren we AriGraph, een nieuwe methode waarbij de agent een geheugengrafiek construeert die semantische en episodische herinneringen integreert tijdens het verkennen van de omgeving. Deze grafiekstructuur maakt efficiënte associatieve retrieval mogelijk van onderling verbonden concepten, relevant voor de huidige staat en doelen van de agent, en fungeert zo als een effectief omgevingsmodel dat de verkennings- en planningscapaciteiten van de agent verbetert. We tonen aan dat onze Ariadne LLM-agent, uitgerust met deze voorgestelde geheugenarchitectuur versterkt met plannings- en besluitvormingsmogelijkheden, complexe taken effectief afhandelt op een zero-shot basis in de TextWorld-omgeving. Onze aanpak overtreft aanzienlijk gevestigde methoden zoals volledige geschiedenis, samenvatting en Retrieval-Augmented Generation in diverse taken, waaronder de kookuitdaging van de First TextWorld Problems-competitie en nieuwe taken zoals huishoudelijk schoonmaken en de puzzel Treasure Hunting.
De recente opkomst van Medical Large Vision Language Models (Med-LVLMs) heeft de medische diagnose verbeterd. Huidige Med-LVLMs kampen echter vaak met feitelijke problemen, waarbij ze reacties genereren die niet overeenkomen met gevestigde medische feiten. Retrieval-Augmented Generation (RAG), dat gebruikmaakt van externe kennis, kan de feitelijke nauwkeurigheid van deze modellen verbeteren, maar introduceert twee grote uitdagingen. Ten eerste kunnen beperkte opgehaalde contexten niet alle benodigde informatie dekken, terwijl overmatige retrieval irrelevante en onnauwkeurige referenties kan introduceren, wat de generatie van het model verstoort. Ten tweede kan, in gevallen waarin het model oorspronkelijk correct reageert, het toepassen van RAG leiden tot een overmatige afhankelijkheid van opgehaalde contexten, wat resulteert in incorrecte antwoorden. Om deze problemen aan te pakken, stellen we RULE voor, dat uit twee componenten bestaat. Ten eerste introduceren we een bewezen effectieve strategie voor het beheersen van feitelijk risico door de gekalibreerde selectie van het aantal opgehaalde contexten. Ten tweede, gebaseerd op voorbeelden waarin overmatige afhankelijkheid van opgehaalde contexten tot fouten leidde, stellen we een voorkeursdataset samen om het model te finetunen, waardoor de afhankelijkheid van inherente kennis en opgehaalde contexten voor generatie in balans wordt gebracht. We demonstreren de effectiviteit van RULE op drie medische VQA-datasets, waarbij een gemiddelde verbetering van 20,8% in feitelijke nauwkeurigheid wordt bereikt. We maken onze benchmark en code openbaar op https://github.com/richard-peng-xia/RULE.
Gezien de alomtegenwoordigheid van grafieken als hulpmiddel voor data-analyse, visualisatie en besluitvorming in diverse industrieën en wetenschappen, is er een groeiende interesse in het ontwikkelen van vooraf getrainde foundation-modellen evenals algemene instructie-afgestemde modellen voor het begrijpen en redeneren over grafieken. Bestaande methoden hebben echter cruciale tekortkomingen op twee belangrijke aspecten die de prestaties van grafiekrepresentatiemodellen beïnvloeden: ze worden getraind op data gegenereerd uit de onderliggende datatabellen van de grafieken, waarbij de visuele trends en patronen in de grafiekafbeeldingen worden genegeerd, en ze gebruiken zwak uitgelijnde vision-language backbone-modellen voor domeinspecifieke training, wat hun generaliseerbaarheid beperkt bij het tegenkomen van grafieken in de praktijk. Wij pakken deze belangrijke tekortkomingen aan en introduceren ChartGemma, een nieuw model voor het begrijpen en redeneren over grafieken, ontwikkeld op basis van PaliGemma. In plaats van te vertrouwen op onderliggende datatabellen, wordt ChartGemma getraind op instructie-afstemmingsdata die rechtstreeks uit grafiekafbeeldingen wordt gegenereerd, waardoor zowel hoogwaardige trends als laagwaardige visuele informatie uit een diverse set grafieken wordt vastgelegd. Onze eenvoudige aanpak behaalt state-of-the-art resultaten op 5 benchmarks die grafieksamenvatting, vraagbeantwoording en feitencontrole omvatten, en onze uitgebreide kwalitatieve studies op real-world grafieken tonen aan dat ChartGemma realistischer en feitelijk correctere samenvattingen genereert in vergelijking met zijn tijdgenoten. We maken de code, modelcheckpoints, dataset en demo's beschikbaar op https://github.com/vis-nlp/ChartGemma.
Grote taalmodellen (LLMs) hebben indrukwekkende vooruitgang geboekt in het omgaan met eenvoudige wiskundige problemen, maar ze hebben nog steeds moeite met uitdagendere en complexere wiskundige taken. In dit artikel introduceren we een reeks LLMs die gebruikmaken van de Decompositie van gedachten met code-assistentie en zelfcorrectie voor wiskundig redeneren, genaamd DotaMath. DotaMath-modellen pakken complexe wiskundige taken aan door ze te ontbinden in eenvoudigere logische subtaken, code te gebruiken om deze subtaken op te lossen, fijnmazige feedback te verkrijgen van de code-interpreter, en zelfreflectie en correctie toe te passen. Door diverse interactieve trajecten van toolgebruik te annoteren en query-evolutie toe te passen op de GSM8K- en MATH-datasets, genereren we een instructie-finetuning-dataset genaamd DotaMathQA met 574K query-responsparen. We trainen een reeks basis-LLMs met imitatieleren op DotaMathQA, wat resulteert in DotaMath-modellen die opmerkelijke prestaties leveren in vergelijking met open-source LLMs op verschillende in-domein en out-of-domein benchmarks. Opvallend is dat DotaMath-deepseek-7B een uitstekende prestatie laat zien van 64,8% op de competitieve MATH-dataset en 86,7% op GSM8K. Daarnaast behoudt DotaMath-deepseek-7B een sterke concurrentiepositie op een reeks in-domein en out-of-domein benchmarks (gemiddeld 80,1%). Vooruitkijkend verwachten we dat het DotaMath-paradigma nieuwe wegen zal openen voor het aanpakken van ingewikkelde wiskundige problemen. Onze code is publiekelijk beschikbaar op https://github.com/ChengpengLi1003/DotaMath.
Mensen delen een breed scala aan afbeeldingen die verband houden met hun persoonlijke ervaringen tijdens gesprekken via instant messaging-tools. Bestaande onderzoeken richten zich echter op (1) het gedrag rond het delen van afbeeldingen in individuele sessies, wat leidt tot beperkte langetermijnsociale interactie, en (2) een gebrek aan gepersonaliseerd gedrag bij het delen van afbeeldingen. In dit werk introduceren we Stark, een grootschalige langetermijn multimodale gespreksdataset die een breed scala aan sociale persona's omvat in een multimodale vorm, tijdsintervallen en afbeeldingen. Om Stark automatisch te construeren, stellen we een nieuw multimodaal contextualisatiekader voor, Mcu, dat langetermijn multimodale dialogen genereert die zijn gedistilleerd uit ChatGPT en onze voorgestelde Plan-and-Execute afbeeldingsaligner. Met behulp van onze Stark trainen we een multimodaal gespreksmodel, Ultron 7B, dat indrukwekkende visuele verbeeldingskracht demonstreert. Bovendien tonen we de effectiviteit van onze dataset aan in menselijke evaluaties. We maken onze broncode en dataset publiekelijk beschikbaar.
Dit artikel introduceert LLM-jp, een cross-organisatorisch project voor het onderzoek en de ontwikkeling van Japanse grote taalmodellen (LLMs). LLM-jp heeft als doel open-source en krachtige Japanse LLMs te ontwikkelen, en op het moment van schrijven werken meer dan 1.500 deelnemers uit de academische wereld en de industrie samen voor dit doel. Dit artikel presenteert de achtergrond van de oprichting van LLM-jp, samenvattingen van haar activiteiten, en technische rapporten over de LLMs die door LLM-jp zijn ontwikkeld. Voor de laatste activiteiten, bezoek https://llm-jp.nii.ac.jp/en/.
Profiterend van de vooruitgang in grote taalmodellen en cross-modale afstemming, hebben bestaande multimodale video-begripmethoden opvallende prestaties bereikt in offline scenario's. Echter, online videostreams, als een van de meest voorkomende mediavormen in de echte wereld, hebben zelden aandacht gekregen. In vergelijking met offline video's, stelt de 'dynamische' aard van online videostreams uitdagingen voor de directe toepassing van bestaande modellen en introduceert nieuwe problemen, zoals de opslag van extreem langetermijninformatie, interactie tussen continue visuele inhoud en 'asynchrone' gebruikersvragen. Daarom presenteren we in dit artikel Flash-VStream, een video-taalmodel dat het geheugenmechanisme van de mens simuleert. Ons model is in staat om extreem lange videostreams in realtime te verwerken en tegelijkertijd te reageren op gebruikersvragen. In vergelijking met bestaande modellen, bereikt Flash-VStream aanzienlijke verminderingen in inferentielatentie en VRAM-verbruik, wat nauw samenhangt met het uitvoeren van begrip van online streamingvideo. Bovendien, gezien het feit dat bestaande video-begripbenchmarks zich voornamelijk concentreren op offline scenario's, stellen we VStream-QA voor, een nieuwe vraag-antwoordbenchmark specifiek ontworpen voor online videostreamingbegrip. Vergelijkingen met populaire bestaande methoden op de voorgestelde benchmark demonstreren de superioriteit van onze methode voor zo'n uitdagende setting. Om de generaliseerbaarheid van onze aanpak te verifiëren, evalueren we deze verder op bestaande video-begripbenchmarks en behalen we state-of-the-art prestaties in offline scenario's. Alle code, modellen en datasets zijn beschikbaar op https://invinciblewyq.github.io/vstream-page/.
Schaalbare toezichtsprotocollen hebben als doel om mensen in staat te stellen supermenselijke AI nauwkeurig te begeleiden. In dit artikel bestuderen we debat, waarbij twee AI's strijden om een rechter te overtuigen; consultatie, waarbij een enkele AI probeert een rechter die vragen stelt te overtuigen; en vergelijken we dit met een baseline van directe vraag-beantwoording, waarbij de rechter rechtstreeks antwoordt zonder de AI. We gebruiken grote taalmodelen (LLM's) zowel als AI-agents als als plaatsvervangers voor menselijke rechters, waarbij we de rechtermodellen zwakker nemen dan de agentmodellen. We benchmarken op een diverse reeks asymmetrieën tussen rechters en agents, waarbij we eerder werk over een enkele extractieve QA-taak met informatie-asymmetrie uitbreiden naar ook wiskunde, programmeren, logica en multimodale redeneerasymmetrieën. We ontdekken dat debat consultatie overtreft bij alle taken wanneer de consultant willekeurig wordt toegewezen om voor het juiste/onjuiste antwoord te pleiten. Bij het vergelijken van debat met directe vraag-beantwoording hangen de resultaten af van het type taak: bij extractieve QA-taken met informatie-asymmetrie presteert debat beter dan directe vraag-beantwoording, maar bij andere taken zonder informatie-asymmetrie zijn de resultaten gemengd. Eerder werk wees debaters/consultants een antwoord toe om voor te pleiten. Wanneer we hen in plaats daarvan laten kiezen voor welk antwoord ze willen pleiten, ontdekken we dat rechters minder vaak door het verkeerde antwoord worden overtuigd in debat dan in consultatie. Verder vinden we dat sterkere debatmodellen de nauwkeurigheid van de rechter verhogen, zij het bescheidener dan in eerdere studies.
LLM's staan erom bekend kwetsbaar te zijn voor jailbreak-aanvallen, zelfs na veiligheidsafstemming. Een belangrijke observatie is dat, hoewel verschillende soorten jailbreak-aanvallen aanzienlijk verschillende queries kunnen genereren, ze meestal resulteren in vergelijkbare antwoorden die geworteld zijn in dezelfde schadelijke kennis (bijvoorbeeld gedetailleerde stappen om een bom te maken). Daarom vermoeden we dat het direct afleren van de schadelijke kennis in de LLM een effectievere manier kan zijn om jailbreak-aanvallen te weerstaan dan de mainstream benaderingen gebaseerd op supervised fine-tuning (SFT). Onze uitgebreide experimenten bevestigden ons inzicht en suggereerden een verrassende generaliseerbaarheid van onze afleren-gebaseerde aanpak: door slechts 20 onbewerkte schadelijke vragen te gebruiken zonder enige jailbreak-prompt tijdens de training, verlaagde onze oplossing de Attack Success Rate (ASR) in Vicuna-7B op out-of-distribution (OOD) schadelijke vragen verpakt in verschillende complexe jailbreak-prompts van 82,6\% naar 7,7\%. Dit overtreft aanzienlijk Llama2-7B-Chat, dat is afgestemd op ongeveer 0,1 miljoen veiligheidsafstemmingsmonsters maar nog steeds een ASR heeft van 21,9\% zelfs met behulp van een extra veiligheidssysteemprompt. Verdere analyse onthult dat het generalisatievermogen van onze oplossing voortkomt uit de intrinsieke verwantschap tussen schadelijke antwoorden over verschillende schadelijke vragen (bijvoorbeeld responspatronen, gedeelde stappen en acties, en de gelijkenis tussen hun geleerde representaties in de LLM). Onze code is beschikbaar op https://github.com/thu-coai/SafeUnlearning.
Multimodale foundation models die tekst naast afbeeldingen, video, audio en andere sensorische modaliteiten holistisch kunnen verwerken, worden steeds vaker gebruikt in diverse real-world toepassingen. Het is echter uitdagend om vooruitgang in multimodale foundation models te karakteriseren en te bestuderen, gezien het brede scala aan mogelijke modelbeslissingen, taken en domeinen. In dit artikel introduceren we Holistic Evaluation of Multimodal Models (HEMM) om de capaciteiten van multimodale foundation models systematisch te evalueren aan de hand van drie dimensies: basisvaardigheden, informatieflow en real-world use cases. Basisvaardigheden voor multimodaliteit zijn interne vaardigheden die nodig zijn om problemen op te lossen, zoals het leren van interacties tussen modaliteiten, fijnmazige uitlijning, meerstaps redeneren en het vermogen om externe kennis te verwerken. Informatieflow onderzoekt hoe multimodale content verandert tijdens een taak door middel van querying, vertaling, bewerking en fusie. Use cases omvatten domeinspecifieke uitdagingen die worden geïntroduceerd in real-world multimedia, affectieve computing, natuurwetenschappen, gezondheidszorg en mens-computerinteractie toepassingen. Door middel van uitgebreide experimenten over de 30 taken in HEMM, (1) identificeren we belangrijke datasetdimensies (bijv. basisvaardigheden, informatieflows en use cases) die uitdagingen vormen voor de huidige modellen, en (2) destilleren we prestatie trends met betrekking tot hoe verschillende modeldimensies (bijv. schaal, pre-trainingsdata, multimodale uitlijning, pre-training en instructieafstemmingsdoelen) de prestaties beïnvloeden. Onze conclusies over uitdagende multimodale interacties, use cases en taken die redeneren en externe kennis vereisen, de voordelen van data- en modelschaal, en de impact van instructieafstemming leveren bruikbare inzichten op voor toekomstig werk in multimodale foundation models.
Neurale stralingsvelden (NeRFs) hebben aanzienlijke aandacht gekregen vanwege hun vermogen om hoogwaardige nieuwe weergaven te renderen, wat onderzoek heeft gestimuleerd om verschillende real-world scenario's aan te pakken. Een kritieke uitdaging is de bewegingsonscherpte van de camera veroorzaakt door camerabeweging tijdens de belichtingstijd, wat een nauwkeurige 3D-scène-reconstructie verhindert. In deze studie stellen we continue rigide beweging-gevoelig gaussisch splatting (CRiM-GS) voor om nauwkeurige 3D-scènes te reconstrueren uit onscherpe afbeeldingen met real-time renderingsnelheid. Gezien het werkelijke proces van camerabewegingsonscherpte, dat bestaat uit complexe bewegingspatronen, voorspellen we de continue beweging van de camera op basis van neurale gewone differentiaalvergelijkingen (ODEs). Specifiek maken we gebruik van rigide lichaams transformaties om de camerabeweging te modelleren met de juiste regularisatie, waardoor de vorm en grootte van het object behouden blijven. Bovendien introduceren we een continue vervormbare 3D-transformatie in het SE(3)-veld om de rigide lichaams transformatie aan te passen aan real-world problemen door een hogere mate van vrijheid te garanderen. Door fundamentele cameratheorie opnieuw te bekijken en geavanceerde technieken voor het trainen van neurale netwerken toe te passen, bereiken we een nauwkeurige modellering van continue cameratrajecten. We voeren uitgebreide experimenten uit, waarbij we state-of-the-art prestaties aantonen, zowel kwantitatief als kwalitatief, op benchmark datasets.
Vision Language Models (VLMs) maken snel vooruitgang in hun vermogen om informatiezoekende vragen te beantwoorden. Omdat deze modellen op grote schaal worden ingezet in consumententoepassingen, kunnen ze leiden tot nieuwe privacyrisico's vanwege opkomende mogelijkheden om mensen op foto's te identificeren, afbeeldingen te geoloceren, enzovoort. Zoals we aantonen, zijn huidige open-source en propriëtaire VLMs, enigszins verrassend, zeer capabele beeldgeolocators, waardoor wijdverspreide geolocatie met VLMs een direct privacyrisico vormt, in plaats van slechts een theoretische toekomstige zorg. Als eerste stap om deze uitdaging aan te pakken, ontwikkelen we een nieuwe benchmark, GPTGeoChat, om het vermogen van VLMs te testen om geolocatiedialogen met gebruikers te modereren. We verzamelen een set van 1.000 beeldgeolocatiegesprekken tussen interne annotators en GPT-4v, die zijn geannoteerd met de granulariteit van locatie-informatie die bij elke beurt wordt onthuld. Met behulp van deze nieuwe dataset evalueren we het vermogen van verschillende VLMs om GPT-4v-geolocatiegesprekken te modereren door te bepalen wanneer te veel locatie-informatie is onthuld. We constateren dat aangepaste, fijn afgestemde modellen even goed presteren als geprompte API-gebaseerde modellen bij het identificeren van gelekt locatie-informatie op het niveau van land of stad; voor het nauwkeurig modereren van fijnere granulariteiten, zoals de naam van een restaurant of gebouw, lijkt echter fijnafstemming op begeleide data nodig te zijn.