Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Cambrian-1, een familie van multimodale LLM's (MLLM's) ontworpen met een visie-gerichte aanpak. Hoewel sterkere taalmodelen multimodale mogelijkheden kunnen verbeteren, worden de ontwerpkeuzes voor visuele componenten vaak onvoldoende onderzocht en losgekoppeld van onderzoek naar visuele representatieleer. Deze kloof belemmert een nauwkeurige zintuiglijke verankering in realistische scenario's. Onze studie gebruikt LLM's en visuele instructie-afstemming als een interface om verschillende visuele representaties te evalueren, wat nieuwe inzichten biedt in verschillende modellen en architecturen -- zelf-gesuperviseerd, sterk gesuperviseerd, of combinaties daarvan -- gebaseerd op experimenten met meer dan 20 visuele encoders. We onderzoeken kritisch bestaande MLLM-benchmarks, waarbij we de moeilijkheden bespreken die gepaard gaan met het consolideren en interpreteren van resultaten van diverse taken, en introduceren een nieuwe visie-gerichte benchmark, CV-Bench. Om de visuele verankering verder te verbeteren, stellen we de Spatial Vision Aggregator (SVA) voor, een dynamische en ruimtelijk-bewuste connector die hoogwaardige visuele kenmerken integreert met LLM's terwijl het aantal tokens wordt verminderd. Daarnaast bespreken we het samenstellen van hoogwaardige visuele instructie-afstemmingsgegevens uit openbaar beschikbare bronnen, waarbij we het belang benadrukken van het balanceren van gegevensbronnen en de verdelingsratio. Collectief bereikt Cambrian-1 niet alleen state-of-the-art prestaties, maar dient het ook als een uitgebreid, open kookboek voor instructie-afgestemde MLLM's. We bieden modelgewichten, code, ondersteunende tools, datasets en gedetailleerde instructie-afstemmings- en evaluatierecepten. We hopen dat onze release vooruitgang in multimodale systemen en visuele representatieleer zal inspireren en versnellen.
Gepersonaliseerde beeldgeneratie belooft veel in het ondersteunen van mensen in het dagelijkse werk en leven vanwege zijn indrukwekkende functie in het creatief genereren van gepersonaliseerde content. Huidige evaluaties zijn echter ofwel geautomatiseerd maar niet afgestemd op mensen, of vereisen menselijke evaluaties die tijdrovend en kostbaar zijn. In dit werk presenteren we DreamBench++, een op mensen afgestemde benchmark geautomatiseerd door geavanceerde multimodale GPT-modellen. Specifiek ontwerpen we systematisch de prompts om GPT zowel op mensen als op zichzelf af te stemmen, versterkt met taakversterking. Verder construeren we een uitgebreide dataset bestaande uit diverse afbeeldingen en prompts. Door 7 moderne generatieve modellen te benchmarken, tonen we aan dat DreamBench++ resulteert in een aanzienlijk meer op mensen afgestemde evaluatie, wat de gemeenschap helpt te stimuleren met innovatieve bevindingen.
Geautomatiseerde software-engineering is aanzienlijk versterkt door de recente vooruitgang in Large Language Models (LLMs) voor programmeren. Hoewel huidige benchmarks hebben aangetoond dat LLMs verschillende software-engineeringtaken kunnen uitvoeren zoals menselijke ontwikkelaars, zijn de meeste van hun evaluaties beperkt tot korte en zelfstandige algoritmische taken. Het oplossen van uitdagende en praktische programmeertaken vereist het vermogen om diverse functieaanroepen te gebruiken als tools om functionaliteiten zoals data-analyse en webontwikkeling efficiënt te implementeren. Bovendien vereist het gebruik van meerdere tools om een taak op te lossen compositioneel redeneren door complexe instructies nauwkeurig te begrijpen. Het vervullen van beide kenmerken kan een grote uitdaging vormen voor LLMs. Om te beoordelen hoe goed LLMs uitdagende en praktische programmeertaken kunnen oplossen, introduceren we Bench, een benchmark die LLMs uitdaagt om meerdere functieaanroepen als tools aan te roepen uit 139 bibliotheken en 7 domeinen voor 1.140 fijnmazige programmeertaken. Om LLMs rigoureus te evalueren, omvat elke programmeertaak 5,6 testgevallen met een gemiddelde branch coverage van 99%. Daarnaast stellen we een op natuurlijke taal gerichte variant van Bench voor, Benchi, die de oorspronkelijke docstrings automatisch omzet in korte instructies met alleen essentiële informatie. Onze uitgebreide evaluatie van 60 LLMs toont aan dat LLMs nog niet in staat zijn om complexe instructies te volgen om functieaanroepen precies te gebruiken, met scores tot 60%, wat aanzienlijk lager is dan de menselijke prestaties van 97%. De resultaten benadrukken de noodzaak van verdere vooruitgang op dit gebied.
Retrievalmodellen worden vaak geëvalueerd op gedeeltelijk geannoteerde datasets. Elke query wordt gekoppeld aan enkele relevante teksten, en de rest van het corpus wordt als irrelevant beschouwd. Als gevolg daarvan worden modellen die succesvol valse negatieven ophalen, gestraft tijdens de evaluatie. Helaas is het volledig annoteren van alle teksten voor elke query niet efficiënt in termen van middelen. In dit werk tonen we aan dat het gebruik van gedeeltelijk geannoteerde datasets in evaluaties een vertekend beeld kan geven. We hebben D-MERIT samengesteld, een evaluatieset voor passage retrieval van Wikipedia, met als doel alle relevante passages voor elke query te bevatten. Queries beschrijven een groep (bijvoorbeeld "tijdschriften over taalkunde") en relevante passages zijn bewijs dat entiteiten tot de groep behoren (bijvoorbeeld een passage die aangeeft dat Language een tijdschrift over taalkunde is). We laten zien dat evalueren op een dataset die alleen annotaties bevat voor een subset van de relevante passages kan leiden tot misleidende rangschikking van de retrievalsystemen, en dat naarmate meer relevante teksten worden opgenomen in de evaluatieset, de rangschikkingen convergeren. We stellen onze dataset voor als een bron voor evaluatie en onze studie als een aanbeveling voor een balans tussen efficiënt gebruik van middelen en betrouwbare evaluatie bij het annoteren van evaluatiesets voor tekstretrieval.
Videosequenties bieden waardevolle temporele informatie, maar bestaande grote multimodale modellen (LMMs) schieten tekort in het begrijpen van extreem lange video's. Veel onderzoeken pakken dit aan door het aantal visuele tokens te verminderen met behulp van visuele resamplers. In dit artikel benaderen we dit probleem echter vanuit het perspectief van het taalmodel. Door simpelweg de contextlengte van het taalmodel uit te breiden, stellen we LMMs in staat om een veelvoud aan visuele tokens te begrijpen zonder enige videotraining. We noemen dit fenomeen 'long context transfer' en onderzoeken zorgvuldig de eigenschappen ervan. Om effectief te meten hoe goed LMMs kunnen generaliseren naar lange contexten in de visuele modaliteit, ontwikkelen we V-NIAH (Visual Needle-In-A-Haystack), een puur synthetische benchmark voor lange visuele contexten, geïnspireerd op de NIAH-test voor taalmodelen. Onze voorgestelde Long Video Assistant (LongVA) kan 2000 frames of meer dan 200K visuele tokens verwerken zonder extra complexiteit. Met zijn uitgebreide contextlengte behaalt LongVA state-of-the-art prestaties op Video-MME onder 7B-schaalmodellen door meer invoerframes dicht te bemonsteren. Ons werk is open-source beschikbaar op https://github.com/EvolvingLMMs-Lab/LongVA.
Diffusiemodellen hebben recentelijk opmerkelijke resultaten behaald voor videogeneratie. Ondanks de bemoedigende prestaties zijn de gegenereerde video's doorgaans beperkt tot een klein aantal frames, wat resulteert in clips van slechts enkele seconden. De belangrijkste uitdagingen bij het produceren van langere video's zijn de aanzienlijke geheugenvereisten en de langere verwerkingstijd die nodig is op een enkele GPU. Een eenvoudige oplossing zou zijn om de werklast over meerdere GPU's te verdelen, wat echter twee problemen met zich meebrengt: (1) ervoor zorgen dat alle GPU's effectief communiceren om timing- en contextinformatie te delen, en (2) bestaande videodiffusiemodellen, die meestal getraind zijn op korte sequenties, aanpassen om langere video's te creëren zonder aanvullende training. Om deze problemen aan te pakken, introduceren we in dit artikel Video-Infinity, een gedistribueerd inferentiepijplijn die parallelle verwerking over meerdere GPU's mogelijk maakt voor de generatie van lange video's. Specifiek stellen we twee samenhangende mechanismen voor: Clip-parallelisme en Dual-scope aandacht. Clip-parallelisme optimaliseert het verzamelen en delen van contextinformatie over GPU's, wat de communicatie-overhead minimaliseert, terwijl Dual-scope aandacht de temporele zelf-attentie moduleert om lokale en globale contexten efficiënt over de apparaten te balanceren. Samen werken deze twee mechanismen samen om de werklast te verdelen en de snelle generatie van lange video's mogelijk te maken. Onder een opstelling van 8 x Nvidia 6000 Ada GPU's (48G) genereert onze methode video's van maximaal 2.300 frames in ongeveer 5 minuten, waardoor lange videogeneratie mogelijk wordt gemaakt met een snelheid die 100 keer hoger is dan bij eerdere methoden.
Recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) heeft hun mogelijkheden uitgebreid naar videobegrip. Toch worden deze modellen vaak geplaagd door "hallucinaties", waarbij irrelevante of onzinnige inhoud wordt gegenereerd, wat afwijkt van de werkelijke videocontext. Dit werk introduceert VideoHallucer, de eerste uitgebreide benchmark voor het detecteren van hallucinaties in grote video-taalmodellen (LVLMs). VideoHallucer categoriseert hallucinaties in twee hoofdtypen: intrinsiek en extrinsiek, met verdere subcategorieën voor gedetailleerde analyse, waaronder object-relatie, temporele, semantische detail-, extrinsieke feitelijke en extrinsieke niet-feitelijke hallucinaties. We hanteren een adversariële binaire VideoQA-methode voor een uitgebreide evaluatie, waarbij paren van basis- en gehallucineerde vragen strategisch worden opgesteld. Door elf LVLMs te evalueren op VideoHallucer, onthullen we dat i) de meeste huidige modellen aanzienlijke problemen hebben met hallucinaties; ii) hoewel het schalen van datasets en parameters het vermogen van modellen verbetert om basisvisuele aanwijzingen en tegenfeitelijkheden te detecteren, biedt het beperkt voordeel voor het detecteren van extrinsieke feitelijke hallucinaties; iii) bestaande modellen zijn beter in het detecteren van feiten dan in het identificeren van hallucinaties. Als bijproduct leiden deze analyses verder tot de ontwikkeling van ons zelf-PEP-framework, wat een gemiddelde verbetering van 5,38% oplevert in hallucinatieresistentie over alle modelarchitecturen.
Reinforcement learning from human feedback (RLHF) richt grote taalmmodellen (LLMs) af door hun generaties aan te moedigen hoge beloningen te behalen, met behulp van een beloningsmodel dat is getraind op menselijke voorkeuren. Om het vergeten van vooraf getrainde kennis te voorkomen, neemt RLHF meestal een KL-regularisatie op; dit dwingt het beleid om dicht bij zijn gecontroleerde, fijn afgestelde initiële instelling te blijven, hoewel het de beloningsoptimalisatie belemmert. Om de afweging tussen KL en beloning aan te pakken, introduceren we in dit artikel een nieuwe afstemmingsstrategie genaamd Weight Averaged Rewarded Policies (WARP). WARP combineert beleidsmodellen in de gewichtsruimte in drie verschillende fasen. Ten eerste gebruikt het het exponentieel voortschrijdend gemiddelde van het beleid als een dynamisch anker in de KL-regularisatie. Ten tweede past het sferische interpolatie toe om onafhankelijk fijn afgestelde beleidsmodellen samen te voegen tot een nieuw, verbeterd model. Ten derde interpoleert het lineair tussen dit samengevoegde model en de initiële instelling om kenmerken uit de voorafgaande training te herstellen. Deze procedure wordt vervolgens iteratief toegepast, waarbij het eindmodel van elke iteratie wordt gebruikt als een geavanceerde initiële instelling voor de volgende, waardoor de KL-beloning Pareto-front geleidelijk wordt verfijnd en superieure beloningen worden behaald bij een vaste KL. Experimenten met GEMMA-beleidsmodellen valideren dat WARP hun kwaliteit en afstemming verbetert, en presteert beter dan andere open-source LLMs.
De interesse in lineaire complexiteitsmodellen voor grote taalmodelen neemt toe, hoewel hun schaalbaarheid nog onzeker is. In deze studie presenteren we de schaalwetten voor lineaire complexiteitsmodellen om een basis te leggen voor hun schaalbaarheid. Specifiek onderzoeken we de schaalgedragingen van drie efficiënte lineaire architecturen. Deze omvatten TNL, een lineair aandachtmodel met data-onafhankelijk verval; HGRN2, een lineair RNN met data-afhankelijk verval; en cosFormer2, een lineair aandachtmodel zonder verval. We nemen ook LLaMA op als een baseline-architectuur voor softmax-aandacht ter vergelijking. Deze modellen werden getraind met zes varianten, variërend van 70M tot 7B parameters op een corpus van 300B tokens, en geëvalueerd met in totaal 1.376 tussenliggende checkpoints op verschillende downstream taken. Deze taken omvatten validatieverlies, gezond verstand redeneren, en informatie retrieval en generatie. De studie onthult dat bestaande lineaire complexiteitsmodellen vergelijkbare schaalbaarheidsmogelijkheden vertonen als conventionele transformer-gebaseerde modellen, terwijl ze ook superieure taalkundige vaardigheid en kennisretentie demonstreren.
Grote taalmmodellen (LLMs) hebben een revolutie teweeggebracht in natuurlijke taalverwerking en hun toepasbaarheid uitgebreid naar diverse commerciële toepassingen. De inzet van deze modellen wordt echter beperkt door de hoge inferentietijd in meertalige omgevingen. Om deze uitdaging te mitigeren, onderzoekt dit artikel een trainingsmethode voor een assistent-model in speculatieve decodering, waarbij het model wordt gebruikt om tokens te ontwerpen die vervolgens worden geverifieerd door het doel-LLM. We tonen aan dat taalspecifieke ontwerpmodellen, geoptimaliseerd via een gerichte vooraf-trainen-en-finetunen strategie, een aanzienlijke versnelling van de inferentietijd opleveren in vergelijking met eerdere methoden. We valideren deze modellen in verschillende talen op het gebied van inferentietijd, snelheidsverbetering buiten het domein en GPT-4o-evaluatie.
Voortdurende voorafgaande training is steeds meer de overheersende aanpak geworden voor het aanpassen van grote taalmodelen (LLMs) aan nieuwe domeinen. Dit proces omvat het bijwerken van het vooraf getrainde LLM met een corpus uit een nieuw domein, wat resulteert in een verschuiving in de trainingsdistributie. Om het gedrag van LLMs tijdens deze verschuiving te bestuderen, hebben we de prestaties van het model gedurende het voortdurende voorafgaande trainingsproces gemeten. We observeerden een tijdelijke prestatievermindering aan het begin, gevolgd door een herstelfase, een fenomeen dat bekend staat als de "stabiliteitskloof," eerder opgemerkt in vision-modellen die nieuwe klassen classificeren. Om dit probleem aan te pakken en de prestaties van LLMs binnen een vast rekenbudget te verbeteren, stellen we drie effectieve strategieën voor: (1) Voortdurend vooraf trainen van het LLM op een subset met een geschikte grootte voor meerdere epochs, wat resulteert in een sneller prestatieherstel dan het vooraf trainen van het LLM op een groot corpus in een enkele epoch; (2) Vooraf trainen van het LLM alleen op een hoogwaardig sub-corpus, wat snel de domeinprestaties verbetert; en (3) Gebruikmaken van een datamengsel dat vergelijkbaar is met de voorafgaande trainingsdata om de distributiekloof te verkleinen. We voeren verschillende experimenten uit op Llama-familie modellen om de effectiviteit van onze strategieën te valideren, zowel in medische voortdurende voorafgaande training als in instructieafstemming. Onze strategieën verbeteren bijvoorbeeld de gemiddelde medische taakprestatie van het OpenLlama-3B model van 36,2% naar 40,7% met slechts 40% van het oorspronkelijke trainingsbudget en verbeteren de gemiddelde algemene taakprestatie zonder vergeten te veroorzaken. Bovendien passen we onze strategieën toe op het Llama-3-8B model. Het resulterende model, Llama-3-Physician, behaalt de beste medische prestaties onder de huidige open-source modellen en presteert vergelijkbaar met of zelfs beter dan GPT-4 op verschillende medische benchmarks. We geven onze modellen vrij op https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
Het efficiënt verwerken van lange sequenties in autoregressieve Transformers, vooral binnen een uitgebreid contextvenster, vormt aanzienlijke uitdagingen vanwege de kwadratische computationele complexiteit en de aanzienlijke geheugenvereisten voor KV (key-value) die inherent zijn aan self-attention-mechanismen. In dit werk introduceren we SPARSEK Attention, een nieuw sparse attention-mechanisme dat ontworpen is om deze computationele en geheugenbelemmeringen te overwinnen terwijl de prestaties behouden blijven. Onze aanpak integreert een scoringsnetwerk en een differentieerbare top-k-maskeroperator, SPARSEK, om een constant aantal KV-paren voor elke query te selecteren, waardoor op gradienten gebaseerde optimalisatie mogelijk wordt. Hierdoor biedt SPARSEK Attention een lineaire tijdcomplexiteit en een constant geheugengebruik tijdens generatie. Experimentele resultaten tonen aan dat SPARSEK Attention eerdere sparse attention-methoden overtreft en aanzienlijke snelheidsverbeteringen biedt tijdens zowel training als inferentie, met name bij taalmodellering en downstream-taken. Bovendien kan onze methode naadloos worden geïntegreerd in vooraf getrainde Large Language Models (LLMs) met minimale fine-tuning, wat een praktische oplossing biedt voor het effectief beheren van langeafstandsafhankelijkheden in diverse toepassingen.
Naarmate grote taalmodelen (LLM's) steeds meer doordringen in het dagelijks leven, is er een groeiende vraag naar real-time interacties die menselijke gesprekken weerspiegelen. Traditionele beurtgebaseerde chatsystemen die door LLM's worden aangedreven, voorkomen dat gebruikers verbaal met het systeem kunnen interageren terwijl het antwoorden genereert. Om deze beperkingen te overwinnen, passen we bestaande LLM's aan naar duplexmodellen, zodat deze LLM's naar gebruikers kunnen luisteren terwijl ze output genereren en zich dynamisch kunnen aanpassen om gebruikers directe feedback te bieden. % zoals in reactie op onderbrekingen. Specifiek verdelen we de vragen en antwoorden van gesprekken in verschillende tijdssegmenten en passen we een time-division-multiplexing (TDM) encoderings-decoderingstrategie toe om deze segmenten pseudo-gelijktijdig te verwerken. Bovendien bouwen we, om LLM's voldoende bekwaam te maken voor het afhandelen van real-time gesprekken, een fine-tuningdataset die bestaat uit afwisselende tijdssegmenten van vragen en antwoorden, evenals typische feedbacktypes in momentane interacties. Onze experimenten tonen aan dat, hoewel de vragen en antwoorden van gesprekken in onvolledige segmenten worden verdeeld voor verwerking, LLM's hun oorspronkelijke prestaties op standaardbenchmarks kunnen behouden met enkele fine-tuningstappen op onze dataset. Automatische en menselijke evaluatie geven aan dat duplexmodellen gebruikers-AI-interacties natuurlijker en menselijker maken en de gebruikers tevredenheid aanzienlijk verbeteren in vergelijking met standaard LLM's. Ons duplexmodel en de dataset zullen worden vrijgegeven.
Wij stellen semantische entropieprobes (SEPs) voor, een goedkope en betrouwbare methode voor onzekerheidskwantificering in Large Language Models (LLMs). Hallucinaties, die plausibel klinkende maar feitelijk onjuiste en willekeurige modelgeneraties zijn, vormen een grote uitdaging voor de praktische toepassing van LLMs. Recent werk van Farquhar et al. (2024) introduceert semantische entropie (SE), die hallucinaties kan detecteren door onzekerheid in de ruimte van semantische betekenis te schatten voor een reeks modelgeneraties. De 5 tot 10-voudige toename in rekenkosten die gepaard gaat met SE-berekening belemmert echter de praktische adoptie. Om dit aan te pakken, stellen wij SEPs voor, die SE direct benaderen vanuit de verborgen toestanden van een enkele generatie. SEPs zijn eenvoudig te trainen en vereisen niet het bemonsteren van meerdere modelgeneraties tijdens de testfase, waardoor de overhead van semantische onzekerheidskwantificering tot bijna nul wordt gereduceerd. Wij tonen aan dat SEPs een hoge prestaties behouden voor hallucinatiedetectie en beter generaliseren naar out-of-distribution data dan eerdere probing-methoden die direct modelnauwkeurigheid voorspellen. Onze resultaten over modellen en taken suggereren dat verborgen toestanden van het model SE vastleggen, en onze ablatiestudies geven verder inzicht in de tokenposities en modellagen waarvoor dit het geval is.
Het detoxificeren van meertalige Large Language Models (LLMs) is cruciaal geworden vanwege hun toenemende wereldwijde gebruik. In dit werk onderzoeken we zero-shot cross-linguale generalisatie van voorkeursafstemming bij het detoxificeren van LLMs. In tegenstelling tot eerdere studies die beperkte cross-linguale generalisatie voor andere veiligheidstaken aantonen, laten wij zien dat Direct Preference Optimization (DPO) training met alleen Engelse data de toxiciteit in meertalige open-einde generaties aanzienlijk kan verminderen. Zo daalt bijvoorbeeld de kans dat mGPT-1.3B giftige vervolgingen genereert van 46,8% naar 3,9% over 17 verschillende talen na training. Onze resultaten zijn ook van toepassing op andere meertalige LLMs, zoals BLOOM, Llama3 en Aya-23. Met behulp van mechanistische interpretatietools zoals causale interventie en activatie-analyse hebben we de duale meertaligheidseigenschap van MLP-lagen in LLMs geïdentificeerd, wat de cross-linguale generalisatie van DPO verklaart. Tot slot tonen we aan dat tweetalige zinsretrieval de cross-linguale overdraagbaarheid van DPO-voorkeursafstemming kan voorspellen.
Ondanks hun wijdverbreide gebruik, blijven de mechanismen waarmee grote taalmmodellen (LLMs) onzekerheid in voorspellingen van volgende tokens representeren en reguleren grotendeels onontgonnen. Deze studie onderzoekt twee kritieke componenten waarvan wordt aangenomen dat ze deze onzekerheid beïnvloeden: de recent ontdekte entropieneuronen en een nieuwe set componenten die we tokenfrequentieneuronen noemen. Entropieneuronen worden gekenmerkt door een ongebruikelijk hoge gewichtsnorm en beïnvloeden de schaal van de laatste laagnormalisatie (LayerNorm) om de logits effectief te verkleinen. Ons werk toont aan dat entropieneuronen werken door te schrijven naar een oningebedde nulruimte, waardoor ze de norm van de reststroom kunnen beïnvloeden met een minimaal direct effect op de logits zelf. We observeren de aanwezigheid van entropieneuronen in een reeks modellen, tot wel 7 miljard parameters. Aan de andere kant versterken of onderdrukken tokenfrequentieneuronen, die we hier voor het eerst ontdekken en beschrijven, de logit van elk token evenredig met zijn logfrequentie, waardoor de uitvoerdistributie naar of weg van de unigramdistributie verschuift. Tot slot presenteren we een gedetailleerde casestudy waarin entropieneuronen actief het vertrouwen beheren in de context van inductie, d.w.z. het detecteren en voortzetten van herhaalde subreeksen.
Hoewel Large Language Models (LLM's) steeds krachtiger worden, vertonen ze nog steeds significante maar subtiele zwakheden, zoals fouten in het opvolgen van instructies of coderings taken. Aangezien deze onverwachte fouten tot ernstige gevolgen kunnen leiden in praktische toepassingen, is het cruciaal om de beperkingen binnen LLM's systematisch te onderzoeken. Traditionele benchmarkmethoden kunnen specifieke modeltekortkomingen niet grondig aanwijzen, terwijl handmatige inspecties kostbaar en niet schaalbaar zijn. In dit artikel introduceren we een uniform raamwerk, AutoDetect, om automatisch zwakheden in LLM's bloot te leggen bij verschillende taken. Geïnspireerd door het onderwijsbeoordelingsproces dat de leerresultaten van studenten meet, bestaat AutoDetect uit drie LLM-aangedreven agents: Examiner, Questioner en Assessor. De samenwerking tussen deze drie agents is ontworpen om uitgebreide en diepgaande identificatie van zwakheden te realiseren. Ons raamwerk toont aanzienlijk succes in het blootleggen van gebreken, met een identificatiesuccespercentage van meer dan 30% in prominente modellen zoals ChatGPT en Claude. Belangrijker nog, deze geïdentificeerde zwakheden kunnen specifieke modelverbeteringen sturen, wat effectiever blijkt dan niet-gerichte data-augmentatiemethoden zoals Self-Instruct. Onze aanpak heeft geleid tot substantiële verbeteringen in populaire LLM's, waaronder de Llama-serie en Mistral-7b, waardoor hun prestaties met meer dan 10% zijn verbeterd op verschillende benchmarks. Code en data zijn publiek beschikbaar op https://github.com/thu-coai/AutoDetect.
Wat maakt een goed Large Language Model (LLM)? Dat het goed presteert op de relevante benchmarks – die hopelijk met enige validiteit meten of de capaciteiten aanwezig zijn die ook in echte toepassingen worden uitgedaagd. Maar wat zorgt ervoor dat het model goed presteert? Wat geeft een model zijn vaardigheden? We nemen een recent geïntroduceerd type benchmark dat bedoeld is om capaciteiten uit te dagen in een doelgericht, agentief context door middel van zelfspel van conversatiespellen, en analyseren hoe de prestaties zich ontwikkelen als functie van modelkenmerken zoals het aantal parameters of het type training. We constateren dat er weliswaar een duidelijk verband bestaat tussen het aantal parameters en de prestaties, maar dat er binnen een gegeven groottecategorie nog steeds een grote spreiding van prestatiepunten is, wat verklaard kan worden door trainingsparameters zoals de kwaliteit en methode van fine-tuning. Vanuit een meer praktisch perspectief vinden we ook een zekere mate van onvoorspelbaarheid in prestaties tussen verschillende toegangsmethoden, mogelijk door onbekende samplingparameters, en een zeer welkome prestatiestabiliteit tegen ten minste matige gewichtskwantisatie tijdens inferentie.
Hoogwaardige 3D-kledingsynthese vanuit tekst is wenselijk maar uitdagend voor het creëren van digitale avatars. Recente op diffusie gebaseerde benaderingen via Score Distillation Sampling (SDS) hebben nieuwe mogelijkheden geboden, maar zijn ofwel nauw verbonden met het menselijk lichaam of moeilijk te hergebruiken. Wij introduceren ClotheDreamer, een op 3D Gaussiaanse modellen gebaseerde methode voor het genereren van draagbare, productieklare 3D-kledingassets vanuit tekstprompts. We stellen een nieuwe representatie voor, genaamd Disentangled Clothe Gaussian Splatting (DCGS), om afzonderlijke optimalisatie mogelijk te maken. DCGS representeert een geklede avatar als één Gaussiaans model, maar bevriest de Gaussiaanse splats van het lichaam. Om de kwaliteit en volledigheid te verbeteren, integreren we bidirectionele SDS om de geklede avatar en RGBD-renderingen van kleding respectievelijk te begeleiden met pose-condities en stellen we een nieuwe snoeistrategie voor voor losse kleding. Onze aanpak ondersteunt ook aangepaste kledingsjablonen als invoer. Dankzij ons ontwerp kan de synthetische 3D-kleding eenvoudig worden toegepast op virtuele passessies en fysiek nauwkeurige animaties ondersteunen. Uitgebreide experimenten tonen de superieure en competitieve prestaties van onze methode aan. Onze projectpagina is te vinden op https://ggxxii.github.io/clothedreamer.
Schaalbare robotlerning in de echte wereld wordt beperkt door de kosten en veiligheidsproblemen van echte robots. Bovendien kan het uitrollen van robotbanen in de echte wereld tijdrovend en arbeidsintensief zijn. In dit artikel stellen we voor om een interactieve simulator voor echte robotacties te leren als alternatief. We introduceren een nieuwe methode, IRASim, die gebruikmaakt van de kracht van generatieve modellen om uiterst realistische video's te genereren van een robotarm die een gegeven actiebaan uitvoert, startend vanuit een initieel gegeven frame. Om de effectiviteit van onze methode te valideren, creëren we een nieuwe benchmark, de IRASim Benchmark, gebaseerd op drie datasets van echte robots, en voeren we uitgebreide experimenten uit op de benchmark. De resultaten tonen aan dat IRASim alle baseline-methoden overtreft en meer wordt geprefereerd in menselijke evaluaties. We hopen dat IRASim kan dienen als een effectieve en schaalbare aanpak om robotlerning in de echte wereld te verbeteren. Om onderzoek naar generatieve simulators voor echte robotacties te bevorderen, maken we de code, benchmark en checkpoints openbaar op https://gen-irasim.github.io.
Spraakbegrip als onderdeel van het meer algemene videobegrip met behulp van audio-visuele grote taalmodellen (av-LLM's) is een cruciaal maar onderbelicht aspect. Dit artikel introduceert video-SALMONN, een enkel end-to-end av-LLM voor videoverwerking, dat niet alleen visuele frame-sequenties, audio-gebeurtenissen en muziek kan begrijpen, maar ook spraak. Om de fijnmazige temporele informatie die nodig is voor spraakbegrip te verkrijgen, terwijl het efficiënt blijft voor andere video-elementen, stelt dit artikel een nieuwe multi-resolutie causale Q-Former (MRC Q-Former) structuur voor om vooraf getrainde audio-visuele encoders te verbinden met het backbone grote taalmodel. Bovendien worden specifieke trainingsbenaderingen voorgesteld, waaronder de diversiteitsverliesfunctie en het ongepaarde audio-visuele gemengde trainingsschema, om dominantie van frames of modaliteiten te voorkomen. Op het geïntroduceerde spraak-audio-visuele evaluatiebenchmark behaalt video-SALMONN meer dan 25\% absolute nauwkeurigheidsverbeteringen op de video-QA-taak en meer dan 30\% absolute nauwkeurigheidsverbeteringen op audio-visuele QA-taken met menselijke spraak. Daarnaast toont video-SALMONN opmerkelijke videobegrip en redeneervaardigheden op taken die ongekend zijn voor andere av-LLM's. Onze trainingscode en modelcheckpoints zijn beschikbaar op \url{https://github.com/bytedance/SALMONN/}.
Grote taalmodellen (LLMs), zelfs wanneer ze specifiek zijn getraind om lange invoercontexten te verwerken, hebben moeite om relevante informatie die zich in het midden van hun invoer bevindt, vast te leggen. Dit fenomeen staat bekend als het lost-in-the-middle-probleem. In dit werk doen we drie bijdragen. Ten eerste streven we ernaar de factoren te begrijpen die dit fenomeen veroorzaken. Hierbij leggen we een verband tussen lost-in-the-middle en de intrinsieke aandachtbias van LLMs: LLMs vertonen een U-vormige aandachtbias waarbij de tokens aan het begin en het einde van de invoer meer aandacht krijgen, ongeacht hun relevantie. Ten tweede verminderen we deze positionele bias door een kalibratiemechanisme, found-in-the-middle, dat het model in staat stelt om contexten trouw te volgen volgens hun relevantie, zelfs wanneer deze zich in het midden bevinden. Ten derde laten we zien dat found-in-the-middle niet alleen betere prestaties levert in het lokaliseren van relevante informatie binnen een lange context, maar uiteindelijk ook leidt tot verbeterde prestaties bij retrieval-augmented generation (RAG) over verschillende taken, waarbij bestaande methoden met tot wel 15 procentpunten worden overtroffen. Deze bevindingen openen toekomstige richtingen in het begrijpen van de aandachtbias van LLMs en de mogelijke gevolgen daarvan.
Ondanks recente vooruitgang in Large Language Models (LLMs), blijft hun prestaties bij taken met lange contexten suboptimaal. In-Context Learning (ICL) met few-shot voorbeelden kan een aantrekkelijke oplossing zijn om de prestaties van LLMs in dit scenario te verbeteren. Echter, het naïef toevoegen van ICL-voorbeelden met lange context brengt uitdagingen met zich mee, waaronder een aanzienlijke token-overhead voor elk few-shot voorbeeld en een contextmismatch tussen de demonstraties en de doelquery. In dit werk stellen we voor om automatisch few-shot voorbeelden te genereren voor lange context QA-taken door contexten te recyclen. Specifiek, gegeven een lange invoercontext (1-3k tokens) en een query, genereren we aanvullende query-uitvoerparen uit de gegeven context als few-shot voorbeelden, terwijl we de context slechts één keer introduceren. Dit zorgt ervoor dat de demonstraties dezelfde context gebruiken als de doelquery, terwijl slechts een klein aantal tokens aan de prompt wordt toegevoegd. We verbeteren elke demonstratie verder door het model te instrueren om expliciet de relevante alinea's te identificeren voordat het antwoord wordt gegeven, wat de prestaties verbetert en tegelijkertijd een fijnmazige toeschrijving aan de antwoordbron biedt. We passen onze methode toe op meerdere LLMs en behalen aanzienlijke verbeteringen (+23\% gemiddeld over de modellen) op verschillende QA-datasets met lange context, vooral wanneer het antwoord in het midden van de context ligt. Verrassend genoeg, ondanks het introduceren van slechts single-hop ICL-voorbeelden, generaliseren LLMs ook succesvol naar multi-hop lange-context QA met onze aanpak.
Score distillation sampling is van cruciaal belang geweest voor het integreren van diffusiemodellen in de generatie van complexe visuals. Ondanks indrukwekkende resultaten lijdt het aan mode collapse en een gebrek aan diversiteit. Om deze uitdaging het hoofd te bieden, maken we gebruik van de gradient flow interpretatie van score distillation om Repulsive Score Distillation (RSD) voor te stellen. In het bijzonder stellen we een variatieraamwerk voor dat gebaseerd is op de afstoting van een ensemble van deeltjes, wat diversiteit bevordert. Door een variatiebenadering te gebruiken die een koppeling tussen deeltjes incorporeert, verschijnt de afstoting als een eenvoudige regularisatie die interactie tussen deeltjes mogelijk maakt op basis van hun relatieve paarsgewijze gelijkenis, gemeten bijvoorbeeld via radiale basisfuncties. We ontwerpen RSD voor zowel onbeperkte als beperkte sampling scenario's. Voor beperkte sampling richten we ons op inverse problemen in de latente ruimte, wat leidt tot een uitgebreide variatieformulering die een goede balans vindt tussen rekenkracht, kwaliteit en diversiteit. Onze uitgebreide experimenten voor tekst-naar-beeldgeneratie en inverse problemen tonen aan dat RSD een superieure balans bereikt tussen diversiteit en kwaliteit in vergelijking met state-of-the-art alternatieven.
In dit rapport stellen we de volgende vraag: Wie is tot op heden het meest intelligente AI-model, gemeten aan de hand van de OlympicArena (een Olympisch, multidisciplinair, multimodaal benchmark voor superintelligente AI)? We richten ons specifiek op de meest recent uitgebrachte modellen: Claude-3.5-Sonnet, Gemini-1.5-Pro en GPT-4o. Voor het eerst stellen we voor om een Olympische medailletabel te gebruiken om AI-modellen te rangschikken op basis van hun algehele prestaties in verschillende disciplines. Empirische resultaten laten het volgende zien: (1) Claude-3.5-Sonnet toont een zeer competitieve algehele prestatie ten opzichte van GPT-4o, en overtreft GPT-4o zelfs in enkele vakken (namelijk Natuurkunde, Scheikunde en Biologie). (2) Gemini-1.5-Pro en GPT-4V staan direct achter GPT-4o en Claude-3.5-Sonnet, maar met een duidelijk prestatieverschil tussen hen. (3) De prestaties van AI-modellen uit de open-sourcegemeenschap blijven aanzienlijk achter bij deze propriëtaire modellen. (4) De prestaties van deze modellen op deze benchmark zijn minder bevredigend, wat aangeeft dat we nog een lange weg te gaan hebben voordat we superintelligentie bereiken. We blijven toegewijd aan het continu volgen en evalueren van de prestaties van de nieuwste krachtige modellen op deze benchmark (beschikbaar op https://github.com/GAIR-NLP/OlympicArena).